반응형

PyPDF2 맛보기

가끔 pdf파일에서 텍스트를 추출할 일이 있다.
그때 활용할 수 있도록 Python언어로 pdf파일에서 텍스트를 읽어오는 방법에 대해 예제 코드와 함께 알아본다.

 

1. 필요한 라이브러리

PDF파일을 읽어들이기 위해 PyPDF2 라이브러리를 설치한다.

!pip install PyPDF2

2. 예시 코드

공개된 사이트에서 PDF파일을 갖고 온다. 
이번에는 국토교통부 홈에 있는 보도자료에 바로 올라온 '주택건설사업 인허가 속도 높인다'라는 제목의 파일을 읽어들일 것이다. 쉽게 설명하기 위해 주 디렉토리에 'sample.pdf'라는 파일명으로 다운받아 저장했다.

# 라이브러리를 읽어들인다.
from PyPDF2 import PdfReader

# PDF파일을 읽어서 reader라는 변수에 저장한다.
reader = PdfReader("sample.pdf")

파일을 읽어들인 후에는 전체 페이지가 몇 페이지인지 알아보고 전체 페이지에서 다음과 같이 텍스트를 추출하도록 한다.

반응형
pages = reader.pages

text = ""

for page in pages:
    sub = page.extract_text()
    text += sub
    
# 텍스트를 전부 잘 추출했는지 확인한다.    
print(text)

위 예시 파일에서 텍스트를 잘 읽어들인 것을 확인할 수 있다.

PyPDF의 좀 더 복잡한 기능은 '사용자 가이드'를 참고하면 많은 도움이 될 것이다.

 

반응형

+ Recent posts