파이썬을 이용한 PDF 텍스트 추출: PyPDF2 라이브러리 활용 가이드

가끔 pdf파일에서 텍스트를 추출할 일이 있다.
그때 활용할 수 있도록 Python언어로 pdf파일에서 텍스트를 읽어오는 방법에 대해 예제 코드와 함께 알아본다.

PDF파일을 읽어들이기 위해 PyPDF2 라이브러리를 설치한다.

!pip install PyPDF2

공개된 사이트에서 PDF파일을 갖고 온다.
이번에는 국토교통부 홈에 있는 보도자료에 바로 올라온 '주택건설사업 인허가 속도 높인다'라는 제목의 파일을 읽어들일 것이다. 쉽게 설명하기 위해 주 디렉토리에 'sample.pdf'라는 파일명으로 다운받아 저장했다.

# 라이브러리를 읽어들인다.
from PyPDF2 import PdfReader

# PDF파일을 읽어서 reader라는 변수에 저장한다.
reader = PdfReader("sample.pdf")

파일을 읽어들인 후에는 전체 페이지가 몇 페이지인지 알아보고 전체 페이지에서 다음과 같이 텍스트를 추출하도록 한다.

pages = reader.pages

text = ""

for page in pages:
    sub = page.extract_text()
    text += sub
    
# 텍스트를 전부 잘 추출했는지 확인한다.    
print(text)

위 예시 파일에서 텍스트를 잘 읽어들인 것을 확인할 수 있다.

PyPDF의 좀 더 복잡한 기능은 '사용자 가이드'를 참고하면 많은 도움이 될 것이다.

오픈소스 AI와 파이썬을 사용해 날씨 정보 기반 음성 비서 에이전트 개발하기 (0)	2025.04.08
Claude MCP 가이드: 실시간 정보로 AI 성능 높이는 Model Context Protocol 설정 및 활용 2025 (4)	2025.04.04
FinanceDataReader를 사용해 FRED 경기선행 지수 데이터 확인하기 (0)	2023.10.25
파이썬으로 연습해보는 퀀트 투자 - 듀얼 모멘텀 중 상대 모멘텀 전략 (0)	2023.09.19
파이썬으로 연습해보는 퀀트 투자 - 듀얼 모멘텀 중 절대 모멘텀 전략 (0)	2023.09.13

내게 필요한 정보들(금융 정보와 파이썬, 옵시디언, DIY)