본문 바로가기

전체 글

(96)
파이썬을 이용한 PDF 텍스트 추출: PyPDF2 라이브러리 활용 가이드 PyPDF2 맛보기 가끔 pdf파일에서 텍스트를 추출할 일이 있다. 그때 활용할 수 있도록 Python언어로 pdf파일에서 텍스트를 읽어오는 방법에 대해 예제 코드와 함께 알아본다. 1. 필요한 라이브러리 PDF파일을 읽어들이기 위해 PyPDF2 라이브러리를 설치한다. !pip install PyPDF2 2. 예시 코드 공개된 사이트에서 PDF파일을 갖고 온다. 이번에는 국토교통부 홈에 있는 보도자료에 바로 올라온 '주택건설사업 인허가 속도 높인다'라는 제목의 파일을 읽어들일 것이다. 쉽게 설명하기 위해 주 디렉토리에 'sample.pdf'라는 파일명으로 다운받아 저장했다. # 라이브러리를 읽어들인다. from PyPDF2 import PdfReader # PDF파일을 읽어서 reader라는 변수에 저장..
FinanceDataReader를 사용해 FRED 경기선행 지수 데이터 확인하기 FRED에서 제공하는 API를 통해 데이터를 받아 사용하면 FRED의 데이터 소스에 변화가 있더라도 바로 바로 대응이 가능하겠지만, 그 정도로 데이터를 보는 사람이라면 이 정보가 필요없을 것이다. 나처럼 쉽게 경기선행 지표를 확인하고자 하는 사람들이 참고했으면 좋겠다. 먼저 관련 라이브러리를 설정하고 읽어들인다. # matplotlib 설정(그래프 그리기) import matplotlib.pyplot as plt plt.rcParams['axes.grid'] = True plt.rcParams['figure.figsize'] = (12,6) plt.rcParams['axes.unicode_minus'] = False plt.rcParams['axes.formatter.limits'] = -10000, 1..
스트레스와 브레인포그 : 이해하고 대처하기 브레인포그(brain fog) : 머리가 멍해지면서 기억력을 비롯한 인지기능과 집중력, 주의력 등이 저하되는 상태 스트레를 많이 받으면 우리 몸은 긴장 반응으로 인해 코르티솔과 아드레날린 등의 호르몬을 분비한다. 이 상태가 지속되면 온몸의 혈관이 수축되어 혈압은 오르고 온몸이 저리게 되면서 브레인 포그 특유의 멍한 느낌을 만들어 낸다. 이 글에서는 브레인 포그를 진단하고 대처하는 방법에 대해 알아보자. 1. 브레인포그 진단하기 자기 인식 자신의 마음 상태가 어떤지, 그런 상태를 불러오는 행동이 무엇인지 깨닫는 데서부터 시작하도록 한다. 브레인포그를 겪는 것은 목까지 차오르는 물속을 걷는 것과 같다. 머릿속의 안개는 분명 걷어낼 수 있다. 그 첫 단계는 잠시 멈추고 내게 도움이 되지 않는 행동패턴이 무엇인..
최근의 웹 스크래핑에 대해 웹스크래핑은 인터넷에서 수집할 수 있는 비정형화된 데이터를 다루는 기술이라고 할 수 있다. 비정형화된 데이터는 데이터베이스에 저장될 수 있는 템플릿에 맞는 데이터 모델이 아니라, 다양항 포멧으로 된 데이터라고 보면 된다. 웹에서 얻을 수 있는 텍스트, 이미지, 오디오, 비디오 또는 다른 형태의 조합들을 모두 말한다고 할 수 있다. 웹스크래핑은 인터넷으로부터 분석하거나 연구를 수행하기 위해 방대한 데이터들을 수집하고 추출할 수 있도록 해주는 매우 유용한 기술이다. 데이터 사이언티스트 또는 엔지니어들이 데이터를 모으거나, 효과적인 의사결정을 위해 비즈니스에 도움이 되는 정보들을 추출할 수 있도록 해준다. 웹 스크래핑은 언제나 다이나믹하다고 생각한다. 왜냐하면 많은 웹사이트들이 계속 업데이트되고, 새로운 기술..
누구도 나를 파괴할 수 없다 - 멋진 삶의 자세 죽기 전까지 살아가면서 타협하고, 안주하려는 본능을 극복하기 위해 필요한 정신을 잘 알려주고 있다. 마음 속에 간직하고 실천한다면 삶이 바뀔 것이라고 믿는다. 인간은 학습과 습관과 스토리를 통해 변화한다. 현실과 직면하여 자신을 책임지고, 과거의 고통을 극복하고, 두려움의 대상을 사랑하는 법을 배우고, 실패를 즐기고, 모든 잠재력을 끌어내고, 당신이 정말로 어떤 사람인지 알아낼 힘을 부여하도록 하라. 1장 성공의 연료 : 당신을 고통스럽게 하는 것은 무엇인가 고통 목록을 만들어라, 나를 망치는 것들을 직시하기 일기를 써보자. 다이어리가 없다면 구입한다. 노트북, 태블릿, 스마트폰의 노트 앱을 이용해도 좋다. 모든 것을 자세히 기록해야 한다. 이 과제에 뜨뜻미지근하게 임할 생각은 마라. 상처를 받았다면, ..
알고리즘을 적용해 프로그램을 효율화하자 알고리즘 : 어떤 문제를 풀기 위한 절차나 방법, 구체적으로 어떤 문제가 주어진 '입력' 정보를 원하는 '출력(답)' 정보로 만드는 일련의 과정을 말함. 1부터 n까지 연속한 정수의 합을 구하는 알고리즘1 1부터 n까지 숫자를 차례로 더하는 방법을 사용함 def sum_n(n) : s = 0 # 합을 계산할 변수 for i in range(1, n+1): # 1부터 n까지 반복(n+1은 제외) s = s + i return s sum_n(10) 55 1부터 n까지 연속한 정수의 합을 구하는 알고리즘2 수학자 가우스의 계산 방법을 사용함 def sum_n(n): return n * (n+1)//2 # 슬래시 두개는 정수 나눗셈을 의미 알고리즘 1과 2를 비교했을 때, 숫자가 커지면 커질수록 알고리즘2가 더..
Time Series 관련 함수들과 kaggle data API 설정 Timestamp Timestamp()는 시간의 단일 시점을 나타낸다. 파이썬 datetime.datetime 객체와 동일한 기능을 한다. date 또는 datetime 스트링과 함께 pd.Timestamp() 함수를 사용해 Timestamp 객체를 만들 수 있다. import pandas as pd timestamp_ex = pd.Timestamp('2023-09-10 12:00:00') Period Period()는 하루, 한달, 또는 일년과 같이 시간의 일정 기간을 나타낸다. date 또는 datetime 스트링과 빈도(freq)와 함께 pd.Period() 함수를 사용해 Period 객체를 만들 수 있다. period_ex = pd.Period('2023-10', freq='M') Timedelt..
시작하는 습관 - 세스 고딘 시작하는 것의 중요성에 대해 간략하지만 단호하고, 확실하게 전달해 주는 책이다. 두려워하지 말고 시작하자. 그리고 끝까지 가보자. 아래는 '시작하는 습관'에서 중요하게 마음에 와닿은 구절들이다. 경제는 역동적으로 움직인다. 그러나 우리는 경제가 멈춰 있는 것처럼 생각하고 행동한다. '일은 돌아가는 세상을 따라잡기 위한 것이 아니다. 일은 세상을 돌아가게 만들기 위한 것이다.' 아래 6가지 규칙은 실패하지 않기 위해 중요하다. 아는 것이다. 시장을 알고, 기회를 알며, 자신이 누구인지를 알아야 한다. 배우는 것이다. 주위의 상황을 이해할 수 있도록 배워야 한다. 연결되는 것이다. 일하는 동안 신뢰받을 수 있도록 관계를 유지해야 한다. 한결같은 것이다. 시스템이 다음 일을 예상할 수 있도록 한결같아야 한다...