반응형

Timestamp

Timestamp()는 시간의 단일 시점을 나타낸다. 파이썬 datetime.datetime 객체와 동일한 기능을 한다. date 또는 datetime  스트링과 함께 pd.Timestamp() 함수를 사용해  Timestamp 객체를 만들 수 있다.

import pandas as pd
timestamp_ex = pd.Timestamp('2023-09-10 12:00:00')

Period

Period()는 하루, 한달, 또는 일년과 같이 시간의 일정 기간을 나타낸다. date 또는 datetime  스트링과 빈도(freq)와 함께 pd.Period() 함수를 사용해  Period 객체를 만들 수 있다.

period_ex = pd.Period('2023-10', freq='M')

Timedelta

Timedelta()는 두 날짜 또는 시간들의 차이를 나타낸다. 파이썬 datetime.datetime 객체와 동일한 기능을 한다. 기간 스트링과 함께 pd.Timedelta() 함수를 사용해 Timedelta 객체를 만들 수 있다.

timedelta_ex = pd.Timedelta('1 day')

resample

resample()은 datetime index를 가지고 원하는 주기로 변환하거나 분석할 수 있다. resample()은 groupby 와 유사하게 사용할 수 있다.  데이터의 index가 datetime 같은 index가 아니라면, 이 메서드를 적용하기 전에 set_index()를 사용해, datetimeIndex를 먼저 설정해야 한다.

resample_ex = pd.resample('M').max()

shift

shift()는 데이터를 이동시킬 때 사용한다. 인수로 n을 줄 때 전체 데이터가 n행씩 뒤로 이동한다.
주식 데이터를 다룰 때 많이 사용하는데, 일간, 월간 변동률 등을 구할 때 사용한다. 다음은 일간 변동률을 구하는 것을 보여준다.

sec_dpc = (sec['Close'] / sec['Close'].shift(1) - 1) * 100 # 'Close'는 종가 필드를 나타냄

rolling

rolling()은 시리즈에서 window 크기에 해당하는 개수만큼 데이터를 추출하여 집계 함수에 해당하는 연산을 실시한다. 집계 함수로는 max(), mean(), min()을 사용할 수 있다. min_periods를 지정하면 데이터 개수가 윈도우 크기에 못미치더라도 mini_periods로 지정한 개수만 만족하면 연산을 수행한다.

kospi = pdr.get_data_yahoo('^KS11', '2023-10-04') # 주식 일별 데이터를 갖고 있다고 가정한다.

window = 252
peak = kospi['Adj Close'].rolling(window, min_periods=1).max()

 

Kaggle DataSets API

캐글에 있는 데이터셋을 가지고 연습해 보도록 한다.
캐글에서 데이터셋을 쉽게 가져오기 위해서 kaggle API를 설치하는 것이 좋다.

!pip install kaggle #kaggle 라이브러리를 설치

캐글 홈페이지에 로그인 후 본인 계정에서 API(kaggle.json) 파일을 다운로드한다.
윈도우의 경우에는 C 드라이브에서 '사용자(User)' >'컴퓨터명;>.kaggle폴더에 다운로드한 API파일을 이동시킨다.

이제 캐글 데이터셋을 주피터 노트북에서 쉽게 사용할 수 있게 되었다.
다운로드 받고자 하는 데이터셋을 캐글에서 검색한 후, API 주소를 클립보드에 복사한다(버튼을 누르도록 되어 있다).

!kaggle datasets list -s store-sales-time-series-forecasting

kaggle datasets 명령과 list, -s 옵션, 복사한 API 주소를 함께 입력하면 해당 데이터셋의 리스트를 다음과 같이 볼 수 있다.

!kaggle datasets download -w aslanahmedov/walmart-sales-forecast

분석하고 싶은 데이터셋을 선택해서 다운로드할 수 있다.
-w옵션은 현재 폴더에 저장하는 옵션이고,--unzip 옵션을 넣어 압축을 해제한 상태에서 다운로드할 수도 있다.

 

반응형
반응형

판다스(Pandas)의 기능 중 데이터셋으로 기본적인 통계작업을 하는 명령어들을 알아보도록 합니다.

1. pandas 및 datetime 라이브러리를 읽어들입니다. 

>>> import pandas as pd
>>> import datetime

2. data_url 변수에 다음 주소를 저장합니다.

>>> data_url = 'https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/06_Stats/Wind_Stats/wind.data'

3. pandas로 위 주소를 data 변수로 읽어들이되, 처음 3개 컬럼을 datetime 인덱스로 대체합니다.

>>> data = pd.read_table(data_url, sep = '\s+', parse_dates = [[0, 1, 2]]) # parse_dates 인수는 불린값 또는 숫자 리스트 또는 여러 컬럼들 값을 읽어들여서 날짜로 처리할 수 있습니다. 여기서는 맨 앞에 3개의 컬럼 값으로 날짜를 인식하도록 합니다.
>>> data.head() # 데이터셋의 구조를 알아보기 위해 상위 열 5개를 조회합니다.

4. 년도가 2061? 이 년도의 데이터가 실제로 있을까요? 이것을 수정해서 적용할 수 있는 함수를 만들어 봅시다.

>>> def fix_century(x):
               year = x.year - 100 if x.year > 1989 else x.year
               return datetime.date(year, x.month, x.day)      # 년도 데이터를 1900년대와 2000년대 구분을 위해 1989보다 많은 경우에는 1900년대으로 변경하도록 if문으로 간단한 함수를 만듭니다.
>>> data['Yr_Mo_Dy'] = data['Yr_Mo_Dy'].apply(fix_century) # apply 메서드를 사용해 'Yr_Mo_Dy'] 컬럼 전체에 함수를 적용합니다. 
>>> data.head() # 다시 데이터셋의 구조를 알아보기 위해 상위 열 5개를 조회합니다.

5. 날짜를 인덱스로 설정합니다. 이때 데이터 타입을 변경해서 적용해야 합니다. 데이터 타입은 datetime64[ns]여야 합니다.

>>> data['Yr_Mo_Dr'] = pd.to_datetime(data['Yr_Mo_Dy']) # 'Yr_Mo_Dy' 컬럼의 데이터 타입을 datetime64[ns]로 변경합니다.
>>> data = data.set_index('Yr_Mo_Dy') # set_index 메서드를 사용해 'Yr_Mo_Dy' 컬럼을 인덱스로 설정합니다.
>>> data.head()

6. 전체 데이터 값의 각 컬럼별 누락된 값을 알아봅니다. 

>>> data.isnull().sum() # 각 컬럼 값들 중에서 결측 값(Null)이 있는 곳의 갯수를 확인합니다.

7. 결측 값을 가진 데이터를 제외한 전체 데이터를 계산해 봅니다.

>>> data.shape[0] - data.isnull().sum()

또는

>>> data.notnull().sum()

8. 모든 위치와 전체 시간의 풍속에 대한 평균 값을 계산합니다.

>>> data.fillna(0).values.flatten().mean() # 결측값을 fillna(0)를 사용해 0으로 대체합니다. 그 후 dataframe을 list로 변경하는 flatten() 메서드를 사용한 후, 평균 값을 계산합니다.
>>> 10.223864592840483

9.  data의 각종 통계 수치를 한눈에 볼 수 있도록 표시해 봅니다.

>>> data.describe(percentiles=[])

10. day_stats라는 데이터 프레임을 만들고 모든 위치 및 전체 시간에 대한 풍속의 최소, 최대 및 평균 풍속 및 표준편차를 계산합니다.

>>> day_stats = pd.DataFrame()
>>> day_stats['min'] = data.min(axis = 1) # 최소값
>>> day_stats['max'] = data.max(axis = 1) # 최대값
>>> day_stats['mean'] = data.mean(axis = 1) # 평균
>>> day_stats['std'] = data.std(axis = 1) # 표준편차

11. 각 위치에 대한 1월의 평균 풍속을 찾아 봅니다.

>>> data.loc[data.index.month == 1].mean()

12. 연간 빈도로 각 위치별로 레코드를 다운 샘플링합니다.

>>> data.groupby(data.index.to_period('A')).mean()

13. 월간 빈도로 각 위치별로 레코드를 다운 샘플링합니다.

>>> data.groupby(data.index.to_period('M')).mean()

14. 주간 빈도로 각 위치별로 레코드를 다운 샘플링합니다.

>>> data.groupby(data.index.to_period('W')).mean()

15. 처음 52주 동안, 매주 모든 지역 풍속의 최소, 최대 및 평균 풍속 및 표준 편차를 계산합니다.

>>> weekly = data.resample('W').agg(['min', 'max', 'mean', 'std']) # 데이터를 'W(주)'에 재샘플링하고 agg 메서드를 사용해 최소, 최대, 평균, 표준편차 함수를 적용합니다.
>>> weekly.loc[weekly.index[1:53], 'RPT':'MAL'].head(10) # 처음 52주 동안의 값들 중 상위 10개 데이터 열을 보여줍니다.

(Source : Pandas exercises 깃헙)

반응형

+ Recent posts