728x90

DataFrame 5

데이터 필터링 및 정렬(Pandas 레시피)

1. pandas 라이브러리를 읽어들입니다. >>> import pandas as pd 2. 아래 url 주소에서 데이터셋을 읽어들입니다. >>> url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv' >>> chipo = pd.read_csv(url, sep='\t') # 탭 구분자로 되어 있는 데이터셋을 읽어들임 >>> chipo.head() # chipo의 데이터 구조 파악을 위해 상위 5개 데이터셋을 조회 >>> chipo.dtypes # item_price 컬럼의 타입이 object인 것을 확인함(가격 계산을 위해 float으로 바꿀 것임) >>> prices = [float(value[1 : -1])..

index 및 columns 이름 재설정(Pandas 레시피)

파이썬의 pandas는 이제 필수적으로 알아야 하는 라이브러리가 되었다고 생각한다. 금융 쪽 뿐만 아니라 웹 스크래핑을 통해 데이터를 확보하고 그 자료를 딥러닝 등으로 분석하기 전 전처리에 유용하게 사용할 수 있는 도구로써도 유용하다고 본다. 우선적으로 Pandas DataFrame에서 사용할 수 있는 가장 기본적인 기능에 대해서 정리해 보고자 한다. 이번 글에서는 DataFrame에서 각 열과 컬럼(행)의 이름을 변경하는 것부터 해보자. >>> import pandas as pd # pandas 라이브러리를 읽어들인다 >>> movies = pd.read_csv('movie.csv', index_col = 'movie_title') # csv파일을 읽어들이면서, 컬럼 중에서 인덱스로 만들 컬럼을 선택한..

Pandas DataFrame

Pandas에서 데이터 분석을 하기 위해 가장 많이 사용하는 것이 DataFrame일 것이다. Series를 확장한 것이 DataFrame이라고 이해하면 좀 더 쉽게 다가올 것이라 생각한다. 기본 속성들을 정리해 보도록 하자.>> import pandas as pd # pandas 라이브러리를 읽어들임>> import numpy as np # numpy 라이브러리를 읽어들임 >> df = pd.DataFrame(np.arange(1, 6)) # numpy 배열(1에서 5까지)로부터 data frame을 생성함>> df = pd.DataFrame(np.array([[70, 71], [90,91]]), columns=['Missoula', 'Philadelphia']) # columns 속성을 사용해 컬럼을..

Pandas Series

Pandas 자료 구조는 Series와 DataFrame을 말한다고 생각하면 된다. 그 정도로 이 두가지에 익숙해지면 pandas를 잘 활용한다고 할 수 있다는 것이다.1. Series 정의Series는 pandas의 기본 블록이라고 할 수 있다. 일련의 객체를 담을 수 있는 1차원 배열과 같은 자료 구조를 나타낸다. Series 객체의 문자열 표현은 왼쪽에 색인(index)을 보여주고 오른쪽에 해당 색인의 값(values)을 보여준다. 즉, Series의 배열과 색인 객체는 각각 values와 index 속성을 통해 얻을 수 있는 것이다. 2. Series 만들기>> import pandas as pd # 사용할 라이브러리를 불러온다(이미 설치되어 있다고 가정).>> import numpy as npS..

머신러닝 프로젝트 실행 -3

머신러닝 프로젝트 실행 1~3단계에 이어, 4단계를 정리하도록 하겠습니다. 4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기머신러닝 알고리즘을 위한 데이터를 준비할 시간입니다. 이것을 수동으로 하는 대신에, 자동으로 생성할 함수들을 사용해야 합니다. 그 이유는 다음과 같습니다.어떤 데이터셋이든(예, 다음 번에 새로운 데이터셋을 얻게 되었을 때), 이들 변환을 쉽게 재적용할 수 있도록 해줍니다.미래의 프로젝트에서 재사용할 수 있는 변환 함수 라이브러리를 만들 수 있습니다.이들 함수들을 알고리즘에 피딩하기 전에 새로운 데이터를 변환하기 위해 실제 사용하는 시스템에서 사용할 수 있습니다. 다양한 변환을 쉽게 시도하고 어떤 변환 조합이 가장 잘 동작하는지 알 수 있도록 해줍니..

728x90