반응형

index는 Series 또는 DataFrame에서 값을 찾기 위한 최적화된 도구라고 할 수 있다. 관계형 데이터베이스의 key와 많이 비슷하다고 이해하면 좋을 것 같다.

index 객체는 변경할 수 없다는 특징을 갖고 있다. 

또한, pandas에서 데이터 값들을 검색할 때는 index를 통해 검색하는 것이 컬럼을 가지고 검색하는 것보다 5배 정도 속도가 빠르다

* jupyter notebook에서 %timeit을 사용해 실행 속도를 시뮬레이션할 수 있음.


그렇기 때문에 pandas를 많이 사용하는 경우, index를 목적에 맞게 잘 생성하고 검색하는 데 이용할 수 있도록 할 필요가 있다.

그럼 먼저 pandas index 유형을 정리해 보도록 하자.

 

pandas index 유형

1. Int64Index 

정수 값을 위한 특정 Index로, 64비트 정수형의 불변하는 배열로 되어 있음. 

2. RangeIndex

Int64Index를 최적화한 Index로 최근에 추가됨. (start, stop, step) 특정 정수 값에서 시작하고 끝낼 수 있으며, 간격을 정할 수 있는 정수 기반 Index임. 

3. IntervalIndex

0.0~0.5와 같은 간격 인터벌을 Index로 사용할 수 있음.

4. DatetimeIndex 

나노초 타임스탬프를 저장함.
다음 code는 전체 5시간을 한시간 간격으로 된 index를 생성함.

4. PeriodIndex

년, 월, 날과 같은 기간 데이터를 위한 특정 Index임.

5. MultiIndex

단일 축에 여러 단계의 색인을 표현하는 계층적 Index 객체


반응형

+ Recent posts