반응형

머신러닝 프로젝트 실행 1~2단계에 이어, 3단계를 정리하도록 하겠습니다.


3. 인사이트를 찾기 위해 데이터 탐색하기

1~2단계에서는 지금까지 처리하는 데이터의 종류에 대한 일반적인 이해를 얻기 위해 데이터를 훑어보았습니다. 

지금부터는 조금 더 깊이 들어가 보도록 하겠습니다.

먼저, 테스트 셋을 별도로 마련해 두었는지 확인하고, 훈련 셋을 탐색해 보도록 합시다. 만약 훈련 셋이 아주 크다면, 쉽고 빠르게 데이터를 다루기 위해 탐색하기 위한 셋을 샘플링하고 싶을지도 모릅니다. 우리 데이터의 경우에는, 훈련 셋이 매우 작기 때문에 전체 셋에서 직접 작업을 할 수 있습니다. 

카피본을 만들어, 훈련 셋에 영향을 주지 않고 작업을 시작해 봅시다.

>>> housing = strat_train_set.copy()


지리 데이터를 시각화하기

지리 정보(위도와 경도)가 있기 때문에, 데이터를 시각화하기 위해 모든 지구의 산포도를 만들어 보는 것은 좋은 아이디어입니다.

>>> housing.plot(kind="scatter", x="longitude", y="latitude")

이것은 캘리포니아처럼 보입니다. 하지만, 어떤 특정 패턴을 보기는 어렵습니다. alpha 옵션(투명도)을 0.1로 설정하면 데이터 포인트가 고밀도인 곳이 어느 지역인지 더 쉽게 시각화할 수 있습니다.

>>> housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

이제 더 좋아 보입니다. 

즉 베이지역과 로스앤젤레스, 샌디에이고 같은 고밀도 지역을 분명하게 구분할 수 있습니다. 샌트럴 밸리 특히 새크래멘토와 프레스노 주변은 상당히 고밀도의 긴 선을 보여주고 있습니다.

일반적으로, 우리 두뇌는 그림에서 얼룩진 패턴을 인식하는데 매우 우수합니다. 하지만, 패턴을 눈에 띄게 만들기 위해 시각화 파라미터를 가지고 더 작업이 필요할 수도 있습니다. 


자, 집값을 보도록 합시다. 

각 원의 반경은 지구의 인구수를 나타냅니다. 그리고 색깔은 가격을 나타냅니다. 여기서는 jet(낮은 값은 푸른색, 높은 값은 붉은색으로 표시)라 불리는 미리 정의된 색깔 맵을 사용할 것입니다. 

>>> housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="population", c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True)

>>> plt.legend()

이 이미지는 집값이 위치(예를 들자면, 해안과 가까운) 및 인구 밀도와 매우 밀접한 관계가 있다고 알려줍니다. 아마도 중심 클러스터를 탐지하기 위해 클러스터링 알고리즘을 사용하는 것이 유용할 수도 있습니다. 그리고, 클러스터 센터를 더 근접 측정하기 위해 새로운 피처들(features)을 추가할 수도 있습니다. 해안 근접 속성이 유용할 수 있지만, 북부 캘리포니아의 해안 지구 집값이 높지 않기 때문에, 규칙이 간단하지만은 않습니다.


상관관계 찾기

데이터셋이 아주 크지 않기 때문에, 모든 속성 쌍에서 corr() 메소드를 사용해 표준 상관 계수(Pearson's r이라 불림)를 쉽게 계산할 수 있습니다.

>>> corr_matrix = housing.corr()


중간 집 값과 각 속성들이 얼마나 상관관계가 있는 보도록 합시다.

>>> corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value        1.000000

median_income              0.687170

total_rooms                  0.135231

housing_median_age        0.114220

households                   0.064702

total_bedrooms              0.047865

population                  -0.026699

longitude                   -0.047279

latitude                     -0.142826

Name: median_house_value, dtype: float64


상관 계수의 범위는 -1에서 1사이입니다. 

1에 가깝다는 것은 강한 양의 상관관계가 있다는 것을 의미합니다: 예를 들어, 중간 소득이 올라갈 때, 중간 집 값이 올라가는 경향이 있습니다. 상관관계가 -1에 가깝다는 것은, 강한 음의 상관관계가 있다는 것을 의미합니다: 위도와 중간 집 값은 작은 음의 상관관계가 있다는 것(예, 북쪽으로 갈수록 집 가격이 약간 낮아지는 경향이 있습니다)을 알 수 있습니다. 마지막으로, 계수가 0에 가깝다는 것은 선형 상관관계가 없다는 것을 의미합니다. 

다음의 이미지들은 수평 및 수직 축 사이의 상관 계수에 대한 다양한 플롯을 보여줍니다.

(출처 : 위키피디아, public domain image)


속성들 사이의 상관관계를 점검하는 또 다른 방법은 판다스(Pandas)의 scatter_matrix 함수를 사용하는 것입니다. 이 함수는 모든 수치 속성을 모든 다른 수치 속성들에 대비한 플롯해 보여줍니다. 지금 11개의 수치 속성들이 있기 때문에, 121개의 플롯들을 얻게 될 것입니다. 여기서는 중간 집값과 가장 좋은 상관관계를 보여주는 몇가지 속성들에만 집중하도록 합니다.

>>> from pandas.tools.plotting import scatter_matrix

>>> attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]

>>> scatter_matrix(housing[attributes], figsize=(12, 8))

메인 대각선(왼쪽 위에서 오른쪽 아래)에는 각 속성에 대한 히스토그램을 보여줍니다. 이는 동일 속성에 대해 상관관계를 보여주는 것은 의미가 없기 때문입니다. 

중간 집값과 가장 상관관계가 높은 속성은 중간 소득입니다. 그 상관관계 산포도를 확대해 보도록 합시다.

>>> housing.plot(kind="scatter", x="median_income", y= "median_house_value", alpha=0.1)

이 플롯은 몇가지를 나타냅니다. 

첫째, 실제 상관관계가 매우 강하다는 것입니다; 상향 트렌드를 분명하게 볼 수 있고, 포인트들이 많이 분산되지도 않았습니다. 

둘째, 처음에 알고 있던 가격 상한선이 $500,000 수평선에 분명하게 보입니다. 하지만, 이 플롯은 또 다른 분명한 직선들을 보여줍니다: $450,000 주변 수평선, $350,000 주변 수평선, 아마도 $280,000 주변 수평선과 더 아래의 일부. 

이러한 데이터 단점을 재현하도록 알고리즘이 학습되는 것을 방지하기 위해 대응하는 지구를 제거해야 할지도 모릅니다.


속성 조합으로 시험하기

잘하면 이전 섹션의 몇 가지 방법을 통해 데이터를 탐색한 후 인사이트를 얻을 수 있습니다. 

머신러닝 알고리즘에 데이터를 피딩(feed)하기 전에 청소하고 싶어할 몇가지 데이터 단점을 알게 되었습니다. 그리고 타겟 속성과 다른 속성들 사이의 흥비로운 상관관계를 발견했습니다. 또한 몇몇 속성들은 편향된 분포도를 가지고 있다는 것을 알 수 있었고, 이것들을 변환(예, 그 속성들의 로그를 계산해서 표준 분포로)해야할지도 모릅니다. 물론, 각 프로젝트마다 수고해야 하는 노고는 각기 다릅니다만, 일반적인 아이디어는 유사합니다.


머신러닝 알고리즘을 위해 데이터를 실제 준비하기 전에 해야할 마지막 일은 다양하게 속성 조합을 시도해 보는 것입니다. 

예를 들어, 얼마나 많은 가정이 있는지 알지 못한다면, 각 지구의 전체 방수는 유용하지 않습니다. 정말 원하는 것은 각 가정의 방수입니다. 유사하게, 전체 침실수 자체로는 유용하지 않습니다. 아마도 침실수를 방숫자와 비교하고 싶어할 것입니다. 그리고 각 가정별 인구수 역시 흥미로운 속성 조합처럼 보입니다. 이들 새로운 속성들을 만들어 보도록 합시다.

>>> housing["rooms_per_household"] = housing["total_rooms"]/housing["househods"]

>>> housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]

>>> housing["population_per_household"] = housing["population"]/housing["households"]


그런 다음, 다시 상관관계 매트릭스를 보도록 합시다:

>>> corr_matrix = housing.corr()

>>> corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value            1.000000

median_income                  0.687170

rooms_per_household           0.199343

total_rooms                      0.135231

housing_median_age            0.114220

households                       0.064702

total_bedrooms                  0.047865

population_per_household     -0.021984

population                      -0.026699

longitude                       -0.047279

latitude                         -0.142826

bedrooms_per_room            -0.260070

Name: median_house_value, dtype: float64


새로운 bedrooms_per_room 속성이 중간 집값과 가장 높은 상관관계를 보여줍니다. 분명히 더 적은 침실/전체방 비율을 가진 집들이 더 비싼 경향이 있습니다. 각 가정별 방수 또한 지구내 전체 방수보다 더 많은 정보를 제공합니다- 분명히 집들이 더 클수록 더 비쌉니다.

이 라운드의 탐색은 아주 철저하지 않아도 됩니다; 포인트는 올바른 출발점을 찾는 것이고 합리적으로 좋은 프로토타입을 얻기 위한 인사이트를 빠르게 얻는 것입니다. 하지만 이것은 반복적인 절차입니다: 한번 프로토타입을 얻어서 실행한 후, 더 많은 인사이트를 얻기 위해 그 결과물을 분석할 수 있습니다. 그런 다음 이 탐색 단계로 다시 돌아올 수 있습니다.


생각보다 공부한 것을 정리하는 것이 쉬운 작업이 아니네요. 조금식 꾸준히 하는 것이 한꺼번에 많이 하는 것보다 더 좋다고 생각해서 자주 한 단계씩 정리하도록 할 계획입니다.


"4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기"는 다음 글로 정리하겠습니다.


머신러닝 프로젝트 실행-1

(1~2단계: 1. 문제정의하고 전체 그림 바라보기/ 2. 데이터 얻기바로가기 


참고)'Hands-On Machine Learning with Scikit-Learn and TensorFlowchapter 2' 

주피터 노트북에서 볼 수 있는 전체 코드 얻기


반응형

+ Recent posts