반응형

이번에는 머신러닝 프로젝트 4단계에 이어, 5단계를 살펴보도록 하겠습니다.


5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델 찾기

지금까지 문제를 정의하고, 데이터를 얻어서 탐색해 보았습니다. 

그리고 트레이닝 셋과 테스트 셋을 샘플링하고, 자동적으로 머신러닝 알고리즘을 위해 클리닝해서 데이터를 준비하기 위해 변형 파이프라인을 작성했습니다. 

이제 머신러닝 모델을 선택해서 트레이닝시킬 준비가 되었습니다.


트레이닝 셋에서 훈련하고 평가하기

좋은 소식은 이전 1~4단계 덕분에, 이제 생각했던 것보다 상황이 훨씬 간단하게 진행될 것이라는 것입니다. 

우선 선형 회귀 모델을 트레이닝해 봅시다.

>>> from sklearn.linear_model import LinearRegression

>>> lin_reg = LinearRegression()

>>> lin_reg.fit(housing_prepared, housing_labels)


다 했습니다! 

이제 선형 회귀 모델을 사용할 수 있습니다. 

트레이닝 셋으로부터 몇 가지 인스턴스를 시도해 보도록 하겠습니다:

>>> some_data = housing.iloc[:5]

>>> some_labels = housing_labels.iloc[:5]

>>> some_data_prepared = full_pipeline.transform(some_data)

>>> print("Predictions:\t", lin_reg.predict(some_data_prepared))

Predctions:    [    303104.    44800.    308928.    294208.    368704. ]

>>> print("Labels:\t\t", list(some_labels))

Labels:        [359400.0,  69700.0,  302100.0,  301300.0,  351900.0]


예측이 아주 정확하지는 않지만 작동합니다

(두번째 예측이 50% 이상 차이가 있습니다!). 

사이킷런(Scikit-Learn)의 mean_squared_error 함수를 사용해서 전체 트레이닝 셋에 대한 이 회귀 모델의 RMSE를 측정해 봅시다.        

>>> from sklearn.metrics import mean_squared_error>>> housing_predictions = lin_reg.predict(housing_prepared)>>> lin_mse = mean_sqared_error(housing_labels, housing_predictions)
>>> lin_rmse = np.sqrt(lin_mse)
>>> lin_rmse
68628.413493824875

이제, 좀 나아졌습니다. 
하지만 아직 좋은 점수를 받을 정도는 아닙니다: 가장 큰 지구(district)의 median_housing_values의 범위는 120,000 달러에서 265,000달러 사이입니다. 
따라서 68,628달러의 전형적인 예측 에러는 아주 만족스럽지 못합니다.
이것이 트레이닝 데이터의 과소적합(underfitting)된 모델의 사례입니다. 
이런 일이 일어나면, 훌륭한 예측을 만들어 내기 위해 피처들(features)이 충분한 정보를 제공하지 않았다는 것 또는 이 모델이 충분히 파워풀 하지 않다는 것을 의미할 수 있습니다. 
앞의 단계에서 보았듯이, 과소적합(underfitting)을 수정하기 위한 주요 방법은 더욱 강력한 모델을 선택하고, 더 좋은 피쳐들(features)을 가진 트레이닝 알고리즘을 먹이는 것입니다. 또는 이 모델에 대한 제약을 줄이는 것입니다. 이 모델은 정규화되지 않았기 때문에, 이 규칙들은 마지막 옵션에서 제외됩니다. 더 많은 피쳐들(features)을 추가하는 것(예를 들어, 인구의 로그)을 시도해 볼 수 있습니다. 하지만 먼저 보다 복잡한 모델을 시도해 보도록 합시다.
DecisionTreeRegressor을 훈련시켜 봅시다. 
이것은 데이터에서 복잡한 비선형 관계를 찾아낼 수 있는 강력한 모델입니다. 
코드가 이제 친숙해 보여야 할 것입니다:

>>> from sklearn.tree import DecisionTreeRegressor
>>> tree_reg = DecisionTreeRegressor()
>>> tree_reg.fit(housing_prepared, housing_labels)

자, 이 모델이 훈련되었고, 트레이닝 셋에서 이 모델을 평가해 보도록 합시다:

>>> housing_predictions = tree_reg.predict(housing_prepared)
>>> tree_mse = mean_squared_error(housing_labels, housing_predictions)
>>> tree_rmse = np,.sqrt(tree_mse)
>>> tree_rmse
0.0

잠깐, 뭘까요? 아무런 에러도 없었습니다. 정말 이 모델이 완벽한 걸까요? 
물론, 이 모델이 이 데이터에 과적합(overfitting)했을 가능성이 훨씬 높습니다. 
어떻게 확신할 수 있을까요? 
앞에서 보았듯이, 만족스러운 모델을 런칭할 준비가 될 때까지 테스트 셋을 만지는 것을 원하지 않을 것입니다. 
그래서 트레이닝 셋 일부를 훈련용으로 사용하고, 일부는 모델 검증용으로 사용하는 것이 필요합니다.


교차검증(Cross-Validation)을 사용해 더 좋은 평가 만들기

결정트리(Decision Tree) 모델을 평가하기 위한 한가지 방법은 트레이닝 셋을 더 작은 트레이닝 셋과 검증 셋으로 구분하기 위해 train_test_split 함수를 사용하는 것일 겁니다. 그후 더 작은 트레이닝 셋을 모델을 훈련시키고 검증 셋에 대해 검증을 실시합니다. 약간의 작업이 있긴 하지만, 그다지 어렵지 않고 잘 작동할 것입니다.
훌륭한 대안은 사이킷런(Scikit-Learn)의 교차검증(cross-validation) 기능을 이용하는 것입니다. 
다음의 코드는 K-fold 교차검증(cross-validation)을 실행합니다: 무작위로 folds라 불리는 10개 단위의 서브셋으로 트레이닝 셋을 분리합니다. 
그 다음 결정트리(Decision Tree) 모델로 10번 훈련시키고 평가합니다. 
매번 평가를 위해 다른 fold를 골라내고 또 다른 9개 folds를 훈련시킵니다. 
그 결과는 10개의 평가 점수를 포함한 배열로 나타납니다.

>>> from sklearn.model_selection import cross_val_score
>>> scores = cross_val_score(tree_reg, housing_prepared, housing_labels, 
scoring="neg_mean_squared_error", cv=10)
>>> rmse_scores = np.sqrt(-scores)

(주의) 사이킷런(Scikit-Learn)의 교차검증(cross-validation) 기능은 코스트 함수(작을수록 더 좋은)가 아닌 유틸리티 함수(클수록 더 좋은)를 기대합니다. 
그래서 스코어링 함수는 실제로 MSE와 반대(앞의 코드처럼 계산된 이유-제곱근을 계산하기 전의 값)입니다. 

결과를 보도록 합시다:
>>> def display_scores(scores):
...            print("Scores:", scores)
...            print("Mean:", scores.mean())
...            print("Standard deviation:", scores.std())
...
>>> display_scores(tree_rmse_scores)
Scores: [  74678.4916885   64766.2398337    69632.86942005   69166.67693232
71486.76507766  73321.65695983   71860.04741226     71086.32691692
76934.2726093   69060.93319262]
Mean:  71199.4280043
Standard deviation: 3202.70522793

지금 결정트리(Decision Tree)가 앞에서 했던 것보다 좋아보이진 않습니다. 
사실, 선형 회귀 모델보다 더 나쁘게 수행하는 것처럼 보입니다! 
교차검증(cross-validation)이 당신 모델의 성능을 검증하는 것 뿐만 아니라 이 검증이 얼마나 정확한지 측정하는 것(예., 표준편차) 역시 수행하고 있다는 것에 유념하시기 바랍니다. 
이 결정트리(Decision Tree)는 정확히, 일반적으로 ±3,200의 편차를 갖는, 71,200의 점수를 받았습니다. 
하나의 검증 셋만을 사용한다면,  이런 정보를 가질 수 없습니다. 하지만, 교차검증(cross-validation)은 몇 번에 걸쳐 모델을 훈련시키는 비용이 따르기 때문에 항상 가능하지는 않습니다. 
선형 회귀 모델을 확인해 보기 위해 동일한 점수를 계산해 보도록 합시다:

>>> lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
...                                                scoring="neg_mean_squared_error", cv=10)
...
>>> lin_rmse_scores = np.sqrt(-lin_scores)
>>> display_scores(lin_rmse_scores)
Scores: [  70423.5893262   65804.84913139   66620.84314068   72510.11362141
66414.74423281   71958.89083606   67624.90198297    67825.36117664
72512.36533141    68028.11688067]
Mean:  68972.377566
Standard deviation: 2493.98819069

맞습니다: 결정트리(Decision Tree) 모델이 과적합(overfitting)되었습니다. 
그래서 슬프게도 선형 회귀 모델보다 안좋은 성능을 발휘합니다. 
이제 마지막 남은 모델을 시도해 보도록 합시다: RandomForestRegressor. 랜덤 포레스트(Random Forests)는 예측값을 평균화하는 대신 피처들(features)의 무작위 서브셋을 많은 결정트리(Decision Trees)로 훈련시켜 작동합니다.  
많은 다른 모델들의 최고 위에 모델을 세우는 것을 앙상블 학습(Ensemble Learning)이라 부릅니다.  ML 알고리즘을 더욱 발전시키기 위한 좋은 방법입니다. 
다른 모델들과 본질적으로 동일하기 때문에, 코드의 대부분을 넘어갈 것입니다:

>>> from sklearn.ensemble import RandomForestRegressor
>>> forest_reg = RandomForestRegressor()
>>> forest_reg.fit(housing_prepared, housing_labels)
>>> [...]
>>> forest_rmse
22542.396440343684
>>> display_scores(forest_rmse_scores)
Scores: [  53789.2879722    50256.19806622   52521.55342602    53237.44937943
52428.82176158    55854.61222549    52158.02291609    50093.66125649
53240.80406125   52761.50852822]
Mean:  52634.1919593
Standard deviation: 1576.20472269

이제 더 좋아졌습니다: 랜덤 포레스트(Random Forests)가 더 유망해 보입니다. 하지만, 검증셋보다 트레이닝 셋의 점수가 여전히 더 낮다는 것에 유념하시기 바랍니다. 
이것은 이 모델이 여전히 트레이닝 셋에 과적합(overfitting)되어 있다는 것을 의미합니다. 
과적합(overfitting)에 있어 가능한 해결책은 모델을 단순화하고, 제약을 가하거나(예, 정규화하는 것), 더 많은 훈련 데이터를 얻는 것입니다.  
하지만, 랜덤 포레스트(Random Forests)에 더 깊이 들어가기 전에, 하이퍼파라미터를 조율하는데 너무 많은 시간을 소비하지 않고, 다양한 범주의 머신러닝 알고리즘으로부터 많은 다른 모델들을 시도해 보아야 할 것입니다. 
목표는 몇 가지(2~5개의) 유망한 모델을 선정하는 것입니다.

5단계는 여기까지입니다. 

머신러닝 프로젝트 실행-1

(1~2단계: 1. 문제정의하고 전체 그림 바라보기 / 2. 데이터 얻기바로가기 


머신러닝 프로젝트 실행-2

(3단계: 3. 인사이트를 찾기 위해 데이터 탐색하기바로가기 


머신러닝 프로젝트 실행-3

(4단계: 4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출시킬 수 있도록 데이터 준비하기바로가기


참고)'Hands-On Machine Learning with Scikit-Learn and TensorFlowchapter 2' 

주피터 노트북에서 볼 수 있는 전체 코드 얻기


반응형

+ Recent posts