반응형

머신러닝 프로젝트 실행 1~2단계에 이어, 3단계를 정리하도록 하겠습니다.


3. 인사이트를 찾기 위해 데이터 탐색하기

1~2단계에서는 지금까지 처리하는 데이터의 종류에 대한 일반적인 이해를 얻기 위해 데이터를 훑어보았습니다. 

지금부터는 조금 더 깊이 들어가 보도록 하겠습니다.

먼저, 테스트 셋을 별도로 마련해 두었는지 확인하고, 훈련 셋을 탐색해 보도록 합시다. 만약 훈련 셋이 아주 크다면, 쉽고 빠르게 데이터를 다루기 위해 탐색하기 위한 셋을 샘플링하고 싶을지도 모릅니다. 우리 데이터의 경우에는, 훈련 셋이 매우 작기 때문에 전체 셋에서 직접 작업을 할 수 있습니다. 

카피본을 만들어, 훈련 셋에 영향을 주지 않고 작업을 시작해 봅시다.

>>> housing = strat_train_set.copy()


지리 데이터를 시각화하기

지리 정보(위도와 경도)가 있기 때문에, 데이터를 시각화하기 위해 모든 지구의 산포도를 만들어 보는 것은 좋은 아이디어입니다.

>>> housing.plot(kind="scatter", x="longitude", y="latitude")

이것은 캘리포니아처럼 보입니다. 하지만, 어떤 특정 패턴을 보기는 어렵습니다. alpha 옵션(투명도)을 0.1로 설정하면 데이터 포인트가 고밀도인 곳이 어느 지역인지 더 쉽게 시각화할 수 있습니다.

>>> housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

이제 더 좋아 보입니다. 

즉 베이지역과 로스앤젤레스, 샌디에이고 같은 고밀도 지역을 분명하게 구분할 수 있습니다. 샌트럴 밸리 특히 새크래멘토와 프레스노 주변은 상당히 고밀도의 긴 선을 보여주고 있습니다.

일반적으로, 우리 두뇌는 그림에서 얼룩진 패턴을 인식하는데 매우 우수합니다. 하지만, 패턴을 눈에 띄게 만들기 위해 시각화 파라미터를 가지고 더 작업이 필요할 수도 있습니다. 


자, 집값을 보도록 합시다. 

각 원의 반경은 지구의 인구수를 나타냅니다. 그리고 색깔은 가격을 나타냅니다. 여기서는 jet(낮은 값은 푸른색, 높은 값은 붉은색으로 표시)라 불리는 미리 정의된 색깔 맵을 사용할 것입니다. 

>>> housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="population", c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True)

>>> plt.legend()

이 이미지는 집값이 위치(예를 들자면, 해안과 가까운) 및 인구 밀도와 매우 밀접한 관계가 있다고 알려줍니다. 아마도 중심 클러스터를 탐지하기 위해 클러스터링 알고리즘을 사용하는 것이 유용할 수도 있습니다. 그리고, 클러스터 센터를 더 근접 측정하기 위해 새로운 피처들(features)을 추가할 수도 있습니다. 해안 근접 속성이 유용할 수 있지만, 북부 캘리포니아의 해안 지구 집값이 높지 않기 때문에, 규칙이 간단하지만은 않습니다.


상관관계 찾기

데이터셋이 아주 크지 않기 때문에, 모든 속성 쌍에서 corr() 메소드를 사용해 표준 상관 계수(Pearson's r이라 불림)를 쉽게 계산할 수 있습니다.

>>> corr_matrix = housing.corr()


중간 집 값과 각 속성들이 얼마나 상관관계가 있는 보도록 합시다.

>>> corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value        1.000000

median_income              0.687170

total_rooms                  0.135231

housing_median_age        0.114220

households                   0.064702

total_bedrooms              0.047865

population                  -0.026699

longitude                   -0.047279

latitude                     -0.142826

Name: median_house_value, dtype: float64


상관 계수의 범위는 -1에서 1사이입니다. 

1에 가깝다는 것은 강한 양의 상관관계가 있다는 것을 의미합니다: 예를 들어, 중간 소득이 올라갈 때, 중간 집 값이 올라가는 경향이 있습니다. 상관관계가 -1에 가깝다는 것은, 강한 음의 상관관계가 있다는 것을 의미합니다: 위도와 중간 집 값은 작은 음의 상관관계가 있다는 것(예, 북쪽으로 갈수록 집 가격이 약간 낮아지는 경향이 있습니다)을 알 수 있습니다. 마지막으로, 계수가 0에 가깝다는 것은 선형 상관관계가 없다는 것을 의미합니다. 

다음의 이미지들은 수평 및 수직 축 사이의 상관 계수에 대한 다양한 플롯을 보여줍니다.

(출처 : 위키피디아, public domain image)


속성들 사이의 상관관계를 점검하는 또 다른 방법은 판다스(Pandas)의 scatter_matrix 함수를 사용하는 것입니다. 이 함수는 모든 수치 속성을 모든 다른 수치 속성들에 대비한 플롯해 보여줍니다. 지금 11개의 수치 속성들이 있기 때문에, 121개의 플롯들을 얻게 될 것입니다. 여기서는 중간 집값과 가장 좋은 상관관계를 보여주는 몇가지 속성들에만 집중하도록 합니다.

>>> from pandas.tools.plotting import scatter_matrix

>>> attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]

>>> scatter_matrix(housing[attributes], figsize=(12, 8))

메인 대각선(왼쪽 위에서 오른쪽 아래)에는 각 속성에 대한 히스토그램을 보여줍니다. 이는 동일 속성에 대해 상관관계를 보여주는 것은 의미가 없기 때문입니다. 

중간 집값과 가장 상관관계가 높은 속성은 중간 소득입니다. 그 상관관계 산포도를 확대해 보도록 합시다.

>>> housing.plot(kind="scatter", x="median_income", y= "median_house_value", alpha=0.1)

이 플롯은 몇가지를 나타냅니다. 

첫째, 실제 상관관계가 매우 강하다는 것입니다; 상향 트렌드를 분명하게 볼 수 있고, 포인트들이 많이 분산되지도 않았습니다. 

둘째, 처음에 알고 있던 가격 상한선이 $500,000 수평선에 분명하게 보입니다. 하지만, 이 플롯은 또 다른 분명한 직선들을 보여줍니다: $450,000 주변 수평선, $350,000 주변 수평선, 아마도 $280,000 주변 수평선과 더 아래의 일부. 

이러한 데이터 단점을 재현하도록 알고리즘이 학습되는 것을 방지하기 위해 대응하는 지구를 제거해야 할지도 모릅니다.


속성 조합으로 시험하기

잘하면 이전 섹션의 몇 가지 방법을 통해 데이터를 탐색한 후 인사이트를 얻을 수 있습니다. 

머신러닝 알고리즘에 데이터를 피딩(feed)하기 전에 청소하고 싶어할 몇가지 데이터 단점을 알게 되었습니다. 그리고 타겟 속성과 다른 속성들 사이의 흥비로운 상관관계를 발견했습니다. 또한 몇몇 속성들은 편향된 분포도를 가지고 있다는 것을 알 수 있었고, 이것들을 변환(예, 그 속성들의 로그를 계산해서 표준 분포로)해야할지도 모릅니다. 물론, 각 프로젝트마다 수고해야 하는 노고는 각기 다릅니다만, 일반적인 아이디어는 유사합니다.


머신러닝 알고리즘을 위해 데이터를 실제 준비하기 전에 해야할 마지막 일은 다양하게 속성 조합을 시도해 보는 것입니다. 

예를 들어, 얼마나 많은 가정이 있는지 알지 못한다면, 각 지구의 전체 방수는 유용하지 않습니다. 정말 원하는 것은 각 가정의 방수입니다. 유사하게, 전체 침실수 자체로는 유용하지 않습니다. 아마도 침실수를 방숫자와 비교하고 싶어할 것입니다. 그리고 각 가정별 인구수 역시 흥미로운 속성 조합처럼 보입니다. 이들 새로운 속성들을 만들어 보도록 합시다.

>>> housing["rooms_per_household"] = housing["total_rooms"]/housing["househods"]

>>> housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]

>>> housing["population_per_household"] = housing["population"]/housing["households"]


그런 다음, 다시 상관관계 매트릭스를 보도록 합시다:

>>> corr_matrix = housing.corr()

>>> corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value            1.000000

median_income                  0.687170

rooms_per_household           0.199343

total_rooms                      0.135231

housing_median_age            0.114220

households                       0.064702

total_bedrooms                  0.047865

population_per_household     -0.021984

population                      -0.026699

longitude                       -0.047279

latitude                         -0.142826

bedrooms_per_room            -0.260070

Name: median_house_value, dtype: float64


새로운 bedrooms_per_room 속성이 중간 집값과 가장 높은 상관관계를 보여줍니다. 분명히 더 적은 침실/전체방 비율을 가진 집들이 더 비싼 경향이 있습니다. 각 가정별 방수 또한 지구내 전체 방수보다 더 많은 정보를 제공합니다- 분명히 집들이 더 클수록 더 비쌉니다.

이 라운드의 탐색은 아주 철저하지 않아도 됩니다; 포인트는 올바른 출발점을 찾는 것이고 합리적으로 좋은 프로토타입을 얻기 위한 인사이트를 빠르게 얻는 것입니다. 하지만 이것은 반복적인 절차입니다: 한번 프로토타입을 얻어서 실행한 후, 더 많은 인사이트를 얻기 위해 그 결과물을 분석할 수 있습니다. 그런 다음 이 탐색 단계로 다시 돌아올 수 있습니다.


생각보다 공부한 것을 정리하는 것이 쉬운 작업이 아니네요. 조금식 꾸준히 하는 것이 한꺼번에 많이 하는 것보다 더 좋다고 생각해서 자주 한 단계씩 정리하도록 할 계획입니다.


"4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기"는 다음 글로 정리하겠습니다.


머신러닝 프로젝트 실행-1

(1~2단계: 1. 문제정의하고 전체 그림 바라보기/ 2. 데이터 얻기바로가기 


참고)'Hands-On Machine Learning with Scikit-Learn and TensorFlowchapter 2' 

주피터 노트북에서 볼 수 있는 전체 코드 얻기


반응형
반응형

자연어 처리(NLP, Natural Language Processing)

인터넷의 발달과 함께 SNS(페이스북, 트위터, 유튜브, 링크드인, 핀터레스트, 인스타그램, 스냅챗 등)의 등장과 미디어로의 확장은 각 개인의 감정 및 생각을 파악할 수 있는 새로운 장을 열었다고 생각합니다. 하루에도 10억개 이상의 글들이 생성되는 시점에서, 우리는 정보의 홍수 속에 어떤 글, 그림, 동영상을 보아야 할지 파악하기 조차 어렵습니다. 

그래서, SNS와 같은 자연어에서 인사이트(insight)를 뽑아내 활용하는 것이 매우 의미가 있을 것으로 생각합니다.

인터넷을 통해 생성되는 대부분의 텍스트 데이터는 짧은 글(Short text, Small text massages 등)로 되어 있습니다. 이에 텍스트 마이닝(Text mining) 분야에서도 짧은 글을 분석하는 연구들이 많이 진행되고 있다고 합니다. 

특히, 유사도를 비교 분석하는 것은 스펠링 체크, 키워드 서치, 단어들의 읽기 레벨, 부정/긍정, 문서 요약, 문서 분류 등 다양한 어플리케이션 영역에 활용될 수 있기 때문에 짧은 텍스트 간의 유사도(Similarity) 비교하는 연구가 많이 이루어지고 있습니다.  

이번 글에서는 NLP에서 사용하는 몇가지 용어를 정리해 보도록 하겠습니다.


1. 자연어 처리(NLP) 관련해서 나오는 용어들

챗봇(Chatbots) : 채팅 로봇의 줄임말로, 사용자와 메신저가 서로 대화를 나누고 필요한 정보를 서치해서 제공해 주는 AI 기반 커뮤니케이션 소프트웨어(SW)입니다. 정보를 검색해 주거나, 쇼핑 주문을 해 줄 수도 있습니다. 요즘에는 능동적으로 사람의 감정을 읽고 대응하거나 상황에 맞게 먼저 말을 걸 수도 있습니다.

Deep Learning for NLP : 자연어 처리를 위한 딥 러닝이라고 할 수 있습니다. 2000년 초부터 인공신경망은 언어 모형을 구현하기 위해 사용되어 왔습니다. 핵심 기법은 negative sampling과 단어 표현(word embedding)입니다. 

Word2Vec : 데이터 집합으로 주어진 단어들 사이의 관계를 학습하는 인공신경망을 이용하여 단어를 벡터 공간 상에 나타내는 것이라고 할 수 있습니다. 단어 표현을 재귀 신경망(RNN)의 입력 계층으로 이용하면 해당 신경망이 compositional vector grammer를 통해 문장과 구(phrase)를 분석하도록 학습시킬 수 있습니다. 이 compositional vector grammer는 재귀 신경망으로 구현된 probabilistic context free grammar(PCFG)라고 할 수 있습니다. 단어 표현을 기반으로 구성된 Recursivr autoencoder는 문장 간의 유사도 판단과 의역 탐지를 하도록 훈련이 가능합니다. (위키피디아 참조)

RNN(Recurrent Neural Network) 순환 신경망 : 인공신경망을 구성하는 유닛 사이의 연결이 Directed cycle을 구성하는 신경망을 말합니다. 순환 신경망은 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용할 수 있습니다. 이러한 특성에 의해 순환 신경망은 필기체 인식(Handwriting recognition)과 같은 분야에 활용되고 있고, 높은 인식률을 나타냅니다. 

RNN(Recursive Neural Network) 재귀 신경망 : tree 구조를 가지는 데이터 처리에 사용합니다. Tree 구조는 언어 분석과 이미지 내부의 물체들의 관계에서 볼 수 있습니다. 사진을 문장으로 자동으로 변환하는 딥러닝 인공신경망에 Recursive Neural Network가 기여하고 있습니다.


2. NLP 활용 전망

자연어 검색(구어와 문어), 온라인 광고 매칭(구글 애드센스), 기계 번역 자동화(구글 번역 등), 마케팅 또는 파이낸스/트레이딩을 위한 정서 분석(물건을 팔고 사기 위한 결정을 도울 수 있는 정보), 음성 인지(알렉사, 구글 홈, 시리 등), 챗봇/다이얼로그 대리인(고객 지원 자동화, 디바이스 콘트롤, 물건 주문) 등 다양한 분야에서 사업이 추진되고 있습니다. 

앞으로 더 많은 분야로 확대되어 사용될 수 있을 것으로 전망하고 있습니다. 


3. Deep Learning이 최근에 뜨는 이유



딥 러닝 기술 자체는 80~90년대에 대부분이 개발되었다고 합니다. 다만 그 기술을 실제 적용할 수 있는 길이 최근에 생긴 것입니다. 


딥러닝에서 학습을 위해 매우 많은 데이터(빅데이터)를 이용한 학습이 매우 중요합니다. 그러나 빅데이터를 반복하여 학습시키는 데는 매우 많은 시간이 걸리게 되는데, 이러한 이유로 컴퓨팅 파워가 약한 과거의 CPU로는 많은 학습 데이터를 처리하는데 너무나 많은 시간이 걸려 실용적이지 못하였습니다.

요즘 CPU는 과거에 비해 비교적 빠른 처리를 할 수 있으나 획기적으로 빠른 학습을 위한 머신은 그래픽카드에 사용되는 GPU를 이용할 수 있게 된 최근 2~3년 동안 딥러닝의 성능이 크게 향상되었고 실용화될 수 있는 기반이 마련되었습니다. 


머신러닝(딥 러닝)을 공부하다 보니, 개념도 생소하지만 용어도 헷갈리는 것이 많습니다. 

앞으로 머릿 속 개념 정리를 위해서라도 용어를 일목요연하게 정리해야겠네요.






반응형

+ Recent posts