본문 바로가기

파이썬으로 할 수 있는 일/AI&머신러닝

(21)
머신러닝 프로젝트 실행 -3 머신러닝 프로젝트 실행 1~3단계에 이어, 4단계를 정리하도록 하겠습니다. 4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기머신러닝 알고리즘을 위한 데이터를 준비할 시간입니다. 이것을 수동으로 하는 대신에, 자동으로 생성할 함수들을 사용해야 합니다. 그 이유는 다음과 같습니다.어떤 데이터셋이든(예, 다음 번에 새로운 데이터셋을 얻게 되었을 때), 이들 변환을 쉽게 재적용할 수 있도록 해줍니다.미래의 프로젝트에서 재사용할 수 있는 변환 함수 라이브러리를 만들 수 있습니다.이들 함수들을 알고리즘에 피딩하기 전에 새로운 데이터를 변환하기 위해 실제 사용하는 시스템에서 사용할 수 있습니다. 다양한 변환을 쉽게 시도하고 어떤 변환 조합이 가장 잘 동작하는지 알 수 있도록 해줍니..
머신러닝 프로젝트 실행 -2 머신러닝 프로젝트 실행 1~2단계에 이어, 3단계를 정리하도록 하겠습니다. 3. 인사이트를 찾기 위해 데이터 탐색하기1~2단계에서는 지금까지 처리하는 데이터의 종류에 대한 일반적인 이해를 얻기 위해 데이터를 훑어보았습니다. 지금부터는 조금 더 깊이 들어가 보도록 하겠습니다.먼저, 테스트 셋을 별도로 마련해 두었는지 확인하고, 훈련 셋을 탐색해 보도록 합시다. 만약 훈련 셋이 아주 크다면, 쉽고 빠르게 데이터를 다루기 위해 탐색하기 위한 셋을 샘플링하고 싶을지도 모릅니다. 우리 데이터의 경우에는, 훈련 셋이 매우 작기 때문에 전체 셋에서 직접 작업을 할 수 있습니다. 카피본을 만들어, 훈련 셋에 영향을 주지 않고 작업을 시작해 봅시다.>>> housing = strat_train_set.copy() 지리 ..
머신러닝 프로젝트 실행 -1 요즘 읽고 있는 ML책 중, 예제를 통해 머신러닝 프로젝트 실행 프로세스를 처음부터 끝까지 배우는 부분이 있어, 정리해 봅니다.머신러닝을 배우는 데 있어 실제 세상의 데이터를 가지고 프로젝트를 수행해 보는 것이 최상일 것입니다. 실제 데이터를 미국에서는 정말 많이 공짜로 제공하고 있습니다. 실 데이터를 가지고 머신러닝 실습을 하게 되면 무척 도움이 많이 될 것입니다.우선 내용이 길어 글을 나눠서 올리도록 하겠습니다. 전체 순서는1. 문제를 정의하고 전체 그림 바라보기2. 데이터 얻기3. 인사이트를 찾기 위해 데이터 탐색하기4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델을 찾기6. 모델을 알맞게 튜닝하고 멋진 솔루션으로..
자연어 처리(NLP) 자연어 처리(NLP, Natural Language Processing)인터넷의 발달과 함께 SNS(페이스북, 트위터, 유튜브, 링크드인, 핀터레스트, 인스타그램, 스냅챗 등)의 등장과 미디어로의 확장은 각 개인의 감정 및 생각을 파악할 수 있는 새로운 장을 열었다고 생각합니다. 하루에도 10억개 이상의 글들이 생성되는 시점에서, 우리는 정보의 홍수 속에 어떤 글, 그림, 동영상을 보아야 할지 파악하기 조차 어렵습니다. 그래서, SNS와 같은 자연어에서 인사이트(insight)를 뽑아내 활용하는 것이 매우 의미가 있을 것으로 생각합니다.인터넷을 통해 생성되는 대부분의 텍스트 데이터는 짧은 글(Short text, Small text massages 등)로 되어 있습니다. 이에 텍스트 마이닝(Text mi..
머신러닝(Machine Learning)이란 머신러닝(Machine Learning) 기본 개념(Basci Concept)머신러닝은 주어진 데이터를 훈련시켜(training), 훈련된 지식을 기반으로 새로운 입력(test input)에 대해 적절한 답(test output)을 찾고자 하는 일련의 과정이라고 말할 수 있습니다. 이때 훈련시키는 데이터가 질문(training input)과 정답(training output)이 모두 주어진 경우가 있고, 질문만 주어진 경우가 있습니다. 전자의 경우를 라벨링(Labeling)이 되어 있다고 말합니다. 1. 지도학습(Supervised Learning)훈련 데이터에 라벨링이 되어 있는 경우. 즉, 각 질문(input)에 대해 무엇이 정답(output)인지 훈련데이터가 알고 있는 경우입니다. 예를 들면 (2,..