'Machine Learning' 태그의 글 목록

데이터셋 획득 : 사이킷런(Scikit-learn) 기초

Scikit-learn 라이브러리는 파이썬에서 가장 유명한 머신러닝 라이브러리 중 하나로, 분류(classification), 회귀(regression), 군집화(clustering), 의사결정 트리(decision tree) 등의 다양한 머신러닝 알고리즘을 적용할 수 있는 함수들을 제공합니다. 이번에는 머신러닝 수행 방법을 알아보기 전에, 다양한 샘플 데이터를 확보할 수 있는 방법들을 알아보려고 합니다. 데이터셋(Datasets) 얻기 머신러닝을 시작할 때, 간단하게 데이터셋을 얻어서 알고리즘을 테스트해 보는 것이 머신러닝을 이해하는데 있어 매우 유용합니다. 간단한 데이터셋으로 원리를 이해한 후, 실제 생활에서 얻을 수 있는 더 큰 데이터셋을 가지고 작업하는 것이 좋습니다. 우선 머신러닝을 연습하기 위..

파이썬으로 할 수 있는 일/AI&머신러닝 2019.05.22

머신러닝 프로젝트 실행 -5

머신러닝 프로젝트 실행(6~7단계) 머신러닝 프로젝트 실행 순서는 1. 문제를 정의하고 전체 그림 바라보기2. 데이터 얻기3. 인사이트를 찾기 위해 데이터 탐색하기4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델을 찾기6. 모델을 알맞게 튜닝하고 멋진 솔루션으로 통합하기7. 시스템 런칭, 모니터링과 유지하기입니다. 지금까지, 1~5단계까지 살펴보았습니다. 이제 2단계만 살펴보면 마무리 될 것 같습니다. 먼저, 6. 모델을 알맞게 튜닝하고 멋진 솔루션으로 통합하기 이제 유망한 모델들을 가졌다고 가정해 봅시다. 그럼, 이 모델들을 튜닝하는 것이 필요합니다. 실행할 수 있는 몇가지 방법을 살펴보도록 하겠습니다. 그리드 서치(..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.05.15

머신러닝 프로젝트 실행 -4

이번에는 머신러닝 프로젝트 4단계에 이어, 5단계를 살펴보도록 하겠습니다. 5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델 찾기지금까지 문제를 정의하고, 데이터를 얻어서 탐색해 보았습니다. 그리고 트레이닝 셋과 테스트 셋을 샘플링하고, 자동적으로 머신러닝 알고리즘을 위해 클리닝해서 데이터를 준비하기 위해 변형 파이프라인을 작성했습니다. 이제 머신러닝 모델을 선택해서 트레이닝시킬 준비가 되었습니다. 트레이닝 셋에서 훈련하고 평가하기좋은 소식은 이전 1~4단계 덕분에, 이제 생각했던 것보다 상황이 훨씬 간단하게 진행될 것이라는 것입니다. 우선 선형 회귀 모델을 트레이닝해 봅시다.>>> from sklearn.linear_model import LinearRegression>>> lin_reg = Line..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.05.10

머신러닝 프로젝트 실행 -3

머신러닝 프로젝트 실행 1~3단계에 이어, 4단계를 정리하도록 하겠습니다. 4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기머신러닝 알고리즘을 위한 데이터를 준비할 시간입니다. 이것을 수동으로 하는 대신에, 자동으로 생성할 함수들을 사용해야 합니다. 그 이유는 다음과 같습니다.어떤 데이터셋이든(예, 다음 번에 새로운 데이터셋을 얻게 되었을 때), 이들 변환을 쉽게 재적용할 수 있도록 해줍니다.미래의 프로젝트에서 재사용할 수 있는 변환 함수 라이브러리를 만들 수 있습니다.이들 함수들을 알고리즘에 피딩하기 전에 새로운 데이터를 변환하기 위해 실제 사용하는 시스템에서 사용할 수 있습니다. 다양한 변환을 쉽게 시도하고 어떤 변환 조합이 가장 잘 동작하는지 알 수 있도록 해줍니..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.04.27

머신러닝 프로젝트 실행 -2

머신러닝 프로젝트 실행 1~2단계에 이어, 3단계를 정리하도록 하겠습니다. 3. 인사이트를 찾기 위해 데이터 탐색하기1~2단계에서는 지금까지 처리하는 데이터의 종류에 대한 일반적인 이해를 얻기 위해 데이터를 훑어보았습니다. 지금부터는 조금 더 깊이 들어가 보도록 하겠습니다.먼저, 테스트 셋을 별도로 마련해 두었는지 확인하고, 훈련 셋을 탐색해 보도록 합시다. 만약 훈련 셋이 아주 크다면, 쉽고 빠르게 데이터를 다루기 위해 탐색하기 위한 셋을 샘플링하고 싶을지도 모릅니다. 우리 데이터의 경우에는, 훈련 셋이 매우 작기 때문에 전체 셋에서 직접 작업을 할 수 있습니다. 카피본을 만들어, 훈련 셋에 영향을 주지 않고 작업을 시작해 봅시다.>>> housing = strat_train_set.copy() 지리 ..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.04.26

머신러닝 프로젝트 실행 -1

요즘 읽고 있는 ML책 중, 예제를 통해 머신러닝 프로젝트 실행 프로세스를 처음부터 끝까지 배우는 부분이 있어, 정리해 봅니다.머신러닝을 배우는 데 있어 실제 세상의 데이터를 가지고 프로젝트를 수행해 보는 것이 최상일 것입니다. 실제 데이터를 미국에서는 정말 많이 공짜로 제공하고 있습니다. 실 데이터를 가지고 머신러닝 실습을 하게 되면 무척 도움이 많이 될 것입니다.우선 내용이 길어 글을 나눠서 올리도록 하겠습니다. 전체 순서는1. 문제를 정의하고 전체 그림 바라보기2. 데이터 얻기3. 인사이트를 찾기 위해 데이터 탐색하기4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델을 찾기6. 모델을 알맞게 튜닝하고 멋진 솔루션으로..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.04.25

머신러닝(Machine Learning)이란

머신러닝(Machine Learning) 기본 개념(Basci Concept)머신러닝은 주어진 데이터를 훈련시켜(training), 훈련된 지식을 기반으로 새로운 입력(test input)에 대해 적절한 답(test output)을 찾고자 하는 일련의 과정이라고 말할 수 있습니다. 이때 훈련시키는 데이터가 질문(training input)과 정답(training output)이 모두 주어진 경우가 있고, 질문만 주어진 경우가 있습니다. 전자의 경우를 라벨링(Labeling)이 되어 있다고 말합니다. 1. 지도학습(Supervised Learning)훈련 데이터에 라벨링이 되어 있는 경우. 즉, 각 질문(input)에 대해 무엇이 정답(output)인지 훈련데이터가 알고 있는 경우입니다. 예를 들면 (2,..

파이썬으로 할 수 있는 일/AI&머신러닝 2017.03.11

데이터 사이언스 기초 - 관련 라이브러리 소개

4차 산업혁명 시대의 데이터 사이언티스트(Data Scientist)를 위한 파이썬 라이브러리(Python Library)요즘 파이썬을 배워서 진출할 수 있는 직업 중에 데이터 사이언티스트가 핫한 것 같다. 4차 산업혁명과 함께 많이들 선호하고 있는 상태가 되었다.하지만, 언론, 소셜 등에서 너무 많은 관심을 보이는 것이 거품이 될까 우려가 좀 된다. 2000년 초에 인터넷 기업 붐이 엄청나게 일어나고, 갑자기 거품이 꺼졌을 때 처럼 될 것 같아 보이기 때문이다. 요즘 가장 열광하는 단어는 단연 AI일 것이라고 생각한다. 그런데, 머신러닝(machine learning), 그 중에서 딥 러닝(deep learning)에 집중하는 것은 인터넷 자체가 혁신을 일으킬 것처럼 말했던 상황을 답습하는 것이 아닐까..

파이썬으로 할 수 있는 일/파이썬 기초 2017.03.08

내게 필요한 정보들(금융 정보와 파이썬, 옵시디언, DIY)

Machine Learning 8

티스토리툴바