본문 바로가기

numpy

(4)

머신러닝 프로젝트 실행 -4 이번에는 머신러닝 프로젝트 4단계에 이어, 5단계를 살펴보도록 하겠습니다. 5. 다양한 모델을 탐색하고 그 중 가장 좋은 모델 찾기지금까지 문제를 정의하고, 데이터를 얻어서 탐색해 보았습니다. 그리고 트레이닝 셋과 테스트 셋을 샘플링하고, 자동적으로 머신러닝 알고리즘을 위해 클리닝해서 데이터를 준비하기 위해 변형 파이프라인을 작성했습니다. 이제 머신러닝 모델을 선택해서 트레이닝시킬 준비가 되었습니다. 트레이닝 셋에서 훈련하고 평가하기좋은 소식은 이전 1~4단계 덕분에, 이제 생각했던 것보다 상황이 훨씬 간단하게 진행될 것이라는 것입니다. 우선 선형 회귀 모델을 트레이닝해 봅시다.>>> from sklearn.linear_model import LinearRegression>>> lin_reg = Line..

머신러닝 프로젝트 실행 -3 머신러닝 프로젝트 실행 1~3단계에 이어, 4단계를 정리하도록 하겠습니다. 4. 기본 데이터 패턴을 머신러닝 알고리즘에 더 잘 노출할 수 있도록 데이터 준비하기머신러닝 알고리즘을 위한 데이터를 준비할 시간입니다. 이것을 수동으로 하는 대신에, 자동으로 생성할 함수들을 사용해야 합니다. 그 이유는 다음과 같습니다.어떤 데이터셋이든(예, 다음 번에 새로운 데이터셋을 얻게 되었을 때), 이들 변환을 쉽게 재적용할 수 있도록 해줍니다.미래의 프로젝트에서 재사용할 수 있는 변환 함수 라이브러리를 만들 수 있습니다.이들 함수들을 알고리즘에 피딩하기 전에 새로운 데이터를 변환하기 위해 실제 사용하는 시스템에서 사용할 수 있습니다. 다양한 변환을 쉽게 시도하고 어떤 변환 조합이 가장 잘 동작하는지 알 수 있도록 해줍니..

Numpy(넘파이) 기초 Numpy란?데이터 과학을 공부하기 위해서는 수치 배열 데이터를 다루는데 능숙해지는 것이 필요합니다. 파이썬에서는 Numpy(넘파이)와 Pandas(판다스)를 통해 수치 배열 데이터를 잘 다룰 수 있다고 생각합니다. 그렇다면 이 두개의 라이브러리에 익숙해지는 것이 필요하겠지요?오늘은 Numpy에 대한 기초 내용을 정리해 보도록 하겠습니다. 1. Numpy 특징벡터, 메트릭스, 고수준의 배열은 과학계산 컴퓨팅에 있어 필수 도구라 할 수 있습니다. 입력 값 세트를 통해 계산이 반복될 때, 배열로 데이터를 나타내는 것이 자연스럽고 장점이 많습니다. 파이썬 과학계산 환경에서, 배열을 다루기 좋은 구조를 제공하는 라이브러리가 Numpy입니다. Numpy의 핵심 기능은 C로 구현되어 있습니다. 그래서 배열을 계산하..

데이터 사이언스 기초 - 관련 라이브러리 소개 4차 산업혁명 시대의 데이터 사이언티스트(Data Scientist)를 위한 파이썬 라이브러리(Python Library)요즘 파이썬을 배워서 진출할 수 있는 직업 중에 데이터 사이언티스트가 핫한 것 같다. 4차 산업혁명과 함께 많이들 선호하고 있는 상태가 되었다.하지만, 언론, 소셜 등에서 너무 많은 관심을 보이는 것이 거품이 될까 우려가 좀 된다. 2000년 초에 인터넷 기업 붐이 엄청나게 일어나고, 갑자기 거품이 꺼졌을 때 처럼 될 것 같아 보이기 때문이다. 요즘 가장 열광하는 단어는 단연 AI일 것이라고 생각한다. 그런데, 머신러닝(machine learning), 그 중에서 딥 러닝(deep learning)에 집중하는 것은 인터넷 자체가 혁신을 일으킬 것처럼 말했던 상황을 답습하는 것이 아닐까..

이전 1 다음

티스토리툴바