전체 글 (98) 썸네일형 리스트형 머신러닝 용어들(NLP, CV) 머신러닝을 접하면서 마주하게 될 용어들을 정리해 보도록 한다. 1. 자연어 처리(Natural Language Processing, NLP) : 자연어 처리(NLP)는 인간이 대화하는 말의 형태를 기계가 배우는 머신러닝 방법을 말한다. 지금까지 기본적으로 NLP로 진행해 왔던 분류는 다음과 같다. - 텍스트 분류 및 순위(Text classification and ranking) : 스팸이나 정크 메일을 필터링 해서 분류하는 것이 대표적이다. - 감성 분석(Sentiment analysis) : 이 분석은 머신이 제공하는 피드백에 대한 감성적 반응을 예측한다. 고객 관계와 만족도가 팩터가 된다. - 문서 요약(Document summarization) : 복합적이고 복잡한 긴 글을 짧고 압축된 정의를 사.. 아이디어 불패의 법칙 1부 불변의 사실 1장. '시장 실패의 법칙'에 대해 알아본다. 지속적으로 실패와 싸워 이기려면, 실패를 깊이 연구하고 이해해야 한다. 2장. 시장 실패의 법칙을 이겨낼 유일한 방법은 '될 놈'인 아이디어를 갖는 방법 뿐이다. 3장. 도구 사랑, 특히 시장 데이터가 중요하다. 데이터를 사랑하고, 데이터를 아주 까다롭게 대하는 것이다. 2부 쓸모있는 데이터를 수집하는 방법 대부분의 실패는 흐릿하고 애매하고 뒤죽박죽인 생각이 원인이다. 신제품 아이디어를 처음부터 끝까지 분명하게 설명할 수 없다면, 시장에서 성공할 확률을 높일 수 없다. 4장. 놀랄만큼 간단하지만 믿기지 않을만큼 효율적인 여러 도구들 5장. '프리토타이핑(pretotyping)'이라는 개념을 설명한다. 프로토타이핑과의 차이점을 설명하고 모음 .. 네이버 스마트스토어 API 활용 기초 요즘 부업 또는 본업으로 온라인 유통업을 하는 분들이 많이 늘고 있다. 나도 몇개 제품을 가지고 판매를 시작했는데, 처음에는 광고를 달지 않고 판매를 하려고 했다. 그런데, 정말 노출이 안되는 걸 알게 되었다. 그래서, 네이버 광고에 가입해서 광고를 시작하게 되었다. 네이버 광고 시스템이 첫눈에 확 들어오는 구조가 아니라서, 좀 복잡했다. 일단 만들어서 올려보는게 상책인 거 같아서, 만들어 올려보았다. 첫 주문이 발생했다. 일주일에 약 3~5개 주문이 들어왔다. 기분이 좋았다. 그런데, 2주 정도 지나자 주문이 안들어오는 것이다. 광고 노출도 안되고 있었다. 원인이 뭘까 찾아보니, 유료로 네이버 광고를 도와주는 시스템들이 눈에 들어왔다. 광고소재별 약 5~10분 주기로 그 소재(키워드) 광고 순위를 확인.. git과 github 기본 명령어 정리 git 기본 명령어(로컬) git(깃)은 파이썬으로 작업하는 사람들이 협업하는데 있어 필수적이라고 생각한다. 명령어 사용에 익숙해질 수 있도록 기본 명령어를 정리해 봐야겠다. - git init : 기존 디렉토리(폴더)를 git repository(저장소)로 초기화하여 만들기 - git add 파일이름 : git에 새로운 파일을 추가하여 git이 추적할 수 있게 하기 - git commit -m "" : 변경된 파일을 저장소에 제출하기 - git status : 현재 저장소 상태를 출력하기 git branch(독립적인 공간을 따로 만들기) - git branch 이름 : '이름'의 브랜치를 만들기 - git checkout 브랜치이름 : 현재 작업중인 '브랜치이름'으로 작업 공간을 변경하기 - git m.. 데이터 정제(Data Cleaning)와 정규화(Normalizing) : 사이킷런(Scikit-learn) 기초 머신러닝에 있어, 가장 먼저해야 하는 일 중 하나가 데이터 정제(Data Cleaning)입니다. 왜냐하면 바로 모델을 훈련할 수 있는 데이터셋을 확보하는 것이 실제로는 매우 어렵기 때문입니다. 따라서, 결측값(NaN)은 없는지, 이상치(outlier)는 없는지 알아보기 위해 데이터셋을 주의깊게 살펴보아야 합니다. 값이 큰 열이 있는 경우 정규화를 통한 보정이 필요하기도 합니다. 이번에는 데이터 정제(Data Cleaning)에 필요한 일반적인 작업에 대해 알아보도록 하겠습니다. 결측값(NaN)이 있는 열 정제하기 다음 데이터로 된 NaNDataset.csv 파일이 있다고 가정하겠습니다. 눈으로 봐도 몇개 열에 결측값이 있는 것을 확인할 수 있습니다. 작은 데이터셋에서는, 쉽게 결측값을 찾을 수 있습니다.. 선형 회귀분석(Linear Regression) : 사이킷런(Scikit-learn) 기초 사이킷런(Scikit-learn)으로 머신러닝을 시작하는 가장 쉬운 방법 중 하나가 선형 회귀분석을 구현해 보는 것입니다. 선형 회귀분석은 스칼라 종속 변수 y와 하나 이상의 설명 변수(또는 독립 변수) 간의 관계를 모델링하는 선형 접근법입니다. 예를 들어, 사람들의 키와 몸무게로 된 데이터셋이 있다고 합시다. >>> %matplotlib inline >>> import matplotlib.pyplot as plt >>> plt.rc('font', family='NanumGothic') # 네이버 글꼴을 미리 다운로드 받아야 합니다. 다른 글꼴을 사용하시려면 글꼴명을 변경해서 사용하시면 됩니다. >>> heights = [[1.6], [1.65], [1.7], [1.73], [1.8]] # 키는 미터(m.. 데이터셋 획득 : 사이킷런(Scikit-learn) 기초 Scikit-learn 라이브러리는 파이썬에서 가장 유명한 머신러닝 라이브러리 중 하나로, 분류(classification), 회귀(regression), 군집화(clustering), 의사결정 트리(decision tree) 등의 다양한 머신러닝 알고리즘을 적용할 수 있는 함수들을 제공합니다. 이번에는 머신러닝 수행 방법을 알아보기 전에, 다양한 샘플 데이터를 확보할 수 있는 방법들을 알아보려고 합니다. 데이터셋(Datasets) 얻기 머신러닝을 시작할 때, 간단하게 데이터셋을 얻어서 알고리즘을 테스트해 보는 것이 머신러닝을 이해하는데 있어 매우 유용합니다. 간단한 데이터셋으로 원리를 이해한 후, 실제 생활에서 얻을 수 있는 더 큰 데이터셋을 가지고 작업하는 것이 좋습니다. 우선 머신러닝을 연습하기 위.. 데이터 삭제 (Pandas 레시피) 이번에는 pandas에서 데이터를 삭제하는 방법에 대해 알아보고자 합니다. 1. pandas, numpy 라이브러리를 불러들입니다. >>> import pandas as pd >>> numpy as np 2. 다음 주소에서 데이터셋을 읽어들입니다. >>> url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data' 3. 읽어들인 데이터셋을 wine 변수에 저장합니다. >>> wine = pd.read_csv(url) >>> wine.head() 4. 컬럼들 중에서 첫번째, 네번째, 일곱번째, 아홉번째, 열두번째, 열세번째, 열네번째 컬럼을 삭제합니다. >>> wine = wine.drop(wine.columns[[0, 3.. 이전 1 ··· 5 6 7 8 9 10 11 ··· 13 다음