반응형

웹스크래핑은 인터넷에서 수집할 수 있는 비정형화된 데이터를 다루는 기술이라고 할 수 있다.
비정형화된 데이터는 데이터베이스에 저장될 수 있는 템플릿에 맞는 데이터 모델이 아니라, 다양항 포멧으로 된 데이터라고 보면 된다.
웹에서 얻을 수 있는 텍스트, 이미지, 오디오, 비디오 또는 다른 형태의 조합들을 모두 말한다고 할 수 있다. 
웹스크래핑은 인터넷으로부터 분석하거나 연구를 수행하기 위해  방대한 데이터들을 수집하고 추출할 수 있도록 해주는 매우 유용한 기술이다.
데이터 사이언티스트 또는 엔지니어들이 데이터를 모으거나, 효과적인 의사결정을 위해 비즈니스에 도움이 되는 정보들을 추출할 수 있도록 해준다. 

웹 스크래핑 프로세스 flow

웹 스크래핑은 언제나 다이나믹하다고 생각한다.
왜냐하면 많은 웹사이트들이 계속 업데이트되고, 새로운 기술을 도입해서 변화하고 있기 때문에, 동일한 웹 스크래핑으로 원하는 데이터를 얻지 못할 수 있기 때문이다. 
또한, 개인정보 보호 등 윤리적 이슈로 인해 웹 스크래핑을 하지 못하도록 막는 웹사이트도 늘어나고 있고, 그러한 흐름에 따라 웹 스크래핑이 어려워지고 있다고 할 수 있다.

파이썬에서 웹 스크래핑에 주로 사용하는 라이브러리로 BeautifulSoup, Requests, Urllib, Selenium과 같은 라이브러리가 있다.
좀 더 쉽게 웹 스크래핑을 할 수 있도록 도와주는 Scrapy와 같은 프레임워크도 존재한다. 

보통 자바스크립트를 사용하지 않는 일반적인 HTML사이트는 BeautifulSoup+requests 또는 Scrapy를 사용해 스크래핑을 할 수 있다.
하지만, 우리가 스크래핑하고 싶어하는 많은 사이트들은 자바스크립트를 거의 사용한다고 보면 된다. 그래서, 이런 사이트들은 selenium같은 툴이 더 유용하게 사용되고 있다.

Web Opinion Mining

Web Opinion Mining은 유저들에게 더 나은 의사결정을 할 수 있도록 의미있는 인사이트를 제공하기 위해 다양한 웹 소스들로부터 데이터를 분석해서 의견들을  전달하는 것을 말한다. 
컴퓨터 모델링 기법을 통한 인간의 감정과 그것의 분석에 대한 연구는 감정 분석 또는 Opinion Mining이라고 한다. 우리가 SNS의 글들을 통해 감정 분석을 많이 하는데, 이때 사용되는 것이 Natural Language Processing(NLP) 기술이다. 

 

반응형

'파이썬으로 할 수 있는 일 > 크롤링' 카테고리의 다른 글

Scrapy(스크래피)란?  (0) 2017.03.23

+ Recent posts