본문 바로가기

파이썬으로 할 수 있는 일/크롤링

(2)
최근의 웹 스크래핑에 대해 웹스크래핑은 인터넷에서 수집할 수 있는 비정형화된 데이터를 다루는 기술이라고 할 수 있다. 비정형화된 데이터는 데이터베이스에 저장될 수 있는 템플릿에 맞는 데이터 모델이 아니라, 다양항 포멧으로 된 데이터라고 보면 된다. 웹에서 얻을 수 있는 텍스트, 이미지, 오디오, 비디오 또는 다른 형태의 조합들을 모두 말한다고 할 수 있다. 웹스크래핑은 인터넷으로부터 분석하거나 연구를 수행하기 위해 방대한 데이터들을 수집하고 추출할 수 있도록 해주는 매우 유용한 기술이다. 데이터 사이언티스트 또는 엔지니어들이 데이터를 모으거나, 효과적인 의사결정을 위해 비즈니스에 도움이 되는 정보들을 추출할 수 있도록 해준다. 웹 스크래핑은 언제나 다이나믹하다고 생각한다. 왜냐하면 많은 웹사이트들이 계속 업데이트되고, 새로운 기술..
Scrapy(스크래피)란? Scrapy 기초Scrapy는 2008년에 처음 0.7버전으로 공개되었다고 합니다. 그만큼 오랫동안 사용되어 왔고, 안정성을 갖추고 있다고 알려져 있습니다. 웹 스크래핑을 본격적으로 하는 경우에 있어, Scrapy를 사용하는 것이 성능상 매우 큰 이점을 갖게 될 것입니다.빠르고 안정적인 성능 외에도 스크래피의 장점을 들어보자면, 일단 깨진 HTML을 이해합니다.Scrapy에서 직접 BeautifulSoup 또는 lxml을 사용할 수 있습니다. 하지만 스크래피는 XPath 인터페이스인 selectors를 제공하고, 이것으로 깨진 HTML 코드와 혼란스러운 인코딩을 효율적으로 수행할 수 있게 해줍니다.Scrapy는 본래 웹 스크래핑을 위해 디자인 되었지만, API를 사용해서 데이터를 추출하거나 일반적인 웹 ..