Scrapy 크롤러 기본

[Beautiful Soup]

- UTF-8로 변환

- lxml, html5lib을 이용함.

[Scrapy]

- web scraper framework

- 다양한 Selector 지원

- 파이프라인

- 로깅

- 이메일 기능 등

Scrapy

Scrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기

$ scrapy startproject PROJECTNAME

PyCharm으로 생성된 프로젝트를 열어

spiders 폴더내에 새로운 파일.py 생성

[default] 긁어와서 파일명으로 파일 저장하기

class DmozSpider(scrapy.Spider):

name = "dmoz"

allowed_domains = ["dmoztools.net"]

start_urls =[

"http://dmoztools.net/Computers/Programming/Languages/Python/Books/",

"http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"

]

def parse(self,response):

filename = response.url.split("/")[-2]

with open(filename,'wb') as f:

f.write(response.body)

파이썬 자연어 처리 기초(NLTK) (1)	2018.12.10
Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩 (0)	2018.12.10
윈도우에서 웹 크롤링 Windows Web Crawling 환경설정 (0)	2018.12.03
Web Scraper 기본 (0)	2018.05.18
Python IDE 개발환경, pip proxy ssl 문제해결 (1)	2018.05.10

On the ball