본문 바로가기
  • On the ball
Data/Python

Scrapy 크롤러 기본

by pub-lican-ai 2018. 12. 6.
반응형

[Beautiful Soup]

 - UTF-8로 변환

 - lxml, html5lib을 이용함.


[Scrapy]

 - web scraper framework

 - 다양한 Selector 지원

 - 파이프라인

 - 로깅

 - 이메일 기능 등


Scrapy

Scrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기

$ scrapy startproject PROJECTNAME


PyCharm으로 생성된 프로젝트를 열어

spiders 폴더내에 새로운 파일.py 생성


[default] 긁어와서 파일명으로 파일 저장하기

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["dmoztools.net"]

    start_urls =[

        "http://dmoztools.net/Computers/Programming/Languages/Python/Books/",

        "http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"

    ]


def parse(self,response):

        filename = response.url.split("/")[-2]

        with open(filename,'wb') as f:

            f.write(response.body)


반응형