Data/Python
Scrapy 크롤러 기본
pub-lican01
2018. 12. 6. 17:34
[Beautiful Soup]
- UTF-8로 변환
- lxml, html5lib을 이용함.
[Scrapy]
- web scraper framework
- 다양한 Selector 지원
- 파이프라인
- 로깅
- 이메일 기능 등
Scrapy
Scrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기
$ scrapy startproject PROJECTNAME
PyCharm으로 생성된 프로젝트를 열어
spiders 폴더내에 새로운 파일.py 생성
[default] 긁어와서 파일명으로 파일 저장하기
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoztools.net"]
start_urls =[
"http://dmoztools.net/Computers/Programming/Languages/Python/Books/",
"http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"
]
def parse(self,response):
filename = response.url.split("/")[-2]
with open(filename,'wb') as f:
f.write(response.body)
반응형