반응형
[Beautiful Soup]
- UTF-8로 변환
- lxml, html5lib을 이용함.
[Scrapy]
- web scraper framework
- 다양한 Selector 지원
- 파이프라인
- 로깅
- 이메일 기능 등
Scrapy
Scrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기
$ scrapy startproject PROJECTNAME
PyCharm으로 생성된 프로젝트를 열어
spiders 폴더내에 새로운 파일.py 생성
[default] 긁어와서 파일명으로 파일 저장하기
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoztools.net"]
start_urls =[
"http://dmoztools.net/Computers/Programming/Languages/Python/Books/",
"http://dmoztools.net/Computers/Programming/Languages/Python/Resources/"
]
def parse(self,response):
filename = response.url.split("/")[-2]
with open(filename,'wb') as f:
f.write(response.body)
반응형
'Data > Python' 카테고리의 다른 글
파이썬 자연어 처리 기초(NLTK) (0) | 2018.12.10 |
---|---|
Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩 (0) | 2018.12.10 |
윈도우에서 웹 크롤링 Windows Web Crawling 환경설정 (0) | 2018.12.03 |
Web Scraper 기본 (0) | 2018.05.18 |
Python IDE 개발환경, pip proxy ssl 문제해결 (0) | 2018.05.10 |