Web Scraper 기본

Data/Python

pub-lican01 2018. 5. 18. 18:14

[필요 모듈]

requests

BeuatifulSoup4 - HTML를 파싱하기 좋게 파이썬 객체로 리턴

lxml - 파싱가능한 HTML으로 변경

[요청하기]

import requests

res = requests.get('http://book.naver.com')

res.text

'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\r\n<html lang="ko">\r\n<head>.......

[proxy 있는 경우]

from requests.auth import HTTPProxyAuth

proxyDict = {

'http' : '70.10.15.10:8080',

'https' : '70.10.15.10:8080'

}

res = requests.get('http://book.naver.com', proxies=proxyDict)

작성중