본문 바로가기
  • Let's go grab a data
Data/Python

BeautifulSoup 크롤러 기본

by pub-lican-ai 2018. 12. 12.
반응형

BeautifulSoup 크롤러 기본


import requests

url = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%9E%90%EC%A3%BC_%EC%93%B0%EC%9D%B4%EB%8A%94_%ED%95%9C%EA%B5%AD%EC%96%B4_%EB%82%B1%EB%A7%90_5800'

response = requests.get(url)

print(response.text[:100])

<!DOCTYPE html>
<html class="client-nojs" lang="ko" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title

from bs4 import BeautifulSoup

html = BeautifulSoup(response.text, 'lxml')

html.title.text

'부록:자주 쓰이는 한국어 낱말 5800 - 위키낱말사전'

body = ''
for element in html.select('#mw-content-text > div > p'):
    body = element.text +'\n'

body

'다음은 국립국어연구원이 2004년 12월에 발표한 "한국어 학습용 어휘" 6,000 낱말 가운데 고유명사를 뺀 자주 쓰이는 한국어 5,888 기초 낱말입니다. 이 가운데는 거듭 나오는 낱말도 있는데, 이는 같은 낱말이지만 다른 뜻으로 쓰이는 경우입니다. 이 자료에는 조사는 포함되지 않았습니다. 낱말의 사용 빈도는 위에서 아래로 갈수록 낮습니다.


with open('wiki/wiki_korean_words.txt','w',encoding='utf-8') as fp:

    fp.write(body)

반응형