반응형
BeautifulSoup 크롤러 기본
import requests
url = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%9E%90%EC%A3%BC_%EC%93%B0%EC%9D%B4%EB%8A%94_%ED%95%9C%EA%B5%AD%EC%96%B4_%EB%82%B1%EB%A7%90_5800'
response = requests.get(url)
print(response.text[:100])
<!DOCTYPE html> <html class="client-nojs" lang="ko" dir="ltr"> <head> <meta charset="UTF-8"/> <title
from bs4 import BeautifulSoup
html = BeautifulSoup(response.text, 'lxml')
html.title.text
'부록:자주 쓰이는 한국어 낱말 5800 - 위키낱말사전'
body = ''
for element in html.select('#mw-content-text > div > p'):
body = element.text +'\n'
body
'다음은 국립국어연구원이 2004년 12월에 발표한 "한국어 학습용 어휘" 6,000 낱말 가운데 고유명사를 뺀 자주 쓰이는 한국어 5,888 기초 낱말입니다. 이 가운데는 거듭 나오는 낱말도 있는데, 이는 같은 낱말이지만 다른 뜻으로 쓰이는 경우입니다. 이 자료에는 조사는 포함되지 않았습니다. 낱말의 사용 빈도는 위에서 아래로 갈수록 낮습니다.
with open('wiki/wiki_korean_words.txt','w',encoding='utf-8') as fp:
fp.write(body)
반응형
'Data > Python' 카테고리의 다른 글
정규표현식 (0) | 2018.12.12 |
---|---|
Word Net 대응, synsets, synset, 거리측정 (0) | 2018.12.12 |
자연어 처리 한글사전 만들어 비교하기 (0) | 2018.12.12 |
자연어 처리 영사전 만들어 비교하기 (0) | 2018.12.12 |
한글 말뭉치 리더기 만들기 (세종) (0) | 2018.12.11 |