BeautifulSoup 크롤러 기본

import requests

url = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%9E%90%EC%A3%BC_%EC%93%B0%EC%9D%B4%EB%8A%94_%ED%95%9C%EA%B5%AD%EC%96%B4_%EB%82%B1%EB%A7%90_5800'

response = requests.get(url)

print(response.text[:100])

<!DOCTYPE html>
<html class="client-nojs" lang="ko" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title

from bs4 import BeautifulSoup

html = BeautifulSoup(response.text, 'lxml')

html.title.text

'부록:자주 쓰이는 한국어 낱말 5800 - 위키낱말사전'

body = ''
for element in html.select('#mw-content-text > div > p'):
    body = element.text +'\n'

body

'다음은 국립국어연구원이 2004년 12월에 발표한 "한국어 학습용 어휘" 6,000 낱말 가운데 고유명사를 뺀 자주 쓰이는 한국어 5,888 기초 낱말입니다. 이 가운데는 거듭 나오는 낱말도 있는데, 이는 같은 낱말이지만 다른 뜻으로 쓰이는 경우입니다. 이 자료에는 조사는 포함되지 않았습니다. 낱말의 사용 빈도는 위에서 아래로 갈수록 낮습니다.

with open('wiki/wiki_korean_words.txt','w',encoding='utf-8') as fp:

fp.write(body)

저작자표시 비영리 변경금지 (새창열림)

'Data > Python' 카테고리의 다른 글

정규표현식 (0)	2018.12.12
Word Net 대응, synsets, synset, 거리측정 (0)	2018.12.12
자연어 처리 한글사전 만들어 비교하기 (0)	2018.12.12
자연어 처리 영사전 만들어 비교하기 (0)	2018.12.12
한글 말뭉치 리더기 만들기 (세종) (0)	2018.12.11

On the ball

BeautifulSoup 크롤러 기본

'Data > Python' 카테고리의 다른 글

티스토리툴바

BeautifulSoup 크롤러 기본

'Data > Python' 카테고리의 다른 글

관련글

티스토리툴바