본문 바로가기
  • Let's go grab a data
반응형

전체 글435

한글 말뭉치 리더기 만들기 (세종) nltk에서 제공하는 아래 영어 말뭉치 리더기 오픈소스를 수정하여 한글 말뭉치 리더기 만들기영국 말뭉치 http://www.natcorp.ox.ac.uk/국립국어원 세종말뭉치 프로젝트 언어정보나눔터 https://ithub.korean.go.kr/user/main.do from nltk.corpus.reader.bnc import BNCCorpusReaderbnc_reader = BNCCorpusReader( root='corpus/BNC/2554/download/Texts/', fileids=r'[A-Z]/.+/.+\.xml$')fids = bnc_reader.fileids()print(len(fids))fid = bnc_reader.fileids()[0]fid4049 bnc_reader.words(f.. 2018. 12. 11.
사용자 정의 말뭉치 읽고 처리 import nltkfrom nltk.corpus.reader import PlaintextCorpusReader#Plaintext Corpus Reader을 활용하여 사용자 말뭉치 사용 'word_tokenizer= ' 이용해서 테스트 데이터는 wiki에서 긁어서 만든 txt 파일wiki = PlaintextCorpusReader(root='wiki/', fileids=['turing.txt','jobs.txt'], encoding='utf-8')wiki.fileids()['turing.txt', 'jobs.txt'] #words로 토큰화 해보지만 조사 등을 잘라낼 수 없다. fid = wiki.fileids()[0] wiki.raw(fileids=fid) print(wiki.words()[:50])[.. 2018. 12. 11.
Corpus type - Categories, Tagged, UDHR import pandas as pdfrom nltk.corpus import brown#CategorizedTaggedCorpusReaderprint(brown) brown.fileids()[:5]brown.words()brown.tagged_words()brown.categories()[('The', 'AT'), ('Fulton', 'NP-TL'), ...]['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction'] brown.words(cat.. 2018. 12. 11.
말뭉치Corpus 다루기, Pandas 기초 import nltkfrom nltk.corpus import gutenberg#Plaintextgutenbergprint(gutenberg.fileids()[:10])['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt'] fid_1 = gutenberg.fileids()[0] raw_text = gutenberg.raw(fid_1) print(type(raw_text)) p.. 2018. 12. 11.
파이썬 자연어 처리 기초(NLTK) \이미지 출처: 자연어 처리 입문 강의 자료 (이성주) pypi https://pypi.org/project/nltk/ 서울대 http://konlpy.org/en/latest/ GPL v3 오픈소스 라이선스구글 https://cloud.google.com/natural-language/ import nltknltk.download()from nltk.corpus import gutenberggutenberg.fileids() #파일 목록#nltp에서 제공하는 corpus 리더기raw_text = gutenberg.raw('austen-emma.txt')print(raw_text[:100]) #raw 리더기를 안쓰는 경우 아래와 같이 path작업을 계속해줘야함import osos.path.join(gut.. 2018. 12. 10.
Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩 [문서에서 문자열 추출] https://pypi.org/project/pyautomate/ > pip install pyautomate import pyautomatefrom pyautomate.office import Worddocx = Word('test.docx') from pyautomate.pdf import PDFDocumentpdf = PDFDocument('test.pdf')본문 = pdf.extract_text()print(본문) [파일 입출력]file = open('test.txt')filebody = file.read()file.close()print(body) #파이썬 스타일with open('test.txt') as file: body = file.read() print(body).. 2018. 12. 10.
라즈베리파이로 블루투스 스피커 연결, 소리테스트, 라디오 재생 [블루투스 연결]1. 집에 놀던 블루투스 스피커 충전하여 연결모드 뚜- 뚜- 2. 라즈비안의 우측 상단 블루투스 모양 클릭 - Add Device3. 스피커 선택 후 Pair - 보통 스피커는 회사명이나 모델명(나의 경우 Sound Donut)으로 검색이 됨. Mac Address형태도 많이 나오는데 대부분 연결이 안되고 쓸데없으니 스피커명을 찾을 것4. 연결이 완료되면 바로 연결되어 소리가 나는 것이 아님. 블루투스 모양 옆옆의 스피커 모양 우클릭 - 추가된 Sound Donut을 소리 Output으로 선택함. [소리테스트]1. 라즈비안 업데이트 >sudo apt-get update >sudo apt-get upgrade >sudo apt-get install alsa-units -> 나의 경우 설치되.. 2018. 12. 7.
Scrapy 크롤러 기본 [Beautiful Soup] - UTF-8로 변환 - lxml, html5lib을 이용함. [Scrapy] - web scraper framework - 다양한 Selector 지원 - 파이프라인 - 로깅 - 이메일 기능 등 ScrapyScrapy 설치 후 startproject 옵션으로 프로젝트 자동 생성하기$ scrapy startproject PROJECTNAME PyCharm으로 생성된 프로젝트를 열어spiders 폴더내에 새로운 파일.py 생성 [default] 긁어와서 파일명으로 파일 저장하기class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoztools.net"] start_urls =[ "http://dmoztool.. 2018. 12. 6.
라즈베리파이3 B+에 라즈비안 설치, 기본설정 라즈베리파이3 B+ 구매 구매한 구성품- 본체, 16GB Micro SD카드, SD카드 리더기, 5V 2.5A 어댑터, 방열판, 반투명 케이스- 7인치 라즈베리파이 전용 터치 모니터 추가, 모니터 케이스 추가 집에 있던 구성품- 키보드, 마우스, HDMI 케이블, 이더넷케이블, TV(모니터로 활용), 갤럭시 탭(모니터로 활용예정) [라즈비안 설치]1. 아래 링크에서 sd카드 포멧을 위한 SW 받아 sd카드 빠른 포멧https://www.sdcard.org/downloads/formatter_4/eula_windows/index.html 2. 아래 링크에서 NOOBS (Offline and network install) Zip파일 다운로드https://www.raspberrypi.org/downloads/.. 2018. 12. 6.
반응형