본문 바로가기
  • On the ball
Data/Python

Word, pdf 문서에서 문자열 추출하기, 파일 입출력, 인코딩

by pub-lican-ai 2018. 12. 10.
반응형

[문서에서 문자열 추출]


https://pypi.org/project/pyautomate/


> pip install pyautomate


import pyautomate

from pyautomate.office import Word

docx = Word('test.docx')


from pyautomate.pdf import PDFDocument

pdf = PDFDocument('test.pdf')

본문 = pdf.extract_text()

print(본문)



[파일 입출력]

file = open('test.txt')

file

body = file.read()

file.close()

print(body)


#파이썬 스타일

with open('test.txt') as file:

    body = file.read()

    print(body)

file.closed


[인코딩]

open('test_from_jupyter.txt') #파일을 그냥 생성하면 cp949 로 Encoding됨

<_io.TextIOWrapper name='test_from_jupyter.txt' mode='r' encoding='cp949'>

name = '홍길동'
unicodepoint = [ord(char) for char in name]
print(unicodepoint)
print([hex(cp) for cp in unicodepoint])
#유니코드는 모든 문자조합을 숫자로 매핑한 추상적 개념

#인코딩은 문자를 메모리에 저장하는데 필요한 구체적 정보(1문자당 3개씩)
print(name.encode('utf-8'))
print(name.encode('utf-16'))
print(name.encode('cp949'))
print(name.encode('euc-kr'))

with open("test_write.txt", 'w', encoding='utf-8') as file:
    file.write('파일 utf-8 인코딩하여 쓰기')


반응형

'Data > Python' 카테고리의 다른 글

말뭉치Corpus 다루기, Pandas 기초  (0) 2018.12.11
파이썬 자연어 처리 기초(NLTK)  (0) 2018.12.10
Scrapy 크롤러 기본  (0) 2018.12.06
윈도우에서 웹 크롤링 Windows Web Crawling 환경설정  (0) 2018.12.03
Web Scraper 기본  (0) 2018.05.18