본문 바로가기
  • Let's go grab a data
반응형

전체 글435

데이터 분석 전문가 가이드 과목 2. 데이터 처리 기술 이해 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 과목2 데이터 처리 기술 이해 1장 데이터 처리 프로세스 1절 ETL(Extraction, Transformation and Load) : 통합, 이동, 관리 Batch ETL과 Real Time ETL Source -> ODS -> DWH -> Data Mart Extraction추출: 데이터 원천Source에서 데이터 획득, Transformation변형: 데이터 클렌징, 형식변환,표준화, 통합 Loading적재: 특정 목표 시스템에 적재 ODS(Operational Data Store): 추가 작업을 위해 데이터 소스들로부터 추출,통합한 데이터 베이스 Interface 단계: 데이터 획득, OLEDB(Objec.. 2019. 1. 4.
Creative Block _ 루 해리 어떤 아이디어든 쓸모없다고 지레 무시하지 마라. 떠오르는 모든 아이디어를 적어라.Remove the filters on your initial brainstorming. Write down EVERY idea.일단 긴 목록을 만들고 나중에 수정하라.Edit later, once you have a long list. 중요한 일을 할 때, 주위를 분산시키는 사소한 일들을 적어보라.Make a list of small tasks that are distracting you from your main project.30분간 틈을 내서 자질구레한 일들을 가능한 한 많이 처리하라.몇 시간마다 삼십 분씩 시간을 내서 소소한 일들을 처리할 수 있도록 스케줄을 짜라.Take a half hour and clear up.. 2018. 12. 31.
데이터 분석 전문가 가이드 과목1. 데이터 이해 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음과목 1 데이터 이해 1장 데이터의 이해 데이터 : 추론과 추정의 근거를 이루는 사실 - 객관적 사실이라는 존재적 특성 갖는 동시에 추론/예측/전망/추정을 위한 근거 정성적 데이터 : 언어, 문자 등 정량적 데이터 : 수치, 도형, 기호 등 지식화 - 암묵지(공통화, 내면화) -> 형식지(표출화,연결화) 데이터Data -> 정보Information -> 지식Knowledge -> 지혜Wisdom 데이터 베이스 정의 : 문자,기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체 데이터 베이.. 2018. 12. 16.
COCO(2018) ​​ COCO(2018) : 음악영화로 시작해 가족드라마 판타지 어드벤처 권선징악 다시 음악영화 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 ------------------- old review ---------------------원스(Once), 피아니스트의 전설, 투게더, 태양의노래, 호로비츠를 위하여, 레이, 아임 낫데어, 이프온리, 샤인 어라이트, 샤인, 스쿨오브락, 라스트 콘서트, 그남자작곡그여자작사, 나나, 비투스, 8명의 여인들, 물랑루즈, 맘마미아 웨딩싱어, 시카고, 헤드윅, 레드바이올린, 말할수 없는 비밀, 뮤직오브하트, 콜리드러브, 에브리원세즈알러뷰, 8mile, 밴디트, 허니, Raise your voice, 스윙걸즈, 포미니츠, 코러스, 카핑베토벤, 오페라의유령, 피.. 2018. 12. 12.
정규표현식 정규표현식String.find()는 일치 문자열 탐지, 정규표현식은 패턴 부합 탐지https://emailregex.com/ 참고 with open('wiki/turing.txt', encoding='utf-8') as fp: turing = fp.read()print(turing)앨런 매티슨 튜링(영어: Alan Mathison Turing, OBE, FRS, 1912년 6월 23일 ~ 1954년 6월 7일)은 영국의 수학자, 암호학자, 논리학자이자 컴퓨터 과학의 선구적 인물이다. 알고리즘과 계산 개념을 튜링 기계라는 추상 모델을 통해 형식화함으로써 컴퓨터 과학의 발전에 지대한 공헌을 했다.[2][3][4] 튜링 테스트의 고안으로도 유명하다. ACM에서 컴퓨터 과학에 중요한 업적을 남긴 사람들에게 매년.. 2018. 12. 12.
BeautifulSoup 크롤러 기본 BeautifulSoup 크롤러 기본 import requestsurl = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%9E%90%EC%A3%BC_%EC%93%B0%EC%9D%B4%EB%8A%94_%ED%95%9C%EA%B5%AD%EC%96%B4_%EB%82%B1%EB%A7%90_5800'response = requests.get(url)print(response.text[:100]) 2018. 12. 12.
Word Net 대응, synsets, synset, 거리측정 Word Net 대응하기 WordNet문자열이 같은데 여러 의미를 가질수 있을 때 상대해야함Str -> Synset 여러의미from nltk.corpus import wordnetwordnet#synsets(검색) -> 리스트#synset(신셋색인) .definition() .examples() .lemmas() .hyponyms()wordnet.synsets('car')[Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')] wordnet.synset('car.n.01').definition() wordnet.synset('car.n.01').examples() word.. 2018. 12. 12.
자연어 처리 한글사전 만들어 비교하기 import nltkimport pandas as pdfrom pyko.reader import SejongCorpusReadersejong = SejongCorpusReader(root='corpus/sejong/', fileids=r'(spoken|written)/word_tag/.+\.txt$')len(sejong.fileids())733 tagged_tokens = sejong.words(tagged=True) print(tagged_tokens[1])('타고', (('타', 'VV'), ('고', 'EC'))) 세종 말뭉치에서 단어 원형 사전 만들기1)원형을 찾아 변환해야할 대상들은 단어조각이 2개이상인 것2) 2개 이상이면서 2번째 형태소가 어미유형(tagset.xlsx에서 E로시작하는분류) .. 2018. 12. 12.
자연어 처리 영사전 만들어 비교하기 import nltkimport pandas as pdfrom nltk.corpus import gutenbergtokens = gutenberg.words()tokens['[', 'Emma', 'by', 'Jane', 'Austen', '1816', ']', ...] 사전에 없는 단어 선별 #pandas series로 변경하여 for문으로 사전과 tokens를 비교하는 작업을 대체하자tokens_series = pd.Series(tokens)isAlpha = tokens_series.str.isalpha()words_series = tokens_series[isAlpha].str.lower()words_drop_duplicate = words_series.drop_duplicates()len(words.. 2018. 12. 12.
반응형