본문 바로가기
  • Let's go grab a data
반응형

Data97

[통계학 기초] 다중선형 회귀 모형 다중선형 회귀모형 : Y = a + bx1 + cx2 + ... 형태의 다차원 직선 회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정 회귀 모형의 유의성 검정 : 1) 각 독립 변수의 유의성 검정 : T검정 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다) 2) 모델의 전반적인 유의성 검정은 F검정 귀무가설 : b는 모두 0이다 대립가설 : b는 모두 0이 아니다 결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값 1에 가까울 수록 완벽하게 설명 다중선형회귀모형에서는 독립변수의 수가 많을 수록 R제곱값이 언제나 증가함 - .. 2020. 8. 26.
[통계학 기초] 선형회귀모형 Linear regression model 선형회귀모델 : 자료 x,y를 설명하는 직선(회귀선) 형태의 모델, y = ax+b 회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정 회귀 모형의 유의성 검정 : 1) 각 독립 변수 x가 종속 변수 y를 설명하기에 유용한 변수인가는 회귀 계수 b에 대한 t검정을 통해 파악 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다) 2) 모델의 전반적인 유의성 검정은 F검정 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다 결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값 1에 가까울 수록 완벽하게 설명 잔차분석 residua.. 2020. 8. 24.
[통계학 기초] 분산분석(Analysis of Variance; ANOVA) [통계학 기초] 분산분석(Analysis of Variance; ANOVA) 분산분석 : 연속형 자료에 대한 2개 이상의 그룹간의 평균 차이 검정 용어 : 요인(factor) - 모집단(그룹)의 구분 기준 예) 색깔 처리(treatment, levels) - 요인을 구성하는 각 모집단(그룹), 예) 빨, 노, 파 방법 : 총 변동(SST) = 오차에 의한 변동(SSE, 그룹내 변동) + 요인에 의한 변동 (SSTR, 그룹간 변동) 평균제곱은 각 제곱합들을 각각의 자유도로 나눈 값 MSTR = SSTR/k-1 MSE = SSE/(nk-k) 검정통계량 : F = MSTR / MSE 요인의 갯수에 따라 일원분산분석(one-way ANOVA), 이원분산분석(two-way ANOVA)등으로 구분 일원분산분석 (o.. 2020. 8. 24.
[통계학 기초] 범주형 자료분석(Categorical Data Analysis) 카이제곱 검정 (Chi-Squared Test) 1. 적합도 검정 : 하나의 범주형 변수에 대해 관측값들이 어떤 분포를 띄는지 검정 2. 독립성 검정 : 서로 다른 두 범주형 변수 간에 연관성이 있는지 검정 1. 카이제곱 적합도(goodness-of-fit) 검정 각 범주별 빈도와 기대빈도가 얼마나 유사한가 A사 시장 점유율 60% B사 20% C사 20% 400명 대상 설문조사로 200, 100, 100 명 대답 유의 수준 5% 귀무가설 : 각 범주별로 주어진 확률은 사실이다. 대립가설 : 각 범주별로 주어진 확률 중 하나 이상은 사실이 아니다. R 함수 예시 (데이터를 보기좋게 바꾸어서 실제와 값이 다를 수 있음) > obs ms chisq.test(obs, p = ms) X-squared = 4.7.. 2020. 8. 23.
EDA(Exploratory Data Analysis) - 이산형(범주형) 변수 빈도분석 - 분류형(범주형) 변수에 대한 빈도표Frequency table을 작성하고 그에 적절한 그래프를 그리는 분석 방법 R에서의 집계 예제 aggregate(EDEC_TRAMT ~AGE_GROUP, data=ndata,mean) -> AGE_Group별 EDEC 값의 평균값을 집계해 다른 연령군 대비 높거나 낮은 값을 찾을 수 있음 교차표 Contingency Table - 범주형 변수간의 관계를 빈도 Frequency나 백분율 Percentage을 가로/세로축의 표로 나타 낸 것 행합계, 열합계, 행 백분율, 열 백분율등을 쉽게 계산하고 확인할 수 있음 (교차표 예시) 분할표란? 두 변수가 범주형일 경우에 한 변수의 범주는 행 한 변수의 범주는 열로 하여 교차되는 칸에 도수를 적은 표이다. 분할표.. 2019. 7. 23.
정규표현식 정규표현식String.find()는 일치 문자열 탐지, 정규표현식은 패턴 부합 탐지https://emailregex.com/ 참고 with open('wiki/turing.txt', encoding='utf-8') as fp: turing = fp.read()print(turing)앨런 매티슨 튜링(영어: Alan Mathison Turing, OBE, FRS, 1912년 6월 23일 ~ 1954년 6월 7일)은 영국의 수학자, 암호학자, 논리학자이자 컴퓨터 과학의 선구적 인물이다. 알고리즘과 계산 개념을 튜링 기계라는 추상 모델을 통해 형식화함으로써 컴퓨터 과학의 발전에 지대한 공헌을 했다.[2][3][4] 튜링 테스트의 고안으로도 유명하다. ACM에서 컴퓨터 과학에 중요한 업적을 남긴 사람들에게 매년.. 2018. 12. 12.
BeautifulSoup 크롤러 기본 BeautifulSoup 크롤러 기본 import requestsurl = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%9E%90%EC%A3%BC_%EC%93%B0%EC%9D%B4%EB%8A%94_%ED%95%9C%EA%B5%AD%EC%96%B4_%EB%82%B1%EB%A7%90_5800'response = requests.get(url)print(response.text[:100]) 2018. 12. 12.
Word Net 대응, synsets, synset, 거리측정 Word Net 대응하기 WordNet문자열이 같은데 여러 의미를 가질수 있을 때 상대해야함Str -> Synset 여러의미from nltk.corpus import wordnetwordnet#synsets(검색) -> 리스트#synset(신셋색인) .definition() .examples() .lemmas() .hyponyms()wordnet.synsets('car')[Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')] wordnet.synset('car.n.01').definition() wordnet.synset('car.n.01').examples() word.. 2018. 12. 12.
자연어 처리 한글사전 만들어 비교하기 import nltkimport pandas as pdfrom pyko.reader import SejongCorpusReadersejong = SejongCorpusReader(root='corpus/sejong/', fileids=r'(spoken|written)/word_tag/.+\.txt$')len(sejong.fileids())733 tagged_tokens = sejong.words(tagged=True) print(tagged_tokens[1])('타고', (('타', 'VV'), ('고', 'EC'))) 세종 말뭉치에서 단어 원형 사전 만들기1)원형을 찾아 변환해야할 대상들은 단어조각이 2개이상인 것2) 2개 이상이면서 2번째 형태소가 어미유형(tagset.xlsx에서 E로시작하는분류) .. 2018. 12. 12.
반응형