본문 바로가기
  • Let's go grab a data
반응형

Data/Statistics12

[통계학 기초] 다중선형 회귀 모형 다중선형 회귀모형 : Y = a + bx1 + cx2 + ... 형태의 다차원 직선 회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정 회귀 모형의 유의성 검정 : 1) 각 독립 변수의 유의성 검정 : T검정 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다) 2) 모델의 전반적인 유의성 검정은 F검정 귀무가설 : b는 모두 0이다 대립가설 : b는 모두 0이 아니다 결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값 1에 가까울 수록 완벽하게 설명 다중선형회귀모형에서는 독립변수의 수가 많을 수록 R제곱값이 언제나 증가함 - .. 2020. 8. 26.
[통계학 기초] 선형회귀모형 Linear regression model 선형회귀모델 : 자료 x,y를 설명하는 직선(회귀선) 형태의 모델, y = ax+b 회귀계수 : a, b는 최소 제곱법으로 추정, 회귀선과 각 관측치와의 거리의 제곱합이 가장 최소가 되는 회귀선 추정 회귀 모형의 유의성 검정 : 1) 각 독립 변수 x가 종속 변수 y를 설명하기에 유용한 변수인가는 회귀 계수 b에 대한 t검정을 통해 파악 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다. (독립변수 x가 유용한 변수이다) 2) 모델의 전반적인 유의성 검정은 F검정 귀무가설 : b는 0이다 대립가설 : b는 0이 아니다 결정계수 coefficient of determination R제곱 : 0과 1사이의 값으로 추정된 회귀모형을 통해 설명되는 값 1에 가까울 수록 완벽하게 설명 잔차분석 residua.. 2020. 8. 24.
[통계학 기초] 분산분석(Analysis of Variance; ANOVA) [통계학 기초] 분산분석(Analysis of Variance; ANOVA) 분산분석 : 연속형 자료에 대한 2개 이상의 그룹간의 평균 차이 검정 용어 : 요인(factor) - 모집단(그룹)의 구분 기준 예) 색깔 처리(treatment, levels) - 요인을 구성하는 각 모집단(그룹), 예) 빨, 노, 파 방법 : 총 변동(SST) = 오차에 의한 변동(SSE, 그룹내 변동) + 요인에 의한 변동 (SSTR, 그룹간 변동) 평균제곱은 각 제곱합들을 각각의 자유도로 나눈 값 MSTR = SSTR/k-1 MSE = SSE/(nk-k) 검정통계량 : F = MSTR / MSE 요인의 갯수에 따라 일원분산분석(one-way ANOVA), 이원분산분석(two-way ANOVA)등으로 구분 일원분산분석 (o.. 2020. 8. 24.
[통계학 기초] 범주형 자료분석(Categorical Data Analysis) 카이제곱 검정 (Chi-Squared Test) 1. 적합도 검정 : 하나의 범주형 변수에 대해 관측값들이 어떤 분포를 띄는지 검정 2. 독립성 검정 : 서로 다른 두 범주형 변수 간에 연관성이 있는지 검정 1. 카이제곱 적합도(goodness-of-fit) 검정 각 범주별 빈도와 기대빈도가 얼마나 유사한가 A사 시장 점유율 60% B사 20% C사 20% 400명 대상 설문조사로 200, 100, 100 명 대답 유의 수준 5% 귀무가설 : 각 범주별로 주어진 확률은 사실이다. 대립가설 : 각 범주별로 주어진 확률 중 하나 이상은 사실이 아니다. R 함수 예시 (데이터를 보기좋게 바꾸어서 실제와 값이 다를 수 있음) > obs ms chisq.test(obs, p = ms) X-squared = 4.7.. 2020. 8. 23.
EDA(Exploratory Data Analysis) - 이산형(범주형) 변수 빈도분석 - 분류형(범주형) 변수에 대한 빈도표Frequency table을 작성하고 그에 적절한 그래프를 그리는 분석 방법 R에서의 집계 예제 aggregate(EDEC_TRAMT ~AGE_GROUP, data=ndata,mean) -> AGE_Group별 EDEC 값의 평균값을 집계해 다른 연령군 대비 높거나 낮은 값을 찾을 수 있음 교차표 Contingency Table - 범주형 변수간의 관계를 빈도 Frequency나 백분율 Percentage을 가로/세로축의 표로 나타 낸 것 행합계, 열합계, 행 백분율, 열 백분율등을 쉽게 계산하고 확인할 수 있음 (교차표 예시) 분할표란? 두 변수가 범주형일 경우에 한 변수의 범주는 행 한 변수의 범주는 열로 하여 교차되는 칸에 도수를 적은 표이다. 분할표.. 2019. 7. 23.
[통계학 Talk]공분산Covariance과 상관계수Correlation [통계학 Talk]공분산Covariance과 상관계수Correlation 확률값에 따른 분포 즉, 확률변수 X를 가장 잘 나타내는 것은평균, 분산평균은 분포의 중간 위치를 알아내는 것이고분산은 분포가 얼마나 퍼져있는지 알아내는 것 왜 공분산이 필요한가?확률변수가 2개일때는각 평균을 구해보면 얼마나 가까운지 알 수있다그런데 두개의 분포가 얼마나 퍼져있는지? 두 확률변수가 어떻게 퍼져있는지 나타내는 것은공분산Covariance 즉, 두 확률변수 X가 커지면 Y도 커지는지, 혹은 작아지는지, 혹은 상관이 없는지 알려주는 지표 공분산의 특성공분산이 >0 양의 상관관계 - X가 커지면 Y도 커진다공분산이 2017. 6. 13.
[통계학 기초]6. 상관 분석 상관 분석 Correlation analysis양의 상관 positive correlation : 한 변수X의 값이 증가하면 다른 변수 Y도 증가한다 (상관계수 1에 가까움)음의 상관 negative correlation : 한 변수X의 값이 증가하면 다른 변수 Y가 감소한다 (상관계수 -1에 가까움) Linear / Nonlinear 상관계수 : 두 양적 변수의 선형 관계의 강약 과 방향을 나타내주는 측도X와 Y의 표본상관계수표본 공분산으로 표본상관계수 구하기 상관계수 특징- 표준화를 통해 항상 -1~1사이의 값만 가짐- 두 변수의 측정단위를 바꾸어도 상관계수는 불변- 상관계수의 절대값은 강약을 나타내고, 부호는 선형관계의 방향을 나타냄 예제) X, Y 의 결합확률분포 Y\X 0 1 2 3 합계 0 0.. 2016. 3. 4.
[통계학 기초]5. 모평균 검정 [통계학 기초]5. 모평균 검정 #z-검정 #t-검정 #유의성검정* 아래 내용은 통계학 기초 2~4 강의 내용을 종합한 것입니다. 정규분포표, t-분포표 도 해당 글에서 확인하세요 Z-검정 (모집단의 표준편차를 알고 있는 경우)귀무가설 : 모평균이 뮤이고 표준편차가 시그마인 정규분포에서 뽑힌 크기n의 랜덤표본할때 표본 평균의 분포가 N(뮤,시그마^2/n) 정규분포를 따른다1) p-value를 이용한 방법- 귀무가설이 맞다는 가정하에 표본으로부터 얻은 관측치 만큼 또는 그보다 더 극단적인(대립가설의 방향으로) 관측치가 얻어질 확률검정통계량 : (관측치가 가정된 값으로 부터 몇 표준편차만큼 떨어져 있는가?) 예제1)227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이.. 2016. 3. 4.
[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 [통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 #귀무가설 #대립가설 #제 1종 오류 #유의 수준 #p-value #유의성 검정 통계적 검정 Hypothesis testing227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이 있는지 없는지 알 고 싶다.모평균 227g 표본평균 222g 표본 수n 4 가설 Hypothesis가설 검정 Tests of statistical hypotheses - 귀무가설/대립가설을 설정하고 얻어진 자료를 근거로 어느 가설이 더 타당한지 판단유의성 검정 Tests of statistical significance - 얻어진 자료보다 더 극단적인 자료가 얻어질 가능성을 계산하여, 이를 근거로 주어진 가설의 유효성Validit.. 2016. 3. 3.
반응형