본문 바로가기
  • On the ball
반응형

전체 글503

[R 기초] 범주형 변수를 지시형 변수로 변환, 결측치 채우기 [R 기초] 범주형 변수를 지시형 변수로 변환, Imputation #dummy variable #지시 변수 #결측치 #missing value Dummy Variables 범주형 데이터를 Dummy 지시 변수로 변환 : 회귀 분석시 범주형 변수를 변환하여 사용할 필요시R 코드> install.packages("dummies")> library(dummies)> data("iris")> head(iris,10) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4.. 2016. 3. 24.
[데이터 마이닝] 개요, 과대적합, 예시, 프로세스 [데이터 마이닝] 개요, 소개, 데이터 전처리 [데이터 마이닝 개요]데이터 마이닝 정의- 데이터 분석툴을 통해 데이터 속의 패턴과 관계를 찾는 프로세스- 사람의 적은 노력 또는 노력 없이 진행하는 탐색적 데이터 분석 Exploratory Data Analysis with little or no human interaction using computationally feasible techniques. 데이터 마이닝과 통계학의 차이는?통계학은 과거 학습 데이터를 통해 현황을 파악하고 데이터의 설명력을 높이기 위한 목적데이터 마이닝은 예측 모형을 만들어 새로운 fresh 데이터에서 예측력을 높이기 위한 목적 과대적합 over-fitting데이터를 설명하는 R제곱 값만 높인다는 것은 outlier들을 모두 포.. 2016. 3. 14.
[R 기초] 통계, 분포함수, t-검정 [R 기초] 통계, 분포함수, t-검정 #dnorm #dt #가설 검정 #t-검정 통계 분포 함수접두어d(ensity) : 확률 밀도 함수 값 구하기 P[X=x]p(robability) :누적 분포 함수에 의한 누적확률을 구하기 P[X 2016. 3. 6.
[R 기초] 패키지와 그래프 [R 기초] 패키지와 그래프 #plot #barplot #hist #pie #boxplot #stem 패키지 설치, 로딩, 업데이트> install.packages("Hmisc")#Hmisc 패키지를 설치함> library(Hmisc)#설치된 패키지를 메모리에 올림> update.packages()#업데이트가 필요한 패키지들을 검색하여 업데이트 Hmisc 패키지 함수> par(mfrow=c(1,2))# plot영역을 분할하여 추가되는 plot을 배치함> show.col()# 컬러표> show.pch()# 문자표 그래프 그리기 plot()예시) > str(Puromycin)'data.frame':23 obs. of 3 variables: $ conc : num 0.02 0.02 0.06 0.06 0.11 .. 2016. 3. 6.
[R 기초] 사용자정의함수, 재귀함수, z-test [R 기초] 사용자정의함수, 재귀함수, z-test #function #recursive #z-test #정규분포 함수 function() 사용자 정의 함수예시)> myfac 2016. 3. 6.
[R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 [R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 #read.table #read.scv #ifelse #repeat #while #for 유닉스 계열 ASCII \n(New Line)윈도우 계열 ASCII \r(Carriage Return) \n(New Line) 텍스트 파일을 데이터프레임 형태로 읽기 read.table()read.table(file, header=F,sep=" ", quote="\"'", ...)header : 첫 줄을 데이터로 읽을 것인지 여부sep : 열 구분자로 기본값은 공백quote : 값을 둘러싸는 인용 부호 기본값은 큰 따옴표 "예시)> getwd()[1] "c:/data/Lecture"> setwd("c:\\data\\Lecture")#작업폴더내에 첨부 파일(p.. 2016. 3. 6.
[R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용 [R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용#array #matrix #cbind #rbind #apply #factor #tapply #data.frame #with #subset #na.omit #list #lapply #sapply 배열 Array 생성하기 array() 같은타입의 벡터 모임array(data = NA, dim= length(data), dimnames = NULL)dim : 차원 생성dimnames : 차원별 이름예시)> arrname = list(c("row1","row2"),c("col1","col2","col3","col4"))> arr arr col1 col2 col3 col4row1 1 3 2 1row2 2 1 3 2> arr[1,]col1 col2 .. 2016. 3. 6.
[통계학 기초]6. 상관 분석 상관 분석 Correlation analysis양의 상관 positive correlation : 한 변수X의 값이 증가하면 다른 변수 Y도 증가한다 (상관계수 1에 가까움)음의 상관 negative correlation : 한 변수X의 값이 증가하면 다른 변수 Y가 감소한다 (상관계수 -1에 가까움) Linear / Nonlinear 상관계수 : 두 양적 변수의 선형 관계의 강약 과 방향을 나타내주는 측도X와 Y의 표본상관계수표본 공분산으로 표본상관계수 구하기 상관계수 특징- 표준화를 통해 항상 -1~1사이의 값만 가짐- 두 변수의 측정단위를 바꾸어도 상관계수는 불변- 상관계수의 절대값은 강약을 나타내고, 부호는 선형관계의 방향을 나타냄 예제) X, Y 의 결합확률분포 Y\X 0 1 2 3 합계 0 0.. 2016. 3. 4.
[통계학 기초]5. 모평균 검정 [통계학 기초]5. 모평균 검정 #z-검정 #t-검정 #유의성검정* 아래 내용은 통계학 기초 2~4 강의 내용을 종합한 것입니다. 정규분포표, t-분포표 도 해당 글에서 확인하세요 Z-검정 (모집단의 표준편차를 알고 있는 경우)귀무가설 : 모평균이 뮤이고 표준편차가 시그마인 정규분포에서 뽑힌 크기n의 랜덤표본할때 표본 평균의 분포가 N(뮤,시그마^2/n) 정규분포를 따른다1) p-value를 이용한 방법- 귀무가설이 맞다는 가정하에 표본으로부터 얻은 관측치 만큼 또는 그보다 더 극단적인(대립가설의 방향으로) 관측치가 얻어질 확률검정통계량 : (관측치가 가정된 값으로 부터 몇 표준편차만큼 떨어져 있는가?) 예제1)227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이.. 2016. 3. 4.
반응형