[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 통합, 데이터 변환 #missing value #outlier #noise 결측치 채워넣기 Missing Value Imputation1) 중심 경향 값 넣기 (평균, 중앙값, 최빈값 등) - 분산이 줄어들고, 소수의 평균이 전체를 대표하는 경우가 생김, 극단값에의해 평균이 영향 받음, Mid-minimum spacing: 양측 5%제거하고 평균 예) 피겨스케이팅 점수 계산2) 랜덤 추출(분포 기반) - 랜덤에의해 자주 나타나는 값이 채워짐3) Regression Imputation 회귀 삽입 - 변수내의 값들의 평균이 아닌 각 관측치의 특성을 고려하여 삽입, 기초 Imputation 먼저하고 회귀식에 의해 타겟 소실 데이터를 채움4) EM algo..
2016. 3. 30.
[R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문
[R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 #read.table #read.scv #ifelse #repeat #while #for 유닉스 계열 ASCII \n(New Line)윈도우 계열 ASCII \r(Carriage Return) \n(New Line) 텍스트 파일을 데이터프레임 형태로 읽기 read.table()read.table(file, header=F,sep=" ", quote="\"'", ...)header : 첫 줄을 데이터로 읽을 것인지 여부sep : 열 구분자로 기본값은 공백quote : 값을 둘러싸는 인용 부호 기본값은 큰 따옴표 "예시)> getwd()[1] "c:/data/Lecture"> setwd("c:\\data\\Lecture")#작업폴더내에 첨부 파일(p..
2016. 3. 6.
[R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용
[R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용#array #matrix #cbind #rbind #apply #factor #tapply #data.frame #with #subset #na.omit #list #lapply #sapply 배열 Array 생성하기 array() 같은타입의 벡터 모임array(data = NA, dim= length(data), dimnames = NULL)dim : 차원 생성dimnames : 차원별 이름예시)> arrname = list(c("row1","row2"),c("col1","col2","col3","col4"))> arr arr col1 col2 col3 col4row1 1 3 2 1row2 2 1 3 2> arr[1,]col1 col2 ..
2016. 3. 6.