본문 바로가기
  • Let's go grab a data
반응형

Data97

[R] 잡음 처리(MAF), 이상치 검출(카이제곱분포, LOF) [R] 잡음 처리(MAF), 이상치 검출(카이제곱분포, LOF) Moving Average Filtern개의 데이터가 각rkr 1/n씩 가중치를 가짐 [데이터]http://ps.cs.utwente.nl/Datasets.php 에서 제공하는 Physical Activity Recognition Dataset Using Smartphone Sensors을 다운받아(63MB) 사용 - Arm.csv 파일로드 하여 사용 하거나 첨부의 txt 파일 사용(일부 데이터) [코드] data 2016. 3. 31.
[데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환 [데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 통합, 데이터 변환 #missing value #outlier #noise 결측치 채워넣기 Missing Value Imputation1) 중심 경향 값 넣기 (평균, 중앙값, 최빈값 등) - 분산이 줄어들고, 소수의 평균이 전체를 대표하는 경우가 생김, 극단값에의해 평균이 영향 받음, Mid-minimum spacing: 양측 5%제거하고 평균 예) 피겨스케이팅 점수 계산2) 랜덤 추출(분포 기반) - 랜덤에의해 자주 나타나는 값이 채워짐3) Regression Imputation 회귀 삽입 - 변수내의 값들의 평균이 아닌 각 관측치의 특성을 고려하여 삽입, 기초 Imputation 먼저하고 회귀식에 의해 타겟 소실 데이터를 채움4) EM algo.. 2016. 3. 30.
[R 기초] 범주형 변수를 지시형 변수로 변환, 결측치 채우기 [R 기초] 범주형 변수를 지시형 변수로 변환, Imputation #dummy variable #지시 변수 #결측치 #missing value Dummy Variables 범주형 데이터를 Dummy 지시 변수로 변환 : 회귀 분석시 범주형 변수를 변환하여 사용할 필요시R 코드> install.packages("dummies")> library(dummies)> data("iris")> head(iris,10) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4.. 2016. 3. 24.
[데이터 마이닝] 개요, 과대적합, 예시, 프로세스 [데이터 마이닝] 개요, 소개, 데이터 전처리 [데이터 마이닝 개요]데이터 마이닝 정의- 데이터 분석툴을 통해 데이터 속의 패턴과 관계를 찾는 프로세스- 사람의 적은 노력 또는 노력 없이 진행하는 탐색적 데이터 분석 Exploratory Data Analysis with little or no human interaction using computationally feasible techniques. 데이터 마이닝과 통계학의 차이는?통계학은 과거 학습 데이터를 통해 현황을 파악하고 데이터의 설명력을 높이기 위한 목적데이터 마이닝은 예측 모형을 만들어 새로운 fresh 데이터에서 예측력을 높이기 위한 목적 과대적합 over-fitting데이터를 설명하는 R제곱 값만 높인다는 것은 outlier들을 모두 포.. 2016. 3. 14.
[R 기초] 통계, 분포함수, t-검정 [R 기초] 통계, 분포함수, t-검정 #dnorm #dt #가설 검정 #t-검정 통계 분포 함수접두어d(ensity) : 확률 밀도 함수 값 구하기 P[X=x]p(robability) :누적 분포 함수에 의한 누적확률을 구하기 P[X 2016. 3. 6.
[R 기초] 패키지와 그래프 [R 기초] 패키지와 그래프 #plot #barplot #hist #pie #boxplot #stem 패키지 설치, 로딩, 업데이트> install.packages("Hmisc")#Hmisc 패키지를 설치함> library(Hmisc)#설치된 패키지를 메모리에 올림> update.packages()#업데이트가 필요한 패키지들을 검색하여 업데이트 Hmisc 패키지 함수> par(mfrow=c(1,2))# plot영역을 분할하여 추가되는 plot을 배치함> show.col()# 컬러표> show.pch()# 문자표 그래프 그리기 plot()예시) > str(Puromycin)'data.frame':23 obs. of 3 variables: $ conc : num 0.02 0.02 0.06 0.06 0.11 .. 2016. 3. 6.
[R 기초] 사용자정의함수, 재귀함수, z-test [R 기초] 사용자정의함수, 재귀함수, z-test #function #recursive #z-test #정규분포 함수 function() 사용자 정의 함수예시)> myfac 2016. 3. 6.
[R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 [R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 #read.table #read.scv #ifelse #repeat #while #for 유닉스 계열 ASCII \n(New Line)윈도우 계열 ASCII \r(Carriage Return) \n(New Line) 텍스트 파일을 데이터프레임 형태로 읽기 read.table()read.table(file, header=F,sep=" ", quote="\"'", ...)header : 첫 줄을 데이터로 읽을 것인지 여부sep : 열 구분자로 기본값은 공백quote : 값을 둘러싸는 인용 부호 기본값은 큰 따옴표 "예시)> getwd()[1] "c:/data/Lecture"> setwd("c:\\data\\Lecture")#작업폴더내에 첨부 파일(p.. 2016. 3. 6.
[R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용 [R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용#array #matrix #cbind #rbind #apply #factor #tapply #data.frame #with #subset #na.omit #list #lapply #sapply 배열 Array 생성하기 array() 같은타입의 벡터 모임array(data = NA, dim= length(data), dimnames = NULL)dim : 차원 생성dimnames : 차원별 이름예시)> arrname = list(c("row1","row2"),c("col1","col2","col3","col4"))> arr arr col1 col2 col3 col4row1 1 3 2 1row2 2 1 3 2> arr[1,]col1 col2 .. 2016. 3. 6.
반응형