본문 바로가기
  • On the ball
반응형

Data/R14

html 파싱하기 rvest 패키지 html 파싱하기 rvest 패키지 install.packages("rvest")library(rvest)url = "http://music.naver.com/listen/top100.nhn?domain=DOMESTIC&duration=1h";download.file(url,destfile = "navermusic.html",quiet = T);naver_music % html_text() %>% as.numeric() ranking gap % html_nodes("._tracklist_move .change") %>% html_text() %>% gsub(pattern="\r\n||\t||\n", replacement="") gap title % html_nodes("._tracklist_move ._.. 2017. 4. 14.
[R] 잡음 처리(MAF), 이상치 검출(카이제곱분포, LOF) [R] 잡음 처리(MAF), 이상치 검출(카이제곱분포, LOF) Moving Average Filtern개의 데이터가 각rkr 1/n씩 가중치를 가짐 [데이터]http://ps.cs.utwente.nl/Datasets.php 에서 제공하는 Physical Activity Recognition Dataset Using Smartphone Sensors을 다운받아(63MB) 사용 - Arm.csv 파일로드 하여 사용 하거나 첨부의 txt 파일 사용(일부 데이터) [코드] data 2016. 3. 31.
[R 기초] 범주형 변수를 지시형 변수로 변환, 결측치 채우기 [R 기초] 범주형 변수를 지시형 변수로 변환, Imputation #dummy variable #지시 변수 #결측치 #missing value Dummy Variables 범주형 데이터를 Dummy 지시 변수로 변환 : 회귀 분석시 범주형 변수를 변환하여 사용할 필요시R 코드> install.packages("dummies")> library(dummies)> data("iris")> head(iris,10) Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4.. 2016. 3. 24.
[R 기초] 통계, 분포함수, t-검정 [R 기초] 통계, 분포함수, t-검정 #dnorm #dt #가설 검정 #t-검정 통계 분포 함수접두어d(ensity) : 확률 밀도 함수 값 구하기 P[X=x]p(robability) :누적 분포 함수에 의한 누적확률을 구하기 P[X 2016. 3. 6.
[R 기초] 패키지와 그래프 [R 기초] 패키지와 그래프 #plot #barplot #hist #pie #boxplot #stem 패키지 설치, 로딩, 업데이트> install.packages("Hmisc")#Hmisc 패키지를 설치함> library(Hmisc)#설치된 패키지를 메모리에 올림> update.packages()#업데이트가 필요한 패키지들을 검색하여 업데이트 Hmisc 패키지 함수> par(mfrow=c(1,2))# plot영역을 분할하여 추가되는 plot을 배치함> show.col()# 컬러표> show.pch()# 문자표 그래프 그리기 plot()예시) > str(Puromycin)'data.frame':23 obs. of 3 variables: $ conc : num 0.02 0.02 0.06 0.06 0.11 .. 2016. 3. 6.
[R 기초] 사용자정의함수, 재귀함수, z-test [R 기초] 사용자정의함수, 재귀함수, z-test #function #recursive #z-test #정규분포 함수 function() 사용자 정의 함수예시)> myfac 2016. 3. 6.
[R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 [R 기초] 파일 가져오기, 데이터 뽑기, 조건문, 반복문 #read.table #read.scv #ifelse #repeat #while #for 유닉스 계열 ASCII \n(New Line)윈도우 계열 ASCII \r(Carriage Return) \n(New Line) 텍스트 파일을 데이터프레임 형태로 읽기 read.table()read.table(file, header=F,sep=" ", quote="\"'", ...)header : 첫 줄을 데이터로 읽을 것인지 여부sep : 열 구분자로 기본값은 공백quote : 값을 둘러싸는 인용 부호 기본값은 큰 따옴표 "예시)> getwd()[1] "c:/data/Lecture"> setwd("c:\\data\\Lecture")#작업폴더내에 첨부 파일(p.. 2016. 3. 6.
[R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용 [R 기초] 배열, 행렬, 요인, 데이터프레임, 리스트, 함수적용#array #matrix #cbind #rbind #apply #factor #tapply #data.frame #with #subset #na.omit #list #lapply #sapply 배열 Array 생성하기 array() 같은타입의 벡터 모임array(data = NA, dim= length(data), dimnames = NULL)dim : 차원 생성dimnames : 차원별 이름예시)> arrname = list(c("row1","row2"),c("col1","col2","col3","col4"))> arr arr col1 col2 col3 col4row1 1 3 2 1row2 2 1 3 2> arr[1,]col1 col2 .. 2016. 3. 6.
[R]4.소셜 네트워크 감정 분석 sentiment analysis [R]4. 소셜 네트워크 감정 분석 sentiment analysis #twitter #감정분석 소셜 네트워크 감정 분석 Sentiment Analysis[연구 질문]특정 키워드를 태깅하거나 언급한 소셜 네트워크 데이터에서 긍정/부정 적인감정을 알아내고 싶다 [개념]트위터에서 키워드로 언급된 데이터를 대상으로 해당 트윗에서 긍정적인 단어 또는 부정적인 단어가 얼마나 나타나는지 빈도수를 계산하여 긍정 단어수 - 부정 단어수의 수치로 나타낸다.http://www.cs.uic.edu/ 에서 영어의 긍정 / 부정 단어들을 가져왔고 트윗의 단어들과 매칭한다.임의로 추가 / 변경할 수 있다. [필요 데이터]Twitter api를 통해 데이터를 받고 전처리해야 한다.코드에서 사용할 데이터를 제공한다.일정 기간 중 a.. 2016. 2. 19.
반응형