빅데이터의 개념
시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 범위를 넘어서는 데이터
즉, 기존 회사에서 시간이 부족해서, 기술이 받쳐주지 않아서 손댈 엄두를 못내던 데이터를 빅데이터라 하며
엑셀이 없던 시절에는 엑셀로 처리 가능한 데이터도 빅데이터 였다.
폭발적으로 증가하는 데이터 양 자체만 빅데이터로 치부하기엔 아쉬움이 있다.
형태가 어떻든 그것을 핸들링 할 수 있고, 가치를 찾아 낼 수 있으며, 처리 비용 대비 수익을 낼 수 있어야 유의미한 데이터라고 할 수 있다.
빅데이터의 네가지 특징
Value
Volume
- Terabytes, Records, Transaction
Velocity
- Batch, Near time, Real time, Streams
Variety
- Structured, Unstructured, Semi-structured, All the above
R은?
Batch로 동작, 단일 시스템에서 동작
Spark는?
실시간 또는 Near time으로 동작, 클러스터 시스템에서 동작 가능
R
- Open Source 프로그램
- 통계/데이터 마이닝, 그래프를 위한 언어
- 빅데이터 분석 목적으로 각광을 받고 있음
- 현재 4200개 이상의 패키지로 다양한 호환성과 빠른 업데이트가 강점
- 최신 통계 분석 및 마이닝 기능 제공 SAS, SPSS 등 상용 프로그램과의 차이점
- 언어에 가까운 문장형식으로 자동화하기 수월함
R System Requirements
- RAM을 사용하기 때문에 RAM과 CPU의 하드웨어 설치 사양과 OS가 중요함
- Window 64bit 경우 최대 8TB
- x86_64 CPU에서는 최대 128TB
- Unix 64bit 경우 무제한
- R 32bit도 가능은 함
- Linux 64bit를 권장함
R Install
R Studio 다운로드 및 Install
http://www.rstudio.com/ide/download/
기초 데이터 구조
변수 : 알파벳 또는 .으로 시작해야 함
예) a b .x
스칼라 Scala : 길이가 1인 벡터
예) a<-3
벡터 Vector : 원소라고 불리는 값의 순서 있는 집합, 같은 타입의 원소
예) names <- c("Yoon","Kim","Park")
펙터 Factor : 수준으로 이루어진 벡터 (범주형 벡터)
수준 Level : 벡터안의 원소중 중복되는 것을 제거한 각 단일 원소
범주 : 수준의 집합 Levels
예) genders<- factor(c("Male","Female","Male"))
genders
[1] Male Female (값)
Levels: Female, Male (범주)
리스트 List : 서로 다른 타입의 원소를 저장하는 집합, Environment의 Values에 저장
예) subjectList <- list(name=names[1],gender=genders[1])
데이터 프레임 Data Frame : 서로 다른 타입의 원소를 저장하는 집합, Environment의 Data에 저장
예) subjectDF <- data.frame(names,genders)
매트릭스 Matrix : 행과 열로 2차원 테이블을 표시하는 데이터 구조
차원으로 이루어진 벡터 <-> 펙터 Factor
'Data > R' 카테고리의 다른 글
[R]4.소셜 네트워크 감정 분석 sentiment analysis (6) | 2016.02.19 |
---|---|
[R]3. 결정 트리 Classification (9) | 2016.02.10 |
[R]2. 데이터 클러스터링 k-means 알고리즘 (4) | 2016.02.10 |
[R]1. 문서의 유사도 tdm, cosine similarity (2) | 2016.02.09 |
[R 기초] Tip & 기본 함수 Command (0) | 2016.02.09 |