본문 바로가기
  • Let's go grab a data
Data/Info.

Big Data Overview

by pub-lican-ai 2016. 1. 1.
반응형

 

 

빅데이터의 특징은 3V로 요약하는 것이 일반적이다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미한다(O'Reilly Radar Team, 2012). 최근에는 가치(Value)나 변동성(Variability)을 덧붙이기도 한다.

변동성 Variability은 데이터가 고정된 패턴으로 축적과 특정 규격이나 형식을 갖고있지만, 많은 옵션과 변수에 의해 분석과 해석이 쉽지 않은 경우를 의미한다.

 

구글은 독감과 관련된 검색어 빈도를 분석해 독감 환자 수와 유행 지역을 예측하는 독감 동향 서비스를 개발했다(google.org/flutrends). 이는 미 질병통제본부(CDC)보다 예측력이 뛰어난 것으로 밝혀졌다.

데이터의 규모가 중요하다는 것을 확인시킨 사례로는 구글의 자동번역 시스템이 있다. 구글은 수천만 권의 도서 정보와 유엔과 유럽의회, 웹 사이트의 자료를 활용해 64개 언어 간 자동번역 시스템 개발에 성공했다.

 

기업의 빅데이터 활용은 고객의 행동을 미리 예측하고 대처방안을 마련해 기업경쟁력을 강화시키고, 생산성 향상과 비즈니스 혁신을 가능하게 한다(McKinsey, 2011).

빅데이터는 산업혁명 시기의 석탄처럼 IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주되고 있다(McKinsey, 2011).

 

〈표 1〉 빅데이터 환경의 특징 

구분

기존

빅데이터 환경

데이터

- 정형화된 수치자료 중심

- 비정형의 다양한 데이터
- 문자 데이터(SMS, 검색어)
- 영상 데이터(CCTV, 동영상)
- 위치 데이터

하드웨어

- 고가의 저장장치
- 데이터베이스
- 데이터웨어하우스(Data-warehouse)

- 클라우드 컴퓨팅 등 비용효율적인 장비 활용 가능

소프트웨어/분석 방법

- 관계형 데이터베이스(RDBMS)
- 통계패키지(SAS, SPSS)
- 데이터 마이닝(data mining)
- machine learning, knowledge discovery

- 오픈소스 형태의 무료 소프트웨어
- Hadoop, NoSQL
- 오픈 소스 통계솔루션(R)
- 텍스트 마이닝(text mining)
- 온라인 버즈 분석(opinion mining)
- 감성 분석(sentiment analysis)

 

 

 

[네이버 지식백과] 빅데이터 정의 (빅데이터, 2013. 2. 25., 커뮤니케이션북스)

 

빅 데이터의 정의:

빅 데이터는 클라우드 컴퓨팅과 대형 메모리 모델의 변화를 포함한 하드웨어 기능의 변화와 플랫폼 변경에 따른 데이터 처리 능력과 비용을 극대화 하기 위한 기술 범위의 발현 (IDC, 2012)


클라우드 컴퓨팅 등 플랫폼의 변화와 관련한 하드웨어 처리용량/비용상의 이점 및 대용량 메모리 모델로의 전환에 따른 기회요인 활용을 위해 기술영역에서 일어나고 있는 일련의 현상 (IDC, 2012)

Big data is a new generation of technologies and architectures designed to extract value economically from very large volumes of data by enabling high-velocity captuer, discovery and/or analysis.



반응형