본문 바로가기
  • On the ball
Review/Book_Data

하둡을 선택하기 전에 고려해야 할 것들

by pub-lican-ai 2016. 1. 23.
반응형

1. 빅데이터가 존재하는가?

 10TB이상이며 주기적으로 대량의 데이터 유입되는지 얼마나 많은 데이터를 비즈니스에 활용할 것인지 파악


2. 런타임이 길어도 되는가?

 하둡은 실행 시간이 길다. 사용자가 얼마나 빠른 반응 시간을 기대하는지, 어떤 일들을 batch로 처리할 수 있는지 파악


3. 온라인, 실시간으로 운영해야 하는가?

 하둡은 batch mode 환경이다. 새로운 데이터가 유입되면 전체 데이터를 처음 부터 다시 작업해야 하기 때문에 계속 분석 시간이 늘어난다.

실시간 환경에는 적용하기 어려움


4. 데이터의 원본을 유지하는 것이 중요한가?

하둡의 맵리듀스는 데이터의 관계나 내용을 조금 잃어버려도 문제가 되지 않는 키값의 데이터 구조에 적합하다.

즉, 데이터 구조가 원천 데이터 그 자체만큼 중요하고 유지해야 한다면 하둡은 적합하지 않다.


5. 맵리듀스를 활용할 수 있는 능력이 있는가?

맵리듀스는 몇몇 특수 분석 알고리즘이나 특정한 일들을 수행 못하는 경우가 있고,

전체 데이터가 크기는 하지만 수많은 작은 데이터들을 결합해야 하는 경우에는 효율적이지 않다.


6. 하둡 고려 여부 질문

대량의 텍스트 로그로부터 정보를 추출하는 경우

대량의 비정형, 반정형 데이터를 사용가능한 정형 구조로 변환해야 하는 경우


출처 : 데이터 과학 어떻게 기업을 바꾸었나? 김옥기, 2014.12

반응형