본문 바로가기
  • Let's go grab a data
반응형

Data97

6. 스파크의 핵심 RDD Resilient Distributed Datasets 6. 스파크의 핵심 RDD #RDD #Resilient Distributed Datasets #fault-tolerant #Lineage #DAG #directed acydic graph #Method chainingRDD Resilient Distributed DatasetsSpark : A Fault-Tolerant Abstraction for In Memory Cluster Computing Hadoop MapReduce의 단점? Machine Learning에 적합하지 않다 데이터 처리 시 HDFS(Hadoop Distributed File System)를 거치기 때문에 IO에서 시간이 오래 걸린다 Spark는?RAM에서 Read-Only로 처리해서 running time이 빠르다! fault-t.. 2016. 2. 12.
5. 웹 기반 명령어 해석기 Zeppelin Install 5. 웹 기반 명령어 해석기 Zeppelin Install #제플린 #ZepplinZeppelin Download & Install Zeppelin은?대화형으로 데이터 분석을 하기위한 웹 기반 명령어 해석기이다Spark 또는 하둡과 연동하며, 여러 가지 언어를 사용할 수 있다iPython-notebook과 사용 방법이 유사하다아직 인큐베이팅 단계이다 [제플린 설치 Zepplin Install]1) 리눅스 OS의 웹브라우저를 통해 다운로드https://zeppelin.incubator.apache.org/download.html Binary package: zeppelin-0.5.6-incubating-bin-all.tgz 다운로드 2-1) 다운 받은 Zeppelin를 home에 압축해제~$> tar -z.. 2016. 2. 12.
[R]3. 결정 트리 Classification [R]3. 결정 트리 Classification #ctree #결정트리 #classification #지도학습 #모델성능평가 #entropy #IG [연구 질문]데이터를 분류하여 고객의 속성을 파악하고 고객의 행동을 예측하고 싶다 [개념]결정 트리 학습법 Decision tree learning : 분류 트리 - 목표 변수 즉, 종속 변수가 유한한 수의 값을 가지는 것 쉽게 이야기 하자면 생성된 모델에 의해 0 or 1 또는 0, 1, 2, 3, 4 등 정해진 범주 내에서 결과가 나오는 형태 회귀 트리 - 목표 변수가 연속하는 값으로 일반적이 실수를 가지는 것 쉽게 모델이 함수처럼 되어 있고 정해진 결과값 중 하나가 나오는 것이 아닌 독립변수에 의해 다양하게 결과가 나오는 형태 결정 트리 활용 결정 트리.. 2016. 2. 10.
[R]2. 데이터 클러스터링 k-means 알고리즘 [R]2. 데이터 클러스터링 k-mean 알고리즘 #tdm #tweet 분석 #clustering #k-means #Elbow Method #Elbow Point [연구 질문] 각 문서들 속에 들어 있는 데이터 분석을 통해 유사하거나 관계가 높은 항목끼리의 집합(클러스터)을 만들고 싶다 [개념] k-means 클러스터링 : 분할법, 주어진 데이터를 여러 그룹으로 나눔 같은 그룹내의 단어들 끼리의 유사도는 증가하고, 다른 그룹에 있는 단서들과는 유사도가 가장 적은 형태로 나눔 알고리즘은 각 그룹의 중심점과 그 그룹 내의 단어들과의 거리 제곱합이 가장 최소화 되는 방향으로 그룹을 나눈다 n개의 단어 (x1, x2, …, xn)에서 개의 집합 S = {S1, S2, …, Sk}로 분할, μi가 집합 Si의 중.. 2016. 2. 10.
[R]1. 문서의 유사도 tdm, cosine similarity [R]1. 문서의 유사도 tdm, cosine similarity #코사인유사도 #코사인거리 #tdm #dtm #문서유사도 #데이터마이닝 [연구 질문]각 문서들 속에 들어 있는 단어들 빈도수 분석을 통해 각 문서가 얼마나 유사한지 알고 싶다 (단어의 순서는 상관 없음) [개념]코사인 유사도 : 내적공간의 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도 정보 검색 및 텍스트 마이닝 분야에서, 두 문서의 유사를 측정하는 매우 유용한 방법 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값을 가진다 두 벡터의 방향이 완전이 같을 경우 1, 90'의 경우 0, 완전히 반대일 경우 -1 이지만 정보 검색의 경우 문서의 단어 빈도수가 음수가 될 수 .. 2016. 2. 9.
[R 기초] Tip & 기본 함수 Command [R 기초] Command #명령어 #R 기초 #R 구문 #R studio #Command #함수 R 구문 중에 필수, 자주 사용하는 명령어들을 계속해서 업데이트 할 예정입니다. Ctrl + Enter 또는 Alt + EnterR 스튜디오에서 각 라인별 또는 드래그 앤 드랍으로 블럭을 지정한 후 Ctrl + Enter 시 스크립트를 실행함 TabR 스튜디오에서 자동완성 기능 제공 #R 스튜디오에서 주석 (라인) Operators +, -, *, ^, %*%(matrix muliplication 행렬곱), %/%(remainder) mathematical >, >=, 2016. 2. 9.
[R 기초] 개요, 기초 데이터 구조 빅데이터의 개념 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 범위를 넘어서는 데이터즉, 기존 회사에서 시간이 부족해서, 기술이 받쳐주지 않아서 손댈 엄두를 못내던 데이터를 빅데이터라 하며엑셀이 없던 시절에는 엑셀로 처리 가능한 데이터도 빅데이터 였다.폭발적으로 증가하는 데이터 양 자체만 빅데이터로 치부하기엔 아쉬움이 있다. 형태가 어떻든 그것을 핸들링 할 수 있고, 가치를 찾아 낼 수 있으며, 처리 비용 대비 수익을 낼 수 있어야 유의미한 데이터라고 할 수 있다. 빅데이터의 네가지 특징 Value Volume - Terabytes, Records, TransactionVelocity - Batch, Near time, Real time, StreamsVariety - Structu.. 2016. 2. 9.
기계학습Machine Learning - 강화 학습 유형(Multi armed bandit) 강화 학습 Reinforcement Learning환경을 탐색하는 에이전트가 현재의 상태를 인식하여 어떤 행동을 취함에이전트는 환경으로 부터 포상을 얻음포상은 양수와 음수 둘 다 가능에이전트가 앞으로 누적될 포상을 최대화 하는 정책을 찾는 방법 강화 학습과 지도학습의 차이점 지도 학습 : 이미 알고 있는 지식을 이용해 원하지 않는 행동을 명시적으로 수정하며 모델을 업데이트 해감강화 학습 : 이미 알고 있는 지식과 아직 조사되지 않는 영역을 탐험하는 것 사이의 균형을 잡는 것즉, 환경이 지속적으로 변해가는 상황에서 트렌드를 실시간으로 분석하고 이를 즉각 반영할 수 있는 온라인 수행조사되지 않은 영역과의 Trade-off를 조절하는 Multi-armed bandit 문제를 알아본다 Multi-armed Ba.. 2016. 2. 7.
기계학습Machine Learnig - 비지도 학습 비지도 학습 Unsupervised Learning데이터가 어떻게 구성되었는지 알아내는 문제 지도 학습이나 강화 학습과는 달리 입력값에 대한 목표치가 주어지지 않음 비지도 학습을 이용한 알고리즘 예 클러스터링(Clustering) : k-means 알고리즘 http://pubdata.tistory.com/26독립 성분 분석(Independent Component Analysis) 2016. 2. 7.
반응형