본문 바로가기
  • Let's go grab a data
반응형

전체 글435

4. yum wget 프록시 설정, sbt 설치 4. yum wget 프록시 설정, sbt 설치 yum 프록시 설정하기 - Proxy 서버를 사용하는 망에서는 yum의 프록시 서버를 설정해야 한다[설정 방법]Root 권한으로 이동[~]$su - etc 폴더로 이동[~]#cd /etc yum.conf를 gedit로 오픈[etc]#gedit yum.conf 하단에 프록시 서버 주소 입력proxy=http://proxy server IP:proxy server Port/ 저장Save wget 프록시 설정하기 - Proxy 서버를 사용하는 망에서는 wget의 프록시 서버를 설정해야 한다.[설정 방법]Root 권한으로 이동[~]$su - etc 폴더로 이동[~]#cd /etc wgetrc를 gedit로 오픈[etc]#gedit 중간쯤에 프록시 서버들 주석처리 .. 2016. 2. 28.
[R]4.소셜 네트워크 감정 분석 sentiment analysis [R]4. 소셜 네트워크 감정 분석 sentiment analysis #twitter #감정분석 소셜 네트워크 감정 분석 Sentiment Analysis[연구 질문]특정 키워드를 태깅하거나 언급한 소셜 네트워크 데이터에서 긍정/부정 적인감정을 알아내고 싶다 [개념]트위터에서 키워드로 언급된 데이터를 대상으로 해당 트윗에서 긍정적인 단어 또는 부정적인 단어가 얼마나 나타나는지 빈도수를 계산하여 긍정 단어수 - 부정 단어수의 수치로 나타낸다.http://www.cs.uic.edu/ 에서 영어의 긍정 / 부정 단어들을 가져왔고 트윗의 단어들과 매칭한다.임의로 추가 / 변경할 수 있다. [필요 데이터]Twitter api를 통해 데이터를 받고 전처리해야 한다.코드에서 사용할 데이터를 제공한다.일정 기간 중 a.. 2016. 2. 19.
7. 머신러닝 kmeans 알고리즘 7. 머신러닝 kmeans 알고리즘 #mllib #kmeans #k평균 알고리즘 #클러스터링 #clustering [개념] k-means 알고리즘 기본 개념은 본 블로그 Lecture_R 에서 언급한바 있다. 아래 링크에서 내용을 확인하기 바란다. http://pubdata.tistory.com/26 이번 글에서는 동일한 데이터를 가지고 동일하게 kmeans 알고리즘을 돌려보고, 결과가 같은지 확인 후 시사점을 작성해보려고 한다 Within group sum of squares R에서 스크립트로 withinss 값을 찾아 그래프를 그려보았고 적정한 k값을 찾는 방법으로 각 k값에 따라 변하는 withinss값의 기울기가 완만해지는 지점을 Elbow point라고 했었다 좀 더 설명을 붙이자면 kmeans.. 2016. 2. 18.
아파치 카프카 Apache Kafka 아파치 카프카는?"확장성과 고가용성을 가지는 메시지 브로커""오픈소스 분산 발행-구독 메시징 시스템""웹사이트, 애플리케이션, 센서 등에서 취합한 데이터 스트림을 실시간으로 관리하기 위한 오픈소스 시스템"[출처 빅데이터 윤활유 '아파치 카프카'가 주목받는 이유|작성자 kosena21 아파치 카프카의 대두비즈니스, 소셜 등 다양한 애플리케이션에 의해 실시간 정보가 끊임 없이 생성실시간 정보를 다양한 종류의 수신자에게 전달할 수 있는 수단이 필요대부분 정보를 생산하는 애플리케이션과 정보를 수신하는 애플리케이션은 분리되어 있고 서로 접근이 불가능함정보 컨슈머와 정보 프로듀서의 깔끔한 연동이 필요하다! 아파치 카프카의 디자인 컨셉정보 컨슈머는 정보 프로듀서에 대해 알 필요 없고 프로듀서는 누가 최종컨슈머인지 알.. 2016. 2. 13.
6. 스파크의 핵심 RDD Resilient Distributed Datasets 6. 스파크의 핵심 RDD #RDD #Resilient Distributed Datasets #fault-tolerant #Lineage #DAG #directed acydic graph #Method chainingRDD Resilient Distributed DatasetsSpark : A Fault-Tolerant Abstraction for In Memory Cluster Computing Hadoop MapReduce의 단점? Machine Learning에 적합하지 않다 데이터 처리 시 HDFS(Hadoop Distributed File System)를 거치기 때문에 IO에서 시간이 오래 걸린다 Spark는?RAM에서 Read-Only로 처리해서 running time이 빠르다! fault-t.. 2016. 2. 12.
5. 웹 기반 명령어 해석기 Zeppelin Install 5. 웹 기반 명령어 해석기 Zeppelin Install #제플린 #ZepplinZeppelin Download & Install Zeppelin은?대화형으로 데이터 분석을 하기위한 웹 기반 명령어 해석기이다Spark 또는 하둡과 연동하며, 여러 가지 언어를 사용할 수 있다iPython-notebook과 사용 방법이 유사하다아직 인큐베이팅 단계이다 [제플린 설치 Zepplin Install]1) 리눅스 OS의 웹브라우저를 통해 다운로드https://zeppelin.incubator.apache.org/download.html Binary package: zeppelin-0.5.6-incubating-bin-all.tgz 다운로드 2-1) 다운 받은 Zeppelin를 home에 압축해제~$> tar -z.. 2016. 2. 12.
[R]3. 결정 트리 Classification [R]3. 결정 트리 Classification #ctree #결정트리 #classification #지도학습 #모델성능평가 #entropy #IG [연구 질문]데이터를 분류하여 고객의 속성을 파악하고 고객의 행동을 예측하고 싶다 [개념]결정 트리 학습법 Decision tree learning : 분류 트리 - 목표 변수 즉, 종속 변수가 유한한 수의 값을 가지는 것 쉽게 이야기 하자면 생성된 모델에 의해 0 or 1 또는 0, 1, 2, 3, 4 등 정해진 범주 내에서 결과가 나오는 형태 회귀 트리 - 목표 변수가 연속하는 값으로 일반적이 실수를 가지는 것 쉽게 모델이 함수처럼 되어 있고 정해진 결과값 중 하나가 나오는 것이 아닌 독립변수에 의해 다양하게 결과가 나오는 형태 결정 트리 활용 결정 트리.. 2016. 2. 10.
[R]2. 데이터 클러스터링 k-means 알고리즘 [R]2. 데이터 클러스터링 k-mean 알고리즘 #tdm #tweet 분석 #clustering #k-means #Elbow Method #Elbow Point [연구 질문] 각 문서들 속에 들어 있는 데이터 분석을 통해 유사하거나 관계가 높은 항목끼리의 집합(클러스터)을 만들고 싶다 [개념] k-means 클러스터링 : 분할법, 주어진 데이터를 여러 그룹으로 나눔 같은 그룹내의 단어들 끼리의 유사도는 증가하고, 다른 그룹에 있는 단서들과는 유사도가 가장 적은 형태로 나눔 알고리즘은 각 그룹의 중심점과 그 그룹 내의 단어들과의 거리 제곱합이 가장 최소화 되는 방향으로 그룹을 나눈다 n개의 단어 (x1, x2, …, xn)에서 개의 집합 S = {S1, S2, …, Sk}로 분할, μi가 집합 Si의 중.. 2016. 2. 10.
[R]1. 문서의 유사도 tdm, cosine similarity [R]1. 문서의 유사도 tdm, cosine similarity #코사인유사도 #코사인거리 #tdm #dtm #문서유사도 #데이터마이닝 [연구 질문]각 문서들 속에 들어 있는 단어들 빈도수 분석을 통해 각 문서가 얼마나 유사한지 알고 싶다 (단어의 순서는 상관 없음) [개념]코사인 유사도 : 내적공간의 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도 정보 검색 및 텍스트 마이닝 분야에서, 두 문서의 유사를 측정하는 매우 유용한 방법 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값을 가진다 두 벡터의 방향이 완전이 같을 경우 1, 90'의 경우 0, 완전히 반대일 경우 -1 이지만 정보 검색의 경우 문서의 단어 빈도수가 음수가 될 수 .. 2016. 2. 9.
반응형