본문 바로가기
  • Let's go grab a data
반응형

Data/R14

[R]3. 결정 트리 Classification [R]3. 결정 트리 Classification #ctree #결정트리 #classification #지도학습 #모델성능평가 #entropy #IG [연구 질문]데이터를 분류하여 고객의 속성을 파악하고 고객의 행동을 예측하고 싶다 [개념]결정 트리 학습법 Decision tree learning : 분류 트리 - 목표 변수 즉, 종속 변수가 유한한 수의 값을 가지는 것 쉽게 이야기 하자면 생성된 모델에 의해 0 or 1 또는 0, 1, 2, 3, 4 등 정해진 범주 내에서 결과가 나오는 형태 회귀 트리 - 목표 변수가 연속하는 값으로 일반적이 실수를 가지는 것 쉽게 모델이 함수처럼 되어 있고 정해진 결과값 중 하나가 나오는 것이 아닌 독립변수에 의해 다양하게 결과가 나오는 형태 결정 트리 활용 결정 트리.. 2016. 2. 10.
[R]2. 데이터 클러스터링 k-means 알고리즘 [R]2. 데이터 클러스터링 k-mean 알고리즘 #tdm #tweet 분석 #clustering #k-means #Elbow Method #Elbow Point [연구 질문] 각 문서들 속에 들어 있는 데이터 분석을 통해 유사하거나 관계가 높은 항목끼리의 집합(클러스터)을 만들고 싶다 [개념] k-means 클러스터링 : 분할법, 주어진 데이터를 여러 그룹으로 나눔 같은 그룹내의 단어들 끼리의 유사도는 증가하고, 다른 그룹에 있는 단서들과는 유사도가 가장 적은 형태로 나눔 알고리즘은 각 그룹의 중심점과 그 그룹 내의 단어들과의 거리 제곱합이 가장 최소화 되는 방향으로 그룹을 나눈다 n개의 단어 (x1, x2, …, xn)에서 개의 집합 S = {S1, S2, …, Sk}로 분할, μi가 집합 Si의 중.. 2016. 2. 10.
[R]1. 문서의 유사도 tdm, cosine similarity [R]1. 문서의 유사도 tdm, cosine similarity #코사인유사도 #코사인거리 #tdm #dtm #문서유사도 #데이터마이닝 [연구 질문]각 문서들 속에 들어 있는 단어들 빈도수 분석을 통해 각 문서가 얼마나 유사한지 알고 싶다 (단어의 순서는 상관 없음) [개념]코사인 유사도 : 내적공간의 두 벡터간 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도 정보 검색 및 텍스트 마이닝 분야에서, 두 문서의 유사를 측정하는 매우 유용한 방법 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값을 가진다 두 벡터의 방향이 완전이 같을 경우 1, 90'의 경우 0, 완전히 반대일 경우 -1 이지만 정보 검색의 경우 문서의 단어 빈도수가 음수가 될 수 .. 2016. 2. 9.
[R 기초] Tip & 기본 함수 Command [R 기초] Command #명령어 #R 기초 #R 구문 #R studio #Command #함수 R 구문 중에 필수, 자주 사용하는 명령어들을 계속해서 업데이트 할 예정입니다. Ctrl + Enter 또는 Alt + EnterR 스튜디오에서 각 라인별 또는 드래그 앤 드랍으로 블럭을 지정한 후 Ctrl + Enter 시 스크립트를 실행함 TabR 스튜디오에서 자동완성 기능 제공 #R 스튜디오에서 주석 (라인) Operators +, -, *, ^, %*%(matrix muliplication 행렬곱), %/%(remainder) mathematical >, >=, 2016. 2. 9.
[R 기초] 개요, 기초 데이터 구조 빅데이터의 개념 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 범위를 넘어서는 데이터즉, 기존 회사에서 시간이 부족해서, 기술이 받쳐주지 않아서 손댈 엄두를 못내던 데이터를 빅데이터라 하며엑셀이 없던 시절에는 엑셀로 처리 가능한 데이터도 빅데이터 였다.폭발적으로 증가하는 데이터 양 자체만 빅데이터로 치부하기엔 아쉬움이 있다. 형태가 어떻든 그것을 핸들링 할 수 있고, 가치를 찾아 낼 수 있으며, 처리 비용 대비 수익을 낼 수 있어야 유의미한 데이터라고 할 수 있다. 빅데이터의 네가지 특징 Value Volume - Terabytes, Records, TransactionVelocity - Batch, Near time, Real time, StreamsVariety - Structu.. 2016. 2. 9.
반응형