본문 바로가기
  • Let's go grab a data
반응형

Data97

[통계학 기초]6. 상관 분석 상관 분석 Correlation analysis양의 상관 positive correlation : 한 변수X의 값이 증가하면 다른 변수 Y도 증가한다 (상관계수 1에 가까움)음의 상관 negative correlation : 한 변수X의 값이 증가하면 다른 변수 Y가 감소한다 (상관계수 -1에 가까움) Linear / Nonlinear 상관계수 : 두 양적 변수의 선형 관계의 강약 과 방향을 나타내주는 측도X와 Y의 표본상관계수표본 공분산으로 표본상관계수 구하기 상관계수 특징- 표준화를 통해 항상 -1~1사이의 값만 가짐- 두 변수의 측정단위를 바꾸어도 상관계수는 불변- 상관계수의 절대값은 강약을 나타내고, 부호는 선형관계의 방향을 나타냄 예제) X, Y 의 결합확률분포 Y\X 0 1 2 3 합계 0 0.. 2016. 3. 4.
[통계학 기초]5. 모평균 검정 [통계학 기초]5. 모평균 검정 #z-검정 #t-검정 #유의성검정* 아래 내용은 통계학 기초 2~4 강의 내용을 종합한 것입니다. 정규분포표, t-분포표 도 해당 글에서 확인하세요 Z-검정 (모집단의 표준편차를 알고 있는 경우)귀무가설 : 모평균이 뮤이고 표준편차가 시그마인 정규분포에서 뽑힌 크기n의 랜덤표본할때 표본 평균의 분포가 N(뮤,시그마^2/n) 정규분포를 따른다1) p-value를 이용한 방법- 귀무가설이 맞다는 가정하에 표본으로부터 얻은 관측치 만큼 또는 그보다 더 극단적인(대립가설의 방향으로) 관측치가 얻어질 확률검정통계량 : (관측치가 가정된 값으로 부터 몇 표준편차만큼 떨어져 있는가?) 예제1)227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이.. 2016. 3. 4.
[통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 [통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 #귀무가설 #대립가설 #제 1종 오류 #유의 수준 #p-value #유의성 검정 통계적 검정 Hypothesis testing227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이 있는지 없는지 알 고 싶다.모평균 227g 표본평균 222g 표본 수n 4 가설 Hypothesis가설 검정 Tests of statistical hypotheses - 귀무가설/대립가설을 설정하고 얻어진 자료를 근거로 어느 가설이 더 타당한지 판단유의성 검정 Tests of statistical significance - 얻어진 자료보다 더 극단적인 자료가 얻어질 가능성을 계산하여, 이를 근거로 주어진 가설의 유효성Validit.. 2016. 3. 3.
[통계학 기초]3. 표본분포, 중심극한정리, 통계적 추론, 신뢰구간 [통계학 기초]3. 표본분포와 중심극한정리, 통계적 추론, 신뢰구간 #sampling #Statistical Inference # 모집단 Population : 전체표본 Sample : 일부모수 Parameter : 모집단의 특성을 나타내는 숫자통계량 Statistic : 표본의 특성을 나타내는 숫자, 표본에 따라 다른 값을 갖는 확률변수, 모수를 추정함 표본분포 Sampling distribution : 통계량의 확률 분포표본평균 분포 : 표본을 무수히 많이 추출한 후 각 표본 평균의 분포 표본평균의 평균은 모집단의 평균과 같다 표본평균의 표준편차는 모집단의 표준편차보다 작으며 비율로 줄어든다 예제) 1) 모집단 평균 3.8, 표준편차 0.3 x=3.5보다 낮을 확률 2) 4개 표본에 의해 평균 x=3.. 2016. 3. 3.
[통계학 기초] 2. 확률변수와 분포, 정규분포 [통계학 기초] 2.확률변수 분포, 정규분포 #평균 #분산 #연속확률변수 #확률밀도함수 #정규분포 #표준화 #확률분포표 랜덤 : 개별적인 결과를 예측할 수 없으나 여러번 반복시 그 결과가 규칙적인 분포를 나타내는 것을 가정함확률변수Random Variable : 랜덤한 현상 or 실험의 결과로 결정되는 수치적인 양 numerical quantity 동전던지기각 시행이 독립적 ( 이미 나온 결과에 의해 새로운 결과가 영향 받지 않는다)무수히 많이 던졌을 경우 확률은 0.5에 수렴한다 이산 확률 변수 X는 각 항목 값별 확률 값을 가짐 확률분포표X1, X2,...XkP1, P2,...Pk 평균 : 각 값들과 그 값의 확률을 곱해 모두 더한 것분산 : 각 값들과 평균 차이의 제곱과 그 값의 확률을 곱해 모두 .. 2016. 3. 2.
8.스파크 RDD의 연산 기본 함수 예제 8. 스파크 RDD의 연산 기본 함수 예제 #spark #filter #union #map #flatMap #distinct #intersection #subtract #reduceByKey *파란색은 스크립트, 검은색은 결과입니다. sc.textFile() 텍스트 파일 읽어오기 [SparkContext 객체]스칼라에서 README를 spark context 객체의 textFile 메서드를 이용해 읽어오면 RDD 객체가 생성됨scala> val inputRDD = sc.textFile("/usr/local/lib/spark/README.md")inputRDD: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at textFile at :27 filter(.. 2016. 3. 2.
[통계학 기초]1. 자료 형태 및 요약 [통계학 기초]1. 자료의 형태 및 요약 #mean #median #Spread #variance #IQR #시각화 1) 범주형Categorical 명목Nominal : 순서없는 범주 (남/여) 순서Ordinal : 순서있는 범주 (소형/중형/대형) 시각화 - 도수분포표Frequency table 빈도수 또는 %, 막대그래프Bar graph 순위별로 정리하여 해석이 용이함, 파이 차트Pie chart 면적이나 각도의 차이로 총합을 100%으로 했을때 나눔 2) 양적Quantitative 연속Continuous : 무수히 많은 다른 값 (키, 몸무게) 이산Discrete : 몇 개의 다른 값 (가족 구성원의 수) 시각화 - Dot plot 이산 데이터의 점 수치로 표현, Stem plot 잎-줄기 수치를 .. 2016. 3. 1.
[R]4.소셜 네트워크 감정 분석 sentiment analysis [R]4. 소셜 네트워크 감정 분석 sentiment analysis #twitter #감정분석 소셜 네트워크 감정 분석 Sentiment Analysis[연구 질문]특정 키워드를 태깅하거나 언급한 소셜 네트워크 데이터에서 긍정/부정 적인감정을 알아내고 싶다 [개념]트위터에서 키워드로 언급된 데이터를 대상으로 해당 트윗에서 긍정적인 단어 또는 부정적인 단어가 얼마나 나타나는지 빈도수를 계산하여 긍정 단어수 - 부정 단어수의 수치로 나타낸다.http://www.cs.uic.edu/ 에서 영어의 긍정 / 부정 단어들을 가져왔고 트윗의 단어들과 매칭한다.임의로 추가 / 변경할 수 있다. [필요 데이터]Twitter api를 통해 데이터를 받고 전처리해야 한다.코드에서 사용할 데이터를 제공한다.일정 기간 중 a.. 2016. 2. 19.
7. 머신러닝 kmeans 알고리즘 7. 머신러닝 kmeans 알고리즘 #mllib #kmeans #k평균 알고리즘 #클러스터링 #clustering [개념] k-means 알고리즘 기본 개념은 본 블로그 Lecture_R 에서 언급한바 있다. 아래 링크에서 내용을 확인하기 바란다. http://pubdata.tistory.com/26 이번 글에서는 동일한 데이터를 가지고 동일하게 kmeans 알고리즘을 돌려보고, 결과가 같은지 확인 후 시사점을 작성해보려고 한다 Within group sum of squares R에서 스크립트로 withinss 값을 찾아 그래프를 그려보았고 적정한 k값을 찾는 방법으로 각 k값에 따라 변하는 withinss값의 기울기가 완만해지는 지점을 Elbow point라고 했었다 좀 더 설명을 붙이자면 kmeans.. 2016. 2. 18.
반응형