반응형 분류 전체보기494 [통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 [통계학 기초]4. 통계적 검정, 유의 수준, 유의성 검정 #귀무가설 #대립가설 #제 1종 오류 #유의 수준 #p-value #유의성 검정 통계적 검정 Hypothesis testing227g으로 담는 기계가 있는데 4개를 뽑아 평균을 내보니 222g이었다. 이때 기계에 이상이 있는지 없는지 알 고 싶다.모평균 227g 표본평균 222g 표본 수n 4 가설 Hypothesis가설 검정 Tests of statistical hypotheses - 귀무가설/대립가설을 설정하고 얻어진 자료를 근거로 어느 가설이 더 타당한지 판단유의성 검정 Tests of statistical significance - 얻어진 자료보다 더 극단적인 자료가 얻어질 가능성을 계산하여, 이를 근거로 주어진 가설의 유효성Validit.. 2016. 3. 3. [통계학 기초]3. 표본분포, 중심극한정리, 통계적 추론, 신뢰구간 [통계학 기초]3. 표본분포와 중심극한정리, 통계적 추론, 신뢰구간 #sampling #Statistical Inference # 모집단 Population : 전체표본 Sample : 일부모수 Parameter : 모집단의 특성을 나타내는 숫자통계량 Statistic : 표본의 특성을 나타내는 숫자, 표본에 따라 다른 값을 갖는 확률변수, 모수를 추정함 표본분포 Sampling distribution : 통계량의 확률 분포표본평균 분포 : 표본을 무수히 많이 추출한 후 각 표본 평균의 분포 표본평균의 평균은 모집단의 평균과 같다 표본평균의 표준편차는 모집단의 표준편차보다 작으며 비율로 줄어든다 예제) 1) 모집단 평균 3.8, 표준편차 0.3 x=3.5보다 낮을 확률 2) 4개 표본에 의해 평균 x=3.. 2016. 3. 3. [통계학 기초] 2. 확률변수와 분포, 정규분포 [통계학 기초] 2.확률변수 분포, 정규분포 #평균 #분산 #연속확률변수 #확률밀도함수 #정규분포 #표준화 #확률분포표 랜덤 : 개별적인 결과를 예측할 수 없으나 여러번 반복시 그 결과가 규칙적인 분포를 나타내는 것을 가정함확률변수Random Variable : 랜덤한 현상 or 실험의 결과로 결정되는 수치적인 양 numerical quantity 동전던지기각 시행이 독립적 ( 이미 나온 결과에 의해 새로운 결과가 영향 받지 않는다)무수히 많이 던졌을 경우 확률은 0.5에 수렴한다 이산 확률 변수 X는 각 항목 값별 확률 값을 가짐 확률분포표X1, X2,...XkP1, P2,...Pk 평균 : 각 값들과 그 값의 확률을 곱해 모두 더한 것분산 : 각 값들과 평균 차이의 제곱과 그 값의 확률을 곱해 모두 .. 2016. 3. 2. 8.스파크 RDD의 연산 기본 함수 예제 8. 스파크 RDD의 연산 기본 함수 예제 #spark #filter #union #map #flatMap #distinct #intersection #subtract #reduceByKey *파란색은 스크립트, 검은색은 결과입니다. sc.textFile() 텍스트 파일 읽어오기 [SparkContext 객체]스칼라에서 README를 spark context 객체의 textFile 메서드를 이용해 읽어오면 RDD 객체가 생성됨scala> val inputRDD = sc.textFile("/usr/local/lib/spark/README.md")inputRDD: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at textFile at :27 filter(.. 2016. 3. 2. [통계학 기초]1. 자료 형태 및 요약 [통계학 기초]1. 자료의 형태 및 요약 #mean #median #Spread #variance #IQR #시각화 1) 범주형Categorical 명목Nominal : 순서없는 범주 (남/여) 순서Ordinal : 순서있는 범주 (소형/중형/대형) 시각화 - 도수분포표Frequency table 빈도수 또는 %, 막대그래프Bar graph 순위별로 정리하여 해석이 용이함, 파이 차트Pie chart 면적이나 각도의 차이로 총합을 100%으로 했을때 나눔 2) 양적Quantitative 연속Continuous : 무수히 많은 다른 값 (키, 몸무게) 이산Discrete : 몇 개의 다른 값 (가족 구성원의 수) 시각화 - Dot plot 이산 데이터의 점 수치로 표현, Stem plot 잎-줄기 수치를 .. 2016. 3. 1. 4. yum wget 프록시 설정, sbt 설치 4. yum wget 프록시 설정, sbt 설치 yum 프록시 설정하기 - Proxy 서버를 사용하는 망에서는 yum의 프록시 서버를 설정해야 한다[설정 방법]Root 권한으로 이동[~]$su - etc 폴더로 이동[~]#cd /etc yum.conf를 gedit로 오픈[etc]#gedit yum.conf 하단에 프록시 서버 주소 입력proxy=http://proxy server IP:proxy server Port/ 저장Save wget 프록시 설정하기 - Proxy 서버를 사용하는 망에서는 wget의 프록시 서버를 설정해야 한다.[설정 방법]Root 권한으로 이동[~]$su - etc 폴더로 이동[~]#cd /etc wgetrc를 gedit로 오픈[etc]#gedit 중간쯤에 프록시 서버들 주석처리 .. 2016. 2. 28. [R]4.소셜 네트워크 감정 분석 sentiment analysis [R]4. 소셜 네트워크 감정 분석 sentiment analysis #twitter #감정분석 소셜 네트워크 감정 분석 Sentiment Analysis[연구 질문]특정 키워드를 태깅하거나 언급한 소셜 네트워크 데이터에서 긍정/부정 적인감정을 알아내고 싶다 [개념]트위터에서 키워드로 언급된 데이터를 대상으로 해당 트윗에서 긍정적인 단어 또는 부정적인 단어가 얼마나 나타나는지 빈도수를 계산하여 긍정 단어수 - 부정 단어수의 수치로 나타낸다.http://www.cs.uic.edu/ 에서 영어의 긍정 / 부정 단어들을 가져왔고 트윗의 단어들과 매칭한다.임의로 추가 / 변경할 수 있다. [필요 데이터]Twitter api를 통해 데이터를 받고 전처리해야 한다.코드에서 사용할 데이터를 제공한다.일정 기간 중 a.. 2016. 2. 19. 7. 머신러닝 kmeans 알고리즘 7. 머신러닝 kmeans 알고리즘 #mllib #kmeans #k평균 알고리즘 #클러스터링 #clustering [개념] k-means 알고리즘 기본 개념은 본 블로그 Lecture_R 에서 언급한바 있다. 아래 링크에서 내용을 확인하기 바란다. http://pubdata.tistory.com/26 이번 글에서는 동일한 데이터를 가지고 동일하게 kmeans 알고리즘을 돌려보고, 결과가 같은지 확인 후 시사점을 작성해보려고 한다 Within group sum of squares R에서 스크립트로 withinss 값을 찾아 그래프를 그려보았고 적정한 k값을 찾는 방법으로 각 k값에 따라 변하는 withinss값의 기울기가 완만해지는 지점을 Elbow point라고 했었다 좀 더 설명을 붙이자면 kmeans.. 2016. 2. 18. 아파치 카프카 Apache Kafka 아파치 카프카는?"확장성과 고가용성을 가지는 메시지 브로커""오픈소스 분산 발행-구독 메시징 시스템""웹사이트, 애플리케이션, 센서 등에서 취합한 데이터 스트림을 실시간으로 관리하기 위한 오픈소스 시스템"[출처 빅데이터 윤활유 '아파치 카프카'가 주목받는 이유|작성자 kosena21 아파치 카프카의 대두비즈니스, 소셜 등 다양한 애플리케이션에 의해 실시간 정보가 끊임 없이 생성실시간 정보를 다양한 종류의 수신자에게 전달할 수 있는 수단이 필요대부분 정보를 생산하는 애플리케이션과 정보를 수신하는 애플리케이션은 분리되어 있고 서로 접근이 불가능함정보 컨슈머와 정보 프로듀서의 깔끔한 연동이 필요하다! 아파치 카프카의 디자인 컨셉정보 컨슈머는 정보 프로듀서에 대해 알 필요 없고 프로듀서는 누가 최종컨슈머인지 알.. 2016. 2. 13. 이전 1 ··· 49 50 51 52 53 54 55 다음 반응형