본문 바로가기
  • Let's go grab a data
반응형

Data97

기계학습Machine Learning - 지도 학습 유형 지도 학습 Supervised Learning훈련 데이터(Training Data)로부터 하나의 함수를 유추함훈련 데이터는 일반적으로 입력 객체에 대해 속성을 벡터 형태로 포함하고 있으며, 각각 벡터(독립변수)에 대해 원하는 결과(종속변수)가 포함지도학습 검증방법 (Accuracy, Sensitivity, Specificity, Precision, ROC, AUC)교차 검증(Cross-Validation) : Training Set, Test Set의 7:3 또는 8:2 샘플링유추된 함수에 대해 Test Set을 입력 시 추론된 결과(종속 변수)와 실제 결과의 비교를 통해 정확도 측정 가능 - True Positive : 유추된 함수에 의해 추론된 결과(참)와 실제 결과가 같음. 관심 범주를 정확하게 분.. 2016. 2. 6.
기계학습Machine Learning - 정의, 목적별 분류 통계와 기계학습의 차이는?통계는 정해진 분포나 가정을 가지고 엄격하게 규칙이 적용되는 설문조사나 실험 계획에 사용됨기계학습은 대용량 데이터의 분석이나 패턴을 찾는데 사용됨 기계학습이란?정의 : 컴퓨터에게 배울 수 있는 능력, 즉 코드로 정의하지 않은 동작을 실행하는 능력에 대한 연구분야 (아서 사무엘, 1959)머신 러닝(영어: machine learning) 또는 기계 학습(機械 學習)은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다.기계 학습의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이.. 2016. 2. 6.
4. CentOS 스파크 설치 Spark Install "Hello Spark" 1~3 글은 Lecture_Linux로 이동했습니다.4. CentOS 스파크 설치 Spark Install "Hello Spark" #스파크 설치 #spark-shellSpark Download & Install [스파크 설치 Spark Install _ Standalone]1) 리눅스 OS의 웹브라우저를 통해 다운로드http://spark.apache.org/downloads.html 버전 1.6.0 Pre-built for Hadoop 2.6 기준ver. 1.6.0, Pre-built for Hadoop 2.6 and later, Direct Download 2-1) 다운 받은 Spark를 home에 압축해제~$> tar -zxf Downloads/spark-1.6.0-bin-hadoop2.6.tgz.. 2016. 2. 5.
[Spark] Command (Terminal, Spark, Hadoop) [Linux Terminal]cdls zeppelin*ln -s zeppelin-0.5.6-incubating-bin-all zeppelinls 20* cp Downloads/hadoop_cnf/* hadoop/etc/hadoop/cp -rp spark_project01/ spark_project02 jpspwd sudo -unzip ~.ziptar -zxf zeppelin-0.5.6-incubating-bin-all.gz gedit conf/flume_avro.txtvi hadoop_cnf/hdfs-site.xmlmkdir /home/hadoop/syslog touch /home/hadoop/syslog/a.txt echo "TESTTEST" >> syslog/a.txtssh hadoop02 "nets.. 2016. 1. 29.
[Spark] URLs //Spark http://localhost:8080/ //Hadoop http://localhost:50070 //Hadoop Applicationshttp://localhost:8088/cluster //Hadoop Jobshttp://localhost:4040/jobs //Zepplin http://localhost:8082 //Spark Downhttp://spark.apache.org/ //Spark Docu spark.apache.org/docs/latest/index.html //flume repositoryhttp://mvnrepository.com/artifact/org.apache.spark/spark-streaming-flume_2.10/1.4.0 //cafe http://cafe.d.. 2016. 1. 29.
실시간 빅데이터 분석[Hadoop, Spark] 개요 cafe.daum.net/moonikan김문주moonikan@gmail.com 빅데이터 : 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 범위를 넘어서는 데이터빅데이터 4V : Volume(10 TB 이상), Velocity(Batch, Near time, Real time, Streams), Variety(Structured, Unstructured, Semi-structured) Value Hadoop 아파치 프로젝트 중 DB쪽에 위치하며, 인프라쪽으로 가고 있다The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop s.. 2016. 1. 27.
Big Data Overview 빅데이터의 특징은 3V로 요약하는 것이 일반적이다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미한다(O'Reilly Radar Team, 2012). 최근에는 가치(Value)나 변동성(Variability)을 덧붙이기도 한다.변동성 Variability은 데이터가 고정된 패턴으로 축적과 특정 규격이나 형식을 갖고있지만, 많은 옵션과 변수에 의해 분석과 해석이 쉽지 않은 경우를 의미한다. 구글은 독감과 관련된 검색어 빈도를 분석해 독감 환자 수와 유행 지역을 예측하는 독감 동향 서비스를 개발했다(google.org/flutrends). 이는 미 질병통제본부(CDC)보다 예측력이 뛰어난 것으로 밝혀졌다. 데이터의 규모가 중요하다는 것을 확인시킨.. 2016. 1. 1.
반응형