반응형 Data/SPARK10 10. 스파크 Data I/O 예제 10. 스파크 Data I/O 예제 #spark #textFile #wholeTextFiles #saveAsTextFile *파란색은 스크립트, 검은색은 결과입니다. textFile() 텍스트 파일 불러오기 [Transformation 함수]val input = sc.textFile("/usr/local/lib/spark/README.md")input.take(3)input: org.apache.spark.rdd.RDD[String] = /usr/local/lib/spark/README.md MapPartitionsRDD[156] at textFile at :37res146: Array[String] = Array(# Apache Spark, "", Spark is a fast and general cl.. 2016. 9. 6. 9. 스파크 key/value pair RDD 예제 9. 스파크 key/value RDD 예제 #spark #reduceByKey #groupByKey #combineByKey # mapValues #keys #values #sortByKey *파란색은 스크립트, 검은색은 결과입니다. map() pair RDD 생성 [Transformation 함수]스칼라에서 README를 spark context 객체의 textFile 메서드를 이용해 읽어오면 RDD 객체가 생성됨이후 map 함수를 이용해 첫 번째 단어를 키로 사용한 pair RDD 생성scala> val lines = sc.parallelize(List("holden likes coffee","panda likes long strings and coffee"))scala> pairs = lines.m.. 2016. 9. 5. 8.스파크 RDD의 연산 기본 함수 예제 8. 스파크 RDD의 연산 기본 함수 예제 #spark #filter #union #map #flatMap #distinct #intersection #subtract #reduceByKey *파란색은 스크립트, 검은색은 결과입니다. sc.textFile() 텍스트 파일 읽어오기 [SparkContext 객체]스칼라에서 README를 spark context 객체의 textFile 메서드를 이용해 읽어오면 RDD 객체가 생성됨scala> val inputRDD = sc.textFile("/usr/local/lib/spark/README.md")inputRDD: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at textFile at :27 filter(.. 2016. 3. 2. 7. 머신러닝 kmeans 알고리즘 7. 머신러닝 kmeans 알고리즘 #mllib #kmeans #k평균 알고리즘 #클러스터링 #clustering [개념] k-means 알고리즘 기본 개념은 본 블로그 Lecture_R 에서 언급한바 있다. 아래 링크에서 내용을 확인하기 바란다. http://pubdata.tistory.com/26 이번 글에서는 동일한 데이터를 가지고 동일하게 kmeans 알고리즘을 돌려보고, 결과가 같은지 확인 후 시사점을 작성해보려고 한다 Within group sum of squares R에서 스크립트로 withinss 값을 찾아 그래프를 그려보았고 적정한 k값을 찾는 방법으로 각 k값에 따라 변하는 withinss값의 기울기가 완만해지는 지점을 Elbow point라고 했었다 좀 더 설명을 붙이자면 kmeans.. 2016. 2. 18. 6. 스파크의 핵심 RDD Resilient Distributed Datasets 6. 스파크의 핵심 RDD #RDD #Resilient Distributed Datasets #fault-tolerant #Lineage #DAG #directed acydic graph #Method chainingRDD Resilient Distributed DatasetsSpark : A Fault-Tolerant Abstraction for In Memory Cluster Computing Hadoop MapReduce의 단점? Machine Learning에 적합하지 않다 데이터 처리 시 HDFS(Hadoop Distributed File System)를 거치기 때문에 IO에서 시간이 오래 걸린다 Spark는?RAM에서 Read-Only로 처리해서 running time이 빠르다! fault-t.. 2016. 2. 12. 5. 웹 기반 명령어 해석기 Zeppelin Install 5. 웹 기반 명령어 해석기 Zeppelin Install #제플린 #ZepplinZeppelin Download & Install Zeppelin은?대화형으로 데이터 분석을 하기위한 웹 기반 명령어 해석기이다Spark 또는 하둡과 연동하며, 여러 가지 언어를 사용할 수 있다iPython-notebook과 사용 방법이 유사하다아직 인큐베이팅 단계이다 [제플린 설치 Zepplin Install]1) 리눅스 OS의 웹브라우저를 통해 다운로드https://zeppelin.incubator.apache.org/download.html Binary package: zeppelin-0.5.6-incubating-bin-all.tgz 다운로드 2-1) 다운 받은 Zeppelin를 home에 압축해제~$> tar -z.. 2016. 2. 12. 4. CentOS 스파크 설치 Spark Install "Hello Spark" 1~3 글은 Lecture_Linux로 이동했습니다.4. CentOS 스파크 설치 Spark Install "Hello Spark" #스파크 설치 #spark-shellSpark Download & Install [스파크 설치 Spark Install _ Standalone]1) 리눅스 OS의 웹브라우저를 통해 다운로드http://spark.apache.org/downloads.html 버전 1.6.0 Pre-built for Hadoop 2.6 기준ver. 1.6.0, Pre-built for Hadoop 2.6 and later, Direct Download 2-1) 다운 받은 Spark를 home에 압축해제~$> tar -zxf Downloads/spark-1.6.0-bin-hadoop2.6.tgz.. 2016. 2. 5. [Spark] Command (Terminal, Spark, Hadoop) [Linux Terminal]cdls zeppelin*ln -s zeppelin-0.5.6-incubating-bin-all zeppelinls 20* cp Downloads/hadoop_cnf/* hadoop/etc/hadoop/cp -rp spark_project01/ spark_project02 jpspwd sudo -unzip ~.ziptar -zxf zeppelin-0.5.6-incubating-bin-all.gz gedit conf/flume_avro.txtvi hadoop_cnf/hdfs-site.xmlmkdir /home/hadoop/syslog touch /home/hadoop/syslog/a.txt echo "TESTTEST" >> syslog/a.txtssh hadoop02 "nets.. 2016. 1. 29. [Spark] URLs //Spark http://localhost:8080/ //Hadoop http://localhost:50070 //Hadoop Applicationshttp://localhost:8088/cluster //Hadoop Jobshttp://localhost:4040/jobs //Zepplin http://localhost:8082 //Spark Downhttp://spark.apache.org/ //Spark Docu spark.apache.org/docs/latest/index.html //flume repositoryhttp://mvnrepository.com/artifact/org.apache.spark/spark-streaming-flume_2.10/1.4.0 //cafe http://cafe.d.. 2016. 1. 29. 이전 1 2 다음 반응형