본문 바로가기
  • On the ball
반응형

Review/Book_Data15

데이터 분석 전문가 가이드 과목 5. 데이터 시각화 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 과목 5. 데이터 시각화 1장 시각화 인사이트 프로세스 1절 시각화 인사이트 프로세스: 인사이트-예리한 관철력으로 사물을 환히 꿰뚫어 봄. 시각화와 인사이트 : 삼찰-관찰,성찰,통찰 통찰과정- 탐색, 분석, 활용, 2절 탐색(1단계) 사용가능한 데이터 확인 : 데이터 명세화, 이벤트 기록으로서 접근, 객체지향 관점 접근 연결고리의 확인 : 공통 요소 찾기, 공통 요소 변환, 시간 데이터 변환, 공간데이터 변환, 일정규칙 가진 분류형 데이터 변환 관계의 탐색 : 이상값 처리, 차원과 측정값 유형에 따른 관계파악, 잘라보고 달리보기, 내려다 보고 올려다 보기, 척도의 조정 3절 분석(2단계) 분석 대상의 구체화 : 2차.. 2019. 1. 9.
데이터 분석 전문가 가이드 과목 4. 데이터 분석 오른쪽을 클릭하여 바로 구매 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 과목 4. 데이터 분석 1장 R 기초와 데이터 마트 1절 R 기초 : R 특징- 그래픽 처리, 데이터 처리 및 계산 능력, 패키지 R 설치 http://r-project.orgR 패키지 설치 install.packages(‘패키지 이름’) library(패키지 이름) ?par help(par) R 데이터 구조 : 벡터, 행렬, 데이터 프레임, 데이터불러오기 read.table(‘.csv’, header=T, sep=‘,’) rep(1,3) seq(1,3)…. 2절 데이터 마트 R reshape를 활용한 데이터 마트 개발 : Reshape melt와 cast를 이용해 데이터를 재구성하거나 밀집화 된 데이터를 생성 Sql.. 2019. 1. 8.
데이터 분석 전문가 가이드 과목 3. 데이터 분석 기획 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 과목3. 데이터 분석 기획 1장 데이터 분석 기획의 이해 1절 분석 기획 방향성 도출 1. 분석 기획 : 문제영역에 대한 전문성, 통계학적 지식의 분석 역량, 분석 도구, 균형잡신 시각으로 방향성 및 계획 수립 필요 분석의 대상 What, 분석의 방법 How 으로 최적화, 솔루션, 통찰, 발견 접근법.. 분석 기획은 단기적으로 분석과제를 도출 하여 프로젝트화, 장기적으로는 분석 마스터플랜을 수행하여 분석과제 수행지원 분석 기획 시 고려사항 : 가용한 데이터, 적절한 유스케이스, 분석 과제 수행을 위한 장애 요소. 2절 분석 방법론 분석 방법론 개요: 암묵지-> 형식화-> 형식지 -> 체계화 -> 방법론 -> 내재화 .. 2019. 1. 4.
데이터 분석 전문가 가이드 과목 2. 데이터 처리 기술 이해 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음 과목2 데이터 처리 기술 이해 1장 데이터 처리 프로세스 1절 ETL(Extraction, Transformation and Load) : 통합, 이동, 관리 Batch ETL과 Real Time ETL Source -> ODS -> DWH -> Data Mart Extraction추출: 데이터 원천Source에서 데이터 획득, Transformation변형: 데이터 클렌징, 형식변환,표준화, 통합 Loading적재: 특정 목표 시스템에 적재 ODS(Operational Data Store): 추가 작업을 위해 데이터 소스들로부터 추출,통합한 데이터 베이스 Interface 단계: 데이터 획득, OLEDB(Objec.. 2019. 1. 4.
데이터 분석 전문가 가이드 과목1. 데이터 이해 아래를 클릭하여 바로 구매하기 *파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음과목 1 데이터 이해 1장 데이터의 이해 데이터 : 추론과 추정의 근거를 이루는 사실 - 객관적 사실이라는 존재적 특성 갖는 동시에 추론/예측/전망/추정을 위한 근거 정성적 데이터 : 언어, 문자 등 정량적 데이터 : 수치, 도형, 기호 등 지식화 - 암묵지(공통화, 내면화) -> 형식지(표출화,연결화) 데이터Data -> 정보Information -> 지식Knowledge -> 지혜Wisdom 데이터 베이스 정의 : 문자,기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체 데이터 베이.. 2018. 12. 16.
한계 비용 체증의 법칙 한계 비용 체증의 법칙 통계는 평균과 분산의 과학평균에서 벗어날수록 데이터의 미분값(변화의 정도)이 다른 측면을 보임 이산화탄소 배출 감축량의 예1997년 교토 제 3회 기후변동조약 체결국 회의(COP3)에서미국이 서명을 회피, 중국과 인도등 신흥국이 감축 의무를 지지 않은 점, 일본이 지나치게 높은 삭감 목표를 제시한 점 예를 들어 내연기관 자동차 생산량과 이산화탄소 배출 감축량의 관계는 지수함수적임즉, 감축 목표가 되는 이산화 탄소 배출 감축량의 절댓값은 같더라도이를 위한 감축 노력, 비용 등은 지수 함수적으로 늘어남똑같은 10톤을 감축하더라도 이미 한계까지 감축 노력을 한 일본의 10톤과 그렇지 않은 중국의 10톤은 한계 비용이 크게 다름 출처: 앞으로 데이터 분석을 시작하려는 사람을 위한 책 _구.. 2016. 7. 9.
성공적인 빅데이터 사례 [아마존의 롱테일 전략] 파레토의 법칙: 상위 20%가 전체 매출의 80%를 차지함 롱테일 전략: 낮은 수익성 때문에 외면받던 하위 80%의 상품에 주목하는 전략 상품 기반 협업필터링 알고리즘 도입하여 잘 팔리는 아이템과의 거리 즉, 유사성을 연산해 추정하고 잠재 고객들에게 추천함 보관장소의 집약으로 틈새 상품의 재고도 보유 가능 [디즈니] 디즈니랜드의 혼잡 상태를 해결하기 위해 오퍼레이션스 리서치Operations Research의 대기 행렬 이론을 이용 Operations Research: 수학적, 통계적 모델이나 알고리즘 등을 이용해 효율적인 의사 결정을 돕는 과학적 기법 대기 행렬 이론Queueing Theory: 줄을 서서 기다리지 않고 서비스를 받을 확률, 행렬의 평균 길이, 서비스의 평균 시.. 2016. 7. 9.
아파치 카프카 Apache Kafka 아파치 카프카는?"확장성과 고가용성을 가지는 메시지 브로커""오픈소스 분산 발행-구독 메시징 시스템""웹사이트, 애플리케이션, 센서 등에서 취합한 데이터 스트림을 실시간으로 관리하기 위한 오픈소스 시스템"[출처 빅데이터 윤활유 '아파치 카프카'가 주목받는 이유|작성자 kosena21 아파치 카프카의 대두비즈니스, 소셜 등 다양한 애플리케이션에 의해 실시간 정보가 끊임 없이 생성실시간 정보를 다양한 종류의 수신자에게 전달할 수 있는 수단이 필요대부분 정보를 생산하는 애플리케이션과 정보를 수신하는 애플리케이션은 분리되어 있고 서로 접근이 불가능함정보 컨슈머와 정보 프로듀서의 깔끔한 연동이 필요하다! 아파치 카프카의 디자인 컨셉정보 컨슈머는 정보 프로듀서에 대해 알 필요 없고 프로듀서는 누가 최종컨슈머인지 알.. 2016. 2. 13.
하둡을 선택하기 전에 고려해야 할 것들 1. 빅데이터가 존재하는가? 10TB이상이며 주기적으로 대량의 데이터 유입되는지 얼마나 많은 데이터를 비즈니스에 활용할 것인지 파악 2. 런타임이 길어도 되는가? 하둡은 실행 시간이 길다. 사용자가 얼마나 빠른 반응 시간을 기대하는지, 어떤 일들을 batch로 처리할 수 있는지 파악 3. 온라인, 실시간으로 운영해야 하는가? 하둡은 batch mode 환경이다. 새로운 데이터가 유입되면 전체 데이터를 처음 부터 다시 작업해야 하기 때문에 계속 분석 시간이 늘어난다.실시간 환경에는 적용하기 어려움 4. 데이터의 원본을 유지하는 것이 중요한가?하둡의 맵리듀스는 데이터의 관계나 내용을 조금 잃어버려도 문제가 되지 않는 키값의 데이터 구조에 적합하다.즉, 데이터 구조가 원천 데이터 그 자체만큼 중요하고 유지해야.. 2016. 1. 23.
반응형