본문 바로가기

Let's go grab a data

Review74

한계 비용 체증의 법칙 한계 비용 체증의 법칙 통계는 평균과 분산의 과학평균에서 벗어날수록 데이터의 미분값(변화의 정도)이 다른 측면을 보임 이산화탄소 배출 감축량의 예1997년 교토 제 3회 기후변동조약 체결국 회의(COP3)에서미국이 서명을 회피, 중국과 인도등 신흥국이 감축 의무를 지지 않은 점, 일본이 지나치게 높은 삭감 목표를 제시한 점 예를 들어 내연기관 자동차 생산량과 이산화탄소 배출 감축량의 관계는 지수함수적임즉, 감축 목표가 되는 이산화 탄소 배출 감축량의 절댓값은 같더라도이를 위한 감축 노력, 비용 등은 지수 함수적으로 늘어남똑같은 10톤을 감축하더라도 이미 한계까지 감축 노력을 한 일본의 10톤과 그렇지 않은 중국의 10톤은 한계 비용이 크게 다름 출처: 앞으로 데이터 분석을 시작하려는 사람을 위한 책 _구.. 2016. 7. 9.

성공적인 빅데이터 사례 [아마존의 롱테일 전략] 파레토의 법칙: 상위 20%가 전체 매출의 80%를 차지함 롱테일 전략: 낮은 수익성 때문에 외면받던 하위 80%의 상품에 주목하는 전략 상품 기반 협업필터링 알고리즘 도입하여 잘 팔리는 아이템과의 거리 즉, 유사성을 연산해 추정하고 잠재 고객들에게 추천함 보관장소의 집약으로 틈새 상품의 재고도 보유 가능 [디즈니] 디즈니랜드의 혼잡 상태를 해결하기 위해 오퍼레이션스 리서치Operations Research의 대기 행렬 이론을 이용 Operations Research: 수학적, 통계적 모델이나 알고리즘 등을 이용해 효율적인 의사 결정을 돕는 과학적 기법 대기 행렬 이론Queueing Theory: 줄을 서서 기다리지 않고 서비스를 받을 확률, 행렬의 평균 길이, 서비스의 평균 시.. 2016. 7. 9.

조직문화, 리더십, 자기관리 등 SVP에서 건져온 것들 실리콘벨리 문화 - Counterculture : 기존 질서에 대한 저항 운동 - Burning man : 창조 파괴 혁신 - Hackerway : 자발적 몰입, 빠른 실행 Fragile -> Robust -> Antifragile “보통 ‘프래질’의 반대말은 ‘강건한(robust)’이나 ‘탄력적인(resilient)’이라고 생각하지만 충격을 받으면 더 단단해지는 안티프래질이 반대개념”이라면서 “경제는 살아 있는 유기체와 비슷해서 평소 작은 실패를 통해 스트레스를 받아야 큰 위기가 왔을 때 견딜 수 있는 강한 체질로 진화한다 [네이버 지식백과] 안티프래질 [antifragile] (한경 경제용어사전, 한국경제신문/한경닷컴 ) Done is better than Perfect _facebook Do it .. 2016. 7. 8.

아파치 카프카 Apache Kafka 아파치 카프카는?"확장성과 고가용성을 가지는 메시지 브로커""오픈소스 분산 발행-구독 메시징 시스템""웹사이트, 애플리케이션, 센서 등에서 취합한 데이터 스트림을 실시간으로 관리하기 위한 오픈소스 시스템"[출처 빅데이터 윤활유 '아파치 카프카'가 주목받는 이유|작성자 kosena21 아파치 카프카의 대두비즈니스, 소셜 등 다양한 애플리케이션에 의해 실시간 정보가 끊임 없이 생성실시간 정보를 다양한 종류의 수신자에게 전달할 수 있는 수단이 필요대부분 정보를 생산하는 애플리케이션과 정보를 수신하는 애플리케이션은 분리되어 있고 서로 접근이 불가능함정보 컨슈머와 정보 프로듀서의 깔끔한 연동이 필요하다! 아파치 카프카의 디자인 컨셉정보 컨슈머는 정보 프로듀서에 대해 알 필요 없고 프로듀서는 누가 최종컨슈머인지 알.. 2016. 2. 13.

하둡을 선택하기 전에 고려해야 할 것들 1. 빅데이터가 존재하는가? 10TB이상이며 주기적으로 대량의 데이터 유입되는지 얼마나 많은 데이터를 비즈니스에 활용할 것인지 파악 2. 런타임이 길어도 되는가? 하둡은 실행 시간이 길다. 사용자가 얼마나 빠른 반응 시간을 기대하는지, 어떤 일들을 batch로 처리할 수 있는지 파악 3. 온라인, 실시간으로 운영해야 하는가? 하둡은 batch mode 환경이다. 새로운 데이터가 유입되면 전체 데이터를 처음 부터 다시 작업해야 하기 때문에 계속 분석 시간이 늘어난다.실시간 환경에는 적용하기 어려움 4. 데이터의 원본을 유지하는 것이 중요한가?하둡의 맵리듀스는 데이터의 관계나 내용을 조금 잃어버려도 문제가 되지 않는 키값의 데이터 구조에 적합하다.즉, 데이터 구조가 원천 데이터 그 자체만큼 중요하고 유지해야.. 2016. 1. 23.

알고리즘 종류, 주 활용 분야 알고리즘 주 활용 분야 업리프트 모델링(Uplift modeling) 단계적 추정, 예측 분석마케팅 캠페인에서 많이 사용, 환경이나 조건을 달리한 후 적당한 그룹을 선택하여 예측성을 높이는 방법마케팅, 신용관리, 가격선택, 고객 이탈 관리 등 분야 생존 분석(Suvival Anlaysis) 의료 통계, 설비 분야 사건 예측 회귀 분석(Regression, logistic) 예측 분석, 추정 분석(매출, 신용 점수 등) 시각화(Visualization) 원인과 관계 분석 기초 통계(Statistics) 현황 파악 부스팅(Boosting), 배깅(Bagging) 분류 분석 시계열/순열 분석(Timeseries/Sequence analysis) 시간상의 예측(이자율, 예산 등) 요인 분석(Factor Anal.. 2016. 1. 23.

데이터 분석가에게 필요한 것 수학, 기초통계, 분석 모델링, 컴퓨터 과학, 기계학습, 수리경제학 현장에서의 경험 : 데이터를 보고 문제 현황을 파악할 때 어떤 값을 기준으로 사용해야할지. 데이터를 보고 답이 없다는 것을 아는 것도 납득할 만한 보고서 데이터 품질 전문가 : 빠진값이 많거나 일관성이 부족한 데이터 등 전처리와 가공 작업에 전체 분석 작업중 6~70% 차지 한다. 데이터 세트를 연결하는 데이터 식별값 다양한 플랫폼, 다양한 분석 도구 커뮤니케이션 기술 : 인사이트 설명, 설득, 공감대배움에 성실꼼꼼진실함과 정직함빅데이터 - 스마트데이터 - 인품있는데이터(Intelligent data) 출처 : 데이터 과학 어떻게 기업을 바꾸었나? 김옥기, 2014.12 데이터 과학자의 특징 - 호기심, 실험, 창의성과 체계적인 업무, .. 2016. 1. 17.

현황Descriptive,예측Predictive, 예측최적화Prescriptive 현황분석(Descriptive Analytics) : 기술descriptive 분석 또는 진단diagnostc 분석 과거 데이터 바탕으로 기초 통계를 통한 전반적 상황 파악 및 이해 "과거에 무슨일이 일어났나? 왜 일어났나?" 예측분석(Predictive Analytics) : 추정likelihood 분석 과거나 현재 데이터 기초해서 실제 존재하지만 모르는 사실을 추정하거나, 가까운 미래에 발생할 가능성이 있는 사안들을 추측 "무슨일이 일어날 것인가?" 예측최적화분석(Prescriptive Analytics) : 예측분석 모델을 실제 실행하였을 때 가장 바람직한 결과가 예상되는 모델이 어떤 것인지 분석 분석환경이 변화하면 분석 모델 자체가 스스로 교정되는 과정 포함 "어떻게 원하는 결과가 일어나게 할 것.. 2016. 1. 17.

데이터 과학자에게 분석과정에서 가장 큰 도전은? 데이터에서 얻은 인사이트에 대한 신뢰를 얻는 것 25.8% 인사이트를 현업에 적용하는 것 22.6% 데이터 접근 14.5% 데이터에서 인사이트 발견 12.9% 데이터 통합 및 가공 11.3% 자료 습득 9.7% 분석요구사항 수집 3.2% 출처: Lavastorm Analytic, 2014.06 설득을 통한 적용 및 신뢰를 얻어 실제 기업이나 기관에 도움이 될 만한 성과를 내는 커뮤니케이션 기술도 중요 2016. 1. 17.

이전 1 ··· 5 6 7 8 9 다음

티스토리툴바