본문 바로가기
  • Let's go grab a data
반응형

Data97

빅데이터 비즈니스 모델 IDC의 빅데이터 생태계 : 데이터 창출 -> 획득 -> 정보처리 -> 비즈니스 프로세스빅데이터 비즈니스 모델 - 데이터로 던벌기 - 데이터 분석에 도움이 되는 인프라 제공 - 데이터 자체로 사업화 세가지 요소가 결합하여 가치 제공 - 콘텐츠 - 고객 경험 - 플랫폼 고객 가치 - 데이터를 중심으로 역량을 만들고 차별화 판도라 Spotify, Netflic : 고객 맞춤화 콘텐츠아마존 종이책, 전자책 : 고객 책 추천 프로세스 빅데이터 비즈니스 모델 유형 1) 데이터 과학자 : 데이터 비즈니스 맨 - 활용방안 데이터 창출자 - 데이터가공분석 새로운 정보 지식창출 데이터 개발자(대리인) - 분류저장유지관리 전문가 데이터 연구가 - 특정 분야 산업지식에서 활용 데이터 응용가 - 기존 서비스를 빅데이터를 이용.. 2018. 6. 21.
Web Scraper 기본 [필요 모듈]requestsBeuatifulSoup4 - HTML를 파싱하기 좋게 파이썬 객체로 리턴lxml - 파싱가능한 HTML으로 변경 [요청하기]import requestsres = requests.get('http://book.naver.com')res.text'\r\n\r\n....... [proxy 있는 경우]from requests.auth import HTTPProxyAuth proxyDict = { 'http' : '70.10.15.10:8080', 'https' : '70.10.15.10:8080'}res = requests.get('http://book.naver.com', proxies=proxyDict) 작성중 2018. 5. 18.
Python IDE 개발환경, pip proxy ssl 문제해결 [python 다운로드 및 설치]https://www.python.org/다운로드 및 설치 (Window 10 기준)설치 위저드에서 Path추가 체크 [IDE 다운로드 및 설치]https://www.jetbrains.com/pycharm/download/#section=windowsCommunity 버전으로 다운로드 및 설치Lightweight IDE for Python & Scientific development IDE를 실행한 후 좌측 아래 모니터?처럼 생긴 기능 버튼 누르면Terminal과 Python Console이 나타남 [pip install]Terminal에서 pip install PACKAGENAME 으로 패키지 설치 가능 [proxy와 ssl문제 발생 시]pip install --trus.. 2018. 5. 10.
Accuracy, Precision, Recall Classification 분류 종속변수가 정수 또는 클래스Regression 회귀 종속변수가 실수 Regression에서의 Metric 측정은실제와 예측 함수(회귀함수) 사이의 거리값의 합으로 성능을 평가할 수 있음그 거리가 클 수록 정확도가 떨어짐예를 들어 L2 norm, L1 norm, L-infinite norm 값 Classification 에서의 Metric 측정은Accuracy 전체 정답률 - 일반적이지만 inbalance한 데이터의 경우 눈 먼 값이 될 수 있음Precision 양성 항목 정답률 - 여기서 양성 항목이란 내가 집중하는 항목Recall 양성 항목 검출률 - 여기서 검출률이란 실제 내가 집중하는 항목만 봤을 때 판정 정답률 1000명 환자 정상판정 암판정 정상환자 988 2 암.. 2018. 5. 9.
자료형 - List #리스트 : 객체들의 순서가 있는 모임Collection#[], len(), max(), min(), count()a_list = [1,2,3]print("Output #58: {}".format(a_list))print("Output #59: {}".format(len(a_list)))print("Output #60: {}".format(max(a_list)))print("Output #61: {}".format(min(a_list)))another_list = ['printer',5,['star','circle',5]]print("Output #62: {}".format(another_list))print("Output #63: {}".format(len(another_list)))print("Out.. 2018. 2. 13.
날짜 다루기 [날짜 다루기] from math import exp, log, sqrtimport refrom datetime import date, time, datetime, timedelta today = date.today()print("Output #41: today:{0!s}".format(today))print("Output #42: year:{0!s}".format(today.year))print("Output #43: month:{0!s}".format(today.month))print("Output #44: day:{0!s}".format(today.day))current_datetime = datetime.today()print("Output #45: datetime:{0!s}".format(cur.. 2018. 2. 7.
Hello python, ipynb 파일 py 파일로 만들기, 실행, 자료형 jupyter notebook을 열고 하단의 스크립트를 작성하여 first_script.ipynb로 저장하고 실행한다print("Output #1: hello python")Output #1: hello python x=4y=5z=x+yprint("Output #2: four plus five equals {0:d}.".format(z))Output #2: four plus five equals 9. a=[1,2,3,4]b=["first","second","third","fourth"]c=a+bprint("Output #3: {0},{1},{2}".format(a,b,c))Output #3: [1, 2, 3, 4],['first', 'second', 'third', 'fourth'],[1, 2, 3, 4.. 2018. 1. 9.
NLTK 설치 및 수동 다운로드, 토큰화 테스트 n아래와 같이 설치되어있는 pip 버전으로 nltk를 설치한다. >pip3.6 install nltk --trusted-host pypi.python.org import nltk#nltk.download()#nltk.download('punkt') 실행하면 아래와 같이 나오는데 Download의 d와 list의 l을 입력하여 다운로드 받아야 함NLTK Downloader --------------------------------------------------------------------------- d) Download l) List u) Update c) Config h) Help q) Quit ---------------------------------------------------------.. 2018. 1. 4.
종이 한장 요약 기술 _ 토요타 일람성(한눈에 전체가 보인다), 틀, 틀제목(주제) 보이도록 구체화! XX 회의, 년 월 일 그룹 사람, 목적, 현재상태, 과제, 대책, 스케줄시각적으로 잘보이도록, 틀이 가져다 주는 집중력 효과(틀을 채우고 싶다, 주제를 벗어나지 않는다)엄선된 정보로 요점을 파악 - 특성: 일람성, 틀, 주제 - 공통주제: 목적(배경, 전제), 현재상태(개요), 과제, 대책, 스케줄- 방법 : 생각하는 토대 정보를 서류에 정리 -> 서류에 요약 -> 누군가에게 전달- 동사를 동작으로 바꾼다! : 인사하다 동사는 안녕하세요 동작으로- 요약을 짧게 한번에 완벽하게 하려고 하지 않는 것 방법)엑셀 1의 사용법 1 : 정리 - 요약 - 선택 답을 적는 시간 제한 1분, 손글씨로, 전달할 상대에 맞춰 날짜와 주제 답 답 답 답.. 2017. 12. 29.
반응형