티스토리 뷰
머신 러닝의 세가지
- 지도 학습
회귀 / 분류 - 비지도 학습
- 강화 학습
예측 모델링 프로세스
- 데이터 수집
- 데이터 전처리
-이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리 - EDA
- 기술 통계, 시각화 - 모델링 & 평가
-최적화 - 배포
데이터 수집에 따른 프로세스
데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다
1. Data Source
- OLTp Database :OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션 (데이터베이스 작업의 단위) 처리 유형
- Enterprise Applications : 회사 내 데이터 (ex 고객 관게 데이터, 제품 마케팅 세일즈)
- Third -party : Google Analytics 와 같은 외부소스에서 수집되는 데이터
- Web/Log : 사용자의 로그데이터
2. Data Lake : 원시 형태의 다양한 유형의 데이터를 저장
3. Data Warehouse : 보다 구조화된 형태로 정제된 데이터를 저장
4. Data Marts : 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터
5. BI / Analytics : business intelligence(BI) 는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스
더보기
실제 데이터 수집
- 회사 내 데이터가 존재한다면
- SQL 혹은 Python 을 통해 데이터 마트를 생성 - 회사 내 Data가 없다면 -> 데이터 수집 필요
방법 1 : CSV, Excel 파일 다운로드
방법 2: API 를 이용한 데이터 수집
방법 3 : Data Crawling
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- 데이터 시각화
- 머신러닝
- 빅데이터
- 데이터 분석가
- 데이터 리터러시
- 프로덕트 분석가
- 그로스 해킹
- 데이터 분석
- BI
- 데이터분석가
- 알고리즘
- 설레다
- 퍼포먼스 마케터
- 아무일 없는것처럼
- 데이터 분석 주니어
- 통계학
- 방법론
- ADsP
- A/B테스트
- 데이터 분석가 주니어
- 빅테크
- 프로덕트 매니저
- 아하 모먼트
- BA
- 기획자
- 퍼포먼스 마케팅
- 책 추천
- PM
- 프로젝트 매니저
- 북극성 지표
- Total
- Today
- Yesterday