카테고리 없음
머신러닝 데이터 수집
루돌푸다요
2024. 3. 14. 15:35
머신 러닝의 세가지
- 지도 학습
회귀 / 분류 - 비지도 학습
- 강화 학습
예측 모델링 프로세스
- 데이터 수집
- 데이터 전처리
-이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리 - EDA
- 기술 통계, 시각화 - 모델링 & 평가
-최적화 - 배포
데이터 수집에 따른 프로세스
데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다
1. Data Source
- OLTp Database :OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션 (데이터베이스 작업의 단위) 처리 유형
- Enterprise Applications : 회사 내 데이터 (ex 고객 관게 데이터, 제품 마케팅 세일즈)
- Third -party : Google Analytics 와 같은 외부소스에서 수집되는 데이터
- Web/Log : 사용자의 로그데이터
2. Data Lake : 원시 형태의 다양한 유형의 데이터를 저장
3. Data Warehouse : 보다 구조화된 형태로 정제된 데이터를 저장
4. Data Marts : 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터
5. BI / Analytics : business intelligence(BI) 는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스
더보기
실제 데이터 수집
- 회사 내 데이터가 존재한다면
- SQL 혹은 Python 을 통해 데이터 마트를 생성 - 회사 내 Data가 없다면 -> 데이터 수집 필요
방법 1 : CSV, Excel 파일 다운로드
방법 2: API 를 이용한 데이터 수집
방법 3 : Data Crawling