머신러닝 데이터 수집

카테고리 없음

머신러닝 데이터 수집

루돌푸다요 2024. 3. 14. 15:35

머신 러닝의 세가지

지도 학습
회귀 / 분류
비지도 학습
강화 학습

예측 모델링 프로세스

데이터 수집
데이터 전처리
-이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리
EDA
- 기술 통계, 시각화
모델링 & 평가
-최적화
배포

데이터 수집에 따른 프로세스

데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다

1. Data Source

OLTp Database :OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션 (데이터베이스 작업의 단위) 처리 유형
Enterprise Applications : 회사 내 데이터 (ex 고객 관게 데이터, 제품 마케팅 세일즈)
Third -party : Google Analytics 와 같은 외부소스에서 수집되는 데이터
Web/Log : 사용자의 로그데이터

2. Data Lake : 원시 형태의 다양한 유형의 데이터를 저장

3. Data Warehouse : 보다 구조화된 형태로 정제된 데이터를 저장

4. Data Marts : 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터

5. BI / Analytics : business intelligence(BI) 는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스

실제 데이터 수집

회사 내 데이터가 존재한다면
- SQL 혹은 Python 을 통해 데이터 마트를 생성
회사 내 Data가 없다면 -> 데이터 수집 필요
방법 1 : CSV, Excel 파일 다운로드
방법 2: API 를 이용한 데이터 수집
방법 3 : Data Crawling