티스토리 뷰

카테고리 없음

머신러닝 데이터 수집

루돌푸다요 2024. 3. 14. 15:35

머신 러닝의 세가지 

  1. 지도 학습 
    회귀 / 분류 
  2. 비지도 학습 
  3. 강화 학습

예측 모델링 프로세스

  • 데이터 수집 
  • 데이터 전처리 
    -이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리 
  • EDA 
    - 기술 통계, 시각화 
  • 모델링 & 평가 
    -최적화 
  • 배포 

데이터 수집에 따른 프로세스 

데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다 

 

1. Data Source

  • OLTp Database :OnLine Transaction Processing 은 온라인 뱅킹, 쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션 (데이터베이스 작업의 단위) 처리 유형 
  • Enterprise Applications : 회사 내 데이터 (ex 고객 관게 데이터, 제품 마케팅 세일즈) 
  • Third -party : Google Analytics 와 같은 외부소스에서 수집되는 데이터 
  • Web/Log : 사용자의 로그데이터 

2. Data Lake : 원시 형태의 다양한 유형의 데이터를 저장 

3. Data Warehouse : 보다 구조화된 형태로 정제된 데이터를 저장 

4. Data Marts : 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터 

5. BI / Analytics : business intelligence(BI) 는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스 

 

더보기

실제 데이터 수집 

  • 회사 내 데이터가 존재한다면 
    - SQL 혹은 Python 을 통해 데이터 마트를 생성 
  • 회사 내 Data가 없다면 -> 데이터 수집 필요 
    방법 1 : CSV, Excel 파일 다운로드       
    방법 2:  API 를 이용한 데이터 수집 
    방법 3 : Data Crawling