티스토리 뷰

카테고리 없음

머신 러닝 EDA 이론

루돌푸다요 2024. 3. 14. 15:54

탐색적 데이터 분석 (EDA) 

  • 탐색적 데이터 분석 (Exploratory Data analysis, EDA ) 는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 입니다. 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정입니다. 다만, 이전 데이터 분석과 시각화 강의에서 들었다고 가정하고 시각화는 Seaborn 라이브러리를 활용 간단하게 알아보도록 할게요. 

tips.describe() 
- include='all' 옵션을 통해 범주형 데이터도 확인 가능

 

1.countplot : 범주형 자료의 빈도 수 시각화 

  • 방법 : 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때 
    ex: 상점에서 판매되는 제품의 카테고리별 판매수 파악 
  • x 축 : 범주형 자료 
  • y 축 : 자료의 빈도수 

 

 

2. barplot : 범주형 자료의 시각화 

  • 방법 : 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교 
    ex ) 다양한 연련대별 평균 소득을 피교할 때 
  • X 축 : 범주형 자료 
  • Y 축 : 연속형 자료 

 

3. boxplot : 수치형 &범주형 자료의 시각화 

  • 방법 :데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현하고 싶을 때 
    ex ) 여러 그룹간 시험 전수 분포를 비교할 때 
  • X 축 : 수치형 or 범주형 
  • Y 축 : 수치형 자료  

 

4. histogram : 수치형 자료 빈도 시각화 

  • 방법 : 연속형 분포를 나타내고 싶을 때 ,데이터가 몰려있는 구간을 파악하기 쉬움 
    ex : 고객들의 연령 분포를 파악 할 때 
  • X 축 : 수치형 자료 
  • Y 축 : 자료의 빈도수 

 

5. scatterplot: 수치형끼리 자료의 시각화 

  • 방법 : 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때 
    ex : 키와 몸무게 간의 관계를 나타낼 떄 
  • X 축 : 수치형 자료 
  • Y축 : 수치형 자료 

 

6. pairplot : 전체 변수에 대한 시각화 

  • 방법 : 한 번에 여러개의 변수를 동시에 시각화 하고 싶을 때 
  • X 축 : 범주형 or 수치형 자료 
  • Y 축 : 범주형 or 수치형 자료 
  • 대각선 : 히스토그램(분포)