티스토리 뷰
탐색적 데이터 분석 (EDA)
- 탐색적 데이터 분석 (Exploratory Data analysis, EDA ) 는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 입니다. 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정입니다. 다만, 이전 데이터 분석과 시각화 강의에서 들었다고 가정하고 시각화는 Seaborn 라이브러리를 활용 간단하게 알아보도록 할게요.
tips.describe()
- include='all' 옵션을 통해 범주형 데이터도 확인 가능
1.countplot : 범주형 자료의 빈도 수 시각화
- 방법 : 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때
ex: 상점에서 판매되는 제품의 카테고리별 판매수 파악 - x 축 : 범주형 자료
- y 축 : 자료의 빈도수
2. barplot : 범주형 자료의 시각화
- 방법 : 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 비교
ex ) 다양한 연련대별 평균 소득을 피교할 때 - X 축 : 범주형 자료
- Y 축 : 연속형 자료
3. boxplot : 수치형 &범주형 자료의 시각화
- 방법 :데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현하고 싶을 때
ex ) 여러 그룹간 시험 전수 분포를 비교할 때 - X 축 : 수치형 or 범주형
- Y 축 : 수치형 자료
4. histogram : 수치형 자료 빈도 시각화
- 방법 : 연속형 분포를 나타내고 싶을 때 ,데이터가 몰려있는 구간을 파악하기 쉬움
ex : 고객들의 연령 분포를 파악 할 때 - X 축 : 수치형 자료
- Y 축 : 자료의 빈도수
5. scatterplot: 수치형끼리 자료의 시각화
- 방법 : 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때
ex : 키와 몸무게 간의 관계를 나타낼 떄 - X 축 : 수치형 자료
- Y축 : 수치형 자료
6. pairplot : 전체 변수에 대한 시각화
- 방법 : 한 번에 여러개의 변수를 동시에 시각화 하고 싶을 때
- X 축 : 범주형 or 수치형 자료
- Y 축 : 범주형 or 수치형 자료
- 대각선 : 히스토그램(분포)
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- 방법론
- 아무일 없는것처럼
- 북극성 지표
- 데이터 분석
- 프로덕트 분석가
- BA
- 아하 모먼트
- 데이터 리터러시
- 그로스 해킹
- 데이터 분석가
- ADsP
- 데이터 분석가 주니어
- A/B테스트
- 빅데이터
- 프로덕트 매니저
- 기획자
- 머신러닝
- 책 추천
- 퍼포먼스 마케팅
- 통계학
- 퍼포먼스 마케터
- 알고리즘
- 빅테크
- BI
- 설레다
- 데이터 시각화
- 데이터분석가
- 데이터 분석 주니어
- PM
- 프로젝트 매니저
- Total
- Today
- Yesterday