
이상치(Outlier) 란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말해요 . 1. Extrems Studentized Deviation(ESD) 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 떄, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한됨 -데이터가 크게 비대칭 일 때 , 샘플 크기가 작을 경우 2. IQR (inter Quantile Range) 를 이용한 이상치 발견 ESD 와 동일하게 데이터가 비대칭적이거나 샘플사이즈가 작은 경우 제한됨 Box plot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림이라고도 함 사분위 수 : 데이터를 순서에 따라 4등..
import seaborn as sns import matplotlib.pyplot as plt import pandas as pd tips_df = sns.load_dataset('tips' tips_df.head(3) tips_df.describe(include = 'all') tips_df.head(3) #X축, Y 축에 필요한 정보를 넣어서 시각화 #범주형 데이터, 연속형 자료형, 관측치 Y 축 sns.countplot(data =tips_df, x ='day' barplot : X축이 범주형, Y축이 연속형 값 sns.barplot(data = tips_df, x ='sex', y = 'tip', estimator = 'mean') sns.boxplot(data = tips_df, x='time..

탐색적 데이터 분석 (EDA) 탐색적 데이터 분석 (Exploratory Data analysis, EDA ) 는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 입니다. 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정입니다. 다만, 이전 데이터 분석과 시각화 강의에서 들었다고 가정하고 시각화는 Seaborn 라이브러리를 활용 간단하게 알아보도록 할게요. tips.describe() - include='all' 옵션을 통해 범주형 데이터도 확인 가능 1.countplot : 범주형 자료의 빈도 수 시각화 방법 : 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 설레다
- 그로스 해킹
- 기획자
- 아무일 없는것처럼
- BA
- 데이터 시각화
- 데이터분석가
- 머신러닝
- 알고리즘
- 퍼포먼스 마케터
- 데이터 분석
- 프로덕트 매니저
- A/B테스트
- 빅테크
- 데이터 분석가 주니어
- 빅데이터
- BI
- 아하 모먼트
- 책 추천
- PM
- 프로덕트 분석가
- 북극성 지표
- 통계학
- 데이터 분석 주니어
- 방법론
- 퍼포먼스 마케팅
- 데이터 리터러시
- ADsP
- 데이터 분석가
- 프로젝트 매니저
- Total
- Today
- Yesterday