본문 바로가기 메뉴 바로가기

RudolpiA

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

RudolpiA

검색하기 폼
  • 분류 전체보기
    • IT
      • 마케팅 신병 훈련소
      • ADsP 자격증
      • ADsP 기출문제
      • Tableau
      • Challenge
      • Prompt
    • Books
      • 버텨내어 좋은 일 투성이
  • 방명록

boxplot (3)
이상치(Outlier)

이상치(Outlier) 란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말해요 . 1. Extrems Studentized Deviation(ESD) 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 떄, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한됨 -데이터가 크게 비대칭 일 때 , 샘플 크기가 작을 경우 2. IQR (inter Quantile Range) 를 이용한 이상치 발견 ESD 와 동일하게 데이터가 비대칭적이거나 샘플사이즈가 작은 경우 제한됨 Box plot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림이라고도 함 사분위 수 : 데이터를 순서에 따라 4등..

카테고리 없음 2024. 3. 14. 16:54
EDA 실습

import seaborn as sns import matplotlib.pyplot as plt import pandas as pd tips_df = sns.load_dataset('tips' tips_df.head(3) tips_df.describe(include = 'all') tips_df.head(3) #X축, Y 축에 필요한 정보를 넣어서 시각화 #범주형 데이터, 연속형 자료형, 관측치 Y 축 sns.countplot(data =tips_df, x ='day' barplot : X축이 범주형, Y축이 연속형 값 sns.barplot(data = tips_df, x ='sex', y = 'tip', estimator = 'mean') sns.boxplot(data = tips_df, x='time..

카테고리 없음 2024. 3. 14. 16:20
머신 러닝 EDA 이론

탐색적 데이터 분석 (EDA) 탐색적 데이터 분석 (Exploratory Data analysis, EDA ) 는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 입니다. 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정입니다. 다만, 이전 데이터 분석과 시각화 강의에서 들었다고 가정하고 시각화는 Seaborn 라이브러리를 활용 간단하게 알아보도록 할게요. tips.describe() - include='all' 옵션을 통해 범주형 데이터도 확인 가능 1.countplot : 범주형 자료의 빈도 수 시각화 방법 : 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때..

카테고리 없음 2024. 3. 14. 15:54
공지사항
  • 첫번째 공지 입니다 ! 앞으로의 방향성
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
  • 설레다
  • 그로스 해킹
  • 기획자
  • 아무일 없는것처럼
  • BA
  • 데이터 시각화
  • 데이터분석가
  • 머신러닝
  • 알고리즘
  • 퍼포먼스 마케터
  • 데이터 분석
  • 프로덕트 매니저
  • A/B테스트
  • 빅테크
  • 데이터 분석가 주니어
  • 빅데이터
  • BI
  • 아하 모먼트
  • 책 추천
  • PM
  • 프로덕트 분석가
  • 북극성 지표
  • 통계학
  • 데이터 분석 주니어
  • 방법론
  • 퍼포먼스 마케팅
  • 데이터 리터러시
  • ADsP
  • 데이터 분석가
  • 프로젝트 매니저
more
Total
Today
Yesterday

Blog is powered by Tistory / Designed by Tistory

티스토리툴바