
앞의 t-test에서, 이상치와 왜도를 통해 그 결과가 건강한지 살펴보았습니다. ANOVA 는 이러한 제약이 조금 더 타이트하며, 다른 통계학 모형들 또한 그런 경우가 많습니다. ANOVA와 많은 모형들은 원본 Raw 데이터가 아닌 잔차Residual 에 대한 가정을 가집니다. 정규성 Normality 잔차의 분포가 정규분포를 따름을 가정합니다. 가장 흔한 문제는 앞에서 보았던 왜도Skewnes와 이상치Outlier이며, 가장 중대한 문제입니다. QQplot 을 통해 시각적으로 확인할 수 있습니다. 통계적 검사를 통해 이를 진단할 수도 있습니다. -Shapiro 는 소표본 (N1,000,000) 는 샘플링하여 검사한느 것도 좋습니다. 로그 변환 Log transformation 와 이상치 제거로 해결되는..

Why ANOVA 앞서 보았듯, t-test 는 3개 이상의 집단을 검정할 수 없습니다. 이를 커버하기 위해, 한 번에 여러 집단의 평균을 검사하는 ANOVA 를 사용 합니다. 앞서의 예시를 보자면, 주중/주말의 차이가 아닌 요일별 차이를 볼 수 있습니다. ANOVA 의 원리 : 평균을 검정하는 분산 분석 ANOVA 는 평균을 비교하는 방법론이지만, 분산을 이용 합니다. 각 집단의 평균은 어차피 조금씩 다를 수밖에 없는데, 그 차이가 유의미하게 큰지를 확인 하기 위해 분산을 이용 합니다 그래서, 분산에 관련된 2개의 분포를 더 배워보겠습니다. 카이제곱 분포는 이름은 어려워보이지만, 굉장히 자주 쓰이는 분포 입니다. 기본적으로 표쥰 정규 분포의 제곱합으로 정의 됩니다. 여기서는 K 는 데이터의 개수이며, ..

통계적 가설 검정 이란 ? 주어진 자료가 특정 가설을 충분히 뒷받침 하는지 여부를 결정하는 통계적 추론 방법. 통계적 가설의 구분 귀무(영) 가설 Nll Hypothesis - 기존의 통념이라 일반적으로 표현, 기본값 Default 에 가깝습니다. 대립 가설 Alternative Hypothesis - 새롭게 입증, 주장하고자 하는 것 - 우리의 목표는 보통 귀무가설이 틀렸을 데이터로 증명하는 것 입니다. Example - 앞의 인스타카트 예시를 다시 다듬으면 다음과 같이 됩니다. - Before : 인스타카트를 이용하는 유저들은 주말에 조금 더 많은 수량의 상품을 구매할 것이다. After - 귀무가설 : 인스타카트를 이용하는 유저들의 1회 상품 구매량은, 주중과 주말에 차이가 없다. - 대립가설 : ..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 빅데이터
- 통계학
- 데이터 분석가 주니어
- 데이터 시각화
- 데이터 분석 주니어
- 아하 모먼트
- 프로덕트 매니저
- 책 추천
- 데이터분석가
- BI
- BA
- 아무일 없는것처럼
- A/B테스트
- 데이터 분석
- 프로젝트 매니저
- 방법론
- 데이터 분석가
- 알고리즘
- 머신러닝
- 기획자
- 퍼포먼스 마케터
- 프로덕트 분석가
- 설레다
- ADsP
- 북극성 지표
- 데이터 리터러시
- 퍼포먼스 마케팅
- PM
- 그로스 해킹
- 빅테크
- Total
- Today
- Yesterday