티스토리 뷰
Why ANOVA
- 앞서 보았듯, t-test 는 3개 이상의 집단을 검정할 수 없습니다.
- 이를 커버하기 위해, 한 번에 여러 집단의 평균을 검사하는 ANOVA 를 사용 합니다.
- 앞서의 예시를 보자면, 주중/주말의 차이가 아닌 요일별 차이를 볼 수 있습니다.
ANOVA 의 원리 : 평균을 검정하는 분산 분석
- ANOVA 는 평균을 비교하는 방법론이지만, 분산을 이용 합니다.
- 각 집단의 평균은 어차피 조금씩 다를 수밖에 없는데, 그 차이가 유의미하게 큰지를 확인 하기 위해 분산을 이용 합니다 그래서, 분산에 관련된 2개의 분포를 더 배워보겠습니다.
- 카이제곱 분포는 이름은 어려워보이지만, 굉장히 자주 쓰이는 분포 입니다. 기본적으로 표쥰 정규 분포의 제곱합으로 정의 됩니다. 여기서는 K 는 데이터의 개수이며, 카이제곱 분포의 모수인 자유도이기도 합니다.
두 카이제곱의 비 Ratio 를 이용하면 두 분산을 비교할 수 있습니다.
- 이를 F 분포라 하며, 다음과 같이 정의됩니다.
ANOVA는 3개 이상의 평균을 비교하는데, F분포는 2개의 분산을 비교합니다.
이것이 가능한 이유는, ANOVA 가 다음의 두 분산을 비교하기 때문입니다.
집단 간 분산 Variance between groups
- 각 집단 사이의 평균의 분산을 구합니다.
- 집단 사이의 평균이 멀리 떨어질수록, 이 값이 커집니다.
집단 내 분산 Variance Within groups
- 각 집단 내의 분산을 구합니다.
- 집단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설을 기각할 수 있습니다.
ANOVA , 결과와 그 해석
from scipy.stats import f_oneway
f_oneway(*[group["order_item_count"] for_, group in df_item_count_by_user.groupby("order_dow")])
f_onewayResult(statistic=4015.6412134991256, pvalue = 0.0
- 앞에서 보았던 예시를, 주중/주말이 아닌 요일별로 바꾸었습니다.
- 앞에서 t-test 는 검정 통계량이 t 분포를 따르고, 이로부터 p-value 를 뽑았다면
- ANOVA 는 검정 통계량이 F 분포를 따르고 이로부터 p-value 를 뽑습니다. - 역시나 굉장히 낮은 p-value 로 귀무가설을 기각하였습니다.
- 이제 우리는 적어도 하나의 집단의 평균이 다르다는 걸 알았습니다. 하지만 어느 집단의 평균이 다른지는 알 수 없습니다. 일반적으로 이를 해결 하기 위해 사후검정 Post-hoc analysis 를 진행합니다.
사후 검정 Post-hoc analysis
- 사후 검정에는 정말 다양한 종류가 있지만, 여기서는 가장 널리쓰이는 Tukey 만을 보겠습니다.
- 모든 경우에 대해 평균의 차이가 통계적으로 유의미하다는 결과가 나왔습니다.
이것이 현실적으로 의미가 있는 정보 일까요?
from statsmodels.stats.multicomp import pairwise_tukeyhsd
tukey = pairwise_tukeyhsd(endog=df_item_count_by_user['order_item_count'],
groups=df_item_count_by_use['order_odw'],
alpha=0.05)
print(tukey)
실질적 Practical vs 통계적 statistical 유의
- 걷기는 기대수명을 늘려준다고 합니다. 하지만 만약 100km 당 1초의 수명이 확실하게 늘어난다고 하면, 사람들은 걷기에 매력을 느낄까요? 이처럼 확실하게 효과가 존재하는 것과 효과의 크기가 유의미한 것은 다릅니다.
- 통계에서 또한 마찬가지 입니다.
- 아무리 통계적으로 유의한 결과라고 하더라도 실질적인 효과가 없다면 큰 의미는 없습니다. 위의 예시에서도, 장바구니에 담는 상품의 수가 평균적으로 0.3개가 많다는 것이 비즈니스적으로 큰 인사이트를 불러올 것 같지는 않습니다.
따라서 통계적 유의함의 결과는 비용과 효과 등을 고려하여 종합적으로 판단해야 합니다.
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- 퍼포먼스 마케팅
- 기획자
- 알고리즘
- 데이터 분석
- 설레다
- 프로젝트 매니저
- 프로덕트 매니저
- 머신러닝
- 빅테크
- 프로덕트 분석가
- A/B테스트
- 방법론
- 빅데이터
- 데이터 분석 주니어
- 아무일 없는것처럼
- BI
- 퍼포먼스 마케터
- ADsP
- 데이터 분석가
- 데이터 리터러시
- 북극성 지표
- 데이터분석가
- 데이터 시각화
- 책 추천
- BA
- 아하 모먼트
- 그로스 해킹
- 데이터 분석가 주니어
- PM
- 통계학
- Total
- Today
- Yesterday