티스토리 뷰

Why ANOVA 

  • 앞서 보았듯, t-test 는 3개 이상의 집단을 검정할 수 없습니다. 
  • 이를 커버하기 위해, 한 번에 여러 집단의 평균을 검사하는 ANOVA 를 사용 합니다. 
  • 앞서의 예시를 보자면, 주중/주말의 차이가 아닌 요일별 차이를 볼 수 있습니다. 

 

 

ANOVA 의 원리 : 평균을 검정하는 분산 분석 

 

  • ANOVA 는 평균을 비교하는 방법론이지만, 분산을 이용 합니다. 
  • 각 집단의 평균은 어차피 조금씩 다를 수밖에 없는데, 그 차이가 유의미하게  큰지를 확인 하기 위해 분산을 이용 합니다 그래서, 분산에 관련된 2개의 분포를 더 배워보겠습니다. 

카이제곱과 F 분포

  • 카이제곱 분포는 이름은 어려워보이지만, 굉장히 자주 쓰이는 분포 입니다. 기본적으로 표쥰 정규 분포의 제곱합으로 정의 됩니다. 여기서는 K 는 데이터의 개수이며, 카이제곱 분포의 모수인 자유도이기도 합니다. 

 

두 카이제곱의 비 Ratio 를 이용하면 두 분산을 비교할 수 있습니다. 
- 이를 F 분포라 하며, 다음과 같이 정의됩니다.

 

ANOVA는 3개 이상의 평균을 비교하는데, F분포는 2개의 분산을 비교합니다. 

이것이 가능한 이유는, ANOVA 가 다음의 두 분산을 비교하기 때문입니다. 

집단 간 분산 Variance between groups 

- 각 집단 사이의 평균의 분산을 구합니다. 

- 집단 사이의 평균이 멀리 떨어질수록, 이 값이 커집니다. 

 

집단 내 분산 Variance Within groups 

- 각 집단 내의 분산을 구합니다. 

- 집단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설을 기각할 수 있습니다. 

 

ANOVA , 결과와 그 해석 

from scipy.stats import f_oneway 
f_oneway(*[group["order_item_count"] for_, group in df_item_count_by_user.groupby("order_dow")])

f_onewayResult(statistic=4015.6412134991256, pvalue = 0.0

 

  • 앞에서 보았던 예시를, 주중/주말이 아닌 요일별로 바꾸었습니다. 
  • 앞에서 t-test 는 검정 통계량이 t 분포를 따르고, 이로부터 p-value 를 뽑았다면 
    - ANOVA 는 검정 통계량이 F 분포를 따르고 이로부터 p-value 를 뽑습니다. 
  • 역시나 굉장히 낮은 p-value 로 귀무가설을 기각하였습니다. 
    - 이제 우리는 적어도 하나의 집단의 평균이 다르다는 걸 알았습니다. 하지만 어느 집단의 평균이 다른지는 알 수 없습니다. 일반적으로 이를 해결 하기 위해 사후검정 Post-hoc analysis 를 진행합니다. 

사후 검정 Post-hoc analysis 

 

  • 사후 검정에는 정말 다양한 종류가 있지만, 여기서는 가장 널리쓰이는 Tukey 만을 보겠습니다. 
    - 모든 경우에 대해 평균의 차이가 통계적으로 유의미하다는 결과가 나왔습니다. 
    이것이 현실적으로 의미가 있는 정보 일까요? 
from statsmodels.stats.multicomp import pairwise_tukeyhsd

tukey = pairwise_tukeyhsd(endog=df_item_count_by_user['order_item_count'],
					 groups=df_item_count_by_use['order_odw'],
                     alpha=0.05)
print(tukey)

 

실질적 Practical vs 통계적 statistical 유의 

  • 걷기는 기대수명을 늘려준다고 합니다. 하지만 만약 100km 당 1초의 수명이 확실하게 늘어난다고 하면, 사람들은 걷기에 매력을 느낄까요? 이처럼 확실하게 효과가 존재하는 것과 효과의 크기가 유의미한 것은 다릅니다. 
  • 통계에서 또한 마찬가지 입니다.
  • 아무리 통계적으로 유의한 결과라고 하더라도 실질적인 효과가 없다면 큰 의미는 없습니다.  위의 예시에서도, 장바구니에 담는 상품의 수가 평균적으로 0.3개가 많다는 것이 비즈니스적으로 큰 인사이트를 불러올 것 같지는 않습니다. 
    따라서 통계적 유의함의 결과는 비용과 효과 등을 고려하여 종합적으로 판단해야 합니다.