IT/ADsP 자격증

ADsP 기술 통계 및 T 검정

루돌푸다요 2024. 2. 21. 20:38

기술 통계 

  • 자료의 특성을 표 , 그림, 통계량 등을 사용하여 쉽게 팡가할 수 있도록 정리/요약 하는것 
  • 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해 보며 분석에 대한 통찰력을 얻을 수 있다. 
  • 예시 이미지 

기술 통계

 

상자그림 (상자수염 그림, Box Plot)

더보기
떠올라야 하는것 : 사분위수, 중앙값,
  • 다섯 숫자 요약을 통해 그림으로 표현한 것 (최솟값, Q1, Q2, Q3, 최댓값) 
  • 보통 이상점 (Mild Qutlier) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료 
  • 극단 이상점 (Extreme Outlier) : 바깥 울타리 밖의 자료  

종속 변수 (반응 변수, y)

  • 다른 변수의 영향을 받는 변수 
  • 어떤 실험이나 조사에서 변화의 결과로 나타나는 변수이며 이러한 변화는 독립변수들에 의해 영향을 받는다. 
  • 예시 : 학업 성정을 예측하고자 할 때, 
    - 종속변수 - 학업성적 
    - 독립변수 - 공부시간, 수면시간, 출석률 등 

독립 변수 (설명 변수, x) 

  • 다른 변수에 영향을 주는 변수 
  • 독립변수는 종속변수의 값을 설명하거나 예측하는 데 사용되며, 종속변수의 원인이 되는 변수라고 볼 수 있다. 

산점도 

  • 두 변수 간의 관계를 시각적으로 나타내는 그래픽 표현 방법 중 하나 
  • 각 점은 두 변수의 값을 나타내며, 점들의 분폴르 통해 두 변수 간의 관계를 시각적으로 확인 할 수 있다. 
  • 산점도에서 확인할 사항 
    - 두 변수 사이의 선형관계(직선관계)가 성립하는가? 
    - 두 변수 사이의 함수관계(직선관계 또는 곡선관계) 가 성립하는가 ? 
    - 이상값이 존재하는가? 
    - 몇 개의 집단으로 구분(층별) 되는가? 

 


분산 분석 개요 

  • 분산 분석 이란 ? 
    - 여러 그룹 간의 평균 차이를 비교하는 통계적인 기법 중 하나 
    - 일반적으로 세 개 이상의 그룹 간의 평균 차이를 비교하는 데에 쓰인다. 
    - 그룹 간의 차이가 우연에 의한 것인지를 판단ㄴ하는 데에 사용한다. 
    - 분산분석에는 '(집단 간 분석) / (집단 내 분석)' 으로 계산 되는 F-value가 사용된다. 
  • 분산 분석의 단점 
    - 귀무가설을 기각할 경우 어느 집단 간 평균이 같은지, 혹은 어느 집단 간의 평균이 얼마나 다른지 알수 없다는 점 
    - 그래서 분산분석의 귀무가설을 기가했을 경우 사후검정방법으로 Scheffe, Tukey, Duncan, Fisher's, LSD, Dunnett, Bonferroni 등의 방법을 사용한다. 
  • 분산 분석을 수행하기 위한 3가지 가정 
    1. 등분 산성: 모든 그룹에서의 오차(잔차)의 분산이 동일해야 한다. 이는 각 그룹 내의 데이터가 대체로 비슷한 정도의 퍼짐을 가지고 있어야 함을 의미한다. 
    2. 독립성 : 각 그룹 내의 관측치들은 서로 독립적이어야 한다. 
    3. 정규성 : 각 그룹 내의 오차(잔차) 가 정규분포를 따라야 한다. 

교차분석/상관분석

교차분석 이란 ? 

  • 주로 범주형 변수 간의 관계를 파악하고자 할 때 사용되는 통계분석 기법 
  • 카이제곱(x2) 검정 통계량을 이용한다. 
  • 적합도 검정, 독립성 검정 동질성 검정에 사용된다. 

적합도 검정이란 ? 

  • 실험 결과 얻어진 관측값이 예상값과 일치하는지를 검정하는 방법 

독립성 검정이란 ? 

  • 두 변수 간의 관계가 독립적인지 여부를 테스트하는 통계적 방법 
  • 주로 교차표를 사용하여 두 범주형 변수 간의 독립성을 확인한다. 
  • 독립성 검정에서 가장 일반적으로 사용되는 통계 검정 중 하나는 카이제곱 검정이다. 
  • 카이제곱 검정에 의한 독립성 검정 결과는 두 범주형 변수 간에 관계가 있는지 없는지만 나타낼 뿐이며, 두 변수 간 관계의 강도를 말해주지 않는다. 

독립성 검정 예시 

  • 학생들의 성별과 성적 간의 독립성을 확인하여 성별이 성적에 영향을 미치는지 여부 판단 
  • 특정 지역의 투표 결과가 선거 참여자의 연령과 관련이 있는지 여부 검정 

독립성 검정에서의 가설 

  • 귀무가설 : 두 변수는 독립적이다. 
  • 대립가설 : 두 변수는 독립적이지 않다. 

 

동질성 검정이란 ? 

  • 두 개이상의 모집단이 동일한 분포를 가지고 있는지를 검정하는 통계적 방법 
  • 이 두개 이상의 독립적인 표본 집단이 동일한 모집단에서 추출되었는지를 판단하기 위해 사용 가장 흔하게 사용되는 동질성 검정 중 하나는 카이제곱 동질성 검정이다. 

동질섬 검정 예시 

  • 서로 다른 지역에서 추출한 세 개의 표본 집단이 동일한 성별 분포를 가지고 있는지 확인 
  • 서로 다른 세가지 제품 브랜드에서 추출한 소비자들의 선호도가 동일한지를 검정 

동질성 검정에서의 가설 

  • 귀무가설 : 각 표본은 동일한 모집단에서 추출되었다 ( 모든 집단은 동일한 분포를 가짐) 
  • 대립가설 : 적어도 하나의 표본은 다른 모집단에서 추출되었다. (적어도 하나의 집단은 다른 분포를 가짐 )  

상관분석 이란? 

  • 두 변수 간의 관계의 정도를 알아보기 위한 분석방법 
  • 상관분석에서 사용되는 상관계수 는 두 변수 간의 선형적 관계를 나타낸다. 
  • 일반적으로 -1에서 1사이의 값을 가지는데, +1에 가까우면 강한 양의 상관관계가, -1에 가까우면 강한 음의 상관관계가 있다고 보며, 0에 가까울수록 상관관계가 존재하지 않는다고 본다. 

산점도 귀무가설 

- 상관 분석의 귀무가설은 'H0 : Yxy = 0 ( 두 변수는 아무 상관관계가 없다') 이다. 

- p-value가 유의수준보다 작아 귀무가설을 기각할 수 있다면 두 변수 간에 유의한 상관관계가 있다고 말 할수 있다. 

 

상관분석의 유형 

  • 피어슨 상관분석( 선형적 상관관계 ) 
    - 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 
    - 모수적 방법의 하나로 두 변수가 모두 정규분포를 따른다는 가정이 필요하다. 
    - 연속형 변수, 정규성 가정 
    - 상관계수 : 피어슨 (적률상관계수)
  • 스피어만 상관분석 (비선형적 상관관계) 
    - 서열척도인 두 변수들의 상관관계 측정 방식 
    - 순서형 변수, 비모수적 방법 
    - 순위를 기준으로 상관관계 측정 
    - 상관계수 : 순위상관계수(p.로우)

  • 상관분석을 위한 R 코드