IT/ADsP 자격증

ADsP 분류 분석

루돌푸다요 2024. 2. 23. 19:27

[목차]

01. 로지스틱 회귀분석 

02. 의사결정나무

03. 앙상블분석

04.인공신경망 분석

05. 그 외 다양한 분류분석

06. 분류모형성

 

 

01. 로지스틱 회귀분석 

분류 분석 

- 분류 분석이란, 반응변수(또는 종속변수) 가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적입니다. 

  • 분류분석, 예측분석 공통점
    - 레코드의 특정 속성의 값을 미리 알아맞히는 점 
  • 분류 분석, 예측분석 차이점
    분류 : 레코드의 범주형 속성의 값을 알아 맞히는 것 
    - 예시 : 이메일의 내용, 제목으로 스팸여부 알아맞히는 것 
    예측 : 레코드의 연속형 속성의 값을 알아맞히는 것 
    예시 : 지역 특성, 인구 통계, 인프라 등을 통해 미래의 부동산 가격을 알아맞히는 것 
  • 많이 사용 되는 분류 분석 모형으로는 로지스틱회귀, 의사결정나무, 인공신경망, 앙상블, K최근접 이웃, 나이브 베이스 등이 있습니다 .

 

로지스틱 회귀분석 개념 

  • 로지스틱 회귀분석은 종속 변수가 범주형 데이터인 경우에 사용되는 통계 분석 기법 중 하나이다. 
  • 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정하여, 추정 확률을 기준치에 따라 분류하는 목적으로 사용될 수도 있다. 이때, 모형의 적합을 통해 추정된 확률을 사후확률이라 부르기도 한다. 
  • 주로 이진 분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 이를 다중 로지스틱 회귀분석 이라고 한다. 
  • 로지스틱 회귀분석은 독립변수가 연속형, 종속변수가 범주형 일때 가능하다. 만약 독립변수가 범주형일 경우에는 그 범주형 독립변수를 더미변수로 변환하면 가능하다. 

* 더미 변수란 ? 

범주형 자료를 표현하는 데 사용되는 이진 변수(0또는 1의 값) 이다. 예를 들어 남성은 1, 여성은 0 으로 표현할 수 있다. 

 

선형회귀분석과 로지스틱 회귀분석의 비교

 

더보기

최대우도 추정법 (MLE : Maximum Likelihood Estimation)

우도란, 주어진 데이터가 어떤 확률 분포에서 나왔을 때, 해당모수가 얼마나 '그럴듯한' 지를 나타내는 것이다. 

최대우도 추정법은 확률 분포의 모수를 추정하는 통계적 방법 중 하난이다. 최대 우도는 주어진 데이터가 주어진 모수 아래에서 가장 가능성(우도)이 높은 값을 찾는 것을 목표로 한다. 

우도 L 은 0가 전제되었을 때 표본 x 가 등장할 확률인 p(xl0)에 비례 한다.

오즈(Odds)

  • 로지스틱 회귀분석을 사용하기 위해서는 '오즈' 라는 값을 사용한다. 
  • 오즈란, 성공할 확률이 실패할 확률의 몇배인지를 나타내는 값이다. 
  • 따라서 오즈를 사용하여 각 범주(진답)에 분류될 확률 값을 추정한다. 
  • 예를 들어, 4번의 성공과 1번의 실패를 경험했다면 오즈는 1회(실패) = 4회(성공) = 4 이다. 
  • 독립 변수 x 가 주어졌을때 성공확률을 p 라고 하면 실패 확률은 1-P 이다. 
  • 이때 오즈 값은 1-p 분의 p 이다. 
  • 로지스틱 회귀분석의 추정식으로부터 오즈값을 도출하면 아래의 식을 얻을 수 있다. 
  • 이는 독립변수 Xk 가 1만큼 증가할 때 E의 Bk 제곱만큼 오즈 값(성공확률) 이 증가함을 의미한다

로짓변환

오즈의 한계 

1. 음수를 가질 수 없다. 

2. 확률값과 오즈의 그래프는 비대칭성을 띤다. 

  • 위 한계를 극복하기 위해 오즈에 로그를 취한 것이 로짓(Logit) 이며, 이를 로짓 변환이라고 한다. 
  • 로짓 변환은 다음과 같이 정의된다. 

 

  • 오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프는 성공확률 0.5 를 기준으로 대칭 형태를 띠게 된다. 
  • 로짓 변환을 이용한 회구분석식은 다음과 같이 정의된다. 

 

시그모이드 함수 

  • 시그모이드 함수는 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 함수 중 하나다. 
  • 로짓 함수와 역함수 관계이기 때문에 로짓함수를 통해 시그모이드 함수가 도출된다. 
  • 시그모이드 함수식은 다음과 같이 정의된다.