IT/ADsP 자격증
ADsP 분류 분석
루돌푸다요
2024. 2. 23. 19:27
[목차]
01. 로지스틱 회귀분석
02. 의사결정나무
03. 앙상블분석
04.인공신경망 분석
05. 그 외 다양한 분류분석
06. 분류모형성
01. 로지스틱 회귀분석
분류 분석
- 분류 분석이란, 반응변수(또는 종속변수) 가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적입니다.
- 분류분석, 예측분석 공통점
- 레코드의 특정 속성의 값을 미리 알아맞히는 점 - 분류 분석, 예측분석 차이점
분류 : 레코드의 범주형 속성의 값을 알아 맞히는 것
- 예시 : 이메일의 내용, 제목으로 스팸여부 알아맞히는 것
예측 : 레코드의 연속형 속성의 값을 알아맞히는 것
예시 : 지역 특성, 인구 통계, 인프라 등을 통해 미래의 부동산 가격을 알아맞히는 것 - 많이 사용 되는 분류 분석 모형으로는 로지스틱회귀, 의사결정나무, 인공신경망, 앙상블, K최근접 이웃, 나이브 베이스 등이 있습니다 .
로지스틱 회귀분석 개념
- 로지스틱 회귀분석은 종속 변수가 범주형 데이터인 경우에 사용되는 통계 분석 기법 중 하나이다.
- 새로운 독립변수의 값이 주어질 때 종속변수 각 범주에 속할 확률이 얼마인지를 추정하여, 추정 확률을 기준치에 따라 분류하는 목적으로 사용될 수도 있다. 이때, 모형의 적합을 통해 추정된 확률을 사후확률이라 부르기도 한다.
- 주로 이진 분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 이를 다중 로지스틱 회귀분석 이라고 한다.
- 로지스틱 회귀분석은 독립변수가 연속형, 종속변수가 범주형 일때 가능하다. 만약 독립변수가 범주형일 경우에는 그 범주형 독립변수를 더미변수로 변환하면 가능하다.
* 더미 변수란 ?
범주형 자료를 표현하는 데 사용되는 이진 변수(0또는 1의 값) 이다. 예를 들어 남성은 1, 여성은 0 으로 표현할 수 있다.
더보기
최대우도 추정법 (MLE : Maximum Likelihood Estimation)
우도란, 주어진 데이터가 어떤 확률 분포에서 나왔을 때, 해당모수가 얼마나 '그럴듯한' 지를 나타내는 것이다.
최대우도 추정법은 확률 분포의 모수를 추정하는 통계적 방법 중 하난이다. 최대 우도는 주어진 데이터가 주어진 모수 아래에서 가장 가능성(우도)이 높은 값을 찾는 것을 목표로 한다.
우도 L 은 0가 전제되었을 때 표본 x 가 등장할 확률인 p(xl0)에 비례 한다.
오즈(Odds)
- 로지스틱 회귀분석을 사용하기 위해서는 '오즈' 라는 값을 사용한다.
- 오즈란, 성공할 확률이 실패할 확률의 몇배인지를 나타내는 값이다.
- 따라서 오즈를 사용하여 각 범주(진답)에 분류될 확률 값을 추정한다.
- 예를 들어, 4번의 성공과 1번의 실패를 경험했다면 오즈는 1회(실패) = 4회(성공) = 4 이다.
- 독립 변수 x 가 주어졌을때 성공확률을 p 라고 하면 실패 확률은 1-P 이다.
- 이때 오즈 값은 1-p 분의 p 이다.
- 로지스틱 회귀분석의 추정식으로부터 오즈값을 도출하면 아래의 식을 얻을 수 있다.
- 이는 독립변수 Xk 가 1만큼 증가할 때 E의 Bk 제곱만큼 오즈 값(성공확률) 이 증가함을 의미한다
로짓변환
오즈의 한계
1. 음수를 가질 수 없다.
2. 확률값과 오즈의 그래프는 비대칭성을 띤다.
- 위 한계를 극복하기 위해 오즈에 로그를 취한 것이 로짓(Logit) 이며, 이를 로짓 변환이라고 한다.
- 로짓 변환은 다음과 같이 정의된다.
- 오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프는 성공확률 0.5 를 기준으로 대칭 형태를 띠게 된다.
- 로짓 변환을 이용한 회구분석식은 다음과 같이 정의된다.
시그모이드 함수
- 시그모이드 함수는 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 함수 중 하나다.
- 로짓 함수와 역함수 관계이기 때문에 로짓함수를 통해 시그모이드 함수가 도출된다.
- 시그모이드 함수식은 다음과 같이 정의된다.