ADsP 분류분석 (나이브 베이즈,K-NN알고리즘, 서포트벡터머신)

티스토리 뷰

IT/ADsP 자격증

ADsP 분류분석 (나이브 베이즈,K-NN알고리즘, 서포트벡터머신)

루돌푸다요 2024. 2. 23. 20:53

나이브 베이즈 분류

베이즈 이론

베이즈 이론은 확률을 해석하는 이론이다.
통계학에서 확률은 크게 빈도 확률과 베이지안 확률로 구분할 수 있다.
빈도 확률 :
- 사건이 발생한 횟수의 장기적인 비율을 의미하며 객관적으로 확률을 해석한다.
- 근본적으로 반복되는 어떤 사건의 빈도를 다루는 것으로, 모집단으로부터 반복적으로 표본을 추출했을 때 추출된 표본이 사건 A 에 포함되는 경향을 사건 A 의 확률 이라고 한다.
베이지안 확률 :
- 베이지안 확률을 주관적으로 확률을 해석한다.
- 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 데이터를 통해 확률을 추정할 때 현재 관측된 데이터의 빈도만으로 분석하는 것이 아니라 분석자의 사전 지식 까지 포함해 분석하는 방법이다.
베이즈 정리에서 확률은 '주장 혹은 믿음의 신뢰도'로 나타난다.

나이브 베이즈 분류

나이브(naive) 라는 용어는 모든 특정(또는 변수) 이 서로 독립적이라고 가정한다는 것을

K-NN (최근접 이웃법)

k-Nearest Neighborhood
지도 학습 알고리즘 중 하나로, 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용된다.
새로운 데이터의 클래스(범주)를 해당 데이터와 가장 가까이 있는 k 개 데이터들의 클래스 (범주)로 결정한다.
k 는 이웃의 개수를 나타내며, 적절한 k 를 선택하는 것이 모델의 성능에 영향을 미친다. k 의 선택은 학습의 난이도와 데이터의 개수에 따라 결정될 수 있다.
일반적으로는 최적의 K 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.
K-NN 은 함수가 오직 지역적으로 근사하고 모든 계산이 분류될 때까지 연기되는 인스턴스 기반 학습이다.
작은 K 는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 K 는 모델의 결정 경계를 더 부드럽게 만든다.
고객의 구매 이력을 기반으로 하는 간단한 k-NN 의 예시
- 온라인 쇼핑몰에서 사용자의 과거 구매 이력을 바탕으로, 새로운 사용자의 선호 제품을 예측하고자 한다.
과정
1. 데이터 수집 :기존 사용자들의 과거 구매 이력을 수집
2. 학습 단계 : 각 사용자의 구매 이력을 이용하여 k-NN 모델 학습
3. 예측 단계 : 새로운 사용자가 특정 카테고리를 구매하려고 할 때, 해당 사용자와 가장 근접한 K 명의 이웃을 찾아서 이들의 마지막 구매 제품을 확인

SVM, 서포트 벡터 머신

Support Vector Machine, SVM
분류 및 회귀 분석을 위한 지도 학습 모델로 사용되는 강력한 알고리즘 이다. 특히 분류 성능이 뛰어나 분류 분석에 자주 사용된다.
SVM 분류 모델은 데이터가 표현된 공간에서 분류를 위한 경계를 정의한다. 즉, 분류되지 않은 새로운 값이 입력되면 경계의 어느 쪽에 속하는지를 확인하여 분류 과제를 수행한다.
초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형 모델을 만든다.
SVM 은 분류 할 때 가장 높은 마진을 가져가는 방향으로 분류한다. 마진이 크면 클수록 학습에 사용하지 않는 새로운 데이터가 들어오더라도 분류를 잘 할 가능성이 높기 때문이다.
일반적으로 SVM 은 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평면들의 집합으로 구성되어 있다. 초평면이 가장 가까운 데이터와 큰 차이를 가진다면 오차가 작아지기 때문에 좋은 분류를 위해서는 어떤 분류된 점에 대해서 가장 가까운 학습 데이터와 가장 먼 거리를 가지는 초평면을 찾아야 한다.
초평면 f(x) 는 wTx+b = 0 으로 나타낼 수 있다.
SVM 은 높은 차원의 데이터셋에서도 잘 작동하며, 다양한 응용분야에서 사용된다. 주로 이미지 분류, 텍스트 분류, 손글씨 인식 등 다양한 분야에서 효과적으로 활용되고 있다.

분류모형성과

오분류표와 평가 지표

대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용 된다.
분류 분석 성과 평가는 분류 분석 모형이 내놓은 답과 실제 정답이 어느 정도 일치하는지를 판단하는 것이기 때문에 일반적으로 정답과 예측값은 True / Fales , 0/1, Yes/No 등의 이진 분류 클래스 레이블을 갖는다.
분류 분석 후 예측한 값과 실제 값의 차이를 교차표 형태로 정리한 것을 오분류표 또는 컨퓨전 매트릭스라고 부른다.
오분류표는 분류오차의 정확한 추정치를 얻기 위해서 평가용(TEST) 데이터로부터 계산되어 얻은 표다. 훈련용 데이터를 활용한 오분류표는 과적합의 위험성이 존재하기 때문이다.

TP(True Positive) : 예측한 값이 Positive 이고 실제 값도 Positive 인 경우

FP(False Positive) : 예측한 값이 Positive 이고 실제 값은 Negative 인 경우

Tn(True Negative) : 예측한 값이 Negative 이고 실제 값도 Negative 인 경우

FN(False Negative) : 예측한 값이 Negative 이고 실제 값은 Positive 인 경우

오분류율(Error Rate) 전체 관

ROC 커브

Receiver Operating Characteristic Curve
분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
X축은 FPR(1-특이도) 값을 , y축은 TPR(민감도) 값을 갖는 그래프
이진 분류 (0또는 1) 모형의 성능을 평가하기 위해 사용
ROC 곡선 아래의 면적을 의미하는 'AUROC(Area Under ROC)' 값이 크면 클수록 (=1에 가까울수록) 모형의 성능이 좋다고 평가한다.
TPR (True Positive Rate) : 1인 케이스에 대한 1로 예측한 비율
FPR( False Positive Rate) : 0 인 케이스에 대한 1로 잘못 예측한 비율
AUROC 를 이요한 정확도의 판단 기준

이익도표

이익도표 는 모델의 성능을 판단하기 위해 작성한 표이며, 이득곡선, 이득도표 라고도 부른다.
얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.
데이터셋의 목표범주에 속할 확률은 내림차순으로 정렬하여 데이터를 몇 개의 구간으로 나누어 각 구간에서의 성능을 판단하고, 기본 향상도에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도 라고 한다.
이익도표의 각 등급은 예측 확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.
예측력 = (목표범주 그룹 1에 속한 데이터 개수) / (전체 데이터 개수)
향상도 = (반응률) / (예측력)
등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있다.
각 등급별로 향상도가 들쭉날죽하면 좋은 모형이라고 볼 수 없다.

향상도 곡선

향상도 곡선 은 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지를 보여준다.
모델의 성과가 얼마나 향상되었는지 구간별로 파악 할 수 있다.
곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 도는 전략의 효과가 더 크다고 해석할 수 있다.

'IT > ADsP 자격증' 카테고리의 다른 글

ADsP 군집분석 및 연관분석 (0)	2024.02.23
ADsP 앙상블 분석 (0)	2024.02.23
ADsP 의사결정 나무 (0)	2024.02.23
ADsP 분류 분석 (0)	2024.02.23
ADsp 데이터 마이닝 (2)	2024.02.23

공지사항

첫번째 공지 입니다 ! 앞으로의 방향성

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

TAG more

Total

Today

Yesterday

RudolpiA

티스토리 뷰

ADsP 분류분석 (나이브 베이즈,K-NN알고리즘, 서포트벡터머신)

나이브 베이즈 분류

베이즈 이론

나이브 베이즈 분류

K-NN (최근접 이웃법)

분류모형성과

오분류표와 평가 지표

ROC 커브

이익도표

향상도 곡선

'IT > ADsP 자격증' 카테고리의 다른 글

티스토리툴바