티스토리 뷰

나이브 베이즈 분류 

베이즈 이론 

  • 베이즈 이론은 확률을 해석하는 이론이다. 
  • 통계학에서 확률은 크게 빈도 확률과 베이지안 확률로 구분할 수 있다. 
  • 빈도 확률 : 
    - 사건이 발생한 횟수의 장기적인 비율을 의미하며 객관적으로 확률을 해석한다. 
    - 근본적으로 반복되는 어떤 사건의 빈도를 다루는 것으로, 모집단으로부터 반복적으로 표본을 추출했을 때 추출된 표본이 사건 A 에 포함되는 경향을 사건 A 의 확률 이라고 한다. 
  • 베이지안 확률 : 
    - 베이지안 확률을 주관적으로 확률을 해석한다. 
    - 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 데이터를 통해 확률을 추정할 때 현재 관측된 데이터의 빈도만으로 분석하는 것이 아니라 분석자의 사전 지식 까지 포함해 분석하는 방법이다. 
  • 베이즈 정리에서 확률은 '주장 혹은 믿음의 신뢰도'로 나타난다. 

 

나이브 베이즈 분류 

  • 나이브(naive) 라는 용어는 모든 특정(또는 변수) 이 서로 독립적이라고 가정한다는 것을 

 

K-NN (최근접 이웃법)

  • k-Nearest Neighborhood
  • 지도 학습 알고리즘 중 하나로, 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용된다. 
  • 새로운 데이터의 클래스(범주)를 해당 데이터와 가장 가까이 있는 k 개 데이터들의 클래스 (범주)로 결정한다.
  • k 는 이웃의 개수를 나타내며, 적절한 k 를 선택하는 것이 모델의 성능에 영향을 미친다. k 의 선택은 학습의 난이도와 데이터의 개수에 따라 결정될 수 있다. 
  • 일반적으로는 최적의 K 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다. 
  • K-NN 은 함수가 오직 지역적으로 근사하고 모든 계산이 분류될 때까지 연기되는 인스턴스 기반 학습이다. 
  • 작은 K 는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 K 는 모델의 결정 경계를 더 부드럽게 만든다. 
  • 고객의 구매 이력을 기반으로 하는 간단한 k-NN 의 예시 
    - 온라인 쇼핑몰에서 사용자의 과거 구매 이력을 바탕으로, 새로운 사용자의 선호 제품을 예측하고자 한다. 
  • 과정 
    1. 데이터 수집 :기존 사용자들의 과거 구매 이력을 수집 
    2. 학습 단계 : 각 사용자의 구매 이력을 이용하여 k-NN 모델 학습 
    3. 예측 단계 : 새로운 사용자가 특정 카테고리를 구매하려고 할 때, 해당 사용자와 가장 근접한 K 명의 이웃을 찾아서 이들의 마지막 구매 제품을 확인 

SVM, 서포트 벡터 머신 

  • Support Vector Machine, SVM 
  • 분류 및 회귀 분석을 위한 지도 학습 모델로 사용되는 강력한 알고리즘 이다. 특히 분류 성능이 뛰어나 분류 분석에 자주 사용된다. 
  • SVM 분류 모델은 데이터가 표현된 공간에서 분류를 위한 경계를 정의한다. 즉, 분류되지 않은 새로운 값이 입력되면 경계의 어느 쪽에 속하는지를 확인하여 분류 과제를 수행한다. 
  • 초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형 모델을 만든다. 
  • SVM 은 분류 할 때 가장 높은 마진을 가져가는 방향으로 분류한다. 마진이 크면 클수록 학습에 사용하지 않는 새로운 데이터가 들어오더라도 분류를 잘 할 가능성이 높기 때문이다. 
  • 일반적으로 SVM 은 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평면들의 집합으로 구성되어 있다. 초평면이 가장 가까운 데이터와 큰 차이를 가진다면 오차가 작아지기 때문에 좋은 분류를 위해서는 어떤 분류된 점에 대해서 가장 가까운 학습 데이터와 가장 먼 거리를 가지는 초평면을 찾아야 한다. 
  • 초평면 f(x) 는 wTx+b = 0 으로 나타낼 수 있다. 
  • SVM 은 높은 차원의 데이터셋에서도 잘 작동하며, 다양한 응용분야에서 사용된다. 주로 이미지 분류, 텍스트 분류, 손글씨 인식 등 다양한 분야에서 효과적으로 활용되고 있다. 

분류모형성과

오분류표와 평가 지표 

  • 대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용 된다. 
  • 분류 분석 성과 평가는 분류 분석 모형이 내놓은 답과 실제 정답이 어느 정도 일치하는지를 판단하는 것이기 때문에 일반적으로 정답과 예측값은 True / Fales , 0/1, Yes/No 등의 이진 분류 클래스 레이블을 갖는다. 
  • 분류 분석 후 예측한 값과 실제 값의 차이를 교차표 형태로 정리한 것을 오분류표 또는 컨퓨전 매트릭스라고 부른다. 
  • 오분류표는 분류오차의 정확한 추정치를 얻기 위해서 평가용(TEST) 데이터로부터 계산되어 얻은 표다. 훈련용 데이터를 활용한 오분류표는 과적합의 위험성이 존재하기 때문이다. 

 

TP(True Positive) : 예측한 값이 Positive 이고 실제 값도 Positive 인 경우

FP(False Positive) : 예측한 값이 Positive 이고 실제 값은 Negative 인 경우 

Tn(True Negative) : 예측한 값이 Negative 이고 실제 값도 Negative 인 경우 

FN(False Negative) : 예측한 값이 Negative 이고 실제 값은 Positive 인 경우 

 

오분류율(Error Rate) 전체 관

제일 많이 나왔던 부분

 

ROC 커브 

  • Receiver Operating Characteristic Curve 
  • 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프 
  • X축은 FPR(1-특이도) 값을 , y축은 TPR(민감도) 값을 갖는 그래프 
  • 이진 분류 (0또는 1) 모형의 성능을 평가하기 위해 사용 
  • ROC 곡선 아래의 면적을 의미하는 'AUROC(Area Under ROC)' 값이 크면 클수록 (=1에 가까울수록) 모형의 성능이 좋다고 평가한다. 
  • TPR (True Positive Rate) : 1인 케이스에 대한 1로 예측한 비율 
  • FPR( False Positive Rate) : 0 인 케이스에 대한 1로 잘못 예측한 비율 
  • AUROC 를 이요한 정확도의 판단 기준 
  •  

 

이익도표 

  • 이익도표 는 모델의 성능을 판단하기 위해 작성한 표이며, 이득곡선, 이득도표 라고도 부른다. 
  • 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다. 
  • 데이터셋의 목표범주에 속할 확률은 내림차순으로 정렬하여 데이터를 몇 개의 구간으로 나누어 각 구간에서의 성능을 판단하고, 기본 향상도에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도 라고 한다. 
  • 이익도표의 각 등급은 예측 확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다. 
  • 예측력 = (목표범주 그룹 1에 속한 데이터 개수) / (전체 데이터 개수) 
  • 향상도 = (반응률) / (예측력)
  • 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있다. 
  • 각 등급별로 향상도가 들쭉날죽하면 좋은 모형이라고 볼 수 없다. 

향상도 곡선 

  • 향상도 곡선 은 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지를 보여준다. 
  • 모델의 성과가 얼마나 향상되었는지 구간별로 파악 할 수 있다. 
  • 곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 도는 전략의 효과가 더 크다고 해석할 수 있다. 

'IT > ADsP 자격증' 카테고리의 다른 글

ADsP 군집분석 및 연관분석  (0) 2024.02.23
ADsP 앙상블 분석  (0) 2024.02.23
ADsP 의사결정 나무  (0) 2024.02.23
ADsP 분류 분석  (0) 2024.02.23
ADsp 데이터 마이닝  (2) 2024.02.23