티스토리 뷰
나이브 베이즈 분류
베이즈 이론
- 베이즈 이론은 확률을 해석하는 이론이다.
- 통계학에서 확률은 크게 빈도 확률과 베이지안 확률로 구분할 수 있다.
- 빈도 확률 :
- 사건이 발생한 횟수의 장기적인 비율을 의미하며 객관적으로 확률을 해석한다.
- 근본적으로 반복되는 어떤 사건의 빈도를 다루는 것으로, 모집단으로부터 반복적으로 표본을 추출했을 때 추출된 표본이 사건 A 에 포함되는 경향을 사건 A 의 확률 이라고 한다. - 베이지안 확률 :
- 베이지안 확률을 주관적으로 확률을 해석한다.
- 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 데이터를 통해 확률을 추정할 때 현재 관측된 데이터의 빈도만으로 분석하는 것이 아니라 분석자의 사전 지식 까지 포함해 분석하는 방법이다. - 베이즈 정리에서 확률은 '주장 혹은 믿음의 신뢰도'로 나타난다.
나이브 베이즈 분류
- 나이브(naive) 라는 용어는 모든 특정(또는 변수) 이 서로 독립적이라고 가정한다는 것을
K-NN (최근접 이웃법)
- k-Nearest Neighborhood
- 지도 학습 알고리즘 중 하나로, 데이터 포인트의 근접 이웃을 활용하여 분류 또는 회귀 문제를 해결하는 데 사용된다.
- 새로운 데이터의 클래스(범주)를 해당 데이터와 가장 가까이 있는 k 개 데이터들의 클래스 (범주)로 결정한다.
- k 는 이웃의 개수를 나타내며, 적절한 k 를 선택하는 것이 모델의 성능에 영향을 미친다. k 의 선택은 학습의 난이도와 데이터의 개수에 따라 결정될 수 있다.
- 일반적으로는 최적의 K 값을 찾기 위해 총 데이터들의 제곱근 값을 사용한다.
- K-NN 은 함수가 오직 지역적으로 근사하고 모든 계산이 분류될 때까지 연기되는 인스턴스 기반 학습이다.
- 작은 K 는 모델이 데이터의 노이즈에 민감하게 반응하게 하고, 큰 K 는 모델의 결정 경계를 더 부드럽게 만든다.
- 고객의 구매 이력을 기반으로 하는 간단한 k-NN 의 예시
- 온라인 쇼핑몰에서 사용자의 과거 구매 이력을 바탕으로, 새로운 사용자의 선호 제품을 예측하고자 한다. - 과정
1. 데이터 수집 :기존 사용자들의 과거 구매 이력을 수집
2. 학습 단계 : 각 사용자의 구매 이력을 이용하여 k-NN 모델 학습
3. 예측 단계 : 새로운 사용자가 특정 카테고리를 구매하려고 할 때, 해당 사용자와 가장 근접한 K 명의 이웃을 찾아서 이들의 마지막 구매 제품을 확인
SVM, 서포트 벡터 머신
- Support Vector Machine, SVM
- 분류 및 회귀 분석을 위한 지도 학습 모델로 사용되는 강력한 알고리즘 이다. 특히 분류 성능이 뛰어나 분류 분석에 자주 사용된다.
- SVM 분류 모델은 데이터가 표현된 공간에서 분류를 위한 경계를 정의한다. 즉, 분류되지 않은 새로운 값이 입력되면 경계의 어느 쪽에 속하는지를 확인하여 분류 과제를 수행한다.
- 초평면을 이용하여 카테고리를 나누어 비확률적 이진 선형 모델을 만든다.
- SVM 은 분류 할 때 가장 높은 마진을 가져가는 방향으로 분류한다. 마진이 크면 클수록 학습에 사용하지 않는 새로운 데이터가 들어오더라도 분류를 잘 할 가능성이 높기 때문이다.
- 일반적으로 SVM 은 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평면들의 집합으로 구성되어 있다. 초평면이 가장 가까운 데이터와 큰 차이를 가진다면 오차가 작아지기 때문에 좋은 분류를 위해서는 어떤 분류된 점에 대해서 가장 가까운 학습 데이터와 가장 먼 거리를 가지는 초평면을 찾아야 한다.
- 초평면 f(x) 는 wTx+b = 0 으로 나타낼 수 있다.
- SVM 은 높은 차원의 데이터셋에서도 잘 작동하며, 다양한 응용분야에서 사용된다. 주로 이미지 분류, 텍스트 분류, 손글씨 인식 등 다양한 분야에서 효과적으로 활용되고 있다.
분류모형성과
오분류표와 평가 지표
- 대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용 된다.
- 분류 분석 성과 평가는 분류 분석 모형이 내놓은 답과 실제 정답이 어느 정도 일치하는지를 판단하는 것이기 때문에 일반적으로 정답과 예측값은 True / Fales , 0/1, Yes/No 등의 이진 분류 클래스 레이블을 갖는다.
- 분류 분석 후 예측한 값과 실제 값의 차이를 교차표 형태로 정리한 것을 오분류표 또는 컨퓨전 매트릭스라고 부른다.
- 오분류표는 분류오차의 정확한 추정치를 얻기 위해서 평가용(TEST) 데이터로부터 계산되어 얻은 표다. 훈련용 데이터를 활용한 오분류표는 과적합의 위험성이 존재하기 때문이다.
TP(True Positive) : 예측한 값이 Positive 이고 실제 값도 Positive 인 경우
FP(False Positive) : 예측한 값이 Positive 이고 실제 값은 Negative 인 경우
Tn(True Negative) : 예측한 값이 Negative 이고 실제 값도 Negative 인 경우
FN(False Negative) : 예측한 값이 Negative 이고 실제 값은 Positive 인 경우
오분류율(Error Rate) 전체 관
ROC 커브
- Receiver Operating Characteristic Curve
- 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
- X축은 FPR(1-특이도) 값을 , y축은 TPR(민감도) 값을 갖는 그래프
- 이진 분류 (0또는 1) 모형의 성능을 평가하기 위해 사용
- ROC 곡선 아래의 면적을 의미하는 'AUROC(Area Under ROC)' 값이 크면 클수록 (=1에 가까울수록) 모형의 성능이 좋다고 평가한다.
- TPR (True Positive Rate) : 1인 케이스에 대한 1로 예측한 비율
- FPR( False Positive Rate) : 0 인 케이스에 대한 1로 잘못 예측한 비율
- AUROC 를 이요한 정확도의 판단 기준
이익도표
- 이익도표 는 모델의 성능을 판단하기 위해 작성한 표이며, 이득곡선, 이득도표 라고도 부른다.
- 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.
- 데이터셋의 목표범주에 속할 확률은 내림차순으로 정렬하여 데이터를 몇 개의 구간으로 나누어 각 구간에서의 성능을 판단하고, 기본 향상도에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도 라고 한다.
- 이익도표의 각 등급은 예측 확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.
- 예측력 = (목표범주 그룹 1에 속한 데이터 개수) / (전체 데이터 개수)
- 향상도 = (반응률) / (예측력)
- 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있다.
- 각 등급별로 향상도가 들쭉날죽하면 좋은 모형이라고 볼 수 없다.
향상도 곡선
- 향상도 곡선 은 누적 반응률이 전체 데이터 대비 얼마나 향상되었는지를 보여준다.
- 모델의 성과가 얼마나 향상되었는지 구간별로 파악 할 수 있다.
- 곡선이 기울어질수록(큰 값에서 시작 후 급격히 감소) 모델 도는 전략의 효과가 더 크다고 해석할 수 있다.
'IT > ADsP 자격증' 카테고리의 다른 글
ADsP 군집분석 및 연관분석 (0) | 2024.02.23 |
---|---|
ADsP 앙상블 분석 (0) | 2024.02.23 |
ADsP 의사결정 나무 (0) | 2024.02.23 |
ADsP 분류 분석 (0) | 2024.02.23 |
ADsp 데이터 마이닝 (2) | 2024.02.23 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- 책 추천
- 데이터 분석가
- 데이터 분석 주니어
- ADsP
- 프로덕트 매니저
- 데이터 리터러시
- 프로젝트 매니저
- A/B테스트
- 머신러닝
- 퍼포먼스 마케터
- 데이터 분석
- 북극성 지표
- 기획자
- 데이터 분석가 주니어
- 데이터분석가
- 빅데이터
- 아무일 없는것처럼
- 프로덕트 분석가
- 설레다
- 아하 모먼트
- 방법론
- 데이터 시각화
- 빅테크
- 퍼포먼스 마케팅
- 알고리즘
- BI
- 통계학
- BA
- 그로스 해킹
- PM
- Total
- Today
- Yesterday