티스토리 뷰
의사결정나무
- 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 의사결정이 진행되는 방식을 한 눈에 볼 수 있다.
- 상위 노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다.
- 하위노드에서 노드(집단) 내에서는 동질성이, 노드(집단) 간에는 이질성이 가장 커지도록 선택된다. 나무모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한다.
- 계산 결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편하다.
- 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 희귀나무 모형이 있다.
- 의사결정 나무는 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다.
의사결정 나무의 구성요소
- 뿌리마디 : 시작되는 마디로 전체 자료를 포함
- 자식마디 : 하나의 마디로부터 나온 2개 이상의 하위 마디들
- 부모마디 : 모든 자식마디의 바로 상위마디
- 끝마디 : 자식마디가 없는 최하위 마디
- 중간마디 : 부모마디와 자식마디가 모두 있는 마디
- 가지 : 뿌리마디부터 끝마디까지 연결된 마디들
- 깊이 : 뿌리마디부터 끝마디까지의 중간마디들의 수
의사결정 나무의 활용
1. 세분화 : 비슷한 특성을 갖는 몇 개의 그룹으로 분할하여 그룹별 특성을 발견하는 것
2. 분류 : 여러 독립변수들에 근거해 종속변수의 범주를 몇 개의 등급으로 분류
3. 예측 : 자료(데이터) 에서 규칙을 찾고 이를 미래 사건 예측에 활용
4. 차원 축소 및 변수 선택 :여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용하는 기법
5. 교호 작용
- 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악
- 범주의 병합 또는 연속형 변수의 이산화 : 범주형 종속변수의 범주를 소수의 몇 개로 병합하거나 연속형 종속 변수를 몇 개의 등급으로 이산화 하고자 하는 경우
의사결정 나무의 특징
의사결정나무 분석 과정
의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성 평가, 해석 및 예측으로 이루어진다.
1. 성장 단계
- 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단한다.
- 분리 규칙
- 분리 변수가 연속형인 경우 : A = Xj < s
- 분리 변수가 범주형{1,2,3,4} 인 경우 A = 1,2,4 와 Ac = 3 으로 나눌 수 있다. - 최적의 분할은 불순도 감소량을 가장 크게 하는 분할이다.
* 불순도란 ?
- 자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지를 나타내는 측도 분류가 잘 되어 하나의 범주로만 구성되어 있으면 불순도 값은 작고, 다양한 범주의 데이터로 구성되어 있으면 불순도 값은 크다.
분리기준 :
- 종속변수가 이산형일 경우
- 분류트리를 사용하며 분리 기준으로 카이제곱 검정, 지니 지수, 엔트로피 지수 등을 사용한다. - 종속변수가 연속형일 경우
- 회귀 트리르 사용하며, 분리 기준으로 분산분석에서의 F 통계량, 분산의 감소량 등을 사용 한다.
지니지수
- 노드의 불순도를 나타내는 값이다.
- 지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있따.
남자가 20명, 여자가 30명 있는 경우 지니지수를 구하면 ?
1 - { (20 / 50) ^2 + (30/50) ^2 }
엔트로피 지수
- 열역학에서 사용하는 개념으로 무질서 정도에 대한 측도이다.
- 값이 클수록 순수도가 낮다고 볼 수 있다.
- 엔트로피 지수가 가장 작은 예측 변수와 이때의 최적분리 규칙에 의해 자식마디를 형성한다.
엔트로피 지수 예제
동전 4개 중에 앞면이 나온 동전 3개, 뒷면이 나온 동전 1개가 있는 경우 엔트로피 지수는 ?
'IT > ADsP 자격증' 카테고리의 다른 글
ADsP 분류분석 (나이브 베이즈,K-NN알고리즘, 서포트벡터머신) (1) | 2024.02.23 |
---|---|
ADsP 앙상블 분석 (0) | 2024.02.23 |
ADsP 분류 분석 (0) | 2024.02.23 |
ADsp 데이터 마이닝 (2) | 2024.02.23 |
ADSP 시계열 분석 및 시계열 모형 (0) | 2024.02.22 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- 빅테크
- 방법론
- 프로덕트 매니저
- BA
- 그로스 해킹
- 프로덕트 분석가
- 북극성 지표
- ADsP
- 퍼포먼스 마케터
- 데이터 시각화
- 빅데이터
- 책 추천
- 데이터 분석가
- 아무일 없는것처럼
- 퍼포먼스 마케팅
- 알고리즘
- 데이터분석가
- PM
- 설레다
- 프로젝트 매니저
- 머신러닝
- A/B테스트
- 데이터 분석 주니어
- BI
- 기획자
- 데이터 분석가 주니어
- 통계학
- 데이터 분석
- 데이터 리터러시
- 아하 모먼트
- Total
- Today
- Yesterday