티스토리 뷰

IT/ADsP 자격증

ADsP 의사결정 나무

루돌푸다요 2024. 2. 23. 19:41

의사결정나무 

  • 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 의사결정이 진행되는 방식을 한 눈에 볼 수 있다. 
  • 상위 노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다. 
  • 하위노드에서 노드(집단) 내에서는 동질성이, 노드(집단) 간에는 이질성이 가장 커지도록 선택된다. 나무모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한다. 
  • 계산 결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편하다. 
  • 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 희귀나무 모형이 있다. 
  • 의사결정 나무는 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다. 

의사결정 나무의 구성요소

 

  • 뿌리마디 : 시작되는 마디로 전체 자료를 포함 
  • 자식마디 : 하나의 마디로부터 나온 2개 이상의 하위 마디들 
  • 부모마디 : 모든 자식마디의 바로 상위마디 
  • 끝마디 : 자식마디가 없는 최하위 마디 
  • 중간마디 : 부모마디와 자식마디가 모두 있는 마디 
  • 가지 : 뿌리마디부터 끝마디까지 연결된 마디들 
  • 깊이 : 뿌리마디부터 끝마디까지의 중간마디들의 수 

 

의사결정 나무의 활용 

1. 세분화 : 비슷한 특성을 갖는 몇 개의 그룹으로 분할하여 그룹별 특성을 발견하는 것 

2. 분류 : 여러 독립변수들에 근거해 종속변수의 범주를 몇 개의 등급으로 분류 

3. 예측 : 자료(데이터) 에서 규칙을 찾고 이를 미래 사건 예측에 활용 

4. 차원 축소 및 변수 선택 :여러 독립변수들 중에서 종속변수에 큰 영향을 미치는 변수를 골라내는 경우 사용하는 기법 

5. 교호 작용

- 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악 

- 범주의 병합 또는 연속형 변수의 이산화 : 범주형 종속변수의 범주를 소수의 몇 개로 병합하거나 연속형 종속 변수를 몇 개의 등급으로 이산화 하고자 하는 경우 

 

의사결정 나무의 특징

의사 결정 나무의 특징

 

의사결정나무 분석 과정 

의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성 평가, 해석 및 예측으로 이루어진다. 

1. 성장 단계 

  • 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단한다. 
  • 분리 규칙 
    - 분리 변수가 연속형인 경우 : A = Xj < s 
    - 분리 변수가 범주형{1,2,3,4} 인 경우 A = 1,2,4 와 Ac = 3 으로 나눌 수 있다. 
  • 최적의 분할은 불순도 감소량을 가장 크게 하는 분할이다. 

* 불순도란 ? 

- 자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지를 나타내는 측도 분류가 잘 되어 하나의 범주로만 구성되어 있으면 불순도 값은 작고, 다양한 범주의 데이터로 구성되어 있으면 불순도 값은 크다. 

 

분리기준 :

  • 종속변수가 이산형일 경우 
    - 분류트리를 사용하며 분리 기준으로 카이제곱 검정, 지니 지수, 엔트로피 지수 등을 사용한다. 
  • 종속변수가 연속형일 경우 
    - 회귀 트리르 사용하며, 분리 기준으로 분산분석에서의 F 통계량, 분산의 감소량 등을 사용 한다. 

 

 

연속형 목표변수

 

지니지수 

  • 노드의 불순도를 나타내는 값이다. 
  • 지니지수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있따. 

지니지수 예제

남자가 20명, 여자가 30명 있는 경우 지니지수를 구하면 ? 
1 - { (20 / 50) ^2 + (30/50) ^2 } 

 

엔트로피 지수 

  • 열역학에서 사용하는 개념으로 무질서 정도에 대한 측도이다. 
  • 값이 클수록 순수도가 낮다고 볼 수 있다. 
  • 엔트로피 지수가 가장 작은 예측 변수와 이때의 최적분리 규칙에 의해 자식마디를 형성한다. 

 

엔트로피 지수 예제 

동전 4개 중에 앞면이 나온 동전 3개, 뒷면이 나온 동전 1개가 있는 경우 엔트로피 지수는 ?