티스토리 뷰
군집 분석 개념
- 군집분석은 각 개체에 대해 관측된 여러 개의 변수 (x1, x2, ... xp) 값들로부터 n 개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법이다.
- 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 객체들 간의유사성에만 기초하여 군집을 형성한다. 군집 분석은 이상값 탐지에도 사용되며, 심리학, 사회학, 경영학, 생물학 등 다양한 분야에 이용되고 있다.
- 생물학에서는 종의 분류, 마케팅에서는 고객 특성파악, 금융에서는 산업 분석 등에 활용되며 추천서비스가 등장하는 기반을 제공하였다.
- 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도한다.
- 군집분석의 평가 지표로는 계수가 사용되는데, 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단하나다.
- 군집분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 하는데, 거리측도로는 유클리안 거리, 맨하튼 거리 등이 있고 유사성 측도로는 코사인 거리와 상관계수가 있따. 거리가 가까울수록 유사성이 크다.
거리 측도 - 연속형 변수인 경우
유클리디안 거리
- 두점 사이의 거리를 계산할 때 가장 많이 사용하는 계산 방법이다.
- 두 점 사이의 가장 짧은 거리를 계산한다.
- 통계적 개념이 포함되어 있지 않아 변수들의 산포 정도를 감안하지 않는다.
맨하튼거리
- 유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하튼 도시에서 건물에서 건물을 가기 위한 최단거리를 구하기 위해 고안된 거리다.
- 두 점사이를 가로지르지 않고 길을 따라 갔을 때의 거리
- 사거리라고도 표현하며, 도시에서 최단거리를 움직이듯 변수들의 차이의 단순합으로 계산한 거리다.
계층적 군집분석 개념
- 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
- 계층적군집을 형성하는 방법
-작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법
한개의 항목으로 시작하여 군집을 형성해 나가는 매 단계마다 모든 그룹 쌍 간의 거리를 계산하여 가까운 순으로 병합을 수행한다. 이 과정을 한 개 그룹만 남을때 까지 혹은 종료의 조건이 될때까지 반복한다. 여기에서 그룹 혹은 항목 간의 상대적 거리가 가까울수록 유사성이 높다고 말할수 있다. - 계층적 군집의 결과는 아래 이미지와 같이 덴드로그램의 형태로 표현된다. 이 구조를 통해서 항목 간의 거리, 군집 간의 거리를 알 수 있고 군집 내의 항목 간 유사정도를 파악함으로써 군집의 견고성을 해석할 수 있다.
- 군집 간의 거리
- 최단연결법 : 두 군집 사이의 거리를 각 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최소값으로 측정한다. 최단거리를 사용할 때 사슬 모양으로 생길 수 있으며, 고립된 군집을 찾는데 중점을 둔 방법이다. 대부분 관측치가 멀리 떨어져 있어도 하나의 관측치만 다른 군집과 가까이 있으면 병합이 가능하다.
- 최장연결법 : 완전 연결법이라고도 하며 두 군집 사이의 거리를 각 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최대값으로 측정한다. 같은 군집에 속하는 관측치는 알려진 최대거리보다 짧으며, 군집들의 내부 응집성에 중점을 둔 방법이다.
- 중심연결법 : 두 군집의 중심 간의 거리를 측정한다. 두 군집이 결합될 때 새로운 군집의 평균은 가중평균을 통해 구해진다.
- 평균연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집화를 하기 때문에 계산량이 불필요하게 많아질 수 있다. 단일 연결법과 최장연결법보다 이상치에 덜 민감하다.
- 와드연결법 : 군집 간의 거리에 기반하는 다른 연결 법과는 달리 군집 내의 오차 제곱합에 기초하여 군집을 수행한다. 보통 두 군집이 합해지면 병합된 군집의 오차 제곱합은 병합 이전 각 군집의 오차 제곱합의 합보다 커지게 되는데, 그 증가량이 가장 작아지는 방향으로 군집을 형성해 나가는 방법이다. 와드 연결법은 크기가 비슷한 군집끼리 병합하는 경향이 있다.
비계층적 군집분석 이란 ?
- 계층적으로 군집을 형성하지 않고 구하고자 하는 군집의 수를 사전에 정의해 정해진 군집의 수만큼 형성하는 방법이다.
- 데이터 간 거리행렬을 사용하여 분석을 수행하지 않으며 원하는 군집의 수 (K) 의 초깃값을 설정하고 분석을 수행한다.
k - means 군집 (k-평균군집)
- 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화 하는 방식으로 동작한다.
- 군집의 수(k)를 먼저 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k 개의 군집으로 분할한다.
k-means 군집 방법
- 원하는 군집의 개수와 초기값(seed) 들을 정해 seed 중심으로 군집을 형성한다.
- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 할당한다.
- 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed 를 설정한다.
- 새로운 seed 를 중심으로 군집을 재할당 한다.
- 모든 개체가 군집으로 할당될 때 까지 위 과정들을 반복한다. (3,4 번 과정 반복)
DBSCAN
- Density Based Spatial Clustering of Applications with Noise
- 대부분의 군집분석 알고리즘은 개체 간의 거리를 기반으로 군집을 형성하기 때문에 데이터의 분포가 볼록하지 않은 경우 효과적으로 군집을 형성하지 못하는 경우가 많았다.
- DBSCAN 알고리즘은 밀도 기반 군집분석의 한 방법으로 개체 간의 거리에 기반을 둔 다른 군집 방법 알고리즘과 다르게 개체들이 밀접한 정도에 기초해 군집을 형성한다.
- DBSCAN 알고리즘은 k-means 알고리즘과 달리 군집의 형태에 구애받지 않아 데이터의 분포가 기하학적이고 노이즈가 포함된 데이터셋에 대해서도 효과적으로 군집을 형성할 수 있고, 초기 군집의 수를 설정할 필요가 없다.
EM 알고리즘
- Expectation-Maximization, 기댓값 최대화
- EM 알고리즘은 확률모델의 최대가능도(Likelihood)를 갖는 모수와 함께 그 확률모델의 가중치를 추정하고자 한다.
- 각데이터가 어느 분포에서 추출된 데이터인지 각 집단(잠재변수,Z) 으로부터 기댓값을 구할 수 있다. 이때 추정된 기댓값을 활용하여 로그-가능도 함수가 최대로 되게 하는 모수를 찾을 수 있다.
- 알고리즘으로 두 가지 단계 로 구성되어 있다.
EM 알고리즘 진행 과정
자기조직화지도 개념
- SOM 알고리즘은 코호넨에 의해 개발되었으며 코호넨 맵이라고도 불린다.
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 한다. 이러한 형상화는 입력 변수의 위치관계를 그대로 보존한다는 특징이 있다.
- 다시 말해 실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 된다. 이러한 SOM 의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
- SOM 알고리즘은 복잡한 데이터의 차원축소와 유사한 데이터의 군집화를 동시에 수행할 수 있는 알고리즘이다.
- SOM 모델은 두 개의 인공신경망 층으로 구성되어 있으며 하나는 입력벡터를 받는 입력층, 다른 하나는 2차원 격차로 구성된 경쟁층이다.
연관분석의 측도
연관분석을 하면 무수히 많은 연관규칙이 생성되는데, 모든 연관규칙이 유용하지는 않으므로 측도를 통해 이 규칙들이 유의미한지 확인해야 합니다. 도출된 연관규칙이 얼마나 유의미한지 평가하기 위한 측정지표로는 지지도, 신뢰도, 향상도가 있습니다.
지지도
- 전체 거래 중에서 A와 B 항목을 동시에 포함하는 거래의 비율이다.
- 지지도가 높다는 것은 두 항목이 같이 잘 팔린다는 것을 의미한다.
신뢰도
- 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률
- A가 구매되었을 때 B가 구매될 확률인 신뢰도 (A->B)와, B가 구매되었을 때 A가 구매될 확률인 신뢰도 (B->A)는 다르다.
- 신뢰도 (A->B)
향상도
- 품목 A가 주어지지 않았을 때 품목B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B 가 구매될 확률
- 신뢰도와 달리 향상도 (A->B)와 향상도 (B->A)는 같다.
'IT > ADsP 자격증' 카테고리의 다른 글
ADsP 분류분석 (나이브 베이즈,K-NN알고리즘, 서포트벡터머신) (1) | 2024.02.23 |
---|---|
ADsP 앙상블 분석 (0) | 2024.02.23 |
ADsP 의사결정 나무 (0) | 2024.02.23 |
ADsP 분류 분석 (0) | 2024.02.23 |
ADsp 데이터 마이닝 (2) | 2024.02.23 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- BA
- 데이터 시각화
- 데이터 분석가
- 기획자
- 아무일 없는것처럼
- 데이터 분석가 주니어
- 데이터 리터러시
- 퍼포먼스 마케터
- 데이터분석가
- ADsP
- 방법론
- 프로덕트 분석가
- 머신러닝
- 북극성 지표
- 설레다
- PM
- 데이터 분석 주니어
- 빅테크
- 프로젝트 매니저
- 아하 모먼트
- 빅데이터
- 그로스 해킹
- BI
- A/B테스트
- 퍼포먼스 마케팅
- 프로덕트 매니저
- 알고리즘
- 데이터 분석
- 책 추천
- 통계학
- Total
- Today
- Yesterday