군집 분석 개념 군집분석은 각 개체에 대해 관측된 여러 개의 변수 (x1, x2, ... xp) 값들로부터 n 개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법이다. 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 객체들 간의유사성에만 기초하여 군집을 형성한다. 군집 분석은 이상값 탐지에도 사용되며, 심리학, 사회학, 경영학, 생물학 등 다양한 분야에 이용되고 있다. 생물학에서는 종의 분류, 마케팅에서는 고객 특성파악, 금융에서는 산업 분석 등에 활용되며 추천서비스가 등장하는 기반을 제공하였다. 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도한다...
나이브 베이즈 분류 베이즈 이론 베이즈 이론은 확률을 해석하는 이론이다. 통계학에서 확률은 크게 빈도 확률과 베이지안 확률로 구분할 수 있다. 빈도 확률 : - 사건이 발생한 횟수의 장기적인 비율을 의미하며 객관적으로 확률을 해석한다. - 근본적으로 반복되는 어떤 사건의 빈도를 다루는 것으로, 모집단으로부터 반복적으로 표본을 추출했을 때 추출된 표본이 사건 A 에 포함되는 경향을 사건 A 의 확률 이라고 한다. 베이지안 확률 : - 베이지안 확률을 주관적으로 확률을 해석한다. - 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 데이터를 통해 확률을 추정할 때 현재 관측된 데이터의 빈도만으로 분석하는 것이 아니라 분석자의 사전 지식 까지 포함해 분석하는 방법이다. 베이즈 정리에서 확률은 '주장 혹은 ..
앙상블 기법 프랑스어로 앙상블 은 '함께, 동시에' 라는 의미를 가지고 있다. 데이터 마이닝에서는 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법을 의미한다. 이러한 기법은 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있다. 대표적인 앙상블 기법에는 배깅(bagging), 부스팅(boosting), 랜덤 포레스트 (random forest)가 있따. 결과가 수치형 데이터인 경우에는 값들의 평균을 통해 최종 결과를 예측하고, 결과가 범주형 데이터인 경우에는 다수결 방식으로 최종 결과를 예측 한다. 배깅 배깅(bagging) 은 bootstrap aggregationg 의 준말로 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의 복원추출하여 각 표본(이를 붓스트랩 표본이라 함..
의사결정나무 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 의사결정이 진행되는 방식을 한 눈에 볼 수 있다. 상위 노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다. 하위노드에서 노드(집단) 내에서는 동질성이, 노드(집단) 간에는 이질성이 가장 커지도록 선택된다. 나무모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한다. 계산 결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편하다. 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 희귀나무 모형이 있다. 의사결정 나무는 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다. 의사결정..
[목차]01. 로지스틱 회귀분석 02. 의사결정나무03. 앙상블분석04.인공신경망 분석05. 그 외 다양한 분류분석06. 분류모형성 01. 로지스틱 회귀분석 분류 분석 - 분류 분석이란, 반응변수(또는 종속변수) 가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적입니다. 분류분석, 예측분석 공통점- 레코드의 특정 속성의 값을 미리 알아맞히는 점 분류 분석, 예측분석 차이점분류 : 레코드의 범주형 속성의 값을 알아 맞히는 것 - 예시 : 이메일의 내용, 제목으로 스팸여부 알아맞히는 것 예측 : 레코드의 연속형 속성의 값을 알아맞히는 것 예시 : 지역 특성, 인구 통계, 인프라 등을 통해 미래의 부동산 가격을 알아맞히는 것 많이 사용 되는 ..
[목차]더보기01. 데이터 마이닝 개요 02. 데이터마이닝을 위한 데이터 분할 데이터 마이닝 이란 ? 데이터 마이닝 이란 용어는 대부분 통계학자들과 데이터 베이스 학자들이 MIS 분야와 경영분야 등에서 사용하는 용어이다. 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이라고 할 수 있따. 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 예를 들어, 살마들은 "창문이 많은 집에는 도둑이 많다" 라는 말을 보험요율에 적용될 수 있으리라고 생각하지는 않았을 것이다. 실제로 영국의 한 보험회사는 이러한 사실을 이용하여 차별적인 보험요율을 적용함으로써, 보다 효과적인 정책을 수립하게 되어 기업 수익증대에 커다란 공헌을 하게 되었다. 창문과 도둑의 관..
[목차] 시계열 분석 시계열 모형 01. 시계열 분석더보기시계열 분석 개요를 살펴보고 개념과 방법 이해하기 시계열 분석이란? - 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다. 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석 방법이다. 주가 데이터, 환율 데이터, 월별 재고량 등이 시계열 자료에 해당한다. 시계열 자료의 자기상관성 - 시계열 자료들은 자기상관성을 가지고 있다. 인접한 자료들과 상호 연관성을 가진다는 의미다. - 공분산이 시계열 분석에서 중요한 이유는 시계열 자료의 자기상관성 때문이다. 확률변수의 흩어짐 정도를 의미하는 공분산이 어느 정도인지, 어느 정도의 상관성을 갖는지가 중요한 것이다. 시계열 분석의 자료 - 크게 정상성 시계열 자료의 비정상성 ..
기술 통계 자료의 특성을 표 , 그림, 통계량 등을 사용하여 쉽게 팡가할 수 있도록 정리/요약 하는것 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해 보며 분석에 대한 통찰력을 얻을 수 있다. 예시 이미지 상자그림 (상자수염 그림, Box Plot)더보기다섯 숫자 요약을 통해 그림으로 표현한 것 (최솟값, Q1, Q2, Q3, 최댓값) 보통 이상점 (Mild Qutlier) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료 극단 이상점 (Extreme Outlier) : 바깥 울타리 밖의 자료 종속 변수 (반응 변수, y)다른 변수의 영향을 받는 변수 어떤 실험이나 조사에서 변화의 결과로 나타나는 변수이며 이러한 변화는 독립변수들에 의해 영향을 받는다. 예시 : 학업 성정을 예측하고자 할 때..
탐색적 데이터 분석 (EDA : Exploratory Data Analysis) 이란, 데이터를 본격 분석하기 전에 데이터의 대략적인 특성을 파악하고 의미 있는 관계를 찾아내기 위해 다각도로 접근 하는 것을 의미 합니다. 더보기결측값 : 데이터셋에서 특정한 값이 없는 상태 더보기이상값 : 일반적인 데이터 분포에서 벗어나 있는 값으로 다른 데이터와 비교했을 때 통계적으로 불규칙한 값을 의미 데이터 분석 시 자주 사용하는 함수 head / tail시작 또는 마지막 6개 record 만 조회 head(,) 숫자를 넣어주면 원하는 개수만큼 확인 가능 summary수치형 변수 : 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수 명목형 변수 : 명목값, 데이터 개수 더보기명목형 변수란 ? ..
분석 마스터 플랜 수립 프레임 워크 마스터 플랜 수립 개요 분석 대상을 도출하고 우선순위를 평가하여 세부 이행 계획과 로드맵을 작성 분석 마스터 플랜을 수립하는 가장 첫 번째 단계는 우선 순위를 정하는 일이다. 우선순위는 전랸적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성을 기준으로 설정한다. 그 다음, 분석 과제를 업무에 내재화 할 것인지, 분석 데이터를 내부의 데이터로 한정할 것인지, 외부의 데이터 까지 포함할 것인지 여부, 그리고 기술의 적용 수준까지의 설정을 포함하여 분석 과제의 적용 범위 및 방식을 설정한다. 분석 과제의 우선순위와 적용 범위 및 방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵을 수립한다. 이러한 일련의 과정과 형식을 마스터플랜 수립 프레임워크라 부른다..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 설레다
- 프로젝트 매니저
- 데이터 분석가 주니어
- 데이터 분석
- 퍼포먼스 마케팅
- 아무일 없는것처럼
- 아하 모먼트
- PM
- ADsP
- 프로덕트 분석가
- 빅테크
- BA
- 데이터 시각화
- BI
- 퍼포먼스 마케터
- 프로덕트 매니저
- 기획자
- 데이터 분석 주니어
- 방법론
- 책 추천
- 데이터 분석가
- 데이터 리터러시
- 빅데이터
- 그로스 해킹
- 통계학
- 북극성 지표
- A/B테스트
- 머신러닝
- 알고리즘
- 데이터분석가
- Total
- Today
- Yesterday