![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/CboXE/btsFhh1H0wy/pOJu0NZ1yK4JOKYAD0TyX0/img.png)
의사결정나무 나무(Tree) 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 의사결정이 진행되는 방식을 한 눈에 볼 수 있다. 상위 노드로부터 하위노드로 나무 구조를 형성하는 매 단계마다 분류변수와 분류기준값의 선택이 중요하다. 하위노드에서 노드(집단) 내에서는 동질성이, 노드(집단) 간에는 이질성이 가장 커지도록 선택된다. 나무모형의 크기는 과대적합(또는 과소적합) 되지 않도록 합리적 기준에 의해 적당히 조절되어야 한다. 계산 결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편하다. 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 희귀나무 모형이 있다. 의사결정 나무는 종속변수가 연속형인 회귀나무와 종속변수가 이산형인 분류나무로 구분된다. 의사결정..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/zyxoa/btsFgOk8FmQ/XoKIvptfsp1q3yTTPhSpi0/img.png)
[목차]01. 로지스틱 회귀분석 02. 의사결정나무03. 앙상블분석04.인공신경망 분석05. 그 외 다양한 분류분석06. 분류모형성 01. 로지스틱 회귀분석 분류 분석 - 분류 분석이란, 반응변수(또는 종속변수) 가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적입니다. 분류분석, 예측분석 공통점- 레코드의 특정 속성의 값을 미리 알아맞히는 점 분류 분석, 예측분석 차이점분류 : 레코드의 범주형 속성의 값을 알아 맞히는 것 - 예시 : 이메일의 내용, 제목으로 스팸여부 알아맞히는 것 예측 : 레코드의 연속형 속성의 값을 알아맞히는 것 예시 : 지역 특성, 인구 통계, 인프라 등을 통해 미래의 부동산 가격을 알아맞히는 것 많이 사용 되는 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bD9Gq7/btsFgrXOlox/b89qlO9GX03biSvUDyCkg0/img.png)
[목차]더보기01. 데이터 마이닝 개요 02. 데이터마이닝을 위한 데이터 분할 데이터 마이닝 이란 ? 데이터 마이닝 이란 용어는 대부분 통계학자들과 데이터 베이스 학자들이 MIS 분야와 경영분야 등에서 사용하는 용어이다. 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이라고 할 수 있따. 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 예를 들어, 살마들은 "창문이 많은 집에는 도둑이 많다" 라는 말을 보험요율에 적용될 수 있으리라고 생각하지는 않았을 것이다. 실제로 영국의 한 보험회사는 이러한 사실을 이용하여 차별적인 보험요율을 적용함으로써, 보다 효과적인 정책을 수립하게 되어 기업 수익증대에 커다란 공헌을 하게 되었다. 창문과 도둑의 관..
[목차] 시계열 분석 시계열 모형 01. 시계열 분석더보기시계열 분석 개요를 살펴보고 개념과 방법 이해하기 시계열 분석이란? - 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다. 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석 방법이다. 주가 데이터, 환율 데이터, 월별 재고량 등이 시계열 자료에 해당한다. 시계열 자료의 자기상관성 - 시계열 자료들은 자기상관성을 가지고 있다. 인접한 자료들과 상호 연관성을 가진다는 의미다. - 공분산이 시계열 분석에서 중요한 이유는 시계열 자료의 자기상관성 때문이다. 확률변수의 흩어짐 정도를 의미하는 공분산이 어느 정도인지, 어느 정도의 상관성을 갖는지가 중요한 것이다. 시계열 분석의 자료 - 크게 정상성 시계열 자료의 비정상성 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/chnxYI/btsFcAGECvc/AdnGdrI8RBcVtviZNF6400/img.png)
기술 통계 자료의 특성을 표 , 그림, 통계량 등을 사용하여 쉽게 팡가할 수 있도록 정리/요약 하는것 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해 보며 분석에 대한 통찰력을 얻을 수 있다. 예시 이미지 상자그림 (상자수염 그림, Box Plot)더보기다섯 숫자 요약을 통해 그림으로 표현한 것 (최솟값, Q1, Q2, Q3, 최댓값) 보통 이상점 (Mild Qutlier) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료 극단 이상점 (Extreme Outlier) : 바깥 울타리 밖의 자료 종속 변수 (반응 변수, y)다른 변수의 영향을 받는 변수 어떤 실험이나 조사에서 변화의 결과로 나타나는 변수이며 이러한 변화는 독립변수들에 의해 영향을 받는다. 예시 : 학업 성정을 예측하고자 할 때..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dm9CeP/btsE91FoUua/BlxyBzwDLKT82pKY0kCqBk/img.png)
탐색적 데이터 분석 (EDA : Exploratory Data Analysis) 이란, 데이터를 본격 분석하기 전에 데이터의 대략적인 특성을 파악하고 의미 있는 관계를 찾아내기 위해 다각도로 접근 하는 것을 의미 합니다. 더보기결측값 : 데이터셋에서 특정한 값이 없는 상태 더보기이상값 : 일반적인 데이터 분포에서 벗어나 있는 값으로 다른 데이터와 비교했을 때 통계적으로 불규칙한 값을 의미 데이터 분석 시 자주 사용하는 함수 head / tail시작 또는 마지막 6개 record 만 조회 head(,) 숫자를 넣어주면 원하는 개수만큼 확인 가능 summary수치형 변수 : 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수 명목형 변수 : 명목값, 데이터 개수 더보기명목형 변수란 ? ..
정합 Alignment : 방향성, 리더십, 문화 분위기 ) 구성원들이 조직의 비전, 전략 ,가치를 중심으로 정렬(Align) 돼 있는가 ? 실행 (Execution : 책임소재, 조율 ,통제 , 역량, 동기부여 ) 조직 구조 ,프로세스 ,역량 ,동기부여 수준이 실행력을 담보하는가 ? 변화적응 혁신 (Renewal : 외부 지향성, 혁신 학습 ) 조직이 외부 환경 변화를 잘 파악하고 상호작용하며, 변화에 적절히 대응하는가? 포인트는 무엇을 개선하며, 어떻게 개선하는가다. 현재가 아닌 미래를 기준으로 개선 목표를 설정하고, 2~3개의 우선순위 영역에 집중해야 한다. 그리고 목표 달성을 위해 1. 전사적 소통을 통한 공감대와 확신의 형성 2. 리더의 롤모델링 3.조직 역량과 스킬강화 4. 목표 관리 체계와 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/9IVeM/btsE3qk6UNS/m4Bu7TGYikRYUwYqejB1j0/img.png)
분석 마스터 플랜 수립 프레임 워크 마스터 플랜 수립 개요 분석 대상을 도출하고 우선순위를 평가하여 세부 이행 계획과 로드맵을 작성 분석 마스터 플랜을 수립하는 가장 첫 번째 단계는 우선 순위를 정하는 일이다. 우선순위는 전랸적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성을 기준으로 설정한다. 그 다음, 분석 과제를 업무에 내재화 할 것인지, 분석 데이터를 내부의 데이터로 한정할 것인지, 외부의 데이터 까지 포함할 것인지 여부, 그리고 기술의 적용 수준까지의 설정을 포함하여 분석 과제의 적용 범위 및 방식을 설정한다. 분석 과제의 우선순위와 적용 범위 및 방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵을 수립한다. 이러한 일련의 과정과 형식을 마스터플랜 수립 프레임워크라 부른다..
해결해야 할 문제, 분석 대상이 무엇인지 알고 분석 방법도 알고 있다면 '최적화'분석 대상이 무엇인지 알고 있지만 방법을 모른다면 '솔루션' 분석 대상이 무엇인지 모르고 분석 방법도 모른다면, 분석 대상 자체를 새롭게 도출하는 '발견'분석 대상이 무엇인지 모르지만 분석 방법은 알고 있다면 '통찰력' 목표 시점별 분석 기획 과제 중심적인 접근 방식 : 과제를 빠르게 해결해야 하는 경우 장기적인 마스터플랜 방식 : 지속적인 분석 내재화를 위한 경우 당면한 분석 주제의 해결(과제 단위)지속적 분석 문화 내재화(마스터 플랜 단위)1차 목표 Speed & Test Accuracy & Deploy과제 유형 Quick & win Long Term View접근 방식 problem SolvingProblem Defin..
가트너그룹(Gartner Group)의 더그래니(Doun Laney) 의 정의 3V 빅데이터는 데이터의 양 (Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity) 가 급격히 증가하면서 나타난 현상이다. 빅데이터의 새로운 특징 4V 더그 래니의 3V 에 추가로 Value(가치) 또는 Veracity(정확성) 를 포함해 4V 빅데이터의 특징을 설명하기도 하는데요. 여기에 Visualization(시각화), Variability(가변성) 등을 추가하는 견해도 있습니다. 빅데이터 3가지 출현 배경 출현배경내용 산업계고객 데이터 축적 -산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명 할 수 있다. - 이는 양적인 변화가 축적되면 질 적..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 분석
- BI
- 데이터분석가
- 데이터 분석가
- 퍼포먼스 마케팅
- PM
- 아무일 없는것처럼
- 그로스 해킹
- 프로덕트 매니저
- 데이터 분석 주니어
- BA
- 데이터 분석가 주니어
- 머신러닝
- 프로젝트 매니저
- A/B테스트
- 데이터 시각화
- 북극성 지표
- 데이터 리터러시
- ADsP
- 책 추천
- 설레다
- 기획자
- 알고리즘
- 빅테크
- 통계학
- 빅데이터
- 방법론
- 프로덕트 분석가
- 퍼포먼스 마케터
- 아하 모먼트
- Total
- Today
- Yesterday