티스토리 뷰
- 해결해야 할 문제, 분석 대상이 무엇인지 알고 분석 방법도 알고 있다면 '최적화'
- 분석 대상이 무엇인지 알고 있지만 방법을 모른다면 '솔루션'
- 분석 대상이 무엇인지 모르고 분석 방법도 모른다면, 분석 대상 자체를 새롭게 도출하는 '발견'
- 분석 대상이 무엇인지 모르지만 분석 방법은 알고 있다면 '통찰력'
목표 시점별 분석 기획
- 과제 중심적인 접근 방식 : 과제를 빠르게 해결해야 하는 경우
- 장기적인 마스터플랜 방식 : 지속적인 분석 내재화를 위한 경우
당면한 분석 주제의 해결(과제 단위) | 지속적 분석 문화 내재화(마스터 플랜 단위) | |
1차 목표 | Speed & Test | Accuracy & Deploy |
과제 유형 | Quick & win | Long Term View |
접근 방식 | problem Solving | Problem Definition (분석 과제 정의를 위한 중장기적인 마스터 플랜 접근 방식) |
분석 기획시 고려 사항
1. 가용 데이터 고려
- 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요
- 분석을 위한 데이터 확보가 우선이며 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 함
2. 적절한 활용 방안과 유스케이스의 탐색
- "바퀴를 재발명 하지 마라" 는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요
3. 장애요소에 대한 사전 계획 수립
- 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 필요
- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려 되어야 함
분석 방법론 개요
방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 로 구성되어 있어야 합니다.
기업의 합리적인 의사결정을 가로 막는 방해요소 3가지
- 고정 관념
- 편향된 생각
- 프레이밍 효과 : 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상
분석 방법론은 적용되는 업무의 특성에 따라 다양한 모델을 가질 수 있으며, 대표적인 모델 4가지에 대해 살펴보겠습니다.
1. 폭포수 모델
- 단계를 거쳐 순차적으로 진행되는 방법
- 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식 방향
- 문제 및 개선사항이 발견될 경우 바로 이전 단계로 돌아가 피드백 과정을 수행 할 수 있다.
2. 프로토타입 모델
- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식
- 고객의 요구를 완전히 이해하지 못하는 경우 프로토 타입 모델 적용
- 일부분을 먼저 개발하여 사용자에게 제공하고 이후 사용자의 요구를 분석, 정당성 점검, 성능을 평가하여 결과를 통해 개선 작업 시행
3. 나선형 모델
- 반복을 통해 점진적으로 개발하는 방법
- 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소를 사전에 제거한다는 것에 초점을 맞춤
- 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승
4. 계층적 프로세스 모델
- 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성
- 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스텝으로 구성되어 있음 보통(5단계 사용)
- 스텝은 Work Breakdown Structure 의 워크 패키지에 해당되며 '입력 자료, 처리 및 도구, 출력' 으로 구성된 단위 프로세스이다
단계 -> 단계 별 완료 보고서 , 태스크 -> 보고서, 스텝 -> 보고서 구성요소
KDD 분석 방법론
- KDD (Knowledge Discovery in Database) 는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스 이다.
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있다.
- KDD 분석 방법론 프로세스
- 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터 마이닝 결과 평가
순서 과 단계별 구성 중점 !!
1단계 데이터 셋 선택 | 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수 데이터베이스에서 분석에 필요한 데이터를 선택하는 단계 (타깃 데이터 생성) |
2단계 데이터 전처리 | 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치 를 파악하여 제거하거나 의미 있는 데이터로 재가공 추가로 요구되는 데이터 셋이 있다면 데이터 선택 프로세스 재실행 |
3단계 데이터 변환 | 데이터 전처리 과정을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계 필요에 따라 데이터 전처리와 프로세스 추가 실행 |
4단계 데이터 마이닝 | 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계 필요에 따라 전처리와 프로세스 추가 실행 |
5단계 해석과 평가 | 데이터 마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인 발견한 지식을 업무에 활용하기 위한 방안 마련 필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행 |
CRISP-DM 분석 방법론
- CRISP-DM 분석 방법론 KDD 분석 방법론과 비슷하나 조금 더 세분화 되어 있다는 것이 차이점
- 1999년 유럽연합에서 발표된 계층적 프로세스 모델
- CRISP-DM 분석 방법론 은 단계, 태스크, 스텝 3개의 레벨로 구성된 일반적인 계층적 프로세스 모델과는 달리, 단계,일반화 태스크, 세분화 태스크, 프로세스 실행의 4개 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성
- 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.
- CRISP-DM 분석 방법론 프로세스
- - 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
1단계 업무 이해 | -프로젝트의 목적과 요구 사항을 이해하기 위한 단계 - 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획 수립 - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
||||
2단계 데이터 이해 | -분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계 - 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 단계 - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
||||
3단계 데이터 준비 | -분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계 - 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 |
||||
4단계 모델링 | -다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계 - 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 할 수 있으며 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인 -모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
||||
5단계 평가 | -모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계 - 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
||||
6단계 전개 | -완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계 - 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명주기 (Life Cycle) 가 다양하므로 상세한 전개 계획이 필요 -전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
빅데이터 분석 방법론 5단계 플로우
분석 기획 -> 데이터준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개
분석 기획
- 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립 하는 단계
데이터준비
- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하구 준비하는 단계
- 데이터 수집 및 정합성 체크
데이터 분석
- 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석 하는 단계
- 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행
- 모델링 및 모델 평가
시스템 구현
- 설계 및 구현
- 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용
- 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
평가 및 전개
- 데이터 분석 및 시스템 구현 단계를 수행한 후 , 프로젝트 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계
- 프로젝트 평가 및 보고
하향식 접근법
- 문제 탐색 -> 문제 정의 -> 해결 방안 탐색 -> 타당성 평가
1단계 : 문제 탐색 단계
- 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요
- 과제 발굴 단계에서는 세부적인 구현 및 솔루션에 초점을 맞추는 게 아니라, 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요
1. 비즈니스 모델 기반 문제 탐색
- 기업 내 외부 환경을 포괄하는 비즈니스 모델이라는 틀을 활용
- 비즈니스모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고 이를 관리하는 규제와 감사 영역과 지원 인프라 두 가지 영역에 대한 기회를 추가로 도출하는 작업을 수행
2단계 : 문제 정의 단계
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 앞서 수행한 문제 탐색의 단계가 무엇을, 어떤 목적으로 수행해야 하는지에 대한 관점이라면, 문제 정의 단계는 이를 달성하기 위해 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환을 수행
3단계 : 해결 방안 탐색 단계
- 데이터 분석 문제를 해결하기 위한 방안을 모색하는 단계
- 고려해야 할 사항
- 기존 정보 시스템의 단순한 보완으로 분석이 가능한지 고려
- 엑셀 등의 간단한 도구로 분석이 가능한지 고려
- 하둡 등 분산 병렬 처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안 고려
Data Size 데이터의 양 |
- 데이터의 양을 고려한 관리 방안 수립 필요하다. - 하둡 환경에서의 엄청난 데이터양을 기반으로 분석하는 것과 기존 정형 데이터 베이스에 있는 시간당 생성되는 데이터를 분석할 때의 관리 방식은 차이가 크다 |
|||
Data Complexity 데이터 복잡도 |
- 정형화된 데이터를 확보할 수 있다면 이상적이지만 현실에서는 확보가 쉽지 않다. - 테긋트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려할 필요가 있다 |
|||
Speed 분석의 속도 |
- 분석결과를 활용하는 시나리오 측면에서의 속도를 고려해야 한다. - 도난 카드 사용과 같은 실시간으로 수행되어야 하는 경우 분석의 결과를 실시간으로 전달할 수 있어야 한다. |
|||
Analytic Complexity 분석 복잡도 |
- 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다. - 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 기준점을 사전에 정의해 두어야 한다 - 모델의 정확도가 높으면서 해석이 편리한 최적의 모델을 탐색해야 한다 |
|||
Accuracy & Precision 정확도 & 정밀도 |
- 정확도는 모델과 실제 값 간의 차이가 적다는 정확도를 의미하고, 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준을 나타낸다. - 분석의 활용적인 측면에서는 정확도가 중요하며, 안정성 측면에서는 정밀도가 중요하다 |
분석 과제 관리 방안
관리 영역 | 분석 프로젝트의 특성 및 주요 관리 항목 | |||||
통합 | - 프로젝트관리 프로세스들이 통합적으로 운영될 수 있도록 관리함 | |||||
이해관계자 | - 데이터 분석 프로젝트는 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요함 | |||||
범위 | - 분석 기획 단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘 에 따라 범위가 빈번하게 변경됨 - 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 |
|||||
자원 | - 고급 분석 및 빅데이터 아키텍쳐링을 수행 할 수 있는 인력의 공급이 부족하므로 프로젝트 수행 전 전문가 확보 검토 필요 | |||||
시간 | - 데이터 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 - 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxitng 기법으로 일정관리를 진행하는 것이 필요함 ( 철저한 통제 X) |
|||||
원가 |
- 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 - 오픈 소스 도구 외에 프로젝트 수행 시 의도했던 결과를 달성하기 위하여 상용 버전의 도구가 필요 할 수 있음 (ex. 가시화를 위한 Bi 솔루션, 지리정보 표기를 위한 GIS 솔루션 등 ) |
|||||
리스크 | 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험을 식별하고 대응방안을 사전에 수립해야함 - 데이터 및 분석 알고리즘의 한계로 품질목표를 달성하기 어려울 수 있어 대응 방안을 수립할 필요가 있음 |
|||||
품질 | - 분석 프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정해야 함 - 프로젝트 품질은 품질통제 와 품질 보증 으로 나누어 수행되어야 함 |
|||||
조달 | - 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음 -PoC(Prrof of Concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음 |
|||||
의사소통 | - 전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자 가 공유할 수 있도록 해야함 - 프로젝트의 원활한 진행을 위한 다양한 의사소통체계 마련 필요 |
'IT > ADsP 자격증' 카테고리의 다른 글
ADsP 기술 통계 및 T 검정 (0) | 2024.02.21 |
---|---|
ADsP 통계 분석과 이해 ! (0) | 2024.02.21 |
ADsP 자격증 코스 분석 마스터 플랜 (0) | 2024.02.20 |
ADsP 자격증 코스 2주차 (0) | 2024.02.20 |
ADsP 데이터와 정보 1주차 (0) | 2024.02.19 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
최근에 올라온 글
최근에 달린 댓글
글 보관함
링크
TAG
- BI
- 데이터 분석 주니어
- BA
- 데이터 분석가
- A/B테스트
- 프로덕트 매니저
- 알고리즘
- 프로덕트 분석가
- 데이터분석가
- 기획자
- 설레다
- 빅데이터
- 빅테크
- 통계학
- 퍼포먼스 마케팅
- 아하 모먼트
- 책 추천
- 머신러닝
- PM
- ADsP
- 데이터 리터러시
- 데이터 시각화
- 퍼포먼스 마케터
- 데이터 분석
- 아무일 없는것처럼
- 방법론
- 북극성 지표
- 그로스 해킹
- 프로젝트 매니저
- 데이터 분석가 주니어
- Total
- Today
- Yesterday