티스토리 뷰

IT/ADsP 자격증

ADsP 3주차 데이터 분석 기획

루돌푸다요 2024. 2. 20. 11:31
  • 해결해야 할 문제, 분석 대상이 무엇인지 알고 분석 방법도 알고 있다면 '최적화'
  • 분석 대상이 무엇인지 알고 있지만 방법을 모른다면 '솔루션' 
  • 분석 대상이 무엇인지 모르고 분석 방법도 모른다면, 분석 대상 자체를 새롭게 도출하는 '발견'
  • 분석 대상이 무엇인지 모르지만 분석 방법은 알고 있다면 '통찰력'

 

목표 시점별 분석 기획 

  • 과제 중심적인 접근 방식 : 과제를 빠르게 해결해야 하는 경우 
  • 장기적인 마스터플랜 방식 : 지속적인 분석 내재화를 위한 경우 
  당면한 분석 주제의 해결(과제 단위) 지속적 분석 문화 내재화(마스터 플랜 단위)
1차 목표  Speed & Test  Accuracy & Deploy
과제 유형  Quick & win  Long Term View
접근 방식  problem Solving Problem Definition
(분석 과제 정의를 위한 중장기적인 마스터 플랜 접근 방식) 

 

분석 기획시 고려 사항 

1. 가용 데이터 고려 

  • 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요 
  • 분석을 위한 데이터 확보가 우선이며 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 함 

2. 적절한 활용 방안과 유스케이스의 탐색 

  • "바퀴를 재발명 하지 마라" 는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요 

3. 장애요소에 대한 사전 계획 수립 

  • 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 필요 
  • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려 되어야 함 

 

분석 방법론 개요 

방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 로 구성되어 있어야 합니다. 

 

기업의 합리적인 의사결정을 가로 막는 방해요소 3가지 

  1. 고정 관념 
  2. 편향된 생각 
  3. 프레이밍 효과 : 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상 

분석 방법론은 적용되는 업무의 특성에 따라 다양한 모델을 가질 수 있으며, 대표적인 모델 4가지에 대해 살펴보겠습니다. 

 

1. 폭포수 모델 

  • 단계를 거쳐 순차적으로 진행되는 방법 
  • 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식 방향 
  • 문제 및 개선사항이 발견될 경우 바로 이전 단계로 돌아가 피드백 과정을 수행 할 수 있다. 

2. 프로토타입 모델 

  • 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식 
  • 고객의 요구를 완전히 이해하지 못하는 경우 프로토 타입 모델 적용 
  • 일부분을 먼저 개발하여 사용자에게 제공하고 이후 사용자의 요구를 분석, 정당성 점검, 성능을 평가하여 결과를 통해 개선 작업 시행

3. 나선형 모델 

  • 반복을 통해 점진적으로 개발하는 방법 
  • 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소를 사전에 제거한다는 것에 초점을 맞춤 
  • 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승

4. 계층적 프로세스 모델

  • 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성 
  • 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스텝으로 구성되어 있음 보통(5단계 사용)
  • 스텝은 Work Breakdown Structure 의 워크 패키지에 해당되며 '입력 자료, 처리 및 도구, 출력' 으로 구성된 단위 프로세스이다 

단계 -> 단계 별 완료 보고서 , 태스크 -> 보고서, 스텝 -> 보고서 구성요소 

 


KDD 분석 방법론 

  • KDD (Knowledge Discovery in Database) 는 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스 이다. 
  • 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있다. 
  • KDD 분석 방법론 프로세스

- 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터 마이닝 결과 평가 

 

순서 과 단계별 구성 중점 !! 

1단계 데이터 셋 선택  데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수 
데이터베이스에서 분석에 필요한 데이터를 선택하는 단계
(타깃 데이터 생성)
2단계 데이터 전처리  추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치 를 파악하여 제거하거나 의미 있는 데이터로 재가공 
추가로 요구되는 데이터 셋이 있다면 데이터 선택 프로세스 재실행
3단계 데이터 변환  데이터 전처리 과정을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계 
필요에 따라 데이터 전처리와 프로세스 추가 실행
4단계 데이터 마이닝  학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계 
필요에 따라 전처리와 프로세스 추가 실행
5단계 해석과 평가  데이터 마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인 
발견한 지식을 업무에 활용하기 위한 방안 마련 
필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행

 


CRISP-DM 분석 방법론 

  • CRISP-DM 분석 방법론  KDD 분석 방법론과 비슷하나 조금 더 세분화 되어 있다는 것이 차이점
  • 1999년 유럽연합에서 발표된 계층적 프로세스 모델 
  • CRISP-DM 분석 방법론 은 단계, 태스크, 스텝 3개의 레벨로 구성된 일반적인 계층적 프로세스 모델과는 달리, 단계,일반화 태스크, 세분화 태스크, 프로세스 실행의 4개 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성 
  • 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다. 
  • CRISP-DM 분석 방법론 프로세스
  • - 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개  
1단계 업무 이해  -프로젝트의 목적과 요구 사항을 이해하기 위한 단계 
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획 수립 
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 
2단계 데이터 이해  -분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계 
- 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 단계 
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3단계 데이터 준비 -분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계 
- 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 
4단계 모델링  -다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계 
- 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 할 수 있으며 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인 
-모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 
5단계 평가  -모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계 
- 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단 
- 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 
6단계 전개  -완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계 
- 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명주기 (Life Cycle) 가 다양하므로 상세한 전개 계획이 필요 
-전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 

 


 

빅데이터 분석 방법론 5단계 플로우 

분석 기획 -> 데이터준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개 

 

분석 기획

  • 비즈니스 도메인과 문제점을 인식하고 분석 계획 및  프로젝트 수행계획을 수립 하는 단계 

데이터준비

  • 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하구 준비하는 단계 
  • 데이터 수집 및 정합성 체크 

데이터 분석

  • 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석 하는 단계 
  • 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행 
  • 모델링 및 모델 평가 

시스템 구현 

  • 설계 및 구현 
  • 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용 
  • 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현 

평가 및 전개

  • 데이터 분석 및 시스템 구현 단계를 수행한 후 , 프로젝트 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계 
  • 프로젝트 평가 및 보고 

 

하향식 접근법 

  • 문제 탐색 -> 문제 정의 -> 해결 방안 탐색 -> 타당성 평가 

1단계 : 문제 탐색 단계 

  • 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요 
  • 과제 발굴 단계에서는 세부적인 구현 및 솔루션에 초점을 맞추는 게 아니라, 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요 

1. 비즈니스 모델 기반 문제 탐색

  • 기업 내 외부 환경을 포괄하는 비즈니스 모델이라는 틀을 활용 
  • 비즈니스모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고 이를 관리하는 규제와 감사 영역과 지원 인프라 두 가지 영역에 대한 기회를 추가로 도출하는 작업을 수행 

 

2단계 : 문제 정의 단계 

  • 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계 
  • 앞서 수행한 문제 탐색의 단계가 무엇을, 어떤 목적으로 수행해야 하는지에 대한 관점이라면, 문제 정의 단계는 이를 달성하기 위해 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환을 수행 

3단계 : 해결 방안 탐색 단계 

  • 데이터 분석 문제를 해결하기 위한 방안을 모색하는 단계 
  • 고려해야 할 사항 
  • 기존 정보 시스템의 단순한 보완으로 분석이 가능한지 고려 
  • 엑셀 등의 간단한 도구로 분석이 가능한지 고려 
  • 하둡 등 분산 병렬 처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안 고려 

 

 

Data Size 
데이터의 양
- 데이터의 양을 고려한 관리 방안 수립 필요하다. 
- 하둡 환경에서의 엄청난 데이터양을 기반으로 분석하는 것과 기존 정형 데이터 베이스에 있는 시간당 생성되는 데이터를 분석할 때의 관리 방식은 차이가 크다 
Data Complexity
데이터 복잡도
- 정형화된 데이터를 확보할 수 있다면 이상적이지만 현실에서는 확보가 쉽지 않다. 
- 테긋트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려할 필요가 있다 
Speed
분석의 속도
- 분석결과를 활용하는 시나리오 측면에서의 속도를 고려해야 한다. 
- 도난 카드 사용과 같은 실시간으로 수행되어야 하는 경우 분석의 결과를 실시간으로 전달할 수 있어야 한다. 
Analytic Complexity 
분석 복잡도
- 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다. 
- 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 기준점을 사전에 정의해 두어야 한다 
- 모델의 정확도가 높으면서 해석이 편리한 최적의 모델을 탐색해야 한다 
Accuracy & Precision
정확도 & 정밀도
- 정확도는 모델과 실제 값 간의 차이가 적다는 정확도를 의미하고, 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준을 나타낸다. 
- 분석의 활용적인 측면에서는 정확도가 중요하며, 안정성 측면에서는 정밀도가 중요하다 

 

분석 과제 관리 방안 

관리 영역   분석 프로젝트의 특성 및 주요 관리 항목
통합  - 프로젝트관리 프로세스들이 통합적으로 운영될 수 있도록 관리함 
이해관계자 - 데이터 분석 프로젝트는 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요함 
범위 - 분석 기획 단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘
에 따라 범위가 빈번하게 변경됨 
- 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 
자원 - 고급 분석 및 빅데이터 아키텍쳐링을 수행 할 수 있는 인력의 공급이 부족하므로 프로젝트 수행 전 전문가 확보 검토 필요 
시간  - 데이터 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 
- 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxitng 기법으로 일정관리를 진행하는 것이 필요함 
( 철저한 통제 X)

원가
- 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 
- 오픈 소스 도구 외에 프로젝트 수행 시 의도했던 결과를 달성하기 위하여 상용 버전의 도구가 필요 할 수 있음 
(ex. 가시화를 위한 Bi 솔루션, 지리정보 표기를 위한 GIS 솔루션 등 ) 
리스크 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험을 식별하고 대응방안을 사전에 수립해야함 
- 데이터 및 분석 알고리즘의 한계로 품질목표를 달성하기 어려울 수 있어 대응 방안을 수립할 필요가 있음 
품질 - 분석 프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정해야 함 
- 프로젝트 품질은 품질통제 와 품질 보증 으로 나누어 수행되어야 함 
조달  - 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음 
-PoC(Prrof of Concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음 
의사소통 - 전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자 가 공유할 수 있도록 해야함 
- 프로젝트의 원활한 진행을 위한 다양한 의사소통체계 마련 필요 

 

'IT > ADsP 자격증' 카테고리의 다른 글

ADsP 기술 통계 및 T 검정  (0) 2024.02.21
ADsP 통계 분석과 이해 !  (0) 2024.02.21
ADsP 자격증 코스 분석 마스터 플랜  (0) 2024.02.20
ADsP 자격증 코스 2주차  (0) 2024.02.20
ADsP 데이터와 정보 1주차  (0) 2024.02.19