Books

2030 데이터 리터러시 레볼루션_2부

루돌푸다요 2024. 4. 12. 17:52

 

  • 목적은 분명히 하고 문제는 구체적으로 정의하라 
    데이터를 분석할 때 정확한 의미부터 알아야 한다. 데이터 분석은 원시 데이터를 정리, 변환, 처리해 
    유용한 통찰력으로 바꾸는 것을 말한다. 당연히 데이터 분석의 목적은 데이터에서 알고 싶은 정보를 얻기 
    위한 것이다. 앞서 설명한 바와 같이 데이터 그 자체로는 문자나 숫자 등의 집합일 뿐이므로 정보를 더 쉽게 
    얻을 수 있도록 가공해야 한다. 이후 특이성, 규칙성, 상관관계나 인과관계 등을 찾아냄으로써 
    데이터가 의미를 갖게 된다. 

현장에서 주로 어떤 목적으로 데이터 분석을 할까 ?

  1. 고객을 이해하고 타깃팅하기 위해서다. 
    경쟁사와 비교 분석해 제품과 서비스를 개선하기도 하고 제품과 서비스에 가장 적합한 타깃 고객층을 
    찾아내기도 한다. 이를 통해 수익성이 강화된 효과적인 가격 전략을 세우고 보다 타깃이 분명한 캠페인을 
    진행할 수 있다. 나아가 잠재 고객에게 효과적으로 도달하기 위해 적합한 광고와 콘텐츠 방안도 
    찾아낼 수 있다. 결국 제품과 서비스에 적합한 고객을 이해해 전체 비즈니스 전략을 바꾸는 데 
    데이터 분석이 크게 기여하는 것이다. 
  2. 데이터 분석을 통해 성공과 성과를 측정하기 위해서다. 우리 회사의 상품이 다른 회사 상품과 비교해 
    시장에서 얼마나 잘 팔리는지 측정할 수 있고 가장 잘 판매한 조직이나 판매인의 특징도 찾아낼 수 있다.
    또한 데이터 분석을 통해 더 집중해야 할 상품과 덜 집중해야 할 상품에 대해 아이디어를 얻고 문제가 
    발생할 수 있는 영역을 사전 예측할 수 있다. 

  3. 각종 문제해결에 데이터 분석을 활용한다. 각종 비용 분석을 통해 경비를 절감하는 우선 순위 를 
    찾을 수 있고 신규 매장 위치를 선정하는 등 더 나은 의사결정으로 문제를 해결할 수 있다. 관련성 있는 
    정확한 데이터를 기반으로 분석하면 더 나은 통찰력으로 문제를 해결 할 수 있다.

데이터를 다루기에 앞서 질문을 먼저 하는 방식, 즉 '질문 먼저' 방식을 통해 의사결정을 위한 분석 기회를 
발굴하고 질문을 구체화해 필요한 분석과 데이터를 정의하는 접근 방식이다. 

우리는 가끔 상사의 지시가 떨어지면 데이터 수집부터 시작한다. 그 이전에 데이터 분석을 수행하는 실제 
이유나 목적에 대해서는 깊이 생각하지 않는 경향이 있다. 어떤 문제를 해결 하려는지 ? 
나는 무엇을 알고 싶은지? 왜 데이터 분석이 필요한지? 이 데이터 분석의 목적은 무엇인지? 
등의 구체적인 질문을 던져야 한다. 

 

그 다음에는 명확한 목표를 설정하는 것이 중요하다. 우리가 데이터 분석을 할 때는 명확한 목적이 있게 마련이다.

판매 실적을 올리기 위해, 고객만족도를 올리기 위해, 고객층을 타깃팅하기 위해,
올해 주력 상품을 선정하기 위해 민원을 줄이기 위해 등등 

 

판매실적을 올리기 위해서라면 주력 고객층을 타깃팅하는 것을 핵심 목적으로 잡고 분석을 시작하는 것이 
좋겠다. 이렇듯 목표 설정 단계에서는 비즈니스 목표에 대한 이해와 통찰력이 중요하다. 
명확한 목표가 설정됐으면 분석에 필요한 것이 무엇인지, 어떤 종류의 데이터가 필요한지, 추적하고 측정하려는
데이터가 무엇인지 파악하고 난 뒤에 해결 하려는 문제를 생각하는 것이 좋다. 

 

왜 데이터 분석을 하는가? 현상이나 사실에 대한 불완전한 이해를 데이터를 통해 해결하기 위해서다. 

그 과정에서 처음에는 생각하지 못했던 변수가 발생하는 일이 많으므로 유연하게 대응하는 자세가 필요하다.

따라서 문제 정의도 한 번만 하고 끝내는 것이 아니라 문제해결 과정에서 지속적으로 다시 검토해야 한다.

문제를 정확하게 정의하면 해결해야 할 과제의 목표, 범위 ,조건 등을 정확히 이해할 수 있고 

프로세스마다 의사결정을 내릴 때 귀중한 길잡이가 된다. 아울러 조직 단위로 일할 때는 문제와 관련해 

오해의 소지가 없도록 의사소통에서도 중요한 역할을 한다. 

 

더보기

효과적인 문제 정의는 문제의 목표는 무엇인가? 

문제의 범위는 정확하게 어디까지인가? 

문제 해결의 성공 또는 실패 기준은 무엇인가? 

시간과 비용 등 문제해결에 있어서 제약 조건은 무엇인가? 등이 포함돼야 한다. 

그렇다면 가설은 왜 중요한 걸까? 가설은 정확할 필요는 없지만 예상 결과를 예측해 분석하고 검증하는 단계를 거친다.

그러므로 프로젝트 기간 내내 길라잡이 역할을 하고 지속적인 사고를 이끌게 된다. 

또한 문제 정의 때와 같이 가설이 올바르지 못하면 엉뚱한 데이터를 수집하고 분석하게 돼 상당한 자원을 

낭비할뿐더러 문제도 해결하지 못하게 된다. 

더보기

올바른 가설을 수립하기 위해서는 어떻게 해야 할까 ? 

  1. 가설을 수립할 때는 반드시 사실에 기반을 두어야 하고 사실을 토대로 가설이 맞는지 
    틀리는지 검증해야 한다. 

    누구나 다 동의할 수 있는 내용이기는 하지만 새삼 강조하는 것은 사실만큼 강력하고 효과적인 것이 
    없기 때문이다. 예를 들어 누군가 우리 회사 상품 인력들의 개발 역량이 미흡하다고 주장한다면
    임원은 도대체 무슨 근거로 그런 주장을 하느냐고 즉각 반발할 것이다. 하지만 사실에 근거한 가설을 
    세우고 경쟁사와 비교한 개발 인력의 평균 경력, 인당 개발 건수 등을 근거로 제시한다면 
    상황이 달라질 것이다.  사실에 기반을 둔 가설을 세우고 그 사실을 제시하면 더 이상 가설이 아니라 
    점점 탄탄한 주장이 되고 결론을 끌어내며 사람들을 움직인다. 
  2. 가설은 결론에 대한 것이기보다는 과정에 대한 것이어야 한다. 
    어떤 데이터를 먼저 볼 것인지에 대한 궁금증에서 시작해 그 데이터를 보다 보니 다른 것이 궁금해지는
    꼬리에 꼬리를 무는 가설이 더 강력하다. 
    데이터 분석에 성공하려면 수많은 데이터를 쪼개고 합치는 과정에서 현상을 정의하고 그 원인을 
    파악하며 효과나 전망을 제시해야 해서 바로 결론을 예측하지 않아야 한다. 
  3. 분석해야 하는 문제의 본질을 여러 관점에서 접근할 줄 알아야 한다. 
    가설을 남들보다 빨리 잘 세우려면 시장 구조 전반을 이해하고 들여다보며 구체적으로 빈 곳을 찾아보는 
    습관을 길러야 한다. 그러기 위해 평소 시장 환경, 시장 구조, 경쟁 환경, 브랜드 파워, 판매 제품, 소비자 행태
    등 마케팅의 많은 분야에 관심을 가지는 것이 도움 된다. 

    가설을 수립하는 방법에는 정답이 없으며 개인의 경험과 상상력, 시행착오를 기반으로 노하우가 생긴다.
    되도록 더 많은 데이터를 살펴보고 더 많은 가설을 직접 수립해보는 것이 좋다. 

데이터 분석 기획이란 어떠한 목표What 를 달성하기 위해 Why 어떠한 데이터를 가지고 어떤 방식 How으로 
수행할 것인가에 대한 일련의 계획을 수립하는 것을 말한다. 또한 데이터 분석을 하기 전에 얻으려는 목적과 
에상 결과에 대해 생각해보고 데이터 분석 방법을 정하는 것이다. 

 

분석할 때는 분석해야 할 주제가 어떤 유형인가를 알아야 한다. 분석 방법은 분석해야 할 대상과 방법에 따라 
4가지 유형으로 구분 할 수 있다.

  1. 이미 문제를 알고 있거나 이미 사용하는 방법이 있다면 '최적화 유형' 을 활용하는 것이 좋다. 
    최적화는 주로 불필요한 부분을 제거하는 것을 목표로 한다. 최적화는 주로 불 필요한 부분을 
    제거하는 것을 목표로 한다. 

  2. 분석 대상이 명확하지 않지만 여러 가지 분석 방법을 알고 있는 경우에는 '통찰 유형' 을 활용한다. 
    브레인스토밍, 디자인싱킹 등과 같은 방법을 통해 수많은 시도와 다양한 분석 방법을 활용해 
    새로운 대상을 도출하는 것이다. 

  3. '솔루션 유형' 은 분석 대상은 있지만 분석 방법이 없는 주제에 활용 된다. 
    예를 들어 마케팅 부서가 항상 새로운 마케팅 방안에 대해 솔루션을 고민하는 것 처럼 더 효율적이고 
    정확한 분석 기법들을 찾는 경우다. 
  4. '발견 유형' 은 분석 대상과 분석 방법이 알려지지 않은 경우다. 다른 데이터를 분석하다가 발견되는 등 
    많은 시행착오와 융합 과정에서 만들어진다고 볼 수 있다. 

올바른 데이터 분석 기획을 하기 위해 명심해야 할 몇가지를 살펴보자.

  1. 데이터가 먼저가 아니라 목적이 먼저다. 분기별 판매 실적 그래프를 보고 
    '여기에 대해 무엇을 말할 수 있을까요?' 라는 질문이고 다른 하나는 '이 그래프를 만든 사람은 무엇을 
    애기하고 싶었을 까요 ?' 라는 질문이다. 
    첫 번째 질문은 누군가가 만든 데이터와 그래프를 읽어내는 것에 집중하는 데이터 중심 사고 방식의 
    질문이고 두 번째 질문은 목적 중심 사고방식의 질문이다. 목적 중심 사고방식은 데이터 작업전에 무엇이
    알고 싶은지를 생각해보고 그에 필요한 데이터를 활용해 작업을 진행하는 방식이다. 
    데이터는 요술 방망이가 아니다. 아무리 고난도의 통계와 분석 방법을 사용하더라도 
    데이터를 먼저 보지 말기를 바란다. 대신'무엇을 알고 싶은지' '무엇을 해결하고 싶은지' ,
    '어떤 데이터가 필요한지' 를 생각하는 것이 중요하다. 데이터 안에는 답이 없다는 사실을 꼭 명심해야 한다.

  2. 문제 정의를 구체적이고 명확하게 해야 한다. 자신이 무슨 주장을 하고 싶은지를 구체적으로 정의 하는 것이
    데이터 분석 기획의 필수조건이다. 문제 정의를 하는 방법에 따라서 활용하게 될 데이터가 크게 달라지기 
    때문이다. 문제 정의가 구체적이지 않으면 어떤 데이터를 사용했는지에 따라 문제해결에 영향을 줄 뿐만 
    아니라 스토리 구조도 모호해진다. 이렇게 되면 아무리 좋은 데이터나 분석 방법을 사용한다고 하더라도 
    상대방을 이해시키기가 어려어질 수 밖에 없다. 

  3. 문제 해결 중심으로 데이터 분석 기획을 해야 하는 것도 중요한 과제다. 
    데이터를 잘 활용한다는 것은 그 정보를 기반으로 문제해결 방안을 수립하고 구체적인 행동 계획을 세우거나 
    상대방이 이해할 만한 판단을 내릴 수 있도록 하는 것이다. 현장에서 가끔 데이터 분석을 단순히 현황 파악에 
    활용하는 것으로 그치고 마는 것을 보게 된다. 그것은 데이터 분석이 아니라 정리에 불과하다. 
    목적에 이르지 못하는 결론은 의미가 없다.

     결국 올바른 데이터 분석 기획은 목적과 문제에 대해 명확히 하고 검증하기 위한 데이터 수집과 방법론을 
    구축하고 이에 대한 결론을 내는 것이다. 이를 위해 '목적과 문제정의 -> 지표 결정 -> 현상 파악 -> 평가 ->
    요인 분석 -> 해결 방안 모색 이라는 데이터 활용 프로세스를 반드시 염두에 두어야 한다. 
  4. 불필요한 데이터는 과감하게 버리는 결단력이 있어야 한다. 쓰레기 데이터를 포함해 올바르지 않은 
    데이터들도 엄청나게 많이 존재한다. 결국 무수히 많은 데이터 중에서도 내가 하고 싶은 주장을 뒷받침하는 
    근거 있는 데이터만 쓸모가 있다. 

데이터는 존재 그 자체에 의미가 있기도 하지만 원석과 같아서 어떤 방법으로 어떤 목적으로 분석하느냐에 따라 
달라질 수 있다. 사용자의 역량과 관심 정도의 차이에서 비롯된다. 우리가 데이터 리터러시를 길러야 하는 이유다. 

 

더보기

데이터를 분석하려면 분석의 종류를 알아야 한다. 분석의 목적에 따라 여러 가지 분류가 있지만 
존스홉킨스대학교의 제프릭 교수가 제시한 6가지 분류를 가장 많이 사용 한다. 

  1. 기술적 분석 Descriptive Analysis 
  2. 탐색적 분석 Exploratory analysis
  3. 추론적 분석 Inferential Analysis
  4. 예측적 분석 Predictive Analysis
  5. 인과관계 분석 Causal Analysis 
  6. 기계론적 분석 Mechanistic Analysis 

첫째, 기술적 분석이다. 데이터를 요약하거나 간단하게 일반화해 주어진 데이터에 대한 설명을 목적으로 하는 
분석이다. 별도의 해석을 포함하지 않으며 평균, 분산, 표준편차 등 보편적인 지표들을 활용한다. 
요즘 코로나 19 확진자와 사망자에 대한 그래프를 많이 보는데 바로 기술적 분석 이다. 

 

둘째, 탐색적 분석이다. 주어진 데이터를 다양한 방식으로 살펴 데이터 내 변수 간의 상관관계나 트렌드 등을
탐색하는 방법이다. 여러 변수 사이의 관계에 대한 사실 확인이 주된 목적으로 가설을 세우는 데 유용하다. 
예를 들어 신상품 판매가 계절 변화와 방학시기의 영향으로 증가했다는 사실 등을 파악할 때 사용할 수 있다.

 

셋째, 추론적 분석이다. 주로 표본과 모집단 간의 관계를 탐구하는 방법이다. 즉 샘플에서 얻은 정보를 
모집단에서 적용할 수 있는지를 알아볼 때 사용한다. 예를 들어 500명을 대상으로 하루 소금 섭취량을 
조사해 인간에게 필요한 적당한 소금 섭취량을 알아낼 때 사용된다. 

넷째, 예측적 분석도 많이 사용된다. 주어진 샘플 데이터로부터 전체 데ㅔ이터로 일반화 할 수 있는 패턴을 
도출한 후 모델을 만들어 특정 변수의 값을 예측하는 방법이다. 예컨대 출구조사를 통해서 선거 결과를 예측하는
방법으로 이를 위해 선거 결과 예측 모델, 여런 조사 결과, 역대 선거 결과 등 다양한 정보가 활용된다. 

 

다섯째, 인과관계 분석이다. 독립변수와 종속변수 간의 인과관계를 파악해 그런 결과를 나오게 하는 변수를 
찾는 것이 주된 목적이다. 주로 의약품 개발에 많이 사용된다. 

 

여섯째, 기계론적 분석이다. 인과관계 분석은 독립변수와 종속변수 사이의 인과관계를 파악하는 분석 방법이라면
기계론적 분석은 변수 사이의 영향과 최종적인 변화가 나타나는 과정을 밝혀내는 것이다. 

 

더보기

1. 이데이터를 가지고 모집단을 추정할 수 있을까 ? 
- 100개의 사과를 조사했더니 평균 당도가 14브릭스가 나왔다고 하자. 이를 바탕으로 평균 당도를 14브릭스 

2. 데이터별로 그룹이 있는데 그룹 간에 차이가 날까 ?
- 검정 방식을 사용해 분석해야 한다. 검정이란 표본의 정보를 사용해서 우리가 세운 가설의 합당성 여부를
판정하는 과정인데 가설을 세우고 그 가설이 맞는지 테스트 하는 것이다. 

3. 어떤 결과에 대해 여러 요인끼리 서로 관계를 가진다는 것을 확인 할 수 있을까?
- 교차분석과 상관분석 이라는 통계 기법을 이요한느 것이 좋다. 우선 교차 분석은 '거주지역' 과 '성별' 간에
관계가 있는지 등을 알고 싶을때 사용하는 분석 방법으로 주로 엑셀과 피벗 테이블과 같은 크로스 테이블에서
행과 열에 대한 관계를 확인할 때 많이 쓰이는 분석이다.  
4. 이 데이터들 사이에서 패턴(규칙) 을 알아낼 수 있을까 ? 
5. 이 데이터를 가지고 예측할 수 있을까 ? 

 

4번과 5번은 회귀분석을 사용할 수 있다. 

KNN - K-Nearest Neigbor 기법 거리 기반 분석 방법 

 

데이터 시각화의 8가지 원칙 

  1. 데이터 그 자체를 보여주는 것이 중요하다.
  2. 화려한 그래픽과 시각화 방법에 너무 집중하지 않게 한다. 
  3. 데이터 자체가 말하고자 하는 바를 왜곡하지 말아야 한다. 
  4. 작은 화면에 너무 많은 숫자나 문자를 보여주지 말라 
  5. 아무리 많은 양의데이터도 일관성이 있어야 한다. 
  6. 서로 다른 데이터를 손 쉽게 비교할 수 있게 한다 
  7. 몇 단계로 깊이 들어가 살펴볼 수 있어야 한다. 
  8. 통계 결과나 시각화를 데이터로 설명해야 한다. 

사람들의 시선이 움직이는 경로와 본인이 강조할 부분을 미리 고려해 차트의 위치, 모양, 색상 등을 선택해야 한다. 

다음의 사항은 반드시 머리에 넣어두자. 

  1. 문제해결 중심의 데이터 리터러시 관점을 가져야 한다. 데이터 리터러시를 데이터 속에 숨겨진 의미를 찾는
    것으로만 이해한다든지, 수집한 데이터를 시각화하고 그럴듯한 결론으로 제시하고 마는 경우가 종종 있다. 
    중요한 것은 문제해결이다. 

  2. 문제 해결을을 위해서는 다양한 가설이 필요하다. 가설은 결론에 대한 것이기보다는 과정에 대한 것이어야
    한다. 이때 강력한 가설이 되기 위해서는 하나의 궁금증에서 시작해 그 데이터를 보다보니 다른 것이 
    궁금해지는 꼬리에 꼬리를 무는 가설일수록 좋다. 
  3. 데이터 기초 분석 방법과 데이터 분석 도구 등에 대한 이해도 중요하다. 
    통계의 기초, 데이터 마이닝과 머신러닝에 대해 개념만이라도 알아두자. 상대방이 어떤 분석 도구를 썼고
    통계적으로 어떤 기법들을 사용했는지 정도만 알고 있더라도 데이터리터러시에 한발 앞서 나가는 것이다.
  4. 데이터 시각화와 스토리텔링도 활용해 소통 능력을 높여보기 바란다. 본인에게 맞는 시각화 도구를 
    선택해 차트나 그래프를 자주 그려보고 위치나 색상도 강조해보고 하면서 이런 문제를 표현하려면 이런
    기법이 좋더라는 것을 체득해야 한다. 또한 파워포인트를 활용해 차트나 그래프를 상황에 맞게 
    선택하고 거기에 맞는 설명 글을 자주 작성해보는 연습도 도움이 된다. 
  5. 비판적으로 사고하고 분석의 시야를 넓혀야 한다. 데이터 분석을 통한 정답은 하나가 아니라 여러 가지 
    있을 수 있으므로 입체적 사고가 필요하다. 자신이 생각한 아이디어와 수집된 데이터를 통해 알 수 있는 
    것들을 쭉 늘어놓고 비교되거나 반대되는 아이디어는 무엇이 있을까 고민해보는 습관을 길러야 한다.
    그러기 위해 현업 업무 외에도 시장과 고객을 이해하 수 있는 마케팅, 심리학, 경영학 등에 대한 
    다양한 분야의 책도 읽어두면 도움이 될 것이다. 

  6. 데이터와 함께 인공지능을 올바르게 활용하는 능력도 높여 나가야 하겠다. 이를 위해서는 인공지능 기술과
    그 핵심 연료인 데이터에 대한 이해를 바탕으로 스스로 옳고 그름을 판단하는 능력을 갖추어 
    미래 경쟁에 대비해야 한다.