티스토리 뷰

 

데이터 리터러시란 무엇인가? 

'데이터 리터러시(Data Literacy)' 라는 말입니다. 데이터 문해력 이라는 이름으로 최근 많이 사용하고 있는 단어 입니다. 데이터를전문적으로 다루는 사람이 아니더라도 데이터를 통해 업무를 향상시키는 이해도를 총칭한 말로 쓰입니다. 

보다 정확하게는 데이터를 읽고 이해하며 정보로 변환하여 커뮤니케이션 할 수 있는 능력을 말하는 개념으로 사용 됩니다. 

 

데이터를 정보로 바꾸고, 정보를 지식으로 바꾸는 단계에서 데이터 밖 세상에 영향을 주는 것은 사람의 몫 입니다. 따라서 데이터 리터러시의 핵심은 개념적인 도구의 사용이 아닌 데이터 자체에 대한 이해, 이해가 뒷받침된 해석에 포커스가 맞춰져야 합니다. 

 

  • 상관관계나 평균 판단과 같은 간단한 통계 작업을 해석할 수 있는 조직 내 구성원은 몇 명이라고 생각하십니까? 
  • 구체적이고 정확하며 관련 있는 숫자를 바탕으로 비즈니스 사례를 구성할 수 있는 관리자는 몇명입니까? 
  • 시스템 또는 프로세스의 출력을 설명할 수 있는 관리자는 몇명이 있습니까? 
  • 얼마나 많은 데이터 과학자들이 기계 학습 알고리즘의 결과에 대해 설명할 수 있습니까? 
  • 당신이 공유하는 데이터의 본질을 진정으로 인식하고 내재화 할 수 있는 구성원은 몇 명입니까?

 

더보기

상관 관계 란 ? 

특정 데이터의 증가/감소가 다른 데이터의 증가/감소와 얼마나 관련성을 가지고 있는지 살펴보는 것. 기온이 높아질수록 아이스크림 판매량이 높아지는 숫자 사이의 비율이 나타나면 함께 증가하는 양의 상관관계가 있다고 할 수 있따. 상관관계는 상관계수라는 -1부터 1사이의 숫자로 정도를 측정할 수 있는데 1에 가까울수록 한 데이터의 증가가 다른 데이터의 증가와 관련성이 있는 정도가 크다고 볼 수 있고, -1의 경우는 음의 상관관계로 한 데이터의 증가가 다른 데이터의 감소와 높은 관련성이 있다고 볼 수 있다. 1이나 -1에 가까운 것이 아닌 0에 가까운 상관계수를 가진다면 한 데이터의 증가 혹은 감소가 다른 데이터의 증가나 감소와 뚜렷한 관련싱이 있다고 보기 힘들다. 상관관계는 기초적인 부분으로, 엑셀과 같은 도구로도 쉽게 구할 수 있다. 소량의 데이터를 보고 사람이 판단하는 것 보다 다량의 데이터 사이의 관계를 정확하게 판단하는 기준으로 사용 할 수 있다. 

 

보유 데이터로 할 수 있는 것과 할 수 없는 것을 알아야 합니다. 

예를 들어, 보유하고 있는 데이터가 매출과 관련된 것이 전부이며 고객 한 명 한 명이 무엇을 샀는지 알 수 없다면 고객 취향별 추천 모델은 만들 수 없습니다. 매출에 대한 요약이나 매출이 향후 어떻게 나올지 간단히 예측하는 일 정도는 가능하겠죠. 그렇기 떄문에 고객에 대한 분석이 정말 필요하다면, 먼저 멤버십 부터 구축해서 이 구매가 어떤 고객으로 부터 발생했는지부터 알 수 있도록 만들어야 합니다. 

 

막연히 시장 전체에서 유행하는 상품이 무엇인지 궁금하다면 시장 전체라고 생각하는 데이터를 수집하고 적재해 유행이란 것을 구분하고 예측할 수 있는 방법이 있어야 합니다. 내가 생각하는 시장 전체에서 어떤 데이터를 어느 기간만큼 확보할지에 대한 정의가 필요하죠. 데이터로 실제 일을 하기 위한 과정은 무엇보다 구체적이고 명확해야 합니다. 미래지향적인 것은 좋지만 데이터의 적재와 같은 미래를 위한 구체적인 준비 없이 지금 당장 결과만을 생각한다면, 데이터를 통한 스킬업은 기대하기 어렵습니다. 

 

통계의 기초적인 개념들인 상관관계, 회귀모델, 시계열 분석, 군집분석에 대한 대략적인 방식만 알아도 내가 갖고 있는 데이터로 할 수 있는 것과 할 수 없는 것을 명확하게 알 수 있습니다. 그리고 그에 알맞게 구체적인 계획을 세울 수 있죠. 

 

더보기

회귀모델 이란 ? 

통계 방법 중 하나로 한 변수의 값을 다른 변수들로 설명하는 모델, 보통 과거 데이터의 분포를 보고 선형으로 분포를 가장 잘 나타낼 수 있는식 (Y=A+aX+bX+cX + ) 으로 나타내는 선형 회귀 모델을 만들고 새로운 데이터를 넣어 Y 값을 예측하는 경우가 많다. 맞추고자 하는 Y값이 숫자가 아닌 '있다/없다', '성공/실패', '구매/비구매' 등 두개의 값 중 무엇에 가ㅏ까운지 맞추는 이분법적 인 결과를 예측하는 로지스틱 회귀 분석 모델도 실무에서 많이 활용한다. 

상관관계가 원인과 결과를 설명하지 못한다면 회귀 모델은 어떤 변수의 변화를 통해 다른 변수의 값의 변화를 어느 정도 알 수 있다는 특징이 있다. 

 

더보기

시계열 분석 이란 ? 

데이터에 쌓이는 시간과 숫자 두 개의 변수가 시간의 흐름에 따라 어떻게 변해가고 있는지 파악하고 가까운 미래 값을 예측하는 분석 방법. 비트코인 시세 예측이나 주가의 기술적 분석 등에 많이 활용된다. 과거 시계열 데이터의 전체적인 상승과 하락 같은 추세, 일정 시간 간격으로 값이 변하는지(계절성과 주기), 최근 변화에 가중치를 두는 등 세부적으로는 다양한 방법론이 있따. 하지만 회귀분석, 트리모델, 신경만 분석 등의 예측 모델에 비해 일반적으로 정확도가 낮다. 

 

 

더보기

군집 분석 이란? 

숫자와 숫자 사이의 관계를 거리로 바꾸어 가까운 거리를 가진 숫자들을 묶어서 하나의 덩어리로 만들고 멀리 떨어진 숫자를 다른 덩어리로 구분해, 집단 내 숫자들을 몇 개의 덩어리인 군집으로 구분하는 방법. 대표적인 군집 분석 모델인 K-means 모델은 최초 몇 개의 군집으로 집단을 구분할 것인지를 정하고 시작하기 때문에 군집을 몇 개로 나눌지 다양하게 시도해 보면서 최적의 군집 방식을 분석가가 직접 찾아야 하는 상황도 발생한다. 고객군을 나누거나 매출 채널을 구분할 때 많이 활용한다. 

 

보유하고 있는 데이터의 변수가 얼마나 다양하고 어느 정도 필요한지를 아는 것 만큼, 어떤 시기에 얼마 동안의 데이터를 갖고 있는지 아는 것도 중요합니다.  가장 먼저 생각해볼 것은 내가 다룰 수 있는 영역이 어디까지인지 모두 아는 것입니다. 보통 데이터 분석가들은 새로운 분석 프로젝트를 맡을 때 가장 먼저 데이터 현황부터 기술합니다. 파일이면 어떤 파일이 있고 데이터베이스의 테이블이면 어떤 테이블이 있는지 모두 기술해 봅니다. 

 

더보기

결측치 

변수 내에 값이 항상 있는 것은 아니다. 일부 행에는 값이 없는 경우도 있다. 흔히 null, NA, NaN이나 공백 등의 값으로, 쓸 수 있는 변수인지를 말해준다. 만약 어떤 변수의 관측치가 절반 이상이 결측이라면 과연 분석이 의미가 있을지 생각해볼 필요가 있다. 

 

문제가 생길 때마다 새로운 기준들을 추가하여, 오히려 문제를 더 복잡하게 만들죠. 원래의 기준에 새로운 기준을 덕지덕지 추가하고, 구조가 잘 맞지 않는 범주들로 얼룩진 마스터 테이블이 그렇습니다. 

 

코호트 분석을 통해 고객군마다 변화가 어떤지에 대해 분석한 결과는 너무나 명확합니다. 고객별로 가입일 이후 날짜 변화에 따라 접속하는 비율이 어떤 추이로 변화하는지는 가입일이나 접속률에 대한 정의가 명확하면 결과 해석이 어렵지 않습니다. 매일 변해가는 코호트 분석의 결과에 따라 향후 신규 고객을 위해 가입 단계에서 어떤 혜택을 설계하고 고객 경험의 어느 부분을 바꾸어야 하는지 명확한 인사이트를 얻을 수 있습니다. 

 

더보기

코호트 분석 

코호트는 같은 고객 집단을 뜻하는 말로써 같은 날자에 가입한 고객, 같은 날짜에 유입된 고객 등으로 활용 할 수 있다. 보통은 같은 집단의 고객을 다른 집단의 고객과 비교하면서 날짜의 변화에 따라 고객이 계속 구매하는 비율, 매출액 변화 등을 분석하는 용도로 많이 쓴다. 

기계학습 (Machine Learning) 으로 분석하는 모델을 만드는 경우에도 어떤 알고리즘을 쓰느냐에 따라 사람들의 이해도가 달라집니다. 사람들이 이해하기 쉬운 예시로는 의사결정나무가 대표적입니다. 데이터 집단을 특정 기준에 따라 나누어 가면서 고객 분류에서 가장 중요한 영향을 미치는 변수가 무엇이고 어느 기준 값에서 나누어지는지 알 수 있습니다. 

만약 어떤 카테고리의 상품구매 여부가 36세 미만의 여성 고객이라는 기준으로 가장 먼저 나누어진다면 마케팅할 대상을 분명하게 나눌 수 있습니다. 

 

데이터 분석가들은 데이터의 정확한 발생 시점, 범주의 정확한 기준과 업데이트 시기 같은 것을 파악하기 위해 많은 시간을 쏟아야 합니다. 데이터가 발생하는 부서에 문의하고 관련 문서를 보면서 정확한 내용을 알아야 하죠. 기준 하나만 달라져도 많은 왜곡이 있을 수 있으니까요.

 

그래서 비즈니스 프로세스를 모두 그려보고 각 단계를 나타내는 지표가 무엇인지 정리하는 것이 데이터 리터러시에서 중요한 시작이 됩니다. 마치 마케터들이 '퍼널(Funnel) 분석'을 하듯 고객이 유입되는 시점부터 각 페이즈를 지나 결제에 이르기까지, 각 프로세스의 KPI (Key Performance Indicator)를 정하고 이를 참조하는 것이 데이터를 정확히 이해하는 데 도움을 줍니다.

 

더보기

퍼널 분석 

고객에게 제공하는 서비스의 고객 유입부터 구매까지 이어지는 각 단계의 흐름을 분석하는 것 

깔때기처럼 많은 고객이 처음에 방문하지만 최종 구매까지 이어지는 고객은 좁아지는 점을 착안하여 붙여진 이름이다. 보통 서비스하는 어플리케이션에서 고객의 첫 방문부터 각 페이지별로 얼마나 많은 고객이 이탈하는지 알아보고, 이탈이 심한 단계의 고객 경험을 개선하는 과정으로 이어진다. 

 

AARRR 이라는 컨셉이 많이 쓰이며 Acquisition (첫 방문), Activation (회원 가입), Revenue(첫 구매), Retention(재구매), Referral (지인 소개) 로 구체화된다. 주요 단계를 어떻게 정의하든 고객의 주요 경험 단계에서 어디가 가장 취약한지를 지금 까지 쌓인 데이터로 분석한다는 것이 중요하다. 

 

가설을 세우고 세부 기준을 공유하며 한계를 받아들이고 팩트로 피드백 합니다. 

데이터 다루는 일을 주업으로 하고 있지 않다면 문제를 데이터로 해결할 수 있는 수준으로 만드는 연습부터 필요합니다. 어떤 데이터를 어떤 조건으로 정리해서 그 중 무엇을 보아야 하는지, 그리고 다른 것과 어떤 것을 비교할지를 정의할 수 있다면 문제 해결이 빨라집니다. 가설을 세우느 과정이죠, 활용하는 데이터는 어떻게 나왔는지 세부 기준을 공유 합니다. 

고객 행동 관련 내용이라면 어떤 것만 여기에 카운트되어 있는지 정확하게 이해하고 문제 해결에 맞는지 정리합니다. 

보유하고 있는 데이터의 성격에 따라 활용할 수 있는 모델은 달라집니다. 

 

마찬가지로 비즈니스 현장에서 일어나는 상당 부분의 문제는 최초 정의가 중요하며, 대부분은 분석가의 가설로 이뤄집니다. 

 

어떤 단어와 다른 단어의 문장 내 동시 출현 빈도를 통해 단어 사이의 네트워크 연결을 분석 할 수 있습니다. 하지만 이 과정에서 얼마나 많은 동시 출현 빈도가 유의미하다 할지 기준을 정해야 합니다. 너무 적은 빈도까지도 포함시키게 되면 네트워크는 사람이 이해하지 못할 정도로 복잡해져버립니다. 그와 반대로 너무 높은 허들을 걸어도 얻을 내용이 별로 없을 수 있죠. 이 모든 과정에서 사람의 판단이 개입됩니다. 

 

"우리의 큰 문제는 무엇인가? "

데이터를 통해 얻고자 하는 것이 될 테니 근원적인 답답함을 먼저 정의하는 게 중요합니다. 데이터 분석의 시작은 큰 문제를 만드는 가장 핵심적인 작은 문제를 찾아 해결 문제로 전환하는 데 있으니까요. 

  • 재무제표에서 비교 기간 대비 목표 미달이나 가장 큰 폭으로 감소한 지표는 무엇인가요? 
  • 서비스 중인 카테고라에서 의도와 달리 가장 크게 어려움을 겪고 있는 항목은 무엇인가요? 
  • 신규 서비스임에도 매출 성장이 너무 적거나, 업계 평균대비 이익이 너무 낮은 것은 아닌가요 ? 

각각 재무재표, OKR (성과 목표를 달성하기 위한 주요 과제의 정량 목표를 정하고 관리하는 경영 방법), 투자 관점에서 현재 가장 중요한 것이 무엇인지 생각해볼 만한 포인트 입니다. 

이렇게 문제를 접근하는 방식을 '하향식 접근법(Top-Down Approach)' 이라 하며, 문제를 해결하는 시간은 짧지만 기존에 보지 못했던 새로운 문제를 데이터를 통해 찾는 묘미는 없습니다. 

하지만 데이터를 처음 다루는 분들에게는 데이터만 놓고 시간을 허비하는 것보다는 데이터 밖에서 문제를 사전에 정의하고 관점을 갖고 데이터를 다루는 것이 더 효과적입니다. 어디에 초점을 맞추어야 하는지를 평소에 많이 고민한 사람이 알 가능성이 더 높기 때문이다. 

 

"먼저 분석할 가장 핵심적인 작은 원인을 가설로 만들자"