티스토리 뷰

 

데이터 분석, 꼭 알아야 할 15가지 

  1. Garbage in, Garbage Outr 
    가장 중요하면서도 핵심이 되는 말이다. 데이터가 쓰레기면 아무리 날고뛰는 분석 도구를 사용한다 하더라도 
    결과물은 쓰레기다. 한마디로 말해 사용할 수 없는 데이터다.
  2. 분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다.
    기계학습 Machine Learnig 이 비약적으로 발전하면서 데이터 분석에 쓸 수 있는 도구들이 많아졌다. 
    이런 도구들 덕분에 분석 자체는 과거보다 훨씬 쉬워졌다. 그래서 지금은 어떤 식으로 데이터를 가져오고 
    어떤 전처리를 거쳤으며 어떤 분석 도구를 사용했는지, 이러한 과정 전체인 분석 시스템 설계가 
    훨씬 더 중요해졌다.그리고 이때 필요한 지식은 분석 시스템/프로세스 설계 지식이지, 데이터 분석 
    그 자체는 아니다. 
  3. 웬만한 건 고등학교 수준의 통계학만으로도 가능하다. 
    복잡한 기계학습을 하거나 사회 관계망 분석 Social Network Analysis 같은 고난도 분석 도구를 사용 할 때도 
    있지만, 실무에서 부딪히는 대부분의 문제는 고등학교 수준의 지식만으로도 해결이 가능하다. 
    예를 들어 마케팅 쪽에서 데이터 사이언스를 적용한다고 해서, 마케팅 관련 강의가 열릴 때 마다 등장하는 
    A/B 테스트가 있다. 이는 가설-검정 Hypothesis Test 기법의 하나로 고등학교 때 배운다. 
    우리가 데이터 분석을 어려워 하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다. 


  4. 모든 데이터 사이언스는 "측정 -> 수집 -> 분석" 의 단계를 따른다. 
    어떤 영역에서든 데이터 사이언스는 측정, 수집, 분석의 3단계가 필요하다. 물론, 상황에 따라서 일부 
    단계가 간소화되기도 하지만 반드시 필요한 절차다.  제대로 된 측정이 있었다면 수집과 전처리 과정은 
    수월하다. 그러면 분석은 그냥 간단한 분석 도구로도 가능하다. 그리고 측정이 엉망이더라도 수집과 전처리를 
    기가 막히게 해냈다면 간단한 분석 도구(기초 통계) 만으로도 문제 해결에 필요한 결과를 얻을 수 있다. 

  5. 데이터 사이언스 실무에서 가장 중요한 것은 측정이다.
    흔히, 데이터 사이언스를 배울 때 꼭 전제되는 것이 준비된 데이터 묶음이 있다는 가정이다. 
    측정Measurement과 수집은 "이런 데이터 묶음이 있다" 는 식으로 건너뛰고 여러 가지 분석 기법을 배운다. 
    하지만 정작 중요한 것은 측정이다. 측정이 중요한 이유는 식당 매니저 (혹은 사장) 와 요리사 관계를 생각하면 된다. 
    즉, 매니저가 요리를 직접 하지는 않지만 어느 정도 알고 있으며 할 줄도 알아야 원활한 식당 운영이 가능하다. 
    매니저가 요리를 할 줄 모르면 그 식당은 망하거나 어마 무시한 재정적 출혈을 감당해야 한다. 
    데이터 사이언스에서도 마찬가지이다. 설령, 본인이 직접 측정을 하지 않는다 하더라도, 스케일 에 맞게 
    측정을 할 줄 알아야 제대로 된 분석이 가능하다. 


  6. 측정에는 측정 장비와 스케일을 포함한다. 
  7. 그래서 중요한 것이 스케일이다. 
  8. 데이터 사이언스를 위해 필요한 기초 과목은 (실험)물리이다. 
  9. 대체 지표로 측정한 것은 가짜다. 
  10. 데이터 수집에는 전처리 과정을 포함한다. 
  11. 전처리에서 중요한 기초 과목은 신호처리이다. 
  12. 되도록이면 적은 데이터를 모으는 게 바람직하다. 
    빅데이터 시대라고 하니, 무조건 데이터가 많은 것이 좋은것인 양 생각되기도 하지만 될 수 있으면 
    적은 데이터로 간단한 분석 도구를 써서 문제를 해결하는 것이 좋다. 

  13. 가장 좋은 해결은 데이터 분석 없이 문제를 해결 하는 것이다. 
  14. 데이터 사이언스느 만병통치약이 아니다. 
  15. 데이터 분석이 강력한 한방일 필요는 없다. 

데이터 사이의 관계를 분석해주는 수학 이론이 바로 회귀 분석(Regression Analysis)이다.
회귀분석은 독립 변수와 종속변수 사이의 관계를 추정하는 통계적 기법으로 이를 통해 데이터의 패턴을 이해하고 
미랫값이나 결과를 예측하는 데 사용한다. 통계를 전공했거나 데이터 분석과 관련된 직업군에 속해 있다면 
회귀분석을 피해 갈 수 없을 정도로 데이터의 상호관계를 분석하는데 유용할 뿐만 아니라, 많은 양의 데이터를 사용 할 
경우 결과에 대한 신뢰도도 올릴 수 있는 강력한 도구 이다. 
좀 더 설명하자면, 선형회귀분석(회귀분석 중에서 x-y의 관계가 선형적인 형태 y = ax=b 의 모양 같은) 을 기반으로 
상관관계를 분석하는 것은 변수들 사이의 관계를 일반화 시켜 준다는 의미가 있다. 

 

치킨과 프로야구 

"프로야구 구단의 전력이 높으면(X), 해당 구장 치킨 판매량이 증가(Y)" 라는 명제로 표현이 가능하고, 
이 명제는 여러 가지 정황상 타당한 명제(즉, 참인 명제)로 보인다. 구단의 전력이 높으면 재미있는 
경기를 할 가능성이 높고, 그렇게 되면 관중이 많아지고 관중 수에 비례해 치킨 판매량도 늘어난다는 
추측이 가능하다. 그렇다면 "치킨 판매량이 증가하면, 해당 구단 전략이 높을까?" 아이러니하게도 기사에서는 
치킨 판매량이 증가(Y)하면 구단 전략이 높은(X)것으로 그리고 이 두 변수 (치킨 판매량과 야구단 전력)는 
약한 상관관계가 있는 것으로 결론을 맺는다. 

 

올바른 데이터 분석을 위해서는 변수 사이의 관계를 분석하지 않고서도 상식처럼 알 수 있는 포인트는 

놓쳐서 안 된다. 모기약을 많이 산다고 모기가 늘고, 치킨 판매량이 는다고 야구 경기력이 향상 된다는 것이 

틀렸다는 것 쯤은 누구나 알만한 상식 수준의 판단이다. 이를 좀 더 고급스럽게 표현하면, 변수들 사이의 

관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다는 것이다. 

그리고 이러한 데이터들 사이의 인과성을 증명하기 위해서는 기본적으로 수학, 물리학에 대한 지속적인

훈련을 필요로 한다. 왜냐하면, 어떤 현상에 대한 인과관계를 분석하는 데 있어서, 인간의 "말 빨" 

(치킨 판매량과 야구 경기력을 빅데이터 어쩌구 저쩌구 하면서 기사를 써낸 기자의 말빨) 이 아닌 

"수학적 언어로 묘사하고, 풀어가는 훈련" 이 중요하기 때문이다. 치킨과 구단 전력과의 관계를 분석한 

기사를 작성한 기자가 물리와 수학 공부를 조금만 더 열심히 했더라도, 본인도 그 의미를 정확히 모르지 
빅데이터라는 단어를 빌어 망발을 하지는 않았을 것이다. 

 

요즘 세상은 감성을 중요시하고, 인문학적 소양을 강좋나다. 다만 필자의 관점에서 봤을 땐, 세상을 올바르게

이해하는데 있어서 논리적으로 세상을 바라보는 능력(물리학적 소양)과 그렇게 바라본 세상을 논리에 맞게 
풀어가는 능력 (수학적 소양) (이 둘을 합쳐서 "과학적 소양" 이라 칭하기도 한다) 또한 중요하다. 
그래서 이러한 과학적 소양이 빠진 인문학은 진짜 인문학이 아니며 이런 사회는 구성원 스스로를 합리적이고 
똑똑한 존재인양 착각하게 만든다.

 

예측Prediction 이 아닌 패턴 Pattern 

예측과 패턴은 둘 다 앞으로 일어날 일에 대한 결과 추측이라는 점에서는 닮았다.

그래서 사람들은 예측과 패턴을 같은 의미로 사용 하기도 한다. 하지만 예측과 패턴은 엄연히 다르다. 

이 둘을 구분하는 기준은 바로 '시간의영향력'(혹은 재현성)이다.시간의 영향력이 크면(즉, 시간에 따라 

결과가 달라지거나 바뀌게 된다면) 예측의 문제가 되고, 시간의 영향력이 없거나 작으면 패턴의 문제가 된다. 

시간의 영향력이 크다는 의미는 시간에 따라 그때그때 데이터가 변한다는 것을 말한다. 

 

예측을 목적으로 하는 데이터 분석의 경우 정작 목표로 잡아야 할 것은 미래의 예측이 아니라 과거 데이터에서 
'패턴'을 찾는 것이다. 이처럼 예측이 패턴 찾기가 되면 시간에 따라 예측을 하는 것이 아니라, 특정 조건이 맞으면 
예상되는 결과를 도출해 내는 단계가 된다. 이러한 패턴 기반의 데이터 분석은 엄밀하게 보면 예측은 아니지만, 

그와 비슷한 효과를 낼 수 있다. 

어떠한 문제점이나 현상에 대한 패턴을 찾는다는 점에서 예측은 데이터 분석에서 여전히 의미가 있다. 다만 문제 

자체에 대한 본질과 함께 데이터 분석이 가지는 태생적인 속성도 함께 고려해야 한다.  

 

데이터 분석 도구가 파워풀 할수록 모든 자원이 거덜난다. 데이터 사이언스로 뭔가를 이루고자 하는 목표가 

너무 높아도 자원이 거덜 나기는 마찬가지이다. 여기서 말하는 자원은 계산능력이 될 수도 있고, 데이터를 저장하는 메모리 용량이 될 수도 있다. 그리고 측정, 수집, 분석에 사용되는 인력, 자본 및 시간 등을 통칭 하기도 한다. 

데이터 사이언스를 하고자 다양한 도구들을 사용할 줄 아는 것도 중요하지만, 효율적으로 하기 위해서는 최신 데이터 

분석 도구 대신 문제의 본질에 따라 그에 맞는 적절한 자원과 도구를 분배 할 수 있어야 한다. 

이것이 데이터 사이언스의 효용성을 높이는 가장 확실한 방법이다.

 

데이터 리터러시를 갖고 있다는 것은 어떤 의사결정이 필요한 문제를 과학적으로 접근해 모델링을 하고, 감정이나 감성이 
아닌 합리적인 판단을 하도록 돕는 능력을 의미한다. 행동경제학은 바로 이러한 인지적 편향 문제를 해결해 나가는 학문이다. 행동경제학은 인간들이 이성적이고 합리적인 판단을 한다는 전제를 부수고 들여다보는 학문이기에, 

개인이나 집단에서 표출되는 인간 습성의 데이터를 다루는 사회과학분야에서는 꼭  필요한 학문적 도구이다. 

이러한 인지적 편향을 깨는 것들(행동 경제학, 게임 이론등 ) 을 잘 이용해야 데이터 리터러시를 갖게 된다. 

 


더보기

도구의 가치를 결정짓는 것은 그 도구를 사용하는 내가 어떤 목적으로 무엇을 하는 데 쓸 것이냐, 이다. 

나에게 필요한 이유를 알고, 이를 위한 도구 선택을 잘하기 위해서는 앞서 얘기한 통찰과 인문학적 소양이 필요하다. 

운동을 잘 하려면 즐길 수 있는 수준까지 꾸준한 연습과 경험이 필요하다. 악기 연주를 잘 하기 위해서도 

마찬가지로 꾸준한 연습과 수많은 경험이 밑바탕 되어야 한다. 수학,과학을 포함한 인문학적 소양 또는 마찬가지이다. 당장 유행하는 기술에 자신의 역량을 너무 쓰기보다 고등학교 때 까지 배웠던 기초 지식을 되새김하며 

열린 사고를 갖고서 문제의 본질에 접근하는 연습이 훨씬 더 중요하다. 필자는 이러한 사고 방식과 

연습을 '데이터를 읽는 습관' 이라고 부르고 싶다. 인문학적 소양이 충분히 쌓인다면 문제를 해결하기 위해 

당장 필요한 기술들을 익히는데, 그리 많은 역량이 필요하지 않다. 

다시 한번 반복하지만, 인문학적 소양이 기본이다. 그리고 새로운 것에 대한 호기심, 열린 사고가 

거기에 화룡점정의 역할을 한다.