티스토리 뷰
이번 3장은 데이터에 관해 어떻게 사고 해야 하는지를 다룬다. 비즈니스나 일상에서 마주치는 데이터에 관해 비판적으로 사고하고 소비하는 마음가짐을 갖추고자 한다. 이번 장은 이 책의 나머지 부분을 읽기 위한 중요한 토대가 된다.
| 질문을 하자
통계적 사고의 핵심 표어는 "질문을 하자"다.
우리 대부분은 일상에서 어느 정도 이 표어를 실천하고 있다. 여러분은 이미 데이터 관련 서적을 읽는 독자이므로 자칫 확신이 과하게 넘쳐흐르는 광고나 기이한 소셜 미디어 게시물을 보면 당연히 의심을 품을 것이라 생각한다. 따라서 이런 능력은 여러분 안에 이미 내재돼 있다. 솔직히 말해, 관찰자의 태도로 한 발 뒤 물러나 이와 같은 명백한 거짓을 낱낱이 해부해 보는것 은 꽤 흥미로운 일이다.
|'통계적 사고' 에 대한 견해
우리는 '통계적 사고' 라는 단어를 이 장 첫머리의 인용문에 정의된 일반적 의미로 사용한다. 여러분은 통계적 사고보다는 혹시 확률적 사고나 통계적 소양, 수학적 사고 같은 표현을 더 선호할지도 모르겠다. 어떤 표현이든 모두가 데이터 또는 증거에 대한 평가와 관련이 있다.
이와 같은 사고 방식이 왜 중요한지 궁금한 사람도 있을 것이다. 굳이 이렇게 사고하지 않아도 지금껏 비즈니스나 일상은 평탄히 이어져 왔으니 말이다. 그렇다면 왜 지금, 데이터 리드는 이 주제에 신경을 써야 할까?
데이터 과학 : 교양 시민이 알아야 할 사항 (Data Science : What the Educated Citizen Needs to Know)이라는 기고글에서 하버드대학의 경제학자이자 의사인 앨린 가버(Alan garber)는 그 이유를 다음과 같이 설명했다.
"오늘날 데이터 과학의 헤택은 실재하며 그 어느 때보다 중요하다. 예측이 점점 정확해짐에 따라 데이터 과학 결과물의 가치는 더욱 높아질 것이며 이 분야에 대한 관심도 커질 것이다. 하지만 간혹 이런 발전은 우리를 안주하게 하고 결함을 감춰 버리기도 한다. 미래의 연구자나 업무 종사자들은 데이터 과학이 자신들의 업무에 도움되는 한편 언제 어디에서 한계가 발생하는지를 명확히 인색해야 한다.(중략) 확률적 추론과 증거에 대한 평가를 더 깊이 이해하는 것은 모든 리가 갖춰야 할 기본 소양이다 "
| 확률과 통계
구슬이 들어 있는 큰 가방을 생각해 보자. 우리는 그 안에 담긴 구슬의 색깔도 모르고 크기나 형태 또한 알지 못한다. 가방 안에 구슬이 몇 개 들어있는지도 모르는 채 가방에 손을 넣어 한 움큼 구슬을 쥐었다.
여기서 잠시 생각해 보자. 아직 들여다보지 못한 가방 속의 구슬과 아직 펼치지 않은 주먹 안의 구슬이 있다. 가방 속 또는 주먹 안에 무엇이 있는지에 대한 정보는 전혀 없다. 이 상황을 통해 두 용어가 어떻게 다른지 설명할 수 있다.
확률이란 가방속에 무엇이 있는지 정확하게 파악하고서 그 정보를 이용해 손에 무엇을 움켜쥐었는지를 예상하는 과정이다. 반면 통계란 손에 쥔 것이 무엇인지 먼저 확인한 다음, 그렇다면 가방 속에 무엇이 있을지를 추론하는 과정이다.
즉 확률은 드릴다운 방식이고 통계는 드릴업 방식이다.
- '확률' 기반의 라스베가스 카지노: 카지노 게임을 하는 경우를 생각해 보자. 우리는 당첨 또는 꽝으로 표시된 구슬을 가방에서 꺼낸다. 가방안에는 사람들이 게임에 흥미를 잃지 않을 만큼의 당첨 구슬이 있는데, 이는 카지노 회사 측에서 변동성을 잘 이해하고 있기 때문이다. 카지노 회사는 고객이 들뜬 기분으로 게임을 지속할 수 있게끔 당첨과 꽝 확률을 최적화하는 방법으로 변동성을 상업화했다. 그러나 장기적으로 돈을 버는 곳은 카지노 회사일 것이 뻔하다. 모든 구슬을 뽑는 가방 자체를 직접 만들었고 무엇이 들어 있는지 정확히 알기 때문이다. 고객들이 베팅을 하고 테이블 위에 칩을 펼쳐놓거나 슬롯머신의 레버를 당길 때, 카지노 회사는 고객이 이기거나 당첨될 확률이 얼마일지를 이미 알고 있다. 엄청난 양의 데이터를 확보한 카지노 회사는 우리와 똑같이 변동성이 지배하는 세상에 살면서도 확률적 결과를 우리보다 더 확실히 알고 있는 것이다.
- '통계' 기반의 정치여론 조사 : 카지노에서는 구슬이 담긴 가방이 세심하게 설계되며 지속적으로 표본을 추출할 수 있다. 그러나 정치인들은 선거 당일 모든 구슬(즉 투표 결과)이 드러나기 전까지는 가방 안에 무엇이 들어 있는지 절대로 알 수 없다. 정치인들이 가방 안에 무엇이 있는지, 그리고 당선에 필요한 구슬이 충분히 있는지를 알 기회는 단 한 번의 선거 뿐이다. 선거 전에 정치인과 정당들은 무작위로 선정되는 소량의 구슬에 대해서만 알 수 있으며, 그나마 많은 비용을 지불해야 파악이 가능하다. 이 표본 추출을 통해 가방 속 내용물의 패턴을 추론하고 그에 맞게 캠페인을 조정한다.
| 통계학을 활용한 발견
통계학은 기술 통계 와 추론 통계로 나누기도 한다. 기술 통계라는 용어는 처음 들어보더라도 무슨 뜻인지는 익숙할 것이다. 기술 통계란 데이터를 요약하는 숫자들이다. 즉 신문에서 읽거나 업무회의 발표자료에서 보는 숫자들로서, 지난 분기의 평균 매출이나 전년 대비 증가율, 실업률 같은 것을 말한다. 평균, 중앙값, 범위, 분산, 표준편차 같은 측도는 기술 통계로서 특수 공식을 사용해 계산한다. 여러분이 가진 통계학 책들은 이런 내용들로 가득 차 있다.
기술 통계는 데이터를 의도적으로 지나치게 단순화한다. 예를 들어 회사의 모든 매출이 기록된 스프레드시트를 주요 정보가 요약된 몇 개의 핵심측도로 압축하는 방법이다. 앞서의 구슬 분석에 비유하자면 기술통계는 단순히 여러분의 손에 있는 구슬을 세고 요약하는 것이다. 기술 통계는 유용하지만 우리는 여기에 만족하지 않는다. 우리가 확보한 정보를 토대로 원칙에 맞게 추측함으로써 가방 속의 전체적인 모습이 어떠할지 추론하는 단계까지 확장하려고 한다. 이것이 추론 통계로서, "세상으로부터 데이터를 추출하고 그 데이터를 이용해 역으로 세상을 예측"하는 과정이다.
따라서 데이터 업무를 할 때는 여러분이 관찰한 정보는 물론이고 여러분이 느끼는 직관까지도 어느 하나 맹목적으로 받아들여서는 안 된다. 통계적으로 사고하고 질문하라. 이것이 바로 데이터 리드가 할 일이다.
'Books' 카테고리의 다른 글
데이터로 사고하고 데이터로 리드하라. _03 데이터란 무엇인가 (9) | 2024.10.10 |
---|---|
데이터로 사고하고 데이터로 리드하라. _02 무엇이 문제일까 (14) | 2024.10.09 |
데이터로 사고하고 데이터로 리드하라. _01 (8) | 2024.10.08 |
프로덕트 매니저 원칙 : '프로덕트 떼루아'를 파악하라 (0) | 2024.08.12 |
프로덕트 매니저 원칙 : '왜 안되는가' 에 집중하라 (3) | 2024.08.12 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- BA
- 북극성 지표
- 그로스 해킹
- 데이터 리터러시
- BI
- 데이터 분석가 주니어
- 퍼포먼스 마케터
- 프로덕트 분석가
- 퍼포먼스 마케팅
- 빅테크
- 데이터 분석
- 빅데이터
- 책 추천
- 기획자
- 머신러닝
- 아무일 없는것처럼
- 통계학
- 알고리즘
- 데이터분석가
- A/B테스트
- 데이터 분석가
- 프로덕트 매니저
- 설레다
- 방법론
- 데이터 분석 주니어
- 프로젝트 매니저
- ADsP
- 아하 모먼트
- PM
- 데이터 시각화
- Total
- Today
- Yesterday