티스토리 뷰

 

 

| 데이터 vs 정보 

정보란 파생된 지식을 말한다. 우리는 프로세스 측정, 새로운 발상, 예술작품 관람, 특정 주제에 대한 논의 등 다양한 활동을 통해 지식을 얻을 수 있다. 인공위성 센서부터 인간 뇌에서 번뜩이는 뉴런에 이르기까지 정보는 끊임없이 생성된다.

그러나 정보를 포착하고 전달하는 일이 늘 간단하지만은 않다. 측정하기 쉬운 것이 있는 반면 그렇지 않은 것도 있다. 하지만 우리는 서로에게 혜택을 주기 위해, 지식을 전달하기 위해, 그리고 우리가 배운 것을 기억하기 위해 노력한다. 

정보를 전달하고 저장하려면 정보를 부호화 해야 한다. 이와 같은 부호화를 통해 데이터가 생성된다.

따라서 데이터란 부호화된 정보를 말한다. 

 

| 데이터 유형 

 

가장 일반적인 데이터 유형은 수치형 데이터범주형 데이터다. 

수치형 데이터는 대부분 숫자로 이뤄지지만 단위 식별을 위해 다른 기호를 사용할 수도 있다. 범주형 데이터는 주로 단어나 기호, 구절로 이뤄지며, 우편번호처럼 숫자를 쓸 때도 있다. 

수치형 데이터에는 다음과 같은 두 가지 유형이 있다.

  • 연속형 데이터는 수직선 상의 어떠한 숫자도 가능하다. 즉 기본적으로 '비가산 집합'의 값들을 의미한다. 날씨를 생각 해보자. 외부 온도를 수집해서 데이터로 변환하는 경우 해당 기온은 연속형 변수다. 측정한 기온이 섭씨 18.68도라면 방송국은 '오늘의 날씨' 프로그램에서 아마도 섭씨 18도나 19도, 19.7도 중 하나를 골라 보도할 것이다. 
  • 이산형 데이터 는 연속형 데이터와는 달리 데이터를 0과 자연수로만 나타낸다. 예를 들면 보유 자동차 대수는 0, 1, 2 이겠지만 1.23은 될 수 없다. 이는 측정하는 대상의 실체를 반영한다. 

범주형 데이터에는 다음과 같은 두 가지 유형이 있다.

  • 순서형 데이터는 고유한 순서를 가지는 범주형 데이터다. 예를 들어 설문 조사에서 1부터 10까지의 숫자로 경험을 평가하라고 할 때는 서수형 데이터를 사용한다. 마치 이산형 데이터처럼 보이지만, 10과 9 라는 두 설문 결과 차이가 1과0이라는 결과 차이와 동일하다고 보기는 어렵다. 물론 서수형 범주형 데이터가 꼭 숫자로 부호화될 필요는 없다. 예를 들어 셔츠 사이즈는 스몰(S), 미디움(M), 라지(L), 엑스라지(XL) 같은 서수형 데이터로 표현할 수 있다. 
  • 명목형 데이터 는 따라야 할 고유한 순서가 없다.  명목형 변수로는 '예/아니요' 응답 또는 '민주당/공화당' 소속등이 있다. 이런 변수의 순서는 항상 임의로 정해진다. 즉 어떤 범주가 다른 범주에 비해 '크다'고 말할 수 없다. 

 | 관측 데이터 vs 실험 데이터 

데이터는 수집 방식에 따라 관측 데이터와 실험 데이터로 나눌 수 있다. 

  • 관측 데이터 란 어떤 과정을 수동적으로 관측하는 사람이나 컴퓨터가 관찰하거나 청취한 내용을 기반으로 수집된 데이터를 말한다. 
  • 실험 데이터 란 미리 정해진 방법론을 이용해, 과학적 방법에 따라 수집된 데이터를 말한다. 

여러분이 업무나 일상에서 보는 데이터는 대부분 관측 데이터다. 웹사이트 방문 횟수, 특정 날짜의 판매량, 매일 받는 이메일 개수 등이 관측데이터에 속하며, 특정 목적을 위해 저장되거나 때로는 아무 목적 없이 저장되기도 한다. 이런 유형의 데이터에 대해 우리는 '데이터를 찾았다' 라는 표현을 쓴다. 관측데이터는 판매 거래, 신용카드 결제, 엑스 게시물, 페이스북 '좋아요' 같은 행위의 부산물로 생성된다. 대체로 관측 데이터는 돈이 들지 않고 수월하다는 이유로 수집되지만, 때로 고객 설문이나 정치 여론조사처럼 계획적으로 수집되는 경우도 있다. 

 

실험데이터를 수집하려면 시험 대상(사람 또는 사물)을 무작위로 지정해야 한다. 실험 데이터를 생성하는 대표적인 예로 약물 임상시험이 있다. 환자들은 무작위로 시험군대조군 이라는 두 집단으로 나뉜다. 시험군에게는 진짜 약을 주고 대조군에게는 가짜 약을 준다. 환자군을 무작위로 나눔으로써 연구와 관련 없는 정보(연령, 사회경제적 지위, 체중 등)의 영향을 상쇄시켜서 처치 이외의 모든 면에서 두 그룹을 최대한 비슷하게 만든다. 이를 통해 연구자들은 처치 효과만 분리해 측정할 수 있으며, 실험 결과에 영향을 미칠 수 있는 잠재적 교란변수에 대해서는 걱정할 필요가 없다. 

 

| 기본적인 요약 통계량 

데이터가 항상 데이터셋이나 스프레드시트 형태인 것은 아니다 데이터는 주로 요약 통계량 형태로 표현된다. 요약 통계량을 이요하면 데이터 셋에 대한 정보를 이해하기 쉽다. 

가장 일반적인 요약 통계량 세 가지는 평균, 중앙값, 최빈값으로서 모두에게 익숙한 용어일 것이다. 그러나 일상 용어인 '정상적인', '일반적인', '전형적인', '평균' 등이 통계 용어들과 동의어로 사용되고 있기 때문에 이에 대해 잠시 살펴보고자 한다.

 

  • 평균은 모든 숫자의 합을 전체 개수로 나눈 값이다. 이 계산을 통해 우리는 모든 관측값이 동일하다고 가정할 때 원래의 각 관측값이 전체 합계에 기여하는 정도를 헤아릴 수 있다. 평균은 영어로 mean 이지만 average 라고도 말한다. 
  • 중앙값은 차례대로 정렬된 전체 데이터의 중앙에 놓인 값이다. 
  • 최빈값은 데이터에서 가장 자주 등장하는 값이다. 

평균, 중앙값, 최빈값은 위치 측정값 또는 중심 경향 측정값 이라 불린다. 반면 변동성 측정값인 분산, 범위, 표준편차는 데이터의 분포 측정값 이다. 위치 측정값은 대표값이 수직선상 어디에 있는지를 보여주며, 분포는 그 이외의 값들이 대표값으로부터 얼마나 퍼져 있는지를 보여준다. 간단한 예로 7, 5, 4, 8, 4, 2, 9, 4, 100이라는 숫자들의 평균은 15.89, 중앙값은 5, 최빈값은 4다. 여기서 평균인 15.89는 원래의 데이터에서는 볼 수 없는 숫자인데, 이런 예는 상당히 많다. 미국의 가구당 평균 인원수는 2.63명이며 유명한 미국의 농구 선수 르브론 제임스의 게임당 평균 득점은 27.1이다. 

사람들은 평균값을 데이터의 중간 지점으로 오해하는 경우가 많은데, 사실은 중앙값이 실제 중간 지점이다. 또한 주어진 숫자들의 절반은 평균 보다 작은 수이며 나머지 절반이 평균보다 큰 수라고 생각하지만,이것도 사실이 아니다. 사실 대부분의 데이터가 평균 이상(또는 이하) 지점에 놓여있다. 예를 들면 대다수 사람들은 평균(9.x)보다 많은 수의 손가락을 가지고 있다.  혼돈이나 착각을 피하려면 '평균', '중앙값', '최빈값' 과 같은 명확한 용어를 쓰자 '일반적인', '전형적인', '정상적인' 등의 단어는 되도록 사용하지 말아야 한다.