티스토리 뷰

Books

최소한의 데이터 리터러시

루돌푸다요 2024. 4. 11. 18:57

Yes24.com

21세기 미래 역량, 4C 

Communication 의사소통 능력, Collaboration 협업 능력, Critical thinking 비판적 사고, Creativity 창의성 

이 네가지의 앞 글자를 따서 4C 라고 하며, 이것들을 '미래 역량' 이라고 합니다. 

 

Communication 의사소통 능력 에서 의사소통을 정의하는 글에서는 '공유Sharing가 핵심 키워드 입니다. 

생각과 질문, 아이디어와 문제 해결 방법을 함께 나누는 것이 의사소통 이라고 설명하고 있습니다. 

 

Critical thinking 비판적 사고 어떤 문제를 새로운 관점으로 바라보고, 기존에 알고 있던 과목과 다른 학문들을

서로 연결시킬 수 있는 역량이 바로 비판적 사고라고 설명합니다. 

 

Creativity 창의성 , 창의성이란 무언가를  하기 위한 시도인데, 여기서 시도는 군대에서 훈련하는 것처럼 

반복숙달을 통한 것이 아닌, 새로운 접근 방식으로 계획하고 행동 하는 것 입니다. 

 

대중교통 데이터에 질문하고 답 찾기 

import csv 
data = csv.reader(open('subway2003.csv', encoding = 'cp949'))
next(data)
next(data)

i = int(input('몇 시가 궁금하신가요?')) -4
mx = 0 
max_station = ''
for row in data :
	if int(mx) <int(row[2+(i*2)]) : 
    mx =row[2+(i*2)]
    max_station = row[1] +'('+row[0] +')'
print(max_station, mx)

 

데이터를 읽고 쓰는 데이터 리터러시 키우기 

 

현실에 대한 명확한 근거를 바탕으로 미래를 예측해야 더 정확하게 예측할 수 있습니다.

즉, 데이터 기반의 의사결정이 중요합니다. 관심 있는 데이터에 여러분이 진짜로
궁금한 질문을 던지는 것이 중요합니다. 그래서 인공 지능 시대에 할 수 있는 가장 가치 있는 일은
데이터를 살펴보며 가치 있는 질문을 던지고, 좋은 문제를 발견해서 잘 정의 하는 것 입니다.
반가운 소식은 이를 위해 엄청나게 큰 데이터가 필요하지 않다는 것 입니다. 

작은 데이터에 던질 수 있는 질문은 무궁무진 합니다. 

 

데이터를 잘 읽고 쓰려면 데이터에 대한 배경 지식이 매우 중요합니다. 데이터에서 좋은 질문을 발견하려면 
해당 분야에 대한 배경 지식이 반드시 필요합니다. 앞서 기온, 대중교통, 인구 데이터를 바탕으로

데이터 리터러시를 설명한 이유는 대부분의 사람들이 배경지식을 갖고 있는 일반적인 데이터이기 때문입니다. 

 

하지만 이 책에서 데이터를 읽고 쓰는 법을 배운 다음에는 꼭 나의 전문 분야나 관심있는 분야의 데이터를 찾아서

연습 하는 것이 좋습니다. 데이터 분석 방법을 알면 문제 발견 및 해결 능력을 높일 수 있습니다.

내가 직접 문제 해결 과정을설계하고 해결해본 경험이 있느냐 없느냐는 결과에 큰 영향을 미칩니다. 

 

마지막으로 데이터 리터러시 능력을 키우고 싶다면 문제에 대한 답을 '찾는' 방법을 배우고 익히는 것을 목적으로 

삼고 항상 비판적인 관점을 갖고 데이터를 바라보기 바랍니다. 

 

더보기

 평점을 매긴 사용자 수는 총 40명이므로, 평균 평점을 구하는 식은 다음과 같습니다. 

평균 = {(1점x10명) + (2점x4명)+(3점x10명)+(4점x9명)+(5점x7명)} / 40명 =119/40 =2.975점 

 

 

소비자 측면의 질문  핵심 개념(키워드) 생산자 측면의 질문 
누가 이데이터를 만들었는가?  모든 메시지는 구성된다(저자) 나는 무엇을 제작하고 있는가? 
이 데이터는 나의 주목을 끌기 위해 어떤 창의적인 기법을 사용 했는가 ?  통계 자료는 그 자체의 규칙 속에서 창의적인 언어를 사용해 구성된다(형식) 나의 통계 자료는 형식,창의성,기술에 대한 이해를 반영하고 있는가? 
사람들이 통계 자료를 어떻게 다르게 
이해 하는가 ? 
동일한 자료라도 사람들은 다르게 
경험한다 (청자) 
나의 자료는 사람들에게 각기 다른 
반응을 자아내는가? 
이 자료에는 어떤 가치나 관점들이 
반영, 혹은 생략 되어 있는가? 
데이터는 내재된 가치나 관점을 
가진다 (콘텐츠) 
내가 만든 통계 자료는 내 자신의 
가치나 관점을 명확하고 일관성 있게 
제시하고 있는가? 
이 통계 자료는 왜 발표되었는가?  대부분의 통계 자료는 이익 혹은 권력을 얻기 위해 만들어진 것이다 (목적)  나는 내가 말하고자 하는 것을 효율적으로 전달하고 있는가? 

데이터 리터러시를 위한 다섯 개의 핵심 개념과 핵심 질문 

 

 

 

사용자 항목에 매긴 평점을 나타낸 선호 행렬 예시

 

평점의 유클리디안 거리

평균은 계산 시 모든 값을 반영하기 때문에 중앙값보다 극단적인 값에 영향을 더 많이 받기 때문이죠. 
따라서 자료의 분포가 비대칭형인 경우에는 평균보다 중앙값이 대푯값으로 더 적절 합니다. 

 

자료의 퍼짐을 나타내는 값, 산포도 

자료의 퍼진 정도를 수치적으로 나타내는 값을 '산포도'라 합니다. 산포도란 한자로 흩어질 산, 펼포, 정도 도 로 

말 그대로 자료가 흩어지고 퍼져 있는 정도를 의미합니다. 

 

고등학교 성적표를 보면 산포도가 사용되는데, 바로 과목 평균과 함께 적힌 '표준편차' 입니다. 여기서 표준편차는 

평균으로부터 학생들의 점수가 얼마나 떨어져 있는지를 나타내는 산포도 입니다. 참고로 평균과 각 점수의 차이를 

구해 이 차이들을 제곱해 모두 양수로 만든 후 평균을 구한 것을 '분산' 이라고 합니다. 이때 단위를 원래의 자료와 

통일하기 위해 표준편차는 분산의 양의 제곱근으로 계산합니다. 

 

산포도는 자료의 중심으로부터 값들이 얼마나 흩어져 있는지를 수치적으로 보여주기 때문에 

대푯값과 함께 사용됩니다. 대푯값이 중앙값인 경우 자료의 흩어진 정도를 어떻게 나타낼까요? 이때는 

'범위' 와 '사분위수 범위' 를 이용 합니다. 여기서 범위(Range) 는 가장 간단한 산포도로, 최대값과 최솟값의 

차이를 나타내는 지표 입니다. 

 

범위가 클수록 산포도가 크다고 볼수 있습니다. 그러나 범위는 자료의 끝과 끝의 틀만 잡아주는 것이기에, 가운데에 

자료가 어떻게 흩어져 있는지 나타낼 값이 추가로 필요합니다. 그 역할을 해주는 것이 사분위수 범위 (IQR) 입니다. 

데이터의 중앙값을 기준으로 상위 25%와 하위 25%에 해당하는 값들의 차이를 나타내는 지표이죠. 

 

더보기

다음과 같이 10개의 값이 있다고 합시다. 사분위수를 구하려면 일단 자료를 크기 순서대로 나열 해야 합니다.

 

71 97 82 42 100 56 90 50 88 78 

43 50 56 71 78 82 88 90 97 100 

 

여기서 자료를 절반으로 자르는 수를 찾아봅시다. 앞서 자료를 크기 순서대로 나열 했을 때 중간에 위치하는 값을 

중앙값이라고 했습니다. 전체 자료의 개수가 작수이므로 중앙값은 78과 82의 평균인 80이 됩니다. 

 

43 50 56 71 78   ||  82 88 90 97 100 

여기서 중앙값을 80을 기준으로 왼쪽 수들의 중앙값을 구하면 56이고, 중앙값을 기준으로 오른쪽 수들의 중앙값을 
구하면 90 입니다. 

 

이렇게 구한 세 값 56,80, 90이 각각 앞에서 부터 차례대로 제 1사분위수, 2사분위수, 3사분위수 이고 

각각의 자료의 25%, 50%, 75% 위치를 나타냅니다. 따라서 자료의 중앙 50% 의 범위를 나타내는 사분위수 범위는 

제 3사분위수에서 제 1사분위수를 빼면 됩니다. 여기서는 90에서 56을 뺀 값인 34가 사분위수 범위가 되죠. 

이 사분위수 범위가 클수록 중심에 있는 자료들이 중앙값으로부터 넓게 퍼져 있고, 작을 수록 중앙값 

근처에 모여 있다는 것을 알 수 있습니다. 

 

43 50 ||56|| 71 78 || 82 88 ||90|| 97 100 

 

제 1 사분위수 56 (25%) 

제 2 사분위수 78 || 82 사이 (50%) 

제 3 사분위수 90 (75%) 

 

(사분위수 범위) = (제 3사분위수) - (제1사분위수)  

Box plot 자료의 분포를 직사각형 상자 모양으로 나타낸 그래프로, 정식 명칭은 상자-수염그림 입니다. 

이는 가운데에 상자가 있고 양쪽으로 길게 뻗은 선이 수염과 같다고 해서 붙은 이름입니다. 

수염이 범위, 상자가 사분위수 범위를 의미합니다. 수염은 최솟값과 최댓값의 차이로 전체적인 

자료의 퍼진 정도를 나타내고, 상자는 중간 50%에 해당되는 자료의 분포 정도를 나타냅니다. 따라서 상자의

길이가 길수록 중위 부분의 자료가 멀리 퍼져 있고, 작을수록 밀집되어 있다는 것을 확인 할 수 있습니다. 

 

더보기

인과관계 : 원인이 달라지면 결과가 달라지는 관계 

상관관계 : 두 사건이 관련성이 있다고 보이는 관계 

뉴욕타임스로 데이터 리터러시를 기르는 방법 

  1. 그래프에 내재된 사실이 무엇인지 살펴보는 통계적 안목과 데이터 해석 능력을 키울 수 있습니다. 
    뉴스와 신문 기사뿐만 아니라 우리가 자주 접하는 SNS 에도 정말 수많은 그래프가 등장합니다.
    그리고 이 그래프를 바탕으로 댓글을 달며 토론하고, 의사결정에 활용하기도 합니다.
    그래프를 볼 때 어떤 점을 주의해야 하는지, 그래프를 효과적으로 해석하는 방법이 무엇인지 등
    정답은 없어도 다른 사람들과 의견을 나누며 새로운 사실을 알게 됩니다. 
    이때 왜곡하지 않고 비판적으로 해석해야 하는 것을 잊지 말아야겠죠.
    또한, 다른사람들과 의견을 나누는 과정에서 다른 사람들의 생각과 존중하는 습관을 들이는 게 중요합니다
  2. 다양한 종류의 멋진 시각화 방법에 대해 배울 수 있습니다.
    우리가 학교에서 배우는 그래프는 막대그래프,원그래프,
    히스토그램, 상자그림 등이지만 그래프의 종류는 수없이 많습니다.
    심지어 우리가 새로운 유형의 그래프를 만들어 낼 수도 있습니다. 예를 들어 볼까요?
    백의의 천사로도 잘 알려진 나이팅 게일은 사실 데이터 시각화의 선구자 이기도 합니다.
    나이팅 게일이 만든 그래프 중 가장 유명한 시각화는 로즈 다이어그램 입니다.
    기존에 없던 새로운 그래프를 자료의 목적에 맞게 만든 것이죠. 

3. 효과적인 전달을 위한 데이터 시각화 방법을 배울 수 있습니다.
같은 데이터를 같은 유형의 그래프로 시각화 하더라도 명암이나 색감,
강조 주석 방법에 따라 전달력이 많이 달라집니다.주석은 주요 정보를 강조하는 방법입니다. 

4. 마지막으로 현실 세계와 연결하는 경험을 할 수 있습니다. 당연히 실제 데이터를 바탕으로 시각화 한 것이고,
소재 자체도 중요한 소재를 주로 다루기 때문에 세계를 공부하고 현실의 맥락을 읽을 수 있는 정말 좋은 자료가 됩니다

목적  단계 
문제 파악  1단계. 문제 설정 
현상 파악  2단계. 데이터 수집 및 분석 
원인 파악  3단계. 결론 도출 
방법 모색  4단계. 문제 해결 

 

  • 1단계 에서는 문제 해결 목적을 명료하게 세우고 문제를 구체적으로 설정해야 합니다.
    문제 해결 목적을 잘 세우려면 먼저 문제 상황을 정확히 파악하고 문제를 해결하려는 의지를 가져야 합니다.
    이 목적이 명확해야 데이터 기반 문제 해결 방향이 정해지기 때문입니다.
    또 복잡한 상황 속에서 구조화된 사고를 통해 핵심 문제를 정의할 수 있어야 합니다.
    첫 번째 단추가 가장 중요하듯 1단계에서 문제를 어떻게 설정하는지에 따라 어떤 데이터를 어떠한 방법으로 
    탐색하고 수집할지 정해진다는 것을 꼭 기억하세요 . 
  • 2단계는 데이터 수집 및 분석을 통해 문제 현상을 파악하는 과정입니다.
    문제의 근본적 원일을 꿰뚫어 보려면 문제 상황의 기저에 깔린 현상을 파악해야 하고,
    현상을 파악하려면 앞서 설정한 문제에 대해 적절한 데이터를 수집하고 분석하는 과정이 필요합니다.
    이때 모든 과정을 처음부터 완벽히 해내겠다는 생각은 내려놓는 것이 좋습니다.
    설정한 문제를 해결하기 위해 적절한 데이터를 수집하고, 수집한 데이터가 적절한지 검증하는 과정은 
    수많은 시행착오를 통해 완성되기 때문이죠. 수집한 데이터가 앞서 정의한 문제 해결에 적합한지
    여부를 검증 한 후 적절한 분석 도구를 통해 데이터를 구조화 하고 시각화 합니다. 
  • 3단계는 문제가 발생한 근본적인 원인을 파악하고 해결 방안을 도출하는 과정 입니다.
    이때 이전 단계에서 분석한 내용을 토대로 문제가 발생한 원인을 도출하는데,
    단순히 내가 분석한 결과에만 의존하는 것이 아니라 ,
    다양한 시각과 의견을 수용하는 것이 중요합니다.비판적인 시각으로 다른 사람들과 생각을 나누면서
    분석한 내용과문제 발생 요인을 검증하는 것이 좋습니다.
    이러한 과정을 통해 미래 4C 역량 중의사소통 역량과 비판적 사고 역량을 기를 수 있습니다. 
  • 마지막 4단계 에서는 문제 해결 방안을 실행시킬 방법을 모색해야 합니다.
    이를 위해서는 이전 단계에서 도출한 결론, 즉 해결 방안을 구체화하고
    구현할 수 있는 방법을 고민해야 하겠죠. 실행 가능한 해결 방안을 선정하고,
    이를 체계적으로 실행하는 것이 문제 해결을 완성하는 마지막 단계 입니다.