티스토리 뷰
가트너그룹(Gartner Group)의 더그래니(Doun Laney) 의 정의 3V
- 빅데이터는 데이터의 양 (Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity) 가 급격히 증가하면서 나타난 현상이다.
빅데이터의 새로운 특징 4V
- 더그 래니의 3V 에 추가로 Value(가치) 또는 Veracity(정확성) 를 포함해 4V 빅데이터의 특징을 설명하기도 하는데요. 여기에 Visualization(시각화), Variability(가변성) 등을 추가하는 견해도 있습니다.
빅데이터 3가지 출현 배경
출현배경 | 내용 | ||
산업계 | 고객 데이터 축적 | -산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명 할 수 있다. - 이는 양적인 변화가 축적되면 질 적인 변화도 이루어진다는 개념이다. |
|
학계 | 거대 데이터 활용 과학 확산 | - 학계에서도 빅데이터를 다루는 현상들이 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전 하고 있다. ex. 게놈 프로젝트, NASA 의 기후 시뮬레이션 등 |
|
기술발전 | 관련 기술의 발달 | - 디지털 화의 급진전, 저장 기술의 발전과 가격하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화와 분산처리 기술 등이 모두 빅데이터 출현과 직간접적 관련이 있다. - 클라우드 컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춘 측면에서 그 중요성을 아무리 강조해도 지나치지 않는다. |
빅데이터의 기능 ★
빅데이터는 '산업혁명의 석탄, 철' | 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져 올 것으로 기대 된다. |
빅데이터는 '21세기의 원유' | 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 전망된다 |
빅데이터는 '렌즈' | 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 빅데이터도 산업 발전에 큰 영향을 미칠 것으로 기대 된다. ex. 구글의 Ngram Viewer, 현미경 |
빅데이터는 '플랫폼' | 공동 활용의 목적으로 구축된 유무형의 구조물을 말하며, 다양한 서드파티 비즈니스에 활용되어 플랫폼 역할을 할 것으로 기대 된다. ex. 페이스북, 카카오톡 등 |
빅데이터가 만들어 내는 변화 과거에서 현재로의 변화 ☆ |
|
사전처리 -> 사후 처리 | 기존 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 인사이트를 발굴 한다 |
표본조사 -> 전수 조사 | 데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서 데이터 활용 방법이 전수조사로 변화 했다. |
질 - > 양 | 수집 데이터의 양이 즐가할 경우 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있다. |
인과관계 - > 상관관계 | 신속한 의사결정을 원하는 비즈니스에서 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 그에 상응하는 행동을 추천하는 일이 점점 늘어나고 있다. |
빅데이터 가치 산정이 어려운 이유
데이터 활용 방식
- 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악 할 수 없게 되었으며 따라서 가치 산정이 어려워졌음
새로운 가치 창출
- 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 산정하기 어려워졌음
분석 기술의 발전
- 오늘은 가치가 없는 데이터일지라도 추후 새로운 분석 기법이 등장할 경우 거대한 가치를 만들어내는 재료가 될 가능성이 있음
빅데이터가 미치는 영향 : 생활 전반의 스마트화 | ||
분야 | 영향 | 내용 |
기업 | 혁신, 경쟁력 제고, 생산성 향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴 |
정부 | 환경 탐색, 상황 분석, 미래 대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출 * 미래 대응 : 법제도 및 거버넌스 시스템 정비, 미래 성장 전략, 국가안보 대응 등 |
개인 | 목적에 따른 활용 | 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용 |
- 빅데이터가 가치를 만들어내는 방식 (맥킨지의 빅데이터 보고서, 2011)
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신 등
빅데이터 활용 사례
1. 기업 혁신 사례
- 구글 : 사용자의 로그 데이터를 활용하면서 검색 기능 개발, 기존의 페이지랭크 알고리즘을 혁신
- 월마트 : 고객의 구매패턴을 분석해 상품 진열에 활용 (-> 매출 향상)
- 질병 예후 진단 및 처방 등 의료 분야에 접목
2.정부 활용 사례
- 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링 활용
- 국가안전 확보 활동 및 의료와 교육 개선을 위해 빅데이터 활용 방안 모색
3. 개인
- 정치인 : 선거 승리를 위해 사회관계망 분석을 통해 유세 지역 선정
- 가수 : 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는데 활용
미래의 빅 데이터 활용에 필요한 3요소
- 데이터 : 모든 것을 데이터 화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즘미스트
빅데이터 활용 기본 테크닉 7가지
1. 연관규칙 학습
- 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
- 연관분석 혹은 장바구니 분석으로도 불리며, 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
- 예시 : 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?, 우유 구매자가 기저귀를 더 많이 구매 하는가?
2. 유형분석
- 새로운 사건이 속할 범주/분류를 찾아내는 방법 (이 사용자는 어떤 특성을 가진 집단에 속하는가?)
예시
- 문서를 어떻게 분류할 것인가?
- 조직을 어떻게 여러 그룹으로 나눌 것인가?
- 온라인 수강생들을 특성에 따라 어떻게 분류할 것인가?
3. 유전 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법
- 진화 이론에서 영감을 받아서 개발되어 유전학의 개념을 모방하여 해결해야하는 문제의 해를 발견하는 과정에서 개체의 집합을 진화 시킴
- 여러 세대를 반복하며 최적해, 좋은 근사해를 찾아나감
예시
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 연비가 좋은 자동차를 개발하기 위해서 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까?
- 최적화된 택배 차량 배치
4. 기계학습
- 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법 (데이터 학습 -> 예측 모형 )
- 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 활용해 예측하는 분석 모델 자체를 말함 == 범위가 넓다 (딥러닝도 기계학습의 방버중 하나)
예시
- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까 ?
- 스팸 메일 필터링에 사용
- 질병 진단 예측
5. 회귀분석
- 원인과 결과를 이용한 분석(영향력 분석)
- 독립변수를 조작하며 종속변수가 어떻게 변하는지를 보고 두 변인의 관계를 파악하는 방법
예시
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가 ?
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
- 상품 가격은 매출에 어떤 영향을 미치는가 ?
6. 감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- 비정형 데이터 마이닝의 대표적인 기법
예시
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 제품의 사용기에 나타난 고객의 감정은 어떠한가?
7. 소셜 네트워크 분석
- 사회 관계망 분석으로 불리며, 유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력 있는 사람을 찾아내는 데 활용
예시
- 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 이 사람이 어느 정도 영향력 있는 '인플루언서' 인가?
- 고객들 간 관계망은 어떻게 구성되어 있나?
빅데이터의 위기 요인과 통제 방안
1.사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협으로도 변형 될 수 있다.
- 익명화 기술이 발전되고 있으나 아직도 충분하지 않다.
- 우리는 하루에도 셀 수 없을만큼 많이 수집당하고 있다.
예시
- 여행 사실을 SNS 에 올린 사람을 대상으로 빈집털이를 시도한 강도 사건 발생
- 조지 오웰이 1984에서 다루었던 상황, 빅브라더가 사람들의 일상생활 전반을 감시할 수 있는 기술적 기반이 빅데이터 시대를 통해 구축될 가능성이 있다.
2. 책임 원칙 훼손
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다.
- 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있다. 특정인이 빅데이터의 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 민주주의 사회 원칙을 크게 훼손할 수 있다.
예시
- 범법 행위뿐 아니라 회사의 직원해고, 의사의 환자 수술 거절, 배우자의 이혼 소송 제기와 같은 상황에서도 훼손될 수 있다.
- 어떤 사람이 특정한 사회/경제적 특성을 가진 집단에 속한다는 이유로 자신의 신용도와 무관하게'부당하게' 대출이 거절되는 상황도 알고리즘 예측의 피해 사례가 될 수 있다.
3. 데이터 오용
- 데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있다.
- 빅데이터는 과거 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 위험 할 수 있다.
예시
- 스티브 잡스는 제품을 개발할 때 사람들의 의견을 묻지 않았다. 일반적으로필요로 하는 것은 현실에 대한 인식에 바탕을 두고 있기 때문이다.
- 포드가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 자동차가 아닌 '더 빠른 말' 이 필요하다는 대답을 했을것이라는 비유를 들었다.
- 베트남 전쟁 적국의 사망자 수로 전쟁의 승리를 예측하는 오류
통제 방안
1. 사생활 침해의 통제 방안 -> '동의에서 책임으로'
- 개인정보 제공자의 '동의'를 통해 해결하기 보다 개인정보 사용자의 '책임' 으로 해결한다는 방안
- 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지므로 사용 주체의 적극적인 보호장치를 강구할 수 있다.
2. 책임 원칙 훼손의 통제 방안 -> '결과 기반 책임 원칙 고수'
- 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며 예측 자료에 의한 불이익을 당할 가능성을 최소화 하는 장치를 마련하는 것이 필요하다.
- 특정인의 '성향' 에 따라 처벌하는 것이 아닌 '행동 결과' 를 보고 처벌한다.
3. 데이터 오용의 위기요소에 대한 대응책 -> '알고리즘 접근권 허용/인증'
- 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
- 불이익을 당한 사람들을 대변할 전문가 알고리즘미스트 가 필요하게 되었다.
미래의 빅데이터 활용의 3요소
데이터 ,기술 , 인력
비식별기술 | 설명 | (예시) Before -> | (예시) After |
데이터 마스킹 | 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 식별할 수 없는 임의의 값으로 대체 | ADsP자격증 | **** 자격증 |
가명처리 | 데이터의 값을 다른 값으로 변경하는 기술 일정한 규칙이 노출되지 않도록 주의 | 한지민 | 김우빈 |
총계처리 | 데이터의 총합 또는 평균 값을 보여주며 개별 데이터 값을 보이지 않도록 하는 기술 | 10점, 20점, 30점 | 평균 20점 |
데이터값 삭제 | 필요 없거나 개인 식별에 중요한 값을 삭제 | 서울시 강남구 | 서울시 |
데이터 범주화 | 데이터의 값을 범주화 하여 특정 값을 숨기는 기술 | 29세 | 20 세 ~ 30세 |
빅데이터 분석 'Big' 이 아닌 '인사이트'
1. 크기가 아닌 '인사이트'
- 데이터는 크기가 아니라 어떤 시각과 인사이트(의미있는 정보)를 얻을 수 있느냐의 문제다. 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가 지표를 개발하고 이를 통해 효과적으로 시장과 고객의 변화에 대응할 수 있을 때 빅데이터 분석은 가치가 있다.
- 빅데이터와 관련된 걸림돌은 '비용'이 아니라 '분석적 방법과 성과에 대한 이해 부족'이다
2. 전략적 인사이트의 중요성
- 단순히 데이터 분석을 많이 사용한다고 경쟁우위에 도달하지 않음
- 분석이 경쟁의 본질을 제대로 바라보지 못할 때는 쓸모 없는 결과만 만들어낸다
- 이를 예방하기 위해 전략적인 통찰력을 가지고 핵심적인 비즈니스에 집중하여 데이터를 분석하고 차별적인 전략으로 기업을 운영해야 한다.
전략 도출 위한 가치 기반 분석
- 일차원적인 분석을 통해서도 해당 부서나 업무 영역에서는 상당한 효과를 얻을 수 있습니다. 하지만 대부분 업계 내부의 문제에만 포커스를 두고 있으며, 주로 부서 단위로 관리되기 때문에 비즈니스 성공에 핵심적인 역할을 기대하기는 어렵습니다.
- 일차원적인 분석을 통해 점점 분석 경험을 늘려가고 작은 성공을 거두면 분석의 활용 범위를 더 넓고 전략적으로 변화시킴으로써 전략적 인사이트를 주는 가치 기반 분석 단계로 나아가야 합니다.
데이터 사이언스의 역할
- 데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 하며 이 는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유이다.
데이터 사이언스의 핵심 구성 요소
- Analytics : 분석적 영역
-> 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT (Data Management) : 데이터 처리와 관련된 IT 영역
-> 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
- 비즈니스 분석 : 비즈니스 컨설팅 영역
-> 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
데이터 사이언티스트의 요구 역량
Hard Skill
1. 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
2. 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
Soft Skill
3. 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
4. 설득력 있는 전달 : 스토리 텔링, 비주얼라이제이션
5. 다분야 간 협력 : 커뮤니케이션
가트너가 제시한 데이터 사이언티스트 요구 역량
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
인문학적 사고의 특성 | ||
구분 | 정보 | 통찰 |
과거 | 무슨 일이 일어났는가? ex. 보고서 작성 등 |
어떻게, 왜 일어났는가? ex. 모델링, 실험 설계 |
현재 | 무슨 일이 일어나고 있는가? ex. 경고 |
차선 행동은 무엇인가? ex. 권고 |
미래 | 무슨 일이 일어날 것인가 ? ex. 추측 |
최악 또는 최선의 상황은 무엇인가? ex. 예측, 최적화, 시뮬레이션 |
디지털화 | 아날로그의 세상을 어떻게 효과적으로 디지털화 하는가가 이 시대의 가치를 창출해 내는 원천 ex. 운영체제, 워드/파워포인트 같은 오피스 프로그램 |
연결 | 디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름 ex. 구글의 검색 알고리즘, 네이버의 콘텐츠 |
에이전시 | 사물 인터넷(loT)의 성숙과 함께 연결이 증가하고 복잡해짐 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가가 이슈이며, 데이터 사이언스의 역량에 따라 좌우됨 |
'IT > ADsP 자격증' 카테고리의 다른 글
ADsP 기술 통계 및 T 검정 (0) | 2024.02.21 |
---|---|
ADsP 통계 분석과 이해 ! (0) | 2024.02.21 |
ADsP 자격증 코스 분석 마스터 플랜 (0) | 2024.02.20 |
ADsP 3주차 데이터 분석 기획 (0) | 2024.02.20 |
ADsP 데이터와 정보 1주차 (0) | 2024.02.19 |
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 통계학
- 데이터 리터러시
- 기획자
- 프로덕트 분석가
- 아무일 없는것처럼
- 프로덕트 매니저
- 머신러닝
- 퍼포먼스 마케터
- 방법론
- BI
- 알고리즘
- 책 추천
- 빅테크
- 빅데이터
- A/B테스트
- 그로스 해킹
- 데이터 분석가 주니어
- ADsP
- 데이터 분석 주니어
- PM
- 프로젝트 매니저
- 데이터 분석
- 북극성 지표
- 아하 모먼트
- 퍼포먼스 마케팅
- 데이터분석가
- 데이터 시각화
- 데이터 분석가
- BA
- 설레다
- Total
- Today
- Yesterday