이 분야를 제대로 이해하려면 '데이터는 복잡하다' 는 근원적인 진실을 인정해야 한다는 의미다. 데이터를 분석한다는 것은 숫자와 미묘한 차이, 그리고 불확실성을 다루는 것이다. 데이터는 중요하지만, 그렇다고 결코 단순하지도 않다. 그럼에도 우리를 오해하게 만드는 산업이 생겨났다. 바로, 불확실한 세상에서 확실성을 약속하고 기회를 놓칠지 모른다는 기업의 두려움을 이용하는 산업이다. 우리는 이를 '데이터 과학 비즈니스' 라고 부른다. 이 책을 읽으면 데이터 과학 비즈니스를 잘 헤쳐 나갈 수 있는 분석 도구, 용어, 사고방식을 습득하고 데이터에 관련된 어려운 문제를 조금 더 깊게 이해할 수 있다. 학습을 통해 데이터와 분석 결과에 대해 비판적으로 사고하고 데이터에 관한 모든 일에 대해 똑똑하게 자신의 의견을 ..
Tensorflow : 구글이 오픈소스로 공개한 기계학습 라이브러리로 2.0 버전부터는 딥러닝 라이브러리를 구축 하는 Keras 패키지를 통합하게 되었다. Tensorflow 패키지 이해 tensorflow.keras.model.Sequentital model.add : 모델에 대한 새로운 층을 추가함 - unit model.compile : 모델 구조를 컴파일 하며 학습 과정을 설정 -optimizer : 최적화 방법, Gradient Descent 종류 선택 loss : 학습 중 손실 함수 설정 - 회귀 : mean_squared_error(회귀) - 분류 : categorical_crossentropy metrics : 평가 척도 -mse : Mean Squared Error -acc : 정확도 f..
비지도 학습 예시 - 고객 특성에 따른 그룹화 ex : 헤비유저, 일반유저 - 구매 내역별로 데이터 그룹화 Ex: 생필품 구매 더보기 다시 말해 비지도 학습은 데이터 기반으로 레이블링을 하는 작업이라고 하겠습니다. 정답이 없는 문제이기 때문에 지도 학습보다 조금 어렵고 주관적인 판단이 개입하게 됩니다. 붓꽃 데이터를 이용한 군집화 예시 K - 평균 군집화 혹은 알고리즘은 가장 일반적으로 사용되는 알고리즘 입니다. 쉬운 예시를 위해서 붓꽃 데이터 (IRis) 데이터로 살펴 보겠습니다. sepal_length : 꽃 받침의 길이 sepal_width : 꽃 받침의 너비 petal_length : 꽃 잎의 길이 petal_width : 꽃 잎의 너비 species(Y, 레이블) : 붓꽃 종 (setosa, v..
최근접 이웃 알고리즘 수행 방법 더보기 유유상종이란 같은 집단끼리 서로 다르고 사귄다는 뜻이죠. 이와 비슷한 아이디어에서 착안한 것이 바로 K-Nearest Neighbor(KNN, KNN) 이랍니다. 주변의 데이터를 보고 내가 알고 싶은 데이터를 예측하는 방식입니다. K = 3 이라면, 별 1개와 세모 2개이므로 ? 는 세모로 예측 될 것 K = 7이라면, 별 4개와 세모 3개이므로 ? 는 별로 예측 될 것 위와 같이 확인할 주변 데이터 K 개를 선정 후에 거리 기준으로 가장 많은 것으로 예측하는 것이 바로 KNN 의 기본 원리 그럼 K 는 몇으로 정해야 하는 걸까요? 또 거리는 어떻게 측정 해야 하는 것 일까요 ? 하이퍼 파라미터의 개념 파라미터(Parameter) : 머신러닝 모델이 학습 과정에서 ..
의사결정나무 (Decision Tree, DT) 의사 결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 입니다. 명칭 루트 노드 (Root Node) : 의사 결정나무의 시작점. 최초의 분할조건 리프노드 (Leaf Node) : 루트 노드로부터 파생된 중간 혹은 최종 노드 분류기준(Criteria) : Sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로,남성인 경우 우측 노드로 불순도(impurity) 불순도 측정 방법 중 하나 인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스), 1은 완전한 불순도(노드의 샘플의 균등하게 분포) 됨을 나타냄 리프 노드로 갈수록 불순도가 작아지는(한쪽으로 클래스..
이상치(Outlier) 란 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말해요 . 1. Extrems Studentized Deviation(ESD) 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 떄, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규 분포를 따르지 않을 수 있기 때문에 다음 상황에서는 제한됨 -데이터가 크게 비대칭 일 때 , 샘플 크기가 작을 경우 2. IQR (inter Quantile Range) 를 이용한 이상치 발견 ESD 와 동일하게 데이터가 비대칭적이거나 샘플사이즈가 작은 경우 제한됨 Box plot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림이라고도 함 사분위 수 : 데이터를 순서에 따라 4등..
머신 러닝의 세가지 지도 학습 회귀 / 분류 비지도 학습 강화 학습 예측 모델링 프로세스 데이터 수집 데이터 전처리 -이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리 EDA - 기술 통계, 시각화 모델링 & 평가 -최적화 배포 데이터 수집에 따른 프로세스 데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다 1. Data Source OLTp Dat..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- BI
- 데이터 분석
- A/B테스트
- 데이터 분석가 주니어
- 데이터분석가
- 통계학
- 빅테크
- 프로젝트 매니저
- 아하 모먼트
- 데이터 분석가
- 빅데이터
- 알고리즘
- 설레다
- 데이터 리터러시
- 프로덕트 분석가
- 책 추천
- 그로스 해킹
- 프로덕트 매니저
- 머신러닝
- 데이터 시각화
- 북극성 지표
- 아무일 없는것처럼
- 퍼포먼스 마케터
- 기획자
- PM
- 방법론
- 데이터 분석 주니어
- ADsP
- 퍼포먼스 마케팅
- BA
- Total
- Today
- Yesterday