이 분야를 제대로 이해하려면 '데이터는 복잡하다' 는 근원적인 진실을 인정해야 한다는 의미다. 데이터를 분석한다는 것은 숫자와 미묘한 차이, 그리고 불확실성을 다루는 것이다. 데이터는 중요하지만, 그렇다고 결코 단순하지도 않다. 그럼에도 우리를 오해하게 만드는 산업이 생겨났다. 바로, 불확실한 세상에서 확실성을 약속하고 기회를 놓칠지 모른다는 기업의 두려움을 이용하는 산업이다. 우리는 이를 '데이터 과학 비즈니스' 라고 부른다. 이 책을 읽으면 데이터 과학 비즈니스를 잘 헤쳐 나갈 수 있는 분석 도구, 용어, 사고방식을 습득하고 데이터에 관련된 어려운 문제를 조금 더 깊게 이해할 수 있다. 학습을 통해 데이터와 분석 결과에 대해 비판적으로 사고하고 데이터에 관한 모든 일에 대해 똑똑하게 자신의 의견을 ..
Tensorflow : 구글이 오픈소스로 공개한 기계학습 라이브러리로 2.0 버전부터는 딥러닝 라이브러리를 구축 하는 Keras 패키지를 통합하게 되었다. Tensorflow 패키지 이해 tensorflow.keras.model.Sequentital model.add : 모델에 대한 새로운 층을 추가함 - unit model.compile : 모델 구조를 컴파일 하며 학습 과정을 설정 -optimizer : 최적화 방법, Gradient Descent 종류 선택 loss : 학습 중 손실 함수 설정 - 회귀 : mean_squared_error(회귀) - 분류 : categorical_crossentropy metrics : 평가 척도 -mse : Mean Squared Error -acc : 정확도 f..
공통점 : 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능 (AI)의 하위 분야 차이점 - 머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 부류를 하는 방법 - 딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용함 딥러닝의 유래 인공 싱경망 ( Artificial Neural Networks) - 인간의 신경세포를 모방하여 만든 망(Networks) 신경 세포 : 이전 신경세포로 들어오는 자극을 이후 신경세포로 전기신호로 전달하는 기능을 하는 세포 퍼셉트론 (Perceptron) : 인공 신경망의 가장 작은 단위 선형회귀식 - Y = wX + B 몸무게와 키 데이터 Y : 키 x : 몸무게 b: 100로 임의로 설정 W : 1로..
고객 세그멘테이션의 정의 비지도 학습이 가장 많이 사용되는 분야는 고객 관계 관리 (Customer Relationship Management, CRM) 분야 입니다 . 이중 고객 세그멘테이션(Custmer Segmentation) 은 다양한 기준으로 고객을 분류하는 기법입니다. 주로 타겟 마케팅 이라 불리는 고객 특성에 맞게 세분화 하여 유형에 따라 맞춤형 마케팅 이나 서비스를 제공하는 것을 목표로 둡니다. RFM 의 개념 - Recency(R) : 가장 최근 구입 일에서 오늘 까지의 시간 - Frequency(F) : 상품 구매 횟수 - Monetary value(M) : 총 구매 금액 https://archive.ics.uci.edu/dataset/352/online+retail UCI Machin..
부스팅 알고리즘 수행 방법 가장 최근의 알고리즘인 부스팅 알고리즘 부스팅(Boosting) 알고리즘은 여러 개의 약한 학습기 (weak learner) 를 순차적으로 학습하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해 나가는 학습 방식 입니다. 부스팅 알고리즘 종류 Gradient Boosting Model 특징 : 가중치 업데이트를 경사하강법 방법을 통해 진행 python 라이브 러리 sklearn.ensemble.GradientBoostingClassifier sklearn.ensemble.GradientBoostingRegressor XGBoost 특징 : 트리기반 앙상블 기법으로, 가장 각광받으며 Kaggle 의 상위 알고리즘 병렬 학습이 가능해 속도가 빠름 Xboost.XGBRCla..
최근접 이웃 알고리즘 수행 방법 더보기 유유상종이란 같은 집단끼리 서로 다르고 사귄다는 뜻이죠. 이와 비슷한 아이디어에서 착안한 것이 바로 K-Nearest Neighbor(KNN, KNN) 이랍니다. 주변의 데이터를 보고 내가 알고 싶은 데이터를 예측하는 방식입니다. K = 3 이라면, 별 1개와 세모 2개이므로 ? 는 세모로 예측 될 것 K = 7이라면, 별 4개와 세모 3개이므로 ? 는 별로 예측 될 것 위와 같이 확인할 주변 데이터 K 개를 선정 후에 거리 기준으로 가장 많은 것으로 예측하는 것이 바로 KNN 의 기본 원리 그럼 K 는 몇으로 정해야 하는 걸까요? 또 거리는 어떻게 측정 해야 하는 것 일까요 ? 하이퍼 파라미터의 개념 파라미터(Parameter) : 머신러닝 모델이 학습 과정에서 ..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터 분석 주니어
- 프로젝트 매니저
- ADsP
- 데이터 분석가
- 통계학
- 머신러닝
- 데이터 리터러시
- 퍼포먼스 마케팅
- BA
- BI
- 데이터 분석
- 데이터 분석가 주니어
- 설레다
- 데이터분석가
- 그로스 해킹
- 책 추천
- 기획자
- 알고리즘
- A/B테스트
- 북극성 지표
- 방법론
- 퍼포먼스 마케터
- 아무일 없는것처럼
- 아하 모먼트
- 데이터 시각화
- PM
- 빅데이터
- 프로덕트 매니저
- 빅테크
- 프로덕트 분석가
- Total
- Today
- Yesterday