
탐색적 데이터 분석 (EDA) 탐색적 데이터 분석 (Exploratory Data analysis, EDA ) 는 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정 입니다. 이 과정에서 데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있습니다. 예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요한 과정입니다. 다만, 이전 데이터 분석과 시각화 강의에서 들었다고 가정하고 시각화는 Seaborn 라이브러리를 활용 간단하게 알아보도록 할게요. tips.describe() - include='all' 옵션을 통해 범주형 데이터도 확인 가능 1.countplot : 범주형 자료의 빈도 수 시각화 방법 : 범주형의 데이터의 각 카테고리별 빈도수를 나타낼 때..

머신 러닝의 세가지 지도 학습 회귀 / 분류 비지도 학습 강화 학습 예측 모델링 프로세스 데이터 수집 데이터 전처리 -이상치 처리, 결측치 처리, 인코딩, 스케일링, 데이터 분리 EDA - 기술 통계, 시각화 모델링 & 평가 -최적화 배포 데이터 수집에 따른 프로세스 데이터 수집 단계는 예제 데이터 혹은 회사에 있는 데아터로 진행되기 때문에, 지나치는 경우가 많답니다. 실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요한데, 이 부분은 개발자가 직접 설계하고 저장하게 됩니다. 데이터분석가 는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다고 할 수 있습니다 1. Data Source OLTp Dat..
보호되어 있는 글입니다.
스포티파이는 비용을 이용자에게 부담하게끔 하지 않고 광고나 월 정액제를 통해 음악 저작권자에게 수익이 배분되는 모델을 만들어 냈다. 사람들은 편리함에 대해 지불할 준비가 되어 있습니다. 편리함은 바로 사용자 친화적인 편의 라는 뜻이고, 지불은 그들이 플랫폼 내에서 기꺼이 보내고자 하는 시간 혹은 월 정액제 구독의 의미이다. '사용자 친화적' 인지 아닌지가 중요하다는 것이었다. '사용자 우선' 철악이 그 무엇보다 구글에서 중요하다는 방증이라고 할 수 있다. 예전에 우리는 신용카드를 고를 때 카드사별로 혜택을 뜯어보곤 했다. 신용카드의 혜택이 범용화 되면서 점차 디자인이 주요해졌다. 직관적인 인터페이스와 소셜 네트워크 기능, 새로운 음악을 발견하는 서비스 등 많은 이용자로부터 칭송을 받는 기능들이 많은..

더보기 실무에서 마주치는 물음표들 "이번 상반기 회계 결산 해야 하는데 Revenue(매출액), Gross Margin(매출 총이익 = 매출액 - 매출 원가) 이 얼마나 나왔는지 알 수 있을까요 ? 더보기 "이번주 서울 지역과 지방 지역의 Conversion(상품 주문 전환율 = 전환수 / 클릭수 *100) 의 차이는 어떻게 되나요 ? 데이터 분석가는 현업에서 질문을 던지기 위해 수많은 물음표 살인마가 되기도하고 수많은 물음표와 마주하기도 합니다. 이번 상반기 회계 결산을 해야 되는데 매출액과, 구루스 마진이 얼마 나왔는지 알 수 있을까요 ? 프로덕트 분석가 때 요청받았던 질문 중 이번주 서울 지역과 지방 지역의 상품 주문 전환율에 차이는 어떻게 되나요?가 있는데요. 이렇게 현업에서 데이터 분석가는 비즈..

세상에서 가장 독한 사람은 자신의 실패를 복기해보는 사람이다. 실패는 마주하는 것만으로 고통스럽다. 하지만 다음에 똑같은 실패를 반복하지 않기 위해서는 내가 냈던 아이디어의 민낯을 마주하고 실패의 과정을 복기해보아야만 한다. 그것이 연애이든,스타트업이든 말이다. 행동과 책임의 균형 프리토타이핑은 내 아이디어가 정말 고객에게 가치를 주는지 검증하는 매우 효과적인 도구다. 구글과 같은 테크 기업뿐 아니라, 식음료나 소매업부터 정유,조선업 등 다양한 분야에 적용해볼 수 있는 아주 유연한 도구다. 또 많은 돈과 인원이 필요하지 않아 작은 규모의 스타트업에 특히 적합하다. 스타트업에서 빠른 실행력은 매우 중요하지만 무턱대고 빠른 속도로 밀어붙이다 보면 실행력이라는 부스터뿐만 아니라, 제대로 도니 길을 알려주는 지..

군집 분석 개념 군집분석은 각 개체에 대해 관측된 여러 개의 변수 (x1, x2, ... xp) 값들로부터 n 개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법이다. 군집 분석에 이용되는 다변량 자료는 별도의 반응변수가 요구되지 않으며, 오로지 객체들 간의유사성에만 기초하여 군집을 형성한다. 군집 분석은 이상값 탐지에도 사용되며, 심리학, 사회학, 경영학, 생물학 등 다양한 분야에 이용되고 있다. 생물학에서는 종의 분류, 마케팅에서는 고객 특성파악, 금융에서는 산업 분석 등에 활용되며 추천서비스가 등장하는 기반을 제공하였다. 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도한다...

나이브 베이즈 분류 베이즈 이론 베이즈 이론은 확률을 해석하는 이론이다. 통계학에서 확률은 크게 빈도 확률과 베이지안 확률로 구분할 수 있다. 빈도 확률 : - 사건이 발생한 횟수의 장기적인 비율을 의미하며 객관적으로 확률을 해석한다. - 근본적으로 반복되는 어떤 사건의 빈도를 다루는 것으로, 모집단으로부터 반복적으로 표본을 추출했을 때 추출된 표본이 사건 A 에 포함되는 경향을 사건 A 의 확률 이라고 한다. 베이지안 확률 : - 베이지안 확률을 주관적으로 확률을 해석한다. - 사전확률과 우도확률을 통해 사후확률을 추정하는 정리로 데이터를 통해 확률을 추정할 때 현재 관측된 데이터의 빈도만으로 분석하는 것이 아니라 분석자의 사전 지식 까지 포함해 분석하는 방법이다. 베이즈 정리에서 확률은 '주장 혹은 ..
앙상블 기법 프랑스어로 앙상블 은 '함께, 동시에' 라는 의미를 가지고 있다. 데이터 마이닝에서는 여러 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법을 의미한다. 이러한 기법은 단일 모델보다 높은 정확성과 일반화 능력을 제공할 수 있다. 대표적인 앙상블 기법에는 배깅(bagging), 부스팅(boosting), 랜덤 포레스트 (random forest)가 있따. 결과가 수치형 데이터인 경우에는 값들의 평균을 통해 최종 결과를 예측하고, 결과가 범주형 데이터인 경우에는 다수결 방식으로 최종 결과를 예측 한다. 배깅 배깅(bagging) 은 bootstrap aggregationg 의 준말로 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의 복원추출하여 각 표본(이를 붓스트랩 표본이라 함..
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 북극성 지표
- 데이터 분석가
- 데이터 분석 주니어
- BA
- 방법론
- ADsP
- BI
- 빅데이터
- 빅테크
- 데이터분석가
- 데이터 시각화
- 아하 모먼트
- 프로덕트 매니저
- 통계학
- 책 추천
- 퍼포먼스 마케팅
- 기획자
- 설레다
- 프로덕트 분석가
- A/B테스트
- 퍼포먼스 마케터
- 머신러닝
- 데이터 리터러시
- PM
- 데이터 분석
- 데이터 분석가 주니어
- 아무일 없는것처럼
- 알고리즘
- 프로젝트 매니저
- 그로스 해킹
- Total
- Today
- Yesterday