티스토리 뷰

일반적으로 데이터를 분석하는 목적은 두 가지 입니다. 예측과 추론이죠. 

예측 Prediction 은 결과를 맞히는 것이고, 추론Inference 은 원인과 결과 사이의 관계를 분석 하는 것이다. 

추론을 해도 결과를 도출하기는 하지만, 추론에서는 원인과 결과 간 관계에 더 초점을 두죠.

 

'왜 우산을 들고 있는가?' 를 맞히는 것, 즉 비를 피하기 위해서 인지 아니면 햇볕을 피하기 위해서인지를 분석하는 것은 추론 입니다. 

예측은 사물을 정확하게 인식하는 것에 목적이 있다. 사물을 왜 이렇게 인식했는지에 대해서는 별로 관심이 없다. 

분석의 목적이 예측인지 추론인지에 따라 접근이 완전히 달라집니다. 

 

P-value 는 분석 결과의 유의성을 확인하는 첫 번째 절차입니다. p-value가 0.05 보다 클 확률은 희박하지만, 분석 과정에서 반드시 확인하고 넘어가야 할 절차입니다. 

 

R-Square 라고 쓰여 있는 결정게수 R2 를 봐야합니다. P-value 는 모형을 신뢰해도 되는지 확인ㄴ할 때 필요했죠. R2 는 이 모형이 전체 현상을 얼마나 설명하는지를 얘기해 줍니다. 예를 들어 우리가 매출에 영향을 미치는 요인을 5개 선정해서 모형을 만들었다고 생각해보죠. 이 모형이 5개 요인을 통해 매출에 영향을 미치는 전체 요인 중 64.72% 를 설명한다는 뜻 입니다. 

 

비즈니스 관점에서 말하면, 매출이 100억 원 증가한다고 했을 때 그중 64억 원가량이 왜 증가하는지 설명할 수 있다는 말입니다. 

 

Parameter Estimate는 계수 Coeffcient 라고 부르면 됩니다. 다른 요인이 통제된 상황에서 A가 한 단위 증가할 때 B 가 몇 단위 증가하는지를 보여주는 값이에요. 예를 들어 매장 크기가 한 단위 증가할 때 매출이 얼마나 증가하는지를 보여주는 것이 계수죠. 

 

더보기

좋은 분석이란 이상에 가깝다. 

결국 데이터 분석의 목적이 무엇인지에 따라 적절한 선택을 해야 한다. 

 

결과값이 수치형으로 나오는 경우에는 회귀 방법론을 사용한다. 

회귀 방법론에는 T-test, 분산 분석, 선형 회귀 등이 있다. 

 

결과값이 범주형으로 나올 때는 분류 방법론을 사용한다. 분류 방법론에는 로지스틱 회귀, 판별 분석, 서포트 벡터 머신,

의사결정나무, K-최근접 이웃 등이 있으며, 다양한 방법론을 비교하여 최선의 방법론을 선택한다. 

 

의사결정 나무의 장점은 두 가지입니다. 첫 번째 장점은 분석 결과가 곧 액션 플랜이 된다는 겁니다. 

두번째 장점은 의사결정나무 는 회귀 문제도 풀 수 있고 분류 문제도 풀 수 있습니다. 분류 문제를 해결하는 의사결정나무를 분류나무라고 하고, 회귀 문제를 해결하는 의사결정 나무를 회귀나무라고 합니다. 종속변수가 범주형이면 분류나무를 사용하고, 종속변수가 수치형이면 회귀나무를 사용하면 됩니다. 

 

의사결정나무의 단점은 다른 방법론보다 정확도가 좀 낮다는 거다. 하지만 다른 방법론과 성능 격차가 크지 않다. 

빨리 결정해야 하거나, 분석 결과를 해석하는 방법을 잘 모를때 의사결정나무를 쓰면 좋다. 

 

유클리드 거리와 피어슨 상관거리 

  • 특정 상품과 비슷한 상품을 찾을 때는 유클리드 거리 측정법과 피어슨 상관관계 측정법을 같이 사용하는 것이 좋다. 
  • 유클리드 거리에서는 결과값이 작을수록, 피어슨 상관거리에서는 결과값이 1에 가까울수록 거리가 가깝다. 
  • 유클리드 거리 측정법을 사용할 때는 데이터 표준화를 해야 한다. 

피어슨 상관계수를 이용해서 사용자 간 유사도를 알아내는 것 

 

K-평균 군집 분석

 

통게 학습 / 기계 학습  방식  방법론 
지도 학습  회귀
분류 
선형 회귀 등 
로지스틱 회귀 등 
비지도 학습  그룹화 
차원 축소 
k-평균 군집 분석
주성분 분석  

 

  • 데이터 분석 방법에는 지도 학습과 비지도 학습이 있다. 지도 학습에서는 회귀와 분류의 방법론을 사용하고, 비지도 학습에서는 그룹화와 차원축소의 방법론을 사용한다. 
  • 관측치를 몇 가지 유형으로 묶고자 할 때는 그룹화를 사용한다. 그룹화의 대표적인 방법론에는 K-평균 군집 분석과 덴드로그램이 있다. 
  • K-평균 군집 분석을 사용할 때는 K 의 값을 얼마로 할지가 중요하다. 만약 K값이 정해져 있지 않다면 CCC 통계량이나  엘보우 도표 같은 보조 지푤르 사용 하여 k 를 정해야 한다.
더보기

변수가 많으면 변수 선택, 수축, 차원 축소의 방법을 사용하여 개수를 줄여야 한다. 

차원 축소의 방법 중에는 주성분 분석이 많이 쓰인다. 

주성분 분석은 회귀나 분류의 문제를 풀기 위해 선행 과정으로 많이 사용된다. 

 

추천 시스템이 추천하는 것은 크게 세 가지 이다. 

  1. 대체제 : 대체재는 이 상품을 봤던 사람이 많이 봤거나 산다른 상품, 이건 안 살 사람을 사게 만드는 기술. 
  2. 보완재 : 보완재는 이 상품을 산 사람이 추가로 산 제품이다. 이건 제품을 더 사게 만드는 기술 
  3. 베스트셀러 

가좋 효과가 좋은 추천 시스템은 베스트 셀러 . 

 

추천시스템을 고도화 하기 전에 2가지 현실적인 문제를 이해해야 합니다.

1. 초기 사용자 문제 ColdStart Problem 입니다. 추천 시스템이 개인화를 목적으로 한다. 그런데 개인화를 못하는 경우가 꽤 많다. 예를 들어 클릭이나 구매 이력이 없는 사람이 있다. 즉 쇼핑몰을 처음 방문한 사람이나 지금 막 가입한 사람에게는 개인화된 추천을 제공 할수가 없다. 그래서 전체 회원의 평균값을 보여주는 경우도 있다. 그럴땐 베스트셀러를 노출 하는 것이 낫따. 

또 다른 경우로, 회원이지만 로그인을 하지 않은 사용자. 회원이지만 몇년만에 접속한 회원도 있다. 이럴 때 뭘 추천해야 할지 고민한다면 베스트 셀러를 보여주는 것이 무난하다. 

2. 조작 공격 입니다. 입점 업체가 자기 상품의 평점을 조작해서 올리고 경쟁사 상품의 평점은 깎는거죠. 보통 오픈마켓이나 영화 사이트, 배달 앱 같은 곳에서 이 런일이 많이 일어나요 .그래서 요즘 추천 시스템은 이런 조작 문제를 해결하는 쪽으로 연구가 많이 진행 된다. 

 

  • 기술적 분석 Descriptive Analytics ' 무슨 일이 발생하였는가'에 대한 분석 
  • 진단 분석 Diagnostic Analytics ' 일이 왜 발생하였는가' 에 대한 분석 
  • 예측 분석 Predictive Analytics '무슨 일이 발생할 것인가'에 대한 분석 
  • 처방 분석 Prescriptive Analytics '무엇을 해야 하는가' 에 대한 분석 

작년에 매출액이 증가했는데 그 이유가 무엇인지, 원인과 결과 사이의 관계를 분석하고, 그러고 나면 이제 예측 분석을 할 수 있다. 앞으로 무슨일이 벌어질지 맞히는 거다. 마지막 단계는 처방 분석이다. 앞으로 무엇을 어떻게 하면 되는지 처방하는 거다. 그래야 데이터 분석으로 의사결정을 제대로 할 수 있다.