분류 전체보기

Mini Project

[Data Analysis] What game should I design for the next quarter?

김보미님은 게임 회사의 데이터 팀에 합류했습니다. '다음 분기에 어떤 게임을 설계해야 할까'라는 고민을 해결하기 위해, 기존의 데이터에 기반하여 인사이트를 얻고, 의사결정을 하고자 하세요. Name : 게임의 이름입니다. Platform : 게임이 지원되는 플랫폼의 이름입니다. Year : 게임이 출시된 연도입니다. Genre : 게임의 장르입니다. Publisher : 게임을 배급한 회사입니다. NA_Sales : 북미지역에서의 출고량입니다. EU_Sales : 유럽지역에서의 출고량입니다. JP_Sales : 일본지역에서의 출고량입니다. Other_Sales : 기타지역에서의 출고량입니다. EDA Treating Missing values, Outliers In [1]: from google.colab..

Linear Algebra

[Dimensionality Reduction] PCA

Feature 수가 매우 많은 데이터셋을 분석 및 모델링 할 때 생기는 여러 문제점들을 고차원의 문제(The Curse of Dimensionality)라고 한다. 어떠한 문제점들이 발생하는지 알아보고, 이를 핸들링하기 위한 기법 살펴보자. 그 중 PCA란 무엇인지에 대해 알아보자. 공분산과 상관계수 분산 (variance) 데이터가 흩어져 있는 정도를 나타낸 값 데이터가 서로 멀리 떨어져있을수록 분산의 값이 커짐 편차 = 관측값-평균 → 편차의 합:0 → 편차의 평균도 0 편차 제곱의 평균 df.column.var() np.var(df.column, ddof=1) # ddof : Delta Degrees Of Freedom (자유도에 대한 설명 밑에 있음) # 표본분산 계산 시, 자유도 보정하기 위한 ..

Linear Algebra

[Clustering] RFM지표를 이용한 K-Means Clustering

마케팅 타겟을 분류하는 프로젝트 진행해보려 한다. K-Means Clustering 알고리즘을 활용해, 각 소비자 그룹별 RFM 지표의 특징을 파악해 효율적인 마케팅 전략을 수립해보자! RFM Recency, Frequency, Monetary (거래의 최근성, 빈도, 총액) 기존 고객을 분석하고 유지하기 위한 고객 기반 마케팅 분석 지표 매출에 있어 거래의 최근성, 빈도, 총액이 가장 중요한 factor라고 가정해 만든 지표 → 프로젝트를 통해 RFM을 기반으로, 고객의 순위를 지정, 그룹화하여 최고의 고객을 식별하거나 타겟 마케팅 캠페인에 사용하려한다. Clustering 서로 유사한 데이터들은 같은 그룹으로, 서로 유사하지 않은 데이터는 다른 그룹으로 분리하는 것 K-means Clustering ..

Linear Algebra

Linear Algebra

scalar, vector, matrix span, basis, rank numpy 사용해 선형대수 연산하기 선형대수를 배우는 이유 선형대수 : 벡터, 행렬을 다루는 수학이며, 데이터 과학에서 정답에 가까운 가장 가까운 방법을 찾아내어 문제를 해결하는데 사용 이 벡터가 Data Science에서 데이터를 분석하는데 어떻게 접목이 되나? 데이터 분석하기 위해, 정렬된 벡터 형태의 데이터를 필요로 한다. → 우선적으로 데이터를 vectorized한 뒤, 머신러닝 모델을 만든다. 차원 축소 → 데이터가 매우 많은 차원에서 주어지는 경우가 많다. 차원의 수가 많아지면 데이터 분석이 어려워지므로, 벡터를 이용하면 차원축소기술을 이용해 고차원 데이터를 저차원 공간으로 변환할 수 있다. (PCA) 유사도 측정 : 벡..

Statistics

AB Test

대조군&실험군 전환율 Z-test AB Test 진행 전, EDA 수행 세운 AB Test 가설을 통계적으로 검정 검정 결과(p-value) 해석해 insight 도출 다양한 메서드(z-test, binomial distribution..)활용해 AB Test 진행 다양한 Business context에서 AB Test가 어떻게 응용될지 구상 AB Test란? 대조군(Control Group), 실험군(Experimental Group)으로 나누어 두개의 변수(특정 UI나 알고리즘)의 효과를 비교하는 방법론 기업의 목표 : 매출 향상 → AB Test 기법 사용 AB Test는 데이터를 활용하는 직군 모두에게 중요한개념 내가 기업사람인 입장에서 봐보자!! 기업 내부 소비자의 유입 경로 파악 다양한 유입경..

Statistics

Hypothesis Test

가설(귀무가설, 대립가설) 1종 오류, 2종 오류 검정 방법론 단측 검정, 양측 검정 p-value 계산, 의미 검정 결과 해석 → insight 얻기 가설검정 특정 모집단에 대한 가설을 세우고, 이 가설을 sample data를 사용하여 검토하는 추론 과정 귀무가설 (H0) (Null Hypothesis) 데이터를 수집하기 전, 사실이라고 믿는 가설 디폴트 가설, 자연 그대로의 상 = 등호 사인 포함 ( ≤, ≥, =) 대립가설(H1) (Alternative Hypothesis) 귀무가설과 대립되는 가설 문제에서 나온 말 그대로. 우리가 사실이라고 주장하는 가설 =등호 사인 미포함 (, !=) 1종 오류, 2종 오류 1종 오류(FP) 귀무가설이 참인데, 기각한 경우 → 대립가설 참 실제로 죄가 없는데,..

Statistics

CLT (중심극한정리)

표본 bootstrapping 큰수의법칙 CLT 신뢰구간 → 표본(sample)의 통계치를 이용해 모집단의 모수를 추론해내기! 모집단의 모수를 추론하기 위해. → 표본 추출 통해, 표본들의 평균 분포 구하기, bootstrapping → 큰수의 법칙에 따라 clt로 표본 평균 분포가 정규분포 이룸 → 신뢰구간 이용해 모수 포함되있을 구간 추론 → 모집단의 모수 추론 끝! 기술 통계 vs 추리 통계 모집단(poplutation) : 우리가 알고자하는 모든 대상 기술통계 (Descriptive Stastics) describe() 수집한 데이터를 묘사, 설명하는 통계 기법 mean, median, mode var(분산 : 편차제곱의 평균, 데이터가 얼마나 퍼져있는지 보기 위해서) , std, quatile ..

Statistics

Bayses Theorem

확률 이항분포 조건부 확률 Bayseian Theorem (사각형 생각!) 💡 베이지안의 핵심 = 사전 확률에 그대로 머무르지 않고, 추가적인 이벤트가 발생함에 따라 변화하고 사후확률을 update해나간다는 것! Bayses Theorem 개념 인공지능의 의사결정에 매우 강력한 도구 이유 불충분의 원리 : 50%라고 정의하는 것(라플라스의 정의)(주관적 요소로 볼 수 있다)→ 하지만, 베이즈 정리는 객관적인 확률로 점차 나아감. 데이터가 많을수록 올바른 의사결정을 할 가능성이 늘어남. 사전 확률 지속적으로 update → 베이즈 정리의 중요한 통찰 https://www.youtube.com/watch?v=Y4ecU7NkiEI&t=1s 50% (사전확률)→ 57% (사후확률 : 초콜릿을 주었다는 정보 때문..

bomishot
'분류 전체보기' 카테고리의 글 목록 (4 Page)