분류 전체보기

EDA

Data Wrangling

품질, 구조적 문제 re str접근자 merge concat melt pivot_table 앞으로 만나게 될 데이터셋은 깔끔하게 정리되어 있지 않은 경우가 많을 것이다. 하지만 Garbage In Garbage Out이라는 말처럼 이렇게 정리되어 있지 않은 데이터셋을 그대로 사용하는 것은 많은 문제를 야기한다. Data Wrangling을 통해 데이터셋을 분석하기 좋은 깔끔한 형태로 정제, 변형해보자. 또한, 데이터셋의 크기, 확인하고자 하는 것의 범위 등에 따라 어떤 방법을 선택하는 것이 효율적인지 판단해보자. EDA - 데이터를 이해하는 과정 Data Wrangling - raw data를 분석에 용이하도록 정제, 변형하는 과정 어떤 목적인지, 데이터가 어떤 상태인지에 따라 무엇을 먼저할지 생각해볼 ..

EDA

[데이터 분석 첫단계] EDA를 통해 Business insight 도출해내기

EDA Data Preprocessing Feature Enginerring → Business insight ! Exploratory Data Analysis (탐색적 데이터 분석) 데이터 본격 분석 전에, 통계치와 시각화 통해 데이터 이해하는 단계 why? raw data(원본 데이터)만 보고 insight 얻기 어려움 데이터셋에 대한 더 나은 가설 생성 가능 이전 단계에서 파악하지 못한 문제 발견 가능 (GIGO) EDA 단계에서 내가 까먹을 수 있는 것들 위주로 정리. [Session] Feature Engineering 원래의 feature 외에, 새로운 feature를 만들어내는 일 의미있는 feature 생성 (수학적 연산, 도메인 지식 활용) np.repeat red_color = np.r..

bomishot
'분류 전체보기' 카테고리의 글 목록 (5 Page)