이미지를 효과적으로 압축해줄 수 있는 AutoEncoder에 대해 알아보자. 이것은 데이터 시각화를 위한 차원 축소에도 사용이 가능하다. 🌀 AutoEncoder Encoder에서 입력 데이터를 저차원 벡터로 압축한 뒤, Decoder에서 원래 크기의 데이터로 복원하는 신경망 Latent Vector 잠재 벡터. 가운데 code표시되어있는 가장 저차원의 벡터 원본 데이터보다 차원이 작으면서도, 원본 데이터의 특징을 잘 보존하고 있는 벡터 AutoEncoder는 궁극적으로 데이터의 중요 특징인, Latent vector를 잘 얻기 위한 방법이다. Latent vector를 바탕으로 다시 원본 데이터로 복원할 때에 발생하는 오류, 즉 복원 오류(Reconstruction Error)를 최소화하도록 훈련한다...
Feature 수가 매우 많은 데이터셋을 분석 및 모델링 할 때 생기는 여러 문제점들을 고차원의 문제(The Curse of Dimensionality)라고 한다. 어떠한 문제점들이 발생하는지 알아보고, 이를 핸들링하기 위한 기법 살펴보자. 그 중 PCA란 무엇인지에 대해 알아보자. 공분산과 상관계수 분산 (variance) 데이터가 흩어져 있는 정도를 나타낸 값 데이터가 서로 멀리 떨어져있을수록 분산의 값이 커짐 편차 = 관측값-평균 → 편차의 합:0 → 편차의 평균도 0 편차 제곱의 평균 df.column.var() np.var(df.column, ddof=1) # ddof : Delta Degrees Of Freedom (자유도에 대한 설명 밑에 있음) # 표본분산 계산 시, 자유도 보정하기 위한 ..