모델의 특성, 전처리의 관계 : 선형 모델 / 비선형모델이 가지는 특징에 따라 필요한 전처리 구분 결측치 처리 방법 수치형 변수의 전처리 방법 : Min-max scaler, StandardScaler 차이 이해 범주형 변수의 전처리 방법 모델 성능 올리기 어떤 전처리 과정이 필요할까? 어떤 특성 공학이 필요할까? 🌀 모델의 특성과 전처리의 관계 우리가 배운 모델들은 작동 원리가 각기 다를 뿐만 아니라, 요구하는 전처리의 양식도 다르다. 각기 다른 모델 유형이 요구하는 전처리의 특성에 대해 알아보자! Linear / Logistic Regression 1. 입력 특성들의 크기/범위/분포에 영향을 받음. 이 부분이 트리 기반 모델과의 가장 큰 차이점! 위의 모델들은 입력되는 값 자체가 대수적 연산에 사용되..
🌀 Bagging vs Boosting Bagging Boosting 기본 모델 간 영향 기본 모델들 간에 영향을 받지 않고, 개별적으로 만듦 이전 기본 모델이 예측하지 못한 부분에 집중하는 모델을 만듦 데이터셋 기존 데이터셋에서 중복 허용한 무작위 추출(부트스트랩)으로 만듦 이전 학습에서 오차가 심했던 데이터들에 대한 가중치를 부여한 후 랜덤하게 선택해서 만듦 분산과 편향 기본 모델들의 서로 다른 양상으로 발생하는 오차들이 상쇄되며 분산을 줄임 → 과대적합 해결 Boosting 과정을 반복하며 최종 모델의 복잡도를 상승시키면서 편향을 줄임 → 과소적합해결 최종 결과 기본 모델들의 평균(회귀모델), 다수결(분류모델)로 결정 기본 모델들의 결과를 취합해 예측 수행 대표 알고리즘 Random Forest A..
Remember! Decision Tree (나무) → bagging → RandomForest(숲 : 나무 여러개) Linear Regression model은 feature, target의 관계를 선형적이라 가정하고, 비용함수를 최소로 하는 param을 찾는 모델이었다. 그 결과, 비선형인 경우, 데이터 간의 관계를 잘 찾아내지 못하였다. Linear Regression보다 비선형 데이터의 패턴을 더 잘 학습하는 Tree-Based Model을 공부해보자! 🌀 Decision Tree 비용함수를 최소로하는 특성과 그 값에 대한 yes/no 질문의 대답으로 타겟 데이터를 분할하는 알고리즘 결정트리는 회귀, 분류 문제에 모두 적용되고, 모두 비용함수를 최소화하는 방향으로 데이터 분할한다. 회귀 문제 비용..
Logistic Regression은 Classification 문제이다. 지도 학습은 회귀 문제 / 분류 문제로 나눌 수 있다. 회귀 문제, 분류 문제는 어떤 차이점이 있나? Regression Classification target 변수 형태 연속적인 값 이산적인 값(class label) 모델 학습 방법 예측값, 실제값 차이 최소화 분류 결과의 정확도 최대화 먼저 문제상황을 보고, 분류 문제인지 회귀 문제인지 아는 것 중요! 🌀 Classification 문제 분류 문제는 데이터가 속할 특정 범주 (특정 범주에 속할 확률) 예측 기준모델 : 보통 최빈 클래스로 설정 타겟 범주가 편중된 비율을 가질 경우가 많다. 타겟값의 비율이 class0 : class1 = 1:9인 데이터를 가지고 모델을 만들었는..
ridge regression을 통해 bias를 약간 높이게 되면, 어떤 효과를 얻나?overfitting시, bias는 작고, var은 높다. 이를규제 모델인 ridge에서 alpha 매개변수를 증가시켜, bias를 높여 일반화 성능을 향상시킨다. overfitting 해결 람다(penalty)값을 크게 잡으면 어떤 효과가 있나?alpha가 크면, 모델의 가중치 값이 작아지는 경향이 있어, 모델의 복잡도를 낮출 수 있다. Ridge회귀에서 alpha 값이 크면, 가중치 계수가 작아진다. Lasso회귀에서 alpha 값이 크면, 일부 가중치 계수가 0으로 수렴할 수 있다. 다만, alpha값을 너무 크게 잡으면, 모델이 너무 간단해져서 underfitting이 발생할 수 있다. lambda = penal..
train data는 모델을 만들 때 사용되고, validation data로 모델의 hyperparameter를 조정한 여러 model들의 성능을 비교해 최적의 모델을 선택하며, test data는 모델을 최종적으로 1회 평가하는 용도로 사용한다. ML의 목적 : generalization이 잘 된 예측 모델을 만드는 것 generalization : 모델이 새로운 데이터에 적절하게 적응하는 능력 새로운 데이터를 예측하는 모델의 generalization 능력을 검증하기 위해, hold-out validation : train, test data를 일정 비율로 한 번 나누어 모델을 만드는 방식 cross-validation : 사용할 수 있는 데이터의 크기가 비교적 작을 때에는 hold out기법보다는..
새로운 데이터가 주어졌을 때, 적절한 특성과 타겟을 선정하여 선형회귀모델 구현! 평가지표에 따른 각각의 특징 이해하고, 이를 바탕으로 결과에 대한 인사이트 도출! ) ML Supervised Learning / Unsupervised Learning Reinforcement Learning : 특정 환경 내에서 컴퓨터의 action에 보상 혹은 페널티를 주며 예측한다. 가장 많은 보상을 받을 수 있는 전략을 찾아냄. 지도학습 property Classification Regression output type discrete(class labels) continuous (number) what are you trying to find? decision boundary best fit line evaluat..
제 관심 도메인인 '금융' 주제에서 해결하고자 하는 문제를 정의하고, 데이터셋을 이용해 머신러닝 모델을 만든 후 성능 및 인사이트 도출을 해보려합니다. 🌀Problem Situation 블록체인 기술은 대중화 측면에서 무궁무진한 가능성을 지니고 있습니다. 최근 NFT 시장에서는 급격한 하락세가 이어졌지만, 글로벌적으로 다시 회복 과정에 있습니다. 저는 이러한 단기적인 시장 변화에 주목하기보다는, 조금 더 중장기적인 흐름에서 NFT가 가지는 기술적인 혁신과 활용 가능성을 더욱 신뢰할 수 있다고 생각했습니다. 초기 NFT 시장에서는 적극적인 거래 활동이 과열되었지만, 이제는 현실적이고 실제적인 활용을 위한 생태계 구축 단계에 접어들고 있습니다. 저는 NFT 시장의 일시적인 변동성보다는 NFT가 가지는 중장기..