새싹 AI데이터엔지니어 핀테커스 9주차 (화) - PJT 2 ML Modeling & Model Tuning

2023. 10. 31. 17:38

728x90

2023-10-31 39th Class

#️⃣ AutoML 라이브러리인 Pycaret과 Autogluon 사용하여 모델 테스트

	Model	Accuracy	AUC	Recall	Prec.	F1	Kappa	MCC
lightgbm	Light Gradient Boosting Machine	0.9701	0.9926	0.8833	0.9277	0.9045	0.8868	0.9926
gbc	Gradient Boosting Classifier	0.9643	0.9881	0.8333	0.938	0.8822	0.8612	0.9881
rf	Random Forest Classifier	0.9577	0.9873	0.7999	0.9277	0.8588	0.8341	0.9873
ada	AdaBoost Classifier	0.954	0.9829	0.8131	0.8923	0.8502	0.8231	0.9829
et	Extra Trees Classifier	0.9372	0.9796	0.6603	0.9286	0.771	0.7359	0.9796
dt	Decision Tree Classifier	0.931	0.8652	0.7683	0.7963	0.781	0.7402	0.8652
lr	Logistic Regression	0.9015	0.9164	0.5286	0.7909	0.6327	0.5785	0.9164
lda	Linear Discriminant Analysis	0.9	0.9187	0.5891	0.7375	0.6542	0.5966	0.9187

#️⃣ 1차 모델 성능비교 : 하이퍼 파라미터 조정 전

5가지 모델 선정 및 학습
- DecisionTree, RandomForest, BaggingClassifier, AdaBoost, LightGBM
모델의 Confusion Matrix 시각화
Accuray, Precision, Rcall, F1값을 도출

#️⃣ Confusion Matrix 의미

TP : 유지 고객, 프로모션 미대상
FN : 유지 고객, 프로모션 대상
FP : 이탈 고객, 프로모션 미대상
TN : 이탈 고객, 프로모션 대상
머신러닝 모델은 Decision Tree, RandomForest, BaggingClassifier,AdaBoost, LightGBM 총 5가지를 선택해 비교해보았음.
그중 LGBM의 성능이 가장 우수

#️⃣ 성능 지표 의미

#️⃣ LightGBM의 아이디어 1. 앙상블 학습 방식

Random Forest

#️⃣ LightGBM의 아이디어 2. 오류보완의 방식

#️⃣ LightGBM의 아이디어 3. 트리 분할의 방식

GBM 계열 : ‘균형 트리 분할(level-wise)’ 방식을 사용
- 트리의 깊이가 균형적
- 각 노드 분할 고려하여 비효율적인 계산
LightGBM : 최대 정보획득(Information Gain) 가지는 노드를 중심으로 계속해서 분할하는 ‘리프 중심 트리 분할(leaf-wise)’ 방식을 사용
- 과적합 최소화
- 높은 예측 성능
- 효율적인 계산

#️⃣ Pycaret

#️⃣ Randomized Search

#️⃣ 모델의 성능 개선

새싹 AI데이터엔지니어 핀테커스 9주차 (목) - PJT 4 Segment Analysis (0)	2023.11.02
새싹 AI데이터엔지니어 핀테커스 9주차 (수) - PJT 3 Customer Clustering via K-means and LGBM (0)	2023.11.01
새싹 AI데이터엔지니어 핀테커스 9주차 (월) - PJT 1 EDA & Data Preprocessing (0)	2023.10.30
새싹 AI데이터엔지니어 핀테커스 8주차 (금) - PJT Preliminaries (InsureTech) (0)	2023.10.27
새싹 AI데이터엔지니어 핀테커스 8주차 (목) - PJT Preliminaries (RA, Bank & Insurance) (1)	2023.10.26

Shijuan's AI Diary