반응형
7편에 걸친 House Prices 예측 시리즈의 마지막 에피소드입니다.
이번 편에서는 전체 과정을 정리하고, 실전 캐글 도전자로서 어떤 경험과 인사이트를 얻었는지 회고해보겠습니다.
🔁 전체 흐름 요약
회차주제
| #1 | 대회 소개 및 전략 수립 |
| #2 | 데이터 탐색 및 시각화 |
| #3 | 결측치 처리 및 파생 피처 생성 |
| #4 | 다양한 회귀 모델 베이스라인 구축 |
| #5 | XGBoost & LightGBM 적용 |
| #6 | 하이퍼파라미터 튜닝 |
| #7 | 프로젝트 회고 및 다음 단계 제시 (현재 글) |
📈 점수 상승의 핵심 요인
- 로그 변환: SalePrice에 log1p 적용 → RMSLE에 최적화
- 파생 피처: TotalSF, HouseAge, IsRemodeled 등 실전 효과 확인
- Gradient Boosting 모델 사용: XGBoost, LightGBM이 큰 성능 향상 견인
- 하이퍼튜닝: 기본 파라미터 대비 RMSLE 대폭 감소
🧠 얻은 인사이트
- 회귀 문제에서는 평가지표와 전처리 방향을 함께 고려해야 함
- 결측치 처리나 파생 피처 설계가 성능에 미치는 영향이 큼
- Kaggle에서는 모델의 복잡도보다 데이터 이해와 처리가 더 중요할 때도 많음
🔮 다음 도전 방향
✅ 1. 새로운 데이터셋으로 확장
- Spaceship Titanic (분류)
- [Tabular Playground 시리즈 (매월 업데이트)]
- [House Prices 외부 데이터 추가 실험]
✅ 2. 앙상블 기법 실습
- XGBoost + LightGBM 평균 또는 스태킹(Stacking)
- Voting Regressor, Blending 기법 적용
✅ 3. 실전 튜닝 도구 도입
- Optuna, Hyperopt 같은 자동화 튜닝 프레임워크 연습
✅ 마무리
이번 KAG-002 프로젝트는 회귀 분석 실력과 캐글 실전 감각을 한 단계 끌어올리는 계기가 되었습니다.
앞으로도 다양한 데이터를 경험하고, 창의적인 방식으로 접근해보는 시도를 이어갈 예정입니다.
다음 여정도 함께 해요. 감사합니다 🙌
반응형
'04. 캐글' 카테고리의 다른 글
| 00017. [KAG-002] House Prices 예측 #6 - 하이퍼파라미터 튜닝으로 성능 극대화 (0) | 2025.04.15 |
|---|---|
| 00016. [KAG-002] House Prices 예측 #5 - XGBoost & LightGBM 적용 (0) | 2025.04.15 |
| 00015. [KAG-002] House Prices 예측 #4 - 다양한 회귀 모델 학습 및 성능 비교 (0) | 2025.04.15 |
| 00014. [KAG-002] House Prices 예측 #3 - 결측치 처리 & 파생 피처 생성 (0) | 2025.04.15 |
| 00013. [KAG-002] House Prices 예측 #2 - 데이터 탐색 및 시각화 (0) | 2025.04.15 |