본문 바로가기

04. 캐글

00018. [KAG-002] House Prices 예측 #7 - 프로젝트 회고 및 다음 도전 방향

반응형

7편에 걸친 House Prices 예측 시리즈의 마지막 에피소드입니다.
이번 편에서는 전체 과정을 정리하고, 실전 캐글 도전자로서 어떤 경험과 인사이트를 얻었는지 회고해보겠습니다.


🔁 전체 흐름 요약

회차주제

#1 대회 소개 및 전략 수립
#2 데이터 탐색 및 시각화
#3 결측치 처리 및 파생 피처 생성
#4 다양한 회귀 모델 베이스라인 구축
#5 XGBoost & LightGBM 적용
#6 하이퍼파라미터 튜닝
#7 프로젝트 회고 및 다음 단계 제시 (현재 글)

📈 점수 상승의 핵심 요인

  • 로그 변환: SalePrice에 log1p 적용 → RMSLE에 최적화
  • 파생 피처: TotalSF, HouseAge, IsRemodeled 등 실전 효과 확인
  • Gradient Boosting 모델 사용: XGBoost, LightGBM이 큰 성능 향상 견인
  • 하이퍼튜닝: 기본 파라미터 대비 RMSLE 대폭 감소

🧠 얻은 인사이트

  • 회귀 문제에서는 평가지표와 전처리 방향을 함께 고려해야 함
  • 결측치 처리나 파생 피처 설계가 성능에 미치는 영향이 큼
  • Kaggle에서는 모델의 복잡도보다 데이터 이해와 처리가 더 중요할 때도 많음

🔮 다음 도전 방향

✅ 1. 새로운 데이터셋으로 확장

✅ 2. 앙상블 기법 실습

  • XGBoost + LightGBM 평균 또는 스태킹(Stacking)
  • Voting Regressor, Blending 기법 적용

✅ 3. 실전 튜닝 도구 도입

  • Optuna, Hyperopt 같은 자동화 튜닝 프레임워크 연습

✅ 마무리

이번 KAG-002 프로젝트는 회귀 분석 실력과 캐글 실전 감각을 한 단계 끌어올리는 계기가 되었습니다.
앞으로도 다양한 데이터를 경험하고, 창의적인 방식으로 접근해보는 시도를 이어갈 예정입니다.

다음 여정도 함께 해요. 감사합니다 🙌

반응형