본문 바로가기

04. 캐글

00012. [KAG-002] House Prices 예측 #1 - 대회 분석 및 계획 세우기

반응형

타이타닉 프로젝트를 마친 후, 새로운 대회로 House Prices - Advanced Regression Techniques를 선택했습니다.
이번에는 분류가 아닌 회귀(Regression) 문제에 도전하게 됩니다.


🏠 대회 소개

RMSLE = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (\log(p_i + 1) - \log(a_i + 1))^2 }

예측 값과 실제 값의 로그 차이의 제곱 평균으로 평가됨 → 오답이 클수록 불이익 큼


📦 데이터 구성

  • train.csv: 학습용 데이터 (1460개 샘플)
  • test.csv: 예측용 데이터 (1459개 샘플)
  • 총 80개의 feature + SalePrice(target)

예시 컬럼:

  • LotArea: 대지 면적
  • YearBuilt: 건축 연도
  • OverallQual: 전반적 자재 마감 품질
  • GarageCars: 차고 차량 수
  • GrLivArea: 지상 거주 면적 (가장 중요한 변수 중 하나)

❗범주형(categorical), 수치형(numerical), 날짜형, 결측치 변수 다양하게 존재함


🧠 이번 프로젝트에서 목표

  1. 회귀 문제 접근법 체득
  2. Feature Engineering 실력 확장
  3. 결측치 처리 및 로그 변환 경험 쌓기
  4. XGBoost, LightGBM 등 다양한 모델 실험
  5. 캐글 점수 향상 및 제출 경험

🗂️ 에피소드 계획

회차주제

#1 대회 소개 및 계획 세우기 (현재 글)
#2 데이터 탐색 및 시각화
#3 전처리 및 파생 피처 생성
#4 기본 모델 학습 및 평가 (Linear, RandomForest)
#5 로그 변환 및 성능 개선 전략
#6 XGBoost/LightGBM 모델 적용
#7 하이퍼파라미터 튜닝 및 제출
#8 회고 및 노트 정리

✅ 정리

  • 타이타닉 이후 한 단계 업그레이드된 문제
  • 실무에 가까운 데이터 구성과 정교한 평가 방식
  • 회귀 문제 감각을 기르기에 완벽한 시작점!

➡️ 다음 편에서는 **데이터를 직접 열어보고, 탐색적 분석(EDA)**를 시작해보겠습니다 🔍

반응형