반응형
타이타닉 프로젝트를 마친 후, 새로운 대회로 House Prices - Advanced Regression Techniques를 선택했습니다.
이번에는 분류가 아닌 회귀(Regression) 문제에 도전하게 됩니다.
🏠 대회 소개
- 대회 링크: https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques
- 목표: Ames 주택 데이터(Ames, Iowa)의 다양한 변수들을 활용해 **SalePrice(주택 가격)**을 예측하는 문제
- 평가 방식: Root Mean Squared Log Error (RMSLE)
RMSLE = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (\log(p_i + 1) - \log(a_i + 1))^2 }
예측 값과 실제 값의 로그 차이의 제곱 평균으로 평가됨 → 오답이 클수록 불이익 큼
📦 데이터 구성
- train.csv: 학습용 데이터 (1460개 샘플)
- test.csv: 예측용 데이터 (1459개 샘플)
- 총 80개의 feature + SalePrice(target)
예시 컬럼:
- LotArea: 대지 면적
- YearBuilt: 건축 연도
- OverallQual: 전반적 자재 마감 품질
- GarageCars: 차고 차량 수
- GrLivArea: 지상 거주 면적 (가장 중요한 변수 중 하나)
❗범주형(categorical), 수치형(numerical), 날짜형, 결측치 변수 다양하게 존재함
🧠 이번 프로젝트에서 목표
- 회귀 문제 접근법 체득
- Feature Engineering 실력 확장
- 결측치 처리 및 로그 변환 경험 쌓기
- XGBoost, LightGBM 등 다양한 모델 실험
- 캐글 점수 향상 및 제출 경험
🗂️ 에피소드 계획
회차주제
| #1 | 대회 소개 및 계획 세우기 (현재 글) |
| #2 | 데이터 탐색 및 시각화 |
| #3 | 전처리 및 파생 피처 생성 |
| #4 | 기본 모델 학습 및 평가 (Linear, RandomForest) |
| #5 | 로그 변환 및 성능 개선 전략 |
| #6 | XGBoost/LightGBM 모델 적용 |
| #7 | 하이퍼파라미터 튜닝 및 제출 |
| #8 | 회고 및 노트 정리 |
✅ 정리
- 타이타닉 이후 한 단계 업그레이드된 문제
- 실무에 가까운 데이터 구성과 정교한 평가 방식
- 회귀 문제 감각을 기르기에 완벽한 시작점!
➡️ 다음 편에서는 **데이터를 직접 열어보고, 탐색적 분석(EDA)**를 시작해보겠습니다 🔍
반응형
'04. 캐글' 카테고리의 다른 글
| 00014. [KAG-002] House Prices 예측 #3 - 결측치 처리 & 파생 피처 생성 (0) | 2025.04.15 |
|---|---|
| 00013. [KAG-002] House Prices 예측 #2 - 데이터 탐색 및 시각화 (0) | 2025.04.15 |
| 00011. [KAG-001] Titanic 생존자 예측 #7 - 하이퍼파라미터 튜닝으로 성능 끌어올리기 (0) | 2025.04.04 |
| 00010. [KAG-001] Titanic 생존자 예측 #6 - XGBoost로 정밀하게 예측하기 (0) | 2025.04.04 |
| 00009. [KAG-001] Titanic 생존자 예측 #5 - 특성 공학으로 성능 끌어올리기 (1) | 2025.04.04 |