반응형
지난 에피소드에서는 RandomForest 모델을 학습시키고, 검증 정확도를 확인해봤습니다.
이번에는 테스트 데이터셋에 모델을 적용하고, Kaggle에 제출할 결과 파일을 생성해보겠습니다.
✅ 1. 테스트 데이터 전처리
테스트 데이터셋에도 학습 때와 동일한 방식으로 전처리를 적용해야 합니다.
test['Age'].fillna(train['Age'].median(), inplace=True)
test['Fare'].fillna(train['Fare'].median(), inplace=True)
test['Sex'] = test['Sex'].map({'male': 0, 'female': 1})
test['Embarked'] = test['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})
✅ 2. 테스트 데이터 특징 추출
X_test = test[features] # ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
✅ 3. 최종 예측 수행
final_preds = model.predict(X_test)
✅ 4. 제출 파일 생성 (submission.csv)
submission = pd.DataFrame({
'PassengerId': test['PassengerId'],
'Survived': final_preds
})
submission.to_csv('submission.csv', index=False)
print("제출 파일 저장 완료: submission.csv")
submission.csv 파일은 다음과 같은 형태입니다:
PassengerIdSurvived
| 892 | 0 |
| 893 | 1 |
| ... | ... |
✅ 5. Kaggle에 제출하기
- 타이타닉 대회 페이지로 이동합니다.
- Submit Predictions 버튼 클릭
- 생성한 submission.csv 파일 업로드
- 결과 점수 확인 🎯
📝 Tip: 여러 모델을 시도하며 score 변화 기록을 남기면, 추후 개선 방향을 찾기 쉬워집니다.
🔚 마무리 & 다음 이야기
지금까지 전처리부터 예측, 제출까지 기본적인 흐름을 따라가봤습니다.
다음 편에서는 모델 성능을 높이기 위한 방법—예를 들어 Feature Engineering, 다른 모델(XGBoost 등), 파라미터 튜닝 등에 대해 이야기해보겠습니다.
감사합니다 🙌
반응형
'04. 캐글' 카테고리의 다른 글
| 00010. [KAG-001] Titanic 생존자 예측 #6 - XGBoost로 정밀하게 예측하기 (0) | 2025.04.04 |
|---|---|
| 00009. [KAG-001] Titanic 생존자 예측 #5 - 특성 공학으로 성능 끌어올리기 (1) | 2025.04.04 |
| 00007. [KAG-001] Titanic 생존자 예측 #3 - 데이터 전처리와 모델 학습 (0) | 2025.04.04 |
| 00006. 🚢 [KAG-00001] Titanic 생존자 예측 #2 - 데이터 탐색(EDA) (0) | 2025.03.19 |
| 00005. [KGL-00001] Titanic 생존자 예측 #1 - 계획 세우기 🚢 (0) | 2025.03.10 |