본문 바로가기

04. 캐글

00008. [KAG-001] Titanic 생존자 예측 #4 - 제출 파일 생성 및 Kaggle 업로드

반응형

지난 에피소드에서는 RandomForest 모델을 학습시키고, 검증 정확도를 확인해봤습니다.
이번에는 테스트 데이터셋에 모델을 적용하고, Kaggle에 제출할 결과 파일을 생성해보겠습니다.


✅ 1. 테스트 데이터 전처리

테스트 데이터셋에도 학습 때와 동일한 방식으로 전처리를 적용해야 합니다.

test['Age'].fillna(train['Age'].median(), inplace=True)
test['Fare'].fillna(train['Fare'].median(), inplace=True)

test['Sex'] = test['Sex'].map({'male': 0, 'female': 1})
test['Embarked'] = test['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

✅ 2. 테스트 데이터 특징 추출

X_test = test[features]  # ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

✅ 3. 최종 예측 수행

final_preds = model.predict(X_test)

✅ 4. 제출 파일 생성 (submission.csv)

submission = pd.DataFrame({
    'PassengerId': test['PassengerId'],
    'Survived': final_preds
})

submission.to_csv('submission.csv', index=False)
print("제출 파일 저장 완료: submission.csv")

submission.csv 파일은 다음과 같은 형태입니다:

PassengerIdSurvived

892 0
893 1
... ...

✅ 5. Kaggle에 제출하기

  1. 타이타닉 대회 페이지로 이동합니다.
  2. Submit Predictions 버튼 클릭
  3. 생성한 submission.csv 파일 업로드
  4. 결과 점수 확인 🎯

📝 Tip: 여러 모델을 시도하며 score 변화 기록을 남기면, 추후 개선 방향을 찾기 쉬워집니다.


🔚 마무리 & 다음 이야기

지금까지 전처리부터 예측, 제출까지 기본적인 흐름을 따라가봤습니다.

다음 편에서는 모델 성능을 높이기 위한 방법—예를 들어 Feature Engineering, 다른 모델(XGBoost 등), 파라미터 튜닝 등에 대해 이야기해보겠습니다.

감사합니다 🙌

반응형