1. 比赛背景介绍: 泰坦尼克号的沉没是历史上最著名的沉船事件之一。1912年4月15日,泰坦尼克号在航行时与冰山相撞沉没,2224名乘客和船员中有1502人遇难。这一耸人听闻的悲剧震惊了国际社会。造成如此巨大的人员伤亡的原因之一是船上没有足够的救生艇供乘客和船员使用,因此在当时引起了对船舶安全法规的高度重视。而我们感兴趣的是,虽然从沉船中幸存下来有一些运气因素,但有些人比其他人更有可能生存下来,比如妇女、儿童和上层阶级人士等。 kaggle机器学习社区里就有着关于此次事件的数据集,让我们通过机器学习的工具一起来探索一下当年的真相究竟是什么样的,在那样的一场灾难中到底什么因素才是存活的关键。 在这个挑战中,我们将通过机器学习的方法完成对人物最终是否生还的预测。 2.数据集介绍: 数据集只有training和testing两个csv文件,下面是一些属性介绍:
图2-1(属性介绍) 训练集测试集样例展示: 图2-2的属性列从左至右依次为:PassengerId,Pclass,Name,Sex,Age,Ticket,Fare,Cabin,Embarked
图2-2训练集样例展示 图2-3的属性列从左至右依次为:PassengerId,Pclass,Name,Sex,Age,Ticket,Fare,Cabin,Embarked
图2-3测试集样例展示 3.结果评价方法: 我们的工作是预测是否有乘客在泰坦尼克号沉没中幸存下来。对于测试集中的每个passenger id,我们必须为生存变量预测一个0或1的值。 我们的分数就是我们最终正确预测所有乘客是否生还与实际情况的百分比值。 4.参加kaggle机器学习竞赛
图4-2比赛页面
|