1. 比赛背景介绍 如果让你去描述梦想中的房子,我相信你肯定不会从描述地下室的高度,或者是与火车站距离的远近开始。但是你可能想象不到的是,这些因素在预测房价时尤为重要。 当今社会,买房人想着如何去找廉价的房子,而出售者想着如何去建房价高的房子。可是该如何去评估一个房子真正的价值呢,很多人根据经验做一些预期,可能会说几点出来,但是他们却无法通过数据去精准地计算房子的价格。机器学习的魅力在于他就像一个求知欲极强的学习者,可以通过学习海量的数据来发现数据之间的关系。然后在这基础上去进行一些预测,通过机器学习的方式,预测结果的准确度可能会远远高于人类。 最近也有这样一个房价预测的kaggle机器学习竞赛,希望广大的机器学习爱好者去建立一个预测房价的机器学习模型。 2.数据集介绍 2.1数据背景 数据中的79个变量对应爱荷华州艾姆斯市住宅的各个属性,你将通过这些数据去预测最终房价。 2.2数据关键属性介绍
图2-1部分关键属性介绍
图2-2测试集样例部分属性
图2-3训练集样例部分属性 3.结果评价方法: 通过计算预测房价与真实房价的RMSE(均方根误差)来计算误差,RMSE公式如下:
n=预测的总个数,obs代表真实值,model代表预测值。预测值与真实值偏离越大,则最后得出的RMSE越大。 4.参加比赛
图4-1kaggle官网页面 https://www.kaggle.com/
图4-2比赛列表页面
图4-3 House Prices竞赛页面 https://www.kaggle.com/c/house-prices-advanced-regression-techniques
|