kaggle鳄梨数据集
本帖最后由 I_Like_AI 于 2018-8-28 18:00 编辑1 简介
鳄梨数据集是kaggle上的一个数据集,包含了鳄梨在美国的市场销量历史数据,用来预测鳄梨的平均价格,只有1.9M大小,18340条记录,13列,正是适合用来入门的数据集。数据有12个特征,分别是日期(Date),总体积(Total Volume),三个数字代码(4046,4225,4770),大型号鳄梨个数(Large Bags),小型号鳄梨个数(Small Bags),特大型号鳄梨个数(XLarge Bags),各个型号鳄梨的个数总和(Total Bags),鳄梨类型(Type),年份(year),区域(region)。三个数字代码指的是不同价格查询代码下的价格,而日期包括了年份信息,年份似乎是多余的。预测的目标是平均价格。下载地址:https://www.kaggle.com/neuromusic/avocado-prices
2 数据探索
2.1 读取数据
import os
import pandas as pd
import numpy as np
import pylab as pl
from pylab import rcParams
rcParams['figure.figsize'] = 12, 8
import matplotlib.pyplot as pl
import seaborn as sns
data = pd.read_csv('../input/avocado.csv')import os
import pandas as pd
import numpy as np
import pylab as pl
from pylab import rcParams
rcParams['figure.figsize'] = 12, 8
import matplotlib.pyplot as pl
import seaborn as sns
data = pd.read_csv('../input/avocado.csv')2.2 数据缺失值检测
进行数据缺失值检测看是否有数据是否有缺失值。
data.isnull().sum()
图2.2-1
2.3 查看鳄梨平均价格分布
pl.figure(figsize=(12,5))
pl.title("Distribution Price")
ax = sns.distplot(data["AveragePrice"], color = 'r')
图2.3-1
2.4 比较不同类型鳄梨的平均价格范围
sns.boxplot(y="type", x="AveragePrice", data=data, palette = 'pink')
图2.4-1
从上图可以看出有机鳄梨相对于传统鳄梨价格更加高,由此可知鳄梨类型对鳄梨价格能产生显著的影响。
2.5 比较不同地区有机鳄梨的平均价格范围
mask = data['type']=='organic'
g = sns.factorplot('AveragePrice','region',data=data,
hue='year',
size=13,
aspect=0.8,
palette='magma',
join=False,
)图2.5-12.6 比较不同地区常规鳄梨的平均价格范围mask = data['type']=='conventional'
g = sns.factorplot('AveragePrice','region',data=data,
hue='year',
size=13,
aspect=0.8,
palette='magma',
join=False,
)图2.6-12.7 比较不同列之间的简单相关关系
cols = ['AveragePrice','type','year','Total Volume','Total Bags']
cm = np.corrcoef(data.values.T)
sns.set(font_scale = 1.7)
hm = sns.heatmap(cm,cbar = True, annot = True,square = True, fmt = '.2f', annot_kws = {'size':15}, yticklabels = cols, xticklabels = cols)图2.7-1
从相关系数图可以看出,与AveragePrice具有最强相关性的是type列,与之前的不同类型的鳄梨价格分布图所展现的意思一致,type能显著影响AveragePrice价格。
3 小结
数据探索就到这里结束了,感兴趣的小伙伴可以试试训练不同的模型来预测下价格,或者做更详尽的探索分析。
数据集好评,鳄梨好吃:lol 棒棒棒棒 很好的数据集,练手刚好 很好的数据集,练手刚刚好。
页:
[1]