|
本帖最后由 I_Like_AI 于 2018-8-28 18:00 编辑
1 简介
鳄梨数据集是kaggle上的一个数据集,包含了鳄梨在美国的市场销量历史数据,用来预测鳄梨的平均价格,只有1.9M大小,18340条记录,13列,正是适合用来入门的数据集。数据有12个特征,分别是日期(Date),总体积(Total Volume),三个数字代码(4046,4225,4770),大型号鳄梨个数(Large Bags),小型号鳄梨个数(Small Bags),特大型号鳄梨个数(XLarge Bags),各个型号鳄梨的个数总和(Total Bags),鳄梨类型(Type),年份(year),区域(region)。三个数字代码指的是不同价格查询代码下的价格,而日期包括了年份信息,年份似乎是多余的。预测的目标是平均价格。下载地址:https://www.kaggle.com/neuromusic/avocado-prices
2 数据探索
2.1 读取数据
- import os
- import pandas as pd
- import numpy as np
- import pylab as pl
- from pylab import rcParams
- rcParams['figure.figsize'] = 12, 8
- import matplotlib.pyplot as pl
- import seaborn as sns
- data = pd.read_csv('../input/avocado.csv')import os
- import pandas as pd
- import numpy as np
- import pylab as pl
- from pylab import rcParams
- rcParams['figure.figsize'] = 12, 8
- import matplotlib.pyplot as pl
- import seaborn as sns
- data = pd.read_csv('../input/avocado.csv')
复制代码 2.2 数据缺失值检测
进行数据缺失值检测看是否有数据是否有缺失值。
图2.2-1
2.3 查看鳄梨平均价格分布
- pl.figure(figsize=(12,5))
- pl.title("Distribution Price")
- ax = sns.distplot(data["AveragePrice"], color = 'r')
复制代码
图2.3-1
2.4 比较不同类型鳄梨的平均价格范围
- sns.boxplot(y="type", x="AveragePrice", data=data, palette = 'pink')
复制代码
图2.4-1
从上图可以看出有机鳄梨相对于传统鳄梨价格更加高,由此可知鳄梨类型对鳄梨价格能产生显著的影响。
2.5 比较不同地区有机鳄梨的平均价格范围
- mask = data['type']=='organic'
- g = sns.factorplot('AveragePrice','region',data=data[mask],
- hue='year',
- size=13,
- aspect=0.8,
- palette='magma',
- join=False,
- )
复制代码图2.5-1 2.6 比较不同地区常规鳄梨的平均价格范围 - mask = data['type']=='conventional'
- g = sns.factorplot('AveragePrice','region',data=data[mask],
- hue='year',
- size=13,
- aspect=0.8,
- palette='magma',
- join=False,
- )
复制代码图2.6-1 2.7 比较不同列之间的简单相关关系
- cols = ['AveragePrice','type','year','Total Volume','Total Bags']
- cm = np.corrcoef(data[cols].values.T)
- sns.set(font_scale = 1.7)
- hm = sns.heatmap(cm,cbar = True, annot = True,square = True, fmt = '.2f', annot_kws = {'size':15}, yticklabels = cols, xticklabels = cols)
复制代码图2.7-1
从相关系数图可以看出,与AveragePrice具有最强相关性的是type列,与之前的不同类型的鳄梨价格分布图所展现的意思一致,type能显著影响AveragePrice价格。
3 小结
数据探索就到这里结束了,感兴趣的小伙伴可以试试训练不同的模型来预测下价格,或者做更详尽的探索分析。
|
|