易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2347|回复: 4

kaggle鳄梨数据集

[复制链接]

15

主题

97

帖子

310

积分

论坛管理

Rank: 4

积分
310
发表于 2018-8-28 15:42:12 | 显示全部楼层 |阅读模式
本帖最后由 I_Like_AI 于 2018-8-28 18:00 编辑

1 简介
    鳄梨数据集是kaggle上的一个数据集,包含了鳄梨在美国的市场销量历史数据,用来预测鳄梨的平均价格,只有1.9M大小,18340条记录,13列,正是适合用来入门的数据集。数据有12个特征,分别是日期(Date),总体积(Total Volume),三个数字代码(4046,4225,4770),大型号鳄梨个数(Large Bags),小型号鳄梨个数(Small Bags),特大型号鳄梨个数(XLarge Bags),各个型号鳄梨的个数总和(Total Bags),鳄梨类型(Type),年份(year),区域(region)。三个数字代码指的是不同价格查询代码下的价格,而日期包括了年份信息,年份似乎是多余的。预测的目标是平均价格。下载地址:https://www.kaggle.com/neuromusic/avocado-prices
2 数据探索
  2.1 读取数据
  1. import os
  2. import pandas as pd
  3. import numpy as np
  4. import pylab as pl
  5. from pylab import rcParams
  6. rcParams['figure.figsize'] = 12, 8
  7. import matplotlib.pyplot as pl
  8. import seaborn as sns
  9. data = pd.read_csv('../input/avocado.csv')import os
  10. import pandas as pd
  11. import numpy as np
  12. import pylab as pl
  13. from pylab import rcParams
  14. rcParams['figure.figsize'] = 12, 8
  15. import matplotlib.pyplot as pl
  16. import seaborn as sns
  17. data = pd.read_csv('../input/avocado.csv')
复制代码
2.2 数据缺失值检测

    进行数据缺失值检测看是否有数据是否有缺失值。
  1. data.isnull().sum()
复制代码


1.png

图2.2-1

2.3 查看鳄梨平均价格分布

  1. pl.figure(figsize=(12,5))
  2. pl.title("Distribution Price")
  3. ax = sns.distplot(data["AveragePrice"], color = 'r')
复制代码
1.png

图2.3-1

2.4 比较不同类型鳄梨的平均价格范围

  1. sns.boxplot(y="type", x="AveragePrice", data=data, palette = 'pink')
复制代码
1.png

图2.4-1

    从上图可以看出有机鳄梨相对于传统鳄梨价格更加高,由此可知鳄梨类型对鳄梨价格能产生显著的影响。

2.5 比较不同地区有机鳄梨的平均价格范围

  1. mask = data['type']=='organic'
  2. g = sns.factorplot('AveragePrice','region',data=data[mask],
  3.                    hue='year',
  4.                    size=13,
  5.                    aspect=0.8,
  6.                    palette='magma',
  7.                    join=False,
  8.               )
复制代码
1.png
图2.5-1
2.6 比较不同地区常规鳄梨的平均价格范围
  1. mask = data['type']=='conventional'
  2. g = sns.factorplot('AveragePrice','region',data=data[mask],
  3.                    hue='year',
  4.                    size=13,
  5.                    aspect=0.8,
  6.                    palette='magma',
  7.                    join=False,
  8.               )
复制代码
3.png
图2.6-1
2.7 比较不同列之间的简单相关关系

  1. cols = ['AveragePrice','type','year','Total Volume','Total Bags']
  2. cm = np.corrcoef(data[cols].values.T)
  3. sns.set(font_scale = 1.7)
  4. hm = sns.heatmap(cm,cbar = True, annot = True,square = True, fmt = '.2f', annot_kws = {'size':15}, yticklabels = cols, xticklabels = cols)
复制代码
4.png
图2.7-1

    从相关系数图可以看出,与AveragePrice具有最强相关性的是type列,与之前的不同类型的鳄梨价格分布图所展现的意思一致,type能显著影响AveragePrice价格。

3 小结

    数据探索就到这里结束了,感兴趣的小伙伴可以试试训练不同的模型来预测下价格,或者做更详尽的探索分析。







回复

使用道具 举报

11

主题

63

帖子

159

积分

注册会员

Rank: 2

积分
159
发表于 2018-9-10 08:48:07 | 显示全部楼层
数据集好评,鳄梨好吃
回复

使用道具 举报

44

主题

139

帖子

382

积分

论坛管理

Rank: 4

积分
382
发表于 2018-9-30 18:28:07 | 显示全部楼层
棒棒棒棒
回复

使用道具 举报

9

主题

74

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2018-10-8 08:14:14 | 显示全部楼层
很好的数据集,练手刚好
回复

使用道具 举报

9

主题

74

帖子

185

积分

注册会员

Rank: 2

积分
185
发表于 2018-10-8 08:18:34 | 显示全部楼层
很好的数据集,练手刚刚好。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-12-4 01:58 , Processed in 0.018480 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表