查看: 1621|回复: 1

转行机器学习必须掌握的开发包-----pandas

[复制链接]

44

主题

139

帖子

382

积分

论坛管理

Rank: 4

积分
382
发表于 2018-10-13 11:30:56 | 显示全部楼层 |阅读模式
学习编程语言,除了熟悉语法,也要掌握这门语言的一些必备开发库。比如C++需要掌握STL、Boost库,Java开发者需要熟悉JDK里面诸如java.io、java.lang、java.util等重要开发包。同样在机器学习领域,除了学习python语言,几个常用开发包也是必学内容。易学智能小编为此特意选出了Matplotlib、Numpy、Pandas这三个机器学习高频开发包,下面主要介绍这些包常见用的接口,方便初学者入门。

3Pandas库

pandas 是基于NumPy 、为了解决数据分析任务而创建的工具包,它提供了丰富的操作大型数据所需的程序应用接口(API)。下面主要介绍CSV文件读取、创建数据、查看数据、选择数据、改动数据、数据缺失值处理、合并数据、数据分组这几种基本操作。

1.jpg

1.1 CSV文件读取
2.jpg



3.jpg

1.2 创建数据
4.jpg



1.2.1利用一个列表来生成数据并自动生成对应的索引:




1.2.2 通过索引,标签,数据值生成一个 DataFrame

6.jpg

7.jpg

1.2.3通过字典生成一个DataFrame
8.jpg



9.jpg

1.3 查看数据

可以通过这类方法去从各个角度浏览DataFrame,选择其中的值

本节用到的数据如下(dataframe):

10.jpg

1.3.1 按要求查看数据


11.jpg

12.jpg

13.jpg

1.4 选择数据

本小节用到的数据如下(dataframe):

15.jpg

1.4.1 按要求选择数据

选择列数据,选择行数据(两种方法,基于索引,基于位置)

16b.jpg


17.jpg

1.4.2 通过标签来选择数据

18.jpg

19.jpg

1.4.3 通过位置选择数据

20.jpg

1.4.4 通过布尔变量来选择数据

21.jpg

22.jpg

1.5 改动数据

本小节用到的数据如下(dataframe):

23.jpg

24.jpg

1.6 数据缺失值处理

对缺失数据的操作,在pandas中,数据缺失的位置会用NaN来表示。

本小节用到的数据如下(dataframe):

25.jpg

26.jpg

1.7 合并数据

本小节用到的df为两个新生成的df,下面有详细代码及截图。

27.jpg

28.jpg

1.8 数据分组

将数据根据某个属性分类。

数据如下(dataframe):

29.jpg

30.jpg

31.jpg







回复

使用道具 举报

44

主题

139

帖子

382

积分

论坛管理

Rank: 4

积分
382
 楼主| 发表于 2018-10-15 08:00:09 | 显示全部楼层
感觉这个论坛很多人写了关于pandas啊numpy啊这些包,写的都挺好的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表