零基础入门机器学习之准备篇(下—— Pandas)学习编程语言,除了熟悉语法,也要掌握这门语言的一些必备开发库。比如C++需要掌握STL、Boost库,Java开发者需要熟悉JDK里面诸如java.io、java.lang、java.util等重要开发包。同样在机器学习领域,除了学习python语言,几个常用开发包也是必学内容。易学智能小编为此特意选出了Matplotlib、Numpy、Pandas这三个机器学习高频开发包,下面主要介绍这些包常见用的接口,方便初学者入门。
3. Pandas库
pandas 是基于NumPy 、为了解决数据分析任务而创建的工具包,它提供了丰富的操作大型数据所需的程序应用接口(API)。下面主要介绍CSV文件读取、创建数据、查看数据、选择数据、改动数据、数据缺失值处理、合并数据、数据分组这几种基本操作。
1.1 CSV文件读取
1.2 创建数据
1.2.1利用一个列表来生成数据并自动生成对应的索引:
1.2.2 通过索引,标签,数据值生成一个 DataFrame
1.2.3通过字典生成一个DataFrame
1.3 查看数据
可以通过这类方法去从各个角度浏览DataFrame,选择其中的值
本节用到的数据如下(dataframe):
1.3.1 按要求查看数据
1.4 选择数据
本小节用到的数据如下(dataframe):
1.4.1 按要求选择数据
选择列数据,选择行数据(两种方法,基于索引,基于位置)
1.4.2 通过标签来选择数据
1.4.3 通过位置选择数据
1.4.4 通过布尔变量来选择数据
1.5 改动数据
本小节用到的数据如下(dataframe):
1.6 数据缺失值处理
对缺失数据的操作,在pandas中,数据缺失的位置会用NaN来表示。
本小节用到的数据如下(dataframe):
1.7 合并数据
本小节用到的df为两个新生成的df,下面有详细代码及截图。
1.8 数据分组
将数据根据某个属性分类。
数据如下(dataframe):
【版权声明】转载请注明出处并全文转载