机器学习之特征工
本帖最后由 shaoheshaohe 于 2020-3-10 14:38 编辑专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一)https://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247496583&idx=3&sn=1313d3f3910a309ec6fa562265b979aa&chksm=976c561aa01bdf0c16f8556d7c6c253c006a85e7cf7959b61fdf224c1823b3fda38a7df352ee&scene=21#wechat_redirect
特征工程在机器学习中的重要性不言而喻,恰当的特征工程能显著提升机器学习模型性能。我们在 Github 上整理编写了一份系统的特征工程教程,供大家参考学习。
项目地址:https://github.com/YC-Coder-Chen/feature-engineering-handbook
本文将探讨数据预处理部分:介绍了如何利用 scikit-learn 处理静态的连续变量,利用 Category Encoders 处理静态的类别变量以及利用 Featuretools 处理常见的时间序列变量。
目录
特征工程的数据预处理我们将分为三大部分来介绍:
[*]静态连续变量
[*]静态类别变量
[*]时间序列变量
https://github.com/YC-Coder-Chen/feature-engineering-handbook/blob/master/%E4%B8%AD%E6%96%87%E7%89%88.md
基于Jupyter的特征工程手册欢迎!此项目提供了基于Jupyter Notebook的交互式实用特征工程手册。其一共包含三个部分数据预处理,特征选择,特征压缩。其中数据预处理完整中文版已经完成,特征选择与特征压缩的中文版正在制作中。每个部分将在其单独的Notebook中演示。由于某些特征选择算法(例如“模拟退火”和“遗传算法”)在python中缺少完整连续的实现,因此我们还提供了相应的python脚本实现这些算法(模拟退火, 基因算法),并将其涵盖在我们的教程供您参考。简单介绍
[*]第一个笔记本 主要涵盖了数据预处理的介绍,包含基于 scikit-learn 处理静态连续特征,基于 Category Encoders 处理静态类别特征,基于Featuretools 处理时间序列问题。
[*]第二个笔记本 主要涵盖了特征选择的介绍,包含基于 scikit-learn 实现单变量特征过滤,基于 scikit-feature 实现多变量特征过滤,基于 scikit-learn 实现确定性封装筛选,基于我们撰写的 模拟退火及基因算法 脚本实现随机封装筛选,基于 scikit-learn 实现嵌入特征筛选。
[*]第三个笔记本 主要涵盖了特征压缩降维的介绍,包含基于 scikit-learn 实现监督与无监督特征降维。
页:
[1]