本帖最后由 AI的世界 于 2018-10-13 17:07 编辑
你可能在各种应用中听说过机器学习machine learning(ML),比如垃圾邮件过滤、光学字符识别(OCR)和计算机视觉。 开启机器学习之旅是一个涉及多方面的漫长旅途。对于新手,有很多的书籍,有学术论文,有指导练习,有独立项目。在这些众多的选择里面,很容易迷失你最初想学习的目标。 所以在今天的文章中,我会列出 7 个步骤(和 50 多个资源)帮助你开启这个令人兴奋的计算机科学领域的大门,并逐渐成为一个机器学习高手。 请注意,这个资源列表并不详尽,只是为了让你入门。 除此之外,还有更多的资源。
1、 学习必要的背景知识你可能还记得 DataCamp 网站上的学习数据科学这篇文章里面的信息图:数学和统计学是开始机器学习(ML)的关键。 基础可能看起来很容易,因为它只有三个主题。 但不要忘记这些实际上是三个广泛的话题。 在这里需要记住两件非常重要的事情: - 首先,你一定会需要一些进一步的指导,以了解开始机器学习需要覆盖哪些知识点。
- 其次,这些是你进一步学习的基础。 不要害怕花时间,有了这些知识你才能构建一切。
第一点很简单:学习线性代数和统计学是个好主意。这两门知识是必须要理解的。但是在你学习的同时,也应该尝试学习诸如最优化和高等微积分等主题。当你越来越深入 ML 的时候,它们就能派上用场。 如果是从零开始的,这里有一些入门指南可供参考:
然而,在大多数情况下,你已经对统计学和数学有了一个初步的了解。很有可能你已经浏览过上面列举的的那些资源。 在这种情况下,诚实地回顾和评价你的知识是一个好主意,是否有一些领域是需要复习的,或者现在掌握的比较好的? 如果你一切都准备好了,那么现在是时候使用 R 或者 Python 应用这些知识了。作为一个通用的指导方针,选择一门语言开始是个好主意。另外,你仍然可以将另一门语言加入到你的技能池里。 为什么这些编程知识是必需的? 嗯,你会看到上面列出的课程(或你在学校或大学学习的课程)将为你提供关于数学和统计学主题的更理论性的介绍(而不是应用性的)。 然而,ML 非常便于应用,你需要能够应用你所学到的所有主题。 所以最好再次复习一遍之前的材料,但是这次需要付诸应用。 如果你想掌握 R 和 Python 的基础,可以看以下课程:
2、 不要害怕在 ML 的“理论”上浪费时间很多人并不会花很多精力去浏览理论材料,因为理论是枯燥的、无聊的。但从长远来看,在理论知识上投入时间是至关重要的、非常值得的。 你将会更好地了解机器学习的新进展,也能和背景知识结合起来。 这将有助于你保持学习积极性。 此外,理论并不会多无聊。 正如你在介绍中所看到的,你可以借助非常多的资料深入学习。 书籍是吸收理论知识的最佳途径之一。 它们可以让你停下来想一会儿。 当然,看书是一件非常平静的事情,可能不符合你的学习风格。 不过,请尝试阅读下列书籍,看看它是否适合你: - 机器学习教程Machine Learning textbook, Tom Mitchell 著,书可能比较旧,但是却很经典。这本书很好的解释介绍了机器学习中最重要的课题,步骤详尽,逐层深入。
- 机器学习: 使数据有意义的算法艺术和科学Machine Learning: The Art and Science of Algorithms that Make Sense of Data:这本书对初学者来说非常棒。 里面讨论了许多实践中的应用程序,其中有一些是在 Tom Mitchell 的书中缺少的。
- 机器学习之向往Machine Learning Yearning :这本书由吴恩达Andrew Ng编写的,仍未完本,但对于那些正在学习 ML 的学生来说,这一定是很好的参考资料。
- 算法与数据结构Algorithms and Data Structures 由 Jurg Nievergelt 和 Klaus Hinrichs 著。
- 也可以参阅 Matthew North 的面向大众的数据挖掘Data Mining for the Masses。 你会发现这本书引导你完成一些最困难的主题。
- 机器学习介绍Introduction to Machine Learning 由 Alex Smola 和 S.V.N. Vishwanathan 著。
3、 开始动手
通过看书和看视频了解理论和算法都非常好,但是需要超越这一阶段,就要开始做一些练习。你要学着去实现这些算法,应用学到的理论。 首先,有很多介绍 Python 和 R 方面的机器学习的基础知识。当然最好的方法就是使用交互式教程: 还请查看以下静态的(非互动的)教程,这些需要你在 IDE 中操作: 除了教程之外,还有一些课程。参加课程可以帮助你系统性地应用学到的概念。 经验丰富的导师很有帮助。 以下是 Python 和机器学习的一些互动课程:
4、 练习实践比使用 Python 进行练习和修改材料更重要。 这一步对我来说可能是最难的。 在做了一些练习后看看其他人是如何实现 ML 算法的。 然后,开始你自己的项目,阐述你对 ML 算法和理论的理解。 最直接的方法之一就是将练习的规模做得更大些。 要做一个更大的练习,就需要你做更多的数据清理和功能工程。
5、 项目虽然做一些小的练习也不错,但是在最后,您需要做一个项目,可以在其中展示您对使用到的 ML 算法的理解。 最好的练习是实现你自己的 ML 算法。 您可以在以下页面中阅读更多关于为什么您应该做这样的练习,以及您可以从中学到什么内容: 接下来,您可以查看以下文章和仓库。 可以从中获得一些灵感,并且了解他们是如何实现 ML 算法的。
|