编辑|小智
这是一份用户友好型的机器学习教程,哪怕你是没毕业的大学生,或是初入职场的小码农,零根本的你都可以通过本教程自学机器学习,并将其快速运用。最关键的是,这些教程都是完备免费的,唯一的痛点可能在于:你的英文水平好吗?
注:本文转载自公众年夜众号第四范式,“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能办理详细商业问题。在这里你将会看到,企业如何通过可履行的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能办理问题的机器学习工程师。
写在前面
相信看到这篇文章的朋友,险些都想成为机器学习科学家。
事实上,绝大多数的付费课程,基本上都有完备免费的课程放在另一个地方。我们只是把这些信息整理好,见告你在哪儿可以找到他们,以及通过什么样的顺序进行学习。
这样,哪怕你是还没毕业的大学生,或者是初入职场的工程师,都可以通过自学的办法节制机器学习科学家的根本技能,并在论文、工作甚至日常生活中快速运用。
在这里我们推举一份用户友好型的机器学习教程,你可以通过几个月的学习成为机器学习科学家,完备免费。
一份用户友好型的机器学习教程
当你学习机器学习课程时,有没有被信息过载所淹没?
大部分的学习者都碰着了这个问题,这不是他们的错,由于绝大多数的机器学习课程都过于关注个别算法了。
没错,虽然算法很主要,但他们还是把太多韶光花在了算法上。
以至于...... 你险些很难在短韶光内走完一遍机器学习的流程,从而感想熏染到通过它办理详细数据问题的巨大愉快。
这些机器学习课程关注于算法是由于它随意马虎教。比较之下,如果机器学习老师要带你走一遍机器学习的流程,那么他须要搭建打算环境,完成数据采集、洗濯、拆分,特色处理,模型调参和模型预测,乃至他还须要一个面向学习者的交互界面。老师哪有这么多的工具,与其手把手带着学生走一遭,还不如学习机器学习算法。
但这样的问题是,很难有人能坚持通过自学,成为一个卓越的机器学习科学家。哪怕他是数学博士,或者技能高超的程序员,都很随意马虎陷在细节中而难以有详细项目实现的造诣感。
这份教程将会带来完备不同的思路。它非常适宜自学者,即便完备没有编程的根本,也能通过恰当的工具快速实现机器学习模型,办理事情、生活中碰着的详细问题。
值得把稳的是,我们享用了天下顶级的机器学习资源,而不须要花费 1 分钱。
自我学习的办法
我们推举通过 Doing Shit(不是技能术语)完成你的学习。
在这之前你大概已经学习过机器学习了,但从我和朋友们的履历来看,每每会被各种神秘的符号、公式、大量的教科书和论文整的晕头转向,然后再也不想碰这恼人的玩意了。
我们的方法会更加友好,它的学习过程就像小朋友学习一样,你会理解一些根本的知识(但不一定要完备弄懂),然后通过好用的工具快速实现出来就好了。而当你被建模出来的结果吸引,那时候我们才谈算法背后的数学逻辑和打算逻辑。
以是我们会在学习中做很多机器学习项目,这样的好处是当你面对一个事情机会时,你便是一个履历丰富的机器学习科学家了!
当然自学本身是须要自律的,这本教程将一贯陪伴着你,以下是 4 个步骤。
1. 条件条件 (不须要完备弄懂)
统计学、编程和数学(也可以不须要编程)
2. 海绵模式
把自己浸泡在机器学习的各种理论中
3. 目标实践
通过机器学习包实践 9 个故意思的题目
4. 机器学习项目
深度参与到感兴趣的项目和领域中
步骤 1:条件条件
机器学习之以是看起来很吓人,是由于总伴随着那些晦涩难懂的术语。实际上,即便你是中文系毕业的,也可以学好机器学习。不过,我们须要你在一些领域有根本的理解。
好是,一旦你知足了条件条件,别的的将会非常随意马虎。事实上,险些所有的机器学习都是把统计学和打算机科学的观点运用于数据领域。
任务:确保你理解根本的统计学、编程和数学
统计学:理解统计学、特殊是贝叶斯概率对许多机器学习算法来说都是至关主要的。
免费的指南:How to Learn Statistics for Data Science, The Self-Starter Way
编程:懂得编程将会更灵巧的运用机器学习。
免费的指南:How to Learn Python for Data Science, The Self-Starter Way
数学:对原始算法的研究须要线性代数、多变量打算的根本。
免费的指南:How to Learn Math for Data Science, The Self-Starter Way
你可以先看看这些教程,给你的机器学习道路打下知识根本。
步骤 2:海绵模式
海绵模式是尽可能接管足够多的机器学习理论知识。
现在有些人可能会想:“如果我不打算进行原创性研究,为什么在可以利用现有机器学习包的时候,还须要学习理论?”
这是一个合理的问题!
然而,如果你想把机器学习更灵巧的运用于日常事情,学习一些根本理论还是很有好处的,而且你并不须要完备弄懂。下面我们会剧透学习机器学习理论的 5 个情由。
(1)方案和数据采集
数据采集真是一个昂贵和耗时的过程!
那么我须要采集哪些类型的数据?根据模型的不同,我须要多少数据?这个寻衅是否可行?
(2)数据假设和预处理
不同的算法对数据输入有不同的假设,那我该当如何预处理我的数据?我该当正则化吗?如果我的模型短缺一些数据,它还稳定吗?离群值怎么处理?
(3)阐明模型结果
大略的认为机器学习是一个“黑盒子”的观点是缺点的。是的,并不是所有的结果都直接可以阐明,但你须要诊断自己的模型然后改进它们。我要怎么评估模型是过拟合还是欠拟合?我要向业务利益干系者怎么阐明这些结果?以及模型还有多少的改进空间?
(4)改进和调度模型
你的第一次演习很少会达到最佳模式,你须要理解不同的调参和正则化方法的细微差别。如果我的模型是过拟合了,我该如何补救?我该当花更多韶光在特色工程上,还是数据采集上?我可以组合我的模型吗?
(5)驱动商业代价
机器学习从来不会在真空中完成。如果你不理解武器库中的工具,就无法最大化发挥它们的效能。在这么多结果指标中,哪些是优化的参考指标?哪个更为主要?或者还有其他的算法会表现更好吗?好是,你不须要一开始就知道所有问题的答案。以是我们推举你从学习足够的理论开始,然后快速进入到实践。这样的话,你比较能够坚持下来,并在一段韶光后真正精通机器学习。
以下是一些免费的机器学习资料。
机器学习视频课程
这是来自哈佛大学和耶鲁大学的天下级课程。
任务:完成至少一门课程
哈佛大学数据科学课程
端到真个数据科学课程。比较吴恩达的课程,它对机器学习的重视程度较低,但是从数据网络到剖析,你可以在这里学到全体数据科学的事情流程。
斯坦福大学机器学习课程
这是吴恩达的著名课程,这些视频说清楚了机器学习背后的核心理念。如果你的韶光只能上一节课,我们建议这个。
机器学习参考资料
接下来我们推举办业中两本经典的教材。
任务:看这些 PDF 作为教科书
An Introduction to Statistical Learning
Gentler 在书里先容了统计学习的基本要素,适宜所有机器学习的学习者。
Elements of Statistical Learning
严格的先容了机器学习理论和数学,推举给机器学习的研究员。
成功的关键
以下是每个步骤成功的关键。
A:看重大局,总是问为什么
每当你被先容一个新观点时,问一句“为什么”。为什么在某些情形下要利用决策树而不是回归?为什么要规范参数?为什么要拆分数据集?当你理解为什么利用每个工具时,你将成为真正的机器学习从业者。
B:接管你不会记得所有学过的东西
不要猖獗的做条记,也不要每个课程都复习 3 次。在自己的实际事情中,你会常常须要回过分查看。
C:连续提高,不要气馁
只管即便避免在一个话题上拖太久的韶光。即便是对付机器学习教授来说,有些观点也很不好阐明。但是当你在实践中开始运用时,你会很快就懂得观点的真实含义。
D:视频比教科书更有效
从我们的履历来看,教科书是很好的参考工具,但它很难坚持。我们强烈推举视频讲座的形式。
步骤 3:有目的实践
在海绵模式之后,我们会通过刻意练习的办法磨练技能,把机器学习能力提高到一个新水平。目标包括三个方面:
实践完全的机器学习流程:包括数据网络、洗濯、预处理,建立模型,调度参数和模型评估。
在真实的数据集中练习,逐渐建立哪种模型适宜哪种寻衅的直觉。
深入到一个详细主题中,例如在数据集中运用不同类型的聚类算法,看哪些效果最好。
在完成这些步骤后,当你开始办理大型项目时就不会不知所措了。
机器学习的工具
为了快速实现机器学习模型,我们推举利用现成的建模工具。这样的话,你会在短韶光内练习全体机器学习的事情流程,而无需在任何一个步骤花费太多韶光。这会给你非常有代价的“大局直觉”(Big Picture Intuition)。
Python:Scikit-Learn
Scikit-learn 和 Sklearn 是通用机器学习中 Python 的黄金标准库,它具有常规算法的实现。
R:Caret
Caret 为 R 措辞中的模型包供应一个统一的界面。它还包括了预处理、数据拆分、模型评估的功能,使其成为一个完全的端到端办理方案。
实践数据集
学习了工具后,你还须要一些数据集。数据科学和机器学习的艺术,很多都在于办理问题时的几十个微不雅观决定。我们会在不同的数据集中看到建模的结果。
任务:从以下选项中选择 5 到 10 个数据集。我们建议从 UCI 的机器学习库开始,例如你可以选择 3 个数据集,分别用于回归、分类和聚类。
在进行机器学习工程的时候,想想以下问题:
你须要为每个数据集实行哪些类型的预处理?
你须要进行降维操作吗?
你可以利用什么方法?你可以如何拆分数据集?
你怎么知道模型是否涌现“过拟合”?
你该当利用哪些类型的性能指标?
不同的参数调度会如何影响模型的结果?
你能够进行模型组合以得到更好的结果吗?
你的聚类结果和直不雅观的符合么?
UCI 机器学习报告
UCI 机器学习报告采集了超过 350 个不同的数据集,专门为机器学习供应演习数据。你可以按照任务搜索(回归、分类或聚类),也可以按照行业、数据集大小搜索。
Kaggle
Kaggle.com 以举办数据科学比赛有名,但是该网站还拥有超过 180 个社区数据集,它们包含了有趣的话题,从用户宠物小精灵到欧洲足球比赛的数据搜罗万象。
Data.gov
如果你正在探求社会科学或者与政府有关的数据集,请查看 Data.gov。这是美国政府开放数据凑集,你可以搜索超过 190,000 个数据集。
步骤 4:机器学习项目
好了,现在到了真正有趣的部分了。到目前为止,我们已经涵盖了条件条件、基本理论和有目的实践。现在我们准备好进入更大的项目。
这一步骤的目标是将机器学习技能整合到完全的、端到真个剖析中。
完成一个机器学习项目
任务:完成泰坦尼克幸存者寻衅。
泰坦尼克号幸存者预测寻衅是一个非常受欢迎的机器学习实践项目,事实上,这是 Kaggle.com 上最受欢迎的比赛。
我们喜好以这个项目作为出发点,由于它有很多伟大的教程。你可以从中理解到这些有履历的数据科学家们是怎么处理数据探索、特色工程和模型调参的。
Python 教程
我们真的非常喜好这个教程,由于它教会你如何进行数据预处理和纠正数据。教程由 Pycon UK 供应。
R 教程
在 R 中利用 Caret 包来处理几个不同的模型。本教程很好总结了端到真个预测建模过程。
这是一个“不负任务”的快速教程:仅仅是个教程,跳过了理论讲解。不过这也很有用,而且它显示了如何进行随机森林操作。
从头写个算法
为了对机器学习有更深的理解,没有什么比从头写个算法有帮助了,由于妖怪总是在细节里。
我们建议从一些大略的开始,例如逻辑回归、决策树或者 KNN 算法。
这个项目也为你供应了一个将数听说话翻译成程序措辞的实践。当你想把最新的学术界研究运用于事情时,这个技能将会十分方便。
而如果你卡住了,这里有一些提示:
维基百科有很多好资源,它有很多常见算法的伪代码。
为了培养你的灵感,请考试测验查看现有机器学习软件包的源代码。
将你的算法分解,为采样、梯度低落等编写单独的功能
从大略开始,在考试测验编写随机森林前,先实行一个决策树。
选择一个有趣的项目或领域
如果你没有好奇心,你是很难学好的。但目前为止,大概你已经找到了想坚持下去的领域,那么开始建模吧!
诚笃说这是机器学习最好的部分了。这是一个强大的工具,而一旦你开始理解,很多想法都会主动找上门。
好是,如果你一贯在跟踪,也准备好从事这份事情,那么你的收成会远超你的想象!
我们也推举了 6 个有趣的机器学习项目。
恭喜你到达了自学指南的终点!
这里有一个好,如果你已经遵照并完成了所有任务,那么你在运用机器学习年夜将会比 90% 自称是数据科学家的人更好。
而更好的是,你还有很多东西要学习。例如深度学习、强化学习、迁移学习、对抗天生模型等等。
成为最好的机器学习科学家的关键是永久不要停滞学习。在这个充满活力、激动民气的领域,开始你的旅程吧!
该教程由 EliteDataScience 供应,我们翻译了这份教程,略有改动。这是原文链接:
想理解 AI 的行业运用?
7 月深圳,ArchSummit 环球架构师峰会,「创新的智能运用」专题,我们将带给您几个垂直行业运用的案例。
除此之外,还想和你聊聊 Facebook、Airbnb、Uber、Yahoo! 等厂的架构落地与瓶颈打破;
深度揭秘淘宝架构、手 Q 红包、百度 AI 等巨子产品的技能细节,
一线互联网正在进行何种架构实践,详情请戳阅读原文!
今日荐文
点击下方图片即可阅读
为什么富庶宜居的欧洲,IT 家当却“籍籍无名”?