1、简介:

过去几年一贯是人工智能爱好者和机器学习专业人士最幸福的光阴。
由于这些技能已经发展成为主流,并且正在影响着数百万人的生活。
各国现在都有专门的人工智能方案和预算,以确保在这场比赛中保持上风。

数据科学从业职员也是如此,这个领域正在发生很多事情,你必须要跑的足够的快才能跟上时期步伐。
回顾历史,展望未来一贯是我们探求方向的最佳方法。

这也是我为什么想从数据科学从业者的角度退一步看一下人工智能的一些关键领域的发展,它们打破了什么?2018年发生了什么?2019年会发生什么?

2018年AI和MLNLP计算机视觉技能总结和2019年趋势上

我将在本文中先容自然措辞处理(NLP)、打算机视觉、工具库、强化学习、走向合乎正道的人工智能

2、自然措辞处理(NLP)

让机器剖析单词和句子彷佛是一个梦想,就算我们人类有时候也很难节制措辞的细微差别,但2018年确实是NLP的分水岭。

我们看到了一个又一个显著的打破:ULMFiT、ELMO、OpenAI的Transformer和Google的BERT等等。
迁移学习(能够将预演习模型运用于数据的艺术)成功运用于NLP任务,为无限可能的运用打开了大门。
让我们更详细地看一下这些关键技能的发展。

ULMFiT

ULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard设计,它是第一个在今年启动的NLP迁移学习框架。
对付没有履历的人来说,它代表通用措辞的微调模型。
Jeremy和Sebastian让ULMFiT真正配得上Universal这个词,该框架险些可以运用于任何NLP任务!

想知道对付ULMFiT的最佳部分以及即将看到的后续框架吗?事实上你不须要从头开始演习模型!
研究职员在这方面做了很多努力,以至于你可以学习并将其运用到自己的项目中。
ULMFiT可以运用六个文本分类任务中,而且结果要好比今最前辈的方法要好。

你可以阅读Prateek Joshi关于如何开始利用ULMFiT以办理任何文本分类问题的精良教程。

ELMO

猜一下ELMo代表着什么吗?它是措辞模型嵌入的简称,是不是很有创意? ELMo一发布就引起了ML社区的关注。

ELMo利用措辞模型来获取每个单词的嵌入,同时还考虑个中单词是否适宜句子或段落的高下文。
高下文是NLP的一个主要领域,大多数人以前对高下文都没有很好的处理方法。
ELMo利用双向LSTM来创建嵌入,如果你听不懂-请参考这篇文章,它可以让你很要的理解LSTM是什么以及它们是如何事情的。

与ULMFiT一样,ELMo显著提高了各种NLP任务的性能,如感情剖析和问答,在这里理解更多干系信息。

BERT

不少专家声称BERT的发布标志着NLP的新时期。
继ULMFiT和ELMo之后,BERT凭借其性能真正击败了竞争对手。
正如原论文所述,“BERT在观点上更大略且更强大”。
BERT在11个NLP任务中得到了最前辈的结果,在SQuAD基准测试中查看他们的结果:

有兴趣入门吗?你可以利用PyTorch实现或Google的TensorFlow代码考试测验在自己的打算机上得出结果。

我很确定你想知道BERT代表什么,它实际上是Transformers的双向编码器表示,如果你能够领悟到这些,那很不错了。

PyText

Facebook开源了深度学习NLP框架PyText,它在不久之前发布,但我仍旧要测试它,但就早期的评论来说非常有希望。
根据FB揭橥的研究,PyText使会话模型的准确性提高了10%,并且缩短了演习韶光。

PyText实际上掉队于Facebook其他一些产品,如FB Messenger。
如果你对此有兴趣。
你可以通过GitHub下载代码来自行考试测验。

2019年NLP趋势:

塞巴斯蒂安·罗德讲述了NLP在2019年的发展方向,以下是他的想法:

预演习的措辞模型嵌入将无处不在,不该用它们的模型将是罕见的。
我们将看到可以编码专门信息的预演习模型,这些信息是对措辞模型嵌入的补充。
我们将看到有关多措辞运用程序和跨措辞模型的成果。
特殊是,在跨措辞嵌入的根本上,我们将看到深度预演习的跨措辞表示的涌现。

3、打算机视觉

这是现在深度学习中最受欢迎的领域,我以为我们已经完备获取了打算机视觉中随意马虎实现的目标。
无论是图像还是视频,我们都看到了大量的框架和库,这使得打算机视觉任务变得轻而易举。

我们今年在Analytics Vidhya花了很多韶光研究这些观点的普通化。
你可以在这里查看我们的打算机视觉特定文章,涵盖从视频和图像中的工具检测到预演习模型列表的干系文章,以开始你的深度学习之旅。

以下是我今年在CV中看到的最佳开拓项目:

如果你对这个美妙的领域感到好奇,那么请连续利用我们的“利用深度学习的打算机视觉”课程开始你的旅程。

BigGAN的发布

在2014年,Ian Goodfellow设计了GAN,这个观点产生了多种多样的运用程序。
年复一年,我们看到原始观点为了适应实际用例正在逐步调度,直到今年,仍旧存在一个共识:机器天生的图像相称随意马虎被创造。

但最近几个月,这个征象已经开始改变。
或许随着BigGAN的创建,该征象或容许以彻底消逝,以下是用此方法天生的图像:

除非你拿显微镜看,否则你将看不出来上面的图片有任何问题。
毫无疑问GAN正在改变我们对数字图像(和视频)的感知办法。

Fast.ai的模型18分钟内在ImageNet上被演习

这是一个非常酷的方向:大家普遍认为须要大量数据以及大量打算资源来实行适当的深度学习任务,包括在ImageNet数据集上从头开始演习模型。
我理解这种意见,大多数人都认为在之前也是如此,但我想我们之前都可能理解错了。

Fast.ai的模型在18分钟内达到了93%的准确率,他们利用的硬件48个NVIDIA V100 GPU,他们利用fastai和PyTorch库构建了算法。

所有的这些放在一起的总本钱仅为40美元!
杰里米在这里更详细地描述了他们的方法,包括技能。
这是属于每个人的胜利!

NVIDIA的vid2vid技能

在过去的4-5年里,图像处理已经实现了超过式发展,但视频呢?事实证明,将方法从静态框架转换为动态框架频年夜多数人想象的要困难一些。
你能拍摄视频序列并预测下一帧会发生什么吗?答案是不能!

NVIDIA决定在今年之前开源他们的方法,他们的vid2vid方法的目标是从给定的输入视频学习映射函数,以产生输出视频,该视频以令人难以置信的精度预测输入视频的内容。

你可以在这里的GitHub上试用他们的PyTorch实现。

2019年打算机视觉的趋势:

就像我之条件到的那样,在2019年可能看到是改进而不是发明。
例如自动驾驶汽车、面部识别算法、虚拟现实算法优化等。
就个人而言,我希望看到很多研究在实际场景中履行,像CVPR和ICML这样的会议描述的这个领域的最新成果,但这些项目在现实中的利用有多靠近?

视觉问答和视觉对话系统终极可能很快就会如他们期盼的那样首次亮相。
虽然这些系统缺少概括的能力,但希望我们很快就会看到一种综合的多模式方法。

自监督学习是今年最主要的创新,我可以打赌明年它将会用于更多的研究。
这是一个非常酷的学习线:标签可以直接根据我们输入的数据确定,而不是摧残浪费蹂躏韶光手动标记图像。

本文由阿里如斯栖社区组织翻译。

文章原标题《A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019》

译者:乌拉乌拉,审校:袁虎。