1、Alpha Tensor: Discovering faster matrix multiplication algorithms with reinforcement learning
Fawzi, A., Balog, M., Huang, A. et al. Discovering faster matrix multiplication algorithms with reinforcement learning. Nature 610, 47–53 (2022).
DeepMind 的研究职员开拓了一种称为 AlphaTensor 的深度强化学习方法,用于创造高效且准确的矩阵乘法算法。 矩阵乘法是一种广泛用于各种系统的根本打算,包括神经网络和科学打算例程。 AlphaTensor 能够创造在许多情形下优于当前最前辈技能的算法,包括在利用有限域的 4x4 矩阵乘法方面取得的打破性造诣。 AlphaTensor 的灵巧性还通过其创造构造化矩阵乘法算法和针对特定硬件优化矩阵乘法的能力得到证明。 AlphaTensor 的潜在运用从矩阵乘法扩展到其他基本打算任务,展示了利用人工智能 (AI) 辅导算法创造的潜力。 该研究还表明,人工智能可用于办理数学和跨科学领域的主要寻衅。
AlphaTesor 的里程碑标志着打算效率的主要性。 随着人工智能 (AI) 和数据中央的利用增加,考虑对环境的影响并确保以可持续和负任务的办法开拓和利用人工智能非常主要。 随着天下越来越多地转向碳中和社会,我们须要减少人工智能系统的能源花费和碳排放。
2、Stable Diffusion: High-resolution image synthesis with latent diffusion modelsRombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695).
MidJourney, Dall-E和Imagen等模型所创造的精美的图片都有一个主要的共同点,它们都依赖于扩散模型。研究职员开拓了一种新的图像合成方法,称为 latent diffusion models(ldm),可以在一系列任务中得到最前辈的结果。
ldm利用去噪自编码器和扩散模型将形成图像的过程分解为一系列步骤,这许可在不须要重新演习的情形下掌握图像天生过程。传统的扩散模型由于须要连续的评估,以是须要大量的打算资源和昂贵的利用,为理解决个问题研究职员在强大的预演习自编码器的潜在空间中运用了扩散模型。这使得他们在繁芜性降落和细节保存之间达到了一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉把稳层,ldm可以用于一样平常的条件输入,如文本或包围框,并可以以卷积办法天生高分辨率图像。ldm在图像修补和类条件图像合成方面取得了最新的成绩,在文本到图像合成、无条件图像天生和超分辨率等任务上具有很强的竞争力,同时与传统的基于像素的扩散模型比较,显著降落了打算需求。
3、LaMDA: Language Models for Dialog ApplicationsThoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H. T., … & Le, Q. (2022). Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239.
ChatGPT在互联网上掀起了一场风暴。这是一个谈天机器人,它模拟一对一的对话来回答问题,从能够办理极度问题,或者从哲学角度回答关于生命意义。由于他的内部事情机制的细节还没有公布,以是我不会把ChatGPT包括在这个列表中。但是OpenAI的研究职员已经开拓了一个专门用于对话的新神经措辞模型,有多达1370亿个参数,被称作LaMDA(对话运用措辞模型)。LaMDA利用1.56万亿词的公共对话数据和网络文本进行预演习,使其成为迄今为止最大的措辞模型之一。虽然大略地扩展措辞模型可以提高其性能,但在提高安全性和事实根本方面效果较差。为理解决这些寻衅,研究职员利用带注释的数据对LaMDA进行了微调,并使其能够参考外部知识来源。
开拓对话措辞模型的紧张寻衅之一是确保它们的回答符合人类代价不雅观,例如防止有害的建媾和不公正的偏见。为理解决这个问题,研究职员利用了一个经由少量注释数据微调的LaMDA分类器来过滤候选相应。这种方法显示出了提高模型安全性的希望。
另一个寻衅是使模型能够参考外部知识来源,如信息检索系统或大略的打算器,来天生基于已知事实而不仅仅是听起来似是而非的的相应,研究职员创造他们的方法使LaMDA能够通查询外部知识来源产生更多基于事实的回应。
除了这些技能造诣,研究职员还探索了LaMDA在教诲和内容推举领域的利用,剖析了它在这些领域的帮助和角色同等性。总的来说,LaMDA的发展代表了自然措辞处理领域的重大进步,并有潜力改进广泛的基于对话的运用程序。
4、A ConvNet for the 2020sLiu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11976–11986).
在过去的十年里,随着ViTs的引入,视觉识别领域发生了重大变革。虽然普通vit在一样平常打算机视觉任务(如工具检测和语义分割)方面取得了一些成功,但真正在这些领域产生影响的是分层 Transformer,例如 Swin Transformers。但是这些稠浊方法的有效性常日归因于 Transformer 的优胜性,而不是卷积固有的归纳偏差。
在最近的一项研究中,研究职员动手测试纯 ConvNet 所能达到的极限。 他们逐渐对标准 ResNet 进行“当代化”以靠近Transformer,并创造了导致两者性能差异的几个关键组件。 这种探索的结果是称为 ConvNeXts 的纯 ConvNet 模型系列。 ConvNeXts 完备由标准的 ConvNet 模块构建而成,能够在准确性和可扩展性方面与 Transformers 相媲美,并且保持了标准 ConvNet 的大略性和效率。
5、OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRadford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust speech recognition via large-scale weak supervision. arXiv preprint arXiv:2212.04356.
Whisper 是 OpenAI 的开源的用于转录的AI 模型。 它是一种基于 Transformer 架构的大规模音频模型,利用从网络网络的超过 600,000 小时的多措辞和多任务监督数据进行了演习。 模型能够以30秒为单位处理音频记录,并利用编码器部分对音频进行编码,然后由解码器利用该部分来预测正在说的标记或单个单词。解码器利用这一编码信息,以及预测的前一个单词,来预测下一个最故意义的单词。
Whisper 的紧张上风之一是它的稳健性,它利用了各种数据集进行演习,包括剪辑、TED 演讲、播客和访谈。 虽然个中一些数据是利用机器学习模型转录的(这可能会引入缺点),但也有助于模型更好地处理实际的场景。 虽然 Whisper 可能不是针对特界说务的最强大模型,但可以利用其他数据对其进行微调,以提高其在特界说务上的性能。 事实证明,微调像 Whisper 这样的预演习模型比在特界说务上从头开始演习模型产生更好的结果。
6、Gato DeepMind: General AIReed, S. et al. (2022). A Generalist Agent. DeepMind
DeepMind开拓了一种名为Gato的的多模态模型,它利用基于 Transformer 的架构来实行各种任务。Gato能够处理广泛的输入,包括文本、图像和机器臂的扭矩数据,并产生一系列输出,包括可理解的文本、扭矩功率和按钮按下。这意味着Gato可以用于实行广泛的任务,包括措辞翻译和图像字幕,乃至可以玩雅达利游戏,它可以实行604种不同的任务。Gato的紧张上风之一是它的多功能性。Gato不须要为不同的任务演习和集成多个专门的模型,而是可以用一组权重和一个相对大略的架构处理所有这些任务。这使得它比以前的方法更高效、更经济,由于以前的方法常日须要开拓多个专门的模型。
Gato的发展代表着通用人工智能发展迈出了主要一步。它特殊强调了多模态方法的潜力,包括集成多种类型的数据,以提高学习和性能。像Gato这样的模型在提取见地和解决繁芜问题方面将变得越来越主要。但是Gato还是有其局限性。由于它不是一种纯粹的多任务模型方法,与单任务模型比较,它的性能有限。
7、Bootstrapped Meta-LearningFlennerhag, S., Schroecker, Y., Zahavy, T., van Hasselt, H., Silver, D., & Singh, S. (2021). Bootstrapped meta-learning. arXiv preprint arXiv:2109.04504.
在这篇论文中,研究职员提出了一种新的算法,许可儿工智能系统通过称为元学习的过程学习如何更有效地学习。这个过程包括战胜一个称为元优化的困难优化问题。这种被称为自举的新算法通过许可儿工智能系统自我学习来办理这个问题。该算法首先为AI系统创建一个目标,然后通过最小化系统与目标之间的间隔来优化系统。
研究职员专注于在元学习中利用梯度,并建立确保性能提高的条件。他们还创造所选择的度量可以掌握元优化,并且自举机制可以有效扩展元学习范围,而不须要通过所有更新进行反向传播。这种算法能够在雅达利ALE基准上实现新的最前辈的无模型代理。他们还证明了该算法可以在多任务元学习中提高性能和效率。
研究职员探索了如何在元学习中开辟新的可能性,并创造无需通过更新规则进行反向传播就可以在epsilon-greedy Q-learning agent中进行元学习的高效探索。这种新算法有可能通过元学习显著提高人工智能系统的效率。
8、Tabular Data: Deep Learning is Not All You NeedShwartz-Ziv, R., & Armon, A. (2022). Tabular data: Deep learning is not all you need. Information Fusion, 81, 84–90.
这篇论文比较了树集成模型XGBoost与几种深度学习模型在不同表格数据集上的分类和回归任务性能。结果表明,XGBoost的表现始终优于深度学习模型,包括之前声称深度模型性能优胜的论文中利用的那些模型。该研究创造XGBoost须要的调优比深度学习模型要少得多。XGBoost和深度学习模型的集成在数据集上的表现比单独XGBoost更好。这些创造表明,XGBoost仍应被视为数据科学项目中表格数据的首选。并强调人工智能并不局限于深度学习,而是有不同的办理方案。
9、Imagen Video: High Definition Video Generation with Diffusion ModelsHo, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., … & Salimans, T. (2022). Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303.
一种名为 Imagen Video 的新型文本条件视频天生系统利用根本视频天生模型和一系列交错的空间和韶光视频超分辨率模型,可以根据给定的文本提示天生高清视频。 该系统可扩展为文本到高清视频模型,它利用各种分辨率的全卷积韶光和空间超分辨率模型以及扩散模型的 v 参数化。 研究职员还将渐进式蒸馏运用于视频模型,可以在不该用分类器的情形下进行快速和高质量的采样。 Imagen Video 不仅可以天生高保真度的视频,还具有高度的可控性和天下知识,包括天生各种艺术风格和 3D 工具理解的多样化视频和文本动画的能力。
10、 A Path Towards Autonomous Machine Intelligence Version 0.9.2LeCun, Y. (2022). A path towards autonomous machine intelligence version 0.9. 2, 2022–06–27. Open Review, 62.
研究职员提出了一种用于创建智能机器的新架构和演习范式。 该论文概述了构建自主智能代理的潜在办理方案,这些代理可以以类似于人类和动物的办法学习和推理。 所提出的架构包括一个可配置的预测天下模型和由内在动机驱动的动作行为,利用经由自我监督学习演习的分层联合嵌入。 目标是使机器能够在多个抽象层次长进修感知和行动操持的表示,使它们能够在多个韶光范围内进行推理、预测和操持。
作者:C.J. Pongajow