戴着头戴式摄像头的孩子捕捉到的视频帧。
图片来源:纽约大学数据科学中央

美国纽约大学研究职员开展了一项实验,他们通过一个孩子的眼睛和耳朵来演习多模式人工智能(AI)系统,利用的数据来自孩子6个月大到两岁生日期间的头戴摄像头的视频记录。
揭橥在最新一期《科学》杂志上的该项研究表明,该模型或神经网络实际上可利用孩子经历的有限片段,学习大量的单词和观点。
也便是说,视频只捕捉了孩子大约1%的复苏韶光,但这对付真正的措辞学习来说已经足够了。

GPT-4等AI系统现在可学习和利用人类措辞,但它们从海量的措辞输入中学习,远比儿童在学习如何理解和表达措辞时接管的要多。
最好的AI系统演习的文本数量达到数万亿字,而儿童每年只能收到数百万字的文本。

由于数据存在巨大差距,研究职员一贯疑惑AI的最新进展能否反响出很多有关人类学习和发展的信息。
这次,研究团队从孩子6个月大开始,到25个月大结束,每周通过头戴式摄像机,捕获其第一视角视频并剖析。
他们共利用了超过60小时的视频素材,包含大约25万个单词实例(即所传达的单词数量,个中许多是重复的)。
这些单词实例与孩子在说出这些单词时所看到的视频帧干系联,包括进餐、读书和玩耍等各种不同的活动。

无需海量数据输入AI经由进程儿童眼睛和耳朵进修措辞

经由演习后,团队对模型进行了测试。
他们向模型供应目标单词和四个不同的图像,哀求它选择与目标单词匹配的答案。
结果表明,该模型不但能够学习孩子日常经历中存在的大量单词和观点,还可以将它们概括为视觉实例,哪怕实例与模型演习中看到的完备不同。

来源: 科技日报 作者: 张梦然