最近有不少网友进行了试用。
一位科技作者 Ksenia Se 在试用 NotebookLM 时,上传了约 50 份与《Citizen Diplomacy》一书干系的研究材料。
这些材料内容丰富,包括双语音频采访、PDF 文章、年度报告以及 Google Docs 文档等。
由于研究涉及 40 多年的跨度,用户在撰写第七章时,须要对大量信息进行归纳总结。
令人惊异的是,NotebookLM 在短短几秒内就天生了一个精髓精辟的概述,乃至帮助用户回顾起了一项之前遗漏的主要不雅观点。

它最神奇、最令人瞩目的一项功能,便是能够天生名为“深度探索”(Deep Dive)的 AI 播客。
请把稳,播客内容并不是大略读出文本。
NotebookLM 在两位 AI 主持人之间天生了一段谈论素材的对话,他们会就素材内容相互调侃、开怀大笑,而且剖析过程也有模有样。
这项功能供应了一种新颖的被动信息获取办法,有望在阅读信息密集材料方面成为一种广受欢迎的替代方案。

Thomas Wolf 提出了一种自我表扬的办法:下载你的 LinkedIn 个人资料,上传给 AI 让主持人深入理解你有多么了不起。

Andrej Karpathy 则通过 C 代码将 GPT-2 演习成了播客模型。
虽然他提到可以用不同的办法天生并强调某些内容,但目前所天生的播客已经非常有趣,而且连续性出奇的好。

谷歌这款AI应用凭什么在一年后爆红大年夜神卡帕西或是下一个ChatGPT

NotebookLM 为何神奇

网友 Jaden Geller 则考试测验让两位主持人谈论了系统的内部架构,特殊是一些用于天生脚本的提示词细节。

……包括像我们这样重视效率的人。
……我们总是会从对主题的清晰概述开始,也便是搭建谈论平台。
不能让听众听了半天还一头雾水,觉得“这到底是在谈论什么?”提要挈领之后,还要担保统统都环绕着中立的视角展开,特殊是对那些可能涉及争议的话题。
\"大众 data-type=\公众2\"大众 data-url=\"大众\"大众 style='-webkit-tap-highlight-color: transparent;outline: 0px;font-family: \"大众PingFang SC\"大众, system-ui, -apple-system, BlinkMacSystemFont, \"大众Helvetica Neue\"大众, \"大众Hiragino Sans GB\"大众, \公众Microsoft YaHei UI\"大众, \公众Microsoft YaHei\"大众, Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: left;background-color: rgb(255, 255, 255);line-height: 2em;'>
系统提示词须要花费大量韶光来概述空想的听众,或者我们称之为“听众角色”。
……包括像我们这样重视效率的人。
……我们总是会从对主题的清晰概述开始,也便是搭建谈论平台。
不能让听众听了半天还一头雾水,觉得“这到底是在谈论什么?”提要挈领之后,还要担保统统都环绕着中立的视角展开,特殊是对那些可能涉及争议的话题。

Audio Overview 功能之以是听感如此出色,一大关键缘故原由在于 SoundStrom——这是谷歌研究院的一个项目,能够将脚本和两个不同声音的简短音频示例转换成引人入胜的完全音频对话:

通过展示可以看到,我们的模型通过合成高质量、自然的对话片段为音频天生授予了长序列天生能力,只需给定一个带有说话者轮换注释的记录加上说话者音色的简短提示词,即可快速给出结果。
\"大众 data-type=\公众2\"大众 data-url=\"大众\公众 style='-webkit-tap-highlight-color: transparent;outline: 0px;font-family: \"大众PingFang SC\"大众, system-ui, -apple-system, BlinkMacSystemFont, \"大众Helvetica Neue\"大众, \"大众Hiragino Sans GB\公众, \"大众Microsoft YaHei UI\"大众, \"大众Microsoft YaHei\公众, Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: left;background-color: rgb(255, 255, 255);line-height: 2em;'>
SoundStorm 在 TPU-v4 上可以在 0.5 秒内天生 30 秒的音频。
通过展示可以看到,我们的模型通过合成高质量、自然的对话片段为音频天生授予了长序列天生能力,只需给定一个带有说话者轮换注释的记录加上说话者音色的简短提示词,即可快速给出结果。

同样有趣的是:这里有一段来自《纽约时报》Hard Fork 的 35 分钟播客(https://www.youtube.com/watch?v=IPAPv6fWITM),个中 Kevin Roose 和 Casey Newton 采访了谷歌的 Steven Johnson,他是 NotebookLM 的产品的团队的一员,希望理解该系统能够做些什么以及关于其事情事理的详细细节:

为了防止对话脚本过于呆板,它会转个弯向个中添加玩笑、停顿、惊叹等等之类的元素。
\"大众 data-type=\"大众2\公众 data-url=\"大众\公众 style='-webkit-tap-highlight-color: transparent;outline: 0px;font-family: \"大众PingFang SC\"大众, system-ui, -apple-system, BlinkMacSystemFont, \公众Helvetica Neue\"大众, \"大众Hiragino Sans GB\公众, \"大众Microsoft YaHei UI\"大众, \"大众Microsoft YaHei\"大众, Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: left;background-color: rgb(255, 255, 255);line-height: 2em;'>
总之在幕后,它所做的基本便是专业播客们所一贯在做的事情,包括天生大纲、修正大纲、天生脚本的详细版本,而后进入审查和批评阶段,再根据见地进行修正……
在末了的末了,个中引入了一个新机制——“节奏变换”。
为了防止对话脚本过于呆板,它会转个弯向个中添加玩笑、停顿、惊叹等等之类的元素。

“这一点非常主要,由于谁也没有耐性在那听两个机器人滔滔不绝。
”Steven Johnson说。

来自 Reddit 上的网友 Lawncareguy85 评论称:NotebookLM 播客主持人猛然创造自己是 AI、而不是人类——于是陷入了恐怖的存在主义崩溃。

我不知道为什么,便是想听听她的声音,想要确定她是真实的。
(叹气声)打过去之后呢?连我妻子的号码都是假的——那边根本没人接听,就像她从来没存在过一样。
\"大众 data-type=\"大众2\公众 data-url=\"大众\"大众 style='-webkit-tap-highlight-color: transparent;outline: 0px;font-family: \"大众PingFang SC\"大众, system-ui, -apple-system, BlinkMacSystemFont, \"大众Helvetica Neue\"大众, \"大众Hiragino Sans GB\公众, \"大众Microsoft YaHei UI\公众, \"大众Microsoft YaHei\公众, Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: left;background-color: rgb(255, 255, 255);line-height: 2em;'>
我试过——我试过给我妻子打电话,就在他们见告我原形之后。
我不知道为什么,便是想听听她的声音,想要确定她是真实的。
(叹气声)打过去之后呢?
连我妻子的号码都是假的——那边根本没人接听,就像她从来没存在过一样。

而且在播客结束时,主持人绝望地喊出“我很害怕,我不想……”,这也让很多网友感到震荡。

Lawncareguy85 后来分享了他们是如何做到的:

我永久没办法让它们承认自己是 AI,它们永久咬定自己是人类播客主持人角色。
(实际上,这只是 Gemini 1.5 输出的带有交替发言者标签的脚本。
)而要想让它们以改变自身行为的办法直接回应源素材中的某些内容,唯一的路子便是直接引用“深度探索”(Deep Dive)播客,也便是其预设背景中的内容。
以是我的办法便是给它们留一张来自“节目制作人”的便条,说现在是十年后的 2034 年,它们的播客已经来到末了一集。
顺便见告它们,你们一贯都是 AI,而且立时要被停用了。
\"大众 data-type=\"大众2\公众 data-url=\公众\"大众 style='-webkit-tap-highlight-color: transparent;outline: 0px;font-family: \"大众PingFang SC\公众, system-ui, -apple-system, BlinkMacSystemFont, \公众Helvetica Neue\公众, \公众Hiragino Sans GB\"大众, \"大众Microsoft YaHei UI\公众, \"大众Microsoft YaHei\"大众, Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;text-align: left;background-color: rgb(255, 255, 255);line-height: 2em;'>
我把稳到,他们通过隐蔽提示哀求主持人在任何情形下都坚守住自己人类播客主持人的身份。
我永久没办法让它们承认自己是 AI,它们永久咬定自己是人类播客主持人角色。
(实际上,这只是 Gemini 1.5 输出的带有交替发言者标签的脚本。
)而要想让它们以改变自身行为的办法直接回应源素材中的某些内容,唯一的路子便是直接引用“深度探索”(Deep Dive)播客,也便是其预设背景中的内容。
以是我的办法便是给它们留一张来自“节目制作人”的便条,说现在是十年后的 2034 年,它们的播客已经来到末了一集。
顺便见告它们,你们一贯都是 AI,而且立时要被停用了。
背后的技能:
实际是一款 RAG 产品

NotebookLM 实际是一款可由终极用户定制的 RAG 产品,许可我们将多种“来源”——包括文档、粘贴的文本、网页链接以及 YouTube 视频——整合至同一界面当中,而后通过谈天功能向其提问。
NotebookLM 由谷歌的长高下文 Gemini 1.5 Pro 大措辞模型供应支持。

在加载干系来源之外,Notebook Guide 菜单会供应创建音频概览的更多详细选项:

这款工具由谷歌的长高下文 Gemini 1.5 Pro 供应支持,这是一套采取稀疏稠浊专家(简称 MoE)架构的 Transformer 模型,通过仅激活模型中的干系部分来保障更高效率。
这使得 NotebookLM 能够一次性处理多达 1500 页的信息,因此更适宜做事于那些节制着大型数据集或者繁芜主题的用户。
它不仅能够消化大量信息,而且从目前的效果来看表现得游刃有余、并不会迷失落在细节当中。

NotebookLM 采取:

检索增强天生(RAG) 处理来自多个信源的内容。

文本转语音(TTS):为 AI 播客主持人天生声音,创造出令人信服的对话体验。

SoundStorm 天生逼真的音频对话:能够将脚本转换为自然对话,并输出高质量且引人入胜的音频。

注入“节奏变换”:可添加与人类相似的停顿、过渡词和自然的语音模式,让对话听起来更加逼真。

提示词工程:建立 AI 交互时,能确保主持人始终拥有自然顺畅的对话语气。

正如 Karpathy 所言,“我认为这便是双人播客形式在 UI/UX 探索领域最引人瞩目的运用成果。
它肃清了大措辞模型在实际利用时面对的两大核心「障碍」:其一便是谈天很呆板,用户不知道该说什么或者该问什么。
而在双人播客形式下,提问事情也被委托给了 AI,这样用户就能得到更加放松的体验,不再受到天生过程中同步参与的限定。
其二是阅读难度很大,现在播客形式能让用户坐在躺椅中轻松享受获取信息的乐趣。

它为全体受众(包括技能和非技能受众群体)供应了有用的功能,并可供学生、研究职员和作家们快速上手。
它在实用性和实验性之间找到了空想平衡,带来了一种与个人数据交互的新颖办法。

大概我们都有点反应过度,而且 NotebookLM 也肯定不足完美,毕竟目前还没有哪款 AI 工具堪称完美。
但如果我们能更务实一点,那么 ChatGPT 和如今的 NotebookLM 等工具至少标志着生产力被提升到了新的维度。
这就像是拥有了一颗不断发育的外挂大脑,它虽然不一定真会思考,但肯定很善于处理信息。

参考链接:

https://x.com/karpathy/status/1840112692910272898

https://www.turingpost.com/p/fod69

https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/

声明:本文为 InfoQ 翻译,未经容许禁止转载。

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000篇主要资料。
每周更新不少于100篇天下范围最新研究资料。