在5月15日的火山引擎春季Force·原动力大会上,字节跳动产品与计策副总裁朱骏分享了字节在做豆包产品时的一些思考。
字节是如何基于豆包大模型来开拓AI原生运用的?为什么取名“豆包”?产品设计有哪些思考?

以下为朱骏的演讲全文:

上周,组织火山引擎大会的同学找到我,让我提交一张偏商务风的照片,他们要把这张高朋照片放在网站上。
我扫了一下自己的相册,商务风没有,邻家大叔风很多,很难登上大雅之堂。

那怎么办呢? 既然我自己便是做AI的,这个可难不倒我,我打开了我们的Al分身产品“星绘”。

字节跳动朱骏从大年夜模型到用户体验在做豆包产品时的一点感想

首先,我试着给它一个Prompt,“穿着西装,在火山引擎大会上年夜方陈词”。
这是它给我呈现的照片。

我们看到“年夜方陈词”的态度有了,但是“火山引擎”它理解岔了。
目前这个视觉天生模型,就像是一个画画特殊强,但是待在家里画画的艺术生,对付像“火山引擎”这样的物理天下的知识节制还很有限。
大概率是要等后面措辞模型和视觉天生模型完备统一往后,才能把这种问题彻底办理。

接下来给了它一个难度更低的任务:“商务照、西装、手插在口袋里望着远方”。
这回结果肯定可用了。
它也就成了我交给主理方的照片。

这只是大模型能力运用在我们日常生活中的一个小小例子。
前面谭待提到的火山引擎云上的各种大模型,它们不但是跑做事器上的一堆代码,而是须要找到最适宜的运用形态,以足够自然的交互形式,才能让更多用户用起来,而且乐意用。

过去一年,字节也在大模型的产品形态上做了比较多的学习和摸索。
和AI时期之前做产品设计比较,我的个人感想熏染是既有共性又有很大的差异。
共性是用户的核心需求还是那些,比如:用最高效、最方便的办法获取信息的需求,给事情提效的需求,自我表达和创作的需求,让自己变好看点的需求,社交娱乐和教诲学习的需求等等,都没有变。
差异点是,以前是在成熟的技能上想运用,只要用同理心去理解用户的需求和利用体验,就能做出一个还不错的产品。
现在有了新的难度,由于产品底下的技能不再是一个稳定的地基了。
大模型的能力目前很多维度上让人惊叹,但也在很多维度上有缺陷,同时又在快速演进,每隔三个月、半年都会发生很大的变革。
而且它的能力改进每每不是线性的,隔一段韶光可能就会涌现一个跃迁。

以是做大模型运用一个很大的寻衅是,在这个动态发展的过程中,不仅要判断大模型现在能办理好什么任务,同时可能更主要的是要考试测验预测半年、一年后大概能把什么样的任务办理好。
一个任务如果办理到20分、50分可能都是一个不太可用的状态,但是它一旦达到60分,可能利用率就溘然能上来了。
以搜索任务为例,去年上半年大模型回答问题时10道题可能错6道,那便是实际不可用的状态。
但随着模型能力提升,幻觉大幅降落,再合营搜索引擎做知识增强,现在就达到了可用的状态。
当然后面提升的空间还非常非常大,比如办理各种垂直搜索、更繁芜问题的回答,乃至是用户本日在搜索引擎里都回答不了的问题。

以是做大模型产品的寻衅和乐趣是,须要在这种持续动态的技能发展中,不断去判断下一个产品的PMF (产品市场匹配点)可能是什么。

去年我们一个重点投入的方向是豆包App,我想分享一下对豆包这个产品的一些思考,希望对付操持在字节大模型上做运用开拓的开拓者,也能起到一点点参考浸染。

首先,为什么名字叫豆包?很多人都问我:豆包这个名字彷佛跟AI没有什么关系,难道不应该用一个更有科技含量、更凸显智能的名字吗?

豆包的名字背后也有一个小故事。
我们去年6月在给产品起名时,首先确定下来产品起名的通用原则是,大略、好读、好记。

与此同时我们也为豆包这类产品定义了三个产品设计原则。
第一条便是“拟人化”。

设计原则1:拟人化

“拟人化”是大模型产品的新特性。
AI 除了带来了新的能力,也带来了新的交互办法,用和人类对齐的交互体验,降落利用门槛,也让用户在利用产品时觉得到产品有类似人的温度。
为了表示这种拟人的感想熏染,我们希望产品的名字,就像用户对一个亲密朋友日常称呼的昵称。

在这个方向下,我们列了很多候选,个中有些很难注册牌号,末了我们就很快选中了豆包。
当时我们想,反正往后如果有更好的名字也还可以改嘛。

结果产品上线后,看到很多用户都在预测和谈论:为啥字节的大模型产品叫豆包。
我们看到了两个很故意思的来自用户的阐明:一个是,豆包=抖音的官方bot,“抖bot”谐音便是豆包;一个是说豆包=“都包了”,事情生活学习的需求都包了,寓意是通用助手的产品愿景。

创意来自民间。
所往后来有人再问我豆包名字的含义,我就用这两个来自用户的阐明回答了,问的人也都很信服。

设计原则2:离用户近,嵌入用户的利用环境

我们定下的第二条设计原则是,它须要离用户很近,随时伴随用户,嵌入用户的不同利用环境。
该当是豆包到用户身边,而不是用户到豆包身边。

比如,我有很多对豆包的利用是在户外,有什么问题我就随时问豆包。
为了让豆包在这种移动场景里交互更方便,像一个随身携带的百事通,我们很早投入了很大力度优化语音交互体验,包括基于大模型的ASR和超自然的TTS音色,只管即便做到类似和一个真人对话的感想熏染。

比如“五一”假期,我去四川自贡转了一圈,旅行途中我不断问它:给我先容一下恐龙博物馆,给我说下自贡的井盐历史,等等。
晚上和朋友用饭时上了道皮皮虾,虽然很好吃,但我对皮皮虾怎么剥皮一贯都不闇练,我就问一下豆包怎么剥皮皮虾。
豆包不仅回答了我的问题,同时推过来一个抖音视频。
通过视频,我非常直不雅观地看到了剥皮皮虾的技巧。

但我也可能不在手机上,而是在电脑桌面端事情。
在这个场景里,除了浏览器里的 Web 运用,我们也供应了豆包的桌面客户端,这是为了在 PC 上离用户更近。
举个例子,如果你是一个自媒体的从业者,可以在豆包桌面版本上点击“文案创作”这个“AI技能按钮”,选择“抖音文案”,然后填入主题“先容建筑师安藤忠雄”,一个分镜头的抖音视频脚本就天生好了。

但是还有很多时候,用户既不在浏览器里,也不在豆包的桌面客户端,而是在读PDF,或者在写代码。
这时候,豆包桌面插件能够通过划词选中的办法,被用户在任何地方唤起,帮助用户就近办理任务,例如基于 PDF 的总结和问答,在编程时天生代码注释或者修正代码等。

这些都是希望豆包离用户近,只管即便嵌入用户利用环境的例子。

设计原则3:个性化

第三个设计原则是“个性化”。
虽然通用大模型能办理非常广泛的任务,但实际上,我们看到用户有自己个性化的需求,包括对智能体的功能定位,回答风格、声音、形象、影象都有非常个性化的需求。

在智能体天下里,我们以为未来用户大概率会有一个紧张的智能体(比如豆包)做最高频的互动,办理很多任务;但是也会由于个性化、多样化的须要,和很多其他的智能体互动。

比如我们团队的一位女生,在豆包上捏了一个英语老师的智能体。
除了用自然措辞定义了“这个老师须要用英文对话,并且在对话中随时示正用户的语法缺点”这个功能,也定义了她自己喜好的声音和形象。
平时在路上和“他”用语音的办法对话,回到家还会用实时通话模式来仿照英语口语对话。

但对付那些更繁芜的,须要更高阶能力,乃至更异构的交互办法的智能体,我们也供应了一个智能体定义平台“扣子”。
除了自然措辞定义外,也支持通过事情流、代码、插件,授予这个智能体更强、更稳定的能力。

比如,我们的一个教诲产品团队通过扣子平台,在豆包上发布了学习小帮手运用,帮助家长辅导作业。
这个智能体能供应拍照的交互办法,不仅能给出解题思路,而且通过回答进一步的追问,不断进行答疑,真的像一位个性化的辅导老师。

豆包月活超过2600万

总结一下,一方面大模型技能本身在不断进步,一方面行业里对付运用形态和交互办法的摸索会逐渐成熟,这样大模型产品会逐渐融入更多用户的生活和事情里。

比如,我们看到豆包的用户规模在快速增长。
本日豆包已经有超过2600万的月活用户,和800多万个被大家创建出来的智能体。

除了豆包这个产品外,各行各业还有无穷无尽的用户场景,在座的诸位对这些场景肯定比我们有更深的洞察。
相信在不久的将来,能看到大模型能力在更多的场景里变成运用,变成更好的用户体验,为更多用户的事情和生活带来便利。

感激大家。