百川智能首款AI助手大年夜秀神操作Baichuan 4强势进级登顶国内第一

近半个月，国外科技大厂们连番轰炸，GPT-4o、Project Astra、Copilot+ PC的出身让人目不暇接。

而海内大模型这边也是绝不示弱，不断地推陈出新、迭代升级。

就在本日，历时4个月打磨，百川智能发布了新一代基座大模型Baichuan 4。

不仅如此，他们还带着自家首款AI助手「百小应」杀入移动APP沙场。

百川智能首款AI助手大年夜秀神操作Baichuan 4强势进级登顶国内第一

试玩地址：ying.ai

与吊人胃口的OpenAI不同，iOS和安卓版运用程序本日一并推出，并且免费利用。

毋庸置疑，「百小应」已经用上了升级后Baichuan 4基座大模型的能力，与其他的AI助手一样，读文件、获取最新信息、整理资料、赞助创作等各种问题，「百小应」通通可以办理。

但分歧凡响的是，「百小应」将Baichuan 4的能力与其天然的搜索技能上风进行了深度领悟。

它不仅具备多轮搜索的能力，乃至还可以定向搜索，可以被看作是最懂搜索的AI助手。

说这么多，不如来一波深度体验。

懂搜索、会提问的AI「伙伴」

在试用过程中，

百小应的名称源自「一呼百应」

多轮搜索

在以往的搜索产品中，我们常日只会得到一个搜索结果。
推一步才能走一步，非常被动。

但百小应不同，在得到搜索结果后，它还会结合用户的问题开启「自我反思」。

比如，它会自主判断当前供应的资料是否足够详确，从而来自主决策，是否须要进行更多轮次的搜索。

当我们问「含能材料的行业前景」，它就自己去进行了2轮搜索，然后给出了高度概括的先容。

再问一个问题：中美两国在大模型行业的差距，究竟有多大？

百小应同样自动完成了2轮搜索，在技能积累、算力支持、家当运用、创新生态等方面，给出了客不雅观中肯的剖析。

可以看出，如果碰着市场调研、家当剖析这类繁芜场景，多轮搜索就能发挥最大的效力，更有效地获取更专业、更有深度的信息。

而在搜索结果的呈现上也可以看出，百小应比较其他搜索产品的独特之处。

它不是大略的总结网页信息，而是会将搜索结果嵌入回答中，成为回答的支撑或者创作的一部分，这样我们就有了参考资料来源，不必担心结果是无本之木、无源之水了。

除此之外，百小应在结果的构造化上，也做得非常精良。

作为市场研究，上面这份输出的格式很标准，可以为行业剖析、调研事情供应强大的助力。

定向搜索

很多时候，我们须要精准定位问题领域，直接访问威信站点。

百小应的「定向搜索」，此时就显示出了强大的功能。

我们可以直接问它：人机交互领域有哪些经典著作和最新研究成果？

通过2轮搜索，它精准地找到了知乎上的参考资料，详细给出了领域内的经典著作和最新论文。

从它给出的论文链接中，我们直接就可以查阅arXiv上对应的论文。

比较之下，其他智能助手仅仅是针对搜索结果做了大致的总结。

下面，我们试着让百小应在arXiv上找出关于RAG的最新研究成果。

果真，它会选择直接访问arXiv，让我们更高效地链接到想要的结果，不必在多余的繁杂信息中摧残浪费蹂躏韶光。

会提问

一次流利的搜索体验，是由产品和用户共同完成的。

一方面，模型须要节制专业的搜索技能，懂得什么是搜索；而另一方面，用户也必须会表达，才能真正通过AI来探求到自己想要的信息。

虽然以上是最空想的情形，然而现实中，表达清楚自身需求，对很多用户是个困难的事儿，或者说

这种情形下，就须要让模型来勾引用户「表达」了。

碰着引擎盖打不开的情形，可以直接问百小应。

不过这个问题的答案，取决于车辆的品牌、型号、出厂年份。
一样平常人去提问，该当是不太可能一开始就提问得这么全面的。

不用担心，百小应会通过提问来辅导你。

在它的勾引下，我们给出了车型的关键信息：比亚迪元。

这下百小应给出的信息，就更精准了，在提问了我们所在地区这个信息之后，它乃至给出了北京4S店的联系办法和地址。

想要策划一场浪漫的草坪婚礼，不如让「百小应」当你的婚礼的私人订制策划师。

这时，「百小应」并没有根据笼统的问题，一通乱答，而是连续勾引我们给出明确的细节。

「为了更好地帮您方案，我须要理解包括预算，参加人数等一些额外的信息」。

在供应了预算20万旁边，50人参加的信息之后，「百小应」立即给出了非常细致的定制方案。

从园地选择推举、婚礼支配装饰、婚宴餐饮，再到音乐草坪游戏，拍照录像，都为你一并方案好了。

更惊喜的是，它末了还知心肠为我们做了所有的预算分配。

再来看一个演示，当你想要写一个「天津之眼」的种草文案，「百小应」同样先去提问，理解真正需求。

- 您希望这篇文案吸引读者哪类读者？（诸如旅游爱好者、情侣推举，还是家庭旅游）

- 您希望通过这篇文案传达哪些紧张内容和情绪？（比如，浪漫氛围、历史文化、刺激体验等）

然后，你就可以从这些给定的选择中进行挑选，或提出自己的想法皆可。

接下来，「百小应」便会根据哀求天生文案，简短的笔墨着重表示了「天津之眼」独特魅力所在。

综上演示，「百小应」之以是能够输出精确的结果，紧张归功于「会提问」，通过提问勾引、引发用户清晰表达自身详细需求，为每个人构建出个性化的办理方案。

多模态

在Baichuan 4多模态能力的支持下，「百小应」还可以对图片内容进行解读。

又或者，将图片作为补充材料，获取更精准的回答。

最近比较火的AI开瓜，看看「百小应」能不能挑出，哪颗是最甜的瓜。

根据「百小应」的判断，一样平常西瓜表面条纹越清晰、颜色越深绿，可能代表着西瓜更成熟。

从图中看，推测得出，6和7看着条纹非常清晰。

不过，它还是提醒我们，仅从外不雅观上判断西瓜甜度并不准确。

再来一张经典的重庆地标夜景图，不知「百小应」能否认得出？

显然，这个问题根本难不倒它。

你乃至，可以让它就这张图片，天生一份朋友圈文案。

「百小应」真的很会，天生的文案内容非常吸睛，同时还表示出了小众但不矫情的风格。

文档速读

除了以上提到的能力之外，「百小应」还支持上传PDF、Word文档，网页链接皆可行。

这就非常适宜，须要大量阅读长篇幅文献、报告等内容的科研者，或是解析繁芜数据表格的金融剖析师等。

「百小应」可以做到，仅用1分钟的韶光，读完上市公司财报。

比如，上传一份长达31页的特斯拉2024年第一季度财报文件。

然后哀求「百小应」去解读财报，总结出值得关注的信息，并给出相对应的原文。

没想到，眨眼的功夫，「百小应」总结出了十个要点，并配上原报告highlights的内容。

再给它po一个链接，总结GPT-4o发布会的一些关键要点。

「百小应」的输出结果，基本上覆盖了全部的要点。

高下滑动查看

此外，「百小应」还可以支持通过语音的办法进行交互，切实其实是「手癌」患者的福音。

大模型时期新物种，AI不再是「工具」

经由一番实测之后，「百小应」已经在长文本阅读、多模态理解、提问搜索等多方面任务上，表现出强大的能力。

百川智能认为，让AI从工具变为伙伴，基于大模型打造的AI助手更像是在「造人」。

就像人类能够利用工具，听说读写看，乃至会思考一样，AI助手随着基座模型迭代，也将具备相应的能力。

虽然当下的AI助手还不具有情绪、影象、决策等高阶能力，间隔「伙伴」还有很长的路要走，但是AI助手已经具备了部分伙伴所须要的能力，比如会思考，会用工具。

而搜索正是当下AI助手最主要的工具。

只有将大模型与搜索相结合，才能发挥出巨大的上风。
乃至，人们普遍认为大模型的第一波运用，便是在搜索。

为什么这么说？

大模型饱受诟病的「幻觉」问题，是无法避免的，而植入搜索可以提升LLM回答准确性，早已成为行业共识。

实在，国内外大部分企业，早已给自家AI助手类运用增加了搜索功能。

但同样的搜索，却有着不一样的思路。

一种普遍的做法是收到用户的指令后，搜索干系信息，然后总结搜索结果进行输出。

而百川智能认为，大模型+搜索该当是在回答中嵌入搜索结果，用搜索赋能大模型，提高模型回答的鲜活性，让大模型言之有物，而不是用大模型赋能搜索。

由此，我们所看到的「百小应」，才是APP中懂搜索、会提问的那个运用。

百小应之以是能将大模型与搜索的能力很好地融为一体，是由于搜索一贯是百川智能探索LLM的重点方向之一。

这家公司创始人和研发团队有着多年的前沿搜索履历，在去年发布首款闭源模型Baichuan 53B时就采取了「搜索增强技能」，大大提升了基座模型的输出结果的性能。

首款AI助手「百小应」能够表现非凡，当然也离不开这次基座模型Baichuan 4能力的大升级。

Baichuan 4登顶海内第一

Baichuan 4相较于上一代Baichuan 3，在通用能力上有着显著提升。

在刚刚发布的SuperCLUE威信中文评测中，Baichuan 4以80.64分成绩，登顶海内第一。

SuperCLUE总榜

详细来看，在理科任务中，Baichuan 4表现不俗，以 76.90 分的成绩排名海内第一。

然而，与GPT-4-Turbo-0125比较，相差4.23分，仍有一定的提升空间。

个中，逻辑推理（74.4分）、工具利用（80.8分）这两项均刷新海内最好成绩。

在文科任务中，Baichuan 4取得了83.12高分，文科能力环球第一，比GPT-4-Turbo-0125赶过5.33分。

个中，知识百科（89.8分）、长文本（80.8分）、天生创作（83.4分）、传统安全（90.2分）均刷新海内最好成绩。

在与海内大模型均匀得分相较下，Baichuan 4在所有能力上均高于均匀线，展现了均衡的综合能力。

尤其是，在逻辑推理（+18.64）、代码（+18.89）、长文本（+20.77）能力上远赶过均匀线15分以上。

而与国外主流大模型比拟，Baichuan 4在文科类任务取得领先上风。

特殊是在知识百科、长文本理解、工具利用、语义理解和创意天生等方面，表现突出。

这使得Baichuan 4非常适宜运用于知识利用、智能体、内容创作和长程对话等多种场景。

然而，它在代码能力方面仍有提升的潜力。

多模态能力仅次于GPT-4V

此外，在各大基准测试中，Baichuan 4还具备了行业领先的多模态能力，表现更加亮眼。

详细在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上，新模型实力仅次于GPT-4V，完备碾压Gemini Pro、Claude 3 Sonnet等模型。

技能创新

为什么Baichuan 4，能够在4个月这么短的韶光取得打破？

统统都源于，其在演习过程中引入了很多业界领先的技能优化手段。

在预演习阶段，为了有效提升LLM对数据的利用，新模型采取了基于Model-based+Human-based的协同数据筛选优化，并对长文本建模位置编码科学的Scaling Law。

在对齐阶段，还重点优化了模型推理、方案、指令跟随的能力，通过「丢失」驱动数据选取与演习，阶段爬坡，多模型参数领悟等办法，有效提升LLM关键指标和稳定性。

同时，团队还采取了RLHF和RLAIF领悟后的「RLxF」，强化学习对齐技能，大幅提升模型的指令跟随等能力。

此外，Baichuan 4另一项的技能创新便是为LLM推理提速，提出了全新的投契采样方案clover。

通过将序列知识与并行解码结合，使得投契采样的命中率提升至60% ，同时本钱降落30%以上。

1000万token免费薅，零代码Agent即将上线

发布会现场，百川智能推出了全新的MaaS+AaaS做事。

对付企业来说，须要的并不是大模型，而是生产力、生产效率的提升。

百川智能认为，拥有MaaS+ AaaS（Agent as a service）双重能力，企业才能构建出智能化的最佳方案。

MaaS版块由基座模型组成，分为旗舰版和专业版。

旗舰版将全量开放Baichuan 4的各项能力，Baichuan 4不仅拥有海内第一的中文能力，并且具备行业领先的金融知识和问答能力，在SuperCLUE的金融知识百科能力上，Baichuan 3曾取得了A+的最高评级。

专业版，则包含Baichuan3-Turbo和Baichuan3-Turbo-128K两款模型，在价格方面比较旗舰版Baichuan 4更实惠。

而且，这些模型均针对企业用的高频场景进行了针对性优化，综合测试比较GPT3.5整体效果提升8.9%。

百川智能表示，即日起，MaaS的新用户可以得到1000万免费token！

在Baichuan 4根本上，百川智能针对Agent构建，推出了Assistan API接口。

它不仅支持Code interpreter、RAG内建工具，还支持自定义工具调用，方便企业接入各种丰富繁芜的API。

评测结果显示，Assistant API的工具调用能力，已经靠近了Open AI assistant API的水平。
现在，Assistant API已经正式开启内测约请，试用免费！

接下来，百川智能还将推出零代码Agent创建平台产品。

任何业务职员，都可以通过自然措辞创建Agent，更好地赋能企业智能化发展。

在生态方面，百川智能的「朋友圈」可以说范围之广。

目前已包办事明晰数千家客户，包括完美天下游戏、爱奇艺、创梦、什么值得买等各行业的领军企业。

同时，还与与信雅达、用友、软通动力、新致软件、达不雅观数据等多家行业生态伙伴，以及华为、曙光等硬件厂商和中国移动、电信、联通等运营商达成互助，携手构建百川大模型生态。

顺便提一句，百川智能在成立1年多的韶光里，以超乎想象的研发速率，共发布了12款大模型。

Baichuan 4之后，不知还有什么样的惊喜等着我们。

参考资料：

https://ying.baichuan-ai.com/chat

每期AI知识网

百川智能首款AI助手大年夜秀神操作Baichuan 4强势进级登顶国内第一

用AI与小轨范打造智能便捷的应用体验

中国移动甘肃公司年度招聘通知书记各市州县区有岗/六险二金