钉钉 AI 震撼进级加入多模态工作流等能力

3月28日，钉钉 AI 助理重磅升级，上线图片理解、文档速读、事情流等产品能力，率先探索多模态、长文本与 RPA 技能在 AI 运用的落地。

基于阿里通义千问大模型，升级后的钉钉 AI 助理拥有更强的视觉推理能力和长文本速读能力。
目前，用户在钉钉 IM 框或点击邪术棒按钮进入 AI 助理对话框，发送长文件、在线文档、网页链接、视频内容，即可根据内容识人、识地点、剖析、答题、翻译、择要、提取笔墨，乃至可以通过多轮交互进一步做智能问答。

钉钉AI已支持图像理解、视频速读，化身全能“小百科”

LLM（大措辞模型）之后，大模型领域迎来了新的爆点“多模态”，为 AI 运用带来了更大的想象力。

基于通义千问 Qwen-VL-Max 视觉理解模型，钉钉 AI 助理能够准确描述和识别图片信息，并根据图片进行信息推理、扩展创作、笔墨提取、翻译等，相称于一个全能的“图片小百科”。

不管图片展示的是某件物体、某个人物、风景，还是菜谱、社交梗图、数学题和衣服标签，AI 助理都能一秒识别图片内容，并在此根本上进行多轮对话问答。
比如，旅游时看到一个很美的建筑，拍照发给钉钉AI助理，就能迅速理解它的历史背景和干系故事。

利用这一能力，用户还可以实现识图翻译或提取图片中的笔墨，让信息获取更加便捷。
比如，不知道某件衣服的洗涤办法，把衣服标签拍个照发给钉钉 AI助理，就可以翻译上面的英文。

通义千问 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力，整体性能堪比GPT-4V和Gemini Ultra。
在MMMU、MathVista等测评中远超业界所有开源模型，在文档剖析（DocVQA）、中文图像干系（MM-Bench-CN）等任务上超越 GPT-4V，达到天下最佳水平。

此外，AI 助理也支持视频内容的速读。
发送给 AI 助理的短视频、直播切片或培训视频可以被快速“不雅观看”， AI 助理会根据视频内容天生字幕，提取关键词，并天生一份智能择要，对付最高 2GB 的视频内容，仅需 3 分钟即可完成智能解读。

“文档速读”能力升级，从冗长信息中解放生产力

利用大模型技能从文本中检索、总结信息，可以说是每个人日常生活、事情、学习的需求场景。

基于通义千问大模型，钉钉 AI 助理可以快速阅读本地文件如 Word、PDF、PPT、Excel 等、钉钉文档、网页链接等多种格式文件，轻松解析各种学术论文、产品手册、利用教程、数据表格、新闻宣布、多国措辞的图书等。

比如，临时须要剖析一个业务数据时，上传干系的 Excel 表格，AI 助理就可以直接给出数据结论；企业繁芜的产品手册发送给 AI 助理后，可以快速总结和智能问答，大幅提升信息效率。

值得一提的是，钉钉 AI 助理对长文本的处理能力已支持单次阅读500页的文件，可以为法律、医学、金融等专业领域供应更全面、准确的信息做事。

比如，有研究者将一份《大模型与自动驾驶如何结合研究报告》的长论文发送后，AI 助理在几秒内就快速总结了相应的内容，并给出了这一研究详细是什么、研究的技能创新点、研究方法等诸多论文的关键要素。
用户还可以进一步追问某个知识点的详细来源或干系信息，从阅览文档、反复检索的冗长事情中彻底解放。

AI助理上线“事情流”， AI 也能干繁芜的活了

随着 OpenAI 带火 Agent（智能体），大模型融入自动化技能成为当前最具共识的方向之一。

今年1月，钉钉 AI 助理正式上线，企业和个人 AI 助理已进入到事情和生产力场景中。
为让 AI 助理可以完成一系列更繁芜的任务，钉钉 AI 助理上线了事情流能力。

事情流是 AI Agent 的一种进阶玩法，不仅可以在创建时对 AI 实行任务的流程进行拆解和编排，使得 AI 助理可以主动接管完成相应操作，还能够打通外部的系统数据和 API 能力，进一步扩展了它的行动能力，比如搭建能自动写脚本并天生视频的创作 AI 助理。

为降落用户的利用门槛，钉钉官方还供应了多种事情流模板。
已有企业利用事情流创建了门店信息网络助理，将用户反馈自动化整理，并存储到一张钉钉多维表中，帮助员工节约噜苏的韶光；个人用户也通过连接微博 API，创建了自动追踪热点并撰写文章的助理，一个指令就能批量实行，大幅提升内容生产的效率。

目前，用户可在钉钉 APP 或 PC 客户端直策应用 AI 助理的各项功能，包括多模态、长文本和事情流，体验 AI 带来的便捷与高效。

声明：该文章系转载，旨在为读者供应更多新闻资讯。
所涉内容不构成投资、消费建议，仅供读者参考。

每期AI知识网