什么是AI智能

AI 智能体,又称 AI 代理或 AI Agent,是一种打算机程序,具备一定的自主性、环境交互能力以及目标导向行为。
这类智能体拥有感知、推理、决策和实行等多种能力,使其能够在不同场景中替代人类完成特界说务。
大略来说,AI 智能体是一种能够感知环境并采纳行动以实现目标的智能实体。

AI 智能体基于大措辞模型(LLM)进行构建,LLM 在影象检索、决策推理以及行动顺序选择等方面为 AI 智能体供应了有力支持,从而使其智能程度得到显著提升。
在 AI 智能体的基本构成中,紧张包括以下三个模块:

感知(Perception):这是 AI 智能体对周围环境进行认知的第一步。
通过感知模块,AI 智能体可以获取环境中的信息,例如图像、声音、温度等,从而更好地理解所处环境及其变革。

大脑(Brain):作为 AI 智能体的核心部分,大脑模块卖力对网络到的信息进行处理、剖析和推理。
大脑模块利用机器学习、深度学习等技能,对环境信息进行解析,进而天生相应的决策和策略。

AI智能体应用前景与对算力需求的影响

行动(Action):基于大脑模块天生的决策和策略,AI 智能体可以采纳实际行动以实现目标。
行动模块卖力方案、实行和调度行动方案,使 AI 智能体能够在实际环境中完成任务。

基于大措辞模型的 AI 智能体在处理繁芜措辞任务方面具有上风。
它们可以理解和天生自然措辞,进行对话处理,乃至创作文章和故事。
这类 AI 智能体广泛运用于各种场景,如客户做事、内容创作、教诲、研究等。
目前在研究领域,基于 AI 智能体紧张有几个代表的项目:

智能体决策方法:Chain-of-Thought[2],Tree-of-Thought[3],ReAct[4]

智能体影象模块:Retrieval Augmented Generation(RAG)[5]

智能体工具利用:BMTools[6],ToolLLM[7],AgentLM[8]

智能体能力评测:AgentBench[9],ToolEval[10]

智能体通用框架:AutoGPT[11],AutoGen[12],XAgent[13]

多智能体仿照环境:ChatDev[14],AgentVerse[15],AI-Town[16]

在家当界,AI 智能体也有很大的运用空间。
例如,微软发布的 Copilot 工具赞助用户完成日常事情;GitHub Copilot 和 Code Cursor 等项目加速了程序员的代码编写事情。
此外,OpenAI 在近期开拓者大会上展示了最新的 AI Assistant 工具,用户可以在无需编写代码的情形下,创造出基于 GPT-4 的专用智能体。

AI智能体的运用处景和算力需求

AI 智能体的运用处景丰富多样,涵盖了诸如自然措辞处理、打算机视觉、语音识别、自动驾驶等多个领域。
根据运用处景和任务需求的不同,AI 智能体可以分为单智能体、多智能体和稠浊智能体三种类型。
在实际运用中,不同类型的 AI 智能体对算力的需求因其所应对的任务繁芜性和场景特性而有所差异。
理解和节制各种 AI 智能体运用处景的算力需求,对AI芯片和GPGPU(通用图形处理器)研发和设计显得尤为主要。
下面我们将简要剖析 AI 智能体在不同运用处景下的算力需求,以期为干系领域的研究和运用供应参考。

单智能体

单智能体紧张针对单一任务环境,如软件编写、自动驾驶车辆和智能家居等领域。
近期,许多基于大措辞模型的 AI 智能体开源项目关注单智能体领域,如 AutoGPT、AutoGen 和 X-Agent 等。
这些项目基于 ChatGPT、LLaMA 等大措辞模型,通过设计构造化提示词,使智能体遵照预设框架(行动→不雅观察结果→思考→决定下一步辇儿为)独立剖析并实行用户需求。
单智能体运用的算力需求紧张取决于所用大措辞模型的参数量、推理高下文长度、数据库搜索算法延迟、调用工具库延迟和相应韶光需求。
大约须要 1~2 个 8 卡 GPGPU 节点处理少量并发推理要求。

假设利用模型参数为半精度浮点格式(FP16=2 字节),输出 token 长度统共为 200(首个token+后续199个token),相应韶光为 10 秒以内,可以通过以下办法打算算力和带宽需求:

个中:

另一类单 AI 智能体针对特界说务进行定制化设计(如自动驾驶),其办理问题繁芜度和需处理数据量相对确定,因此算力哀求相对稳定且并发要求较少,但相应韶光哀求较高。
这类智能体须要 1~2 张高性能 GPGPU 推理卡在本地进行推理。
算力需求随特定运用的繁芜度和规模而变革。
随着模型算法的发展和更繁芜运用处景的需求,算力需求可能逐步增长。

多智能体

多智能体系统侧重于智能体间的协同与竞争,如多人竞技游戏、机器人协作和无人机编队等。
在这类系统中,各智能体的行为相互影响,构成繁芜的系统动态,对算力需求较高。
多智能体系统的繁芜性使得其对算力的需求明显超过单智能体,由于每个智能体的决策都须要在考虑其他智能体决策的根本上进行权衡。
随着系统规模的扩大,涉及高维状态空间和动作空间,对模型表达能力和实际场景中的硬件算力提出较高哀求。
目前多智能体领域的开源项目包括 ChatDev、AgentVerse 和 AI-Town 等。
在这些项目中,每个 AI 智能体扮演不同角色,按照剧本流程(如 ChatDev 和 AgentVerse)实行任务,或在固定场景下自由发挥(如 AI-Town)进行仿照推演。
实际支配中,智能体可共用同一大模型(如 ChatGPT),根据不同提示词设计扮演不同角色,或利用小型专家模型(如角色扮演模型或代码天生模型)实行不同任务。

从算力角度看,按剧本流程发展的多智能体运用所需算力相对较少,由于大部分情形下智能体依次实行推理,较少并发需求。
然而,单一模型能力有限,无法胜任所有智能体角色,且模型切换和权重载入韶光开销影响用户体验。
因此,在某些场景下需同时加载多个不同模型,对芯片内存空间提出高哀求。
例如,在 ChatDev 场景下,5 个约 30B 参数量的专家模型分别扮演 CEO、产品经理、代码研发职员、代码测试职员和文档撰写职员,至少须要 150GB 内存空间。
这种情形下,采取小容量 HBM+大容量 DRAM 组合设计,或许是一种较好的办理方案。

对付多智能体乱序互动场景(如社会行为仿照、城市交通仿照、无人机群等),须要大量并行推理能力。
根据仿照粒度不同,可以选择大量小模型(1.5B 至 3B)仿照场景中不同角色行为,或利用稍大模型(7B 至 13B)仿照部分区块或部分群体行为。
无论哪种情形,都须要大量高并行算力和高 HBM 带宽 GPGPU 芯片支持。
由于模型较小,推理时无需考虑卡间通讯问题。
同时,由于仿照场景对打算精度哀求不高,可以采取低比特量化及稀疏方法进一步减少算力和带宽需求。

稠浊智能体

稠浊智能体系统领悟了人类与机器的上风,如人机协同作业、智能医疗等。
这类系统将人类和机器智能体置于同一环境中,实现基于人机交互的学习和决策,形成稠浊智能系统。
这有助于应对人工智能在繁芜环境中的寻衅,并使 AI 系统作出更人性化的决策。

然而,稠浊智能体在算力需求上远超单智能体和多智能体系统。
这是由于稠浊智能体需处理繁芜的人机交互数据,并在大规模状态空间和动作空间中进行高效决策。
同时,稠浊智能体要在打算精度、相应韶光和吞吐量等方面寻求平衡,知足人机协同作业的高哀求。
此外,实际环境中运行的稠浊智能体系统,除了需承担多智能体交互所导致的大模型推理开销,还需具备一定的数据网络和模型微调能力,以应对真实环境的不愿定成分和用户需求的变革。

为支配这类智能体系统,我们可以采取高性能的训推一体 GPGPU 做事器进行集中管理、决策和微调,单个智能体则可利用低功耗的边缘打算芯片进行人机交互、数据网络和紧急情形的快速相应。

总结

我们以上紧张谈论了 AI 智能体大脑(即大模型模块)所需的算力。
在实际支配过程中,还需考虑到感深交互接口、工具调用以及环境仿照等所需的大量打算能力。
由于文章篇幅有限,这些问题未在此展开谈论。
总之,随着人工智能的不断发展和运用拓展,AI 智能体对算力的需求呈现出明显的增长趋势。
特殊是在多智能体和稠浊智能体的繁芜系统中,对算力的需求更为突出。
因此,提升智能算力和供应充足、高效的算力资源将有助于提高 AI 智能体的运用和做事效能,推动人工智能技能向更深远、更广阔的发展空间迈进。

本文作者: 来源:壁仞科技

CIO之家 www.ciozj.com 微信"大众年夜众号:imciow