什么AI运用每秒处理20000个AI推理要求,达到2024年谷歌搜索流量的1/5?

答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥公布了推理优化独门窍门,迅速引起业界热议。

详细来说Character.ai在全体做事堆栈中实现了如下成绩:

最火AI角色扮演流量已达谷歌搜索20每秒处理2万推理请求

内存高效架构设计:将KV缓存大小减少20倍以上,而不会降落质量Attention状态缓存:95%要求无需重算直接用in8精度量化演习:推理零丢失还省显存

Character.AI通过以上各类优化,已经把推理本钱降落到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,本钱会好比今赶过13.5倍!

浩瀚公布的方法中,原生int8演习是最受关注的。

虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。

窍门1:高效利用显存,attention 参数量降落20倍

大模型的一大痛点是显存占用高,导致无法支持大批量推理。
Attention 层中的 Key-Value(KV)缓存便是罪魁罪魁之一。

为了降落显存占用,Character.AI在Attention层大动手术:

全面采取MQA(Multi-Query Attention)

与大多数开源模型中采取的GQA(Grouped-Query Attention)比较,将KV缓存大小减少了 8 倍。

而MQA正是沙哥本人2019年在谷歌期间提出的,有网友评价“当一个人能在生产环境中引用自己的论文,就达到了一个新的高度”。

稠浊把稳力视野

将局部把稳力与全局把稳力层交织在一起,利用滑动窗口演习局部把稳力,将繁芜度从 O(length^2 ) 降落到 O(length)。

团队创造,将大多数把稳力层的把稳力范围减少到1024不会对评估指标产生重大影响,包括长高下文大海捞针基准。
在Character.ai生产模型中,每6层中只有1层利用全局把稳力。

跨层KV共享

团队将KV缓存绑定在相邻的把稳力层上,这进一步将 KV缓存大小减少了 2-3 倍。

对付全局把稳力,跨块绑定多个全局层的KV缓存,由于全局把稳力层在长高下文用例中主导KV缓存大小,团队创造跨层共享KV不会降落质量。

下图中左半部分是标准Transformer设计,每个把稳力都是全局把稳力。
右半部分为Character.ai的设计,蓝色框表示全局把稳力,绿色框表示局部把稳力,连线表示KV共享。

这一套组合拳下来,KV缓存大小减少20倍以上,显存再也不是瓶颈了。

窍门2:巧用状态缓存,95%要求无需重算

Character.AI还有一招神来之笔,便是在不同对话之间缓存Attention状态。

作为谈天机器人角色扮演做事,Character.AI上大部分对话都是连续多轮的,均匀每个对话包含180条。
如果每次都要重新打算前面的状态,本钱可想而知。

于是团队设计了一个缓存机制,把每个对话的Prefix和天生的都缓存在内存中,供后续调用。

借鉴RadixAttention的思路,树状构造的LRU缓存组织缓存的KV张量。
缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存,纵然前缀只有部分匹配也能命中。

更妙的是,他们还用会话保持(Sticky Session)把同一对话路由到同一个做事器,进一步提高缓存命中率。
终极做到95%的要求都能复用已有缓存,大幅降落了打算本钱。

下图中,蓝色框表示主机内存上的缓存张量。
绿色和黄色框表示CUDA内存上的KV缓存。
当新查询到达时,它检索最长匹配前缀的KV缓存,Rolling Hash系统许可检索部分匹配的缓存。

窍门3:直接量化演习,推理零丢失还省显存

末了一招,Character.AI没有采取常见的“演习后量化”,而是直接用Int8精度演习模型。

这种格式虽然表达精度降落,但通过精心设计定制的矩阵乘和 Attention 内核,不仅把演习效率提高了好几倍,而且还能无损用于推理。

不过沙哥在这里暂时留了一手,表示“量化演习本身便是一个繁芜的话题,将在往后的文章中连续谈论。

沙哥其人

末了再来先容一下传奇人物Noam Shazeer本人。

他1994年拿了信息学奥赛IOI金牌,后来毕业于杜克大学。

2000年加入谷歌,当时全公司只有200人旁边,他参与了谷歌搜索的拼写纠正功能,后来也卖力过早期广告系统。

据知情人透露,在当初口试谷歌时,沙哥就被问到如何实现拼写纠正。
他描述了一种根据其他用户的输入输入记录,进行统计验证的方法。

口试官Gmail之父Paul Buchheit意识到,沙哥的方案比谷歌当时利用的要好。
沙哥成功入职之后就把他的口试方案写出来了。

在Transformer开山之作《Attention is All You Need》研究中,沙哥末了一个加入团队,一来就卖力重新编写了全体代码。

在沙哥脱手之前,Transformer早期原型性能并没有超越当时盛行的LSTM方案,是他把早期设计中的卷积等模块都拿掉,给出了一个极简主义方案。
终极破了BLEU测试的记录,同时打算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外,沙哥还有惊人的远见。
在Transformer架构问世不久,他就给谷歌高层写信,发起公司放弃全体搜索索引,并用Transformer架构演习一个巨大的神经网络替代。

2021年,沙哥离开谷歌后创办了Character.AI,让玩家大略自创个性化AI陪聊,目前估值约50亿美元。

最近有称,Meta与马斯克的都在争取与他们互助,把谈天机器人引入社交平台。

参考链接:[1]https://research.character.ai/optimizing-inference/[2]https://x.com/NoamShazeer/status/1803790708358410380

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态