一道数学题算错七次后宕机对标GPT4的智谱AI实战能力堪忧

不过，在新经济IPO的实际试用过程中，GLM-4不仅没有表现出与“测评分数”同等的高水准，反而闹出了不少笑话。

成立于2019年的智谱AI，由清华大学知识工程实验室（KEG）技能成果转化而来，是目前海内唯一全内资、全自研的大模型企业，早在2020年开始GLM预演习架构的研发，并演习了100亿参数模型GLM-10B；2022年公布1300亿级超大规模预演习通用模型GLM-130B。

2022年底，大模型浪潮席卷环球，由于提前支配研发，智谱 AI成为成本眼中的宠儿。
2023年7月至9月间，智谱AI拿下5轮融资，估值达到100亿元。
11月，有媒体宣布智普AI“正以200亿元估值进行新一轮融资”，但有多位股东对“翻倍”的高估值表示质疑。

时至今日已过去近4个月，未有融资的进一步传出。
反而在GLM-4发布两天后，智谱AI的创始股东中科创星又将手中股份减持了25%，其已于2022年减持了同比例股份，目前实际持股比例或不到1%。

一道数学题算错七次后宕机对标GPT4的智谱AI实战能力堪忧

而“技能空想主义”者张鹏，2024年的新愿景是让大模型真正落下来。
这也解释，即便是被投资圈视为“有人、有技能、有客户”的智谱AI，同样面临大模型落地难题，这恐怕也是所有国产大模型2024年必须面对的巨大寻衅。

一道数学题算错七次后宕机

张鹏认为，如果你沿着古人的脚印去走，顶多追到屁股后面。
如果想在短韶光内超越古人，就一定要做创新。
为此，智谱AI没有采纳目前最主流的三种模型演习路径：GPT来自OpenAI，BERT和T5来自谷歌，而是提出了全新的GLM（通用措辞模型）路径。

若GPT的事理可以比作“根据上文做完形填空”，那么GLM完形填空的依据则从上文扩充到高下文。
理论上，GLM的演习效率会比GPT更高，也能理解更繁芜场景——GLM发展也确实迅猛，从去年3月份开源第一代，目前已经迭代到第四代。

在GLM-4的发布日上，张鹏在多项能力年夜将其与GPT4进行了比拟，个中GLM-4的中文对齐能力总分超过了GPT-4，此外在MMLU理解评测、GSM8K数学逻辑和代码水平上都有大幅提升。

下图是DataLearner综合评测分别按照HumanEval与MMLU排序的结果。
可以看到，不论哪个比拟，GLM-4和GPT-4、Gemini Ultra的测评分数都差不多。
特殊是阅读理解方面，GLM-4只比GPT-4低5分，这是已知国产大模型取得的最好分数。

为了验证GLM-4的能力是否真的实现了较大提升，新经济IPO对其进行了大略测试，但结果不如人意。

在首轮测试中，新经济IPO在对话中输入“林黛玉为何倒拔垂杨柳”这一网络梗，不过，GLM4竟然回答称，这个故事出自曹雪芹名著《红楼梦》，还试图很负责地用林黛玉与贾宝玉的情绪纠葛来阐明林黛玉“倒拔垂杨柳”的行为。

一个2022年就宣告拥有1300亿参数的双语（英文和中文）预演习措辞模型，却连中国古典名著之一的详细内容情节都没节制，实在说不过去。

接下来，新经济IPO考试测验让 GLM4打算一道数学题，以测试其逻辑推理能力。
然而，一道非常大略的数学题，GLM4连续回答了7次都错了，末了更是直接宕机。
须要指出的是，这道题去年曾经有媒体在GLM3上做过测试，回答也是错的。

为了比拟，新经济IPO拿这道数学题磨练了一下“文心一言”，后者很快给出了精确答案。

在中文语义语料和数学逻辑推理能力测试之后，新经济IPO又测试了GLM4的多模态图片理解能力，这次，智谱AI终于过关了。

在文生图能力上，GLM4表现得也不算令人失落望，虽然它将“一个卡通柯基”画成了“一堆卡通柯基”。

当被哀求“画一个西兰花下的斑马”时，文心一言和GLM4分别给出了如下作品，GLM4的画风还是有点怪异。

从上述有限的测试看，GLM4在中文语义语料和数理逻辑上的能力尚有欠缺，但在文生图及图片理解能力上表现尚可。
从综合能力看，GLM4与GPT4还存在明显差距。

大模型商业化路漫漫

实际上，抛开于国外大模型的技能差距不谈，海内大模型商业化如何落地，可能是摆在所有创业公司面前的更大寻衅。

和苹果系统一样，大模型也是一个弘大的生态，而流量则是统统商业模式的源头。
比拟ChatGPT早就打破1.1亿次的环球安装量，国产大模型如何商业化？如果说2023年，投资人、运用企业还在关注技能差距的话，那么新的一年，所有人的焦点都已经转移到了大模型商业化的落地上。

智谱AI当然早就意识到了，落地才是未来最大的寻衅。
从发展路径上看，智谱AI也是海内最早推进大模型商业化的企业之一，率先提出了“模型即做事（MaaS）”的落地路径，给出了面向B端开放API、云端私有化以及本地私有化等多种商业办理方案。

智谱AI官网显示，其云端私有化支配最低档位ChatGLM-12B，报价25万元/年，最高ChatGLM-130B，120万/年；本地私有化支配的最低参数ChatGLM-12B，报价180万/年，最高ChatGLM-130B，3960万元/年。

张鹏认为，B真个付费意愿比C端好很多，尤其是行业头部企业，在大模型方面普遍投入多，动作快。
以是，智谱AI从一开始就瞄准B端。
智谱AI对外表露信息显示，目前已有2000多家互助伙伴。

那么，智谱AI目前营收状况如何呢？据张鹏透露，2023年下半年智谱签单客户约几百家，2023年整体有亿级签单额。
根据上述报价打算，智谱AI的发卖情形显然不算太好。
这样的签单额肯定无法支撑大模型的“烧钱”研发，要知道，年营收超10亿美元的OpenAI目前也还未实现盈利。

作为中国估值最高的大模型创业公司，智谱AI收成几百家签单客户是一件可喜的事情，但并不算乐不雅观。
商汤科技在2021年上市之前，曾公布过截至2021年6月30日的商业客户数量“超过2400家”。
可以比拟的是，近期OpenAI刚刚公布了自己的付费企业客户数量是260家，可见即便是环球顶尖大模型，B端市场的拓展速率也并不是很快。

与此前任何大规模技能革命一样，大模型的商业化也注定是一场漫长的旅程。
IDC去年11月开展的一次环球AI运用调研显示，中国的100家受调企业中，已经大规模投入的企业只占24%。
这解释，虽然家当端对大模型的激情亲切很高，但真到落地阶段，乐意“真金白银”拥抱大模型的依然较少。

老难题须要新答案

受多重成分影响，海内成本目前对大模型更多采纳了“不雅观望”态度。
即便2023年大模型热贯穿整年，全体AI融资市场都没有涌现前几年互联网浪潮时的生动状态。

有的成本或许还在不雅观察与等待，探求一个得当的机遇再涌入，但有的成本的耐心与期待已然不多。

有媒体宣布称，智谱 AI发起股东中科创星连续卖掉了其持有的部分股份，减持比例超过50%，累计退出金额约1.2亿元。
同时，中科创星创始合资人米磊已退出智谱 AI 董事职位。
对此智谱回应称，本次中科创星减持的股份，已被君联成本、boss直聘等老股东接手；中科创星则表示，长期武断的看好AI，看好智谱，退出是由于份额不足，新进计策投资者哀求购买老股。

话虽如此，但正值大模型发展朝阳东升之际，中科创星的清仓式减持还是令人迷惑。
有知情人士透露，虽然中科创星对外声称看好AI，但高层实在并不看好，缘故原由在于AI企业很难上市，2021年更是撤掉了AI投资组，现在的AI项目都是2021年之前投的。

实际上，纵然是仍在坚守的资方，也对没有古迹但估值一起飞腾的智谱AI看不懂。
有媒体宣布称，去年11月，有传出智谱AI拟以200亿估值挑选下一轮投资机构方，随即就有多位老股东对“翻倍”估值表示质疑。
对老股东来说，并不是创投公司的估值越高越好，没有古迹支撑的高估值只会吓跑后来的投资人，如此一来，此前入局的投资人又该如何退出呢？

当然，作为史上最烧钱的技能革命，大模型要进步，就只能依赖不断融资。
智谱AI2023年累计融资超过25亿元，看起来不少，但远不及商汤科技2017年得到的40亿元融资，而商汤科技在IPO前总融资金额高达52亿美金。
智谱AI的烧钱速率显然比商汤科技更快。
那么，假若智谱AI下一轮融资迟迟不涌现，25亿元能支撑一个400人的高薪大模型团队事情多久？这虽然是AI创业老难题，但目前急迫须要一个新答案。

张鹏一贯想“做真正厉害的事情”，即智谱AI能够往下且深入地撼动当前模型框架的研究技能。
这固然是一件好事，但在考虑是否能活得够长之前，还是该当先办理“活下来”的难题。
没有靠谱的实战能力以及“自我造血”能力，没有切实可行的商业化路径，智谱AI的动人故事将很难连续讲下去。

来源：新经济IPO

作者：IPO君

声明：本文仅作为知识分享，只为通报更多信息！
本文不构成任何投资建议，任何人据此做出投资决策，风险自担。

每期AI知识网

一道数学题算错七次后宕机对标GPT4的智谱AI实战能力堪忧

母婴网站助力新生命起航_毕业设计探索与方法

武汉装修设计,打造个性化家居空间的方法