以视觉为核心大年夜模型兔灵首次揭开面纱聚焦内容分娩精准可控

编辑丨信陵

题图丨创业邦

2013年，海内第一个用HTML5措辞编写的微楼书在北大宿舍里出身。

其创造者是来自山东莱阳的89后小伙董少灵，他从高中期间就开始创业，干过本地信息分类网站、蛋糕坊、电商网站、翻译做事公司，直到微信公众号的兴起让他看到了巨大的商机。

以视觉为核心大年夜模型兔灵首次揭开面纱聚焦内容分娩精准可控

当时，他创造，大多数企业并不能很好地运营"大众年夜众号，又恰逢有客户提到“能不能把公司宣扬册搬到微信上”？

于是，命运的齿轮开始迁徙改变。

第二年，还在北大国际法学院攻读硕士的他正式成立兔展智能，仅靠着H5制作平台，半年就获客600万。
9年来，他带领团队自主研发了新一代内容引擎、传播大数据工具、营销云平台、数字人工具等产品，如今企业用户规模已经打破4000万，涵盖金融、医药、零售、地产、美妆等行业。

业务高速发展的同时，公司也颇受成本市场青睐，目前已得到9轮融资，个中不乏招商局、深创投、投控东海、越秀家当基金等头部投资机构。

日前，在创业邦主理的2023AIGC技能运用大会上，兔展智能入选2023值得关注的AIGC公司（模型层）榜单。
同时，兔展智能正式对外发布以图像视觉为核心的多模态大模型“兔灵”，与多数措辞单一模态为核心的模型形成差异化上风。

兔展智能创始人、董事长兼CEO董少灵表示，相较于ChatGPT、Claude等更多以措辞为核心的多模态产品，兔灵大模型是一个视觉占7成、措辞占3成的全新稠浊体。
“兔展在研发大模型之初，就没想做到全知全能，而是只聚焦于办理垂直领域的问题，也因此可以更好地防幻觉。
”

那么，兔灵大模型到底有何独特之处？又将会出身出哪些杀手级运用？采取什么样的商业化策略？我们逐一揭开。

以视觉为核心，兔灵大模型首次揭开面纱

兔展智能从最早推出H5工具，到如今的基于环球第四代前端三剑客的数字内容引擎，客户一贯以来所希望的无非是更低本钱、更快捷、更多元、更丰富地把内容生产出来，并且无需手写前端代码就能够快速天生精美的移动端富媒体页面，这也是他们一贯以来利用兔展的缘故原由。

面对这一波天生式AI浪潮，环绕人类叙事的三个环节：交互体验、感官和知识理解，经由不懈的努力，兔展智能不断做精、做深中国新一代AI数字内容总装线，终极形成了基于兔灵多模态大模型的AIGC内容引擎。

基于DragonDiffusion的AI图像引擎是兔灵多模态大模型的关键核心，用户只须要进行框选和拖拽，就可以轻松实现AI图像编辑和再天生，合营用于文本到图像扩散模型的掌握器DragonAdapter，即可实现图片天生精准可控，知足商用场景诉求。

据悉，DragonDiffusion，由北京大学张健老师团队VILLA（Visual-Information Intelligent Learning LAB），依托北京大学深圳研究生院-兔展智能AIGC联合实验室，联合腾讯ARC Lab共同带来。

DragonDiffusion和DragonAdapter均属于兔展智能在图像视觉领域的原创技能成果Dragon系列，个中还包括业界首个能精准高效天生创意中笔墨体的技能Dragon CN Encoder、智能排版布局技能Dragon Layout等，Dragon系列与FreeDoM（免演习条件扩散模型）共同构成了兔展智能图像视觉素材天生高效、精准、可控的技能框架。

董少灵提到，“措辞领域，我们在科研上重点就做了一件事，也便是‘防幻觉’这一根本的机理——如何进行下一个词的预测及其概率可行，让机器不会对这天下上不存在的法律和案例胡编乱造，这也是ChatGPT在很多垂直领域的运用中，很多专业人士最核心的苦恼。
”

以ChatLaw为例，作为经由防幻觉技能约束过的模型，其在多个法律测试机上跑分均超越GPT4。
“这跟我们在视觉模态里核心关注精准掌握生产，是一脉相承的。
”

运用层面，分别包括以下三个环节：

在交互环节，兔展智能基于环球第四代底层前端架构，推出了DragonCode智码，促进开拓环节大幅提效，为数字化内容生产插上腾飞翅膀；

在视觉环节，Chat&Drag-Image智图供应多种图片再天生能力，Drag&Chat交互模式助力争片天生精准可控；

在理解环节，致力于用大措辞模型技能让繁芜知识变大略的ChatKnowledge项目，涵盖了法律垂直领域跑分第一的法律大模型产品ChatLaw，以及即将陆续发布的支持用户在微信生态下搭建属于自己知识库的文件理解大模型产品ChatDocument、和赞助用户金融研究与决策的金融研究领域措辞大模型产品ChatFinance。

董少灵认为，在这一波天生式浪潮中，会出身一批出彩的杀手级运用，而“Magic Point是成为爆款运用不可或缺的成分，要让用户以为就犹如变魔术一样。
”他指出，兔展智能之以是在创业之初半年得到600万用户，到如今打破4000万用户，便是踩准了用户这齐心专生理。

“十年前，在别人发给你的都是PPT、Word文档，你却能做出带音乐和动画效果的H5，会不会以为很惊异？”因此这便是当年的Magic Point。

再如，多年来，设计艺术字、个性署名是一学买卖，在淘宝上乃至有店铺月销20万单，而作为业界首个能精准高效天生创意中笔墨体的技能，Dragon CN Encoder则可以让用户只花费极低的本钱就可以快速天生创意中笔墨体。
董少灵指出，目前市情上99%的工具都是套壳Stable diffusion，还没有任何一款能够自动生产中笔墨体的大模型。

这样一款运用合营国庆节或新闻热点事宜营销就很随意马虎破圈。
例如，中国大模型终于办理了中笔墨体的自动天生问题，每个人都可以拥有自己的一款独创字体，很随意马虎点燃用户的民族自满感。

如今，ChatDocument每天可以帮用户节省30分钟，ChatFinance可以成为用户的金融顾问，ChatLaw则可以成为用户的法律顾问，这些都已经具备成为爆款的要素。
“而接下来，谁能帮助设计师办理精准生图的问题必火，谁能做到第一个天生中笔墨体，也有可能会火。
”

保持克制，聚焦于垂直领域大模型

为了达成让人类叙事更生动高效的愿景，兔展智能之以是既做大模型的上层也做底层，是由于用别人的底层一方面实现不了自己的想法，另一方面也办理不了金融客户的合规、自主可控需求。
董少灵透露。

同时，在底层配比上，兔灵大模型的多模态也是一个独特的存在。

ChatGPT、Claude、Cohere更多的因此措辞为核心的多模态，先做措辞，再做视觉，其措辞占比可能达到了8成，而兔灵大模型则是一个视觉占7成、措辞占3成的全新稠浊体。
同时，兔展在研发大模型之初，就没想做到全知全能，而是只聚焦于办理垂直领域的问题，也因此可以更好地防幻觉。

兔展智能计策与投融卖力人董应赛表示，不少公司拥抱大模型，一开始每每并没有想好落地场景和运用，只是很武断地要投入到这件事中来。
但兔展智能一贯以来的风格是相对务实的，每每会从一些比较具象的客户需求和场景入手进而形成商业闭环。

对付这一波天生式AI，兔展智能更多的是“扎硬寨，打呆仗”，在运用层的推出上一贯比较克制。

董少灵说到，“去年，很多人忽悠我们做元宇宙，我们并没有头脑一热扎进去，只挑选了既不眩晕且信息通报效率够的一个细分场景推出了产品——MR短视频。
”今年春节期间，兔展还推出了AI数字人拜年小程序，只需上传个人照片就可以一键天生自己数字人形象的拜年视频。

只管这款小程序在春节期间一度火爆，但董少灵仔细研究抖音后创造，平台不给数字人直播流量，从实质上来说还是一个fake story（虚假的故事）。
因此，他建议创业者，在一些火热的风口面前还须要有自己一定的判断和坚守，若是不符合公司的长期代价就不能做，不如把更多的精力投入在团队认可的事情上。

比较元宇宙等风口，这波天生式AI一个非常主要的特色便是能够让更多人享受到AI的普惠化。

例如，中海内地Photoshop的生动用户仅为300万人，兔展目前用户数量为4000万，而借助天生式AI，以往没有富媒体表达手段的人都将会是用户，他们不再须要绘画、PS等技能，一样能够做出精美的富媒体页面。
此外，在公共法律做事方面，即便是一个毫无法律知识的人也可以利用ChatLaw把诉状天生出来，找到法援状师署名盖章后就可以递交诉状了。

这显然是一个更加弘大的增量市场。

董少灵感慨道，创业就像一个万米长跑，有的人短期内挣钱可能没问题，但在这个时期终极能够赢得比赛的还是会属于负责干事的创业者。

“百模大战”从未发生，运用层机会不可低估

今年以来AI热度持续攀升，近半年内环球近百家公司、机构相继发布大措辞模型干系产品。
海内也正面临着“百模大战”，有数据显示，全国有至少130家公司研究大模型产品，个中做通用大模型的有78家。

董少灵则认为，“百模大战”从未发生，从资金、数据、算力这三要素上都难以支持。

巧妇难为无米之炊，算力可以看作是火，数据是米，算法是巧妇，如果一家大模型公司没有一个相称体量的某一领域领先的数据集就很难成事。
哪怕算法职员都是顶级，没有火和米，也同样煮不出来饭。

他直言，海内真正在负责投资源做底座的大模型公司不会超过20家，但运用层能看到很多机会，未来乃至能长出上百上千个运用，并且存活率会很高，因此用“百用大战”来形容更加贴切。

电的发明和利用引发第二次工业革命，给人类带来巨大的福祉和财富。
董少灵指出，这一波天生式AI是对生产力、生产关系的系统性重塑，也是对人类理解智能、理解人、理解自己的一个重塑，是一场启蒙运动+工业革命。
未来运用层的繁荣是一定，会有非常多有代价的运用涌现，乃至是未曾涉及的空缺领域（例如ChatDocument），并且成功率不会低，可能更多须要的是耐心。

尤其是，与SaaS更多办理的是公司问题不同，这一波天生式AI切实办理的是个人问题，因此用户付费习气天然会变好，这就为运用的存活率供应了有利的条件。

董少灵认为，若是把大模型当成某种类型的IaaS，在中国能够真正挣钱的IaaS厂商只是极少数，但是在IaaS之上却能够长出抖音、滴滴等无数个杀手级运用。
云打算厂商乃至不敌这些运用公司的估值，以是，大模型运用层的机会完备不可低估，是一个真正能够大批量产生机会的地方。
同时，不要过度夸年夜大模型本身的商业代价，除非某家公司能够在商业变现里做到垄断级别，否则都不会太好挣钱。

回顾近一年来的研发进程，他坦言，做大模型更多的是焦虑与愉快并存。
焦虑在于做大模型就意味着会对短期的营收、资源的投向造成一定影响，而愉快就在于其对付社会代价是不可同日而语的。
“我们内部很少谈论是与否的问题，更多谈论的是how，而不是why，如何更科学地投入才能让成功率最高，才能够捉住这波年夜水一样平常的机遇。
”

作为拥有多年创业履历的老兵，董少灵也对大模型创业者给出了自己的建议。

他谈到，对付创业公司来说，先要学会“扎硬寨，打呆仗”，三要素（资金、数据、算力）中至少要具备其二，并且至少在两个垂类里要具备数一数二的要素，再去拼自己所短缺的一项，才有可能真正坐上大模型竞争的牌桌。

对付投资人来说，各家创业公司都有愿景和年夜志壮志，短期可能看的是谁家热闹，镇静下来看的是谁更具备能力。
例如，一家短缺数据、从0获客的公司就很难赢过拥有900T数据、已经霸占场景，有用户飞轮和数据飞轮的公司。

而兔展智能显然是后者，董少灵相信：万事都有因，只要因是对的，果自然就会来。

每期AI知识网

以视觉为核心大年夜模型兔灵首次揭开面纱聚焦内容分娩精准可控

运用服装CAD软件画出衬衫版型结构图的七个步骤博克时代

OTA华为Mate60系统更新 AR测量回归 AI云增强推荐过年运用