最近,在各大社交平台上,一款叫作“盗梦师”的AI绘画小程序火了。
详细火到什么程度呢?据以往团队的采访得知,9月产品刚上线一周韶光,盗梦师便创造了日增5万用户的记录。
从Midjourney 到 Stable Diffusion,再到海内如雨后春笋般呈现的AI绘画平台,在利用办法上差异不大,均采取「以文生图」的办法。「以文生图」顾名思义便是只要你把想法、脑洞以笔墨输入给AI,这些笔墨描述就会被算法驱动,变成一张张生动、精细的图片。
而真正能让盗梦师从浩瀚AI绘画平台中脱颖而出的,当属其光鲜的技能上风与舒适的产品体验。
从输入描述到输出图片,全程仅不到5秒,比拟其他产品动辄几十秒乃至几分钟的韶光,可谓寰宇之别。
同时还有多种绘画风格、多图批量输出、多尺寸高分辨率、画师参考等功能赞助用户开展创作,使得全体绘画过程更便捷、有趣和惠普。加之其免费的新手体验,上线以来便在用户间产生了良好的口碑。
最快,有多快
据理解,盗梦师由前谷歌人工智能研究院科学家、NLP自然措辞处理领域预演习措辞模型“ALBERT”第一作者——蓝振忠博士带队研发。
终极由西湖大学深度学习实验室和西湖心辰科技有限公司(西湖大学深度学习实验室孵化的 AIGC 创业公司)共同推出。
依托于西湖大学良好的科研和成果转化环境、充足的科研资金及软硬件设备,西湖心辰组建了一支长期致力于研究自然措辞处理,打算机视觉及深度学习的结合与运用的团队。
在Stable Diffusion的根本上,盗梦师凭借团队在AI领域多年的深耕以及西湖大学实验室的成熟算力,找到了一个可发挥自有技能上风的地带,并通过“秒生图,生精图”的特点快速盘踞AI画画高地。
我们通过原生stable diffusion在pytorch、TensorRT与Oneflow三个框架下的实现与盗梦师自有模型比拟可以看到:
pytorch上原生的Stable diffusion天生一张图须要3.4s,第三方Oneflow须要1.4s天生韶光。而盗梦师的自有模型只须要0.8s,并且不会影响天生效果。
这是由于盗梦师针对速率和质量两个方面分别做了技能优化,在提速侧,进行了算子重写、模型量化、采样函数优化;在提质侧,采取了自有中文措辞模型、多尺寸弹性演习等。这才使得盗梦师在天生图片时,不仅速率上有了质的提升,终极的呈现效果也有明显优化。
各大模型剖析
从今年8月发布至今,Stable Diffusion仍是最火的开源AI生图模型。与其他开源图片天生模型比较,其有着出图速率快、质量高档特点。
但在画人物方面,Stable Diffusion的弊端也很明显,如常常存在多头、多只手、多条腿或人物部分肢体丢失等问题。
同时,原生Stable Diffusion仅支持英文作为唯一输入措辞,对付海内用户来说也十分不友好。
针对措辞障碍的问题,海内曾有团队开源了支持中文的stable diffusion 模型——“太乙 Stable Diffusion”。但经测试创造,太乙Stable Diffusion虽然能够理解中文独特的文化表达,但语义理解方面仍有所欠缺,会给出与输入prompt不匹配的图片。
如输入:雾气弥漫的森林,中世纪风格霍比特人村落落
而且无论对付哪种模型,图片质量的好坏都与输入的关键词密切干系,专业、适当的输入词须要用户有大量的履历,新手每每用户难以战胜。
因此,改变模型是统统问题的根本解。
盗梦师改变了什么
如上文所说,文生图效果由模型的图像天生能力与自然措辞理解能力共同决定。于是,盗梦师团队在演习图像天生能力的同时着重加强了机器理解层的能力,使自己差异于市情上的其他平台。
在图像天生方面,盗梦师根据过往在AI天生领域积累的履历,在前期做了大量科研和演习事情。并且利用了与Stable Diffusion不同的演习方案,使得盗梦师天生的图片更加风雅,不会产生截断等问题。
在语义理解方面,依赖于西湖心辰在NLP领域的大量技能与数据积累,盗梦师自有模型不仅能更好地理解用户输入词,还扩大了原生Stable Diffusion的文本长度限定,支持更长的文本输入。
此外,针对不睬解如何撰写关键词的新用户,盗梦师还开拓了“梦境增强模式”,可以对用户的输入词做遐想增强,帮助新手画师更轻易地画出惊艳的图片。
当然,盗梦师目前仍旧存在一些业内普遍的待办理的问题,比如众所周知的AI画手、AI吃面画的毛病
在蓝振忠看来,目前AI绘画仍处于早期阶段,虽然目前的图片天生 AI 能力确实到达了历史上的峰值,但还是须要更大的规模的数据以及更永劫光的演习。
持续迭代后的AI,绘画速率会更快,可以及时调控的能力也会更强。以盗梦师自我学习的速率和深度来看,我们有情由相信它将是未来引领 AIGC 潮流的先锋。