CogVideoX 模型目前已在智谱清言的 PC 端、移动运用端以及小程序端正式上线。
所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」(Ying),免费体验 AI 文本天生视频和图像天生视频的做事。

据先容,CogVideoX 的核心技能特点如下:

针对内容连贯性问题,智谱 AI 自主研发了一套高效的三维变分自编码器构造(3D VAE)。
该构造能够将原始视频数据压缩至原始大小的 2%,降落了视频扩散天生模型的演习本钱和难度。
结合 3D RoPE 位置编码模块,该技能提升了在韶光维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

在可控性方面,智谱 AI 打造了一款端到真个视频理解模型,该模型能够为大量视频数据天生描述。
这一创新增强了模型对文本的理解和对指令的遵照能力,确保天生的视频更加符合用户的输入需求,并能够处理超长且繁芜的 prompt 指令。

智谱AI宣告视频生成对象清影30秒快速生成免费体验

模型采纳了一种将文本、韶光、空间三维一体领悟的 transformer 架构。
该架构摒弃了传统的 cross attention 模块,设计了 Expert Block 以实现文本与视频两种不同模态空间的对齐,并通过 Full Attention 机制优化模态间的交互效果。

「清影」的紧张特点如下:

快速天生:仅需 30 秒即可完成 6 秒视频的天生。

高效的指令遵照能力:纵然是繁芜的 prompt,清影也能准确理解并实行。

内容连贯性:天生的视频能够较好地还原物理天下中的运动过程。

画面调度灵巧性:例如,镜头能够流畅地跟随画面中的三只狗狗移动。

此外,智谱大模型开放平台 bigmodel.cn 也支配了「清影」。
企业和开拓者可通过 API 调用式,体验并利用「清影」的文本天生视频和图像天生视频功能。

IT之家附智谱官网链接:https://chatglm.cn/video