信息有四种紧张形式,笔墨、语音、图片、视频,并且其承载的信息量是在递增的。目前,以ChatGPT为代表的大模型运用产品,主沙场还是在笔墨领域。如果能够占领视频天生,其代价一定更大。然而,纵然是Sora,也只是向我们展示了一种可能性,还远没到大规模商用的阶段。并且,作为OpenAI发布的视频天生模型,绝大部分中国用户是用不上的。我们亟须要有一款国产的视频天生产品,来知足大众的期待。
7月26号,智谱AI就发布了这样一款产品——清影(Ying)。用户只须要输入一段笔墨,就能快速天生一段充满想象力的视频。并且,用户可以选择自己想要天生的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐。
须要指出的是,清影是现货,而不是期货。目前,清影已经上线智谱AI的清言App,面向所有用户开放。
让我们玩起来!作为一个大模型发热友,有这样一款新奇的产品,当然是要第一韶光去尝尝鲜。我迫切的登录上自己的智谱清言账号,创造真的把视频生成功能更新上去了。
在文生视频功能下,用户可以根据自己的喜好,来设置一些参数,包括:视频风格、感情氛围、运镜办法。
并且,当视频天生好了之后,用户还可以根据自己的须要,为视频配一段音乐。
接下来,我们要怎么玩呢?
作为一个文艺青年,我脑海里闪现出了唐诗三百首。诗词作为中华文化的宝贝,如果和大模型这样的前沿科技结合起来,估计会是一件挺有趣的事情。而且,诗词都比较简短,用词精髓精辟,在短短几句中蕴含了丰富的思考、感情和意境。作为视频天生模型的“考题”,再得当不过了。
说干就干,接下来我们就用几首唐诗来考考清影。
先用李白的《静夜思》来小试牛刀。
《静夜思》
作者:李白
床前明月光,疑是地上霜。
昂首望明月,低头思故乡。
视频加载中...
接着,我们再来试一首。
《江雪》
作者:柳宗元
千山鸟飞绝,万径人踪灭。
孤舟蓑笠翁,独钓寒江雪。
视频加载中...
上面两首诗都有点凄凉,接下来让我们来首欢畅一点的。
《春晓》
作者:孟浩然
春眠不觉晓,处处闻啼鸟。
夜来风雨声,花落知多少。
视频加载中...
接下来,上点难度。目前,智谱清言的视频生成功能,最多支持1000字。那我们就用长一点的诗歌来考考它,李白的《将近酒》是一个不错的选择。
《将进酒·君不见》
作者:李白
君不见,黄河之水天上来,奔流到海不复回。
君不见,高堂明镜悲白发,朝如青丝暮成雪。
人生得意须尽欢,莫使金樽空对月。
天生我材必有用,千金散尽还复来。
烹羊宰牛且为乐,会须一饮三百杯。
岑役夫,丹丘生,将进酒,杯莫停。
与君歌一曲,请君为我倾耳听。
钟鼓馔玉不敷贵,但愿长醉不愿醒。
古来圣贤皆寂寞,惟有饮者留其名。
陈王当年宴平乐,斗酒十千恣欢谑。
主人作甚言少钱,径须沽取对君酌。
五花马,千金裘,呼儿将出换美酒,与尔同销万古愁。
视频加载中...
须要指出的是,除了文生视频外,清影还能实现图生视频,你给它一张图片,它就能给你天生一段视频。
陈凯歌导演的《妖猫传》中,有一个诗仙李白在宫廷里吟诗作赋的场景,让我影象犹新,充分反响出了诗仙李白那惊世的才华,以及放荡不羁的气质。
接下来,我们就选取几张电影图片,来让清影天生视频。
下面是清影天生的视频。
视频加载中...
下面这张,是我特殊喜好的。在这个场景中,李白看到一个绝世美人,作出了他的千古绝句。
《清平调》
作者:李白
云想衣裳花想容,东风拂槛露华浓。
若非群玉山头见,会向瑶台月下逢。
下面是清影天生的视频,从这个视频中,诗仙李白的痴狂被表现的淋漓尽致。
视频加载中...
谁让诗仙李白这么陶醉呢?当然是倾国倾城的杨贵妃。中法混血女星张榕容扮演的杨玉环,的确很真切。
下面是清影天生的视频,在这个视频中,我给的指令是,“让她笑一笑,抛个媚眼”。
视频加载中...
整体利用下来,觉得智谱AI这次发布的清影,还是挺强大的,不仅能够捕捉到指令中的关键元素,还能基于对全体笔墨内容的理解,来天生相应的视频。此外,图生视频也很有趣,相信会是引爆用户激情亲切的一个主要抓手。
视频天生的核心技能是什么呢?数据猿作为智能行业垂直专业媒体,只知其然不知其以是然,肯定是不足的。接下来,我们就来剖析一下智谱清影背后的引擎——视频天生技能。
清影是前台的产品,而其技能核心,便是智谱AI的CogVideoX。
作为视频天生技能的最新打破,CogVideoX通过领悟文本、韶光和空间三个维度,实现了高效、连贯的视频天生。其采取DiT架构和优化算法,显著提升了推理速率和天生质量。CogVideoX不仅在技能上实现了打破,还为未来视频天生技能的发展供应了主要的方向和借鉴意义。
接下来,我们就用“显微镜”,来剖析一下CogVideoX以及其所代表的视频天生技能。
既然视频天生的一个关键技能是DiT架构,那我们就先拿DiT“开刀”。
所谓DiT(DynamicI sometric Transformer)架构,是一种基于Transformer的模型架构,并强调动态(Dynamic)和等距(Isometric)的特性,它在视频天生任务中展现了强大的适应性和高效性。
以是,DiT有三个关键技能,分别是Transformer、Dynamic和Isometric。
Transformer模型由Vaswani等人在2017年提出,是一种基于自把稳力机制(Self-Attention)的神经网络架构。自把稳力机制是Transformer的核心,它通过打算输入序列中各个元素之间的干系性,使模型能够捕捉长间隔依赖关系。
Transformer架构在处理序列数据时具有显著上风,例如,Transformer能够并行处理全体序列数据,战胜了传统循环神经网络(RNN)和是非期影象网络(LSTM)的打算瓶颈,提高了演习效率。而且,自把稳力机制使得Transformer能够有效捕捉序列中远间隔元素之间的依赖关系,特殊适用于处理长序列数据。此外,Transformer的构造大略,易于扩展和优化,能够适应不同规模的数据和任务。
然而,Transformer的长处是在笔墨天生,其代表作便是ChatGPT。如果要天生视频,就须要对其进行改进。因此,在Transformer的根本上,DiT架构引入了动态性(Dynamic)和等距性(Isometric)的特性。
动态性指的是模型能够根据输入数据的不同动态调度其构造或参数,以更好地适应不同的任务需求,详细实现方法包括动态层选择和动态参数调度。根据输入序列的长度和繁芜性,动态选择不同数量的Transformer层进行处理,从而在担保打算效率的同时提高模型的适应性。在演习过程中,模型根据输入数据的特点动态调度超参数,如把稳力头的数量和隐蔽层的维度,以优化模型性能。动态性的引入使得DiT架构在处理多样化的视频天生任务时更加灵巧和高效,天生结果更加精确和符合需求。
等距性在DiT架构中指的是在处理空间数据时,保持图像或视频帧的几何同等性。这个特性对付视频天生尤为主要,由于视频天生须要在韶光维度上保持帧与帧之间的连贯性,同时在空间维度上保持图像的统一性。等距性的实现紧张通过空间把稳力机制,在自把稳力机制的根本上,确保在天生每一帧时,考虑到全体图像的全局信息,保持空间上的同等性。此外,通过引入位置编码和空间变换机制,使得每一帧在天生过程中都能够保留其空间构造和细节,确保最终生成的视频在视觉上连贯且自然。
CogVideoX,基于DiT,超越DiT。
上面提到过,CogVideoX是基于DIT,但并不局限于DIT,而是做了大量的优化事情。
CogVideoX视频天生模型在技能上实现了文本、韶光和空间三个维度的深度领悟,形成了高效且连贯的视频天生能力。个中,文本与视频天生的结合是CogVideoX的一大亮点。通过前辈的自然措辞处理技能,模型能够解析输入文本的语义,并天生与之高度同等的视频内容。这一过程涉及对文本的分词、语义剖析和情绪识别,确保天生的视频场景不仅在视觉上与文本描述匹配,还在情绪和情景上高度契合。
在韶光维度的处理上,CogVideoX采取了前辈的韶光序列建模技能。视频的实质是一系列连续的图像帧,因此韶光序列的建模至关主要。CogVideoX捕捉视频帧之间的韶光依赖关系,确保天生的视频在韶光上的连贯性。
空间维度的处理是确保天生视频质量的另一关键点,CogVideoX担保每一帧图像的高质量和同等性。在天生过程中,模型通过对空间信息的处理,确保每一帧图像不仅细节丰富,还与前后帧保持同等。这样处理后的图像在视觉上连贯且自然,避免了图像扭曲和不一致问题。
须要指出的是,CogVideoX并不是一成不变的,而是处在快速的迭代演进当中。据悉,经由一系列的软硬件优化,CogVideoX在推理速率上比较前代模型CogVideo提升了6倍。这一显著的提升,不仅意味着更快的视频天生速率,还为天生更繁芜和高质量的内容供应了可能。
视频天生的探索之路,才刚刚开始须要指出的是,无论是OpenAI的Sora,还是智谱AI的CogVideoX,都只是视频生存的早期探索。接下来,视频天生模型会在高分辨视频、长视频、视频可风雅化修正等方向,不断提升能力。
高分辨率视频天生,清晰度要越来越高。
高分辨率视频天生是视频天生技能发展的主要方向之一,但同时也面临诸多技能寻衅。高分辨率视频天生,须要更强的打算能力和更大的存储空间。天生高分辨率图像的过程繁芜度高,处理每一帧图像所需的打算资源大幅增加。因此,如何优化打算效率、减少资源花费成为一个关键问题。
可能的办理方案包括采取更加高效的算法和硬件加速技能,例如,通过改进天生模型的构造,优化图像天生算法,可以减少打算繁芜度。同时,利用分布式打算技能,将打算任务分配到多个处理单元并行处理,可以显著提升打算效率。此外,通过模型压缩,可以在保持天生质量的条件下,减少模型参数数量和打算资源需求,从而提高天生效率。
永劫长视频天生,能达到影视剧的长度。
天生永劫长视频须要处理永劫光序列数据,这在技能上存在一定的难点。永劫光序列数据处理哀求模型能够捕捉和保持长间隔依赖关系,而传统的韶光序列模型在处理长序列数据时随意马虎涌现梯度消逝或爆炸问题,导致天生质量低落。
在天生永劫长视频时,保持模型的稳定性和同等性也是一个主要寻衅。永劫光的天生过程随意马虎引入累积偏差,导致天生内容的不一致。为此,可以采取一些技能手段来提高模型的稳定性。例如,利用天生对抗网络(GAN)中的判别器对天生的视频进行质量掌握,确保每一帧图像的同等性和质量。此外,数据增强和正则化技能也可以在演习过程中引入,提高模型的泛化能力和稳定性。
多模态领悟,将文本、图片、声音、视频、3D内容,领悟起来。
多模态领悟是视频天生技能的一个主要发展方向,通过将文本、音频、图像等多种数据类型进行领悟,可以天生更加丰富和多样化的视频内容。未来的发展可以进一步探索多模态数据的深度领悟,实现更高质量的天生效果。视频天生技能在虚拟现实、增强现实等新兴领域也具有广阔的运用前景,通过扩展运用处景,可以进一步提升技能的实际代价。
对天生视频的风雅化修正,是接下来要占领的一个关键寻衅。
天生的视频不仅须要具备高质量,还要能够进行进一步的修正和风雅化调度。这一需求紧张来自于用户在实际运用中的多样化需求,通过供应强大的后期编辑功能,用户可以对天生的视频进行风雅调度,包括颜色校正、细节增强、工具更换等。
实现风雅化修正的技能寻衅,在于如何在保持原有视频质量和连贯性的同时,进行局部的细节修正。可能的办理方案,包括基于深度学习的图像修复技能和视频编辑技能。例如,通过引入天生对抗网络(GAN)和卷积神经网络(CNN),可以实现对视频中局部区域的高质量修复和编辑。此外,结合打算机图形学中的物理仿照技能,可以对视频中的动态场景进行更真实的修正和渲染。
展望未来,视频天生技能的未来发展将对多个行业产生深远影响。
例如,在娱乐行业,视频天生技能可以大幅提高内容创作的效率和多样性,推动电影、电视、游戏等领域的发展。通过自动化视频天生,创作者可以更加专注于创意和故事情节的设计,而不必耗费大量韶光在制作环节。视频天生技能在广告行业也有广阔的运用前景,通过天生个性化和定制化的广告内容,可以有效提升广告的吸引力和转化率。
让我们期待更多像智谱AI清影这样的视频天生模型,通过不断的技能创新和运用探索,为人们的生活带来更多便利和惊喜,推动社会的进步和发展。