项目演示:https://top.aibase.com/tool/magictime
代码:https://github.com/PKU-YuanGroup/MagicTime
在传统的T2V天生中,天生的视频每每具有有限的动作和变革,这是由于这些模型无法准确反应现实天下的物理规律。为了战胜这一限定,MagicTime引入了变形韶光延迟视频的观点,旨在提高视频天生的质量和真实性。
MagicTime的紧张功能包括:
变形韶光延迟视频天生:MagicTime专注于天生包含物理知识、长期持续性和强烈变革的变形视频,这些视频比常规视频包含更丰富的物理知识和变形过程。
MagicAdapter方案:通过设计MagicAdapter方案,MagicTime能够解耦空间和演习韶光,从变形视频中编码更多的物理知识,并转换预演习的T2V模型以天生变形视频。
动态提取帧策略:引入动态帧提取来策略适应变革范围更广的变形韶光延迟视频,更好地表示物理知识。
Magic Text-Encoder:改进了对变形视频提示的理解,提高了文本到视频天生的准确性和质量。
ChronoMagic数据集:创建专门的韶光延迟视频文本数据集ChronoMagic,为解锁变形视频天生能力供应支持。
MagicTime的目标是通过天生高质量和动态的变形视频,证明其对天生韶光延迟视频的依据性和有效性,为构建物理天下的现变形仿照器开辟了一条希望的道路。
此外,MagicTime还操持将额外的变形景不雅观韶光延迟视频集成到相同的注释框架中,查找ChronoMagic-Landscape数据集,然后利用该数据集Open-Sora-Plan v1.0.0,得到MagicTime-DiT模型。