加载中,请稍候...
Tora是阿里推出的一个基于Diffusion Transformer(DiT)的视频生成框架,它代表了一种创新的轨迹导向型视频内容生成技术。Tora是首个集成文本、视觉和轨迹条件同时进行视频生成的系统,能够确保生成的视频内容精确地遵循指定的动态轨迹,同时真实地模拟物理世界的运动。
Tora AI特点
  • 轨迹导向:Tora特别强调对视频内容中运动轨迹的控制,能够根据预设的轨迹生成视频。
  • 多条件集成:框架能够同时处理文本描述、视觉内容和运动轨迹,实现多维度的视频生成。
  • 高保真度:Tora在模拟物理世界的运动方面表现出色,生成的视频具有高运动保真度。
  • 可扩展性:设计上与DiT的可扩展性相匹配,支持不同时长、宽高比和分辨率的视频内容控制。
Tora详情

Tora AI核心功能
  • 轨迹提取:Tora使用轨迹提取器(Trajectory Extractor, TE)将任意轨迹编码为分层的时间空间运动块。
  • 动态融合:通过运动引导融合器(Motion-guidance Fuser, MGF)将运动块整合到DiT块中,确保视频生成与轨迹一致。
  • 高分辨率视频生成:支持生成高分辨率、具有控制运动的视频,且视频时长可以延长。
  • 3D运动VAE:使用3D运动变分自编码器(VAE)嵌入轨迹向量,保留连续帧之间的运动信息。
Tora AI使用示例
假设你想要生成一段描述“一只鲨鱼在汹涌的海面捕食”的视频。使用Tora,你可以:
  • 提供文本描述作为输入。
  • 设定期望的运动轨迹,比如鲨鱼的捕食路径。
  • 利用Tora的轨迹提取和动态融合功能,生成符合描述和轨迹的视频。
  • 视频将展示鲨鱼在海面捕食场景,具有逼真的运动和海面波涛汹涌的细节。