- 经验
- 7812
- 分贝
- 0
- 家园分
- 15783
- 在线时间:
- 456 小时
- 最后登录:
- 2024-10-22
- 帖子:
- 3930
- 精华:
- 0
- 注册时间:
- 2015-1-28
- UID:
- 1090897
注册:2015-1-2880
|
发表于 2024-2-20 09:45:40
|显示全部楼层
在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。
例如,下雨天,大风把一位女生的雨伞吹走了。目前,很少有视频模型能精准做到这一点。
论文地址:https://arxiv.org/abs/2402.01566
项目地址:https://boximator.github.io/
Boximator模型先容
为了实现对视频中物体、人物的动作控制,Boximator使用了“软框”和“硬框”两种约束方法。
硬框:可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator会将其视为硬框约束,在之后的帧中精准定位该对象的位置。
软框:软框定义一个对象可能存在的区域,形成一个宽松的边界框。对象需要停留在这个区域内,但位置可以有一定变化,实现适度的随机性。
两类框都包含目标对象的ID,用于在不同帧中跟踪同一对象。此外,框还包含坐标、类型等信息的编码。
控制模块和训练策略
控制模块可以将框约束的编码与视频帧的视觉编码结合,用来引导视频的精准动作生成。包含框编码器和自注意力层两大块。
框编码器:将框的坐标、ID、类型等信息,通过Fourier编码和MLP映射为控制向量。
自注意力层:将框的控制向量与视频帧的视觉向量通过自注意力建模其关系,学习将框引导帧生成。
训练策略方面,Boximator主要分为两个阶段: 自跟踪阶段,训练模型的同时生成视频内容和对应的框,并简化框与对象的关系学习。
正常训练,训练模型只生成视频内容,框的内在表达已经学会引导对象生成。此外,训练还使用多阶段策略,逐步过渡从硬框到软框的约束,以及适当融合无框数据。
Boximator实验数据
为获得视频训练数据,研究人员从WebVid-10M数据集中,过滤出110万段动态明显的视频片段,并自动为其注释了220万个对象的边界框。并在PixelDance和ModelScope这两个模型上训练了Boximator。
实验数据显示,Boximator在保持原模型视频质量,具有非常强大的动作控制能力。同时可以作为一种插件,帮助现有视频扩散模型提升生成质量。
在MSR-VTT数据集上,无论是视频质量还是框与对象对齐精度方面,Boximator都优于原模型。在人类评估中,Boximator生成的视频也在质量和运动控制上明显超过原模型。
字节跳动的研究人员表示,目前该模型处于研发阶段,预计2-3个月内发布测试网站。让大家期待一下国内挑战Sora的产品诞生吧!
本文素材来源Boximator论文
|
|