只需一步,快速开始
短信验证,便捷登录
军衔等级:
少尉
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
文本到视频等生成任务中,文本编码器在隐式表征空间中提供的引导信息起着关键作用。业界常见模型通常使用预训练的 CLIP 和 T5 作为文本编码器,其中 CLIP 使用 Transformer Encoder,而 T5 使用的是 Encoder-Decoder 结构。相比之下,大家利用最先进的多模态大语言模型(MLLM)进行编码操作,它具有以下优势: (1)与 T5 相比,MLLM 在视觉指令微调后的表征空间中具有更好的图像 - 文本对齐性,这减轻了扩散模型中指令跟随的难度; (2)与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面有着更加优越的能力; (3)MLLM 可以通过设计系统指令前置于用户提示来充当零样本学习器,帮助文本特征更加关注关键词。此外,如图 8 所示,MLLM 基于因果注意力,而 T5-XXL 利用双向注意力,为扩散模型产生更好的文本引导。因此,大家遵循的方法,引入了一个额外的双向令牌细化器,以增强文本特征。此外,CLIP 文本特征也是文本信息的摘要。如图所示。大家采用了 CLIP-Large 文本特征的最终非填充令牌作为全局引导,将其整合到双流和单流的 DiT 块中。 —— Tencent混元视频生成模型开源技术报告
举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2025-1-22 19:13 , Processed in 0.444711 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed