GOOGLE发布新型视觉语言模型PixelLLM [复制链接]

gythy1978

军衔等级：

少将

发表于 2023-12-19 13:30:07 |显示全部楼层

12月15日，来自GOOGLE、加州大学圣地亚哥分校的团队发布论文，先容了PixelLLM（像素对齐语言模型），该模型可以提供对图像上具体某个位置的详细描述，并精确指出其位置。该项目的目标是开发一种视觉语言模型，可以将位置（例如一组点或框）作为输入或输出。将位置作为输入时，模型会实行位置条件字幕，为指定对象或区域生成字幕；当生成位置作为输出时，模型会对语言模型生成的每个输出词进行像素坐标回归，从而实行密集词接地。该模型在本地化叙事数据集上进行了预训练，该数据集包含来自人类注意力的像素字对齐字幕。研究表明，PixelLLM可以应用于各种位置感知视觉语言任务，包括指代定位、位置条件字幕和密集物体字幕，并在RefCOCO和Visual Genome上取得了最先进的性能。
项目地址：
https://jerryxu.net/PixelLLM/
论文地址：
https://arxiv.org/abs/2312.09237

亚星游戏官网-yaxin222

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-11-23 09:08 , Processed in 0.115649 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册