文本生成精准图像字幕,谷歌等开源PixelLLM_全球资讯热分享网(专注热点收集平台)

文本生成精准图像字幕,谷歌等开源PixelLLM


文本生成精准图像字幕,谷歌等开源PixelLLM

  2023-12-22 03:57:32     简体|繁體
http://refenxiang.com/1022781.html

原文来源:AIGC开放社区

图片来源:由无界 AI生成

传统的大语言模型可以描述、回答与图像相关的问题,甚至进行复杂的图像推理。但使用大型语言模型进行文本定位,或用图像指代准确坐标却不太行。

为了进行该技术的探索,谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。

PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时,模型可以根据位置生成与指定对象或区域相关的描述文本。

当生成位置作为输出时,模型可以为每个输出词语生成像素坐标,实现密集的词语定位。

项目地址:https://jerryxu.net/PixelLLM/‌

论文地址:https://arxiv.org/abs/2312.09237‌

PixelLLM的核心技术原理是,通过在大语言模型的单词特征之上添加一个小型多层感知机(MLP),来回归每个输出单词的像素坐标,从而实现对文本的密集定位。而语言模型的权重可以保持冻结,也可以通过低秩微调(LoRA)进行更新。


PixelLLM的整体架构包括图像编码器、提示编码器/特征提取器和大语言模型组成。

支持图像以及位置或文本的任意组合作为输入,并生成字幕以及每个词的像素定位作为输出。


图像编码器


图像编码器使用了Vision Transformer为输入图像生成表征,可以把图片转换成计算机可以理解的格式。
图像编码器使用了两种并行的主干:一种是从SAM模型初始化的ViT-H,用于获取强大的定位特征;


另一种是从EVA02初始化的ViT-L,用于学习语义特征。两种主干的输出在通道维上拼接,作为整体的图像表征。


提示编码/提取器


提示编码器将位置或文本等非图像输入编码为与图像表征相匹配的特征空间。对于位置输入,使用正弦余弦位置编码和线性层编码边界框坐标或点序列。对于文本输入,将词嵌入与图像表征拼接作为语言模型的前缀特征。

提示特征提取器用于接收来自提示编码器的特征,以及来自图像编码器的整幅图像表征。它的作用是从整幅图像中提取出与提示相关的区域特征。


提示特征提取器使用了基于学习性查询词的“双向变压”结构。其中提示特征和查询词作为“询问”;图像表征作为关键字和结果,并进行自注意力聚焦。


大语言模型


PixelLLM使用了谷歌曾发布的T5-XL作为基础语言模型,并将大部分参数进行了冻结, 只有提问和结果的投影层通过LoRA进行了低秩适配。


主要用于接收来自提示特征提取器的区域特定特征,以及可选的文本特征,并自动回归地生成字幕。

此外,在映射到词典空间的线性层之前,应用了多层感知器为每个词预测坐标。这样语言解码和定位预测可以并行地进行。


训练方法和实验数据


PixelLLM使用了谷歌的Localized Narrative数据集进行预训练。该数据集包含了人类对图像进行叙述的注释,以及注释者在叙述过程中的鼠标轨迹。这些注释提供了叙述中每个词语的同步位置信息。

在训练过程中,研究人员通过最小化生成的描述与实际注释之间的差异来优化PixelLLM模型。语言模型的权重可以保持固定,也可以使用低秩微调(LoRA)进行更新。

为了评估PixelLLM的性能,研究人员在RefCOCO、Visual Genome等下游数据集上进行了微调,根据具体任务的要求,微调模型的参数,并在相应的任务上进行性能评估。

结果显示,PixelLLM在多个视觉-语言任务上取得了最先进的性能。例如,在RefCOCO的指代定位任务上达到了89.8。在Visual Genome的基于位置的描述生成任务上达到了19.9。



编辑:web3528btc 来源:加密钱包代币

分享到:

  • 上一篇
    下一篇

  • 分享知识|收获智慧

    全球资讯热分享网(专注热点收集平台)
    手机查看(二维码扫一扫)

    全球资讯热分享网,最有影响力热点信息分类网站,主要集合图文、知识、日常、娱乐、财经、文化、生活、致富、女性、地区、科技等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2026年 » « 01月 »
    1234
    567891011
    12131415161718
    19202122232425
    262728293031

    最新资讯

    我是江西恒新的商务经理罗相信,[开户]oppo vivo手机流量,核代,电商cid,禾量有量,需要联系,我们是广告媒体方,欢迎点击对接合作与我联系。
  • 2026-01-15 21:35:58

     

    我是优途上岸的商务经理周宇茜,[开户]全国学历提升(专升本,研究生等)首咨。无效退补,CPA结算,可接受小量测试,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 21:26:50

     

    我是舜动科技的广告商务卢珊珊,[代运营]菜板 艾灸毯 艾灸鞋 驼绒被 驼绒马甲 养生壶 熊胆粉等有量,欢迎来聊,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 21:17:46

     

    我是广州旭铄的媒介专员王晓飞,[开户]股票粉,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 21:08:43

     

    我是语霏科技的销售总监聂绍军,[代运营]抖音。视频号 免费养生粉CPA 几十个品,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 20:59:39

     

    我是微驰互动的销售经理赵迎辉,[开户]抖音腾讯综合信贷企业贷可全国,当天接通率七成以上,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 20:50:36

     

    我是巨划算的销售专员练文杰,[代运营]百度(baidu)电商高点开户代运营 50+❗ ❗,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 20:41:32

     

    我是南京抖了抖的负责人王小容,[开户]口腔客资合作,全国可接量,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 20:32:29

     

    我是河南万分之一的运营经理邝争坤,[代运营]抖音/视频号社群免领:微压锅 养生壶(可纯女) 砂锅 驼绒被 马甲 艾灸毯 热菜板 银水杯 小推车 睡眠仪等,我们是推广代运营服务商,欢迎点击对接合作与我联
  • 2026-01-15 20:23:25

     

    我是武汉道精的销售经理顾文佳,[代运营]中医粉,ai课程粉,快手抖音小红书开户代运营,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 20:14:21

     

    我是成都鼎富通的总经理赵伟,[代运营]阿里、腾讯域名,二级域名出租,独享域名,私域直播域名。不红无拦截,安全可靠! ,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 20:05:19

     

    我是巨巢(河北)科技的销售经理孟晨晨,[代运营]快手股票户,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 19:56:14

     

    我是点通广告的广告销售梁钧浩,[代运营]抖音,小红书全行业开投放账户,高点收量,可开直营户,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 19:47:11

     

    我是广州旭铄的媒介专员王晓飞,[代运营]股票粉,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 19:38:07

     

    漯河公司注册咨询-漯河公司注册专业指引
  • 2026-01-15 19:29:04