文本生成精准图像字幕,谷歌等开源PixelLLM_全球资讯热分享网(专注热点收集平台)

文本生成精准图像字幕,谷歌等开源PixelLLM


文本生成精准图像字幕,谷歌等开源PixelLLM

  2023-12-22 03:57:32     简体|繁體
http://refenxiang.com/1022781.html

原文来源:AIGC开放社区

图片来源:由无界 AI生成

传统的大语言模型可以描述、回答与图像相关的问题,甚至进行复杂的图像推理。但使用大型语言模型进行文本定位,或用图像指代准确坐标却不太行。

为了进行该技术的探索,谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。

PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时,模型可以根据位置生成与指定对象或区域相关的描述文本。

当生成位置作为输出时,模型可以为每个输出词语生成像素坐标,实现密集的词语定位。

项目地址:https://jerryxu.net/PixelLLM/‌

论文地址:https://arxiv.org/abs/2312.09237‌

PixelLLM的核心技术原理是,通过在大语言模型的单词特征之上添加一个小型多层感知机(MLP),来回归每个输出单词的像素坐标,从而实现对文本的密集定位。而语言模型的权重可以保持冻结,也可以通过低秩微调(LoRA)进行更新。


PixelLLM的整体架构包括图像编码器、提示编码器/特征提取器和大语言模型组成。

支持图像以及位置或文本的任意组合作为输入,并生成字幕以及每个词的像素定位作为输出。


图像编码器


图像编码器使用了Vision Transformer为输入图像生成表征,可以把图片转换成计算机可以理解的格式。
图像编码器使用了两种并行的主干:一种是从SAM模型初始化的ViT-H,用于获取强大的定位特征;


另一种是从EVA02初始化的ViT-L,用于学习语义特征。两种主干的输出在通道维上拼接,作为整体的图像表征。


提示编码/提取器


提示编码器将位置或文本等非图像输入编码为与图像表征相匹配的特征空间。对于位置输入,使用正弦余弦位置编码和线性层编码边界框坐标或点序列。对于文本输入,将词嵌入与图像表征拼接作为语言模型的前缀特征。

提示特征提取器用于接收来自提示编码器的特征,以及来自图像编码器的整幅图像表征。它的作用是从整幅图像中提取出与提示相关的区域特征。


提示特征提取器使用了基于学习性查询词的“双向变压”结构。其中提示特征和查询词作为“询问”;图像表征作为关键字和结果,并进行自注意力聚焦。


大语言模型


PixelLLM使用了谷歌曾发布的T5-XL作为基础语言模型,并将大部分参数进行了冻结, 只有提问和结果的投影层通过LoRA进行了低秩适配。


主要用于接收来自提示特征提取器的区域特定特征,以及可选的文本特征,并自动回归地生成字幕。

此外,在映射到词典空间的线性层之前,应用了多层感知器为每个词预测坐标。这样语言解码和定位预测可以并行地进行。


训练方法和实验数据


PixelLLM使用了谷歌的Localized Narrative数据集进行预训练。该数据集包含了人类对图像进行叙述的注释,以及注释者在叙述过程中的鼠标轨迹。这些注释提供了叙述中每个词语的同步位置信息。

在训练过程中,研究人员通过最小化生成的描述与实际注释之间的差异来优化PixelLLM模型。语言模型的权重可以保持固定,也可以使用低秩微调(LoRA)进行更新。

为了评估PixelLLM的性能,研究人员在RefCOCO、Visual Genome等下游数据集上进行了微调,根据具体任务的要求,微调模型的参数,并在相应的任务上进行性能评估。

结果显示,PixelLLM在多个视觉-语言任务上取得了最先进的性能。例如,在RefCOCO的指代定位任务上达到了89.8。在Visual Genome的基于位置的描述生成任务上达到了19.9。



编辑:web3528btc 来源:加密钱包代币

分享到:

  • 上一篇
    下一篇

  • 分享知识|收获智慧

    全球资讯热分享网(专注热点收集平台)
    手机查看(二维码扫一扫)

    全球资讯热分享网,最有影响力热点信息分类网站,主要集合图文、知识、日常、娱乐、财经、文化、生活、致富、女性、地区、科技等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2026年 » « 03月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031

    最新资讯

    微粒贷逾期很严重吗?逾期后该做什么?分四级看+3个协商步骤!
  • 2026-03-29 06:38:47

     

    支付宝逾期的最新政策:60期分期新政!支付宝逾期4步协商,附真实案例
  • 2026-03-29 06:29:44

     

    网商贷逾期会不会黑户?逾期后该做什么?3个层面看+3个步骤自救!
  • 2026-03-29 06:20:40

     

    我是千拓云的渠道经理朱珏,[开户]个贷机构或中介,停息挂账,网贷,花呗,租机等精准实时客源,添加率高转化高。,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-29 06:11:36

     

    我是和佳网络的总经理黄有军,[开户]百度(baidu)开户及代运营 减肥 丰胸 男科nk 祛痘 祛斑 黑发 生发 祛眼袋 敏感肌,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-03-29 06:02:33

     

    我是川行传媒的推广员邱梓桦,[开户]千川对公1.5 对私4.5 不配合 对公3配合 黄金回收对私11 包罚对私4 本地推线索对私14,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-03-29 05:53:29

     

    我是好信小贷的广告商务付金成,[开户]精准网贷 租机 yh 消金客群,真实有效,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-29 05:44:25

     

    我是飞鱼广告的广告销售陈爱美,[开户]抖音本地推 对公11 对私14 政策拉满!效率高 系统充值,我们是,欢迎点击对接合作与我联系。
  • 2026-03-29 05:35:22

     

    我是六安微点的总经理李敏,[开户]朋友圈广告、视频号官方广告位投放 全国无资质行业均可急速审核包过上线,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-03-29 05:26:19

     

    我是巨划算的销售专员练文杰,[代运营]百度(baidu)电商高点开户代运营 对公47 对私53 !❗❗❗❗❗❗❗❗❗❗❗,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-03-29 05:17:15

     

    我是正方元的渠道经理崔艳芬,[开户]股票培训,财商培训教育户,有大量现户,要的来,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-29 05:08:11

     

    我是北京中传的广告销售龙涛,[开户] 百度(baidu)逾期信息流代运营服务,量大 成本可控 签约率高 欢迎来聊,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-29 04:59:07

     

    重磅!中科院官宣:不再发布期刊分区表
  • 2026-03-29 04:50:04

     

    我是全网互动的总经理李裕全,[开户]快手磁力金牛一代收量,高返点6.5 生活服务区域(磁力智投),开户+代运营!,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-29 04:41:00

     

    儿咳糖浆的禁忌是什么
  • 2026-03-29 04:31:56