
Retrievatar 是一个多模态数据集,旨在增强视觉语言模型的检索增强生成能力,特别关注虚构的动漫角色和现实世界的各界名人。此次发布是包含 100,000 个样本的子集,这些样本是从一个大得多的合成图像-文本语料库中提取的。该数据集开源旨在促进对以实体为中心的多模态理解的进一步研究,并计划在未来评估并可能发布更多的主题子集。
该数据集中的图像描述是使用 Gemini-2.5-pro GA 模型生成的,利用了通过 Gemini API 进行的 Google 搜索落地(Grounding)。生成过程涉及全面的输入策略,模型被提供了源图像以及广泛的元数据。这些元数据包括内在的图像信息和从反向图像搜索网络结果中衍生的上下文内容。通过利用基于搜索的生成,由此产生的描述提供了高度的事实准确性和上下文丰富性,超越了简单的视觉描述。
Retrievatar 的主要目标是缓解传统视觉语言模型训练中发现的局限性,即通常依赖于个人名字与其视觉化身之间的硬匹配。这种僵化的关联经常导致下游模型缺乏对实体背景的充分理解,在将身份链接到信息的任务与将面孔链接到名字的任务之间造成脱节。Retrievatar 通过提供连接这些任务的数据来解决这个问题,促进了虚构人物和现实世界人物的更全面的表示。
该数据集具有多语言描述,以支持多样化的研究应用,包括英语、中文、日语和德语。研究人员应注意,合成数据的构建工作已于 2025 年 8 月完成。因此,描述和元数据中包含的信息反映了当时的互联网状态,可能无法捕捉到关于所描绘主题的最新发展或变化。