Retrievatar：面向实体检索增强生成的多模态数据集

选择

分类： Datasets

日期： 2025年12月14日

作者： CausalLM

Retrievatar 是一个多模态数据集，旨在增强视觉语言模型的检索增强生成能力，特别关注虚构的动漫角色和现实世界的各界名人。此次发布是包含 100,000 个样本的子集，这些样本是从一个大得多的合成图像-文本语料库中提取的。该数据集开源旨在促进对以实体为中心的多模态理解的进一步研究，并计划在未来评估并可能发布更多的主题子集。

数据构建与方法论

该数据集中的图像描述是使用 Gemini-2.5-pro GA 模型生成的，利用了通过 Gemini API 进行的 Google 搜索落地（Grounding）。生成过程涉及全面的输入策略，模型被提供了源图像以及广泛的元数据。这些元数据包括内在的图像信息和从反向图像搜索网络结果中衍生的上下文内容。通过利用基于搜索的生成，由此产生的描述提供了高度的事实准确性和上下文丰富性，超越了简单的视觉描述。

动机与问题陈述

Retrievatar 的主要目标是缓解传统视觉语言模型训练中发现的局限性，即通常依赖于个人名字与其视觉化身之间的硬匹配。这种僵化的关联经常导致下游模型缺乏对实体背景的充分理解，在将身份链接到信息的任务与将面孔链接到名字的任务之间造成脱节。Retrievatar 通过提供连接这些任务的数据来解决这个问题，促进了虚构人物和现实世界人物的更全面的表示。