
Retrievatarは、視覚言語モデルの検索拡張生成(RAG)能力を強化するために設計されたマルチモーダルデータセットであり、特に架空のアニメキャラクターや様々な分野の現実世界の有名人に焦点を当てています。今回のリリースは、より大規模な合成画像-テキストコーパスから抽出された10万サンプルのサブセットです。このデータセットは、エンティティ中心のマルチモーダル理解に関するさらなる研究を促進するためにオープンソース化されており、将来的には追加のテーマ別サブセットを評価し、公開する予定です。
このデータセット内の画像キャプションは、Gemini APIを介したGoogle検索によるグラウンディングを活用し、Gemini-2.5-pro GAモデルを使用して生成されました。生成プロセスには、モデルにソース画像と広範なメタデータを提供する包括的な入力戦略が含まれていました。このメタデータには、固有の画像情報と逆画像検索のWeb結果から派生したコンテキストコンテンツが含まれていました。検索に基づく生成を利用することで、結果として得られるキャプションは、単純な視覚的説明を超えた、高度な事実的正確性とコンテキストの豊かさを提供します。
Retrievatarの主な目的は、従来の視覚言語モデルのトレーニングに見られる制限を軽減することです。従来の方法は、個人の名前とその視覚的アバターの間のハードマッチングに依存することがよくあります。このような厳格な関連付けは、エンティティの背景に対する十分な理解を欠くダウンストリームモデルにつながることが多く、アイデンティティを情報にリンクするタスクと、顔を名前にリンクするタスクの間に断絶を生じさせます。Retrievatarは、これらのタスクを橋渡しするデータを提供することでこれに対処し、架空の人物と現実世界の人物の両方のより包括的な表現を促進します。
このデータセットは、英語、中国語、日本語、ドイツ語を含む多様な研究アプリケーションをサポートするために、多言語キャプションを備えています。研究者は、合成データの構築が2025年8月に完了したことに留意する必要があります。したがって、キャプションとメタデータに含まれる情報は、その時点でのWebの状態を反映しており、描かれている主題に関する最新の進展や変更を捉えていない可能性があります。