
Retrievatar ist ein multimodaler Datensatz, der entwickelt wurde, um die Retrieval-Augmented Generation (RAG)-Fähigkeiten von Vision-Language-Modellen zu verbessern, wobei der Schwerpunkt speziell auf fiktiven Anime-Charakteren und realen Prominenten aus verschiedenen Bereichen liegt. Diese Veröffentlichung stellt eine Teilmenge von 100.000 Beispielen dar, die aus einem wesentlich größeren synthetischen Bild-Text-Korpus extrahiert wurden. Der Datensatz wird als Open Source veröffentlicht, um die weitere Forschung im Bereich des entitätszentrierten multimodalen Verständnisses zu erleichtern, mit Plänen, in Zukunft weitere thematische Teilmengen zu bewerten und möglicherweise zu veröffentlichen.
Die Bildbeschreibungen in diesem Datensatz wurden mit dem Gemini-2.5-pro GA-Modell generiert, unter Verwendung von Grounding mit Google Search über die Gemini API. Der Generierungsprozess beinhaltete eine umfassende Eingabestrategie, bei der dem Modell das Quellbild zusammen mit umfangreichen Metadaten zur Verfügung gestellt wurde. Diese Metadaten umfassten intrinsische Bildinformationen und kontextbezogene Inhalte, die aus den Web-Ergebnissen der Rückwärts-Bildersuche abgeleitet wurden. Durch die Verwendung der suchbasierten Generierung bieten die resultierenden Beschreibungen ein hohes Maß an faktischer Genauigkeit und kontextbezogenem Reichtum, der über eine einfache visuelle Beschreibung hinausgeht.
Das primäre Ziel von Retrievatar ist es, die Einschränkungen zu mildern, die in der traditionellen Vision-Language-Model-Ausbildung zu finden sind, welche oft auf einer harten Übereinstimmung zwischen dem Namen einer Person und ihrem visuellen Avatar beruht. Solche starren Assoziationen führen häufig zu nachgelagerten Modellen, denen ein ausreichendes Verständnis des Hintergrunds der Entität fehlt, was eine Diskrepanz zwischen der Aufgabe, eine Identität mit Informationen zu verknüpfen, und der Aufgabe, ein Gesicht mit einem Namen zu verknüpfen, schafft. Retrievatar adressiert dies, indem es Daten bereitstellt, die diese Aufgaben überbrücken und eine ganzheitlichere Darstellung sowohl fiktiver als auch realer Figuren fördern.
Der Datensatz verfügt über mehrsprachige Beschreibungen, um diverse Forschungsanwendungen zu unterstützen, einschließlich Englisch, Chinesisch, Japanisch und Deutsch. Forscher sollten beachten, dass die Konstruktion der synthetischen Daten im August 2025 abgeschlossen wurde. Folglich spiegeln die in den Beschreibungen und Metadaten enthaltenen Informationen den Zustand des Webs zu diesem Zeitpunkt wider und erfassen möglicherweise nicht die neuesten Entwicklungen oder Änderungen in Bezug auf die abgebildeten Subjekte.