Wir entwickeln Foundation-Modelle, die Text-, Bild-, Audio- und Videoverständnis nahtlos in einer einheitlichen Architektur integrieren. Unsere Forschung konzentriert sich auf echtes omni-modales Reasoning mit minimaler Latenz, um Echtzeit-Interaktionen über alle Modalitäten hinweg zu ermöglichen.
Unsere omni-modalen Modelle verwenden eine einheitliche Transformer-Architektur, die alle Modalitäten durch einen gemeinsamen Repräsentationsraum verarbeitet. Dieser Ansatz ermöglicht emergente cross-modale Reasoning-Fähigkeiten, die modalitätsspezifische Modelle übertreffen.
Durch das Erlernen gemeinsamer Einbettungen über Text, Bilder, Audio und Video können unsere Modelle Zero-Shot-cross-modale Aufgaben ausführen und ein tiefes Verständnis der Beziehungen zwischen verschiedenen sensorischen Eingaben demonstrieren.
Wir haben spezialisierte Techniken zur Reduzierung der Inferenz-Latenz in multimodalen Szenarien entwickelt. Durch optimierte Aufmerksamkeitsmechanismen, effiziente Token-Repräsentationen und hardware-bewusstes Design erreichen unsere Modelle nahezu sofortige Antworten.
Unsere Streaming-Architektur ermöglicht die Echtzeit-Verarbeitung von Audio- und Video-Eingaben, ohne auf vollständige Sequenzen warten zu müssen, was wirklich interaktive multimodale Erfahrungen ermöglicht.
Anders als konventionelle Ansätze, die stark auf Vision Transformers (ViT) angewiesen sind, erforscht unsere Forschung alternative Architekturen für visuelles Verständnis. Wir untersuchen effiziente Alternativen, die die ViT-Leistung beibehalten oder übertreffen und gleichzeitig den Rechenaufwand reduzieren.
Dieser Ansatz ermöglicht flexiblere Modelldesigns und eröffnet neue Möglichkeiten für Edge-Deployment und Echtzeit-Anwendungen.
Wir haben neuartige Vortraining-Strategien entwickelt, die effizient auf Milliarden von Parametern skalieren und dabei die Trainingsstabilität aufrechterhalten. Unsere Methoden kombinieren selbstüberwachtes Lernen über Modalitäten hinweg mit sorgfältig kuratierten synthetischen Daten.
Durch verteiltes Training auf NVIDIA GPUs und Google TPUs erreichen wir eine effiziente Nutzung heterogener Hardware-Plattformen.