Eine gemeinnützige Forschungsinitiative, die die Grenzen der künstlichen Intelligenz vorantreibt. Wir konzentrieren uns auf omni-modale KI-Systeme, effiziente Architekturen und synthetische Daten im großen Maßstab.
Eine gemeinnützige Forschungsinitiative zur Förderung omni-modaler KI.
Entwicklung großer Sprachmodelle, die Text, Bilder, Audio und Video mit nahezu null Latenz verstehen und generieren.
Aufbau von Systemen, die mehrere gleichzeitige Streams von Audio, Video und Dateneingaben ohne Reihenfolgebeschränkungen verarbeiten.
Erstellung großer synthetischer Datensätze basierend auf Faktenwissen in verschiedenen Sprachen, Dokumenten und Langkontext-Szenarien.
Skalierung effizienter Aufmerksamkeitsmechanismen auf 1M+ Token für ganztägiges Aufgabengedächtnis und kontextbezogenes Lernen.
Retrievatar ist ein multimodaler Datensatz, der entwickelt wurde, um die Retrieval-Augmented Generation-Fähigkeiten von Vision-Language-Modellen zu verbessern, wobei der Schwerpunkt speziell auf fiktiven Anime-Charakteren und realen Prominenten liegt.
A gauge-theoretic framework that reframes LLM inference from a process of physical data movement to one of dynamic coordinate transformation, leveraging the group properties of RoPE to rotate queries over a static KV cache manifold.