Mehr
Auswählen
Über CausalLM

Eine gemeinnützige Forschungsinitiative, die die Grenzen der künstlichen Intelligenz vorantreibt. Wir konzentrieren uns auf omni-modale KI-Systeme, effiziente Architekturen und synthetische Daten im großen Maßstab.

miniG 9B VLM mit
1M Kontextfenster

Einführung von miniG 9B
Kategorie:  Models
Datum:  
Autor:  CausalLM
Dieser Artikel wurde maschinell übersetzt.Original anzeigen (English)

Wir freuen uns, miniG vorzustellen, ein leistungsstarkes neues Modell, das entwickelt wurde, um die Grenzen des groß angelegten synthetischen Datentrainings zu erkunden.

Ein neuer Trainingsansatz

miniG ist ein 9B-Parameter-Sprachmodell (initialisiert von THUDM/glm-4-9b-chat-1m), ergänzt durch ein optionales 5B ViT, was es zu einem leistungsfähigen Vision Language Model (VLM) macht. Seine Grundlage bildet ein einzigartiger Synthesedatensatz mit über 120 Millionen Einträgen. Dieser Datensatz wurde mit modernsten Sprachmodellen mit großen Kontextfenstern generiert, unter Verwendung von Methoden, die der Retrieval-Augmented Generation (RAG) und der Integration von Wissensgraphen ähneln.

Der gesamte Datensyntheseprozess wurde in Clustern durchgeführt, die aus einem kuratierten 20-Milliarden-Token-Vortrainingskorpus abgeleitet wurden, wobei die anschließende Validierung vom Modell selbst durchgeführt wurde. Bemerkenswert ist, dass miniG keiner gründlichen Ausrichtung auf menschliche Präferenzen unterzogen wurde und nicht verpflichtet ist, schlecht konstruierte Prompts oder Benchmark-Klischees zu bedienen.

Kernfunktionen

  • Unterstützte Modalitäten: Text und Bild. Das Vision Language Model wurde einem Locked-Image Tuning unterzogen. Für eine reine Textversion verwenden Sie bitte den revision=text-only Branch unter https://huggingface.co/CausalLM/miniG/tree/text-only.
  • Massives Kontextfenster: miniG unterstützt ein Kontextfenster von bis zu 1.000.000 Tokens.
  • Modellparameter: Das Modell besteht aus einem 9B LLM und einem optionalen 5B ViT.

Verwendung & Inferenz-Empfehlungen

Warnhinweise: Wir empfehlen dringend, eine standardisierte Implementierung wie Hugging Face transformers für die Inferenz zu verwenden. Beschleunigte Kernel wie vllm oder lmdeploy sowie Modellquantisierung können zu erheblichen Leistungseinbußen und potenziell katastrophalen Auswirkungen führen, insbesondere bei der visuellen Inferenz.

Inferenzparameter: Um Ergebnisse mit weniger Halluzinationen zu erzielen, empfehlen wir Sampling mit top_p=0.8 und temperature=0.3 oder reines Temperature-Sampling bei 0.2. Eine niedrigere Temperatur ist im Vergleich zu ähnlichen Modellen generell erforderlich, was wir vorläufig auf Overfitting auf dem riesigen Datensatz zurückführen.

Eingabeformatierung:

  1. Stellen Sie sicher, dass der System-Prompt nicht leer ist. Selbst ein einfaches "Sie sind ein hilfreicher Assistent." ist ausreichend.
  2. Fügen Sie nach jedem <|role|> Tag immer ein Zeilenumbruchzeichen \n ein, damit die Analyse korrekt funktioniert.

Training & Haftungsausschluss

Die endgültige veröffentlichte Version war eine Zusammenführung mehrerer Kandidatenmodelle. Ein effizientes naives Fine-Tuning kann innerhalb eines Tages auf 16 Knoten mit 8*A100-80G erreicht werden, mit einer geschätzten CO2-Emission von 700 kg CO2-Äquivalent.

Haftungsausschluss: Das Modell wurde mit ungefilterten Internetdaten trainiert und kann anstößige Inhalte enthalten. Wir verfügen nicht über die Ressourcen, um alle Daten zu prüfen oder RLHF für die Sicherheit zu implementieren. Benutzer sind dafür verantwortlich, ihre eigenen Sicherheitsprüfungen durchzuführen und Modellausgaben zu filtern.

Modell-Highlights

Parameter: 9B LLM (initialisiert von GLM-4-9B-Chat-1M) + optionales 5B ViT

Kontextfenster: 1.000.000 Tokens

Modalitäten: Text und Bild (mit Locked-Image Tuning)

Trainingsdaten: Über 120M Einträge synthetischer Datensatz, generiert aus einem 20B Token Korpus.

Fähigkeit Beschreibung miniG Gemini-Flash GLM-4-9B-Chat Llama 3.1 8B Instruct
MMLU Repräsentation von Fragen in 57 Fächern
(inkl. MINT, Geisteswissenschaften und andere)
85,45 78,9 72,4 69,4
IFEval Bewertung der Anweisungsbefolgung
mit verifizierbaren Prompts
74,22 - 69 80,4
GSM8K Herausfordernde Mathematikaufgaben
(5-Shot-Bewertung)
75,89 (5-shot) 86,2 (11-shot) 79,6 84,5 (8-shot CoT)
HumanEval Python-Code-Generierung auf einem
zurückgehaltenen Datensatz (0-shot)
79,88 74,3 71,8 72,6
GPQA Herausfordernder Datensatz mit Fragen
aus Biologie, Physik und Chemie
37,37 39,5 34,3 (base) 34,2
Kontextfenster Maximale Kontextlänge,
die das Modell verarbeiten kann
1M 1M 128K 128K
Eingabe Unterstützte Eingabemodalitäten Text, Bild, Audio, Video Nur Text Nur Text

Entdecken Sie das Modell auf Hugging Face →