
Wir freuen uns, miniG vorzustellen, ein leistungsstarkes neues Modell, das entwickelt wurde, um die Grenzen des groß angelegten synthetischen Datentrainings zu erkunden.
miniG ist ein 9B-Parameter-Sprachmodell (initialisiert von THUDM/glm-4-9b-chat-1m), ergänzt durch ein optionales 5B ViT, was es zu einem leistungsfähigen Vision Language Model (VLM) macht. Seine Grundlage bildet ein einzigartiger Synthesedatensatz mit über 120 Millionen Einträgen. Dieser Datensatz wurde mit modernsten Sprachmodellen mit großen Kontextfenstern generiert, unter Verwendung von Methoden, die der Retrieval-Augmented Generation (RAG) und der Integration von Wissensgraphen ähneln.
Der gesamte Datensyntheseprozess wurde in Clustern durchgeführt, die aus einem kuratierten 20-Milliarden-Token-Vortrainingskorpus abgeleitet wurden, wobei die anschließende Validierung vom Modell selbst durchgeführt wurde. Bemerkenswert ist, dass miniG keiner gründlichen Ausrichtung auf menschliche Präferenzen unterzogen wurde und nicht verpflichtet ist, schlecht konstruierte Prompts oder Benchmark-Klischees zu bedienen.
revision=text-only Branch unter https://huggingface.co/CausalLM/miniG/tree/text-only.Warnhinweise: Wir empfehlen dringend, eine standardisierte Implementierung wie Hugging Face transformers für die Inferenz zu verwenden. Beschleunigte Kernel wie vllm oder lmdeploy sowie Modellquantisierung können zu erheblichen Leistungseinbußen und potenziell katastrophalen Auswirkungen führen, insbesondere bei der visuellen Inferenz.
Inferenzparameter: Um Ergebnisse mit weniger Halluzinationen zu erzielen, empfehlen wir Sampling mit top_p=0.8 und temperature=0.3 oder reines Temperature-Sampling bei 0.2. Eine niedrigere Temperatur ist im Vergleich zu ähnlichen Modellen generell erforderlich, was wir vorläufig auf Overfitting auf dem riesigen Datensatz zurückführen.
Eingabeformatierung:
"Sie sind ein hilfreicher Assistent." ist ausreichend.<|role|> Tag immer ein Zeilenumbruchzeichen \n ein, damit die Analyse korrekt funktioniert.Die endgültige veröffentlichte Version war eine Zusammenführung mehrerer Kandidatenmodelle. Ein effizientes naives Fine-Tuning kann innerhalb eines Tages auf 16 Knoten mit 8*A100-80G erreicht werden, mit einer geschätzten CO2-Emission von 700 kg CO2-Äquivalent.
Haftungsausschluss: Das Modell wurde mit ungefilterten Internetdaten trainiert und kann anstößige Inhalte enthalten. Wir verfügen nicht über die Ressourcen, um alle Daten zu prüfen oder RLHF für die Sicherheit zu implementieren. Benutzer sind dafür verantwortlich, ihre eigenen Sicherheitsprüfungen durchzuführen und Modellausgaben zu filtern.
Parameter: 9B LLM (initialisiert von GLM-4-9B-Chat-1M) + optionales 5B ViT
Kontextfenster: 1.000.000 Tokens
Modalitäten: Text und Bild (mit Locked-Image Tuning)
Trainingsdaten: Über 120M Einträge synthetischer Datensatz, generiert aus einem 20B Token Korpus.
| Fähigkeit | Beschreibung | miniG | Gemini-Flash | GLM-4-9B-Chat | Llama 3.1 8B Instruct |
|---|---|---|---|---|---|
| MMLU | Repräsentation von Fragen in 57 Fächern (inkl. MINT, Geisteswissenschaften und andere) | 85,45 | 78,9 | 72,4 | 69,4 |
| IFEval | Bewertung der Anweisungsbefolgung mit verifizierbaren Prompts | 74,22 | - | 69 | 80,4 |
| GSM8K | Herausfordernde Mathematikaufgaben (5-Shot-Bewertung) | 75,89 (5-shot) | 86,2 (11-shot) | 79,6 | 84,5 (8-shot CoT) |
| HumanEval | Python-Code-Generierung auf einem zurückgehaltenen Datensatz (0-shot) | 79,88 | 74,3 | 71,8 | 72,6 |
| GPQA | Herausfordernder Datensatz mit Fragen aus Biologie, Physik und Chemie | 37,37 | 39,5 | 34,3 (base) | 34,2 |
| Kontextfenster | Maximale Kontextlänge, die das Modell verarbeiten kann | 1M | 1M | 128K | 128K |
| Eingabe | Unterstützte Eingabemodalitäten | Text, Bild (einzelnes Modell) | Text, Bild, Audio, Video | Nur Text | Nur Text |