
我们很高兴推出 miniG,这是一个强大的新模型,旨在探索大规模合成数据训练的前沿。
miniG 是一个 90 亿参数的语言模型(从 THUDM/glm-4-9b-chat-1m 初始化),配备可选的 50 亿 ViT,使其成为一个功能强大的视觉语言模型(VLM)。其基础是一个超过 1.2 亿条记录的独特合成数据集。该数据集使用具有大上下文窗口的最先进语言模型生成,采用类似于检索增强生成(RAG)和知识图谱集成的方法。
整个数据合成过程在从精心策划的 200 亿 token 预训练语料库派生的集群中进行,随后由模型本身进行验证。值得注意的是,miniG 未经过与人类偏好的彻底对齐,也没有义务迎合构造不当的提示或基准测试套话。
revision=text-only 分支。注意事项: 我们强烈建议使用像 Hugging Face transformers 这样的标准化实现进行推理。加速内核如 vllm 或 lmdeploy,以及模型量化,可能导致显著的性能下降和潜在的灾难性影响,尤其是对于视觉推理。
推理参数: 为获得更少幻觉的结果,我们建议使用 top_p=0.8 和 temperature=0.3 的采样,或在 0.2 处进行纯温度采样。与类似模型相比,通常需要较低的温度,我们暂时将其归因于在庞大数据集上的过拟合。
输入格式:
"你是一个有帮助的助手。" 也足够了。<|role|> 标签后包含换行符 \n 以确保正确解析。最终发布的版本是多个候选模型的合并。在 16 个节点的 8*A100-80G 上,可以在一天内实现高效的简单微调,估计碳排放为 700 公斤二氧化碳当量。
免责声明: 该模型是在未经过滤的互联网数据上训练的,可能包含令人反感的内容。我们缺乏资源来审查所有数据或实施 RLHF 以确保安全。用户负责执行自己的安全检查并过滤模型输出。
参数量:9B LLM(从 GLM-4-9B-Chat-1M 初始化)+ 可选 5B ViT
上下文窗口:1,000,000 tokens
模态:文本和图像(使用锁定图像微调)
训练数据:从 200 亿 token 语料库生成的 1.2 亿条以上合成数据集。
| 能力 | 描述 | miniG | Gemini-Flash | GLM-4-9B-Chat | Llama 3.1 8B Instruct |
|---|---|---|---|---|---|
| MMLU | 57 个学科的问题表现 (包括 STEM、人文学科等) | 85.45 | 78.9 | 72.4 | 69.4 |
| IFEval | 使用可验证提示的 指令遵循评估 | 74.22 | - | 69 | 80.4 |
| GSM8K | 具有挑战性的数学问题 (5-shot 评估) | 75.89 (5-shot) | 86.2 (11-shot) | 79.6 | 84.5 (8-shot CoT) |
| HumanEval | 在保留数据集上的 Python 代码生成(0-shot) | 79.88 | 74.3 | 71.8 | 72.6 |
| GPQA | 来自生物学、物理学 和化学的挑战性问题数据集 | 37.37 | 39.5 | 34.3 (base) | 34.2 |
| 上下文窗口 | 模型可处理的 最大上下文长度 | 1M | 1M | 128K | 128K |
| 输入 | 支持的输入模态 | 文本、图像 (单一模型) | 文本、图像、音频、视频 | 仅文本 | 仅文本 |