更多
选择
关于 CausalLM

一个致力于推动人工智能前沿发展的非营利研究组织。我们专注于全模态AI系统、高效架构和大规模合成数据。

miniG 9B VLM
百万上下文窗口

miniG 9B 介绍
分类:  Models
日期:  
作者:  CausalLM
本文由机器翻译。查看原文 (English)

我们很高兴推出 miniG,这是一个强大的新模型,旨在探索大规模合成数据训练的前沿。

全新的训练方法

miniG 是一个 90 亿参数的语言模型(从 THUDM/glm-4-9b-chat-1m 初始化),配备可选的 50 亿 ViT,使其成为一个功能强大的视觉语言模型(VLM)。其基础是一个超过 1.2 亿条记录的独特合成数据集。该数据集使用具有大上下文窗口的最先进语言模型生成,采用类似于检索增强生成(RAG)和知识图谱集成的方法。

整个数据合成过程在从精心策划的 200 亿 token 预训练语料库派生的集群中进行,随后由模型本身进行验证。值得注意的是,miniG 未经过与人类偏好的彻底对齐,也没有义务迎合构造不当的提示或基准测试套话。

核心功能

  • 支持的模态:文本和图像。视觉语言模型经过了锁定图像微调。如需纯文本版本,请使用 https://huggingface.co/CausalLM/miniG/tree/text-onlyrevision=text-only 分支。
  • 超大上下文窗口:miniG 支持高达 1,000,000 tokens 的上下文窗口。
  • 模型参数:模型由 9B LLM 和可选的 5B ViT 组成。

使用与推理建议

注意事项: 我们强烈建议使用像 Hugging Face transformers 这样的标准化实现进行推理。加速内核如 vllmlmdeploy,以及模型量化,可能导致显著的性能下降和潜在的灾难性影响,尤其是对于视觉推理。

推理参数: 为获得更少幻觉的结果,我们建议使用 top_p=0.8temperature=0.3 的采样,或在 0.2 处进行纯温度采样。与类似模型相比,通常需要较低的温度,我们暂时将其归因于在庞大数据集上的过拟合。

输入格式:

  1. 确保系统提示不为空。即使是简单的 "你是一个有帮助的助手。" 也足够了。
  2. 始终在每个 <|role|> 标签后包含换行符 \n 以确保正确解析。

训练与免责声明

最终发布的版本是多个候选模型的合并。在 16 个节点的 8*A100-80G 上,可以在一天内实现高效的简单微调,估计碳排放为 700 公斤二氧化碳当量。

免责声明: 该模型是在未经过滤的互联网数据上训练的,可能包含令人反感的内容。我们缺乏资源来审查所有数据或实施 RLHF 以确保安全。用户负责执行自己的安全检查并过滤模型输出。

模型亮点

参数量:9B LLM(从 GLM-4-9B-Chat-1M 初始化)+ 可选 5B ViT

上下文窗口:1,000,000 tokens

模态:文本和图像(使用锁定图像微调)

训练数据:从 200 亿 token 语料库生成的 1.2 亿条以上合成数据集。

能力 描述 miniG Gemini-Flash GLM-4-9B-Chat Llama 3.1 8B Instruct
MMLU 57 个学科的问题表现
(包括 STEM、人文学科等)
85.45 78.9 72.4 69.4
IFEval 使用可验证提示的
指令遵循评估
74.22 - 69 80.4
GSM8K 具有挑战性的数学问题
(5-shot 评估)
75.89 (5-shot) 86.2 (11-shot) 79.6 84.5 (8-shot CoT)
HumanEval 在保留数据集上的
Python 代码生成(0-shot)
79.88 74.3 71.8 72.6
GPQA 来自生物学、物理学
和化学的挑战性问题数据集
37.37 39.5 34.3 (base) 34.2
上下文窗口 模型可处理的
最大上下文长度
1M 1M 128K 128K
输入 支持的输入模态 文本、图像、音频、视频 仅文本 仅文本

在 Hugging Face 上探索模型 →