CausalLM Omni 中间检查点预览

全面审视我们的CausalLM Omni模型：向合作伙伴预览我们的中间检查点

<a href='https://huggingface.co/datasets/CausalLM/Retrievatar' target='_blank'>在 Hugging Face 上探索数据集 &rarr;</a>

Retrievatar 面向实体检索增强生成的多模态数据集

Retrievatar：面向实体检索增强生成的多模态数据集

LLM Inference on a Static Manifold: A Gauge-Theoretic Framework

LLM Inference on a Static Manifold: A Gauge-Theoretic Framework

<h5>模型亮点</h5> 参数量：9B LLM（从 GLM-4-9B-Chat-1M 初始化）+ 可选 5B ViT 上下文窗口：1,000,000 tokens 模态：文本和图像（使用锁定图像微调） 训练数据：从 200 亿 token 语料库生成的 1.2 亿条以上合成数据集。
<table> <tbody><tr> <th>能力</th> <th>描述</th> <th class='highlight-column highlight-header'>miniG</th> <th>Gemini-Flash</th> <th>GLM-4-9B-Chat</th> <th>Llama 3.1 8B Instruct</th> </tr> <tr> <td class='bold'>MMLU</td> <td>57 个学科的问题表现 （包括 STEM、人文学科等）</td> <td class='highlight-column bold'>85.45</td> <td>78.9</td> <td>72.4</td> <td>69.4</td> </tr> <tr> <td class='bold'>IFEval</td> <td>使用可验证提示的 指令遵循评估</td> <td class='highlight-column'>74.22</td> <td>-</td> <td>69</td> <td class='bold'>80.4</td> </tr> <tr> <td class='bold'>GSM8K</td> <td>具有挑战性的数学问题 （5-shot 评估）</td> <td class='highlight-column'>75.89 (5-shot)</td> <td class='bold'>86.2 (11-shot)</td> <td>79.6</td> <td>84.5 (8-shot CoT)</td> </tr> <tr> <td class='bold'>HumanEval</td> <td>在保留数据集上的 Python 代码生成（0-shot）</td> <td class='highlight-column bold'>79.88</td> <td>74.3</td> <td>71.8</td> <td>72.6</td> </tr> <tr> <td class='bold'>GPQA</td> <td>来自生物学、物理学 和化学的挑战性问题数据集</td> <td class='highlight-column'>37.37</td> <td class='bold'>39.5</td> <td>34.3 (base)</td> <td>34.2</td> </tr> <tr> <td class='bold'>上下文窗口</td> <td>模型可处理的 最大上下文长度</td> <td class='highlight-column bold'>1M</td> <td class='bold'>1M</td> <td>128K</td> <td>128K</td> </tr> <tr> <td class='bold'>输入</td> <td>支持的输入模态</td> <td class='highlight-column highlight-footer'>文本、图像 （单一模型）</td> <td>文本、图像、音频、视频</td> <td>仅文本</td> <td>仅文本</td> </tr> </tbody></table>
<a href='https://huggingface.co/CausalLM/miniG' target='_blank'>在 Hugging Face 上探索模型 &rarr;</a>

miniG 9B VLM 百万上下文窗口

miniG 9B 介绍

<h5>动漫展示：概念验证</h5> 为了展示我们的方法，我们发布了一个大规模的动漫主题数据集。主要特点包括： <ul> <li>规模和范围：超过 100 万条目，约 4.4 亿个 GPT-4/3.5 tokens。</li> <li>多元来源：来自广泛的在线动漫社区和维基。</li> <li>高级精炼：使用 GPT-3.5 和 GPT-4 精心处理，以提高清晰度并减少噪音。</li> <li>成本明细：估计生成成本约为 25,000 美元，其中 GPT-4-32K 至少占数据的 25%。</li> </ul> <a href='https://huggingface.co/datasets/CausalLM/Refined-Anime-Text' target='_blank'>在 Hugging Face 上探索数据集 &rarr;</a>

用于合成数据集的"秘方"

用我们的合成数据"秘方"释放大语言模型潜力

<h5>主要特点</h5> <ul> <li>增强的检索：更好的信息检索和处理能力。</li> <li>高级 SFT：先进的监督微调技术以提升性能。</li> <li>Qwen-7B 基础：建立在强大的 Qwen-7B 基础之上，具有卓越的理解能力。</li> <li>聊天优化：专门针对对话交互进行优化。</li> </ul> <a href='https://huggingface.co/CausalLM' target='_blank'>在 Hugging Face 探索我们的模型 &rarr;</a>

CausalLM 7B 聊天模型

CausalLM 7B - 具有增强检索和SFT的新型聊天模型

<h5>使用须知</h5> Guanaco 模型未经过有害、偏见或露骨内容过滤。因此，可能会生成不符合道德规范的输出。请在研究或实际应用中谨慎使用该模型。 <h5>模型局限性</h5> Guanaco 是一个 70 亿参数的模型，任何基于知识的内容都应被视为可能不准确。我们强烈建议为基于知识的回答提供可验证的来源，并告知用户此局限性，以防止虚假信息传播并保持透明度。

语言

研究领域

关注我们

关于 CausalLM

CausalLM Omni 研究计划

开创人工智能
的未来

构建下一代
AI系统

推进全模态

人工智能

全模态
基础模型

实时
多流处理

多语言
知识合成

百万Token
上下文窗口

最新研究动态：

全面审视我们的CausalLM Omni模型：向合作伙伴预览我们的中间检查点

Retrievatar：面向实体检索增强生成的多模态数据集

语言

研究领域

关注我们

关于 CausalLM

CausalLM Omni 研究计划

开创人工智能的未来

构建下一代AI系统

推进全模态

人工智能

全模态基础模型

实时多流处理

多语言知识合成

百万Token上下文窗口

最新研究动态：

全面审视我们的CausalLM Omni模型：向合作伙伴预览我们的中间检查点

Retrievatar：面向实体检索增强生成的多模态数据集

开创人工智能
的未来

构建下一代
AI系统

全模态
基础模型

实时
多流处理

多语言
知识合成

百万Token
上下文窗口