百万 Token 上下文窗口

选择

本文由机器翻译。

我们正在开创能够扩展到 100 万 tokens 及以上的高效注意力架构。我们的研究使模型能够在整个扩展交互过程中保持完整的对话历史、任务上下文和文档理解。

我们没有通过稀疏模式或分层方法来近似注意力，而是开发了能够扩展到百万 token 上下文的高效注意力技术。这保留了模型在没有人为限制的情况下关注上下文任何部分的能力。

我们的方法结合了算法创新和硬件感知优化，即使在极长的上下文中也能实现实用的推理速度。

凭借百万 token 的上下文，我们的模型可以在整个工作会话中保持连贯的任务记忆。用户可以进行持续数小时或数天的连续对话，而不会丢失上下文或需要提醒模型之前的交互。

这种能力支持复杂的应用，如长期个人助理、扩展的协作编程会话和全面的文档分析。

扩展的上下文释放了强大的上下文学习能力。我们的模型可以从大量示例中学习新任务，适应用户偏好，并在单个会话中发展专业知识。

这种方法消除了许多应用对微调的需求，实现快速部署和个性化。

我们开发了针对长上下文场景优化的自定义内核和训练框架。这些优化涵盖内存管理、注意力计算和梯度计算，实现实用的训练和推理。

我们的实现利用 NVIDIA CUDA 和 Google TPU 能力，在各平台上实现最大效率。

有兴趣合作进行前沿AI研究吗？
让我们一起探索如何推进这一领域。

构建下一代
人工智能