我们正在开创能够扩展到 100 万 tokens 及以上的高效注意力架构。我们的研究使模型能够在整个扩展交互过程中保持完整的对话历史、任务上下文和文档理解。
我们没有通过稀疏模式或分层方法来近似注意力,而是开发了能够扩展到百万 token 上下文的高效注意力技术。这保留了模型在没有人为限制的情况下关注上下文任何部分的能力。
我们的方法结合了算法创新和硬件感知优化,即使在极长的上下文中也能实现实用的推理速度。
凭借百万 token 的上下文,我们的模型可以在整个工作会话中保持连贯的任务记忆。用户可以进行持续数小时或数天的连续对话,而不会丢失上下文或需要提醒模型之前的交互。
这种能力支持复杂的应用,如长期个人助理、扩展的协作编程会话和全面的文档分析。
扩展的上下文释放了强大的上下文学习能力。我们的模型可以从大量示例中学习新任务,适应用户偏好,并在单个会话中发展专业知识。
这种方法消除了许多应用对微调的需求,实现快速部署和个性化。
我们开发了针对长上下文场景优化的自定义内核和训练框架。这些优化涵盖内存管理、注意力计算和梯度计算,实现实用的训练和推理。
我们的实现利用 NVIDIA CUDA 和 Google TPU 能力,在各平台上实现最大效率。