Google最近发布了大模型矩阵的最新力作——Gemini 1.5,并将上下文窗口长度扩展到100万个token。
Gemini 1.5 Pro 在使用更少的计算的情况下实现了与 1.0 Ultra 相当的质量。
该模型在长上下文理解方面实现了突破,可以显着增加模型可处理的信息量——连续运行多达 100 万个 token,实现了迄今为止任何大规模基础模型中最长的上下文窗口。
这意味着 Gemini 1.5 Pro 可以一次处理大量信息 - 包括 1 小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。
从今天开始,Google 将通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 Gemini 1.5 Pro 的有限预览版。
此外,谷歌透露,其研究中成功测试了多达 1000 万个代币。
人工智能模型的“上下文窗口”由标记组成,标记是处理信息的构建块。
上下文窗口越大,它在给定提示中可以接收和处理的信息就越多,从而使其输出更加一致、相关和有用。
通过一系列机器学习创新,Google 将上下文窗口容量从 Gemini 1.0 中最初的 32,000 个令牌大幅增加到 1.5 Pro 中的 100 万个令牌。
Gemini 1.5 Pro 配备了 128,000 个令牌的标准上下文窗口。
从今天开始,有限的开发人员和企业客户可以通过 AI Studio 和 Vertex AI 在私人预览中试用最多 100 万个代币的上下文窗口。
在推出完整的 100 万代币上下文窗口时,Google 正在积极进行优化,以改善延迟、降低计算要求并增强用户体验。
Gemini 1.5 建立在 Google 对 Transformer 和 MoE 架构的研究之上。
传统的 Transformer 是一个大型的神经网络,而 MoE 模型则分为更小的“专家”神经网络。
根据给定的输入类型,MoE 模型学习有选择地激活其神经网络中最相关的专家路径。
这种专业化极大地提高了模型的效率。
谷歌一直是深度学习教育部技术的早期采用者和研发先驱。
Google 在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量,同时更高效地进行训练和服务。
这有助于其团队更快地迭代、训练和交付更高级的 Gemini 版本。