在人工智能领域,大规模语言模型的发展一直备受关注。
昨天,谷歌宣布推出其规模最大、功能最强大的新型大规模语言模型Gemini。
该模型拥有最强大的TPU(张量处理单元)系统“Cloud TPU v5p”和来自Google Cloud的人工智能超级计算机。
它是 Google 准备了一年的 GPT4 真正的竞争对手。
发布会上,谷歌 DeepMind 首席执行官、Gemini 团队代表 Demis Hassabis 谈到了 GPT-4 与 Gemini 的比较。
他表示,谷歌运行了 32 个完善的基准测试来比较这两个模型,从广泛的整体测试到比较两个模型生成 Python 代码的能力,发现 Gemini 在 32 个基准测试中的 30 个上大幅领先。
Gemini模型经过海量数据训练,能够很好地识别和理解文本、图像、音频等内容,并能回答复杂主题相关的问题。
因此,非常擅长解释数学和物理等复杂学科的推理任务。
此外,Gemini 可以生成和理解 Python、Java、C++ 和 Go 等主流代码,并在多个编码基准测试中表现良好。
除了语言理解和编码方面的能力,Gemini还具备多模态能力,可以在视觉理解、文本生成等方面展现出非常强的能力。
比如,从几十万字的小说中梳理出要点,或者从 200 页的财务报告中找到最有价值的内容。
这对于金融、科技、医疗等领域的科研和业务人员非常有帮助。
在发布的演示视频中,Sundar Pichai 展示了 Gemini 对视频和图像的非凡识别能力。
Gemini可以非常自由地在图像、音频、视频模式之间切换,展现出解锁应用场景和产品形态的惊人潜力。
目前,Gemini Ultra 是第一个在 MMLU(大规模多任务语言理解)方面超越人类专家的模型。
该模型综合运用了数学、物理、历史、法学、医学、伦理学等57个学科科目来测试世界知识和解决问题的能力。
谷歌在一篇博客文章中表示,Gemini Ultra 可以理解复杂主题中的细微差别和推理。
为了未来的发展,谷歌计划向客户授权 Gemini 在他们自己的应用程序中使用。
从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API(应用程序编程接口)访问 Gemini Pro。
Android 开发人员可以使用 Gemini Nano 来完成他们的构建。
总之,Gemini作为Google最新的大规模语言模型,具有强大的功能和灵活的适配能力。
通过海量数据训练和多模态能力,它可以回答复杂问题、生成和理解代码、处理各种类型的数据。
这些功能对于金融、科技、医疗等领域的科研和业务人员非常有帮助。
随着越来越多的用户开始使用Gemini,它有望在各个领域发挥更大的作用。