谷歌开源法学硕士 Gemma

近年来,人工智能(AI)领域取得了巨大进步,这在很大程度上是由技术进步推动的。 深入学习和自然语言处理(自然语言处理)。这些进步的最前沿是大型语言模型(法学硕士)——接受大量文本数据训练的人工智能系统,可以生成类似人类的文本并参与对话任务。

像 Google 的 PaLM、Anthropic 的 Claude 和 DeepMind 的 Gopher 这样的法学硕士已经展示了从编码到常识推理的非凡能力。然而,这些模型大多数尚未公开发布,限制了它们的研究、开发和有益应用。

随着最近 Gemma 的开源,这种情况发生了变化——Gemma 是谷歌 DeepMind 的法学硕士系列,基于其强大的专有 Gemini 模型。在这篇博文中,我们将深入研究 Gemma,分析其架构、训练过程、性能和负责任的发布。

杰玛概述

2023年 XNUMX 月,DeepMind 开源两种尺寸的 Gemma 模型-一个针对设备上部署而优化的2亿参数版本,以及一个专为 GPU/TPU 使用而设计的更大的7亿参数版本。

Gemma 利用与 DeepMind 领先的 Gemini 模型类似的基于 Transformer 的架构和训练方法。它接受了来自网络文档、数学和代码的多达6万亿个文本标记的训练。

DeepMind 发布了 Gemma 的原始预训练检查点,以及通过监督学习和人类反馈进行微调的版本,以增强对话、指令遵循和编码等领域的功能。

开始使用杰玛

Gemma 的开放版本使开发人员、研究人员和爱好者可以使用其先进的 AI 功能。以下是快速入门指南:

与平台无关的部署

Gemma 的一个关键优势是它的灵活性——您可以在 CPU、GPU 或 TPU 上运行它。对于 CPU,请利用 TensorFlow Lite 或 HuggingFace Transformers。要加速 GPU/TPU 的性能,请使用 TensorFlow。 Google Cloud 的 Vertex AI 等云服务也提供无缝扩展。

访问预训练模型

Gemma 根据您的需求提供不同的预训练变体。 2B 和 7B 模型提供强大的开箱即用生成能力。对于定制微调,2B-FT 和 7B-FT 模型是理想的起点。

构建令人兴奋的应用程序

您可以使用 Gemma 构建各种应用程序,例如故事生成、语言翻译、问答和创意内容制作。关键是通过对您自己的数据集进行微调来利用 Gemma 的优势。

建筑

Gemma 利用仅解码器的转换器架构,建立在多查询注意力和旋转位置嵌入等先进技术的基础上:

  • 变形金刚:仅基于注意力机制的 Transformer 架构于2017年推出,现已在 NLP 中无处不在。 Gemma 继承了转换器对文本中的远程依赖关系进行建模的能力。
  • 仅解码器: Gemma 仅使用变压器解码器堆栈,与 BART 或 T5 等编码器-解码器模型不同。这为文本生成等任务提供了强大的生成能力。
  • 多查询注意力: Gemma 在其较大的模型中采用了多查询注意力,允许每个注意力头并行处理多个查询,以实现更快的推理。
  • 旋转位置嵌入: Gemma 使用旋转嵌入而不是绝对位置编码来表示位置信息。该技术减小了模型大小,同时保留了位置信息。

使用多查询注意力和旋转位置嵌入等技术使 Gemma 模型能够在性能、推理速度和模型大小之间达到最佳权衡。

数据和训练过程

Gemma 接受了多达6万亿个文本数据标记的训练,主要是英语。这包括网络文档、数学文本和源代码。 DeepMind 投入了大量精力进行数据过滤,使用分类器和启发式方法删除有毒或有害内容。

训练是使用 Google 的 TPUv5 基础设施进行的,最多使用4096个 TPU 来训练 Gemma-7B。高效的模型和数据并行技术使得能够使用商用硬件训练大规模模型。

采用分阶段训练,不断调整数据分布,以关注高质量、相关的文本。最后的微调阶段混合使用了人类生成的示例和合成的指令跟随示例来增强功能。

模型表现

DeepMind 根据超过25个基准测试对 Gemma 模型进行了严格评估,这些基准测试涵盖问答、推理、数学、编码、常识和对话能力。

与大多数基准测试中类似规模的开源模型相比,Gemma 取得了最先进的结果。一些亮点:

  • 数学:Gemma 在 GSM8K 和 MATH 等数学推理测试中表现出色,比 Codex 和 Anthropic 的 Claude 等模型高出 10 多分。
  • 编码:Gemma 在 MBPP 等编程基准上的性能与 Codex 相当或超过,尽管没有接受过专门的代码培训。
  • 对话:Gemma 表现出强大的会话能力,在人类偏好测试中胜率高达51.7%,超过了 Anthropic 的 Mistral-7B。
  • 推理:在 ARC 和 Winogrande 等需要推理的任务上,Gemma 比其他 7B 模型高出5-10 分。

Gemma 跨学科的多才多艺证明了其强大的通用情报能力。尽管与人类水平的表现仍存在差距,但 Gemma 代表了开源 NLP 的飞跃。

安全与责任

发布大型模型的开源权重带来了围绕故意滥用和固有模型偏差的挑战。 DeepMind 采取措施降低风险:

  • 数据过滤:使用分类器和启发式方法从训练数据中删除潜在有毒、非法或有偏见的文本。
  • 反馈: Gemma 在 30 多个旨在评估安全性、公平性和稳健性的基准上进行了测试。它匹配或超过了其他型号。
  • 微调:模型微调的重点是提高信息过滤和适当的对冲/拒绝行为等安全能力。
  • 使用条款:使用条款禁止对 Gemma 模型进行攻击性、非法或不道德的应用。然而,执行仍然具有挑战性。
  • 卡牌型号:发布了详细说明模型功能、局限性和偏差的卡片,以提高透明度。

尽管存在开源风险,但 DeepMind 根据其安全状况和研究支持,确定 Gemma 的发布可带来净社会效益。然而,对潜在危害的警惕监测仍然至关重要。

推动下一波人工智能创新浪潮

将 Gemma 作为开源模型系列发布将推动整个 AI 社区取得进步:

  • 无障碍: Gemma 减少了组织使用尖端 NLP 构建的障碍,这些组织以前在培训自己的法学硕士时面临着高昂的计算/数据成本。
  • 新应用: 通过开源预训练和调整的检查点,DeepMind 可以更轻松地开发教育、科学和可访问性等领域的有益应用程序。
  • 定制: 开发人员可以通过对专有数据的持续培训,进一步针对行业或特定领域的应用程序定制 Gemma。
  • 研究: 像 Gemma 这样的开放模型可以提高当前 NLP 系统的透明度和审计能力,从而阐明未来的研究方向。
  • 创新: 像 Gemma 这样强大的基线模型的可用性将加速偏见缓解、事实性和人工智能安全等领域的进展。

通过开源向所有人提供 Gemma 的功能,DeepMind 希望促进人工智能的负责任发展,造福社会。

前方的路

随着人工智能的每一次飞跃,我们越来越接近在所有领域与人类智能相媲美或超越的模型。像 Gemma 这样的系统强调了自我监督模型的快速进步正在释放日益先进的认知能力。

然而,提高人工智能的可靠性、可解释性和可控性的工作仍有待完成——在人类智能仍然占据主导地位的领域。数学等领域凸显了这些持续存在的差距,Gemma 在 MMLU 上的得分为 64%,而人类的得分估计为 89%。

缩小这些差距,同时确保功能越来越强大的人工智能系统的安全性和道德规范将是未来几年的主要挑战。在开放性和谨慎性之间取得适当的平衡至关重要,因为 DeepMind 的目标是在管理新兴风险的同时实现人工智能优势的民主化。

促进人工智能安全的举措——比如 Dario Amodei 的 ANC、DeepMind 的道德与社会团队以及 Anthropic 的宪法人工智能——表明人们越来越认识到这种细微差别的需求。有意义的进展需要研究人员、开发人员、政策制定者和公众之间进行公开、基于证据的对话。

如果负责任地引导,Gemma 并不代表人工智能的顶峰,而是下一代人工智能研究人员的大本营,追随 DeepMind 的脚步,迈向公平、有益的通用人工智能。

结论

DeepMind 发布的 Gemma 模型标志着开源人工智能的新时代——一个超越狭隘基准进入广义智能能力的时代。 Gemma 经过广泛的安全测试和广泛的可访问性,为人工智能领域负责任的开源制定了新标准。

在竞争精神和合作价值观的推动下,像 Gemma 这样的共享突破将推动人工智能生态系统的发展。整个社区现在可以接触到多才多艺的法学硕士系列来推动或支持他们的计划。

尽管风险依然存在,但 DeepMind 的技术和道德尽责让人们相信 Gemma 的好处大于其潜在危害。随着人工智能能力变得越来越先进,保持开放和谨慎之间的细微差别至关重要。

Gemma 让我们离造福全人类的人工智能又近了一步。但在通向仁慈通用人工智能的道路上,仍有许多重大挑战等待着我们。如果人工智能研究人员、开发人员和整个社会能够保持协作进展,Gemma 有一天可能会被视为历史性的大本营,而不是最终的峰会。

Gemma:谷歌通过开源带来先进的人工智能功能

作者 wolfchild

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注