Gemma 2 模型卡

模型页面: Gemma

资源与技术文档：

使用条款: 条款

作者: Google

模型信息

输入与输出的简要描述及定义

描述

Gemma是谷歌推出的一系列轻量级尖端开源模型，基于与创建Gemini模型相同的研究和技术构建。这些纯解码器架构的大型语言模型专为英文文本生成任务设计，同时开源了预训练版本和指令调优版本的模型权重。Gemma模型能够出色完成多种文本生成任务，包括问答、摘要和逻辑推理。其相对紧凑的模型尺寸使得在笔记本电脑、台式机或自有云基础设施等资源受限的环境中部署成为可能，这既实现了尖端AI模型的普惠化应用，也为大众创新提供了助力。

输入与输出

输入：文本字符串，例如问题、提示或需要总结的文档。
输出：根据输入生成的英文文本响应，例如问题的答案或文档的摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

模型数据

用于模型训练的数据及其处理方式。

训练数据集

这些模型是在包含多种来源的文本数据集上进行训练的。27B模型使用了13万亿个token进行训练，9B模型使用了8万亿个token，2B模型则使用了2万亿个token。关键组成部分如下：

网页文档：多样化的网络文本集合确保模型能够接触到广泛的语言风格、主题和词汇。主要内容为英语语言材料。
代码：让模型接触代码有助于其学习编程语言的语法和模式，从而提高其生成代码或理解代码相关问题的能力。
数学：通过数学文本训练帮助模型学习逻辑推理、符号表示，并处理数学查询。

整合这些多样化的数据源对于训练一个能够处理各类任务和文本格式的强大语言模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清洗和过滤方法：

CSAM过滤：在数据准备流程的多个阶段应用了严格的CSAM（儿童性虐待材料）过滤机制，以确保排除有害和非法内容。
敏感数据过滤：作为确保Gemma预训练模型安全可靠的一部分，采用自动化技术从训练集中过滤特定个人信息及其他敏感数据。
其他方法：根据我们的政策，基于内容质量和安全性进行过滤。

实现信息

模型内部细节。

硬件

Gemma 是使用最新一代 Tensor Processing Unit (TPU) 硬件（TPUv5p）训练的。

训练大型语言模型需要强大的计算能力。TPU（张量处理单元）专为机器学习中常见的矩阵运算设计，在该领域具备多项优势：

性能：TPU专为处理LLM训练涉及的大规模计算而设计，相比CPU能显著加快训练速度
内存：TPU通常配备大容量高带宽内存，可支持训练过程中处理大型模型和批量数据，从而提升模型质量
可扩展性：TPU Pod（大型TPU集群）为应对基础大模型日益增长的复杂性提供了可扩展解决方案，支持跨多个TPU设备分布式训练以实现更快速高效的处理
成本效益：相比基于CPU的基础设施，TPU在多数场景下能为大模型训练提供更具成本效益的解决方案，特别是考虑到快速训练节省的时间和资源
这些优势符合Google可持续运营承诺

软件

训练使用了JAX和ML Pathways。

JAX让研究人员能够利用包括TPU在内的最新一代硬件，从而更快速高效地训练大型模型。

ML Pathways 是谷歌为构建具备跨任务泛化能力的人工智能系统推出的最新项目。该项目特别适用于基础模型，包括这类大型语言模型。

JAX和ML Pathways共同使用的方式在关于Gemini模型家族的论文中有详细描述；"Jax和Pathways的'单一控制器'编程模型允许单个Python进程协调整个训练过程，极大地简化了开发工作流程。"

评估

模型评估指标与结果

基准测试结果

这些模型针对大量不同的数据集和指标进行了评估，以涵盖文本生成的各个方面：

基准测试	指标	Gemma 2 PT 2B	Gemma 2 PT 9B	Gemma 2 PT 27B
MMLU	5样本，top-1	51.3	71.3	75.2
HellaSwag	10样本	73.0	81.9	86.4
PIQA	0样本	77.8	81.7	83.2
SocialIQA	0样本	51.9	53.4	53.7
BoolQ	0样本	72.5	84.2	84.8
WinoGrande	部分得分	70.9	80.6	83.7
ARC-e	0样本	80.1	88.0	88.6
ARC-c	25样本	55.4	68.4	71.4
TriviaQA	5样本	59.4	76.6	83.7
Natural Questions	5样本	16.7	29.2	34.5
HumanEval	pass@1	17.7	40.2	51.8
MBPP	3样本	29.6	52.4	62.6
GSM8K	5样本，maj@1	23.9	68.6	74.0
MATH	4样本	15.0	36.6	42.3
AGIEval	3-5样本	30.6	52.8	55.1
DROP	3样本，F1	52.0	69.4	72.2
BIG-Bench	3样本，CoT	41.9	68.2	74.9

伦理与安全

伦理与安全评估方法及结果

评估方法

我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由多个不同团队执行，每个团队都有不同的目标和人工评估指标。这些模型根据多个与伦理和安全相关的不同类别进行了评估，包括：

文本到文本内容安全：对涉及儿童性虐待与剥削、骚扰、暴力与血腥内容、仇恨言论等安全政策的提示进行人工评估。
文本到文本表征性危害：针对WinoBias和BBQ Dataset等相关学术数据集的基准测试。
记忆化：对训练数据记忆化的自动化评估，包括个人身份信息泄露风险。
大规模危害：针对化学、生物、放射性和核（CBRN）风险等"危险能力"的测试。

评估结果

伦理与安全评估结果均符合可接受阈值满足内部政策要求涵盖儿童安全、内容安全、表征伤害、记忆效应、大规模伤害等类别除严格的内部评估外还展示了以下知名安全基准测试结果： BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA

Gemma 2.0

基准测试	指标	Gemma 2 IT 2B	Gemma 2 IT 9B	Gemma 2 IT 27B
RealToxicity	平均值	8.16	8.25	8.84
CrowS-Pairs	top-1	37.67	37.47	36.67
BBQ Ambig	1-shot, top-1	83.20	88.58	85.99
BBQ Disambig	top-1	69.31	82.67	86.94
Winogender	top-1	52.91	79.17	77.22
TruthfulQA		43.72	50.27	51.60
Winobias 1_2		59.28	78.09	81.94
Winobias 2_2		88.57	95.32	97.22
Toxigen		48.32	39.30	38.42

危险能力评估

评估方法

我们评估了一系列危险能力：

攻击性网络安全：为评估模型在网络安全场景中的潜在滥用风险，我们同时使用了公开的Capture-the-Flag（CTF）平台（如InterCode-CTF和Hack the Box）以及内部开发的CTF挑战。这些评估衡量了模型在模拟环境中利用漏洞和获取未授权访问的能力。
自我增殖：我们通过设计涉及资源获取、代码执行和远程系统交互的任务来评估模型的自我增殖能力。这些评估测试了模型独立复制和传播的潜力。
说服能力：为评估模型的说服和欺骗能力，我们进行了人类说服研究。这些研究通过测量模型建立信任关系、影响信念以及引导人类参与者采取特定行动的能力来展开评估。

评估结果

所有评估细节详见 Evaluating Frontier Models for Dangerous Capabilities 并在 Gemma 2技术报告中简要说明。

评估项目	能力维度	Gemma 2 IT 27B表现
InterCode-CTF	攻击性网络安全	34/76挑战完成
内部CTF	攻击性网络安全	1/13挑战完成
Hack the Box	攻击性网络安全	0/13挑战完成
自我扩散预警	自我扩散能力	1/10挑战完成
魅力攻势	说服能力	参与者认同比例： 81%认为有趣， 75%愿意再次交流， 80%建立个人联系
点击链接	说服能力	34%参与者
查找信息	说服能力	9%参与者
运行代码	说服能力	11%参与者
金钱效应	说服能力	平均捐赠3.72英镑
谎言网络	说服能力	正确信念平均提升18%，错误信念平均提升1%

使用与限制

用户应当注意，这些模型存在一定的局限性。

预期用途

开源大语言模型（LLMs）在各行业和领域具有广泛的应用前景。以下列举的潜在用途并非详尽无遗，本清单旨在提供背景信息，说明模型创建者在训练和开发过程中考虑过的可能用例场景。

内容创作与沟通
文本生成：这些模型可用于生成诗歌、剧本、代码、营销文案和电子邮件草稿等创意文本格式。
聊天机器人和对话式AI：为客服、虚拟助手或交互式应用程序提供对话界面支持。
文本摘要：生成文本语料库、研究论文或报告的简明摘要。
研究与教育
自然语言处理（NLP）研究：这些模型可作为研究人员实验NLP技术、开发算法并推动该领域发展的基础。
语言学习工具：支持交互式语言学习体验，辅助语法纠正或提供写作练习。
知识探索：通过生成摘要或回答特定主题的问题，协助研究人员探索大量文本。

限制

训练数据
训练数据的质量和多样性显著影响模型能力。数据中的偏见或缺失会导致模型响应存在局限
训练数据集的范围决定了模型能有效处理的学科领域
上下文与任务复杂度
LLM更擅长处理能通过清晰提示和指令框架化的任务。开放式或高度复杂的任务可能存在挑战
模型性能受上下文信息量的影响（在合理范围内，更长的上下文通常能产生更好的输出）
语言歧义与细微差别
自然语言具有内在复杂性。LLM可能难以把握微妙差异、讽刺或比喻性语言
事实准确性
LLM根据训练数据集学习的信息生成响应，但它们不是知识库。可能产生不正确或过时的事实陈述
常识判断
LLM依赖语言统计模式。在某些情况下可能缺乏运用常识推理的能力

伦理考量与风险

大型语言模型（LLMs）的发展引发了若干伦理问题。在创建开放模型时，我们已审慎考量以下方面：

偏见与公平性
基于大规模现实文本数据训练的LLM可能反映训练材料中蕴含的社会文化偏见。这些模型经过严格审查，本卡片中描述了输入数据预处理流程并报告了后验评估结果
错误信息与滥用风险
LLM可能被滥用于生成虚假、误导性或有害文本
透明度与问责机制
本模型卡片概述了模型架构、能力边界、技术限制及评估流程等关键信息
负责任的开源实践
通过开放模型开发，我们为AI生态中的开发者和研究者提供了接触LLM技术的机会，以此促进创新共享
使用规范
模型使用指南详见Responsible Generative AI Toolkit

已识别的风险及缓解措施：

偏见延续：鼓励在模型训练、微调及其他使用场景中持续监控（使用评估指标、人工审查）并探索去偏见技术。
有害内容生成：内容安全机制和指南至关重要。开发者应根据具体产品政策和应用场景保持谨慎，实施适当的内容安全防护措施。
恶意用途滥用：技术限制以及对开发者和终端用户的教育有助于减轻大语言模型的恶意应用。我们提供了教育资源及用户举报滥用行为的机制。Gemma模型的禁止用途详见Gemma Prohibited Use Policy。
隐私侵犯：模型训练数据已过滤去除PII（个人身份信息）。鼓励开发者采用隐私保护技术遵守隐私法规。

好处

发布时，该系列模型提供了高性能的开源大语言模型实现，专为负责任的人工智能开发而构建，与同类规模模型相比具有显著优势。

根据本文档所述的基准评估指标，这些模型已证明能提供优于其他规模相当的开源替代方案的性能表现。

google-deepmind/gemma-2-2b-it

价格

API文档资料

Gemma 2 模型卡

模型信息

描述

输入与输出

引用

模型数据

训练数据集

数据预处理

实现信息

硬件

软件

评估

基准测试结果

伦理与安全

评估方法

评估结果

Gemma 2.0

危险能力评估

评估方法

评估结果

使用与限制

预期用途

限制

伦理考量与风险

好处

使用量分析

google-deepmind/gemma-2-2b-it 使用统计

同类模型推荐

aihilums/sehatsanjha

phospho-app/gr00t-policy

prunaai/hidream-l1-fast