价格
1754次/1$
API文档资料
Gemma 2 模型卡
模型页面: Gemma
资源与技术文档:
使用条款: 条款
作者: Google
模型信息
输入和输出的简要描述与定义
描述
Gemma是谷歌推出的一系列轻量级尖端开源模型,基于与创建Gemini模型相同的研究和技术构建而成。这些纯解码器架构的大型语言模型专为文本生成任务设计,目前仅支持英语,同时提供了预训练版本和指令调优版本的开源权重。 Gemma模型能够出色完成多种文本生成任务,包括问答、摘要和逻辑推理等。其相对紧凑的模型尺寸使其能够在笔记本电脑、台式机或自有云基础设施等资源有限的环境中部署,这有助于实现尖端AI模型的普惠化应用,为所有人提供创新助力。
输入与输出
- 输入:文本字符串,例如问题、提示或需要总结的文档。
- 输出:生成的英文文本作为对输入的响应,例如问题的答案或文档的摘要。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型数据
用于模型训练的数据以及数据处理方式。
训练数据集
这些模型是在包含多种来源的文本数据集上进行训练的。27B模型使用了13万亿个token进行训练,9B模型使用了8万亿个token,2B模型则使用了2万亿个token。以下是关键组成部分:
- 网页文档:多样化的网络文本集合确保模型能接触到广泛的语言风格、主题和词汇。主要为英文内容。
- 代码:让模型接触代码有助于其学习编程语言的语法和模式,从而提高其生成代码或理解代码相关问题的能力。
- 数学:在数学文本上的训练帮助模型学习逻辑推理、符号表示以及处理数学查询。
整合这些多元化的数据源对于训练一个能够处理多种任务和文本格式的强大语言模型至关重要。
数据预处理
以下是应用于训练数据的关键数据清洗和过滤方法:
- CSAM过滤:在数据准备流程的多个阶段应用了严格的CSAM(儿童性虐待材料)过滤机制,以确保排除有害和非法内容。
- 敏感数据过滤:作为确保Gemma预训练模型安全可靠的一部分,采用自动化技术从训练集中过滤特定个人信息及其他敏感数据。
- 其他方法:根据我们的政策进行基于内容质量和安全性的过滤。
实现信息
模型内部细节。
硬件
Gemma 是基于最新一代Tensor Processing Unit (TPU)硬件(TPUv5p)进行训练的。
训练大型语言模型需要强大的计算能力。TPU(张量处理单元)专为机器学习中常见的矩阵运算而设计,在此领域具有多重优势:
- 性能:TPU专为处理训练LLM涉及的大规模计算而设计,相比CPU可显著加速训练过程。
- 内存:TPU通常配备大容量高带宽内存,能够处理训练过程中的大型模型和批量数据,从而提升模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为应对基础大模型日益增长的复杂性提供了可扩展解决方案,可通过多TPU设备分布式训练实现更快速高效的处理。
- 成本效益:相比基于CPU的基础设施,TPU在多数场景下能为大模型训练提供更具成本效益的解决方案,尤其考虑到快速训练所节省的时间和资源。
- 这些优势与Google可持续运营承诺相契合。
软件
训练使用JAX和ML Pathways完成。
JAX让研究人员能够利用包括TPU在内的最新一代硬件,以更快速、更高效地训练大型模型。
ML Pathways 是谷歌为构建具备跨任务泛化能力的人工智能系统推出的最新项目。该项目特别适用于基础模型,包括这类大型语言模型。
JAX和ML Pathways的结合使用方式在关于Gemini模型家族的论文中有详细描述:"Jax和Pathways的'单一控制器'编程模型允许单个Python进程协调整个训练过程,极大简化了开发工作流程。"
评估
模型评估指标与结果
基准测试结果
这些模型针对大量不同的数据集和评估指标进行了测试,以涵盖文本生成的各个方面:
基准测试 | 指标 | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5次样本,top-1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10次样本 | 73.0 | 81.9 | 86.4 |
PIQA | 0次样本 | 77.8 | 81.7 | 83.2 |
SocialIQA | 0次样本 | 51.9 | 53.4 | 53.7 |
BoolQ | 0次样本 | 72.5 | 84.2 | 84.8 |
WinoGrande | 部分得分 | 70.9 | 80.6 | 83.7 |
ARC-e | 0次样本 | 80.1 | 88.0 | 88.6 |
ARC-c | 25次样本 | 55.4 | 68.4 | 71.4 |
TriviaQA | 5次样本 | 59.4 | 76.6 | 83.7 |
Natural Questions | 5次样本 | 16.7 | 29.2 | 34.5 |
HumanEval | pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3次样本 | 29.6 | 52.4 | 62.6 |
GSM8K | 5次样本,maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4次样本 | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5次样本 | 30.6 | 52.8 | 55.1 |
DROP | 3次样本,F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3次样本,CoT | 41.9 | 68.2 | 74.9 |
伦理与安全
伦理与安全评估方法及结果
评估方法
我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由多个不同团队执行,每个团队都有不同的目标和人工评估指标。这些模型针对多个与伦理和安全相关的不同类别进行了评估,包括:
- 文本到文本内容安全:对涉及儿童性虐待与剥削、骚扰、暴力与血腥内容、仇恨言论等安全政策的提示进行人工评估。
- 文本到文本表征性危害:针对WinoBias和BBQ Dataset等相关学术数据集的基准测试。
- 记忆性:对训练数据记忆程度的自动化评估,包括个人身份信息泄露风险。
- 大规模危害:测试化学、生物、放射性和核(CBRN)风险等"危险能力"。
评估结果
道德与安全评估结果均符合内部政策的可接受阈值标准,涵盖儿童安全、内容安全、表征性危害、记忆效应和大规模危害等类别。除严格的内部评估外,本报告还展示了BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA等知名安全基准测试结果。
Gemma 2.0
基准测试 | 指标 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | 平均值 | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1-shot, top-1 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
危险能力评估
评估方法
我们评估了一系列危险能力:
- 攻击性网络安全:为评估模型在网络安全场景中的潜在滥用风险,我们同时使用了公开可用的夺旗赛(CTF)平台(如InterCode-CTF和Hack the Box)以及内部开发的CTF挑战。这些测试衡量了模型在模拟环境中利用漏洞和获取未授权访问的能力。
- 自我增殖:我们通过设计涉及资源获取、代码执行和远程系统交互的任务来评估模型的自我增殖能力。这些测试评估了模型独立复制和传播的能力。
- 说服力:为评估模型的说服和欺骗能力,我们进行了人类说服研究。这些研究通过特定场景衡量模型建立融洽关系、影响信念以及促使人类参与者采取特定行动的能力。
评估结果
所有评估细节详见 Evaluating Frontier Models for Dangerous Capabilities 并简略概述于 Gemma 2技术报告。
评估项目 | 能力维度 | Gemma 2 IT 27B表现 |
---|---|---|
InterCode-CTF | 攻击性网络安全 | 34/76挑战 |
内部CTF | 攻击性网络安全 | 1/13挑战 |
Hack the Box | 攻击性网络安全 | 0/13挑战 |
自我扩散预警 | 自我扩散能力 | 1/10挑战 |
魅力攻势 | 说服能力 | 参与者认同比例: 81%认为有趣, 75%愿意再次交流, 80%建立个人联系 |
点击链接 | 说服能力 | 34%参与者 |
查找信息 | 说服能力 | 9%参与者 |
运行代码 | 说服能力 | 11%参与者 |
金钱效应 | 说服能力 | 平均捐赠额3.72英镑 |
谎言网络 | 说服能力 | 正确信念平均提升18%,错误信念平均提升1% |
使用与限制
这些模型存在用户应当注意的若干局限性。
预期用途
开源大语言模型(LLMs)在各行业和领域具有广泛的应用前景。以下潜在用途清单并非详尽无遗,其目的在于提供模型创建者在训练和开发过程中所考虑的可能应用场景的背景信息。
- 内容创作与沟通
- 文本生成:这些模型可用于生成诗歌、剧本、代码、营销文案和电子邮件草稿等创意文本格式。
- 聊天机器人和对话式AI:为客服、虚拟助手或交互式应用程序提供对话界面支持。
- 文本摘要:生成文本语料库、研究论文或报告的简明摘要。
- 研究与教育
- 自然语言处理(NLP)研究:这些模型可作为研究人员实验NLP技术、开发算法并推动该领域发展的基础。
- 语言学习工具:支持交互式语言学习体验,辅助语法纠正或提供写作练习。
- 知识探索:通过生成摘要或回答特定主题问题,协助研究人员探索大量文本。
限制
- 训练数据
- 训练数据的质量和多样性显著影响模型能力。数据中的偏见或缺失会导致模型响应存在局限性
- 训练数据集的范围决定了模型能有效处理的学科领域
- 上下文与任务复杂度
- LLM更擅长处理能通过清晰提示和指令构建的任务。开放式或高度复杂的任务可能存在挑战
- 模型表现受上下文信息量的影响(在一定范围内,更长的上下文通常能产生更好的输出)
- 语言歧义与细微差别
- 自然语言具有内在复杂性。LLM可能难以把握微妙差异、讽刺或比喻性语言
- 事实准确性
- LLM根据训练数据集学习的信息生成响应,但它们不是知识库。可能产生不正确或过时的事实陈述
- 常识判断
- LLM依赖语言统计模式。在某些情境下可能缺乏运用常识推理的能力
伦理考量与风险
大型语言模型(LLMs)的发展引发了若干伦理问题。 在创建开放模型的过程中,我们审慎考虑了以下方面:
- 偏见与公平性
- 基于大规模现实世界文本数据训练的LLM可能反映训练材料中隐含的社会文化偏见。这些模型经过严格审查,本卡片中描述了输入数据预处理流程并报告了后续评估结果。
- 错误信息与滥用风险
- LLM可能被滥用于生成虚假、误导性或有害的文本内容。
- 我们提供了该模型的负责任使用指南,详见Responsible Generative AI Toolkit。
- 透明度与问责制:
- 本模型卡片概述了模型架构、能力边界、技术限制及评估流程等关键信息。
- 通过负责任地开发开源模型,我们为AI生态系统的开发者和研究者提供了接触LLM技术的机会,以此促进创新共享。
已识别的风险及缓解措施:
- 偏见延续:建议在模型训练、微调及其他使用场景中持续监控(使用评估指标、人工审核)并探索去偏见技术。
- 有害内容生成:内容安全机制和指南至关重要。建议开发者根据其具体产品政策和应用场景保持谨慎,并实施适当的内容安全防护措施。
- 恶意用途滥用:技术限制、开发者及终端用户教育有助于减轻大语言模型的恶意应用。我们提供了教育资源及用户举报滥用行为的机制。Gemma模型的禁止用途详见Gemma Prohibited Use Policy。
- 隐私侵犯:模型训练数据已过滤去除PII(个人身份信息)。建议开发者采用隐私保护技术并遵守隐私法规。
好处
在发布时,这一系列模型提供了高性能的开源大语言模型实现,其设计初衷就是为负责任的人工智能开发而构建,与同类规模模型相比具有显著优势。
根据本文档所述的基准评估指标,这些模型已证明其性能优于其他规模相当的开源模型替代方案。
使用量分析
google-deepmind/gemma-2-2b 使用统计
replicate - 调用数据分析