过去几个月对于Gemma系列开源模型来说是一段激动人心的时期。先是推出了Gemma 3和Gemma 3 QAT,为单个云和桌面加速器提供了最先进的性能。随后,又宣布了Gemma 3n的全面发布,这是一种移动优先的架构,将强大的实时多模态AI直接带到了边缘设备。其目标一直是为开发者提供有用的AI构建工具,并且看到大家共同帮助创建的充满活力的Gemma生态系统,上周下载量突破2亿次。
今天,我们为Gemma 3工具包增加了一个新的、高度专业化的工具:Gemma 3 270M。这是一个紧凑的、拥有2.7亿参数的模型,专为特定任务微调而从头设计,并已内置训练好的强大指令遵循和文本结构化能力。
Gemma 3 270M将强大的指令遵循能力带到了小尺寸模型中。正如IFEval基准测试(测试模型遵循可验证指令的能力)所显示的,它在其尺寸级别上建立了新的性能标准,使得复杂的AI功能在设备端和研究应用中更加易于实现。
紧凑而强大的架构: 新模型总共有2.7亿个参数:其中1.7亿个是嵌入参数(得益于大词汇表),1亿个用于Transformer块。凭借256K词元的大词汇表,该模型可以处理特定和罕见的词元,使其成为在特定领域和语言中进一步微调的强大基础模型。
极高的能效: Gemma 3 270M的一个关键优势是其低功耗。在某设备SoC上进行内部测试显示,INT4量化模型仅用0.75%的电量即可完成25次对话,使其成为能效最高的Gemma模型。
指令遵循: 除了预训练的检查点外,还发布了经过指令调优的模型。虽然该模型并非为复杂对话用例设计,但它是一个开箱即用即可很好遵循通用指令的强大模型。
可用于生产的量化: 提供了量化感知训练检查点,使您能够以INT4精度运行模型,同时性能损失最小,这对于在资源受限的设备上部署至关重要。
在工程中,成功由效率定义,而不仅仅是原始能力。您不会用大锤来挂画框。构建AI时也应遵循同样的原则。
Gemma 3 270M体现了这种“合适的工具做合适的工作”的理念。它是一个高质量的基础模型,开箱即用地遵循指令,其真正的力量通过微调来解锁。一旦专业化,它可以以极高的准确性、速度和成本效益执行文本分类和数据提取等任务。从一个紧凑、强大的模型开始,您可以构建出精简、快速且运营成本显著降低的生产系统。
这种方法的力量已经在现实世界中带来了惊人的成果。一个完美的例子是某机构与某公司的合作。面对细致入微的多语言内容审核挑战,他们选择了专业化路线。没有使用庞大的通用模型,而是微调了一个Gemma 3 4B模型。结果令人惊叹:经过专门训练的Gemma模型不仅达到了、甚至在某些具体任务上超过了规模大得多的专有模型的性能。
Gemma 3 270M旨在让开发者将这种方法推得更远,为定义明确的任务释放更大的效率。它是创建一系列小型、专业化模型的完美起点,每个模型都是其特定任务的专家。
但这种专业化的力量不仅限于企业任务;它也能实现强大的创意应用。例如,看看这个“睡前故事生成器”Web应用:
Gemma 3 270M被用于驱动一个使用Transformers.js构建的“睡前故事生成器”Web应用。该模型的尺寸和性能使其适合离线、基于网络的创意任务。
Gemma 3 270M继承了Gemma 3系列的先进架构和强大的预训练,为您的定制应用提供了坚实的基础。
以下是它成为完美选择的情况:
我们希望让将Gemma 3 270M转变为您的自定义解决方案变得尽可能简单。它建立在与其他Gemma 3模型相同的架构之上,并提供了快速入门的配方和工具。您可以在Gemma文档中找到关于使用Gemma 3 270M进行全面微调的指南。
Gemma生态系统建立在“创新不分大小”的理念之上。通过Gemma 3 270M,我们赋能开发者构建更智能、更快速、更高效的AI解决方案。我们迫不及待想看到您创建的专用模型。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 [email protected] 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 [email protected] 删除。