小型语言模型：为何“小”才是“大”？-海口c网

当说到人工智能（AI）的时候，大家通常会想到那些拥有数十亿参数的超大型语言模型，它们能做出一些令人惊叹的事情。

厉害不厉害？绝对厉害！

但对于大多数企业和开发者来说，实用吗？可能就没那么实用了。

GPT-4o每输出1K个token就要花费两美分，还得把数据发送到遥远的GPU集群，过程中还会有延迟峰值和隐私问题。

现在，想象一下有一种语言AI，它足够强大，能满足你的特定需求，但可以直接在你的手机上运行，几乎实时响应，只消耗几瓦的电能，而且最重要的是，不需要联网。

这就是小型语言模型（SLMs）的承诺，而且这种承诺正逐渐成为现实。

在本篇博客中，我们将拨开炒作的迷雾，为你提供一份关于SLMs的清晰、实用的指南。你可以把它当作了解SLMs所有基础知识的一站式商店。（原作者：郭帅博士）

我们将涵盖以下内容：

“为何是现在”：了解大型语言模型（LLMs）的局限性。
“它们是什么”：超越大小来定义SLMs。
“秘密武器”：揭示SLMs背后的技术细节。
“现实世界”：看看SLMs在实际中的应用。
“关键玩家”：快速了解表现最佳的SLMs。
“正确选择”：决定你的项目是选择SLM还是LLM。

那么，让我们开始吧！

“1. 如果大型语言模型这么强大，为何它们还没有无处不在呢？”

LLMs彻底改变了我们对AI可能性的看法，在各种任务中达到了接近人类水平的惊人能力。

但说到在现实产品中部署这些模型，事情就变得复杂多了。

让我们来谈谈阻碍LLMs的因素：

🧮 成本难以扩展

使用LLMs进行推理的财务负担可不是小事。通过API使用专有模型，基于token的费用很快就会累积起来，对于用户众多或交互频繁的应用程序来说尤其如此。

选择大型开源模型？那你就会面临采购和维护高端推理基础设施的巨额前期和持续费用，以及运行它所需的专门人才。

📦 太大难以部署在边缘设备上

如果需要在智能手机、物联网设备或网络不可靠的环境中运行，LLMs通常会陷入死胡同。它们巨大的内存占用不适合资源受限的边缘设备，而且它们依赖云连接，这意味着它们通常不适合可能需要离线运行的应用程序（例如，在没有或网络受限的地区）。

⏱️ 快，但还不够快

对于需要实时响应的应用程序来说，速度是不可妥协的。将查询发送到托管在云端的LLM、处理它并接收响应的往返时间，基本上使LLMs不适合许多对时间敏感的任务。

🕵️ 隐私泄露问题

将数据发送到外部云服务是处理敏感信息时的一个重大障碍。这可能是个人用户数据或机密商业情报。鉴于引入的隐私风险和复杂的监管合规要求，许多组织必须将数据保留在本地或设备上。

🌱 可持续性逐渐丧失

运行这些大规模模型会消耗大量的电力。随着AI越来越多地融入日常生活，这些LLMs的总能耗和相关的碳足迹正成为日益令人担忧的问题。

🧩 定制化有限

LLMs通常被设计为提供广泛的能力。虽然可以对特定的、小众的任务进行微调，但这通常资源密集、速度慢，并且常常受到供应商API的限制。这限制了从业者对模型行为进行深度定制和控制的能力，以实现专业性能。

鉴于所有这些情况，从业者自然会问：有没有一种更智能、更精简、更高效的方法，来利用语言AI的力量，以适应更广泛的应用场景呢？

答案可能是小型语言模型（SLMs）。

None

图1. LLMs与SLMs的比较。（图片由作者提供）

“2. 那么，SLMs只是参数较少的LLMs，还是另有乾坤呢？”

很容易认为SLMs仅仅是它们更大版本的缩小版。参数少一些，占用空间小一些，仅此而已，对吧？

没那么简单。

虽然SLMs确实拥有更少的参数，但真正使它们与众不同之处并不仅仅是它们的大小。而是为了效率和专注能力而进行的精心工程设计。

一种不同的理念：适合特定用途的人工智能

SLMs体现了一种从通用型智能到适合特定用途智能的思维方式转变。

这意味着SLMs专注于做好特定的事情，比如在设备上总结会议记录，或者处理企业工作流程中的结构化任务。

这种更窄的专注范围带来了更明智的权衡。

SLMs努力实现所谓的帕累托效率，即最大化每个参数所获得的效用。它们是为可部署性而设计的，意味着它们可以在CPU、移动设备甚至离线状态下运行。而且它们采用战略性约束，只使用解决手头任务所需的容量和复杂性——不多也不少。

结果就是一类语言模型，它们不是为了规模而优化，而是为了实际价值。

为效率而进行的智能工程设计

现在，让我们来看看使这种适合特定用途的理念成为现实的工程设计。这涉及到对现有架构进行巧妙的改进，以及开创全新的架构。

许多SLMs都是基于强大的Transformer架构构建的，这与大多数LLMs背后的引擎相同。然而，SLMs与众不同的地方在于它们通常采用更定制化的方法。

简化Transformer设计：通常，SLMs会采用更少的层、更小的隐藏状态维度（“工作记忆”）和更少的注意力头（用于衡量单词重要性的部分）。这是最直接的简化方式。
加速注意力机制：注意力机制让Transformer能够更好地理解上下文。SLMs采用了一系列巧妙的技巧，使其效率大大提高。例如：Grouped-Query Attention（GQA），它在注意力头之间共享键/值，以实现更快的推理，同时几乎不损失准确性；Sliding Window Attention（SWA），它将每个token的注意力限制在局部窗口内，提高了可扩展性，而无需处理完整上下文；FlashAttention，它优化了内存访问模式，加快了注意力计算的速度；Sparse Attention，它限制了token之间的连接，使长输入的处理更加便宜和高效。

除了注意力机制之外，像**fused operations**这样的技术，例如融合层归一化、融合交叉熵损失函数和融合旋转位置嵌入，将多个不同的操作合并为单个计算内核。这减少了内存开销，并且可以显著提高计算吞吐量。

但SLMs的故事不仅仅是让Transformer变得更精简。它还涉及到探索全新的架构类型：

Mamba，一种状态空间模型（SSM），以线性效率处理序列，非常适合长上下文或低功耗场景。
Jamba，一种混合模型，它结合了Transformer和Mamba层，并采用**Mixture-of-Experts（MoE）**路由，在保持计算成本低的同时增加了灵活性。

为何单纯的参数数量并不能定义SLMs

说到SLMs，人们常常会问：“那么，小到什么程度才算是小呢？”

这是一个合理的问题，但也许并不是最有用的问题。

如今大多数SLMs的参数数量都在≤150亿参数的范围内。但仅凭这个范围并不能说明它们的能力、效率或相关性。实际上，参数数量正成为一个越来越具有误导性的指标。

得益于更好的架构和更干净的训练数据，如今拥有20亿参数的模型（例如Phi-2或Gemma 2B）能够超越几年前更大得多的模型。

所以，与其问“小到什么程度才算是小”，更好的问题是：

模型是否能够在你关心的约束条件下满足你的需求？

在这种情况下，“小”不再是一个硬性阈值，而是一种有针对性的设计策略，即最大化每个参数的有用性，而不是单纯为了减小尺寸而减小尺寸。

“3. 那么，SLMs既智能又高效——它们是怎么做到的呢？”

我们已经看到SLMs是为效率和目的而设计的，不仅仅是缩小版的LLMs。它们可能从缩小的LLM架构开始，但它们真正的力量来自于一种纪律性的数据策划和以压缩为中心的工程设计，这使得它们能够超越自身的重量级别。

是时候深入研究SLMs的配方了。

黄金成分：一切都从智能数据开始

对于SLMs来说，它们的容量更加有限，训练数据的质量不仅仅是重要，而是至关重要。

✅ 质量 > 数量

虽然大型LLMs通常是在从互联网上抓取的海量文本上进行训练的，但许多表现最佳的SLMs走了一条不同的道路。

这个想法很简单，但却非常强大：如果数据干净、结构良好且信息密集，SLM就能更高效地学习。

一个很好的例子是**微软的Phi-2模型**（27亿参数）。

该模型是在约1.4万亿个“教科书质量”的合成和精心筛选的网络数据上进行训练的，这让Phi-2能够与多达25倍大的模型相媲美甚至超越它们。

微软的训练流程强调教学价值，去除了重复项，并进行了防止测试集泄露的检查。它们都表明，数据的干净程度，而不仅仅是规模，可以为你带来更有利的扩展法则。

✅ 针对特定领域的数据用于专业技能

如果SLM是为了特定工作而设计的，其训练数据通常会针对该领域进行大量定制。这种有针对性的训练有助于它在其特定领域成为真正的专家，有时甚至在这些特定领域中超越更通用的LLMs。

简而言之，高质量、多样化且针对特定领域的训练数据是SLMs成功的关键。

大厨的技巧：赋予SLMs力量的核心工具

除了精心策划的数据之外，还有一整套专门的技术用于构建和改进SLMs。

✅ 知识蒸馏（KD）

这是一种广泛使用的技巧，将知识从一个更大的、预先训练好的“教师”模型（通常是LLM）转移到一个更小的“学生”模型（SLM）。

这种“知识转移”通常涉及SLM试图复制教师模型的输出概率（logits）、其内部特征表示，甚至从教师LLM生成的更复杂的问题解决解释和演示中学习。

一个最近值得关注的方向是针对对齐的知识蒸馏，即确保SLMs产生的输出能更好地反映人类偏好。Advantage-Guided Distillation for Preference Alignment（ADPA）就是一个这样的例子，它使用从教师对首选响应的信心中得出的奖励信号。这使得学生模型不仅能够学会给出什么答案，还能学会为什么一个回答比另一个更好。

通过利用更大模型预先消化的知识和推理能力，KD使得SLMs能够在超出其自身重量级别的竞争中表现出色。

✅ 剪枝

剪枝是指系统地移除神经网络中不那么重要/冗余的组件，以减少其大小和相关的计算复杂性，同时不会显著降低性能。

剪枝主要有两种类型：

非结构化剪枝，旨在移除模型中的单个权重，创建稀疏的权重矩阵。
结构化剪枝，移除整个结构化的参数块，例如完整的过滤器、通道或层。例如，**Adapt-Pruner**执行基于重要性的逐层自适应剪枝，属于这一类别。作者报告称，在常识推理任务上，与先前的方法相比，这种方法实现了1-7%的准确率提升。

剪枝后，通常会进行微调（尤其是像**QLoRA**这样的参数高效变体），以帮助模型恢复因移除参数而失去的性能。

✅ 量化

量化是减少模型参数的数值精度，有时甚至是其激活函数在计算过程中的精度的过程。例如，存储为32位浮点数的权重可能会被转换为16位浮点数、8位整数，甚至是更紧凑的4位整数。

这种精度的降低带来了以下好处：

模型尺寸更小，因为低精度数字所需的存储空间更少。
内存占用更少，因为加载和运行模型所需的内存更少。
计算速度更快，因为对低精度数字的操作通常在兼容硬件上更快。
能耗更低，因为减少的计算负载和内存访问可以显著节省能源。

流行的量化方法包括Post-Training Quantization（PTQ），即在不重新训练的情况下对预训练模型进行量化。这种方法速度很快，但通常需要一个校准数据集来保持质量。另一种方法是Quantization-Aware Training（QAT），在训练过程中进行量化过程，帮助模型适应并保持更高的准确性。这种方法通常计算量更大，但能保持更高水平的准确性。

尽管量化是将SLMs部署到资源受限设备（如智能手机和微控制器）的关键推动力，但从业者应该记住，过于激进的量化可能会影响模型的准确性。

更重要的是，最近的研究表明，量化可能会无意中引入或加剧公平性、伦理和隐私风险，从而使量化的SLMs更容易对某些查询产生有害或有偏见的回应。这促使了像**LiteLMGuard**这样的保障措施的开发，它是针对量化的SLMs的设备端提示防护。

别忘了管道的现实情况

在实践中，压缩是一个管道：

预训练 → 蒸馏 → 剪枝 → 量化 → 重新评估

每一步都可能改变性能和对齐情况。因此，每一步都需要仔细评估。

总之，高质量的数据 + 聪明的工程设计，这些技术构成了使SLMs真正准备好应对现实任务的核心。

现在我们已经看到了SLMs的构成，让我们看看它们的输出结果。

“4. 理论够了！SLMs现在真的在实际中发挥作用了吗？”

它们当然在发挥作用！

在这一部分，让我们快速浏览一下SLMs已经在哪些地方产生了实际的影响。

✅ Windows 11“Phi Silica”（Copilot + PC）

微软最新的Copilot+ PC新增了一个功能：在新的“单击执行”工作流中，你可以突出显示任何一块文本，并让Windows对其进行总结、要点提取或改写。

为这一功能提供支持的是**“Phi Silica”**，这是一个小巧但强大的约30亿参数的SLM，它直接在设备上运行。这意味着它可以在离线状态下工作，你的数据保留在机器上，不会泄露隐私。

这可能是主流证明，即使是参数少于30亿的模型也能在标准消费级硬件上处理复杂的语言任务，例如跨不同语言的多句推理。随时随地使用保护隐私的AI不再是梦想。

✅ Cerence CaLLM Edge

2024年底宣布的Cerence的CaLLM™ Edge是一种嵌入式的SLM，旨在为下一代车载AI助手提供动力。

这种SLM配备了大约38亿参数，一个4K上下文窗口，以及高效的4位量化。它是基于微软的Phi-3系列模型进行微调的，使用了Cerence庞大的汽车数据集。

即使在隧道中驾驶或离网运行时，它也能稳健运行。它可以处理车内控制（如调节温度或座椅）以及管理兴趣点搜索和导航。

这是为汽车行业量身定制的SLMs的一个有力证明。对于用户来说，这意味着一个始终在线的助手和增强的数据隐私。对于汽车制造商来说，它带来了成本效益——通过利用完全嵌入式的SLM模型，原始设备制造商可以在控制成本的同时，为驾驶员提供基于生成式AI的体验。

✅ Khan Academy的AI导师

微软和Khan Academy正在合作开发Khan Academy的Khanmigo平台上的人工智能数学导师，专门利用微软的Phi-3的一个微调版本，这是一个拥有大约38亿参数的开源SLM。

这个模型经过专门调整，能够处理逐步辅导对话，并调用Python代码进行复杂计算。微软明确指出，SLMs为低连接性或离线部署铺平了道路，使教师能够实现大规模的免费访问。

这一举措完美地展示了SLMs对从业者的优点：智能任务专业化（得益于针对特定领域的微调）、低推理成本和广泛的可访问性。

✅ Google CodeGemma

谷歌发布了CodeGemma，这是一系列专门用于代码的模型，有20亿参数和70亿参数两种版本。

这些模型针对中间填充代码补全进行了调整，接受8K上下文的token，并量化为4位，缩小到大约1.6GB（20亿参数）或≈9GB（70亿参数）。这意味着它们可以在普通的CPU笔记本电脑上提供实时自动补全。

这个例子展示了SLMs在软件工程领域的应用。除了低延迟、高隐私（企业代码不会离开机器）和低成本（不需要基于席位的SaaS）之外，这种SLM的一个重要好处是，它可以在一夜之间在单个GPU上针对你的代码库进行专业化调整。

✅ Picovoice & picoLLM

Picovoice提供了一个边缘语音语言栈，它将一个微型的唤醒词引擎（Porcupine，≈1MB RAM）和一个几兆字节的自然语言理解引擎（Rhino）与picoLLM捆绑在一起，picoLLM是一个压缩和推理层，可以让SLMs完全离线在CPU、NPU甚至树莓派上运行。

Picovoice在多个行业中都有用例。一个可能的用例是在制造业中进行检查和维护，例如，叉车的树莓派计算模块4可以托管一个聊天风格的维护助手或一个SCADA面板解释器，而无需将遥测数据发送到云端。

由于处理过程是在本地完成的，所有专有流程数据都保留在工厂内部，工厂车间没有Wi-Fi依赖。

“5. 好了，我被SLMs说服了！但我应该看哪一个呢？”

尽管SLMs的领域正在迅速发展，新的模型和更新不断涌现，但到2025年中期，已经出现了一些主要的SLM家族，每个家族都有其自己的专长。

在这一部分，让我们看看一些关键参与者。这个列表并不打算穷尽，但它涵盖了你在实践中可能会遇到的一系列名字。

✅ 微软的Phi系列（Phi-1、Phi-1.5、Phi-2、Phi-3、Phi-3.5）

开发者：微软
理念：一个SLM家族，主要用于在设备上直接启用AI功能，减少对云连接的依赖。许多Phi模型都是在MIT许可证下开源的。
关键特点：Phi系列的一个定义性特征是其强调用高质量、策划的数据进行训练，通常被描述为“教科书式的”。这种方法旨在培养强大的推理和理解能力。Phi模型被设计为灵活部署（云、边缘、设备），超低延迟，以及以安全为首要的设计理念。一些较新的版本还融入了多模态能力（文本、视觉、音频）。
模型及参数：
- Phi-1（13亿参数）：最初专注于Python编程任务。
- Phi-1.5（13亿参数）：展示了改进的推理和通用语言理解能力。
- Phi-2（27亿参数）：在某些基准测试中表现出色，据报道性能超过了多达25倍大的模型。其训练数据是一个精心策划的合成数据集，旨在教授常识和一般知识，以及具有教育价值的筛选内容。Phi-2被认为对于模型可解释性研究、微调实验和安全改进很有价值。然而，初始版本存在一些限制，例如主要基于Python的代码知识，并且没有经过广泛的指令微调，这可能会影响其精确遵循复杂用户指令的能力。
- Phi-3系列：这个系列，包括像_Phi-3-mini-4k-instruct_这样的变体，是为生产环境设计的，在语言理解、推理任务和编程基准测试中表现出色。
- Phi-3.5：提供了增强的多语言支持，并进一步改进了性能特点。
突出特点：“质量优于数量”的数据策略；在小尺寸下强大的推理能力；专注于设备端能力。许多Phi模型的开源可用性是使先进AI更易于获取的重要贡献。

✅ 谷歌的Gemma系列（Gemma 2B、7B、9B、27B；CodeGemma、PaliGemma）

开发者：谷歌
理念：一个开放模型家族，建立在支撑谷歌更大Gemini模型的相同研究和技术之上。基础Gemma模型主要是文本到文本的。
关键特点：Gemma模型针对NVIDIA GPU和谷歌云TPU的性能进行了优化，但也被设计为可以在笔记本电脑和移动设备上部署。它们是在包含网络文档、代码和数学内容的多样化数据集上进行训练的。
模型及参数：
- Gemma（第一代）：以20亿参数和70亿参数的大小发布。70亿参数的Gemma模型在各种基准测试中显示出与类似规模的其他SLMs（如Llama 3 8B和Mistral 7B）相当的性能。
- Gemma 2（第二代）：这一迭代在AI推理过程中提供了改进的性能和更大的效率。它有20亿参数、90亿参数和270亿参数的版本。
- Gemma 3（第三代，2025年3月12日）：这一迭代启用了多模态能力，能够理解文本、图像和短视频。它支持128K上下文和函数调用。它有10亿参数、40亿参数、120亿参数、270亿参数的版本，谷歌声称270亿参数的版本是“你可以在单个GPU/TPU上运行的最具能力的模型”，这得益于激进的量化和CUDA/TPU内核。
- Gemma 3n （预览）（2025年5月20日）：在2025年5月的谷歌I/O大会上刚刚宣布，这个模型有有效的20亿参数和40亿参数的大小。这是一个以移动设备为主的“纳米”分支，支持音频 + 视觉 + 文本输入。它使用每层嵌入缓存和MatFormer“嵌套”子模型，因此可以在≈2GB RAM中运行，或者根据需要进行扩展。它支持32K上下文。
- CodeGemma：专门用于编程任务的变体。这包括一个70亿参数的预训练版本，用于代码补全和生成；一个70亿参数的指令微调版本，用于自然语言代码聊天和指令遵循；以及一个20亿参数的预训练版本，用于快速代码补全。
- PaliGemma（30亿参数、100亿参数、280亿参数）：一个视觉语言模型（VLM），它接受图像和文本作为输入，并产生文本输出。它被设计用于视觉问答（VQA）、图像内物体检测、生成图像标题以及阅读图像中的嵌入文本等任务。
突出特点：基于Gemini技术；强大的谷歌工具支持；针对代码和视觉语言任务的专门变体。

✅ Meta的Llama系列（Llama 2 7B、Llama 2 13B、Code Llama 7B、Llama 3 8B）

开发者：Meta AI
理念：一个公开发布的基础模型家族，强调在保持具有竞争力的推理、编码和多语言能力的同时进行高效扩展。连续的几代产品推动了更宽松的许可（仅限研究→商业用途）和更紧密的安全对齐。
关键特点：开放权重检查点，例如Llama 2和Llama 3在自定义商业友好许可下，支持长上下文窗口，量化为4位以用于笔记本电脑/边缘部署。
模型及参数：
- Llama 2 7B：商业友好许可；在更大的、更干净的数据集上重新训练；“-Chat”变体在帮助性/安全性评估中击败了大多数130亿参数的开放模型。
- Llama 2 13B：仍然小到足以用于多GPU桌面，但在推理和代码合成方面提供了一个提升；是一个流行的微调基础。
- Code Llama 7B：专注于编程；额外的代码预训练和指令微调，导致在HumanEval和leetcode风格的任务上表现强劲，同时保持70亿参数的尺寸。
- Llama 3 8B：最新一代，更大的（15万亿token）筛选数据集，以及一个加强安全性的RLHF管道。
突出特点：Meta的Llama系列表明，“开放权重 + 小心策划的数据 + 可扩展的训练”可以在足够轻便以用于笔记本电脑和边缘设备的包装中提供接近最先进的质量。它为许多后续SLM发布设定了模板。

现在，如果你想自己尝试一个SLM：

对于零设置演示和模型发现：Hugging Face是一个很好的起点。在他们的Spaces（huggingface.co/spaces）中搜索模型的交互式网络演示。Model Hub（huggingface.co/models）是许多预训练SLMs的中央仓库。查看“模型卡片”以了解它们的使用、许可以及任何已知的偏差或限制。
对于本地实验：要在自己的机器上运行SLMs，像Ollama（ollama.com）和LM Studio（lmstudio.ai）这样的工具非常受欢迎。