从 Gemma 4 聊起，我依旧持续看好小模型

我一直是本地模型的拥趸，本地模型有非常多的优势，数据和隐私安全是相对有保证的，通过越狱的手段可以减少模型的自我审查。

最近两年，我也陆续通过本地部署尝试过的模型有了十几个了，越来越感觉本地模型能力增强了特别多，尤其是最近 Google 发布的 Gemma 4 怕是要彻底改变本地部署模型的格局。

Gemma 4 证明了一个事情：

1. 31B 小模型的能力可以比肩甚至超过他10倍参数量的大模型，超过 Gemini 2.5 Pro。

2. 26B MoE 架构下，只需要激活 4B 参数，仍能保持比 31B 低那么一点点的高质量输出。

3. 更小的 9B 以下小模型，可以在手机终端这种水平下跑大模型，完成简单任务。

这其实是反直觉的，在 scale law 的框架下，按理说越大参数量越强。而 Google 证明不需要这么大的参数量，提高训练质量依然可以有突破。

这显然已经不只是科学问题，更多是工程问题了。这种小模型吊打大模型的现象，也不难理解。我最早去看 OpenAI 的 tokenizer 词表，当时有一种天塌了的感觉，中文 token 切分十分生硬，各种中文互联网黑灰产名词都频繁出现，显然当时训练的语料充斥着大量垃圾。虽然我没参与过模型研发，但是通过直观感受，套用第一性原理，如果训练数据在前期大量预处理，加上合理的框架设计和训练手段，是否会让模型有大幅度改观呢？ Gemma4 或许已经给出了答案。

未来可能是一种组合方式，终端会进行模型路由，在本地模型无法很好完成的任务，去调用其他云端模型，这种云端模型可能是多个的， A 负责写代码，B 负责做工具调用，甚至出现实时询价，用价格和能力匹配任务。

老徐自留地

搜索此博客

从 Gemma 4 聊起，我依旧持续看好小模型

评论

发表评论