我一直是本地模型的拥趸,本地模型有非常多的优势,数据和隐私安全是相对有保证的,通过越狱的手段可以减少模型的自我审查。
最近两年,我也陆续通过本地部署尝试过的模型有了十几个了,越来越感觉本地模型能力增强了特别多,尤其是最近 Google 发布的 Gemma 4 怕是要彻底改变本地部署模型的格局。
Gemma 4 证明了一个事情:
1. 31B 小模型的能力可以比肩甚至超过他10倍参数量的大模型,超过 Gemini 2.5 Pro。
2. 26B MoE 架构下,只需要激活 4B 参数,仍能保持比 31B 低那么一点点的高质量输出。
3. 更小的 9B 以下小模型,可以在手机终端这种水平下跑大模型,完成简单任务。
这其实是反直觉的,在 scale law 的框架下,按理说越大参数量越强。而 Google 证明不需要这么大的参数量,提高训练质量依然可以有突破。
这显然已经不只是科学问题,更多是工程问题了。这种小模型吊打大模型的现象,也不难理解。我最早去看 OpenAI 的 tokenizer 词表,当时有一种天塌了的感觉,中文 token 切分十分生硬,各种中文互联网黑灰产名词都频繁出现,显然当时训练的语料充斥着大量垃圾。虽然我没参与过模型研发,但是通过直观感受,套用第一性原理,如果训练数据在前期大量预处理,加上合理的框架设计和训练手段,是否会让模型有大幅度改观呢? Gemma4 或许已经给出了答案。
未来可能是一种组合方式,终端会进行模型路由,在本地模型无法很好完成的任务,去调用其他云端模型,这种云端模型可能是多个的, A 负责写代码,B 负责做工具调用,甚至出现实时询价,用价格和能力匹配任务。
评论
发表评论