AI初创公司面壁智能发布并开源了新一代端侧模型小钢炮4.0,可实现长文本推理速度5倍常规加速以及最高220倍加速,共有8B和0.5B两个参数规模。
据介绍,8B模型为稀疏注意力模型,在多个基准测试中,以22%的训练开销,性能比肩Qwen-3-8B、超越Gemma-3-12B,同时,注意力机制上采用高效双频换挡,可根据文本长短切换稀疏与稠密。0.5B模型相较Qwen-3-0.6B、Llama 3.2, 仅2.7%的训练开销,一半参数性能翻倍,并实现最快600Token/s的推理速度。
面壁智能CEO李大海表示:“没有做过上下文稀疏化的模型内存消耗过大,显存不够要用CPU的内存,Offloading(显存优化技术)会导致速度急速下降。我们抛砖引玉,做了两个还不错的应用,作为demo一并向大家开源。”
李大海表示,随着大模型知识密度越来越高,端侧模型将大有可为。(澎湃新闻记者 秦盛)