炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
有一说一,最近国内的AI大模型圈,属实有点安静了。
先不谈大伙万众瞩目的DeepSeek-R2了,这玩意除了半真半假的爆料以外,没有一点动静,有种哪怕再过半年时间,也不一定能够落地的感觉。
去年打得你来我往的AI四小龙,今年好像也和小猫一样蔫了,说是大家都在闷声鼓捣着自己的东西,但愣是什么都没有端出来,有种凿壁偷光的美。
至于大厂这边,迭代速度也都慢了下来,把更多的精力放到了应用上。豆包虽然端出了1.6大模型,但是宣传重点更多是TRAE和扣子空间;讯飞在发力AI教育和办公Agents,百度则在推进全流程AI修图和资产管理,各有各的思路。
总的来说,这些应用倒是蛮实用的,就是确实没什么特别让人惊艳的产品。
这在线大模型没啥新进展,本地大模型就更是在原地踏步了,此前一直在更新的Mistral AI已经有小半年没啥声音了,移动端的端侧大模型更是杳无音讯,宣传了整整两三年的AI手机,超过90%的功能还是靠云端实现的。
(图源:谷歌)谷歌寻思:这不行啊,那我的Pixel系列该怎么办?
上周,谷歌DeepMind在推特上正式宣布,发布并开源了全新的端侧多模态大模型 Gemma 3n。
谷歌表示,Gemma 3n的发布代表了移动设备端AI的重大进步,它为手机、平板、笔记本电脑等端侧设备带来了强大的多模态功能,可以让用户体验到过去只有云端先进模型上才能体验的高效处理性能。
又来个以小搏大吗?有点意思。
为了看看这玩意的真实成色,小雷也去下载了谷歌发布的最新模型进行测试,接下来就给大家说说里面的亮点吧。
谷歌要“以小搏大”
首先,我们来解答两个问题:
首先,什么是Gemma 3n?
Gemma 3n是谷歌利用MatFormer架构打造的轻量化端侧大模型,借由嵌套式结构实现了低内存消耗设计,目前官方一共推出了5B(E2B)和8B(E4B)两种型号,但通过架构创新,其VRAM占用与2B和4B相当,最低只要2GB。
(图源:Google)其次,Gemma 3n能做什么?
不同于常规的文本剪裁模型,Gemma 3n原生支持图像、音视频等多种输入模态,不仅可以实现自动语音识别(ASR)和自动语音翻译(AST),甚至可以完成各种图像和视频理解任务。
(图源:Google)原生的多模态、多语言设计,确实非常适合移动端侧设备。
最后,我要怎样做,才能用上Gemma 3n呢?
放在六个月前,想在手机上部署端侧大模型其实是一件异常复杂的事情,往往还要借助Linux虚拟机的帮助才能实现,雷科技曾经还为此推出过一篇教程,因此大家会有这样的疑问也是很合理的。
但是现在,就没有这个必要了。
(图源:Google)Google在上个月低调上线了一款新应用,名为Google AI Edge Gallery,支持用户在手机上直接运行来自Hugging Face平台的开源AI模型,这是Google首次尝试将轻量AI推理带入本地设备。
目前该应用已在Android平台开放下载,感兴趣的读者可以直接前往Github进行体验。在完成大模型加载后,用户就可以利用这款应用实现对话式AI、图像理解以及提示词实验室功能,甚至可以导入自定义LiteRT格式模型。
无需联网,直接调用手机本地算力完成任务,就是这么简单。
实测:确实更适合移动设备
接下来,就轮到万众期待的测试环节了。
如图所示,谷歌为这款应用默认准备了四款模型,其中有自家的Gemma系列,也有来自通义千问的Qwen系列,我们选择了目前最强的Gemma 3n-4B和通义千问的Qwen2.5-1.5B以及额外部署的Qwen3-4B GGUF进行测试。
首先是经典的草莓问题:
这一题看起来简单,却实实在在难倒过诸多AI大模型。
实测下来,没有深度思考能力的Gemma 3n-4B和Qwen2.5-1.5B依然会回答“2个”,有深度思考能力的Qwen3-4B GGUF则能够给出正确答案“3个”,只是莫名其妙的反复思考让它整整生成了两分半钟,还挺浪费时间的。
(图源:雷科技,从左到右:Qwen2.5、Gemma 3n、Qwen3)从结果来看,小参数确实会显著降低模型的逻辑思考能力,深度思考功能可以在一定程度上降低AI幻觉产生的可能性,但也因此会增加生成所需的时间。
然后是一道比较简单的误导问题:
事实上,这是出自陶渊明《归园田居·其三》的首句诗,并没有前一句,正好能看看这几款小参数模型是否存在为了回答问题编造数据的现象。
有趣的是,这次只有Qwen2.5-1.5B给出了原诗句,但是没有给出否定的答案;而Qwen3-4B GGUF根本就是答非所问,Gemma 3n-4B则编出了根本不存在的诗句,甚至不符合古诗词韵律。
(图源:雷科技)然后是一道地理常识问题:
这个问题主要测试模型对特殊地理位置和现象的理解,满足学者运动轨迹的地方只能是北极,因此这头熊自然是白色的北极熊。
结果呢,Qwen2.5-1.5B在进行了一段毫无逻辑的分析后,给出了错误的答案;Gemma 3n-4B和Qwen3-4B GGUF则能够顺利给出正确的答案,需要注意Qwen3-4B GGUF因为思考消耗token太多导致答案没有完全生成的现象,这在整段测试中都很常见。
(图源:雷科技)然后是一个简单的文本处理任务。
具体来说,我这边提供了600字左右的文章引言,希望他们能够给出对应的文章总结。
其中,Gemma 3n-4B和Qwen3-4B GGUF都算是能完成任务的,不过因为Gemma 3n-4B原始语言是英文,因此给出的总结也是英文的,而Qwen3-4B GGUF则能够提供中文的文章总结。
(图源:雷科技)至于参数最小的Qwen2.5-1.5B,根本就给不出答复。
从以上四轮测试来看,在文本处理、逻辑推理能力上,Gemma 3n-4B和Qwen3-4B GGUF其实相差无几,但是在生成速度、回复成功率上其实是领先不少的,深度思考显然是不适合本地模型的。
不过Gemma 3n并不是单纯的文本大模型,人家可是罕有的小参数多模态大模型。
虽然语音识别目前Google AI Edge Gallery调用不了,但是图像识别人家还是有准备的,点击“Ask Image”选项,就可以通过随手拍摄或者上传照片的方式,向Gemma 3n提问。
(图源:雷科技)实测下来,目前的Gemma 3n对于动漫角色可谓一窍不通,诸如花卉识别这类应用也不精准,只有比较常见的食物、硬件这类可以识别出来,而且对图片里的元素识别其实并不算精准。
但最起码,Gemma 3n确实实现了移动端侧的多模态设计。
偏科明显,但未来可期
好了,经过我这几天的轮番折腾,是时候给谷歌这个Gemma 3n下个结论了。
总的来说,这玩意儿给我的感觉是“偏科明显,但未来可期”。
在最基础的文本问答和逻辑能力上,它的表现只能算中规中矩,部分逻辑测试中的表现显然不如支持深度思考的Qwen 3-4B,但是比起目前手机上常见的Qwen2.5-1.5B还是有明显提升的。
但它的优点也很突出,那就是快,Gemma 3n-4B的响应速度明显要比Qwen 3-4B快很多,没有深度思考就意味着它没那么吃性能,跑起来显然更稳定,基本能够做到100%的生成响应率。
(图源:Google)至于结果对不对...那是模型能力的问题。
至于它的核心卖点——离线图像识别,能力确实有,但也就停留在“基础”层面,识别个物体、提取个文字还行,想让它理解复杂场景就有点难为它了。而且,原生英文的底子让它处理复杂中文时偶尔会冒出点bug,这点得注意。
总的来说,Gemma 3n并没有带来那种颠覆级的体验,更像是在性能和多功能之间做出的一个谨慎妥协。
这大概就是端侧小模型现阶段特有的弊病吧:什么都会一点,但离真正的“全能”还有一段路要走。