苹果另辟蹊径:利用“归一化流”技术打造AI生图模型
创始人
2025-06-24 07:43:26

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

IT之家 6 月 24 日消息,业界通常使用扩散模型或自回归模型来研发AI生图模型,苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流(Normalizing Flows)技术路线研发相应模型。

据介绍,这一“归一化流”技术是一种通过学习数学变换的方式,将真实世界的数据(如图像)转换成结构化噪声,并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率,这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见,原因在于其研发成本更高,同时早期采用相应技术生成的模型往往相对模糊、缺乏细节

IT之家参考苹果公司《Normalizing Flows are Capable Generative Models》论文,其推出一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流技术模型,该模型的核心思路是将一张待生成的大图拆成“小区块”,再以相应区块为单位进行生成一系列像素值,每一块图像像素值的生成都依赖于前面已生成的部分,继而形成完整的图像,因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。

当然,TarFlow在生成高分辨率图像方面仍存在局限,这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

参考这篇论文,苹果在TarFlow的基础上进一步提出了增强版本:STARFlow(Scalable Transformer AutoRegressive Flow)

该模型最大的改进在于,它不再直接在像素层面生成图像,而是在“潜空间”(latent space)中工作,首先生成图像的压缩表示,再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值,而是先处理图像的大体结构,细节部分留给解码器进行补充,从而在不损失质量的前提下提升生成效率

此外,STARFlow还改进了对文本提示的处理方式。它不再内建专用文本编码器,而是支持调用现有语言模型(例如谷歌推出的小语言模型Gemma,理论上可以直接在设备上运行)来处理用户的语言指令。这样一来,模型的图像生成部分可以专注于图像细节的生成与优化。

相关内容

热门资讯

一场精准的“政策捕捉” 传鼎晖... 观点网 上海苏州河畔,一幢服务式公寓悄然易主,掀开了住房租赁行业生存逻辑变革的一角。最新消息显示,1...
低利率时代理财变局:存款“搬家... 2025年5月,国有六大行定期存款一年期利率集体跌破1%关口;11月,五年期大额存单从多家银行产品列...
“万能”止痛药布洛芬,千万别乱... 转自:健康中国生活中,头疼、牙疼、关节痛等各种疼痛时常找上门,很多人会下意识地掏出布洛芬来缓解。虽然...
中芯国际:拟购买中芯北方49.... 中芯国际公告称,公司拟向国家集成电路基金等5名中芯北方股东发行股份购买其所持有的标的公司49.00%...
全球首艘万吨级近海新能源散货船... 滨州日报/滨州网讯 12月29日,全球首艘万吨级近海新能源散货船“魏桥绿动1”轮首航仪式在滨州市套尔...