转自:学习时报
李国杰,中国科学院计算技术研究所研究员、首席科学家,中国工程院院士,第三世界科学院院士。研究方向为计算机体系结构、并行算法、人工智能、计算机网络、信息技术发展战略等。曾任国家智能计算机研究开发中心主任、中国科学院计算技术研究所所长、中国计算机学会理事长、国家信息化专家咨询委员会信息技术与新兴产业专委会副主任。记者:近期,ChatGPT、DeepSeek等生成式AI爆发式发展,有观点认为,这意味着人类已接近实现通用人工智能,您怎么看待?
李国杰:通用人工智能(AGI)指AI在多个领域具备人类同等智能水平解决复杂问题的能力,这一概念尚未形成广泛共识。许多学者认为智能是在知识和资源相对不足的情况下,一个系统的适应能力,并能够应对设计者预料之外的情况,才叫“通用”。因此,学术界更关注智能系统的持续学习、自我改进能力以及与外部世界基于常识和经验互动的能力,而不仅仅是其语言处理能力。简单宣称“接近实现AGI”缺乏实际意义,关键在于如何定义AGI。
近几年,生成式人工智能发展迅猛,我们正在迎来人工智能第三次浪潮的高峰期。斯坦福大学《2024年人工智能指数报告》明确指出,机器学习大模型在图像分类、视觉推理及英语理解等方面的表现已超过人类。聊天机器人和其他智能软件正在改变我们的工作和生活。AI驱动的科学研究作为科研第五范式,也展现出惊人潜力。比如DeepMind的AlphaFold3已成功预测地球上已知的超两亿种蛋白质的三维结构,有望颠覆当前的药物研发模式,其发明者获得了2024年诺贝尔化学奖。人们相信,智能技术的指数性发展一定会加速通用人工智能的到来,但自适应性、持续学习及与外界互动等问题仍需克服。
人工智能是对人类智能某方面的再现和超越,其通用性是相对的,需基于特定条件或范围。大模型追求的AGI只是众多通用目标的一种。我们要认识人工智能的局限性,不能盲目追求天下通吃的人工智能,重点还是要根据实际需求,将相对通用的人工智能技术落地到各行业,让一定范围内的人工智能技术见到实效。
实现通用智能是一个渐进过程,不会因某项技术的发明就突然到来。尽管当前AI的通用性比前两波有显著提高,但距离真正的通用智能还有较大差距。在某些应用中通过图灵测试只是阶段性成果,发展既通用自主又安全放心的人工智能仍是巨大挑战。
记者:您认为推动这轮AI突破的核心要素是什么?
李国杰:这是整个信息技术发展和成熟的结果。神经网络模型早在1943年就已提出,但在算力和数据充分丰富的今天,才真正释放威力。一是集成电路和超级计算机带动并行计算技术走向成熟,使得算力提升了万亿倍,为人工智能的突破提供了足够的计算能力;二是互联网催生数据量爆炸式增长,使得人类已知的全部可数字化的知识都可以被机器学习吸收;三是人工智能前60年的科研红利发挥了作用,符号主义人工智能为数字化基础设施的形成作出了不可磨灭的贡献。可以说,人工智能的复兴不仅是神经元模型和深度学习等智能算法的胜利,也是计算技术的胜利、互联网的胜利、摩尔定律的胜利。
与前两波人工智能不同的是,统计推理在第三波人工智能中发挥了核心作用。基于大数据和神经网络模型的统计推理是生成式人工智能的核心技术,在机器学习和强化学习模型的训练和优化过程中发挥了关键作用。冯·诺伊曼最早认识到神经元模型不同于图灵机模型,他指出:“信息理论包括两大块:严格的信息论和概率的信息论。以概率统计为基础的信息理论大概对于现代计算机设计更加重要。”从目前大模型取得的成功来看,冯·诺伊曼的预言已经变成现实,计算模型的改变是隐藏在辉煌成果后面的本质原因。
记者:有人将AI突破完全归功于大模型,您是否认同?机器学习大模型的本质是什么?目前学界有哪些主要观点?
李国杰:大模型是人工智能近七十年发展的最高成就,也是实现通用人工智能的可能方向。这一波人工智能的成功离不开大模型,也离不开大数据和大算力。因此,将重大突破全归功于大模型是片面的。到达山顶的路不止一条。人工智能其本身拥有多元化的目标和多条技术路线。大语言模型是其中的重要进展,但未来还将出现更高效、节能和安全的新技术。
与传统的符号主义人工智能相比,基于神经网络和机器学习的大模型确实有颠覆性的意义。基于大模型的智能系统已经不是简单的人造工具,而是与人类认知水平接近的智能体。不管大模型会不会发展成为硅基生命,我们对大模型引发的机器智能的巨大潜力和风险要有清醒的认识。
机器学习大模型的本质是什么?至今没有答案。数学家将大模型看成高维函数的拟合器。物理学家将人工神经网络看成寻找系统最低能量的生成模型,早期的神经网络模型被称为“玻尔兹曼机”。复杂性科学家认为大模型是一个可以出现涌现行为的复杂系统,主张从了解复杂系统的规律打开缺口分析大模型。
现代信息学奠基人之一的李明和OpenAI前首席科学家伊利亚·苏茨克维等都认为,AI大模型的本质是信息压缩。输入大模型进行训练的数据量是PB级别,而得出的大模型的参数只有TB级甚至GB级,压缩了上千倍。压缩可认为是人性的一种本质特征,生物进化过程的“适者生存”也可解读为“最压者生存”。信息压缩为理解大模型的本质提供了新的视角,柯尔莫哥洛夫复杂性有望为机器学习提供新的理论基础。
AI界都在努力寻找描述世界和预测未来的模型,尽管各团队构建的模型在不同数据和结构上以不同目标进行训练,但他们正趋向于在其表示空间中形成一个现实世界的共享统计模型。麻省理工学院的研究显示,大模型内部出现了类似人类大脑“脑叶”结构和“语义晶体”。这一发现为大模型的基础研究提供了新的线索。
大模型目前还是一个“黑盒”,其涌现能力像20世纪初物理学上空的“两朵乌云”般难以解释,这正是划时代理论突破的前兆。学界正致力于揭开其神秘面纱,使之变为“白盒”,至少变成“灰盒”。同时尽量努力把人类向善的价值观赋予智能机器,实现以人为本的人机协作。
记者:近期,国内DeepSeek推出了性能优越且成本效益高的新模型,引起全球轰动。这类探索是否代表中国AI从应用创新向基础创新跨越?您如何评价这类“小而精”模型与通用大模型的差异化价值?
李国杰:DeepSeek的推出成为世界人工智能发展史上的一个标志性事件,不仅创下了全球用户增长速度的新纪录,还引发了市场对相关硬件需求预期的调整。例如,英伟达的股价短期内有所波动,反映了市场对新兴技术可能带来的行业变革的敏感性。这也表明中国科技公司在全球最关注的核心技术领域,正通过持续创新重塑世界既有格局。
DeepSeek为在受限资源下探索通用人工智能开辟了新的路径。传统大模型通常从广泛的通用能力出发,逐渐向特定应用场景优化。相比之下,DeepSeek采取了一种不同的策略,通过专注于特定任务或领域,逐步扩展其通用能力。这种方法有助于推动人工智能技术生态的发展,并促进通用人工智能的社会共享。“小而精”模型将AI的应用重点从面向企业转向面向消费者,从广泛覆盖转变为深度优化,让更多的中小企业参与,可能会创造更大的市场空间。这种“垂直深潜”策略与通用大模型的“横向扩展”互为补充,共同构建智能时代的创新生态。
长期以来,中国AI企业侧重于应用和商业模式创新,追求快速盈利,较少涉足核心技术的原创性突破。与西方发达国家相比,我们真正的差距不在于资金或硬件的短缺,而在于缺乏原创技术和发明,以及在增强信心和有效组织高水平人才进行创新方面的能力不足。随着经济的发展和技术的积累,中国企业逐渐增强了原创研发能力。DeepSeek带了一个好头,他们把探索通用人工智能的实现之路作为奋斗目标,并吸引了一批充满创新热情和好奇心的年轻博士加入。这些90后的中国青年展现出与西方同行平等对话的信心和“敢为天下先”的勇气,成为中国科技自主创新能力发展的希望。
记者:大模型的“规模法则”是否已接近极限?是否仍是AI发展的金科玉律?
李国杰:在AI领域,“规模法则”(Scaling Laws)被一些人认为是公理,俗称为“大力出奇迹”,OpenAI等企业和美国AI投资界把它当制胜法宝。但是,“规模法则”不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。从科学研究的角度看,属于一种对技术发展趋势的猜想。从投资的角度看,属于对某种技术路线的押注。把一种信仰或猜想当成科学公理,不是科学的态度。
强化学习之父理查德·萨顿曾力挺“规模法则”,在其博文《苦涩的教训》中总结AI的发展史:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案。”但是他这两年对“规模法则”进行了深刻反思,认为虽然“规模法则”在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,这些能力往往难以通过简单地增加算力来实现。
GPT-5迟迟不能问世,可能表明规模扩张的效果已经减弱。图灵奖得主杨立昆和伊利亚·苏茨克维等人直言,“规模法则”已触及天花板。DeepSeek的出现,更逼迫AI界严肃地思考这一技术发展路线问题:是继续烧钱豪赌,还是另辟蹊径,在算法优化上下更多功夫。DeepSeek的成功似乎预示着“小力也可出奇迹”,或者说“算法和模型架构优化也可以出奇迹”。随着时间的推移,AI扩展方法也在发生变化:最初是模型规模,后来是数据集大小和数据质量,现在是推理时间和合成数据。
但现在就说“规模法则”已经走到尽头,也没有根据。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距。继续扩大神经网络的规模和增加训练的数据量,是否还能取得与投入相称的回报,还要看今后的实际效果。
记者:算力、数据、算法被视为AI三大支柱。中国在算力基建(如“东数西算”)上投入巨大,但高端芯片、高质量数据集等仍受制约。如何构建自主可控的AI基础设施生态?
李国杰:发展人工智能需要充足的算力和高质量数据,必须构建自主可控的AI基础设施生态来保障资源供给。美国的AI基础设施是基于英伟达的GPU建立起来的。我国的人工智能加速芯片,如华为的昇腾、海光的DCU和寒武纪的芯片与GPU芯片的硬件性能差距并不是很大。英伟达的核心优势在于CUDA软件生态及NVLink和InfiniBand高速互联,其中CUDA生态最难攻克。DeepSeek虽冲击了CUDA生态,但没有完全绕过CUDA,CUDA的生态壁垒仍然存在。从长远来讲,我们需要开发一套比CUDA更优秀的自主可控的AI软件工具系统。像取代Wintel和ARM+Android系统一样,就是要重构软件生态系统,这是一项十分困难的任务,需要周密的规划和长期努力。国家应该下决心组织全国的开发力量,充分调动上下游企业的积极性,完成这件关于国家发展和安全的大事。
信创工程对推广国产化芯片和软件有重大的推动作用,但产业生态的形成主要靠市场牵引。国家要通过政策引导,鼓励在PC、手机和物端设备上推广AI应用,扩大“国产大模型+国产GPU”应用空间,增强国产GPU、CPU和软件的市场份额。高度重视芯片设计和大模型的开源战略,争取我国在全球AI开源系统中起到主导作用。
GPU芯片可能会在市场上延续相当长的时间。从长远来看,GPU并非终极方案,针对一类AI应用的专用芯片也可能成为主流,AI加速芯片将来可能进入多芯片竞争的XPU时代。Groq的LPU推理性能已达GPU的10倍,其单芯片能实现每秒250万亿次整数运算,延迟低于1微秒。算力是AI基础设施的重要组成部分,我们既要攻关ZFlops级的超算,也要探索类脑计算、光子计算等新范式。为了降低能耗,模拟计算、类脑计算、碳基计算等非传统计算肯定是重要的研究方向。
记者:数据被称作新时代的“石油”,但高质量数据的获取越来越难,AI发展会面临数据枯竭吗?未来应如何应对这一挑战?
李国杰:确实存在隐忧。现阶段人工智能的主流是数据智能,从某种意义上讲,没有数据就没有智能,数据已成为AI技术进步的关键。有专家预计,2026年现存高质量语言数据将耗尽,合成数据将成为关键突破口。因此,行业正从“大数据”转向“好数据”。未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与路况数据、具身智能训练所需要的复杂场景数据等。对于许多实际应用来说,拥有50个精心设计的样本足以让神经网络学习所需知识,例如缺陷检查系统。
在医疗、工业控制、金融等垂直领域,优质数据更依赖于人工标注,往往需要高素质的专业人员。因此,数据标注不完全是劳动密集产业,其大有发展前途。为此,我国应把握数据标注产业升级的机遇,发展AI辅助标注技术,建立和完善行业数据标准,推动数据标注向技术密集型转变。DeepSeek等企业的实践证明,优化数据质量比单纯增加数量更有效。
记者:可解释性与自主性是AI发展的两大目标,但二者似乎存在矛盾。您如何看待这一问题?
李国杰:人们希望AI系统具备自主性以适应复杂环境,但完全自主可能导致失控,因此可控性至关重要,但可控的人工智能一定是可解释的。因此,实现既自主又可控的AI,需要新的治理哲学。
要解决两者之间的矛盾,必须对自主和可控设立一定的界限,不能追求绝对的自主和绝对的可控。一是允许“边做边看”的适度黑箱,不必强求绝对的可解释性。二是对不允许做的自主AI技术明确立法限制,可参照核武器和基因编辑技术的管控。自主性和可控性如同汽车的油门与刹车,只有建立动态平衡机制,才能实现“有限自主、可靠可控”的智能系统。
记者:最后,您对AI基础研究有何展望?
李国杰:人工智能的基础理论源于半个多世纪前的科学成就。近年来的发展主要得益于工程技术的突破,而非基础理论的重大突破和新方向的开辟。在现有的研究方向上添砖加瓦、修修补补,可能只会有渐进式的发展,需要解放思想、另辟蹊径,走前人没有走过的新路。独创性的长周期的基础研究往往是热情和好奇心驱动的研究,只有改变完全靠论文和“人才帽子”驱动的科研文化,基础研究才会走上良性发展的道路。
被誉为AI教父的杰弗里·辛顿,从提出反向传播算法到探索“凡人计算”,为人工智能的基础研究树立了榜样。“凡人计算”是一种新型计算范式,颠覆了硬件与软件分离的传统计算模式,采用与人脑一样的存算一体模拟计算方式,从而显著降低能耗并提高效率。这类研究短期内效果不明显,但有望带来重大突破。
下一篇:凝心聚力促发展 携手共绘同心圆