在英伟达独霸人工智能芯片市场的这些年里,客户始终翘首以盼,希望能有更多竞争者出现。如今看来,一个实力最强的替代选择,或许一直就潜藏在我们的视线之中。
10年前,谷歌发布了张量处理单元(TPU),旨在提升其搜索引擎的速度与效率。此后,该芯片经调整,开始用于执行谷歌AI应用中的机器学习任务。
如今,谷歌TPU正逐步打开市场,屡获大单。这表明,对于训练和运行当今复杂的大语言模型,它已能作为英伟达AI加速器(即图形处理器GPU)的可靠替代品。
下文将对TPU进行详细解析:其工作原理是什么?又有哪些优势与局限?
GPU与TPU有什么区别?
两类芯片皆可胜任AI模型训练中的海量计算,然而实现路径截然不同。英伟达GPU最初是为逼真渲染游戏画面而生,凭借数千个计算“核心”实现多任务并行处理。这套架构也让它在执行人工智能任务时,速度达到了其他技术难以企及的水平。
TPU则是专为AI领域的核心运算——矩阵乘法量身打造。无论是OpenAI的ChatGPT,还是Anthropic PBC的Claude,这些聊天机器人之所以能对指令生成回应,关键在于背后的神经网络训练,而矩阵乘法正是训练过程中的核心操作。这类运算大多需要重复执行且需按顺序推进,而非并行处理,TPU的设计初衷便是高效完成这类任务。相较于英伟达GPU,TPU的适应性较弱、专业性更强,但在运行特定任务时能耗更低;而英伟达GPU虽具备更强的适应性与可编程性,此种灵活性却也推高了其运行成本。
TPU如何成长为人工智能领域的有力竞争者?
谷歌于2013年着手研发首款TPU,两年后产品问世。该芯片最初仅用于提升搜索引擎的速度与效率;直至2018年,谷歌方才将其部署至云平台,使客户能够调用这项曾驱动其搜索引擎的技术,享受计算服务。
此外,TPU也被应用于谷歌内部的AI研发。随着谷歌及其DeepMind部门开发出Gemini等尖端AI模型,来自AI团队的经验得以反哺TPU芯片设计师,后者则据此对芯片进行定制化优化,从而与内部AI团队形成了技术迭代的良性循环。
谷歌于今年4月发布了其最新一代TPU,代号“Ironwood”。该芯片采用液冷设计,专为运行AI推理工作负载(即使用已训练好的模型,而非训练模型)而打造。它提供两种组态:一种小规模组态由256颗芯片组成,另一种大规模组态则搭载了9216颗芯片。
券商Seaport的分析师杰伊·戈德堡(Jay Goldberg)对英伟达股票给出了罕见的“卖出”评级,他指出,在某些AI任务中TPU性能优于GPU,因为谷歌可以“剔除芯片中大量非针对AI设计的部分”。如今该产品已迭代至第七代,谷歌通过提升其性能、增强算力并降低能耗,从而显著压低了运行成本。
哪些企业需要TPU?
目前TPU的客户已涵盖OpenAI联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)去年创立的初创公司“安全超级智能”(Safe Superintelligence),以及Salesforce、Midjourney和Anthropic等公司。
根据10月公布的一项协议,Anthropic将通过多达100万个TPU,获取超过10亿瓦(1吉瓦)的谷歌算力。次月,据报道,Meta Platforms Inc.正就于2027年在其数据中心使用谷歌TPU的事宜进行洽谈。
这些动态清晰表明:面对算力需求的激增,各大人工智能企业正争相扩充计算资源,而TPU已成为它们的重要选择。
TPU的市场增长前景如何?
目前,头部AI开发商正斥资数百亿美元采购价格高昂的英伟达芯片,同时它们迫切希望降低对单一供应商的依赖,并缓解芯片短缺带来的冲击——这为TPU开辟了广阔的潜在市场。
现阶段,企业若想使用谷歌TPU,必须通过订阅谷歌云服务来租用算力。但这种模式或许很快将迎来改变。彭博行业研究的分析师指出,与Anthropic的合作协议,让TPU向其他云平台拓展的可能性大幅提升。
包括谷歌在内,目前尚无任何企业准备完全取代英伟达GPU——人工智能技术的发展速度决定了这在当下并不现实。Gartner分析师高拉夫·古普塔(Gaurav Gupta)解释道:“即便拥有自研芯片,谷歌仍是英伟达的核心客户之一,因为它需要为客户保留技术灵活性。一旦客户的算法或模型调整,拥有更强通用性的GPU能更好地适配各类工作负载。”英伟达发言人则表示:“英伟达的技术领先行业一代。我们为谷歌的成就感到高兴——他们在AI领域取得了卓越进展,而我们也将继续为谷歌提供产品支持。”
然而,即便是那些已签约采用TPU的科技公司,也仍在巨资投入英伟达芯片。例如,Anthropic在与谷歌达成TPU合作仅数周后,便宣布了与英伟达的一项重大交易。对谷歌TPU而言,最理想的结果,或许是最终能成为驱动AI增长所需的“多元算力组合”中的关键组成部分。编辑/陈佳靖