
Nvidia面临着一个重大挑战。当前流行的生成式AI工作负载,如代码助手和智能体系统,会产生大量Token并需要高速处理。但这家GPU巨头的芯片目前在这方面表现不足。
这种情况将在下周开始改变,届时Nvidia首席执行官黄仁勋将在公司的GPU技术大会(简称GTC)上解释他将如何利用去年底收购新兴公司Groq时获得的Token高速处理加速器技术。
市场观察公司SemiAnalysis的最新InferenceX基准测试显示,Groq的技术如何填补Nvidia当前产品组合的空白。
InferenceX的效率帕累托曲线可分为三个主要类别:左侧的批量Token、右侧的昂贵低延迟Token,以及中间所谓的"黄金区域"。
虽然Nvidia的NVL72机架系统在较低的每用户Token生成率下扩展性良好,但随着用户交互性增加,效率会逐渐降低。
相比之下,像Groq和Cerebras所推崇的SRAM重型架构,在延迟敏感场景中表现出色,能够实现每秒超过500甚至1000个Token的生成速率。这远超GPU架构所能提供的Token数量。
事实上,正是凭借这种能力,Cerebras在今年早些时候赢得了OpenAI的业务,为其Codex模型提供动力。直到Nvidia在12月以惊人的200亿美元收购了Groq的知识产权和人才,该公司才拥有与Cerebras匹敌的技术。
通过将其GPU技术和CUDA软件库与Groq的数据流架构相结合,Nvidia有机会大幅提升帕累托曲线,降低每Token成本,同时提高输出速度。
将Nvidia的CUDA硬件栈扩展到包含Groq的数据流架构并非易事。在GTC上,Nvidia可能会宣布相对快速地为Groq现有架构提供有限支持。
更多硅芯片产品
本届GTC感觉有些不同,因为Nvidia已经在1月的CES上提前透露了其Rubin GPU的消息。
回顾一下,Rubin配备了高达288GB的HBM4内存,带宽达22TB/s,根据用例不同,提供35-50 petaFLOPS的密集NVFP4性能。
这次发布代表着相比Nvidia当前Blackwell一代产品的重大性能提升,提供5倍的密集浮点吞吐量。到目前为止,Nvidia已宣布这些芯片将在八路HGX平台或其NVL72机架系统中提供,顾名思义,后者将72个Rubin SXM模块装入单个系统中。
还有Rubin GPX,这是在2025年6月的Computex上宣布的,将装入选定的NVL机架中,为大上下文和视频处理工作流程提供额外的计算能力。
我们预计黄仁勋会重点强调其不断增长的GPU产品组合所带来的性能优化和效率提升。但随着这些GPU变得越来越热——估计Rubin的热设计功耗达到1.8kW甚至更高——液体冷却不再是可选项。一些买家可能会对这一要求望而却步,这将有利于AMD及其风冷设备。
然而,考虑到Rubin架构带来的代际提升,没有什么能阻止Nvidia发布单芯片、风冷版本的芯片,配备五或六个HBM堆栈而非八个。这样的芯片仍能提供比Blackwell高2.5倍的性能提升——而且无需液体冷却。
这只是推测,但我们有一种预感,可能会在下周的庆典中看到类似的产品。
强大的Vera核心
除了最新的数据中心GPU,我们预计会看到Nvidia独立Vera CPU的更多细节。
Vera在去年的GTC上首次亮相,配备88个定制Arm核心,增加了同步多线程支持和一系列此前仅在x86平台上可用的机密计算功能。
到目前为止,我们只看到该CPU作为Nvidia Vera-Rubin超级芯片的一部分进行封装。然而,我们后来了解到Nvidia将提供独立处理器版本,在某些主流应用中与Intel和AMD竞争。
此前,Nvidia曾提供Grace CPU超级芯片,但这些主要用于超级计算机和其他HPC应用。然而,上个月这家GPU巨头透露Meta将成为其首个大规模部署Grace的合作伙伴,该社交网络公司已在评估Vera CPU在其数据中心的使用情况。
设定期望
除了新的数据中心硅芯片,我们还预计黄仁勋将分享更多关于Nvidia下一代Kyber机架和Feynman GPU的细节,这些产品预计将在2027年和2028年首次亮相。
我们首次在去年的GTC上看到Kyber。这个600kW的庞然大物将在标准机架外形规格中容纳144个GPU插槽,每个插槽配备四个Rubin Ultra GPU芯片。
Nvidia披露Kyber的存在部分是因为数据中心运营商已经在应对前一年宣布的120kW NVL72系统时遇到困难。通过透露Kyber,Nvidia为数据中心物理基础设施供应商点燃了一把火,让他们能够在2027年前配备支持此类系统所需的电源和冷却设备。凭借年度发布节奏,Nvidia不能等待行业其他部分跟上——它必须提前几年传达其下一步行动。
距离Feynman只有两年时间,我们怀疑黄仁勋可能会重复这一做法,设定新的功率和冷却目标,可能超过每机架一兆瓦。
Nvidia会给游戏玩家一些好消息吗?
长期以来,人们一直传言Nvidia正在开发用于PC的基于Arm的系统芯片。
能够胜任这项工作的部件去年以DGX Spark和GB10合作伙伴系统的形式出现。然而,到目前为止,原始设备制造商只在运行Linux的工作站级迷你PC中使用这种芯片。最近的报告显示,Nvidia正在与联想和戴尔等公司合作,将类似产品引入Windows PC市场。
正如我们之前报道的,Nvidia还在与Intel合作,将其GPU芯片集成到Intel的下一代处理器中。
GTC似乎是给游戏玩家一些好消息的好时机,让Nvidia在专业可视化市场的副业之外有新的市场可以追逐。
集成的Nvidia显卡可能不是许多人希望在CES上看到的RTX 50 Super系列卡,但考虑到内存市场的状况,它们不太可能在GTC上亮相。
OpenClaw、机器人技术和其他一切
除了大型硬件和消费级硬件的远程可能性,你可以肯定OpenClaw将成为GTC的主要话题。
黄仁勋显然非常喜欢这个智能体框架,尽管它存在许多安全漏洞,据报道他将其描述为"可能有史以来最重要的软件发布"。
据报道,该公司正在开发自己的、可能更安全的平台版本,名为NemoClaw。
说到claw,我们还期待看到更多机器人登台亮相。自近两年前宣布其Isaac GR00T机器人平台以来,Nvidia已推出了稳定的新工具包、框架和硬件开发平台供应,旨在为生成式AI赋予物理形态。
为了教会它们在不可预测的世界中运作,你可以指望Nvidia的Omniverse数字孪生平台再次出现。该平台于2019年在元宇宙热潮兴起时推出,旨在创建一个虚拟环境,在其中可以在现实生活实施之前在数字世界中模拟物理过程。
开发者此后已将Omniverse集成到各种仿真平台中,包括用于设计和构建AI数据中心的平台。
El Reg将在下周前往圣何塞参加GTC,为您带来这个已成为世界上最受关注的技术会议之一的最新消息。
Q&A
Q1:Groq技术对Nvidia有什么重要意义?
A:Groq的SRAM重型架构在延迟敏感场景中表现出色,能够实现每秒超过500甚至1000个Token的生成速率,这远超GPU架构所能提供的Token数量。通过将GPU技术和CUDA软件库与Groq的数据流架构相结合,Nvidia有机会大幅提升效率,降低每Token成本。
Q2:Rubin GPU相比Blackwell有什么性能提升?
A:Rubin配备了高达288GB的HBM4内存,带宽达22TB/s,提供35-50 petaFLOPS的密集NVFP4性能。这次发布代表着相比Nvidia当前Blackwell一代产品的重大性能提升,提供5倍的密集浮点吞吐量,但估计热设计功耗达到1.8kW甚至更高。
Q3:Vera CPU有什么特色功能?
A:Vera配备88个定制Arm核心,增加了同步多线程支持和一系列此前仅在x86平台上可用的机密计算功能。Nvidia将提供独立处理器版本,在某些主流应用中与Intel和AMD竞争,Meta已经在评估Vera CPU在其数据中心的使用情况。
盛达优配提示:文章来自网络,不代表本站观点。