今天凌晨,英伟达年度GPU技术大会(以下简称:GTC)上,老黄开场时直言,“去年GTC被称为AI行业的‘伍德斯托克摇滚音乐节’,今年我们搬进了体育场成为AI行业的‘超级碗’”。
这个“喜欢穿皮夹克、把事情重复三次的人”科技大佬,一口气讲了2个多小时,介绍了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。
AI的发展已经从生成式AI(Generative AI)迈向智能体AI(Agentic AI),后面将是影响物理世界的Physical AI。重点是,这一过程对算力的需求不仅不会下降,还会进一步增长
今年春节前后,横空出世的DeepSeek就打破了英伟达引以为傲的“壁垒”,与动辄数亿甚至上百亿美元的国外大模型项目相比,DeepSeek以极低的算力成本完成了开发。整个科技圈都在发问:“我们真的需要这么多GPU吗?”
Perception AI(感知人工智能)、Generative AI(生成式AI)、Agentic AI(智能体)、Physical AI(具身AI)
生成式AI阶段多聚焦于理解,比如让机器知道一段文字表达什么意思,以此来生成图片、视频,而Agentic AI阶段更聚焦于推理,强调的是机器的自主性与复杂问题解决能力,每一步都需要用到“模型推理”。
为了解释这点,黄仁勋现场举了一个例子:“在我的婚宴上,需要7个人围着一张桌子坐,我的父母和岳父岳母不应该坐在一起。而且,我媳妇坚持说她坐在我左边照相时会更好看,但同时我需要坐在伴郎旁边。我们这一轮怎么坐?如果我们邀请牧师和我们坐在一起呢?”
把这一段提示词丢给代表两种技术范式的开源模型——Llama3.3和DeepSeek-R1,看它们所消耗的tokens(指模型处理文本时的基本单位)分别是多少?
最后的结果是:Llama3.3作为上一代大语言模型,用不到500个tokens快速回答,但安排的客人座位并不满足要求;R1作为推理模型,用掉8000多个tokens得出了正确答案
。两者的差别在于,前者的大语言模型只尝试了一次,后者的推理模型尝试了所有不同的可能性,然后反思、验证了自己的答案。
黄仁勋认为,推理所需算力需求规模增长能“轻松超过现在的100倍”,未来行业需要更多、性能更强的AI芯片。根据他的预测,
为了达到这一目标,英伟达发布了新款DGX Spark和DGX Station个人AI计算机,被称为“AI时代的超级计算机”,由Grace Blackwell平台支持。
其中,DGX Spark搭载GB10 Blackwell芯片,提供第五代Tensor Core和FP4支持,配有128GB统一内存和高达4TB的NVMe SSD存储,AI计算能力高达每秒1千万亿次运算,今日开启预订,售价3000美元起。
DGX Station可容纳GB300 Blackwell Ultra芯片,能提供每秒20千万亿次运算的AI性能和784GB统一系统内存,目前尚未定价。
为优化AI工作流程,英伟达还推出新的Spectrum-X硅光子以太网交换机,属于Spectrum-X光子以太网和Quantum-X光子InfiniBand平台。该交换机每端口速度达1.6太比特每秒,能为AI工厂节省3.5倍能源,提高10倍弹性。
另外还发布了一款新型的AI 推理服务软件Dynamo。它协调和加速数千个GPU之间的推理通信,并使用分解服务将大型语言模型的处理和生成阶段分离在不同GPU上。这允许每个阶段根据其特定需求进行独立优化,并确保最大程度地利用GPU资源。
。它采用双系统架构,灵感源于人类认知原理,在视觉语言模型支持下可执行多种任务,开发人员能从少量人类演示中生成大量合成动作数据,用于机器人操作训练。
比如,NVIDIA使用Blueprint的首批组件,在11小时内生成了78万个合成轨迹,相当于6,500小时(约9个月)的人类演示数据。Isaac GR00T N1的相当一部分数据就来自于此,这些数据使得GR00T N1的性能比仅使用线%。
0 条