2023年,英伟达几乎一整年都在关注高端显卡、AI大模型、超级计算等数据中心业务,以至于市场都快要忘记英伟达在PC市场上也是垄断全球市场的硬件“军火商”。
事实上,在数据中心业务中赚得盆满钵满的同时,英伟达并没有忘本,黄仁勋早已开始盘算,如何用AI到“电竞椅和办公桌”上去赚钱了。
一系列PC端的GPU产品和应用,全部围绕本届CES上PC厂商们最关注的话题AIPC。然而,对于一心扑在AI上的英伟达来说,对PC用户的“关心”,还保留了多少呢?英伟达对业界热炒的AIPC到底是什么态度?
事实上,在2023年AI大模型爆发以前,英伟达最大的市场一直是PC端的“游戏”板块。
英伟达从2015年开始把主营业务分为游戏(Gaming)、企业(Enterprise)、高性能计算和云(HPC & Cloud)、自动驾驶(Automotive)几个板块。也是自2015年起,超算和云,也就是未来的数据中心业务,开始在英伟达的营收中一步步走向高位。
2016年,英伟达对其业务板块进行了调整,去掉了Enterprise和HPC & Cloud两个板块,取而代之的是今天的专业可视化(Professional Visualization)和数据中心(Datacenter)。英伟达还首次单独公布了这几个业务板块的营收情况。游戏业务的目标用户就是个人电脑,专业可视化的用户则多数是商业客户使用的工作站。
2016年英伟达全年的总收入为50.10亿美元。在2016年1月31日结束的财年中,英伟达的游戏业务收入为28.18亿美元;专业可视化业务的收入为7.50亿美元;数据中心业务的收入为3.39亿美元;自动驾驶业务收入为3.20亿美元。
其中游戏业务和专业可视化分别占总收入的56.25%和14.97%,今天如日中天的数据中心,在当时只占总收入的6.77%。
个人电脑市场虽然稳定,但市场似乎已经能够看到天花板了,不仅增长速度有限,且由于技术门槛不高,这一领域的市场竞争也日益激烈。
2017、2018年,AI技术首次爆发。给英伟达带来了一条新的增长曲线财年,GPU加速计算对于深度学习的支持使得英伟达的数据中心业务快速增长,当年数据中心业务的收入为193.2亿美元,专业可视化为93.4亿美元。数据中心的营收和增幅都远超专业可视化。
2023年全球个人电脑市场规模约为2040.9亿美元,预计到2024年将增长到2123.8亿美元,复合年增长率(CAGR)为4.1%。
数据中心的市场规模和增长潜力则比个人电脑更大。2023年的全球数据中心市场规模约2526.8 亿美元,比个人电脑市场规模大了约20%。预计到 2024 年将增至2749.8 亿美元,复合年增长率 (CAGR) 为 8.8%。未
相比于个人电脑业务,数据中心无论是市场规模、市场竞争格局,还是用户需求、技术发展趋势,不管当下还是未来,都明显更好做,也更赚钱。
AI推动着各家公司对高算力、超级算力的需求持续上涨。2023年年中,科技博客GPU Utils对GPU短缺问题做了一次调查,博主Clay Pascal给出的调查结果称,彼时谷歌云拥有大约2.5万块H100,微软云服务Azure可能有1万-4万块H100,甲骨文的情况应该类似。Azure的大部分容量都将流向OpenAI。
英伟达在2023年第三季度售出了近50万个A100和H100 GPU,基于H100的服务器的交付周期已延长至36到52周。
在巨大的需求面前,英伟达也开始了坐地起价。在芯片行业中,高端产品的利润率通常较高,不少高端产品的利润率可达50%以上。而英伟达的高端GPU利润率高得可怕,投资银行Raymond James的消息称H100 GPU的成本只有3320美元,但英伟达卖出的价格为2.5-3万美元,利润率高达1000%。
如今英伟达a100和H100服务器的价格,在国内更是炒得离谱,2023年最后三个月,8卡H100服务器的价格上浮一度达到300万元人民币。
另一方面,英伟达在PC市场上,亦处在垄断地位。英伟达在2022年全球独立GPU市场中的市占率为88%,AMD和Intel仅占8%和4%。
更重要的是,英伟达在GPU方面丰富的产品线,可以在PC市场上长期发货优势。英伟达提供了一系列针对不同用户需求的GPU产品,包括面向游戏玩家和创作者的Ampere,以及面向数据中心的Hopper3。英伟达还构建了包括驱动程序、开发工具和应用程序在内的全面生态系统。
AI大模型目前对全球科技市场来说仍处在非常早期的阶段,未来的增长持续性到底如何,对云端服务器的需求如何都未可知。
而PC业务,在过去30年中已经走出了一条稳定的增长曲线。由此可想,虽然英伟达势必会重点投资更有利可图且增长潜力更大的数据中心业务,但一定也不会把早已站稳脚跟的PC业务市场拱手让人。
此外,英伟达还发布了生成式AI驱动的语音和动画模型在内的NVIDIA ACE微服务,使开发者能够向游戏中添加智能、动态的数字化角色。此外,NVIDIA还发布了“Chat with RTX”技术演示,它允许AI爱好者通过所谓的“检索增强生成”(RAG)技术,轻松地将PC上的大型语言模型(LLM)连接到自己的数据。
4090在一定条件下甚至有可能替代服务器级芯片。上海交通大学的研究团队就开发了一个名为PowerInfer的高性能 CPU/GPU 混合 LLM 推理引擎。这款引擎大幅降低了对 GPU 内存的需求,并减少了 CPU 与 GPU 之间的数据传输,从而提高了整体效率。可以在单个 NVIDIA RTX 4090 GPU 上运行大型语言模型(LLM),达到平均每秒产生 13.20 个 token 的速度,峰值速度更是高达 29.08 tokens/s,这与顶尖的 A100 GPU 服务器性能相差无几,仅低 18%,适用于多种 LLM 应用场景。
苹果M系列芯片提出的统一内存架构(Unified Memory Architecture, UMA),给生成式AI的预训练过程提供了一种选择。
UMA允许CPU和GPU共享相同的物理内存,减少了数据在不同内存之间的复制需求,提高效率。此外苹果的硬件优化使其设备在执行AI相关任务时能耗更低。苹果的硬件和软件高度集成的特性,也为特定的AI应用提供了更好的优化空间。
最新款Mac Studio的顶配版本,已经可以训练700亿参数的LLaMA2模型。
不过,虽然UMA具备诸多优势,但它更多地集中在苹果自己的生态系统内,与外部系统的兼容性可能有限。且相比专业的GPU,苹果的硬件可能在处理极其复杂的AI模型时有性能瓶颈。
芯片限制政策对国内服务器生产没有影响,因为不管英伟达推出什么芯片,服务器要做的只是适配NV-Link。
有消息称,拜登政府已经开始调查英伟达为中国开发的三款新型AI芯片的具体细节。美国商务部长吉娜·雷蒙多在接受外媒采访时谈道:“我们会检查每一个新芯片的每一个规格,显然是为了确保它不违反出口管制。”
1月7日,美国《华尔街日报》以“英伟达在中国的新困境,客户不想要它的降级芯片”为题,报道了英伟达为应对拜登政府出口限制,向中国出售降级版AI芯片,但中国客户不感兴趣的最新困境。
事实上,RTX40系列显卡在中国的销售也未必会一帆风顺,有消息称,目前英伟达在中国可以销售的最高端芯片为RTX 4090D,这款新芯片比RTX4090的性能低了5%左右。英伟达介绍该产品将从2024年1月起陆续在中国上市。