陈永伟/文
近日,AI算力新秀CoreWeave在自己的推特上分享了一则消息:该公司刚刚通过抵押英伟达H100GPU的方式获得了23亿美元的融资,将用这笔钱来购买更多的H100GPU,以便在年底前再建立10个新数据中心。
一位供职于国内某互联网大厂的朋友在转发该消息后评论道:以前只听说过地产公司通过抵押房子来拿贷款,然后用贷来的钱继续盖房子。这种抵押GPU借钱,再拿借来的钱继续买GPU的做法倒是第一次看到。
一般来说,同样的一件电子产品,年末时的价格会比年初低上一大截。所以几乎不会有人购买电子产品来进行保值,金融机构也很少会愿意接受电子产品作为抵押品。然而,这些经验在GPU面前失灵了。今时今日,似乎整个市场都在争抢GPU,在eBay平台上,英伟达H100GPU芯片的价格已经被炒到了每张4.5万美元,而在两三个月前,它的价格还是在3.6万美元左右。
GPU究竟是什么?为什么在AI时代,GPU会成为人们竞相争抢的硬通货?它的价值来自哪里?又能保持多长的时间?在GPU硬通货化的背后,又存在着什么更深的隐喻?且让我们一一说来。
GPU的由来
大家知道,GPU是英文图形处理器的缩写。从这个名字就不难知道,GPU原本并不是用来执行AI相关的任务,而是用来处理图形的。
从上世纪80年代开始,随着计算机辅助应用、地理信息系统等技术的发展,用计算机处理图形的需求开始出现增长。尤其是电子游戏行业的异军突起,更是为计算机图形处理培养了庞大的用户群体。然而,作为计算机处理核心的元件CPU在处理图形时效率并不高,这就导致了专业处理图形任务的计算元件的出现。
1983年,《计算机世界》杂志上刊登的一篇介绍Tek-tronix的图形终端的文章里首先出现了GPU一词。但是,此GPU非彼GPU,它的全称是graphicprocessorunit。这一类所谓的GPU虽然能够处理2D图像,但由于当时还缺乏光影转换组件,因而它们还无法独立处理3D图形,必须搭配CPU使用。直到1990年代,图形处理元件加入了T&L组件,现在人们所熟悉的GPU才正式出现。
关于究竟谁才是现在意义上GPU的发明者,业界一直存在着争议。一种观点认为,GPU的发明权应该归于美国硅图公司。1996年,SGI推出了可以实现硬件T&L的图形处理器,已经具有了现在人们认为的GPU的主要功能。不过,由于它主要是被用在任天堂的主机上,所以很多人并不愿意承认它是真正的GPU。另一种观点则认为,第一块GPU是由一家名为3Dlabs的英国公司推出的。1997年时,它在一块双芯片处理器中加入了带有T&L功能的引擎,并将这块处理器冠以了几何处理器的名字。然而,由于3Dlabs专注于CAD的狭小市场,影响并不大,因而将其认为是GPU发明者的人也不多。
相比于SGI和3Dlabs,一个认可度更高的GPU发明者是英伟达。在上世纪90年代的半导体市场上,英伟达其实算是一个后来者。当时,这个市场上的基本格局是AMD和英特尔两大巨头对峙,而它们争夺的焦点是CPU。在那几年中,英特尔的奔腾系列CPU和AMD的Am386、Am486系列CPU可谓是你方唱罢我登场,战得不亦乐乎,其他企业只能坐看神仙打架。
1993年,就在整个市场都认为很难在巨头霸占的市场中抢到机会时,供职于LSILogic的黄仁勋却选择了辞职下海,创立了英伟达。不过,黄仁勋看好的并不是CPU,而是图形加速卡。在当时看来,这似乎是一个非常冷门的业务。虽然随着PC和游戏机的普及,不少人认识到了图形处理的重要性,但其中的大部分人认为这个任务应该由CPU而不是专门的图形处理硬件来完成。
但黄仁勋并不这么认为,他坚持看好图形处理硬件的未来。在很大程度上,他的这个判断来自于对当时游戏行业的观察。1993年,一款名为《德军总部3D》的游戏横空出世,引发了市场对3D游戏的极大兴趣。但事实上,《德军总部3D》并不是真3D,它只是用2D贴图伪装出了3D效果。在黄仁勋看来,既然单独的CPU不足以支持真3D游戏,那么要实现它们就只能采用辅助的加速硬件。当然,虽然当时看好硬件加速市场潜力的人不多,但也不只黄仁勋一人。比如,英伟达早期最重要的竞争者3dfx公司也很早押注了这个市场,并一度凭借着其率先推出的巫毒加速卡雄霸全球市场。
应该说,黄仁勋运气确实不错,在创业初期就收到了日本游戏机公司世嘉的芯片研发订单,并得到了700万美元资金支持。但这种运气并没有持续多久,由于他在3D图像技术上选择的失误,没能兼容微软新制定的DirectX标准,导致了初代产品NV1出师不利,销量惨淡。
在经过一番调整后,英伟达终于步入了正轨。靠着世嘉公司支付的研发费用,英伟达开发出了Riva128。坦白讲,单论性能,Riva128并不如巫毒,但3dfx却犯了一个致命的错误——坚持自己的开发工具GlideAPI,拒绝使用DirectX。而英伟达则及时吸取教训,选择了拥抱微软、拥抱DirectX。很显然,在微软统治PC系统的时代,这个策略是十分明智的,Riva128也因此而大卖。
1998年,英伟达与台积电达成合作,开始使用无工厂模式。之后,英伟达只负责芯片的设计和销售,生产则完全交托给台积电来代工。通过这种模式,英伟达得以轻装上阵,将更多的精力投放到研发和市场研究中,从而推出了一系列爆款产品。利用这些产品,英伟达终于在图形加速市场上站稳了脚跟。
不过,黄仁勋的野心当然不止于此。在他看来,图形加速硬件不应该只是CPU的助手,应该有自己的独立角色。在这种理念的指导下,英伟达于1999年推出了它的GeForce256显卡。这款显卡不仅将T&L功能整合到了其中,实现了独立于CPU的T&L处理,集成了立方环境材质贴图、顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素、256位渲染引擎等先进技术,还同时设计了可编程加速功能。在这些技术特质的加持之下,GeForce256对一些高端3D游戏的支持能力要远胜于当时流行的3D图形加速卡,面世后一炮而红,迅速成为了广大发烧友钟爱的游戏神器。英伟达也趁热打铁,利用广告攻势,顺势将具有集成T&L、三角形设置/裁剪和渲染引擎,能够每秒至少处理 1000万个多边形的单芯片处理器定义为了GPU——如果严格按照这个定义,那么英伟达就确实是GPU的发明者了。
英伟达迅速成为了这个市场上的胜利者和引领者。2000年,它更是将最主要的竞争对手3dfx直接收购,进一步稳固了自己的市场霸主地位。所谓历史是由胜利者书写的,时至今日,当我们在搜索引擎上搜索谁是GPU的发明者时,英伟达就成了默认的答案。
从游戏之友到AI神器
那么,GPU又是怎么从一款游戏神器变成AI神器的呢?在对这个问题进行说明前,我们需要先对GPU的结构进行一些简单的介绍。
从总体上看,无论是CPU还是GPU,都包括运算器、控制单元、高速缓存器和动态随机存取存储器。但是,这些成分在两者中的构成比例是不同的。在CPU当中,控制单元和存储单元占的比例很大,而作为计算单位的ALU比例则很小;而在GPU当中则正好相反。
这种结构上的差异决定了CPU和GPU功能上的区别。由于CPU在控制和存储的能力上比较强,因此就能进行比较复杂的计算,不过可以同时执行的线程很少。而GPU则相反,大量的计算单位让它可以同时执行多线程的任务,但每一个任务都比较简单。打个比喻,CPU是一个精通数学的博士,微积分、线性代数样样都会,但尽管如此,让他做一万道四则运算也很难;而GPU呢,则是一群只会四则运算的小学生,虽然他们不会微积分和线性代数,但人多力量大,如果一起开干,一万道四则运算分分钟就能搞定。
由于在图形处理的过程中会涉及很多不同色彩单元的图形和色彩的变换,所以GPU的特质就让它先天地适合被作为图形处理的硬件使用。而当深度学习兴起之后,人工智能专家们很快就发现,GPU也很适合用来训练神经和应用网络模型。因为在深度学习模型中,最主要的运算就是矩阵运算和卷积,而这些运算从根本上都可以分解为简单的加法和乘法。如此一来,GPU就找到了新的就业空间,开始被广泛地应用于人工智能,摇身一变,从游戏神器变成了AI神器。
对于英伟达这个GPU市场的王者,AI领域的上述动向简直是为它送来了一块天上掉下的馅饼。它也顺势抓住了这个机会。2007年,英伟达提出了GPGPU,即通用目的GPU架构,将原本专用于图形处理的GPU改造成了更适合AI运算的GPU。与此同时,英伟达还推出了GPGPU的计算统一架构平台,允许程序员使用类 C语言编写GPU的并行计算代码,并且提供了大量的库函数和工具来帮助优化 GPU计算。通过这些努力,英伟达成功将GPU能处理的问题由图形扩展到了通用计算领域,由此在市场上抢得了先机,率先从游戏领域的硬件霸主转型成了AI领域的军火商。
各大AI巨头为抢占大模型市场抢破头时,这位军火商却坐收渔人之利,成为了这场大战最大的赢家——不仅赚得盆满钵满,让自己的市值突破了万亿美元大关,还凭借着其对GPU进行分配的权力,在某种程度上成为了左右AI大战最终走向的幕后之手。
从AI神器到硬通货
现在我们回到本文开头的问题:为什么GPU并没有遵循一般半导体产品的价格下降规律,反而成为了一件硬通货?
在市场经济的条件下,可以让某种商品的价格保持高昂且坚挺的原因只有一个,那就是需求超过了供给。要理解GPU为何能够成为硬通货,就必须对其供求状况有所了解。
1、GPU的需求状况
什么人在购买GPU呢?关于这个问题,马斯克曾给出过一个回答:在现在这个时间点,似乎所有人和他们的狗都在到处找GPU。马斯克的这个回答当然是带有调侃的,但是整个AI圈确实都在为GPU而疯狂。
最近在社交新闻网站Raddit上热传的一篇文章曾对几个大公司的GPU需求量做过一个统计。根据这篇文章,OpenAI在训练GPT-4时曾使用了10000到25000张英伟达A100GPU;脸书在训练AI时使用了大约21000张A100;特斯拉使用了约7000张A100;Midjourney的开发者StabilityAI大约使用了5000张A100。此外,阿联酋阿布扎比技术创新研究所开发的Falcon-40B用了384张A100进行训练;AI初创公司Inflection则正在使用3500张H100GPU来训练性能足以匹敌GPT-3.5的大模型。而根据马斯克的爆料,OpenAI正在训练的GPT-5所使用的H100GPU可能达到了3万到5万张。除此之外,还有众多初创企业也都需要GPU,需求量从几百张到几千张不等。所有这些需求加总在一起,就构成了十分庞大的数字。
这里需要说明的是,在GPU市场上,不同型号的GPU的需求差别非常大。目前,市场上最受欢迎的GPU就是英伟达的H100。根据英伟达方面的介绍,这款专门为人工智能设计的GPU芯片采用了新一代的Hopper架构,拥有800亿个晶体管,无论是在深度学习模型的训练还是推理方面,都具有十分强大的能力。在各种第三方的测试当中,H100也取得了非常好的成绩。例如,在近期举行的一次MLPerfAI测试中,英伟达H100集群一举在全部八个项目中都获得了第一,仅用11分钟就完成了一遍GPT-3的训练,用8秒就完成了一遍BERT模型的训练。
得益于H100的优良性能,所以几乎所有AI企业都对其虎视眈眈。根据网上热传的一个估计:OpenAI可能需要5万张H100;脸书可能需要2.5万张;Inflection需要2.2万张;微软的Azure云、谷歌云、亚马逊的AWS,以及Oracle这四大云服务商可能各需要3万张;Lambda、CoreWeave以及其他私有云可能总共需要10万张;Anthropic、Helsing、Mistral、Character等企业可能各需要1万张——将上面这些需求加总在一起,H100的总需求量就超过了43万张。需要指出的是,上述估计数字还没有包括中国的大型科技企业,以及包括JP摩根在内的众多金融企业的需求。如果将这些企业的需求量考虑在内,H100的需求量将更是惊人。
或许有人会问,同样是GPU,为什么H100会要比其他型号的GPU,比如A100更受欢迎呢?这其实既是一个技术问题,也是一个经济问题。总体上讲,尽管同为GPU,但是不同型号的GPU之间的主要职能是不同的。大致上讲,在AI领域,GPU的用途主要有两种:一是推理,即用训练好的模型生成我们需要的结果和内容;二是训练,即利用样本数据来训练AI模型。由于任务不同,所以在设计过程中必须安排不同的架构来对它们进行支持。一般而言,推理过程通常需要高效的计算能力和低延迟的响应速度,因此推理芯片的设计注重高效的计算单元和能耗控制;而训练过程则需要更高的计算能力和存储能力,因此训练芯片的设计注重高度并行化和大规模存储。
得益于更为优秀的架构设计,H100无论是在推理能力还是训练能力上都要比A100更优。测试结果表明,它的16位推理速度大约是A100的3.5倍,16位训练速度则大约是A100的2.3倍。而从成本上看,H100大约是A100的1.5到2倍。由此可见,虽然H100的价格要比A100更贵,但从性价比看,H100则具有更大的优势。
这里尤其需要指出的是,当Chat-GPT的爆火之后,大批企业都投入了大模型的开发。对于这些企业而言,能够更早地开发出品质优良的大模型就能为自己在竞争中获得更为有利的位置,这就激发了它们对可以以更快速度训练模型的工具的渴望。
2、GPU的供应状况
既然现在价格已经被炒上了天,那么供应商就应该抓住这个机会卖卖卖吧。但有意思的是,各大GPU供应商迟迟不增加供给,逼得一些AI企业甚至不得不到二手市场去收购旧的GPU。非不愿也,实不能也。
对于包括GPU在内的半导体产品而言,整个供应链可以分为三段:上游主要是指EDA、IP授权以及GPU芯片设计,中游主要是指GPU的制造和封装测试,下游主要是集成商和终端销售。其中,现在GPU卡口最严重的部分就出在供应链的中游。
众所周知,芯片的生产对于工艺的要求非常高,因此符合生产条件的制造商很少。以英伟达的H100为例,正如我们前面提到的,在英伟达采用了无工厂模式之后,其制造就全部委托给了台积电。但是,即使是对台积电而言,也只有N5、N5P、N4和N4P四个制程节点可以用来进行H100的制造。而由于台积电的制作工艺突出,所以苹果、高通等公司都在委托其进行代工,因而英伟达就不得不需要和这些公司一起共用以上制程节点。除此之外,在封装环节,台积电也面临着产能的限制。这些因素加在一起,就导致了H100在供应链的中游面临着非常紧的瓶颈。
与此同时,还需要注意的一点是,GPU的组件供应也在一定程度上制约着它的供应。仍以H100为例,其使用的关键组件高带宽存储器就面临着很严重的供应限制。目前,英伟达在H100上使用的HBM几乎都来自于韩国企业SK海力士半导体公司。然而,SK海力士生产HBM的能力是有限的,这就对H100的产量构成了直接的限制。有传闻说英伟达可能从三星和美光采购一部分HBM,但这两家企业的产能依然是有限的,因此扩大采购范围究竟可以在多大程度上缓解HBM的紧缺依然是一个问题。
综合以上分析,我们可以看到,虽然面临着GPU需求的暴涨,但由于供应链的制约,GPU的供应量很难在短期内出现重大提升。目前看来,由生成式AI所带动的算力需求增长还会持续较长的一段时间,因而至少在这段时间内,GPU的供不应求还会继续存在。在需求定律的作用之下,这就导致了GPU这种半导体产品出现了十分反常的价格持续上升。因此,在融资当中,它也就得以扮演起了抵押品的角色。
从财富之源到权力之杖
当人们津津乐道于GPU竟然可以成为硬通货,在金融市场上作为抵押品的时候,很可能忽略了另外一层更深的隐喻,即随着GPU在AI时代作用的日益突出,它似乎正在成为AI领域的权力之源。
7月25日,微软公布了它2023财年第四季度的财报。得益于和OpenAI的合作,微软的云业务在本财季出现了大幅的增长,带动了公司营收状况的显著改善。与去年相比,其营收同比增长了8%,净利润的同比涨幅更是达到了20%。在展示自己所取得的骄人成绩的同时,微软也在财报中提示了一些潜在的风险,其中之一就是GPU风险。微软指出,GPU已经成为了支撑其云业务迅速增长的关键原材料,如果GPU的供应不能保证,则其服务质量可能会受到很大影响。
为了缓解对GPU的渴求,微软可谓是不遗余力。一方面,它直接向英伟达方面示好,要求采购更多的GPU。另一方面,它也想了一些迂回的方法。比如,在不久之前,它就和CoreWeave——也就是本文开头提到的那家抵押H100来借钱买H100的算力提供商达成了协议,约定将在未来几年内持续向后者提供金额数十亿的投资,一起建设云计算的基础设施。其原因在于CoreWeave和英伟达关系甚密,在不久前的B轮融资中,就得到了英伟达的投资。凭借着这层关系,英伟达方面许诺会优先对CoreWeave提供GPU的供应。因此,对于微软来说,投资CoreWeave就是和英伟达套了近乎,从而有机会让它得到更多的H100和A100的使用权。看看微软现在这番良苦的用心,再联想英伟达创业之初为求生存不得不屈服于微软创立的标准,真不禁让人感叹三十年河东,三十年河西。
当然,我们还可以举出更多的GPU供应商操控AI之战的案例。一个典型的例子是我们前面起到过的Inflection。这家由DeepMind联合创始人穆斯塔法·苏莱曼创办并担任CEO的公司最近可谓风头正劲。和其他大模型公司不同,Inflection并不想创造无所不能的通用人工智能,而是将注意力集中在了个人智能领域。它的主要产品——名为Pi的聊天机器人功能也很单一,目前只有聊天。很显然,在目前林立的AI模型中,这款产品并不出众。然而,就是这样一家看似平平无奇的公司,其估值却达到了40亿美元。除了它拥有的宝贵智力资源外,一个重要的原因就是GPU。不久前,Inflection公开宣布,它将打造一个拥有2.2万块H100芯片的超级计算集群,以支持新一代AI大模型的训练和部署。这个集群的集成数量已经完全超越了脸书于5月宣布的计划。
Inflection是怎么做到的呢?只要我们看一下它的投资人,答案就立即揭晓了。是的,在它的投资人中,就有英伟达。另外值得一提的是,Inflection在打造这个集群的过程中,还有一个重要的合作者——CoreWeave。而正如我们已经看到的,它也是英伟达的利益共同体。由此可知,Inflection得以爆火的背后,英伟达以及它手中的GPU应该起了关键的作用。
记得今年3月,各大生成式AI公司激战正酣的时候,曾有一位记者来采访我,她问:依您看来,这场AI大战的最后赢家会是谁?微软,谷歌,还是OpenAI?我当时的回答是:我不知道它们当中谁会赢,但最后的赢家里一定有英伟达!现在看来,这个回答是完全正确的。不过,如果现在她再问我这个问题,我会在答案上再加一句:或许,它还能用GPU投票,决定谁会是赢家。
陈永伟经济观察报专栏作家
《比较》研究部主管
订阅
TAG:潮流 | 资讯 | GPU | 英伟达 | 图形 | 市场 | 处理 | CPU | 使用 | 游戏
文章链接:https://www.lk86.com/zixun/120464.html