英伟达慌了!芯片产业进入XPU时代“群殴”GPU

article/2025/6/8 5:12:07

股价大幅回调,英伟达遭遇强劲挑战

作者/ IT时报记者贾天荣

编辑/郝俊慧 孙妍

英伟达最近有点“烦”。

一个月前的6月18日,这家AI芯片巨头以3.34万亿美元的市值击败微软,登顶世界第一。然而,一个月后,当地时间7月17日盘后,英伟达以6.6%的跌幅居纳斯达克权重股“七巨头”之首,117.99美元的收盘价较历史最高位回调超过12.97%。

事实上,登顶之后,英伟达的股价便一直不太稳定。自2022年AI浪潮兴起之后,如此显著的回调颇为罕见,毕竟作为全球智算芯片的主力厂商,英伟达在人工智能(AI)、高性能计算(HPC)、数据中心以及图形处理单元(GPU)等市场都具有领导地位。

显然,当狂热逐渐冷静之后,GPU的高昂使用成本和高功率能耗等问题逐渐被投资人正视,越来越多GPU之外的AI芯片受到关注。

不久前,2024世界人工智能大会(WAIC2024)RISC-V 和生成式 AI 论坛上,知合计算CEO孟建熠提出,芯片行业正进入“XPU”时代。

IDC数据显示,2023年的AI服务器以GPU服务器占主导,市场份额92%达87亿美元,NPU、ASIC 和 FPGA等非GPU加速服务器以同比49%的增速占据近8%的市场份额,到2028年中国非GPU服务器市场规模将超过33%。

XPU:通用与专用之战

2016年,英伟达将第一台DGX-1超级计算机交付给一家旧金山的初创公司——OpenAI,8年后,这家初创公司推出的ChatGPT 3.5震惊全球,并拉开了人类向通用人工智能冲刺的序幕。

DGX-1整合了8块P100 GPU芯片,算力为170Tflops(每秒170万亿次浮点计算),成功将OpenAI原本需一年完成的大模型训练周期缩短至一个月。

加速的关键原因在于,深度学习需要处理大量非结构化数据和“蛮算”,这对芯片的多核并行运算、片上存储、带宽、低延时访存等提出了较高需求,而GPU拥有大量并行处理单元,能够同时处理多个任务,可以显著加速深度学习模型训练和推理过程,特别是在处理大规模数据集和复杂计算任务时表现尤为突出。

2022年底,随着OpenAI通过ChatGPT印证,算力超过一定“尺度”后,便会形成人工智能的“智慧涌现”,生成式AI对GPU算力的需求陡增,而英伟达则上演了一出“大象转身”的好戏。

只是,对于“尺度定律”(Scaling Law)的担忧和质疑一直存在。

随着行业需求的激增和计算技术的演进,传统的冯·诺依曼架构面临内存墙和功耗墙的挑战,存储与计算的分离导致了数据传输瓶颈,限制了计算系统的整体效能。GPU尽管通用性强且生态完善,但在高能耗和较低的算力利用效率面前,也开始显露疲态。

在中昊芯英创始人、CEO杨龚轶凡看来,GPU的成熟性和广泛的软件支持虽是其优势所在,却也构成了发展的桎梏。他指出,GPU芯片架构和底层逻辑的固定性,阻碍了大规模的优化升级,若要大幅改变,势必破坏已有的CUDA生态,“它的向后兼容性导致GPU的天花板是比较低的。”

杨龚轶凡认为,随着产业发展,行业逐步落地,算力规模增加,在成本考量变得更为重要的前提下,软硬件一体化的设计理念显得愈发关键。这种设计思路强调硬件与软件的协同优化,旨在针对特定算法和应用场景打造定制化的解决方案,从而实现更高的性能和更低的能耗。

在WAIC2024上,中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民直言,“GPU 并不一定是 Transformer 的最优算力芯片,有越来越多的专用芯片正在浮出水面,挑战英伟达最先进的产品,显示出技术生态的多样化。”戴伟民认为,未来的AI时代,随着基础大模型市场格局逐步清晰,针对具体应用场景的AI微调将更加普遍,针对特定AI应用的专用芯片将成为主流。

芯片进入“XPU”时代

如戴伟民所言,随着行业对算力需求的不断提高,越来越多的计算平台开始引入多种不同计算单元来进行加速计算。在GPU面临日益明显的瓶颈之际,专用集成电路(ASIC)和特定领域架构(DSA)的芯片正崛起为潜在的挑战者。

近期AI芯片两个备受瞩目的融资消息均与ASIC芯片(专用集成电路)有关。ASIC是一种为特定应用设计的集成电路,它针对某一类运算或功能进行高度优化,因此在执行这类特定任务时效率极高,缺点是一旦设计完成并制造出来,其功能和结构基本不能再改变。

6月26日,美国新兴的芯片创业公司Etched发布其首款ASIC AI芯片——Sohu。这款芯片在运行大模型时展现出了惊人的性能,其速度超英伟达H100的20倍,即便是与今年3月才面世的英伟达顶尖芯片B200相比,Sohu也展现出10倍的优越性能。

Sohu芯片的最大突破在于它直接将Transformer架构嵌入芯片内部。据Etched公司负责人Uberti透露,Sohu采用了台积电的先进4纳米工艺制造,不仅在推理性能上远超GPU和其他通用人工智能芯片,更在能耗控制上达到了新高度。

目前,大模型训练芯片还是以GPU为主,不过NPU和ASIC呈现快速增长的趋势,而且增速超过了GPU。”IDC中国分析师杜昀龙在接受《IT时报》记者采访时表示。

某种意义上,NPU(神经网络处理单元)是专为处理机器学习和深度学习任务而设计的ASIC芯片,它的工作原理是利用其专门设计的硬件结构来执行神经网络算法中的各种数学运算,如矩阵乘法、卷积运算等,这些算法是神经网络训练和推理过程的核心操作。与传统的中央处理单元(CPU)和图形处理单元(GPU)不同,由于在硬件层面优化了算法,提升了芯片的整体性能和能效,NPU可以更低的能耗和更高的效率执行这些操作。

记者注意到,不少国内芯片厂商正奋力自研NPU,以把握AI浪潮。今年年初,中星微电子发布了中国首款嵌入式神经网络处理器(NPU)“星光智能一号”的最新成果,该芯片已实现量产。华为自研的AI处理器昇腾910B也是一款NPU,专门设计用于加速人工智能计算任务。

国家重点实验室执行主任张韵东介绍,NPU采用了“数据驱动并行计算”的架构,彻底颠覆了传统的冯·诺依曼架构。这种数据流(Dataflow)类型的处理器,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据,使得人工智能在嵌入式机器视觉应用中可以大显身手。

当然,“群殴”GPU的还有更多XPU。

由谷歌TPU(张量处理单元)发明者之一Jonathan Ross创立的Groq,于今年2月推出ASIC芯片LPU(语言处理器),宣称该LPU推理性能是英伟达GPU的10倍,成本仅为其十分之一。

谁将成为GPU最终挑战者?

我们认为未来AI赛道,一半市场是GPU,一半市场是TPU。”杨龚轶凡曾在 Google 深度参与 Google TPU 2/3/4 的设计与研发,2018年,杨龚轶凡回国成立中昊芯英,专注于国产TPU芯片的研发。据其介绍,目前中昊芯英是国内唯一掌握 TPU 架构训推一体 AI 芯片核心技术的公司,公司自研的 TPU 人工智能训练芯片“刹那®”在处理 AI 计算场景时的算力性能是英伟达A100的近1.5倍,在完成相同训练任务量时的能耗降低 30%,单位算力成本仅为英伟达A100的42%。

TPU是一款DSA架构的AI计算芯片,它由谷歌自己设计,并专门用于机器学习工作负载。业界对于TPU的关注,始于Google在2013年的秘密项目。彼时,Google研发 AI机器学习算法芯片,并用于云计算数据中心,取代英伟达 GPU。2016年,AlphaGo击败了韩国棋手李世石,其“大脑”背后便是48个TPU。

相较于其他XPU,TPU最大的优势是和目前LLM大模型的底层架构Transformer同出一源。

被称为人工智能领域“圣杯”的Transformer,源自2017年11月由Google AI研究人员发表的一篇论文《Attention is All You Need》,该模型采用了注意力机制来处理序列数据,从而解决了传统的RNN(循环神经网络)模型在长距离依赖问题上的困境。

尽管真正让Transformer成为全球大模型基石的是OpenAI,但谷歌在基于Transformer架构研发的软硬一体化方案上,始终独具优势。

今年5月,Google发布了第六代TPU,称为Trillium,并表示将于今年晚些时候交付。Google表示,第六代Trillium芯片的计算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。Gemini 1.5 Flash、Imagen 3和Gemma 2等大模型,都经过 TPU 训练并提供服务。

从谷歌发布的信息来看,基于TPU训练的大模型效果优异。根据Google的基准测试结果,Gemini Ultra版本在许多测试中都表现出了“最先进的性能”,甚至在大部分测试中完全击败了OpenAI的GPT-4。

“你可以这么理解,TPU是通用的Transformer架构AI芯片。”杨龚轶凡解释,TPU不仅能支持所有Transformer模型,也能支持所有深度学习模型,但它的通用性只体现在基于Transformer的AI赛道里,但除此之外,在其他赛道的运算效果可能远远不如GPU。

无论如何,基于AI芯片的通用和专用之战已经开打,在这场新的战争中,看似“风光无限”的英伟达危机四伏,全世界的人工智能企业在“贪婪”地抢购GPU的同时,纷纷“下注”自研芯片。

据不完全统计,包括Groq、特斯拉的Dojo 2、AWS的Trainium、OpenAI新做的芯片等在内,美国现在有数十家企业和初创公司都在推动类TPU架构的芯片研发和应用。业内人士也表示,大多数厂商的ASIC架构芯片都只支持少数Transformer模型,在专用性上钻得更深,但通用性差一些,Sohu便是如此。

国产AI芯片的XPU梦想

XPU打败CPU和GPU的梦想早已有之。

早在2020年,ASIC便被认为是下一代AI芯片主流架构,针对特定任务专门设计框架,ASIC芯片能在快速提升算力的同时降低能耗。最近刚被软银收购的英国AI独角兽Graphcore为AI处理器开发的新型智能处理单元(IPU),更是一度被视作可以与英伟达“掰手腕”的秘密武器。

然而,一款芯片从设计到最后大规模生产,是一个漫长的过程,从研发到年产1000片至少需要五年时间,再到年产100万片则需要更久,这意味着一家AI芯片公司从成立到成熟量产至少需要十年的时间,在任何一个阶段都可能全军覆没。

而英伟达愈发成熟的CUDA生态,让产业链根本没有大规模转移的动力。这也是为何时至今日,英伟达依然在全球数据中心市场占据85%以上份额的根本原因。

但对于国产芯片厂商而言,近两年逐渐落下的“科技铁幕”却从另一层面打破了英伟达的“软性封锁”,当英伟达高端算力芯片H系列和B系列无法进入中国时,自研成为唯一的出路,各种芯片架构也呈现出百花齐放的繁荣。

不久前的WAIC 2024上,开源的RISC-V架构被认为是非常适合AI的架构。摩尔线程也宣称具备了万卡万P万亿参数通用算力集群能力。

中昊芯英TPU人工智能训练芯片“刹那®”也于去年成功量产,并已在全国多地千卡集群规模的智算中心交付落地。据介绍,“刹那®”以1024 片芯片高速片间互联的能力构建了大规模智算集群“泰则®”,系统集群性能远超传统 GPU 数十倍,可支撑超千亿参数AIGC大模型训练与推理。但杨龚轶凡也坦言,TPU芯片在目前国内的认知普及程度还比较低,很大程度上是因为现在研发并对外提供类TPU芯片的大多是初创公司,谷歌TPU的大集群也并未对外开放,导致客户无法大规模采购和使用这类产品。与互联网服务的即时可扩展性不同,硬件产品的生产需要时间和空间,无法立即响应市场需求的激增。

记者了解到,谷歌可能在今年底停止外部AI算力芯片的采购,转而完全依赖自研的TPU。谷歌的算力总量,结合自研TPU和先前的芯片采购,预计将在今年达到全球算力总量的25%。

“TPU这个赛道会变得越来越重要。”杨龚轶凡认为,未来在整个大模型的AI赛道里面,TPU最有机会成为这个赛道的 “X86”。

杜昀龙也告诉《IT时报》记者,AI 大模型市场推动了训练芯片的需求。推理芯片对技术的要求相对较低,并且推理也是将模型落地实现变现的途径。在大环境的影响下,同时有政策扶持的情况下,国产芯片厂商遍地开花,从不同技术维度,行业维度都有突破性发展。

对于相对小规模的芯片企业来说,开发推理芯片,针对细分行业的应用场景,能给企业带来发展。对于技术过硬,资金雄厚的企业来说,高性能的训练芯片有很大空缺,也是未来发展的良机。

排版/ 季嘉颖

图片/ 英伟达 Etched 中昊芯英 东方IC

来源/《IT时报》公众号vittimes

E N D


http://www.hkcw.cn/article/NEeSiKjLUj.shtml

相关文章

【新加坡政府补贴类】(四)新加坡国内税务局(IRAS)相关政策(下)

本文来源于公众号“金阁顿官方”,您可以关注“金阁顿官方”获取更多相关信息。 注:本文未经金阁顿授权禁止转载,否则将视为侵权,我们将采取法律措施维护权益。(我们最近发现中国境内某家族办公室公众号平台未经我们同意,将我们的多个专题的几篇文章强行融合成一篇文章进行…

【国史】常宝堃:抗美援朝战场上牺牲后,马三立主动请缨接续出征

常宝琨常宝琨常宝琨是中国相声演员第一位烈士; 1951年4月23日,在抗美援朝战场上表演吊唁演出时,遭到美军飞机轰炸扫射,不幸身亡。常宝琨,1922年5月5日出生于河北省张家口市。由于口外是蘑菇的原产地,人们称他为“小蘑菇”。新中国成立初期,京津地区存在着三大相声家族,…

终于懂了,封建迷信和传统文化的区别

现在越来越多的人,开始关注和学习中国的传统文化。然而,有些人误以为他们正在学习传统文化,却不知不觉陷入了封建迷信的误区。 以寺庙烧香为例,这是中国传统文化中一项重要的民俗活动。然而,当这种行为被商业化,如有人宣称大年初一的头炷香具有更高的功德和灵验性,且价格…

原创《飘》斯佳丽:爱情不过是一场自欺欺人的幻觉

年轻的时候,我们对爱情充满了很多不切实际的幻想,希望自己喜欢的人刚好也喜欢自己,希望自己付出了就会有相应的回报,希望一旦爱上了就是一生一世。 然而随着年龄和阅历的增长,才知道爱情除了浪漫还要面对现实的残酷抉择,还要面对生活的琐碎和矛盾,浪漫替代不了生活,奢望…

交15年社保,退休后能拿到多少养老金?一算就知道

每个月发工资,工资中总要扣掉几百块的“社保”,其中有一项是“养老保险”。根据我国现行的《社会保险法》规定,养老保险需要缴满15年,到达法定退休年龄后才可以领取养老金,用来保障老年生活。 01 社保交满15年后,还需要再交吗? 有人说“社保缴够15年就可以退休了,不用继…

原创为什么劝你不要养“母狗”?这7点,让人直呼“太可怕了”!

当谈及选择养公狗还是母狗时,不少朋友可能会犹豫不决。今天,咱们就来聊聊那些让人可能“劝退”养母狗的七大理由,但请记得,这些都是基于一些普遍现象和可能遇到的挑战,并非绝对,毕竟每只狗狗都是独一无二的。1. “大姨妈”的烦恼 说到母狗,不得不提的就是它们的生理周期…

原创郭凯敏:与初恋张芝华离婚后,第二年再娶尤勇前妻,离婚理由太奇怪

前言 当年一部《庐山恋》让男女主郭凯敏和张瑜红遍“大街小巷”要知道当时就连电视机都没那么普及,家家户户最多只有一个收音机,在这样的情况下他们两人还能够爆火的确实属难得。展开全文作为中国影史上第一部有“吻戏”的电影,他们两人就“顺理成章”的成了观众心中的小情侣…

雅思怎么考?全面解析备考与考试流程【干货】

随着全球化的不断深入,雅思考试(IELTS)已成为衡量非英语母语者英语能力的重要标准。无论是为了出国留学、移民还是职业发展,雅思成绩都扮演着关键角色。那么,雅思怎么考呢?本文将从报名流程、考试准备、考试结构及应试策略等方面,为大家提供一份全面的指南,助力考生顺利通…

江西省政协提案工作条例重新修订啦!一起来看变化

2023年11月2日 全国政协新修订了 提案工作条例 为做好新时代政协提案工作 提供了制度保障江西省政协 为认真贯彻落实全国政协提案工作新要求 今年也新修订了 《中国人民政治协商会议 江西省委员会提案工作条例》 经政协江西省第十三届委员会 常务委员会第六次会议审议通过 这也…

南航国内随心飞上新!1599元可飞新疆,独库和阿勒泰都可用!有效期快到年底了

不知道南航最近怎么了,在最近的促销当中国大招不断,前两天我们对多次卡和双人国际卡进行了解读: 南航国际随心飞,拆开卖了!飞全球4.0上线,168条航线参与!北上广深新疆出发都有,太值了 南航,这是国际随心飞又来了?618的第1波特价机票,都在这里了! 没想到今天,R舱项…

过渡金属硫化物(TMDs)常见的表征方法

过渡金属硫化物概述 过渡金属硫化物(Transition Metal Dichalcogenides,TMDs)是一种层状结构,与单原子层的石墨烯结构相似,由两层硫族原子把一层过渡金属原子夹在中间,形成类似三明治形式(X-M-X)的层状结构。TMDs的化学式为MX2,M指的是过渡金属元素,来自于IV族(如Ti、…

海底近万米!胶州湾世界最长海底隧道有多难建

山东省青岛市胶州湾第二隧道项目总长度17.48公里,其中隧道长14.37公里(海域段9.95公里),这条近万米的海底隧道建成后将成为世界上最长的海底道路隧道。面对复杂的地质条件、艰苦的工作环境,建设团队发扬工匠精神,钻孔勘察、创新设计、精准施工、智慧管理,全力投入隧道建…

38个生产工艺汇总!了解工艺,知产污

一、表面立体印刷(水转印)Water Transfer Printing水转印——是利用水的压力和活化剂使水转印载体薄膜上的剥离层溶解转移,基本流程为: 1、膜的印刷:在高分子薄膜上印上各种不同图案; 2、喷底漆:许多材质必须涂上一层附着剂,如金属、陶瓷等,若要转印不同的图案,必须使…

【菜品】羊排十一种做法,款款垂涎欲滴

吮指羊排 成菜羊排外酥里嫩,入口多汁,鲜香微辣,足以作为餐厅主打冬季特色滋补菜推出。 材料: 原料:新疆顶级羊肋排800克,青红椒丁、洋葱丁、蒜薹粒、美人椒粒各10克,香椿苗20克。 调料:孜然、辣椒面、盐、味精、生粉各适量。制法: 1、将羊排煮熟,沥干,表面拍生粉,入…

【社工考试】2024年社工考试报名开始~附详细报名指引

2024年社会工作者职业水平考试 2024年度社会工作者职业水平考试报名来了,全国社工报名时间为4月2日,通过中国人事考试网报名。考试将于6月15日至6月16日举行。 在考试报名的时候,专业年限如何填?考试资格如何审核?今年的报考平台有了大变化,小编为大家准备了社工考试网上…

12种最刮油的减肥茶喝喝就甩肉

1、节食者推荐喝乌龙茶因节食减肥,吃得少,食物残渣就不足,有时积存几天才一次,很容易乾燥。推荐饮用乌龙茶。 原料:乌龙茶 做法:简单地用开水冲。 功效:助消化、去痰、解酒食油腻之毒、消脂。 2、浮肿者喝薏仁茶展开全文浮肿的原因很多,如果是单纯的水分滞留造成的浮肿…

最全健身动作动图集锦,让你健身变得有根据!

相比于寒风瑟瑟的冬天,大家更愿意在酷暑炎热的夏季锻炼毕竟大汗淋漓的时刻,更能感受到血液的沸腾,仿佛自己就是猛男与靓女的象征所以很多人会在夏季的时候,兴致冲冲的跑到健身房办卡,幻想着几个月之后,肌肉饱满,受到妹子的青睐,蜂腰翘臀,接受男神的告白。但是一进健身…

原创100元人民币印有这“四位数字”,单张价值18000元,谁能找到?

在我们日常的经济生活中,100元纸币无疑是最为常见的货币面值之一。它见证了我国经济的繁荣与发展,也承载了无数人的记忆与情感。在人民币的发行历程中,第四套和第五套人民币的100元纸币尤为引人注目。其中,第四套人民币100元纸币因其独特的历史背景和设计特点,更是成为了收…

初识微分、积分电路的本质以及电容的阴谋,不谈公式更易懂

很多朋友觉得PID是遥不可及,很神秘,很高大上的一种控制,对其控制原理也很模糊,只知晓概念性的层面,知其然不知其所以然,那么本期从另类视角来探究微分、积分电路的本质,意在帮助理解PID的控制原理(PID:P表示比例控制;I表示积分控制;D表示微分控制)。 在认清微分、积…

博物馆收藏的元代龙泉窑高级瓷器,图十二罕见|瓷器鉴定真知堂

瓷器鉴定真知堂:龙泉窑是南方窑口,主要产于浙江龙泉一带。北宋早期此地为龙泉县,后期一度改名为剑川县。南宋建立后,宋高宗赵构于绍兴元年,即公元1131年重新改名龙泉县。窑以青瓷著称于世。是越窑之后的南方青瓷杰出代表。在南宋时期进入发展高峰期。但真正大兴还是元代的…