一条芯片“新”赛说念,悄然崛起
(原标题:一条芯片“新”赛说念,悄然崛起)
若是您但愿不错时常碰头,迎接标星储藏哦~
GPU超越了CPU。这也意味着,在遐想范围,专用遐想击败了通用遐想。然则,尽管专用遐想的上风日益赫然,仍有一部分初创公司坚捏走通用遐想的说念路,力求通过革命冲破现时架构的瓶颈,从头界说处理器的异日。在这个日益分化的遐想时间,通用遐想是否依然有契机与专用遐想一较凹凸?一些利欲熏心的初创公司正在干涉巨资和大批的研发力量,试图通过开发全新的通用处理器架构来挑战现存阵势。
通用处理器的黄金时间
纪念夙昔,通用处理器(CPU)曾在遐想范围主管了数十年。在70年代到90年代,CPU曾是险些统统遐想任务的主力。
1971年,英特尔发布了4004处理器,这是寰宇上第一款商用微处理器,美艳着遐想机时期的一个新纪元。随后,英特尔在1974年发布的 8080 处理器,以偏激后续的 x86 架构,为个东说念主遐想机(PC)提供了苍劲的处贤达商。
1981年,IBM个东说念主遐想机(IBM PC)的发布,将基于 x86 架构的通用处理器推向了行家市集。
进入1990年代,跟着互联网的崛起和遐想需求的千般化,Intel 和 AMD 等公司陆续激动 x86 架构 的发展,通用处理器的市集份额握住扩大。英特尔的 Pentium 处理器系列(1993年推出)美艳着高性能遐想的到来。此外,90年代的企业级办事器和数据中心也早先大批汲取基于 x86 架构的通用处理器。这一时期,通用处理器不仅在桌面和办公应用中占据主导地位,也逐渐成为办事器、数据中心以及高性能遐想(HPC)范围的主力。
从 2000年代后期早先,跟着 GPU 和专用加速器(如 TPU、FPGA)的崛起,遐想界的天平早先发生歪斜。
进入AI时间,遐想需求呈现出爆炸式增长。深度学习等AI算法对遐想资源的需求远远超越了传统应用。GPU凭借其高度并行的架构,在熟悉和推理大限制神经收罗方面弘扬出色,成为了AI熟悉的“标配”。这一时期,GPU在图形处理、科学遐想以及机器学习等范围的弘扬,逐渐超越了传统的CPU。与此同期,各式专用集成电路(ASIC)也在握住浮现,针对特定AI算法进行优化,进一步升迁了遐想后果。
尽管GPU和ASIC在特定范围的上风特地赫然,但它们也有不成冷漠的错误。最先,GPU 和 ASIC 是专为某些特定任务遐想的,枯竭通用性和天真性。若是面对复杂的遐想任务或需要多种遐想智商的应用,GPU 和 ASIC 就显得不那么高效。此外,GPU 和 ASIC 的开发和坐褥资本较高,且其硬件架构时常与现存的遐想环境不兼容,这使得大批企业在进行硬件更新时濒临着较高的时期门槛和经济资本。
恰是这些缺口,令一些初创公司找到了弯说念超车的效率点。在AI时间的快速浸礼下,数据中心的挑战和痛点愈发突显:居高不下的功耗、较低的办事器讹诈率以及难以跟上需求的处理器性能。
初创公司Tachyum:
各式PU大乱炖,能成吗?
初创公司Tachyum建议了一种骁勇的愿景:将超大限制数据中心升沉为真实的通用遐想中心。
他们是奈何作念的呢?Tachyum推出了一种新式通用处理器,将CPU、GPGPU 和 TPU的功能斡旋到单个单片开辟中,无需昂扬且耗电的加速器,而是通过使用与软件可组合性和办事器资源的动态从头分拨相一致的简单同质软件模子来最大限制地提高讹诈率,以此来得志云和 HPC/AI 责任负载的高需求。该架构速率更快、功耗裁汰10倍、资本仅为竞争居品的 1/3。
下图是早期(2022年)Tachyum公司对Prodigy架构的构念念,它集成了128个自界说的 64 位 CPU 中枢,运行频率最高可达 5.7 GHz,有十六个DDR5内存适度器,因循最高DDR5-7200,和64条PCIe 5.0 通说念。CPU、内存适度器和I/O通过Tachyum自界说遐想的10 Tbps非摆布全网状互联收罗磋磨在沿路。Prodigy提供了一种顶端的“系统芯片”遐想,均衡了高性能的CPU 中枢、内存、I/O和互联子系统。
Prodigy开辟架构图(起原:Tachyum Prodigy架构白皮书,2022)
Prodigy汲取特有的“半芯片(half-chip)”遐想,使得这款128核的开辟不错动作两个独处的64核开辟责任,每个开辟配备8个DDR5内存适度器、32条PCIe 5.0通说念、独处的电源平面,并具备单独启动的智商。这带来了多个公正。最先,从客户的角度来看,两个功能开辟不错部署在一个单一封装中,检朴资本、板空间和功耗,并为系统和板遐想者提供天真性。从运营的角度来看,这种架构为Tachyum提供了更高的64核芯片良率。若是“北半部分”出现问题,不错将芯片旋转180度,“南半部分”将成为平日责任的 64 核开辟。
Prodigy开辟布局主邀功能模块(起原:Tachyum Prodigy架构白皮书,2022)
Tachyum在白皮书中指出,处理器性能停滞不前的根蒂原因是处理器硅片上的清亮延伸增多。跟着硅片工艺的收缩,晶体管的速率加速,但清亮的速率却放慢了,咱们面前正处于性能受到清亮延伸收尾的阶段。由于清亮的电阻率是清亮横截面积的函数,因此电阻率会跟着工艺收缩的平方而增多,工艺几何尺寸每减小10 倍会导致电阻率增多100倍,这与清亮延伸成正比。业界的症结是从铝互连调整为铜互连并使用低 K 电介质,这如实有所匡助,但清亮延伸仍然是收尾处理器性能一代一代升迁的主要身分。
为了科罚夙昔二十年中由于工艺收缩导致晶体管加速但导线变慢,从而导致处理器性能停滞的问题,何况最大化性能、可蔓延性和天真性、最小化总领有资本(TCO),Tachyum 为其Prodigy处理器开发了新的辅导集架构(ISA)。该架构联接了RISC(精简辅导集和CISC(复杂辅导集)的特色,但莫得包含好多 CISC 处理器中常见的复杂和/或变长的低效辅导。统统辅导的宽度为 32 位或 64 位,其中一些辅导还包括内存拜访,以优化性能。Prodigy ISA 包含大批的向量和矩阵辅导,这些辅导优化了向量和矩阵运算的性能和后果。新ISA通过将现实单位感知(execution unit awareness)引入辅导集架构,从而使Prodigy微架构和 Prodigy 编译器大要协同责任,幸免了现实单位之间破费大批功耗的数据传输,并减少了芯片内延伸。
领先Prodigy系列处理器包括128核、64核和32核的型号,而在最新的居品显露中,Prodigy对其居品构想进行了全面的升级:Prodigy SKU家眷包含192核、96核、48核多个型号,适用于从超算到大限制AI、超大限制数据中心和旯旮办事器等千般应用。TDP(热遐想功耗)范围从48核初学级的150 W,到顶端型号的950W。
Prodigy各型号的规格(起原:Tachyum)
Prodigy的竞争卖点在那里呢?据该公司白皮书的分析,其斡旋架构通用处理器平直与CPU和GPGPU竞争。
下图自大了Prodigy、Nvidia H200 GPU和 ntel Xeon 8380 CPU之间的正面对比,展示了 Prodigy 通用处理器奈何与CPU和GPU架构平直竞争。比较收尾标明,与 H200 GPU 和 Intel Xeon 8380 CPU 比拟,Prodigy 在多个责任负载和数据类型下提供了更高的性能和每瓦性能。
具体而言,Prodigy比 Intel Xeon 8380领有3倍的CPU中枢数,主频是8380的2.5倍,内存带宽约为8380的20倍。Prodigy的Specrate 2017整数得分是8380的4倍,而 Prodigy 的FP64峰值性能是8380的30倍。
与Nvidia H200比较,Prodigy的16条DDR5-7200通说念和带宽放大时期提供了约 2TB/sec 的带宽,同期保留了因循大内存和蔓延性的天真性,DIMM 可提供较大的内存因循。H200 使用 HBM3 提供 3 TB/sec 的带宽,但将内存脚迹收尾为 80GB 的固定内存。Prodigy 和 H200 王人因循从 FP64 到 FP8 的多种数据类型,何况王人因循 4:2 稀少性。但与 H200 不同,Prodigy 除了因循 4:2 稀少性外,还因循 8:3 超稀少性,提供了更高的性能,仅有眇小的精度折衷。此外,Prodigy 领有更大的缓存,减少了对 DRAM 带宽的需求。Prodigy 还因循 TAI(Tachyum AI),一种新的数据类型,能提供更大的性能升迁。
为了全面了解 Prodigy的智商,一个1.6万亿参数的Switch Transformer 需要 52 个 NVIDIA H200 80GB GPU(每个资本为 41,789 好意思元)和7个Supermicro GPU办事器(每个资本为 25,000 好意思元),总资本为 2,348,028 好意思元。而该公司宣称,一个配备 2TB DDR5 DRAM的Prodigy单个插槽系统可就以容纳和运行如斯大的模子,资本仅为23,000好意思元,这仅是英伟达决议资本的1/100。若是真如斯,这将是一个颠覆性的通用处理器。
表面上王人很好意思好,但是面前Tachyum公司最大的问题是,尚莫得骨子的居品出来。Prodigy的推出时期一再延伸,本年推来岁。Prodigy通用处理器领先计算于2019年推出,并于2020年上市。然则它握住推迟,推迟到2021年,然后是2022年,然后是2023年。最新的讯息是,据该公司称,汲取5nm工艺的Prodigy处理器将于来岁流片和量产。一个小插曲是,此前该公司还告状了EDA公司Cadence,说他们的遐想未能得志性能主见。
据报说念,Tachyum已收到一份大型采购订单,用于构建一个大型系统。据Tom's Hardware报说念,Tachyum还计算于 2026 年发布 Prodigy 2,这是一款使用 PCIe 6.0 和 CXL 的 3nm 处理器,以及高带宽内存 (HBM) 3 RAM。
咱们也但愿来岁果然能见到这款苍劲的通用处理器。
Ubitium:通用RISC-V微处理器
德国初创公司Ubitium,这家公司成立于2024年。独创东说念主的阅历颇丰:董事长/结伙独创东说念主Peter W Weber层赴任于英特尔、德州仪器、Siliconix等;首席现实官/结伙独创东说念主Hyun Shin Cho;首席时期官/结伙独创东说念主Martin Vorbach在大学期间创办了我方的第一家微处理器公司。他创办了可重构处理器(FPGA)范围的领军企业 PACT XPP Technologies。PACT 的时期已授权给统统好意思国主要半导体公司,马丁名下领有200多项专利。
Ubitium旨在通过引入齐全与责任负载无关的通用处理器架构从根蒂上调动遐想阵势。首席时期官Martin Vorbach花了15年时期开发这一通用处理器架构。Ubitium的通用处理器架构代表了遐想行业的一次紧要革命,它挑战了现存的处理器遐想范式。
通用处理器阵列(起原:Ubitium)
传统的微处理器时常需要为不同的遐想任务,如图形处理、东说念主工智能遐想等,遐想有利的硬件中枢。而Ubitium但愿通过同质、与责任负载无关的微处理架构,用单一、多功能的芯片取代传统处理器(CPU、NPU、GPU、DSP 和 FPGA)来处理统统责任负载,该架构基于开源辅导集 RISC-V,旨在通过斡旋的遐想,不仅使处理器尺寸更小、能效更高,而且大幅裁汰资本,使其大要合乎各式应用场景。
Ubitium的遐想灵感源于现时遐想机体捆绑构濒临的瓶颈,特地是在硬件资源的高效讹诈 方面。现时好多处理器架构濒临着无谓要的“琐碎经管”任务——这些任务占用了大批硬件资源却并未平直提高性能。此外,好多高效遐想时期,如同步多线程,时常需要额外的硬件支出来因循,这就导致了更高的能耗和复杂性。
夙昔数十年来,芯顷然期的越过主要围绕尺寸伸开,晶体管变得越来越小,因此通过整合更多晶体管,微处理器的功能也变得更苍劲。然则,遐想并莫得发生根人道调动。Ubitium通过从头遐想处理器的里面结构,打消了这些无谓要的支出,从而提高了性能。除了架构革命外,Ubitium还计算推出多个芯片型号,涵盖从微型开辟到大型遐想系统的不同需求。这些芯片的阵列大小不错不同,但它们王人基于换取的架构和软件平台。
面前,该公司领有 18 项基于 FPGA 仿果然原型时期专利,并正在开发一系列芯片,这些芯片的阵列大小各不换取,但分享换取的底层通用架构和软件堆栈。Ubitium所开发的通用芯片主见市集是旯旮或镶嵌式开辟,匡助企业将部署资本裁汰100倍。不外,该公司强调,该架构具有高度可蔓延性,异日也可用于数据中心。
天然Ubitium的居品听起来像是FPGA,比如王人强调硬件天真性和可重用性,但它并不是传统趣味上的FPGA。比拟FPGA,Ubitium的处理器并莫得依赖于“硬件仿真”或“动态硬件成就”的症结,而是通过斡旋的架构和中枢资源来已矣不同功能。
2024年11月21日,Ubitium取得了370万好意思元种子资金。这笔投资将用于开发首批原型并为客户准备早先开发套件,首批芯片计算于2026年推出。不外,在短短两年内推出一个旨在“澈底调动”行业的架构至少不错说是具有挑战性的。面前的370万好意思元险些不错笃信不及以让 Ubitium的“冲破性”芯片起步。时常,芯片进入流片阶段需要破耗数亿好意思元。
前路挑战不成冷漠
岂论是 Tachyum 如故 Ubitium,它们聘用开发通用处理器的原因,王人来自于遐想需求的复杂性和千般化。传统的遐想架构,如 CPU、GPU 和 FPGA,天然各从容特定范围中弘扬凸起,但它们的组合和协同责任时常带来额外的资本和复杂性。尤其是在 AI、大数据和高性能遐想(HPC)日益普及的布景下,数据中心和云遐想需要一种更高效、更天真、更具资本上风的科罚决议。
但初创公司来作念通用处理器如故会濒临很大的挑战:
时期已矣:要在吞并个芯片上处理多种遐想任务(如图形处理、AI 推理、高性能遐想等),需要全心遐想架构,确保每种任务的遐想智商王人得到充分阐扬而不相互侵扰。Tachyum建议的架构仍处于早期阶段,何况也曾经历了屡次延期。居品是否能按计算录用,以及它是否能在竞争热烈的市辘集脱颖而出,仍然是一个庞杂的不细目性。
市集接受度:尽管他们的芯片可能在性能上具有上风,但市集对新架构的接受度仍然是个问题。尤其是在传统的 CPU 和 GPU 仍占据主流地位的情况下,新式的通用处理器是否大要与 NVIDIA、Intel 等熟悉厂商的居品竞争并取得平凡汲取,仍有待不雅察。
资本与限制化:即便后进者王人宣称其芯片在资本和功耗上风权贵,但要已矣大限制坐褥并裁汰资本,需要大批的研发和坐褥投资。处理器的制造和流片资本时常特地昂扬,因此资金的踏实和筹措将是其获胜的症结身分。
Tachyum和Ubitium王人在试图科罚遐想范围的一个迤逦问题:奈何整合多种处理功能,提供更天真、更高效的科罚决议。尽管两者的时期愿景特地招引东说念主,但在已矣经由中濒临的时期挑战、市集接受度以及资金问题王人遮拦冷漠。要想在竞争热烈的半导体市辘集脱颖而出,除了时期冲破,还需要强有劲的资金因循和客户认同。
小结
强如英特尔和AMD,在AI的波浪中,王人有点顽抗不住,初创公司能否掀翻浪花?在这个风浪幻化的时间,通用处理器能否重夺王座呢?收尾尚未知。
但不错卓见的是,这条芯片“新”赛说念,也曾悄然崛起。
半导体极品公众号推选
专注半导体范围更多原创内容
海涵行家半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或因循,若是有任何异议,迎接干系半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3962期内容,迎接海涵。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”分享给小伙伴哦