国内算力需求已经到来
2024-12-26 16:13:09
  • 0
  • 0
  • 0
  • 0

       相较于ASIC芯片,GPGPU将是更适合中国当下几年算力市场的产品模式。未来的2-3年内,GPGPU将凭借“能用”与“易用”成为国产算力的主旋律;通信方面,Scale-Out将以太网主导、Scale-Up领域“中国版 NV-Link”迫在眉睫。周四A股市场,算力硬件股持续拉升,铜高速连接、CPO方向领涨,博创科技、鑫科材料、宝胜股份、华脉科技、得润电子、铭普光磁、徕木股份等多股涨停,金信诺、兆龙互连涨超10%。

  



  随着头部模型厂商开始走向放量与商业循环,国内算力需求的黎明已经到来。

  今年以来国内“豆包”、“可灵”等优秀模型也开始商业化尝试,随着头部模型厂商开始走向放量与商业循环,对于中国互联网行业蛋糕的再一轮切分即将到来,而在本轮竞争之中,算力的建设,将是一切的先决条件。

  国产算力起量过程中的投资框架与逻辑:
  算力:在未来的2-3年内,GPGPU将依然凭借“能用”与“易用”,成为国产算力的主旋律。

  通信:未来机会将出现在两个方向,第一是以太网交换机芯片的国产替代,第二则是随着国产芯片放量,参与到中国版“NV-LINK”的合作与开发之中。

  基建:从两方面来看,首先是电子制造能力,国内光模块厂商也将受益此轮从市场总体供需到客户结构的改善。第二方面,中国拥有全球最先进的电网设施和充足的电力供应。

  一个路径:GPGPU将凭借“能用”与“易用”成为国产算力的主旋律
  近期,海外ASIC的业务版图逐渐浮出水面,许多投资者在这种背景下,认为ASIC作为AI专用芯片,其拥有更强的专用性,将会拥有比英伟达为代表的通用GPU更强的理论性能,是实现制程限制下算力“弯道超车”的理想之选。

  相较于ASIC芯片,GPGPU将是更适合中国当下几年算力市场的产品模式。在未来的2-3年内,GPGPU将依然凭借“能用”与“易用”,成为国产算力的主旋律。

  具体来看,AIASIC是指没有DCU部分,只保留TensorCore,且采用脉动阵列取数法为原理的芯片,即谷歌TPU、Groq、Tenstorrent等海外主流ASIC。其余保留了DCU部分的芯片,均应归类为GPGPU类型。

  AIASIC和GPGPU的有不同优劣势:
  GPGPU构型的芯片,最大的特点是其芯片由两大部分组成,专门负责矩阵运算的TensorCore(TU)与负责其他运算如向量运算,加减乘除的小核部分(DCU)。

  在ASIC芯片上,以当下主流的TPU架构为例,其底层原理是“脉动阵列取数法”,从微架构层面看,其抛弃了DCU小核的部分,只保留TU大核来进行矩阵乘法运算。CPU与编译器直接从HBM中取出数字灌入TU来进行运算。

  这么做有两个好处,第一,省去了在实际运算中不参与矩阵乘法的“DCU”部分,可以将多余的面积堆积更多的TU,从而实现更高的“AI算力密度”。第二,由于采用了“脉动阵列取数法”作为填满TU的底层原理,其将TU装满运算一次,并得出矩阵乘法结果的速度也更快。两者相互结合,相同面积与制程下,此种原理的芯片相较于英伟达的GPGPU,可以拥有更好的理论算力。

  但与之对应的,ASIC的芯片相较于GPGPU也有不少缺陷和劣势。第一,在碰到稀疏数据,数据流中断时,脉动整列取数法的效率会降低,而GPGPU因为有DCU提前处理数据,因此不会有此类隐患。而在AI场景中,大部分数据是稀疏数据,同时受制于通信,显卡所获取的数据并不完全连续,这在一定程度上降低了ASIC芯片的理论效率。

  


  因此,GPGPU将是更适合中国当下几年算力市场的产品模式:
  虽然ASIC的芯片在同等制程和面积下,拥有更高的理论性能,但ASIC芯片的开发,需要编译器和软件生态层面的配合。由于没有DCU部分的辅助,ASIC芯片的编译器开发难度远高于GPGPU芯片,同时新的生态软件也给客户带来了极高的切换成本。

  在当下阶段,只有从模型训练到推理应用全自有的海外头部大厂,才能较好的运用自研ASIC。对于国内来说,未来几年是算力部署的初始阶段,GPGPU算力的易用性将使其对客户更有吸引力,中国需要先用海量的,可用且易用的GPGPU算力堆砌出自己的模型与商业循环,在完全成熟以及业务颗粒度放大之后,ASIC在国内的市场才会慢慢显现。

  在此过程中,对于GPGPU架构的优化也非常重要,例如可以同样通过对DCU中不同算力精度小核的取舍,来强化芯片的AI精度,也就是FP16精度的算力,实现更好的追赶,我们认为这才是对于中国算力来说当下更为合适的道路。

  两种道路:Scale-Out-以太网主导、Scale-Up-“中国版 NV-Link”迫在眉睫
  随着中国算力加速放量,自主可控的AI通信能力建设也迫在眉睫,建设中国AI通信,同海外一样,分为“Scale-Out”与“Scale-Up”两个部分。未来的机会将出现在两个方向,第一是以太网交换机芯片的国产替代,第二则是随着国产芯片放量,参与到中国版“NV-LINK”的合作与开发之中。

  对于以交换机,以太网为主导的“Scale-Out”网络,核心是具备从芯片到整机自主可控的交换机体系。而对于过去更加封闭和专用的“Scale-Up”网络,我们不应走英伟达NV-Link体系的老路,而是应当学习海外以博通、AMD为主导的“UA-Link”联盟的经验,以及博通提倡的从封装开始的算核标准化互联服务,凭借过往中国电信巨头的网络经验和国产交换机芯片,封装技术的革新,组成适用于所有国产算力的自主版“UA-Link”和算核封装标准。

  首先看Scale-Out领域将是以太网主导:
  在Scale-Out网络这一层面,目前主要是两大协议在相互竞争,一个是英伟达独有的IB协议,另一个则是博通主导的以太网协议。在AI放量初期,英伟达的IB交换机凭借更好的集群性能以及对于AI训练的支持独树一帜,但随着在博通带领下的以太网联盟对于ROCE2.0协议的迅速推广以及调试,性价比更高且开源的以太网开始逐渐渗透。

  ,当下来看,中国的主流交换机厂商推出的AI交换机普遍基于海外芯片,自主可控的交换芯片,将成为组建全国产化AI集群的关键一步,同时通过与国产芯片厂商与客户的紧密合作,国产交换芯片也有望获得更快的渗透曲线。

  其次Scale-Up领域“中国版 NV-Link”迫在眉睫:
  在Scale-Up网络这一层面,全球目前是NV-Link发展较快,而NV-Link的持续迭代,也是英伟达在GPGPU架构下,保持对于ASIC芯片性能及性价比领先的关键一步。同时,ASIC和博通为代表的竞争者们,正在从过去的各自为战,转变为统一联盟,24年5月,博通、AMD、Arista、谷歌等芯片,互联网,网络巨头们组成UA-Link联盟,共同创建一种加速器到加速器的开放行业标准化互联,也就是人人可用的“NV-link”。

  海外UA-LINK联盟的成立,给了中国自主可控的“Scale-Up”网络以非常好的追赶机会。但对比海外,中国一样拥有具有深厚通信协议经验积累的电信巨头,同样也拥有自主可控交换芯片道路上不断探索的企业,我们认为,如果这些企业能够带头组成类似于“UA-LINK”一样的联盟,可以快速帮助中国芯片公司形成对标“NV-LINK”一样的互联能力,这将助力中国算力的高速发展。

  

  领先电网支撑海量AI算力,IDC再次成为核心资产
  进入AI时代以来,单芯片性能固然重要,但算力的部署已经逐渐成为了像航母一样考验一个国家综合制造能力的系统工程。

  国内光模块厂商也将受益此轮从市场总体供需到客户结构的改善。

  随着国内算力逐渐放量,国内对于光模块的需求也将逐渐释放,同时叠加在速率迭代下,DAC等传统连接线缆向AEC的升级,也有望助力光模块厂商实现在迈向制造业龙头成长路上的品类扩张的关键步伐。

  同时,IDC再次成为核心资产,国盛证券表示:
  相较于美国,中国的电力基础设施与容量,都相较美国来说更优。美国的互联网厂商在未来有可能走向自建核电站+DCI互联的扩容之路。但对于国内来说,完善且充足的电力设施可以让客户通过第三方IDC提供的电力资源和机房实现算力的快速部署,从而为算力抢装和业务扩展提供助力。同时由于不需要新建变电站、核电站等设施,中国的算力成本也有望通过基建和电力侧缩小与海外先进集群的差距。

 
最新文章
相关阅读