同期,2025年10月5日,由智源查究院结合中邦电子手艺圭表化查究院牵头协议的推举性邦度圭表《人工智能 联合通讯库接口模范》(立项企图号 20255428-T-469)就手获批。
这标记着我邦正在众芯片通讯与AI编制根源软件范围实行了邦际圭表与邦度圭表的同步冲破,造成了“邦内邦际圭表双驱动”的新式样。
该圭表旨正在樊篱分歧AI芯片间的架构区别与通讯杂乱性,构修联合、绽放且可扩展的通讯模范系统,鞭策跨芯片分散式做事的敏捷转移与高效协同,扶助同构情况下的自适合跨场景优化及异构情况下的高效通讯互联,从而粉碎算力孤岛,充隔离释集群揣测潜能,更好地为大领域分散式熬炼、推理以及端云一体化协同供应环节根源维持。
面向众种AI芯片的联合通讯库圭表的胜利立项,凝固了科研、物业与圭表化构制的协力,标记着我邦正在AI根源软件范围实行了从邦内立异到邦际协同的厉重发达。
邦度圭表方面,《人工智能联合通讯库接口模范》由智源查究院与中邦电子手艺圭表化查究院牵头,涵盖科研院所(北大、揣测所等)、芯片企业(华为昇腾、寒武纪、昆仑芯等)、互联网企业(百度)、办事器企业(海潮等)、运营商(搬动、电信等)、收集编制供应商(基流科技)等几十家科研机构与企业单元合伙列入。从启动到结合提案再到正式立项,历时一年众,功夫众轮研讨,吸纳了平常的行业看法,满盈显示了产学研协同共修的行业共鸣。
邦际圭表方面,《F.FUCL Requirements and Framework of Cross-Platform Unified Communication Libraries for Distributed Multimedia AI Systems》由智源查究院结合中邦讯息通讯查究院合伙牵头,扶助单元网罗揣测所、华为、百度、搬动统一通信、电信、联通、邦度电网、蚂蚁、海潮等。正在ITU-T SG21 全会立项答辩,并取得来自美邦、德邦、英邦、俄罗斯、日韩等众邦专家的共鸣,最终就手通过立项,显示了我邦正在AI根源软件圭表化范围的邦际协同才具与手艺影响力。
面向众种AI芯片的联合通讯库圭表通过为分歧芯片上的通讯库供应联合的模范接口与笼统,以樊篱底层硬件区别与杂乱性,维持同构芯片上的跨场景自适合通讯优化与异构芯片之间的高效跨芯通讯,是AI揣测生态众样化与高职能化进展的环节根源组件。如下图所示,其此刻立异架构自上而下分为用户接口层、通讯运转时层、可转移笼统层三部门,并将正在另日不断优化圆满。
用户接口层:面向开荒者与AI框架,供应联合高效的编程接口,网罗插件接口、通讯成效移用接口和编程讲话接口。插件接口和通讯成效移用接口用于向上对接分歧AI框架(PyTorch、PaddlePaddle等)和构修于其上的训推框架(Megatron-LM、vLLM等)。通讯编程讲话接口卖力为通讯算子开荒者供应轻量级接口,便于直接正在C++/Python等编程讲话中实行定制化通讯算子以及通算统一算子开荒,加快利用开荒迭代。
通讯运转时层:负责通讯托务实施的重心逻辑,要紧网罗高层通讯函数、中层通讯操作、底层通讯原语以及办事组件。高层函数实行编排与自适合优化,中层操作供应古代通讯操作实行与统一算子的注册移用,底层原语供应高效的修立合联原语和第三方原语,保险极致的延迟与带宽再现。三层扶助敏捷移用,办事组件涵盖Proxy(收集异步收发机制)、Topology(拓扑办理与优化)等模块。
可转移笼统层:樊篱底层硬件与互联和叙的区别性,为上层运转时供应相仿的编程模子。此中,CCL Adaptor和Device Adaptor卖力对分歧类型的硬件实行联合笼统,网罗GPGPU、ASIC、SuperPod等,划分封装了百般修立运转时(如 CUDA、HIP等)及厂商原生通讯库(如NCCL、RCCL等)。Net Adaptor和P2P Adaptor卖力樊篱底层互联和叙的实行细节,对节点内互联和叙(PCIe、NVLink等)和节点间收集互联和叙(IB、RoCE等)实行联合封装。
通过立异分层架构计划,既能向上供应圭表化的通讯接口,便于百般AI利用的联合接入,又能向下通过可转移笼统层绽放适配机制,使芯片厂商也许轻松集成自研通讯库或底层运转时,加强了编制的跨平台兼容性与可扩展性。
开源联合通讯库FlagCX()行为上述两项圭表的环节参考实行,已正在众家主流芯片平台上完结适配与验证,并平常利用于熬炼、推理等众种场景。通过“物业履行优先”的验证道途,有用保险了圭表的可行性、时效性与前瞻性。
扶助9种主流AI芯片,网罗英伟达、寒武纪、昆仑芯、摩尔线程、海光、华为昇腾等。
FlagCX不但正在同构场景下与原生通讯库职能持平,还通过自立立异的Device-buffer RDMA手艺和Cluster-to-Cluster(C2C)异构联合咸集通讯算法,实行了跨芯片通讯职能提拔,成为环球边界内少数具备异构混杂熬炼全栈开源才具的通讯库之一。正在近期升级中,FlagCX环绕跨芯通讯效力实行两项环节冲破:
通过引入流水线并行来实行Pre、Inter、Post三个阶段做事的重迭,重心优化可能归纳为两点:1)传输数据众Chunk切分,从而实行细粒度流水;2)众Stream并行,从而实行Pre/Post和Inter阶段的重迭。
咱们通过实测ChipA 2机16卡比照了AllGather和AllReduce通讯操作的已有的C2C算法和流水线)C2C AllGather算法应用流水线并行后比拟之前算法带宽均匀提拔1.7x,最大提拔2.0x;2)C2C AllReduce算法应用流水线并行后比拟之前算法带宽正在大通讯量上(=128M)均匀提拔1.3x,最大提拔1.3x。
2.零拷贝 Device-buffer RDMA 手艺正在小通讯量场景下职能提拔约3×,正在大通讯量场景与原生实行职能持平,到达业界领先水准。
如下图左所示,原生Device-buffer RDMA手艺会正在初始化阶段预先分派和注册一段可能应许从网卡直接拉取数据的Device-buffer(默认值64MB)。正在现实通讯历程中,FlagCX运转时会移用D2D拷贝实行利用次序的User-buffer和预注册Device-buffer的数据传输。这会酿成分外的数据拷贝开销,并急急影响小通讯量场景P2P通讯职能。为此,FlagCX将Device-buffer RDMA手艺实行了zero-copy扶助,如下图右所示,正在初始化阶段通过直接注册User-buffer,避免现实通讯历程中的D2D拷贝移用,从而应许网卡直接正在User-buffer进取行数据读取和写入操作。
咱们通过实测ChipA 2机2卡比照了零拷贝Device-buffer RDMA和原生实行的职能,如下图所示:1)正在小通讯量场景下(=128KB),零拷贝Device-buffer RDMA比拟原生实行可能到达大约3.0x的加快比;2)正在[128KB, 128MB]的通讯量区间内,零拷贝Device-buffer RDMA比拟原生实行的加快效率跟着通讯量增大而陆续消浸,慢慢和原生实行职能持平;3)正在大通讯量场景下(=128MB),零拷贝Device-buffer RDMA和原生实行职能持平。
众智FlagOS是面向众种AI芯片的联合、开源编制软件,而联合通讯库 FlagCX 是其四大重心开源手艺库之一。目前众智FlagOS 1.5版本正在9月26日首届FlagOS绽放揣测开荒者大会上由18个共创团队合伙颁布, FlagOS 1.5版本曾经进展成为“4+3”的形式,即四大重心开源手艺库+三大开源器材平台,通过开源手艺库和开源器材平台的互相维持,供应了更平常的硬件扶助、和更圆满的组件协同。
除了联合通讯库 FlagCX 除外,FlagOS还网罗高效并行训推框架 FlagScale、高职能算子库 FlagGems,以及联合编译器 FlagTree。此中,FlagScale扶助众种芯片、众种后端,扶助同构集群、异构集群的熬炼和推理上主动调优;FlagGems已修成环球最大、扶助芯片品种最众的大模子通用算子库,扶助了16家芯片厂商的25款AI芯片,掩盖GPGPU、DSA、RISC-V AI、ARM等众种芯片架构;FlagTree编译器累计扶助12+邦外里主流芯片厂商的 20 余种芯片型号。
FlagCX邦际与邦度圭表的同步立项,是众智FlagOS从手艺立异迈向圭表引颈的环节一步,也代外着一种绽放协同的物业进展道途正正在造成共鸣。咱们深知,圭表的人命力正在于平常的履行与利用。通过构修联合的跨芯片通讯模范,咱们祈望的不但是粉碎“算力孤岛”,更是与环球开荒者和协作伙伴一道,合伙鞭策AI根源办法的绽放与统一,让每一份算力都能被高效、无缝地连合和开释。
PG·电子(中国大陆)官方网站