導讀:在網絡通信領域的國際頂會SIGCOMM2024上,阿里云6篇論文被收錄。其中最引人注目的是介紹其最新一代智算集群網絡架構HPN 7.0的論文,該論文也是SIGCOMM歷史上首篇關于AI智算集群網絡架構的論文。
5月14日消息,在網絡通信領域的國際頂會SIGCOMM2024上,阿里云6篇論文被收錄。
其中最引人注目的是介紹其最新一代智算集群網絡架構HPN 7.0的論文,該論文也是SIGCOMM歷史上首篇關于AI智算集群網絡架構的論文。
據介紹,HPN 7.0架構是為滿足AI時代對網絡高性能需求而研發(fā)的,它創(chuàng)新性地設計了“雙上聯+多軌+雙平面”的網絡架構。
同時還配備了51.2Tbps單芯片以太網交換機和400G高性能網卡,以及自研的Solar-RDMA和ACCL通信庫。
這些技術的應用使得HPN 7.0能夠實現單層千卡、兩層萬卡的高性能和高穩(wěn)定互聯。
自2023年9月起,HPN 7.0已在阿里云進行大規(guī)模部署,顯著提升了大模型訓練性能,并大幅提高了智算網絡的整體穩(wěn)定性。
基于HPN 7.0架構訓練的通義千問2.5版本大模型,在理解能力、邏輯推理、指令遵循、代碼能力等方面均有顯著提升,中文性能全面趕超GPT-4 Turbo。
阿里云基礎設施網絡負責人蔡德忠表示,HPN 7.0的推出是阿里云自2017年以來在端網融合可預期網絡技術體系探索上的又一里程碑。
這一全新的網絡集群架構創(chuàng)新,有望成為下一代AI高性能網絡架構的新范式,與谷歌的Jupiter網絡相媲美,后者曾被SIGCOMM收錄并成為業(yè)界經典。