- 華為希望UB-MESH統一大型AI群集的零散的互連標準
- UB網格設計將靠近主鏈與多維架子級網格混合在一起,可擴展性
- 傳統的互連在大規模部署中變得太昂貴
華為揭示了開源的UB-MESH InterConnect計劃,該系統旨在統一處理器,內存和網絡設備如何在大型AI數據中心進行通信。
UB-MESH設計將數據廳級別的基於近距離的主鏈與每個機架內的多維網格結合在一起。
通過將這些拓撲結合起來,華為聲稱,即使系統尺寸縮放到成千上萬的節點,它也可以控製成本。它還希望解決縮放AI工作負載的問題,其中延遲和硬件故障構成障礙。
用單個框架替換零散的標準
此舉是作為一種用單個框架替換多個重疊標準的方式,有可能重塑大規模計算基礎架構的構建和操作。
簡而言之,華為希望用一個通用系統代替當今的不同連接規則的組合,因此所有內容都更容易,便宜地鏈接在一起。
華為處理器Hisilicon的首席科學家Heng Liao說:“下個月我們將舉行一次會議,我們將宣布UB-MESH協議將出版並披露給任何人,例如免費許可證。” 手臂。
“這是一項非常新的技術;我們正在看到不同營地的競爭標準化工作。(…)取決於我們在部署合作夥伴和客戶的實際系統和需求方面的成功,我們可以談論將其變成某種標準。”
UB-MESH背後的主要論點之一是,傳統的互連在大規模上變得太昂貴,最終成本超過了他們本來要連接的加速器。
華為指出了自己的示威活動,其中8,192節點的部署被用作證據表明成本不需要線性上升。
這對於使用數百萬處理器,高速網絡設備以及大量存儲陣列(例如雲存儲操作中使用的最大的SSD系統)構建的AI系統的未來至關重要。
UB-Mesh是Huawei稱為超級節點的更廣泛想法的一部分。這是指數據中心尺度集群,其中CPU,GPU,內存,SSD單元和開關都可以像在單台計算機中一樣運行。
每台設備每秒超過一台比的帶寬主張和子微秒延遲被定位為證明該概念不僅可能,而且是下一代計算所必需的。
但是,PCIE,NVLINK,UALINK和ULTURA ETHERNET等標準已經獲得了整個半導體和網絡行業的多家公司的支持。
現在的問題是,該行業是否將接受新的華為支持的協議,還是繼續偏向於更廣泛的公司支持的標準。
華為的提議雖然雄心勃勃,但使客戶處於採用由一位供應商擁有和控制的協議的位置。
即使有開源許可,人們也擔心長期互操作性,治理和地緣政治風險。
也就是說,華為的技術潛力聽起來令人印象深刻,但其舉動需要一定程度的行業信任和尚未確保的信任和採用。
通過 Toms硬件
您可能還喜歡
#華為想要用大膽的開源UBMESH互連計劃來動搖巨型AI數據中心沒人看到