资料中心 : IT認證

十月 23, 2024 by admin · Leave a Comment
Filed under: killtest

AI革命徹底重塑了技術格局，但隨之而來的是對網路互聯和運算能力的全新挑戰。在面對如此龐大而複雜的AI工作負載時，我們不得不思考網路如何有效地擴展以支援數十萬個節點的規模？

傳統的資料中心任務通常可以在單一伺服器上管理，但AI訓練任務要複雜得多，需要資料在數百甚至數千台裝置之間流動，以實現無縫協同。 Ram Velaga認為，乙太網路是處理AI工作負載的首選方案，它擁有龐大的生態系統，並在資料中心中廣受認可。接下來，我們將重點討論是什麼使乙太網路成為當今AI工作負載的王牌，以及為什麼乙太網路注定會成為連接所有計算的黃金標準。 01. AI奇點是什麼？ AI領域裡，有一個名詞叫做「奇點」。所謂的奇點是指機器智能達到或超越人類智能的水準，達到與人腦智能相容的時刻和狀態。然而，要實現這一目標，目前的單一晶片或多個互連晶片可提供的運算能力遠遠不夠，需要連接數萬、甚至數十萬個節點，建構一個龐大的系統網路。
那麼，網路是什麼？
乙太網路就是網路。它曾是雲端運算的網絡，現在是AI/ML的網絡，未來將繼續扮演滿足AI/ML需求的大規模網路的重要角色。
回顧過去一年，乙太網路領域取得了顯著的進展。乙太網路建立在開放標準的基礎上，擁有極開放的生態系統，支援即插即用和互通性。目前，乙太網路市場吸引了許多不同類型的參與者，2022年乙太網路連接埠的總出貨量達到60億個，這一事實突顯了乙太網路在經濟和規模經濟方面的強大優勢。 02. 乙太網路的50歲今年，是乙太網路問世50週年，這半個世紀以來，它不斷壯大。乙太網路發明者鮑伯·梅特卡夫因為對乙太網路的傑出貢獻而獲得了圖靈獎。在過去的一年裡，許多廠商宣布推出高性能交換機，以滿足AI/ML對頻寬的日益增長需求。 Broadcom宣布推出了多款高效能交換機，隨後Marvell和思科等廠商也推出了50T交換機，推動乙太網路更好地發展。
微信图片_20241023163658
AI 集群通常有兩個不同的網路。第一種網絡，也是比較傳統的，是所有伺服器的外部或面向外部的「前端」網絡，當它們面向公共互聯網時，需要基於乙太網路和IP協定。 AI 的主要區別在於需要將大量資料輸入集群，因此管道比傳統的網路伺服器大得多。第二種是「後端」網絡，這是一個將AI 叢集資源連接在一起的獨特網路。對於AI 叢集來說，跨運算資源連接到其共享儲存和內存，並快速且沒有延遲偏差地執行這些任務，對於最大化叢集效能至關重要。
有人可能會問，前端網路是否基於以太網，而後端網路是否依賴類似InfiniBand的技術？ Ram Velaga認為，其實這就是一個單一的網路──以太網，前端和後端都匯聚成一個乙太網路。
目前，全球最大的IT營運商的AI/ML基礎設施都連接在乙太網路上，而這一趨勢將持續下去。因為乙太網路擁有其它任何技術都無法匹敵的生態系統，它提供了故障排除、測試設備、監控設備，同時還支援供應商設備的靈活替換，這使得不同供應商的交換器或網路卡可以無縫協同工作。 03. RDMA有什麼問題？展望未來，我們該考慮什麼？可以看一下大語言模型的成長速度，在2020年，GPT-3具有大約1750億個參數，預計GPT-4將擁有超過1兆個參數。因此，無論是大語言模型還是推薦模型，都需要大量資源來處理模型的下一代和演進。
RDMA是實現從一個運算節點向另一個運算節點高效傳輸記憶體的技術之一。最初，它是針對InfiniBand而建造的。隨著時間的推移，RDMA不斷發展，業內廠商把RDMA移植到傳統乙太網路上，也就是RoCE。目前，RoCE和RDMA技術已經在許多擁有數千個運算節點的大規模環境中成功應用，實現了高效的資料傳輸和通訊。
然而，問題出現了。 20年前建置RDMA時，它主要用於連接一個節點到另一個節點，或或從100個節點到200個節點。因為當時，企業客戶甚至是大型石油和天然氣勘探公司購買的HPC集群通常只有256個節點，最多就1000個節點。然而，如今，擁有1萬個節點已經不是什麼稀奇事。人們開始探討更大規模，涉及10萬個節點甚至更多節點的部署。
那RDMA有什麼問題呢？ RDMA在設計之初並不是為如此大的規模而建造的。首先，它不具備多路徑支持，這意味著資料只能透過一條路徑從點A傳輸到點B，而流量必須全部在這條路徑上傳輸。這導致了某些鏈路可能被浪費，而另一些鏈路可能被過度使用。
RDMA也包含了「分組傳遞」的概念，即在資料流中，所有資料包必須依序到達。這意味著第一個資料包必須在第二個之後到達，第三個必須在第二個之後到達，以此類推。而RDMA中的一項技術“Go-back-n”，意味著如果在RDMA資料流中某個資料包遺失，即使之後的資料包都已正常傳輸，也要從遺失的資料包開始全部重傳，這種方式非常低效。
此外，RDMA的設計是基於無丟包的網絡，使用了DCQCN（資料中心專用擁塞通知）而非TCP/IP協議，這使得網路非常脆弱，需要高度精密的工程處理。通常情況下，售賣系統的公司可能會希望客戶購買從光通訊設備到網路線再到整個系統的所有組件，並收取數倍費用。 04. RDMA現代化過去，RDMA的這些特性發揮了作用，但並不適用於當前技術發展趨勢。 7月，超乙太網路聯盟（UEC，Ultra Ethernet Consortium）誕生了，其目標是實現乙太網路的極高性能、超大規模以及世界上任何互聯都無法媲美的最佳經濟性。目前，已有 200 多家公司、組織和機構表示有興趣加入UEC。
微信图片_20241023163827
UEC提出了一種解決RDMA問題的構想，稱為「Ultra Ethernet Transport」。他們採取了一系列措施來應對上述問題。總的來說，他們的理念是建立一個高效能的網絡，消除傳統RDMA中的低效率問題，以使其能夠在一個高度穩健的網絡環境中擴展到超過100萬個節點。
微信图片_20241023163933
在超級運算領域，有一點至關重要，那就是資料包的遺失。微軟曾發表一篇論文，指出即使只有0.1%的資料包遺失，也會導致作業完成時間呈指數成長。這是因為必須回到資料包遺失的狀態，然後整個作業必須重新運行，效率非常低。
因此，UEC的目標是RDMA的現代化，這是高效能AI訓練的關鍵技術。 UEC… Continue reading