AI革命徹底重塑了技術格局,但隨之而來的是對網路互聯和運算能力的全新挑戰。在面對如此龐大而複雜的AI工作負載時,我們不得不思考網路如何有效地擴展以支援數十萬個節點的規模?
傳統的資料中心任務通常可以在單一伺服器上管理,但AI訓練任務要複雜得多,需要資料在數百甚至數千台裝置之間流動,以實現無縫協同。 Ram Velaga認為,乙太網路是處理AI工作負載的首選方案,它擁有龐大的生態系統,並在資料中心中廣受認可。接下來,我們將重點討論是什麼使乙太網路成為當今AI工作負載的王牌,以及為什麼乙太網路注定會成為連接所有計算的黃金標準。 01. AI奇點是什麼? AI領域裡,有一個名詞叫做「奇點」。所謂的奇點是指機器智能達到或超越人類智能的水準,達到與人腦智能相容的時刻和狀態。然而,要實現這一目標,目前的單一晶片或多個互連晶片可提供的運算能力遠遠不夠,需要連接數萬、甚至數十萬個節點,建構一個龐大的系統網路。
那麼,網路是什麼?
乙太網路就是網路。它曾是雲端運算的網絡,現在是AI/ML的網絡,未來將繼續扮演滿足AI/ML需求的大規模網路的重要角色。
回顧過去一年,乙太網路領域取得了顯著的進展。乙太網路建立在開放標準的基礎上,擁有極開放的生態系統,支援即插即用和互通性。目前,乙太網路市場吸引了許多不同類型的參與者,2022年乙太網路連接埠的總出貨量達到60億個,這一事實突顯了乙太網路在經濟和規模經濟方面的強大優勢。 02. 乙太網路的50歲今年,是乙太網路問世50週年,這半個世紀以來,它不斷壯大。乙太網路發明者鮑伯·梅特卡夫因為對乙太網路的傑出貢獻而獲得了圖靈獎。在過去的一年裡,許多廠商宣布推出高性能交換機,以滿足AI/ML對頻寬的日益增長需求。 Broadcom宣布推出了多款高效能交換機,隨後Marvell和思科等廠商也推出了50T交換機,推動乙太網路更好地發展。
AI 集群通常有兩個不同的網路。第一種網絡,也是比較傳統的,是所有伺服器的外部或面向外部的「前端」網絡,當它們面向公共互聯網時,需要基於乙太網路和IP協定。 AI 的主要區別在於需要將大量資料輸入集群,因此管道比傳統的網路伺服器大得多。第二種是「後端」網絡,這是一個將AI 叢集資源連接在一起的獨特網路。對於AI 叢集來說,跨運算資源連接到其共享儲存和內存,並快速且沒有延遲偏差地執行這些任務,對於最大化叢集效能至關重要。
有人可能會問,前端網路是否基於以太網,而後端網路是否依賴類似InfiniBand的技術? Ram Velaga認為,其實這就是一個單一的網路──以太網,前端和後端都匯聚成一個乙太網路。
目前,全球最大的IT營運商的AI/ML基礎設施都連接在乙太網路上,而這一趨勢將持續下去。因為乙太網路擁有其它任何技術都無法匹敵的生態系統,它提供了故障排除、測試設備、監控設備,同時還支援供應商設備的靈活替換,這使得不同供應商的交換器或網路卡可以無縫協同工作。 03. RDMA有什麼問題?展望未來,我們該考慮什麼?可以看一下大語言模型的成長速度,在2020年,GPT-3具有大約1750億個參數,預計GPT-4將擁有超過1兆個參數。因此,無論是大語言模型還是推薦模型,都需要大量資源來處理模型的下一代和演進。
RDMA是實現從一個運算節點向另一個運算節點高效傳輸記憶體的技術之一。最初,它是針對InfiniBand而建造的。隨著時間的推移,RDMA不斷發展,業內廠商把RDMA移植到傳統乙太網路上,也就是RoCE。目前,RoCE和RDMA技術已經在許多擁有數千個運算節點的大規模環境中成功應用,實現了高效的資料傳輸和通訊。
然而,問題出現了。 20年前建置RDMA時,它主要用於連接一個節點到另一個節點,或或從100個節點到200個節點。因為當時,企業客戶甚至是大型石油和天然氣勘探公司購買的HPC集群通常只有256個節點,最多就1000個節點。然而,如今,擁有1萬個節點已經不是什麼稀奇事。人們開始探討更大規模,涉及10萬個節點甚至更多節點的部署。
那RDMA有什麼問題呢? RDMA在設計之初並不是為如此大的規模而建造的。首先,它不具備多路徑支持,這意味著資料只能透過一條路徑從點A傳輸到點B,而流量必須全部在這條路徑上傳輸。這導致了某些鏈路可能被浪費,而另一些鏈路可能被過度使用。
RDMA也包含了「分組傳遞」的概念,即在資料流中,所有資料包必須依序到達。這意味著第一個資料包必須在第二個之後到達,第三個必須在第二個之後到達,以此類推。而RDMA中的一項技術“Go-back-n”,意味著如果在RDMA資料流中某個資料包遺失,即使之後的資料包都已正常傳輸,也要從遺失的資料包開始全部重傳,這種方式非常低效。
此外,RDMA的設計是基於無丟包的網絡,使用了DCQCN(資料中心專用擁塞通知)而非TCP/IP協議,這使得網路非常脆弱,需要高度精密的工程處理。通常情況下,售賣系統的公司可能會希望客戶購買從光通訊設備到網路線再到整個系統的所有組件,並收取數倍費用。 04. RDMA現代化過去,RDMA的這些特性發揮了作用,但並不適用於當前技術發展趨勢。 7月,超乙太網路聯盟(UEC,Ultra Ethernet Consortium)誕生了,其目標是實現乙太網路的極高性能、超大規模以及世界上任何互聯都無法媲美的最佳經濟性。目前,已有 200 多家公司、組織和機構表示有興趣加入UEC。
UEC提出了一種解決RDMA問題的構想,稱為「Ultra Ethernet Transport」。他們採取了一系列措施來應對上述問題。總的來說,他們的理念是建立一個高效能的網絡,消除傳統RDMA中的低效率問題,以使其能夠在一個高度穩健的網絡環境中擴展到超過100萬個節點。
在超級運算領域,有一點至關重要,那就是資料包的遺失。微軟曾發表一篇論文,指出即使只有0.1%的資料包遺失,也會導致作業完成時間呈指數成長。這是因為必須回到資料包遺失的狀態,然後整個作業必須重新運行,效率非常低。
因此,UEC的目標是RDMA的現代化,這是高效能AI訓練的關鍵技術。 UEC… Continue reading
思享家丨思科 Silicon One 以一頂三,構建靈活高效的 AI 網絡
思科聯天下
作者:蒋星
思科首席架构师,
作者:李婷婷
思科资深系统架构师
隨著 GPT,Stable Diffusion 等各種人工智能 (AI) 大模型業務的爆炸式增長, 國內外雲和互聯網企業正在掀起一場構建AI算力的新型競賽。然而單純通過堆砌更多的 GPU 並不能獲得算力的線性提升,因為面向雲計算的傳統以太網絡正在成為大規模 AI GPU 間通訊的瓶頸。隨著新一代 GPU 算力的提升,每顆 GPU 能夠產生高達 400G 的峰值通訊流量,而大模型 AI 訓練任務經常會將數據或模型分配到成千上萬的 GPU 中同步並行處理,AI 任務的定期數據分發和數據同步的通訊特性對連接 AI 服務器的網絡提出全新的要求:超高速,超大吞吐量,低長尾時延,高可靠和盡可能高的效率。
▲圖 1. AI 數據中心業務與網絡的發展趨勢
為了解決 AI 網絡通訊的困境,目前行業中存在四種獨特 AI 網絡架構:InfiniBand、以太網、增強以太網和完全可調度的分佈式以太網(Distributed Switch Fabric, DSF)。每種技術都有優點和缺點,比如 InfiniBand 主要面向 HPC 單任務應用場景設計,提供無損傳送和低時延能力,但用於多任務/多租戶的 AI 場景時則表現欠佳,另外昂貴的線纜與配件價格、有限的生態系統和產品更新迭代的速度,都令業界多一層考量。以太網由於生態、成本和快速技術迭代正在成為 AI 網絡備受關注的技術。根據 JP Morgan 市場預測,到 2027 年基於以太網技術的 AI 網絡將會佔據 75%… Continue reading
技術丨思科與 Apple 攜手拓路技術創新
技術丨思科與 Apple 攜手拓路技術創新
思科聯天下 思科聯天下
作者:Matt MacPherson, 思科無線研發部創新實驗室首席技術官
出於盡力改善用戶連接體驗、提高 IT 團隊支持能力的共同目標,自 2015 年起,思科與 Apple 圍繞如何利用技術創新優化用戶上網體驗展開了合作。為了實現這個目標,我們聯合開發了一系列解決方案,在設備和無線網絡之間針對特定應用進行優化。這些解決方案結合了網絡和設備分析,可以幫助網絡管理員更快地發現和解決問題,為連接的可靠性和安全性提供保障,同時也能針對特定業務進行策略配置,大幅提高工作效率。
圖片
Fastlane+ 讓 Wi-Fi 6 更智能!
思科與 Apple 推出的最新合作成果:Fastlane+,以現有的 FastLane QoS 功能為基礎,增加了旨在優化應用體驗的高級調度智能技術,因此能夠更好地洞察應用的需求,動態調度網絡資源來滿足它們。
在 Fastlane+ 中,我們運用了 Wi-Fi 6 標準中的確定性調度技術(OFDMA 和 TWT)。在人群高度密集的環境中(信道使用率為 60% 或更高),Fastlane+ 可以讓 iPhone 和 iPad 設備向 Cisco Catalyst 無線接入點發送高級調度請求 (ASR) 觸發器,從而通知網絡:用戶正在啟動 Webex、FaceTime 或其他任務關鍵型、延遲敏感型應用。
Fastlane+ ASR 觸發器由流量週期性及其比特率等信息組成,因為語音和視頻流量往往有可預測的周期性比特率、流量模式、帶寬和延遲要求。 Fastlane+ 可使網絡預估客戶端的要求,進而預先在無線接入點上調度信道佔用時間。這為設備和網絡提供了雙向優化,也讓網絡能夠智能地決定如何為終端用戶提供最佳體驗。
為業務關鍵型、延遲敏感型應用帶來更好的用戶體驗
Fastlane+ 的設計初衷是確保 iPhone 和 iPad… Continue reading
思享家丨2022,思科 400G 相干光技術發展 “ 大年 ”
思享家丨2022,思科 400G 相干光技術發展 “ 大年 ”
原創 思科聯天下 思科聯天下
思享家
是一個介紹如何利用思科先進技術解決客戶難題的欄目。每期聚焦一個技術熱點或應用場景,邀請資深思科技術專家深入淺出地介紹,為讀者提供實用性強的建議。
去年,在我參加完開放數據中心委員會(ODCC)2021 夏季全會後,曾預測今年將會是 400G 和數字相干光技術快速商用的一年。在上週四(6 月 2 日)的開放數據中心委員會(ODCC)公開線上會議中,我和思科解決方案架構師忻賢良分享了 400G ZR/ZR+ 數字相干光可插拔模塊技術的最新進展,以及新型 IP+光傳輸融合網絡架構的演進與實踐,這些都印證了我之前的預測。
在為大家介紹思科推出的一系列新技術前,先給大家科普一下數字相干光技術的應用領域。
隨著視頻內容快速增長、大數據與人工智能應用的普及,尤其是移動辦公與居家辦公成為新常態,網絡流量在未來的幾年中還會保持高速增長。如何保證網絡容量增長的同時降低成本,則成為互聯網企業和電信運營商日益關注的要點。
數字相干光技術是高速(200G+)長距離(80KM+)傳輸的關鍵技術。長期以來受限於復雜的數字信號處理芯片的尺寸與功耗,再加上光學器件的尺寸過大以及裝配,封測複雜等生產工藝的限制,數字相干光系統一直存在體積大、成本高、功耗高等諸多限制,因而難以大規模普及。
思科利用核心前向糾錯算法(FEC)的優化和最新 7nm 製程,成功地將數字處理芯片實現微型化量產,並大幅度降低功耗。同時設計了獨特的矽光子集成電路,將光學處理單元進一步微型化。並結合多芯片封裝技術使得組裝和封測更加方便,大幅度提升產量與良品率。思科在電域、光域和封裝多領域的協同創新造就了數字相干系統加速向微型化、低功耗、可插拔模塊化轉型(DCO)。
傳統數字相干光領域由於缺乏統一標準,不同廠家的技術與產品難以兼容與互通,這使得整個產業受限於規模效應難以得到快速的發展。思科與行業頭部企業在 OIF 標準化組織的框架下,共同製定了面向城域網互聯場景的 400G ZR DCO 行業標準。該技術標準簡化了數據封裝格式,並面向城域網 120 公里的應用場景進行優化,大大降低了系統的複雜程度和成本,從而加速了 400G ZR DCO 全行業的發展。… Continue reading
CCNP 數據中心認證和培訓
CCNP 數據中心認證和培訓
使用數據中心網絡解決方案證明您的技能
獲得 CCNP 數據中心認證證明了您在數據中心解決方案方面的技能。要獲得 CCNP 數據中心認證,您需要通過兩門考試:一門涵蓋核心數據中心技術,另一門是您選擇的數據中心專業考試,這樣您就可以根據自己關注的技術領域定制您的認證。
考試和推薦培訓
要獲得 CCNP 數據中心資格,您需要通過兩項考試:核心考試和您選擇的數據中心集中考試。現在,CCNP 數據中心計劃中的每項考試都獲得了個人專家認證,因此您在整個過程中的成就都會得到認可。
核心考試側重於您對數據中心基礎架構的了解。核心考試也是CCIE數據中心認證的資格考試。通過核心考試將使考生有資格在其核心考試有效期內安排和參加 CCIE 實驗室。
集中考試側重於新興和特定行業的主題。您可以通過參加相應的思科培訓課程來準備集中考試。
必修考試 推薦培訓
核心考試:
350-601 DCCOR 實施和運營思科數據中心核心技術 (DCCOR)
集中考試(選擇一項):
300-610 DCID 設計思科數據中心基礎設施 (DCID)
300-615 DCIT 思科數據中心基礎設施 (DCIT) 故障排除
300-620 DCACI 實施思科以應用為中心的基礎設施 (DCACI)
300-625 DCSAN 配置 Cisco MDS 9000 系列交換機 (DCMDS)
300-630 DCACIA 實施思科以應用為中心的基礎設施 – 高級 (DCACIA)
300-635 直流自動 為思科數據中心解決方案 (DCAUI) 實施自動化
先決條件
CCNP 數據中心沒有正式的先決條件,但您應該在參加考試之前對考試主題有一個很好的了解。
CCNP 候選人通常還擁有三到五年實施數據中心解決方案的經驗。… Continue reading
CCIE數據中心核心技術考試:350-601
實施思科數據中心核心技術(350-601 DCCOR)
支持遠程認證考試 在線考試
350-601 DCCOR
認證:CCNP數據中心,CCIE數據中心,思科認證專家-數據中心核心
片長:120分鐘
考試概述
該考試測試您對實施核心數據中心技術的知識,包括:
網絡
計算
儲存網絡
自動化
安全
考試準備
思科官方培訓
實施和運營思科數據中心核心技術(DCCOR)
安排考試
登錄到Pearson VUE的帳戶 。
選擇“專業考試”,然後輸入考試編號350-601。
按照提示進行註冊。… Continue reading
Implementing Cisco Data Center Core Technologies (350-601 DCCOR)
350-601 DCCOR
Certifications: CCNP Data Center, CCIE Data Center, Cisco Certified Specialist – Data Center Core
Duration: 120 minutes
考試概述
該考試測試您對實施核心數據中心技術的知識,包括:
網絡
計算
儲存網絡
自動化
安全
考試準備
思科官方培訓
實施和運營思科數據中心核心技術(DCCOR)
安排考試
登錄到Pearson VUE的帳戶。
選擇“ Proctored Exams”,然後輸入考試編號350-601。
按照提示進行註冊。
實施和運營思科數據中心核心技術(DCCOR)v1.0
您將在本課程中學到什麼
實施和運營思科數據中心核心技術(DCCOR)v1.0課程可幫助您為思科®CCNP®數據中心和CCIE®數據中心認證以及高級數據中心角色做好準備。在本課程中,您將掌握實現數據中心計算,LAN和SAN基礎架構所需的技能和技術。您還將學習數據中心自動化和安全性的基本知識。您將獲得有關部署,保護,操作和維護Cisco數據中心基礎架構的實踐經驗,其中包括:Cisco MDS交換機和Cisco Nexus交換機;思科統一計算系統(CiscoUCS®)B系列刀片服務器和思科UCS C系列機架服務器。
本課程(包括自定進度的材料)可幫助您準備考試,以及實施Cisco數據中心核心技術(350-601 DCCOR)的知識,該考試將導致新的CCNP數據中心,CCIE數據中心和Cisco認證專家-數據中心核心認證。考試將於2020年2月24日開始。
購買在線學習
購買在線學習
尋找課程
尋找課程
思科學習庫
思科學習庫
私人團體訓練
私人團體訓練
尋找其他購買培訓的方式嗎?聯繫我們
持續時間福利報名技術課程詳細信息
課程時間
講師指導的培訓:在課堂上進行為期5天的動手實驗室練習,另加相當於3天的自定進度的教材
虛擬講師指導的培訓:5天的網絡課程和動手實驗室實踐,以及相當於3天的自定進度的教材
電子學習:相當於8天的內容,包括視頻,練習和挑戰
您將如何受益
本課程將幫助您: