AI革命徹底重塑了技術格局,但隨之而來的是對網路互聯和運算能力的全新挑戰。在面對如此龐大而複雜的AI工作負載時,我們不得不思考網路如何有效地擴展以支援數十萬個節點的規模?
傳統的資料中心任務通常可以在單一伺服器上管理,但AI訓練任務要複雜得多,需要資料在數百甚至數千台裝置之間流動,以實現無縫協同。 Ram Velaga認為,乙太網路是處理AI工作負載的首選方案,它擁有龐大的生態系統,並在資料中心中廣受認可。接下來,我們將重點討論是什麼使乙太網路成為當今AI工作負載的王牌,以及為什麼乙太網路注定會成為連接所有計算的黃金標準。 01. AI奇點是什麼? AI領域裡,有一個名詞叫做「奇點」。所謂的奇點是指機器智能達到或超越人類智能的水準,達到與人腦智能相容的時刻和狀態。然而,要實現這一目標,目前的單一晶片或多個互連晶片可提供的運算能力遠遠不夠,需要連接數萬、甚至數十萬個節點,建構一個龐大的系統網路。
那麼,網路是什麼?
乙太網路就是網路。它曾是雲端運算的網絡,現在是AI/ML的網絡,未來將繼續扮演滿足AI/ML需求的大規模網路的重要角色。
回顧過去一年,乙太網路領域取得了顯著的進展。乙太網路建立在開放標準的基礎上,擁有極開放的生態系統,支援即插即用和互通性。目前,乙太網路市場吸引了許多不同類型的參與者,2022年乙太網路連接埠的總出貨量達到60億個,這一事實突顯了乙太網路在經濟和規模經濟方面的強大優勢。 02. 乙太網路的50歲今年,是乙太網路問世50週年,這半個世紀以來,它不斷壯大。乙太網路發明者鮑伯·梅特卡夫因為對乙太網路的傑出貢獻而獲得了圖靈獎。在過去的一年裡,許多廠商宣布推出高性能交換機,以滿足AI/ML對頻寬的日益增長需求。 Broadcom宣布推出了多款高效能交換機,隨後Marvell和思科等廠商也推出了50T交換機,推動乙太網路更好地發展。
AI 集群通常有兩個不同的網路。第一種網絡,也是比較傳統的,是所有伺服器的外部或面向外部的「前端」網絡,當它們面向公共互聯網時,需要基於乙太網路和IP協定。 AI 的主要區別在於需要將大量資料輸入集群,因此管道比傳統的網路伺服器大得多。第二種是「後端」網絡,這是一個將AI 叢集資源連接在一起的獨特網路。對於AI 叢集來說,跨運算資源連接到其共享儲存和內存,並快速且沒有延遲偏差地執行這些任務,對於最大化叢集效能至關重要。
有人可能會問,前端網路是否基於以太網,而後端網路是否依賴類似InfiniBand的技術? Ram Velaga認為,其實這就是一個單一的網路──以太網,前端和後端都匯聚成一個乙太網路。
目前,全球最大的IT營運商的AI/ML基礎設施都連接在乙太網路上,而這一趨勢將持續下去。因為乙太網路擁有其它任何技術都無法匹敵的生態系統,它提供了故障排除、測試設備、監控設備,同時還支援供應商設備的靈活替換,這使得不同供應商的交換器或網路卡可以無縫協同工作。 03. RDMA有什麼問題?展望未來,我們該考慮什麼?可以看一下大語言模型的成長速度,在2020年,GPT-3具有大約1750億個參數,預計GPT-4將擁有超過1兆個參數。因此,無論是大語言模型還是推薦模型,都需要大量資源來處理模型的下一代和演進。
RDMA是實現從一個運算節點向另一個運算節點高效傳輸記憶體的技術之一。最初,它是針對InfiniBand而建造的。隨著時間的推移,RDMA不斷發展,業內廠商把RDMA移植到傳統乙太網路上,也就是RoCE。目前,RoCE和RDMA技術已經在許多擁有數千個運算節點的大規模環境中成功應用,實現了高效的資料傳輸和通訊。
然而,問題出現了。 20年前建置RDMA時,它主要用於連接一個節點到另一個節點,或或從100個節點到200個節點。因為當時,企業客戶甚至是大型石油和天然氣勘探公司購買的HPC集群通常只有256個節點,最多就1000個節點。然而,如今,擁有1萬個節點已經不是什麼稀奇事。人們開始探討更大規模,涉及10萬個節點甚至更多節點的部署。
那RDMA有什麼問題呢? RDMA在設計之初並不是為如此大的規模而建造的。首先,它不具備多路徑支持,這意味著資料只能透過一條路徑從點A傳輸到點B,而流量必須全部在這條路徑上傳輸。這導致了某些鏈路可能被浪費,而另一些鏈路可能被過度使用。
RDMA也包含了「分組傳遞」的概念,即在資料流中,所有資料包必須依序到達。這意味著第一個資料包必須在第二個之後到達,第三個必須在第二個之後到達,以此類推。而RDMA中的一項技術“Go-back-n”,意味著如果在RDMA資料流中某個資料包遺失,即使之後的資料包都已正常傳輸,也要從遺失的資料包開始全部重傳,這種方式非常低效。
此外,RDMA的設計是基於無丟包的網絡,使用了DCQCN(資料中心專用擁塞通知)而非TCP/IP協議,這使得網路非常脆弱,需要高度精密的工程處理。通常情況下,售賣系統的公司可能會希望客戶購買從光通訊設備到網路線再到整個系統的所有組件,並收取數倍費用。 04. RDMA現代化過去,RDMA的這些特性發揮了作用,但並不適用於當前技術發展趨勢。 7月,超乙太網路聯盟(UEC,Ultra Ethernet Consortium)誕生了,其目標是實現乙太網路的極高性能、超大規模以及世界上任何互聯都無法媲美的最佳經濟性。目前,已有 200 多家公司、組織和機構表示有興趣加入UEC。
UEC提出了一種解決RDMA問題的構想,稱為「Ultra Ethernet Transport」。他們採取了一系列措施來應對上述問題。總的來說,他們的理念是建立一個高效能的網絡,消除傳統RDMA中的低效率問題,以使其能夠在一個高度穩健的網絡環境中擴展到超過100萬個節點。
在超級運算領域,有一點至關重要,那就是資料包的遺失。微軟曾發表一篇論文,指出即使只有0.1%的資料包遺失,也會導致作業完成時間呈指數成長。這是因為必須回到資料包遺失的狀態,然後整個作業必須重新運行,效率非常低。
因此,UEC的目標是RDMA的現代化,這是高效能AI訓練的關鍵技術。 UEC… Continue reading
「藍色畫面」事件背後,保障軟體供應鏈安全的4個要素你知道嗎?
隨著軟體技術的發展以及產業情勢的變化,我們對軟體產品的關注角度也在不斷改變——從傳統的軟體產品品質(如功能、性能效率、相容性、可靠性等)到軟體產品的訊息安全性(如保密、完整性、抗抵賴性等),再到目前備受關注的軟體供應鏈安全。
2024年7月的微軟「藍色畫面」事件,再次引發了人們對軟體供應鏈安全的高度關注。那麼,我們該如何理解軟體供應鏈安全呢?首先,要了解軟體供應鏈的概念:軟體供應鏈是“需方和供方基於供應關係,開展並完成軟體採購、開發、交付、獲取、運維和廢止等供應活動而形成的網鏈結構” 。
其次,要了解軟體供應鏈常見安全風險:包括軟體漏洞、惡意篡改、軟體後門、供應鏈劫持、智慧財產權違規使用、供應中斷、資訊外洩等。再次,要了解軟體供應鏈安全的目標:在確保軟體程式碼安全的基礎上,使得使用者能夠安全、持續、穩定地使用軟體產品及軟體所涉及的支援服務。最後,要了解保障軟體供應鏈安全的4個要素(如圖1):軟體程式碼來源、軟體程式碼安全、軟體傳播與使用安全、軟體創新與演進。以下將為您詳細介紹這4個要素。
圖1 保障軟體供應鏈安全的4個要素
掌握軟體程式碼來源確定軟體程式碼來源是分析軟體供應鏈的基礎,可以透過建立軟體物料清單(SBOM)明確技術來源,使軟體供應鏈清晰、透明。軟體物料清單包含建構軟體所使用的各種組件的詳細資訊及供應鏈上下游依賴關係。
確保軟體程式碼安全軟體程式碼安全依賴軟體生產過程及成果物的安全。一方面,確保軟體生產流程(即軟體開發)涉及的開發環境(包括各類開發工具、平台)、開發配置、安全功能設計、程式碼實現與託管、測試、開發人員等因素的安全;另一方面,確保最終成果物(即軟體)的程式碼品質符合安全要求,即對軟體原始碼、二進位程式碼等進行安全檢測,查看是否有病毒、安全漏洞、後門、惡意程式碼等。
確保軟體傳播與使用安全軟體的價值在於廣泛傳播和使用。軟體傳播主要從智慧財產權合規、軟體發布與交付2個面向考查其安全性。智慧財產權合規確保軟體的傳播不會引入與智慧財產權相關的法律風險,軟體發布與交付要確保使用者取得的軟體不會被惡意篡改。軟體使用主要從軟體的運作環境、升級維護及安全保障3個面向考查其安全性。運作環境包括底層的伺服器、虛擬機器、容器等,升級維護包括技術支援、版本升級、修補程式更新等,安全保障主要從漏洞的發現、影響範圍排查、處置、上報、修復等方面進行考查。
增強軟體創新與演進能力軟體供應鏈安全的關鍵在於對核心技術的掌控,不僅體現在能獨立自主研發及實現軟體的核心模組或元件,還包括對開源軟體中核心程式碼、核心技術的吸收。因此,可從軟體核心模組自主研發能力、核心模組替換方案、客製化最佳化能力、對上游社群的程式碼維護貢獻、社群及產業成熟度等方面衡量軟體的創新演進能力。
【摘编自《保密科学技术》2024年2月刊《软件供应链安全能力模型研究》一文,作者: 翟艳芬、袁薇、王郁】… Continue reading
为什麼配了ip地址还要配环回地址?
原创 外太空的金山
一、環回接口
為了識別和管理網路設備(如路由器、pc),我們通常會利用這些設備的介面(包括實體介面和邏輯介面:如vlan)上設定的IP位址。但在許多情況下,儘管該設備未脫離網絡,由於其管理位址所處的介面狀態處於down,該設備便無法管理(因為實體連接斷開,介面協定起不來)。為了解決這個問題,於是便出現了loopback接口,該接口為設備上一個邏輯接口,接口狀態不受物理端口up/down的影響,只要設備的系統協議不出問題,該接口就不會down掉。順便補充一下,儘管3層vlan亦是邏輯接口,但通常我們使用的vlan都是居於端口的,而且核心層交換機vlan一般只關聯一個端口,當端口狀態處於down時vlan接口是無法up起來的。
由此可見loopback介面的位址無疑是標示實體設備本身的最佳選擇,因為只要設備運作正常,它將永遠處於up狀態。
二、環回位址及環迴路由loopback位址即為loopback介面上設定的位址,此位址用於標示設備本身。
A類位址段127.0.0.0被用作本地環回位址,一般設備都預設採用127.0.0.1,當然也可在loopback介面上設定公網IP,作為全網路的設備識別。
當設備發送給自己資料包時,就是把該資料包送到其loopback介面(其實是直接送給cpu處理)。但如果目的IP不是其loopback位址,它要如何得知封包的目的位址就是它自己的IP位址呢?此時就需要環迴路由來辨識了。
一般pc網卡上的IP及一些低階網路設備的管理IP都預設指向其環回接口,但許多高階設備都需要手動設定環迴路由。例如一台路由器的其中一個介面位址為61.175.201.54,則環迴路由應該設定為61.175.201.54/32 127.0.0.1,以表示該位址就在自身介面上。
三、應用舉例就拿pc來說,pc的網卡就等於路由器的一個介面。
如於一台pc網路卡上所設定的位址為220.172.115.50,而網路卡連接正常時,協定狀態up,在dos命令列狀態下輸入ipconfig可看到此網路卡上的IP位址。
此時在主機上ping其網卡位址的過程如下:主機發送一個icmp包,目的位址為220.172.115.50,請對方回答;主機依據預設環回主機路由發現封包目的位址的下一跳指向其loopback介面(主機事先並不知道該位址就在其網路卡上),於是將封包發送到其loopback介面(即直接發送到cpu);之後主機收到來源IP為220.172.114.50的ping包,於是對該數據包進行回答,回應包亦根據環迴路由原路返回。
從這個過程可看出,該封包的始發點和被接收點都在同一個介面(即主機本身的loopback介面),尋址過程為一個環回過程,因此該介面稱之為「環回接口」。當網路卡連線中斷時,協定down下,使用ipconfig發現「media disconnected」等提示,無IP位址顯示。
ping 220.172.115.50便出現「destination unreachable」等提示(由於網路卡協定沒起來,主機沒能發現對應路由,無法做出轉送決定,從而提示路由不可達)。但此時ping 127.0.0.0/8網段的IP均能ping通,因為一般pc預設把127.0.0.0/8網段IP作為loopback位址,當主機發現該封包的目的位址為其自身的環回地址時,便將該資料包直接送到其cpu。
由此可看出ping通環回位址並不表示就能ping通網卡位址,因此不要拿ping 127.0.0.1來偵測網路卡的好壞,這樣做是行不通的。
環回介面(Loopback interface)在路由器設定中的作用主要有以下幾點:
1. 建立路由鄰居:環回介面可以用來建立和維持路由鄰居的關係,這是網路中路由器之間的通訊方式,有助於確保網路中設備之間的連通性。
2. 作為 Router-ID:環回介面的位址通常被用作 Router-ID,即路由器的識別碼。由於環回介面的穩定性,使用其位址作為 Router-ID 可以使整個裝置的識別穩定可靠。
3. 虛擬隧道連線:在建立如 IPSec 或 GRE 等虛擬隧道時,使用環回介面可以確保整個隧道的穩定性。這是因為環回介面不受實際網路拓撲的影響,因此可以提供穩定的連接。
4. 網路連結性測試:建立並設定好環回介面之後,可以利用它的位址進行網路連結性測試,
例如實作 ping 或 telnet 作業。這可以幫助偵測和確認網路中的設備是否能夠互相通訊。
此外,環回功能還可以應用在連接埠、MAC、VLAN 和 IP 等多種網路層面上,用於偵測網路中的環路。例如,設備可以發送環路監測報文,並監測其是否返回本設備以確認是否有環路。這種方法適用於簡單的網路拓撲。
總的來說,環回介面在路由器配置中的主要作用是確保網路的穩定性和連結性,並提供路由標識以及進行網路測試等。… Continue reading
D-DS-FN-23:Dell Data Science Foundations 2023
Warning: Division by zero in /var/www/html/wwwroot/itrenzheng.hk/wp-content/themes/code-blue_20/functions.php on line 16
Warning: Division by zero in /var/www/html/wwwroot/itrenzheng.hk/wp-content/themes/code-blue_20/functions.php on line 16
Warning: Division by zero in /var/www/html/wwwroot/itrenzheng.hk/wp-content/themes/code-blue_20/functions.php on line 16
考試編號: D-DS-FN-23:Dell Data Science Foundations 2023,數據科學基礎
可用語言:英語
此認證使學習者能夠立即參與大數據和其他分析專案。此認證驗證了資料科學家所需的實用基礎技能。
Dell Data Science Foundations Certification Description:
認證概覽
此認證使學習者能夠立即參與大數據和
其他分析項目。此認證驗證了實際的基礎技能數據科學家所要求的。
認證要求
要成功完成此認證,候選人必須:
1.透過實際操作產品擁有足夠的知識庫/技能經驗和/或接受推薦的訓練。
2. 通過戴爾資料科學基礎考試。
注意:這些詳細資訊反映了截至 2024 年 2 月 3 日的認證要求經過驗證的專業計劃定期更新認證以反映技術貨幣和相關性.
請查看經過驗證的專業網站定期了解最新資訊。
考試概述
該考試重點關注數據分析的實踐、數據科學家的角色、數據分析的主要階段
生命週期,使用 R 分析和探索數據,模型建立和評估的統計,理論和方法
進階分析和統計建模,可用於進階分析的技術和工具,
實施分析專案和資料視覺化技術。
考試主題
本次考試可能涵蓋的主題包括:
大數據、分析和數據科學家角色 (5%)
• 定義並描述大數據的特徵
• 描述大數據分析和資料科學的商業驅動因素
• 描述資料科學家的角色和相關技能
資料分析生命週期 (8%)
• 描述資料分析生命週期的目的和階段順序
• 發現 – 描述此階段的詳細信息,包括活動和相關角色
• 資料準備 – 描述此階段的詳細信息,包括活動和相關角色
• 模型規劃 – 描述此階段的詳細信息,包括活動和相關角色
• 模型建構 – 描述此階段的詳細信息,包括活動和相關角色
數據初步分析 (15%)… Continue reading
從Python到MicroPython如何轉變
原创 Python教程
隨著物聯網(IoT)的快速發展,越來越多的開發者開始涉足嵌入式系統程式設計。而對於習慣使用 Python 的開發者來說,MicroPython 是一個理想的過渡工具。
MicroPython 是一種專為微控制器等資源受限裝置設計的精簡版 Python,它不僅繼承了 Python 的簡潔和高效,還適配了硬體資源的約束。本文將介紹如何從 Python 轉向 MicroPython,幫助你快速上手嵌入式開發。
什麼是 MicroPython?
簡單來說,MicroPython 是 Python 3 的精簡版。它被專門設計用來運行在微控制器和其他嵌入式設備上,例如 ESP8266、ESP32 和 Raspberry Pi Pico 等。
MicroPython 保留了 Python 語言的大部分核心功能,因此對於 Python 開發者來說,轉向 MicroPython 不會感到太多陌生。然而,由於嵌入式設備的硬體限制,MicroPython 在記憶體、儲存空間以及處理能力上進行了最佳化,因此在效能和功能上與標準 Python 之間存在一些差異。
MicroPython 與 Python 的主要區別
儘管 MicroPython 與 Python 非常相似,但兩者在開發環境、效能以及函式庫的支援上存在一些顯著差異。在轉向 MicroPython 之前,理解這些差異是至關重要的。… Continue reading