2024年阿里云基礎設施網(wǎng)絡(luò )團隊完成線(xiàn)性可插拔光模塊(LPO, Linear Pluggable Optics)規模上線(xiàn),成為全球首家實(shí)現LPO技術(shù)規模部署的云服務(wù)商,本次規模部署的LPO光模塊為基于單通道100Gbps的400G DR4光模塊,目前已成功支撐多個(gè)AI用戶(hù)長(cháng)期平穩運行,數據顯示LPO光模塊和傳統光模塊在保持同等傳輸性能和穩定性前提下,能夠降低光模塊功耗超50%以上。這一突破性技術(shù)應用將顯著(zhù)提升AI智算網(wǎng)絡(luò )的能效,為下一代高性能計算(HPC)和人工智能(AI)負載提供更高效、低碳的基礎設施支持。
??技術(shù)背景:
??AI智算網(wǎng)絡(luò )帶寬提升的挑戰
??回顧過(guò)去十年數據中心網(wǎng)絡(luò )演進(jìn)路線(xiàn),隨著(zhù)網(wǎng)絡(luò )帶寬不斷提升,光模塊的功耗上升速度高于交換芯片的功耗上升速度,2019年12.8T交換芯片首次使用50Gbps PAM4調制格式的Serdes,彼時(shí)DSP芯片開(kāi)始在光模塊中使用,光模塊的功耗開(kāi)始趕上交換芯片的功耗,未來(lái)1.6T/3.2T網(wǎng)絡(luò ),光的功耗將超過(guò)電的功耗2倍以上,功耗問(wèn)題成為網(wǎng)絡(luò )帶寬提升最大的挑戰之一。
技術(shù)突破:LPO破解帶寬功耗墻
面對這一關(guān)鍵挑戰,阿里云選擇LPO技術(shù)作為突破方向。LPO技術(shù)通過(guò)ASIC直驅線(xiàn)性光模塊,去除傳統光模塊中的DSP(數字信號處理)芯片,將光模塊功耗降低50%以上,同時(shí)降低了光模塊的成本,減少傳輸延遲,為AI數據中心提供更高帶寬、更低時(shí)延的網(wǎng)絡(luò )連接。
工程實(shí)踐:協(xié)同攻堅技術(shù)難題
??LPO技術(shù)因其具備CPO(Co-Packaged Optic)的低功耗、低時(shí)延、低成本等所有優(yōu)點(diǎn),并具有可插拔可維護的優(yōu)勢,然而這些技術(shù)優(yōu)勢的實(shí)現需克服重重的技術(shù)挑戰,LPO技術(shù)面臨光電信號完整性、不同廠(chǎng)家間互聯(lián)互通以及模塊生產(chǎn)測試等方面的技術(shù)挑戰,使各大云廠(chǎng)商望而怯步。阿里云基礎設施網(wǎng)絡(luò )團隊持續攻堅各項技術(shù)難題,通過(guò)交換機和光模塊協(xié)同設計優(yōu)化和端到端鏈路優(yōu)化,并深入研究LPO和交換機的邊界條件,制定了LPO光模塊技術(shù)標準和生產(chǎn)指南,成功解決了各項技術(shù)難題。此次部署的LPO光模塊是來(lái)自多個(gè)模塊生產(chǎn)商的多芯片方案,并在A(yíng)I智算網(wǎng)絡(luò )中互聯(lián)互通組網(wǎng)。
??綠色效益:推動(dòng)可持續發(fā)展
??LPO技術(shù)的規?;瘧檬前⒗镌欺`行綠色計算理念的重要里程碑。相比傳統方案,單個(gè)400G光模塊模塊功耗降低5W,LPO技術(shù)的規模部署可以顯著(zhù)降低數據中心碳排放,從而降低PUE,這與阿里云“綠色AI”戰略高度契合,通過(guò)底層技術(shù)革新助力客戶(hù)實(shí)現高效低碳的算力部署。
??展望未來(lái)
??本次LPO光模塊規模部署在保證穩定性的前提下,證明了LPO技術(shù)在A(yíng)I智算網(wǎng)絡(luò )中可規模部署,并且能夠帶來(lái)顯著(zhù)的能效收益。此次基于400G DR4 LPO技術(shù)的應用為未來(lái)1.6T/3.2T時(shí)代光鏈路功耗降低提供可能的路徑。