top of page

點亮 Exascale AI 之路:高效能叢集中的光子技術 OFC2025

隨著人工智慧邁向 Exascale(百億億次)時代,光子技術正迅速成為支撐未來高效能運算叢集的關鍵。OFC 2025 的一場專題座談中,來自產業頂尖的專家們針對矽光子、光學互連與先進封裝展開深入討論,揭示了當前的技術突破與未來的發展路徑。


 

為什麼是光子?為什麼是現在?

傳統的銅線連接在面對 AI 訓練規模與運算密度快速成長時,正面臨功耗與訊號完整性等物理極限,特別是在同機櫃 GPU 間的 scale-up 連線需求日益嚴苛。未來的 AI 系統將需要數百 Tbps 的互連頻寬,而單一機櫃功耗可能突破 600kW,現有的外掛模組已難以應對空間與散熱的挑戰。












各位講者觀點整理


🔧 Andy Bechtolsheim(Arista)

1. 光模組需在「可靠性、功耗、成本」提升 10 倍

Andy 表示,Exascale 級 AI 資料中心未來可能需要上百萬個光模組,而目前的模組在穩定性與效率上仍不符需求。他點出三個核心痛點:

  • 可靠性(Reliability):AI 系統對於傳輸錯誤的容忍度極低,一條光路失效就可能導致整體運算效率下降。現有光模組失效率仍過高,軟性錯誤(如髒污連接器、雷射老化、MPI反射等)無法完全避免。

  • 功耗(Power Consumption):例如現今的 800G 模組,若使用 Retimed DSP 設計,每個可能耗電 25W。未來資料中心若使用幾十萬個模組,光模組總功耗可能達數百 MW,這直接與 GPU 爭電、損失可用算力。

  • 成本(Cost):高功耗與低可靠性會導致高運維成本與停機風險,未來光模組必須朝更具成本效益與大規模生產導向的設計前進。

Andy 建議業界必須針對上述三個面向達成「10 倍提升」,才能真正支撐 AI 時代的網路架構需求。


2. LPO vs CPO 的本質差異:不是技術,而是封裝方式

Andy 強調,LPO 與 CPO 在訊號傳輸方式本質上是一致的,差別只在於封裝的位置與形式

項目

LPO(Linear Pluggable Optics)

CPO(Co-Packaged Optics)

封裝位置

光模組在前面板,以插拔形式存在

光模組直接與 ASIC 共封裝於 BGA 上

設計自由度

較高,模組可獨立更換、升級

較低,綁定於單一 ASIC 與封裝設計

維修性

模組可快速更換,適合大量部署與維運

若光學元件損壞,需更換整台系統或主板

生態系統

廠商多元、相容性高

廠商少、整合性高但依賴性也高

簡而言之,LPO 是維持開放式模組化設計、維修便利與市場多樣性的實用解法,而 CPO 雖在頻寬密度與功耗控制上更具潛力,但需克服維修與供應鏈整合問題。


3. 維修便利性是企業部署光模組的關鍵

Andy 進一步指出,資料中心的營運模式高度依賴 快速部署與故障替換能力。以下是他的幾個重點觀察:

  • 若採用 CPO 架構,一旦其中一個光通道失效,將需要替換整個 switch(甚至 70 磅重的機櫃),這在維運與停機成本上都是巨大負擔。

  • 相較之下,LPO 可在幾分鐘內完成模組替換,且不需關機維修,大幅提升可靠度與 RMA 效率。

  • 他也提醒,CPO 並無法根除造成錯誤的根本原因(如接頭污染、反射、雷射不穩等),因此若光路故障發生在「非硬體毀損」情況下,CPO 架構反而可能使問題更難即時修復。







🌐 Fotini Karinou(Microsoft)

1. 傳統銅線連接無法支援跨機櫃的 Scale-Up 網路

Fotini 代表 Microsoft Azure 分享,隨著 AI 模型參數數量達到數兆等級(Trillion-scale models),訓練這些大型模型所需的 GPU 數量與記憶體頻寬急遽上升,這導致單一機櫃內部的資源已不敷使用,必須向跨機櫃(multi-rack)Scale-Up 架構延伸

但這也帶來一個關鍵瓶頸:

傳統的銅線連接(Copper Interconnects)在距離與功耗上已難以滿足超大規模 AI 的需求
  • 銅線雖具備低延遲與低功耗的優點,但距離受限,一旦機櫃之間需要高速連線,訊號衰減與功耗問題迅速放大。

  • 在 Microsoft 的實測經驗中,當 Scale-Up 延伸到跨機櫃時,現有銅線技術無法維持可接受的延遲與傳輸效率,成為推動光連線替代的重要契機。


2. 架構轉型:從分離介面到「統一物理層」

傳統的 AI 計算架構中,GPU 與主機之間、GPU 與 GPU 之間的連線通常使用不同類型的傳輸介面(如 PCIe vs. NVLink),這樣的設計在規模不大時尚可接受,但在擴展至大型叢集後會出現彈性不足與效能瓶頸。

Fotini 建議,未來架構應朝向:

「Unified Physical Layer(統一物理層)」,用一種通用的高速互連架構,同時支援:
  • GPU ↔ GPU 通訊(Scale-Up)

  • GPU ↔ 記憶體傳輸(High Bandwidth Memory)

  • 高效率的資料交換與 AI 模型推理需求

此種介面需具備以下特性:

  • 彈性高:可根據未來應用變化調整資源配置,不被硬體介面綁死

  • 延遲低:達到記憶體級存取延遲,甚至優於傳統 DRAM 的存取效能

  • 相容性強:能與不同模組、封裝技術協同整合(例如:Chiplet 架構)


3. 核心技術目標:<4 pJ/bit、低延遲、高可靠

Fotini 進一步指出,若要讓 Unified Physical Layer 成為現實,光學互連技術(尤其是矽光子)必須達成更嚴苛的效能門檻

目標項目

要求

功耗(Energy per bit)

小於 4 picojoules/bit,才能與銅線媲美甚至取代

延遲(Latency)

需低於 500 ns(適用於 RDMA 或記憶體存取級應用)

位元錯誤率(BER)

優於 10⁻¹²,以支援可靠的記憶體級通訊

頻寬密度

支援 >100 Tbps/rack 級傳輸能力

可靠性(RAS)

高度穩定、可維修、服務性佳,能適應 AI 運算 24/7 的負載特性

此外,Fotini 特別提到,這些新型互連技術不應該只從元件層思考,而是要以「系統角度」驗證整體可行性,包括溫控設計、封裝整合、故障復原能力等。









💡 Ashkan Seyedi(NVIDIA)

1. 每一瓦都是「效能貨幣」

Ashkan 強調了 NVIDIA 對於資料中心運算資源配置的核心觀點:

「每一瓦都代表可轉換為收益的算力」換句話說,把電用在通訊傳輸上,就等於削弱了 AI 推論與訓練能力的「主戰力」

他引用 Jensen Huang 在 GTC 中的講法指出,電力應該集中用於 GPU 本身的推理與訓練,而不是用來傳送資料。因此,低功耗、低延遲的光互連成為建構 AI 工廠的核心元件


2. CPO 大幅提升互連密度

Ashkan 解釋了為何 Co-Packaged Optics(CPO) 是實現 AI 工廠設計的關鍵:

  • 在相同功耗條件下,CPO 可實現高達 3 倍的 GPU 互連密度

  • 這讓一套系統可以以相同能源,連接更多 GPU → 增加吞吐量 → 產生更多 Token → 轉換為更多 AI 模型訓練與推論結果。

簡單來說,光互連設計若能提升效能密度,就等於創造更高的資料中心效益與利潤


3. 必須從系統架構評估技術選擇

Ashkan 以實務觀點分享:

  • 即便現在很多元件如 TF-LN、BTO、III-V laser integration 等都有商品化方案,但是否值得整合?不只要看元件效能,還要從封裝難度、熱敏感性、可靠性與維修策略整體評估

  • 舉例來說:雖然 On-chip laser 技術看似便利,但若可靠性不穩、熱管理困難,最終可能反而拖慢量產與部署進度。

他提醒整個光電生態系,不要為了技術炫技而失去系統優化視角。真正能快速上線、低功耗、易維護的整體解決方案,才是資料中心最終需要的。










🚀 Dave Lazovsky(Celestial AI)

1. 「Photonic Fabric」— 專為 Scale-Up 而生

Dave 推出 Celestial AI 所打造的 Photonic Fabric 技術,這是一套專為 AI Scale-Up 計算架構設計的光學互連平台,可視為類似「光學版的 NVLink」。

  • 目標解決:在越來越多 GPU 需要緊密互連的架構下,以最小功耗實現最大資料交換效能

  • Celestial AI 不與 Ethernet / InfiniBand 等 scale-out 協定競爭,而是專注在 scale-up 架構內的高速連接需求(如 GPU ↔ GPU / Memory ↔ Accelerator 等)。

2. 技術成果已落地

Photonic Fabric 已實現:

  • < 3.2 pJ/bit 的功耗

  • 每平方毫米達 1 Tbps 的頻寬密度

  • BER(Bit Error Rate)< 10⁻¹²

  • 完全不需 DSP(數位訊號處理器)

這樣的系統功耗與錯誤率控制,可支援記憶體級傳輸需求,如 AI 模型記憶體分區(RDMA),大幅降低系統功耗與空間佔比。

3. 熱穩定矽光調變器簡化封裝挑戰

Celestial 採用具「熱穩定性」的 SiPh 調變器(例如使用 GeSi 調變結構),不僅避免高溫引起失效,也讓整體封裝設計更彈性,並有下列好處:

  • 可與大型矽基 ASIC 共封裝,縮短電光轉換通道,降低損耗

  • 不需 DSP,即可維持極低錯誤率 → 節省功耗與面積

  • 通過 OMIB(Optical Multi-chip Interconnect Bridge)等封裝平台,可實現晶粒級光連接與系統整合

這也象徵著 Celestial AI 是以系統為出發點設計光子架構,而非只聚焦在元件性能的公司








🌏 Charley Bu(Accelink)

1. 中國市場:成本效益優先

Charley 指出,在中國 AI 資料中心的建設中,客戶最重視的不是高效能元件,而是:

「能否以最低成本建構可擴充、穩定的光連線系統」

因此,許多中國雲端業者對於:

  • LPO(Linear Pluggable Optics)

  • CPO(Co-Packaged Optics)

都持積極態度,尤其是 功耗控制好、價格具競爭力的解決方案,會優先被導入。


2. 400G / 800G 模組仍具長生命周期

與美國市場大舉轉向 1.6T Optics 不同,中國目前仍以 400G 與 800G 模組為主力建置規格。原因在於:

  • 模組技術成熟,供應鏈穩定

  • 成本明顯低於次世代模組

  • 在中國「私有 AI 數據中心」與中小企業部署中仍非常實用

他預期未來幾年,中國對舊世代模組的需求仍將持續上升,並 延長模組整體生命周期

3. 沉浸式液冷技術降低功耗達 40%

Charley 進一步分享,為了進一步控制系統功耗,中國多家業者正導入:

  • Immersion Cooling(沉浸式液冷)

  • 運用於 LPO / CPO 模組與系統散熱場景中

實測顯示,比起傳統風冷與空冷機房,可降低高達 40% 的系統能耗,對於大規模 AI 推論機房是極具吸引力的解方。

Accelink 也在 OFC 展場中展示了實機液冷模組,顯示其已進入實際應用部署階段。









產業趨勢洞察

這場座談清楚傳達出一個訊息:AI 系統網路已從「支援單元」躍升為「核心瓶頸」與「價值驅動」。光子技術不再是選項,而是必要解方。未來的贏家,將是能在以下指標上取得平衡的技術方案:

  • 功耗:< 4 pJ/bit

  • 頻寬:> 100 Tbps/rack

  • 可靠性與可維修性

  • 與 ASIC 封裝整合度高,具備量產能力

在 AI 工廠與雲端架構全面升級的時代,光子技術將點亮高速與高效運算的道路。

Comments


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page