
IBM公布了光學技術的突破性研究,該研究可極大改善數(shù)據(jù)中心訓練和運行生成式AI模型的方式。研究人員開創(chuàng)了一種共封裝光學器件(CPO)新工藝,這是下一代光學技術,可通過光學器件以光速實現(xiàn)數(shù)據(jù)中心內(nèi)的連接,以補充現(xiàn)有的短距離電線。通過設計和組裝第一個公開宣布成功的聚合物光波導(PWG)來為該技術提供動力,IBM研究人員展示了CPO將如何重新定義計算行業(yè)在芯片、電路板和服務器之間傳輸高帶寬數(shù)據(jù)的方式。
如今,光纖技術可高速傳輸長距離數(shù)據(jù),幾乎用光而不是電來管理世界上所有的商業(yè)和通信流量。盡管數(shù)據(jù)中心使用光纖作為外部通信網(wǎng)絡,但數(shù)據(jù)中心的機架仍然主要通過銅質(zhì)電線進行通信。這些電線連接GPU加速器,而這些加速器可能有一半以上的時間處于閑置狀態(tài),等待來自大型分布式訓練過程中其他設備的數(shù)據(jù),這可能會產(chǎn)生大量的費用和能源。
IBM研究人員展示了一種將光學速度和容量引入數(shù)據(jù)中心的方法。在一篇技術論文中,IBM 介紹了一種可以實現(xiàn)高速光學連接的新型CPO原型模塊,該技術可以顯著增加數(shù)據(jù)中心通信的帶寬,最大限度減少GPU停機時間,同時大幅加速AI處理。如上所述,這項研究創(chuàng)新將實現(xiàn):
與中檔電氣互連相比,通過將能耗降低5倍以上,降低擴展生成式人工智能的成本,同時將數(shù)據(jù)中心互連電纜的長度從一米延長到數(shù)百米。
更快的AI模型訓練,使開發(fā)者能使用CPO訓練大型語言模型,速度比傳統(tǒng)電線快五倍。CPO 可以將訓練標準LLM所需的時間從三個月縮短到三周,并且通過使用更大的模型和更多的 GPU,性能會進一步提升。
大幅提高數(shù)據(jù)中心的能源效率,每個經(jīng)過訓練的AI模型可節(jié)省相當于5000個美國家庭一年的電力消耗。
IBM高級副總裁兼研究總監(jiān)Dario Gil表示:“由于生成式人工智能需要更多的能源和處理能力,數(shù)據(jù)中心必須不斷發(fā)展,而同封裝光學器件可以讓這些數(shù)據(jù)中心面向未來。憑借這一突破,未來的芯片將像光纖電纜將數(shù)據(jù)傳入和傳出數(shù)據(jù)中心一樣進行通信,從而開啟一個更快、更可持續(xù)的通信新時代,可以處理未來的人工智能工作負載。”








