地球發電不夠用,谷歌要把 AI 芯片送上太空

jh 2小時前

當下的全球 AI 行業,正面臨一個殘酷現實:“真正的 AI 瓶頸不是 GPU,而是電力(Power)”。 近日,微軟首席執...

當下的全球 AI 行業,正面臨一個殘酷現實:“真正的 AI 瓶頸不是 GPU,而是電力(Power)”。

近日,微軟首席執行官Satya Nadella在采訪時坦言,微軟現在有大批英偉達的AI芯片因為缺電放在倉庫里積灰。同樣的情況出現在谷歌歐洲數據中心,因電網限制被迫延期。

在此背景下,谷歌在本月正式啟動一項名為“太陽捕手計劃”(Project Suncatcher)的項目,宣布將自研 TPU AI 芯片送入太空,并且與衛星公司 Planet Labs 合作,在距地 650 公里的低地球軌道上構建 AI 計算集群。

看起來像是在技術炫技,實際上只是為了應對能源危機的抉擇。?

地球發電不夠用,谷歌要把 AI 芯片送上太空

開頭提到,來自地面電力體系的壓力,是谷歌轉向太空的直接動因。AI 算力的爆發式增長讓數據中心能耗呈指數級飆升:2010 年全球數據中心耗電約 200 太瓦時,2024 年已逼近 500 太瓦時,預計 2030 年將占全球總發電量的 8%。OpenAI 訓練 GPT-4 單次電耗超 1200 萬千瓦時,相當于歐洲小城市月用電量;一個萬卡 AI 集群運行功率就超過 7 兆瓦,絕非普通電網能承載。

谷歌自身的困境就更加明顯:其歐洲新數據中心因電網接入問題多次延遲,而愛爾蘭等數據中心密集地區已直接暫停新審批。

即便谷歌已將 Gemini 模型查詢能耗一年內降低 33 倍,但 AI 應用的增長速度遠超能效優化幅度,地面電力已嚴重阻礙了自家AI應用的發展。?

相比之下,太陽每秒輸出的能量是人類全球電力生產總量的 100 萬億倍以上。

按照谷歌的計劃,在選定的晨昏太陽同步低地球軌道上,太陽能板不僅能獲得地面 8 倍的能量密度,更能實現全年 99% 的持續供電,徹底擺脫晝夜與天氣干擾。有意思的是,太空真空環境還能完美解決了地面數據中心的冷卻難題,地面機房 35%-45% 的運營成本消耗在散熱上,而太空中的輻射散熱機制能讓 TPU 芯片在無需復雜冷卻系統的情況下維持穩定運行。

這樣一來,太空的數據中心可以不將電能傳回地面,而是直接在太空完成計算僅回傳結果,大幅提升了方案可行性。?

報道稱,目前的TPU 芯片已經實現了太空適配性突破,谷歌專為該計劃定制的 Trillium(TPU v6e)芯片,已通過 67 兆電子伏質子束的嚴苛測試:在承受 15krad 的輻射劑量時未出現硬件故障,即便最敏感的高帶寬內存(HBM)子系統,也能在 2krad 的劑量下保持穩定。

最后,為了構建規?;懔?,谷歌設計了由 81 顆衛星組成的密集星座:在 650 公里軌道上以 100-200 米間距編隊飛行,通過自由空間光學鏈路實現數據互聯。地面測試已實現 1.6Tbps 的雙向傳輸速率,采用密集波分復用技術后,單鏈路理論帶寬可達 10Tbps,滿足 AI 集群的低延遲通信需求。

當然,瘋狂的計劃背后也要算一筆經濟賬。谷歌的財務模型顯示,當火箭發射成本降至每公斤 200 美元以下時,太空數據中心的綜合成本將與地面持平。這里可以參照SpaceX 的星艦計劃,花旗等機構預測 2035 年左右即可實現價格拐點。當前發射成本雖仍高達每公斤 1500-2900 美元,按 SpaceX 的曲線,累計發射質量每翻倍,成本就能下降 20%。??

如果一切順利,谷歌將在2027 年初與 Planet 公司合作發射的兩顆原型衛星,用來驗證 TPU 在軌運行穩定性、光學鏈路通信效率及分布式機器學習能力。

盡管散熱材料優化、訓練任務抗輻射等難題仍待攻克,但這一探索已為 AI 突破能源枷鎖指明方向。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到