新版GKE可管理最多6.5萬叢集節點，超越AWS、Azure 10倍

圖片來源:

Google Cloud

Google Cloud公布最新Google Kubernetes Engine版本，號稱可支援最高達65,000個節點的伺服器叢集，以執行超大型AI模型。

生成式AI技術演進及應用普及，推升了大型語言模型（LLM）規模及參數量也愈來愈大，目前許多已突破千億參數，甚至有些來到2兆。而訓練這些大型模型的加速器，需要超過1萬個節點的運算基礎架構。

Google Kubernetes Engine（GKE）向來可支援多節點叢集，以執行AI模型訓練任務。先前版本GKE可支援1.5萬個叢集節點，隨著新版推出，現在GKE可支援高達6.5萬個節點的叢集。Google認為最新GKE支援的節點規模，是Amazon和微軟的10倍以上。

以Google Cloud而言，現在單一節點提供了多個加速器，像是搭載4顆晶片的Cloud TPU v5e節點，因此單一叢集使用最新版GKE後，最多可管理超過25萬顆加速器。

Google說明新版GKE較前代的創新。首先，該公司將Key-Value資料庫由etcd換成了以Google Spanner為基礎的key-value資料庫，後者幾乎規模無上限，可改善叢集運作（如啟動和更新）延遲性，及無狀態叢集控制層（control plane）。Google並實作etcd API以提供回溯相容性，使核心Kubernetes無需變更。

其次，Google改善了管理Kubernetes控制層的GKE基礎架構，使GKE現在擴充速度更快，改善的控制層有多重效益，包括能執行高一致性的大容量運算。控制層現在能自動因應運算調節，並使延遲性維持在可預測範圍。這點對執行大型動態應用如SaaS、災難復原和備援、批次部署以及測試環境來說尤其重要。

有了新版GKE，Google Cloud強調更能支援AI模型任務。訓練AI模型時企業需要分配運算資源給多個工作負載，因此將任務集中在少量叢集可提供最大調度彈性，執行推論、研究和訓練的作業。Google說，由於支援6.5萬個節點，現在GKE允許單一叢集執行5種任務，每種任務的執行效能，都足以媲美2023年Google Cloud以5萬餘顆TPU v5e，締造的10 exa-FLOPs的LLM訓練速度世界紀錄。

熱門新聞