NVIDIA 今天宣布 NVIDIA Blackwell 平台已經到來,為運算新時代提供動力,使世界各地的組織能夠在兆級參數大型語言模型上構建和運行即時生成式人工智慧(AI),而成本和能耗比其前身最低可達 25 倍。 NVIDIA 的 Blackwell GPU 架構具有六項用於加速運算的變革性技術,這將有助於在資料處理、工程模擬、電子設計自動化、電腦輔助藥物設計、量子運算和生成式 AI 方面實現突破,這些對 NVIDIA 都是新興產業機會。
NVIDIA 創辦人暨執行長黃仁勳表示:「三十年來,我們一直在追求加速運算,目標是實現深度學習和 AI 等變革性突破。生成式 AI 是我們這個時代的決定性技術。 Blackwell 是推動這場新工業革命的引擎。我們將與世界上最具活力的公司合作,實現人工智慧對每個產業的承諾。」計劃採用 Blackwell 的眾多組織包括Amazon Web Services、戴爾科技集團、Google、Meta、微軟、OpenAI、甲骨文、Tesla和xAI。
Blackwell 的六項革命性技術推動加速運算和生成式 AI,共同支援 AI 訓練和即時大型語言模型推理,模型可擴展至 10 兆個參數。其中包括:
- 世界上最強大的晶片:Blackwell 架構 GPU 配備了 2080 億個電晶體,採用台積公司客製化 4 奈米製程製造,兩倍光罩尺寸 GPU 裸晶透過 10 TB/s 的晶片到晶片互連連接成單個、統一 GPU。
- 第二代 Transformer 引擎:透過新的微張量擴展(micro-tensor scaling)支援以及 NVIDIA 的先進動態範圍管理演算法整合到 NVIDIA TensorRT™-LLM 和 NeMo Megatron 框架中,Blackwell 將利用新的 4 位浮點 AI 推論能力支援加倍地運算和模型尺寸。
- 第五代 NVLink:為了加速多兆參數和混合專家(mixture-of-experts) AI 模型的效能,最新版本的 NVIDIA NVLink® 提供了每個 GPU 1.8TB/s 的雙向吞吐量,確保在最複雜的大型語言模型中高達 576 個 GPU 之間實現無縫的高速溝通。
- RAS 引擎: Blackwell 驅動的 GPU 包含一個專用引擎,可實現可靠性、可用性和可服務性。 此外,Blackwell 架構還增加了晶片級功能,利用基於 AI 的預防性維護來運行診斷和預測可靠性問題。 這樣可以最大化系統正常運行時間,並增強大規模 AI 部署的彈性,使其連續數週甚至數月不間斷地運行,並降低運營成本。
- 安全 AI:先進的機密運算功能可在不影響效能的情況下保護 AI 模型和客戶資料,並支援新的本機介面加密協定,這對於醫療保健和金融服務等隱私敏感產業至關重要。
- 解壓縮引擎:專用解壓縮引擎支援最新格式,加速資料庫查詢,以提供資料分析和資料科學的最高效能。 未來幾年,公司每年花費數百億美元的資料處理將越來越使用 GPU 加速。
巨大的超級晶片 NVIDIA GB200 Grace Blackwell 超級晶片透過 900GB/s 超低功耗 NVLink 晶片到晶片互連技術將兩個 NVIDIA B200 Tensor Core GPU 與 NVIDIA Grace CPU 連接起來。
為了獲得最高的 AI 性能,GB200 驅動的系統可以與今天宣布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum™-X800 乙太網路平台連接,這些平台可提供速度高達 800Gb/s 的先進網路。
GB200 是 NVIDIA GB200 NVL72 的關鍵元件,NVIDIA GB200 NVL72 是一種多節點、液冷、機架規模系統,適用於運算最密集的工作負載。 它結合了 36 個 Grace Blackwell 超級晶片,其中包括透過第五代 NVLink 互連的 72 個 Blackwell GPU 和 36 個 Grace CPU。 此外,GB200 NVL72 還包括 NVIDIA BlueField®-3 資料處理單元,可在超大規模 AI 雲端中實現雲端網路加速、可組合儲存、零信任安全性和 GPU 運算彈性。 與 NVIDIA H100 Tensor Core GPU 相比,GB200 NVL72 可提供高達 30 倍的大型語言模型推論工作負載效能,並將成本和能源消耗降低多達 25 倍。
Blackwell 合作夥伴的全球網絡
合作夥伴將從今年稍晚開始提供基於 Blackwell 的產品。AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 將成為首批提供Blackwell 驅動執行個體的雲端服務供應商。NVIDIA 雲端夥伴計劃的公司包括 Applied Digital、CoreWeave、Crusoe、IBM Cloud 和Lambda 也同樣將提供相應的產品。 主權 AI 雲端也將提供基於 Blackwell 的雲端服務和基礎設施,包括 Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle 美國、英國和澳洲政府雲端、Scaleway、Singtel、Northern Data Group 的Taiga Cloud、 Yotta 資料服務的 Shakti Cloud 和楊忠禮電力國際。
GB200 也將在 NVIDIA DGX™ Cloud上提供,這是一個與領先的雲端服務供應商共同設計的 AI 平台,讓企業開發人員能夠專門存取建置和部署先進生成式AI 模型所需的基礎設施和軟體。 AWS、Google Cloud 和 Oracle Cloud Infrastructure 計畫在今年稍後託管基於 NVIDIA Grace Blackwell 的新執行個體。
思科、戴爾科技集團、慧與科技、聯想和美超微預計將提供基於Blackwell 產品的各種伺服器,還有Aivres、永擎電子、華碩、Eviden、鴻海、技嘉科技、英業達、和碩聯合科技、雲達科技、緯創資通、緯穎科技和雲達國際科技。
此外,包括Ansys、Cadence 和 Synopsys 等全球領先的工程模擬公司與持續增加的軟體製造商,將使用基於 Blackwell 的處理器來加速用於設計和模擬電氣、機械和製造系統及零件的軟體。他們的客戶可以利用生成式 AI 和加速計算,更快地、以更低的成本和更高的能源效率將產品推向市場。
NVIDIA 軟體支援 用於生產級 AI 的端對端作業系統 NVIDIA AI Enterprise 支援 Blackwell 產品組合。 NVIDIA AI Enterprise 包括今天發布的 NVIDIA NIM™ 推論微服務,以及企業可以部署在 NVIDIA 加速雲端、資料中心和工作站上的 AI 框架、函式庫和工具。欲了解更多關於 NVIDIA Blackwell 平台的資訊,請觀看 GTC 主題演講並註冊參加 GTC 上由 NVIDIA 和產業領導者舉辦的大會,此大會將持續到 3 月 21 日。