NVIDIA 不久前在今年舉辦的國際超級電腦會議(ISC)中,發表了以最新的 Volta 架構所製作的新運算卡 Volta V100 運算卡 ,這張卡將在人工智慧運算上,以卓越的效率提供相當高規格的性能表現。這張運算卡基於 NVIDIA Volta 架構的 Tesla V100 GPU,令人期待它的表現:
不久前的 GTC 2017 大會上,我們知道 NVIDIA 推出了 Tesla V100 GPU 。這顆 GPU 雖然不像我們期待的那樣作為遊戲顯卡,但在人工智慧運算方面, Tesla V100 可是目前最強的處理器。
從 SXM2 到 PCIe , Volta V100 帶來深度學習強悍效能
Tesla V100 採用 TSMC 12nm FFN(FinFET NVIDIA)製程,擁有 21 億個電晶體,在 NVIDIA 歷年來的 GPU 中稱得上是相當驚人的成就。GTC 2017 當時所看到的是採用 SXM2 的外觀,但這回 NVIDIA 改用大家比較熟悉的 PCI Express 介面:
PCI Express 版 NVIDIA Volta V100 具有與 SXM2 版本相同的 Tesla V100 GPU,他們的 GPU 尺寸都是 815mm2,這個 GPU 晶片也是目前為止最大的晶片。
Tesla V100 GPU 晶片本身使用了全新的架構,只是原始規格看起來就很狂。 GPU 由 6 個 GPC 組成,它總共有 84 Volta 串流多重處理單元,42個 TPC ,而每個 TPC 內包含兩個 SM :
在總共 84 個 SM 中,每個 SM 都有 64 個 CUDA Core,所以在整個晶片上共有 5376 個 CUDA Core 。這些 CUDA 內核都可用於 FP32 和 INT32 程式指令,同時還有 2688 個 FP64(雙精度)運算核心。
除此之外,還有 672 個 Tensor 處理單元,336 個紋理單元。 Boost 時脈可達 1370 MHz。
運算效能方面, FP16 可達 28 TFLOPs,FP32 可達 14 TFLOPs,FP64 則達到 7.0 TFs。
該晶片更提供 112 個 DLOP(Deep Learning Teraflops),這是目前最快的晶片,透過致力於深度學習任務的獨立 Tensor 核心實現。
雖說 PCIe 版的時脈與運算效能略低於 SXM2 版,但 TDP 僅 250W,對比 SXM2 版的 300W 還是省了點電跟廢熱。也因此可以稱得上是一件壯舉:
▲Tesla 運算卡效能比較表(內容來源,大圖請點此)
記憶體架構更新了 8 個 512 位元記憶體控制器,這樣能達到 4096 位元的匯流排介面,能支援高達 16GB 的 HBM2 顯示記憶體。
記憶體頻寬在 boost 時擁有 878 MHz 的時脈。每個記憶體控制器都連結到 有 768KB 的 L2 快取。總共有 6MB 的 L2 快取供整個晶片使用。
另外, NVIDIA Volta V100 PCIe 版不會向 SXM2 版那樣有 NVLINK 支援,它配備一個被動式散熱的雙槽散熱器,散熱器將有金色與黑色的配色方案。與競爭對手相比, NVIDIA 以相對較低的瓦數提供更好的運算效能,在效率上有很高的評價。
另外在雙精度、單精度、半精度與 INT8 運算效能上,都比目前競爭對手未發表的運算卡高得多。 NVIDIA 公司目前已經將 Tesla V100 GPU 運送給合作夥伴與製造商,不久以後相信會看到更多採用這顆 GPU 的運算卡出現。