一窺 Habana 的推理和訓練神經處理器​來源:內容由半導體行業觀察(icbank)編譯自「wikichip」,作者:David Schor,謝謝。

Habana Labs 是市面上爲數不多的,有產品出貨的獨立 AI 初創公司之一。這家以色列初創公司成立於 2016 年,已獲得 7500 萬美元的 A 和 B 輪融資。Habana Labs 主要專注於數據中心,邊緣和工作站市場。在不到三年的時間裏,該公司已經將產品交付市場,並進行了第二代產品送樣以及下一代產品的預研。

Habana 的分叉產品線採用了兩種獨立的芯片設計–一種用於推理,另一種用於訓練。我們已經看到英特爾 Nervana NNP 等其他公司使用了這種方法。這使他們可以針對每種工作負載類型更好地進行優化。但是,Habana 則宣稱,他們依靠相同的基礎架構進行訓練和推理,但是針對稍有不同的工作負載優化了這兩種設計。但如英特爾等其他公司都依靠兩種截然不同的芯片設計。

Goya

Goya 是 Habana 的微體系結構,用於加速推理。Goya 採用臺積電(TSMC) 16 納米工藝製造,而這個產品實際上是 Gaudi 的簡化版本。芯片的兩個主要組件是 TPC (Tensor Processor Core:張量處理器內核)和 GEMM (通用矩陣乘法:general matrix multiply)引擎。

TPC 是該公司基於 VLIW SIMD 的 CPU / DSP 設計。這些內核基於自定義的 VLIW ISA,該功能具有專門的 AI SIMD 矢量指令。Habana 試水 TPC 的目的之一就是提高靈活性。這些內核是完全 C 可編程的,它們可以實現任何必要的 AI 功能,並且支持包括 8 位,16 位和 32 位整數和浮點運算在內的整個混合精度數據類型。使用 Habana 的軟件堆棧,提供粗粒度(coarse-grained)和細粒度(fine-grained)控制旋鈕(control knobs),以將硬件的精度控制到張量級別。這對於某些您希望降低性能但又會獲得更好的精度的領域非常重要(This is important for certain fields where you’d rather take a small performance hit but get slightly better accuracy)。完整的 Goya 芯片具有一個集羣中的八個 TPC。該芯片與 TPC 集羣一起集成了強大的 GEMM (通用矩陣乘法)引擎。

一窺 Habana 的推理和訓練神經處理器​

芯片的另一個有趣方面是 TPC 沒有本地緩存。相反,它們具有本地暫存器塊以及 GEMM 引擎和 TPC 共享的大型共享內存。緩存可以由軟件管理,以便針對較低的數據移動進行優化。這使他們能夠更輕鬆地從大型緩存池中傳輸數據,並改善 TPC 的確定性。Habana 表示,大多數模型應適合高速緩存並完全包含在芯片上。對於更大的內存池,爲芯片提供兩個通道的 DDR4 內存,總容量爲 16 GiB。

Goya 推理芯片 HL-1000 被封裝在 PCIe Gen 4 加速卡中。提供了兩個 SKU、所提供的冷卻類型有被動和主動、卡存儲容量之間的差異在 4 到 16 GiB 之間。Habana 說,卡的最大 TDP 爲 200 W,但我們可以預期典型功耗通常僅爲該值的一半。

一窺 Habana 的推理和訓練神經處理器​

Gaudi

Gaudi 是 Habana 用於加速訓練的微體系結構。與 Goya 一樣,它也是用 TSMC 16 納米工藝設計,並具有非常相似的架構。該芯片將八個 TCP 與 GEMM 引擎集成在一個集羣中。由於 Gaudi 是根據 Goya 設計的,因此 Habana 確實設法植入了一些新功能。就支持的數據類型而言,隨着行業將 bfloat16 作爲訓練的首選數據類型,Habana 在 Gaudi 中增加了對其的支持。Habana 說,在 TPC 和 GEMM 引擎中,它添加了 ISA 的一些新功能和硬件功能,以幫助加速某些較新的算法。

一窺 Habana 的推理和訓練神經處理器​

但是,存在許多關鍵差異。高迪旨在允許大規模訓練。Habana 說,在設計芯片時,關鍵的要求之一就是在小 batch size 時實現高吞吐量。另一個要求是使用標準以太網作爲通信介質。這與專有接口(例如英特爾的 ICL 鏈接或用於其 NPU 和 GPU 的 Nvidia Nvlink)完全不同。Habana 希望爲客戶提供使用現有硬件的自由,並利用標準以太網交換機進行擴展,而不是將其引入並鎖定在其他專有接口中。爲此,Gaudi 集成了 10 個 100 Gb 以太網端口以及 RoCE RDMA。此外,由於訓練需要更高的帶寬和更大的存儲容量。因此這個雙通東的 DDR4 接口被四個 HBM2 代替,且擁有 32 GiB 的內存。

一窺 Habana 的推理和訓練神經處理器​

Habana 提供兩種尺寸的 HL-2000 Gaudi 芯片:OCP 加速器模塊和標準 PCIe 卡。兩種尺寸都包含 32 GiB 的 HBM2 存儲器,總帶寬爲 1 TB / s。與 Goya 一樣,PCIe 卡也有許多散熱選項。

一窺 Habana 的推理和訓練神經處理器​

Habana 還提供了一個參考平臺,以允許不想打擾自己盒子設計的客戶使用。HL-1 包含八張 Gaudi HL-205 OAM 卡。HLS-1 的獨特之處在於他們沒有 CPU。Habana 安裝了八塊高 Gaudi 芯片,並將它們互連在一起,然後簡單地將連接性暴露給外界。公開了 4 個 PCIe 端口和 6 個 QSFP-DD 端口。客戶可以自由選擇最適合其工作負載的 CPU 類型和比率,並使用四個 Mini-SAS HD 端口進行連接。

一窺 Habana 的推理和訓練神經處理器​

Goya HL-1000 推理芯片已經交付了將近一年。目前,Gaudi HL-2000 訓練芯片正在提供樣品。Habana 已經在着手開發其下一代推理和訓練芯片,該芯片將轉移到 7 納米工藝進行。

*點擊文末閱讀原文,可閱讀 英文 原文。


*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》爲您分享的第 2160 期內容,歡迎關注。

推薦閱讀

汽車芯片科普

微電子專業介紹及發展前瞻

三大晶圓廠的先進工藝進擊之路

半導體行業觀察

一窺 Habana 的推理和訓練神經處理器​

半導體第一垂直媒體

實時 專業 原創 深度

識別二維碼 ,回覆下方關鍵詞,閱讀更多

晶圓|AI|臺積電|封測|亞馬遜|RISC-V|思科|存儲

回覆 投稿 ,看《如何成爲“半導體行業觀察”的一員 》

回覆 搜索 ,還能輕鬆找到其他你感興趣的文章!

一窺 Habana 的推理和訓練神經處理器​

一窺 Habana 的推理和訓練神經處理器​點擊這裏,可閱讀 英文原文 !

來源鏈接:mp.weixin.qq.com