隨著大數(shù)據(jù)的發(fā)展,計算能力的提升,人工智能近兩年迎來了新一輪的爆發(fā)。而人工智能的實現(xiàn)依賴三個要素:算法是核心,硬件和數(shù)據(jù)是基礎,芯片就是硬件的最重要組成部分。它其實包括兩個計算過程:1、訓練(Train);2、應用(Inference)。
為什么需要人工智能芯片?神經(jīng)網(wǎng)絡算法應用的不斷發(fā)展,使得傳統(tǒng)的CPU已經(jīng)無法負擔幾何級增長的計算量。深度學習作為機器學習的分支,是當前人工智能研究的主流方式。簡單說就是用數(shù)學方法模擬人腦神經(jīng)網(wǎng)絡,用大量數(shù)據(jù)訓練機器來模擬人腦學習過程,其本質(zhì)是把傳統(tǒng)算法問題轉(zhuǎn)化為數(shù)據(jù)和計算問題。所以對底層基礎芯片的要求也發(fā)生了根本性改變:人工智能芯片的設計目的不是為了執(zhí)行指令,而是為了大量數(shù)據(jù)訓練和應用的計算。
AI芯片的誕生之路
資料來源:公開資料整理
目前適合深度學習的人工智能芯片主要有GPU、FPGA、ASIC三種技術(shù)路線。三類芯片代表分別有英偉達(NVIDIA)的Tesla系列GPU、賽靈思(Xilinx)的FPGA和Google的TPU。GPU最先被引入深度學習,技術(shù)最為成熟;FPGA具有硬件可編程特點,性能出眾但壁壘高。ASCI由于可定制、低成本是未來終端應用的趨勢。
DPU
GPU使用SIMD(單指令多數(shù)據(jù)流)來讓多個執(zhí)行單元以同樣的步伐來處理不同的數(shù)據(jù),原本用于處理圖像數(shù)據(jù),但其離散化和分布式的特征,以及用矩陣運算替代布爾運算適合處理深度學習所需要的非線性離散數(shù)據(jù)。作為加速器的使用,可以實現(xiàn)深度學習算法。
GPU由并行計算單元和控制單元以及存儲單元構(gòu)成GPU擁有大量的核(多達幾千個核)和大量的高速內(nèi)存,擅長做類似圖像處理的并行計算,以矩陣的分布式形式來實現(xiàn)計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規(guī)模并行計算。
GPU與CPU的比較
資料來源:中商產(chǎn)業(yè)研究院
FPGA
FPGA是用于解決專用集成電路的一種方案。專用集成電路是為特定用戶或特定電子系統(tǒng)制作的集成電路。人工智能算法所需要的復雜并行電路的設計思路適合用FPGA實現(xiàn)。FPGA計算芯片布滿“邏輯單元陣列”,內(nèi)部包括可配置邏輯模塊,輸入輸出模塊和內(nèi)部連線三個部分,相互之間既可實現(xiàn)組合邏輯功能又可實現(xiàn)時序邏輯功能的獨立基本邏輯單元。
FPGA相對于CPU與GPU有明顯的能耗優(yōu)勢,主要有兩個原因。首先,在FPGA中沒有取指令與指令譯碼操作,在Intel的CPU里面,由于使用的是CISC架構(gòu),僅僅譯碼就占整個芯片能耗的50%;在GPU里面,取指令與譯碼也消耗了10%~20%的能耗。其次,F(xiàn)PGA的主頻比CPU與GPU低很多,通常CPU與GPU都在1GHz到3GHz之間,而FPGA的主頻一般在500MHz以下。如此大的頻率差使得FPGA消耗的能耗遠低于CPU與GPU。
ASIC
ASIC(專用定制芯片)是為實現(xiàn)特定要求而定制的芯片,具有功耗低、可靠性高、性能高、體積小等優(yōu)點,但不可編程,可擴展性不及FPGA,尤其適合高性能/低功耗的移動端。
目前,VPU和TPU都是基于ASIC架構(gòu)的設計。針對圖像和語音這兩方面的人工智能定制芯片,目前主要有專用于圖像處理的VPU,以及針對語音識別的FAGA和TPU芯片。
圖像應用和語音應用人工智能定制芯片
資料來源:中商產(chǎn)業(yè)研究院