如果有人在四五年前說AI 對於消費者就是個玩笑,除了宣傳上顯得高大上在實用中幾乎沒用,想必還是能夠獲得不少的支持。但是到了2019 年,再說AI 是噱頭,那麼反對者可以拿出的反駁證據都足夠從清晨說到午夜。
在離大眾消費者最近的智慧型手機和移動互聯網上也是如此,三年前有給智慧型手機廠商做廣告的乙方找到我做問卷調研,對「要不要向消費者做AI 宣傳」十分猶豫。如今呢,在中高端手機發布會裡面,可以不跑分,但是不能不講AI,於大眾而言,大量的AI 落地應用證明,AI 正從玄學變成顯學。
高通AI Engine 進化,和以往有何不同?
說智慧型手機,就繞不過高通的驍龍芯片,現在說智慧型手機的AI,也是繞不過高通的人工智能引擎(AI Engine)了。
早在2015 年,從驍龍820 芯片開始,高通就開始在驍龍平台上集成了第一代人工智能引擎AI Engine,不過這遠遠不是高通在AI 領域的起點。高通對AI 投入研究的開端可以追溯到2007 年,而關於人工智能處理架構的研究也早在2013 年就開始了。
面向中高端的一代神U 驍龍660 則是高通AI Engine 為更廣泛的大眾所用、所知的開端。作為一款2 年前發布的芯片,驍龍660 至今還在發光發熱,OPPO、vivo 和小米等國內主流智慧型手機廠商使用這款次旗艦級處理器支撐了一代又一代主力出貨機型。從支持《王者榮耀》高幀率模式,到帶上AIE 後綴與vivo 人工智能助手Jovi 一起發布,驍龍660 和AI Engine 見證了移動遊戲業的全民狂熱,還有人工智能在手機上的落地應用。
不過熟悉人工智能技術發展,尤其是神經網絡技術演進的人就知道,神經網絡算法的發展實在太快了,算法迭代以月計算,複雜度呈指數級增長,不同的應用和不同的行業,對神經網絡性能也有著不同的需求。面對這些需求,依靠單一硬件核心就捉襟見肘了。
因而,異構運算就必須得出場了。
在驍龍855 芯片上,高通將AI Engine 架構升級到了第四代,基於前幾代的人工智能引擎AI Engine 的理念,驍龍855 移動平台集成的第四代AI Engine 延續了驍龍的異構多核可編程架構,對每個內核進行進一步的優化。並且,高通第四代 AI Engine 有個重大提升:新增了兩個HVX(Hexagon 向量加速器)和一個高通自主設計、面向AI 處理的硬件核心HTA(Hexagon 張量加速器)。
雖然名字有點兒複雜,但是我們可以通俗地解釋一下:採用多核異構可編程,新增兩種加速器,高通第四代AI Engine 就像會七十二變的哪吒,面對各種計算任務有很強的變通適應能力,並且還有三頭六臂能夠同時處理複雜任務,還能聰明地根據任務的性質,進行最高效的任務分配。
在驍龍855 的第四代 AI Engine 上,涉及到AI 運算的地方主要包括Hexagon 690 處理器,Adreno 640 GPU 和 Kryo 485 CPU。
CPU 和GPU 很好理解,在驍龍855 上也得到了各種升級,這裡主要談一下AI 方面:與驍龍845 相比,Adreno 640 GPU 算術邏輯單元(ALU)有50% 的提升,進一步加速更高精度神經網絡的運行;全新Kryo 485 CPU 中新增了點積指令,以進一步加速AI 性能。
更關鍵的改變在Hexagon 690 數字信號處理器上,不光是性能強了,內核多了,並且,高通還將以往DSP(數字信號處理器)需要處理的計算機視覺算法,放在了攝像頭相關硬件模塊(CV-ISP,計算機視覺影像信號處理器)上來處理,從而釋放了DSP 的一部分運算能力。新增的HTA (Hexagon Tensor Accelerator,Hexagon 張量加速器)則是高通專門面向AI 處理器的硬件核心,可以自主管理硬件中神經網絡計算單元,獨立完成每一層神經網絡的運算。
在其他的廠商宣傳中,這個新增的 HTA 可能被稱為NPU,或者神經網絡引擎等等。
AI 有點難懂,但你可能已經離不開AI 體驗了
對於大多數消費者來說,智慧型手機背後的處理器啊,引擎啊,異構運算都過於枯燥和難懂。性能再強大,不能讓消費者不能直觀的感受到,都是紙上談兵。
然而,AI 從芯片到消費者之間的距離,物理上可能只有一層手機殼和一層主板,技術開發與融合到終端側應用的落地,則需要全球化的協作。首先,AI Engine 要支持主流操作系統,比如Android、Windows 和Linux;還要對各種軟件、工具以及各類框架的支持,比如Google 的Tensor Flow、Caffe2 等等;然後就是我們相對熟悉的,硬件上需要支持手機、電腦、無人機、VR 眼鏡等等;最後就是和各種軟件開發商合作了,做出各種能利用AI Engine 的預優化軟件應用,讓消費者最終能夠上手使用。
從高通AI Engine 到手機使用場景,有一個我們最常用的AI 應用案例:手機拍照自動識別場景,並針對場景做優化,讓夜景更明亮,逆光不過曝,食物更誘人,自拍更好看… 這樣的智能輔助拍攝算法一部分由手機廠商自己研發,更多則是軟件開發商的研究成果,如國內的曠視科技和商湯科技,就針對手機拍照做了不少的研究,很多自拍的算法,也是來自虹軟。而這些軟件開發商,幾乎都是高通的AI 生態系統合作夥伴。以下是目前已有的清單:
- 拍攝領域:AnyVision、虹軟、曠視科技、Loom.ai、Nalbi、潑辣、商湯科技、創通聯達、Uncanny Vision
- 音頻/翻譯:有道、思必馳、大象聲科、科大訊飛
- 手勢:Elliptic Labs、Qeexo
- 增強現實(AR)領域:網易、商湯科技
- 汽車領域:Cogent Embedded Technology、Jungo、PathPartner Technologies、縱目科技
圍繞高通的人工智能引擎AI Engine,高通打造了一個強大的AI 生態系統,在上面的AI 軟件合作之外,還有騰訊、百度、亞馬遜、阿里巴巴這些的雲服務提供商。他們一起,給包括智慧型手機在內的搭載驍龍平台的終端帶來降噪、夜拍、超分辨率、人臉識別、語音識別、對象檢測、視頻分割、背景虛化等等各種AI 功能。
Nalbi 是一家從事計算機視覺的人工智能公司,借助於驍龍855 上的第四代 AI Engine 可以完成一些以往難以在手機上實現的功能。比如先拍照,後對焦。
在很早之前,就有Lytro 這樣的創業公司做了售價不菲的光場相機,提供了先拍照後對焦的功能,不過因為成本和體驗原因,消費者並不買賬。後續也有手機廠商嘗試了類似的功能,不過因為技術還不夠成熟,體驗也不夠好。
到了現在,不光是手機攝影的影像傳感器大了,像素高了,而且處理器的速度也更快,人工智能也能在手機本地處理複雜運算,這就使得如今的「先拍照後對焦」達到了真正可用的狀態。
如果說 Nalbi 這個技術是對既往技術的優化,還不夠突出人工智能的厲害的話,那麼實時的視頻渲染就是說明了高通AI Engine 賦能的手機端人工智能有多麼的黑科技了。
在 Nalbi 的演示視頻裡面,這位姑娘的頭髮顏色可以隨心變換。相比於靜態的圖片,動態視頻的渲染無疑要難得多,涉及到了人臉識別、對象偵測等等多種技術,這也證明了結合第四代AI Engine,軟件廠商可以在手機端做出更炫酷更適合大眾用戶的功能了。
圖像處理是手機端人工智能的拿手好戲,這不意味著驍龍855 和第四代AI Engine 只能沉醉光影,不能聽聲辨位。
通話消噪也是人工智能可以發揮的舞台,雖然手機麥克風在硬件上可以定向拾音做到一定程度上的消噪,不過要是集合人工智能的功能的話就更好了。其實在驍龍855 發布的時候,高通和合作夥伴大象聲科就演示了在酒吧、體育館、噴泉旁等人聲鼎沸人海茫茫的地方的通話消噪功能。有了這個功能,哪怕是喬峰扛著錄音機在身邊打一套降龍十八掌也不會影響通話了。
實際上除了「縱情聲色」之外,在一些硬核技術上,高通的 AI Engine 還能起到錦上添花的作用。
比如vivo 在屏幕指紋技術的投入領先於友商們,這也意味著他們要先人一步地去解決各種各樣的技術問題。相比於傳統的電容式指紋識別,屏下光電指紋識別的技術原理完全不同。低溫乾手指和強光直射等環境是屏幕指紋識別中典型的難識別場景。這種場景下,就需要用到「補錄機制」,不過這也意味著處理時間的增加。
在傳統的處理方式中,指紋識別的數據處理都是通過CPU 單核單線程完成的,不過在低溫乾手指、強光直射這類「刁鑽場景」下,屏幕指紋識別所需的圖像增強和對比識別的處理過程相對複雜,對硬件性能的要求也更高,傳統基於單核CPU 運算的解決方式難以實現暢快的解鎖體驗。後來vivo 和高通就合作起來解決這個問題:由於DSP 與單核CPU 相比,在屏幕指紋識別的核心處理流程上具備數倍的神經網絡和矢量計算的優勢,利用DSP 加速,不僅解鎖速度快,而且還更安全。
在剛剛談論到的這些之外,我們還能看到許多基於高通AI Engine 的一系列應用:網易有道的實時AR 翻譯,商湯做出的實時視頻渲染風格轉換,曠視科技的3D Animoji 等等。
其實,當我們拍照出現自動場景識別,屏下指紋識別用到了DSP 加速,通話的時候有智能降噪的時候,就說明了,AI 其實開始成為一種基礎能力了。不過有的時候,往往就是基礎能力,得不到消費者的感知和了解。
再看看上面那張高通AI Engine 發散開來的AI 生態系統,就會發現,在未來,AI 不光會是在手機裡面會佔有越來越重要的位置,隨著5G 的普及,聯網設備會空前增加,天上飛的無人機,地上行駛的汽車,工廠裡的機器人等等都將與AI 產生不可分割的聯繫,AI 將無處不在。