明年手機ISP將有飛躍突破 AI除能幫你自動修圖外還能做到這些

撰文:機器之心
出版:更新:

認知能力,未來手機的標配?

手機是攝影的主流設備,時至今日,全球已有 92.5% 的照片是由智能手機拍攝的。但有些時候,我們對手機拍出的照片質量也並不一定完全滿意:人人都向往單反畫質、一鍵成片,但經常因為底不夠大,AI 不夠智能等問題無法如願。

從多攝像頭到 AI 晶片,手機廠商為此想出了不少辦法。最近,有人展示了計算攝影的新技巧,不論你拍照技巧如何,AI 可以自動幫你消除照片中的瑕疵,比如去除眼鏡片上的眩光:

自動優化人物面部,並讓頭髮等細節更加清晰:

+2

如果拍到了 PPT,算法還可以自動幫你調成正對畫面,讓上面的文字更加易讀:

此外把天空變藍,草變綠,水變清等影像算法的「常規能力」更是不在話下,而且這回 AI 識別得更準了,不會像過去那樣經常摳錯圖。

這不是實驗室中傳出的 demo,而將是最近一系列旗艦機型的標配。11 月 16 日,高通在夏威夷舉辦的 2022 驍龍峰會上正式發布了第二代驍龍 8 移動平台。作為明年旗艦級手機的核心,除了一系列提升,其還帶來了前所未有的 AI 認知能力。

第二代驍龍 8 (機器之心提供)

為了讓手機成為從拍照到出片端到端的完整影像平台,第二代驍龍 8 移動平台用一塊全新的 ISP 實現了移動影像技術的融會貫通。

專用計算單元,搞定實時語義分割

要想讓 AI 幫你修圖,就要有足夠強大的硬件。第二代驍龍 8 移動平台是下一代移動手機晶片的標杆,在使用台積電 4nm 製程提升算力,大幅增強能耗表現的同時,它搭載了高通旗下速度最快、最先進的 AI 引擎,前所未有的「認知 ISP」(Cognitive ISP)則大幅提升了 AI 圖像處理能力, 支持實時語義分割實現照片和視頻的自動增強。

上圖中 AI 識別畫面中特定內容的過程名叫語義分割(Semantic Segmentation),是計算機視覺經典四任務(分類、定位、檢測和分割)中相對最難的一個,結合了圖像分類、目標檢測和圖像分割等任務,需要通過一定的方法將圖像分割成具有語義含義的區域,並識別出每個區域塊的語義類別,實現從底層到高層的語義推理過程,最終得到一幅具有像素級語義標註的分割圖像。

具體來說,算法需要自動幫你把畫面中的重要人物、動物、背景,或是人物的五官、頭髮、手錶、揹包、眼鏡等細節輪廓識別出來,就像這樣:

AI自動幫你把畫面中的重要的物件輪廓識別出來(ArcSoft)

深度學習時代,人們通常使用神經網絡來進行語義分割。即使是在 2022 年的 AI 頂會論文裏,語義分割推理任務大多也還需要台式機 GPU 來執行。而有了第二代驍龍 8,我們已經可以直接在移動端本地完成這樣複雜的任務了。

為了把這種能力塞進手機,第二代驍龍 8 上進行了架構的重大更新。全新的認知 ISP 是 Spectra 圖像處理單元的升級,它可以處理 2 億像素攝像頭傳來的訊息,優化視頻和拍照時語義分割的速度,以便對畫面中的每個細節進行專門的圖像增強。

認知ISP能對畫面中的每個細節進行專門的圖像增強(機器之心提供)

僅僅劃分專門計算單元還不夠,認知 ISP 與第二代驍龍 8 上的 AI 處理器之間通過「Hexagon 直連」技術實現了物理層面上的直連,以此來提高帶寬,協同工作,以便實現更深層次的圖像優化。

驍龍的 AI 專用處理單元 Hexagon 也經歷了架構變化,升級了微切片圖塊推理和更大的張量加速器,由於引入 INT4 精度格式的支持,在 AI 推理時性能最多可以提高 4.35 倍,功耗比提升 60%,可實現持續不斷的 AI 推理。

憑藉第二代驍龍 8 移動平台的實時語義分割能力,修圖的整個過程在認知 ISP 和 AI 晶片裏自動完成,手機現在可以實時提升照片畫質,其過程在按下快門之前就已經開始了——你在手機屏幕取景框裏看到的就是增強過的畫面,所見即所得,徹底消除抓拍不到完美瞬間的焦慮。

Snapdragon影像技術將踏入新時代(機器之心提供)

在認知 ISP 的加持下, Snapdragon Sight 驍龍影像技術開啟了專業品質相機體驗的新時代,為我們帶來了突破性的定製專業畫質增強。每家手機廠商都可以基於新的硬件,按照自己擅長的方式調校出特有功能,在新手機到來之後,我們就可以看到實時語義分割的強大能力了。

AI 技術積累帶來質變

通過 Mega Multi-Frame Engine,第二代驍龍 8 可以將多達 30 張圖像的最佳部分組合成一張圖像,大幅增強夜間拍攝效果,捕獲上代 5 倍的細節。在超廣角攝影任務中,通過幾何校正引擎 GCE 校正 120 和 140 度全景照片中的鏡頭畸變、曝光補償、色差和邊角區域。

還有專用的人臉檢測 (FD)引擎,基於深度學習的 3D 人臉界標檢測,識別準確率達到 95%,可以識別畫面中人物的性別、情緒和表情,進行注視檢測、頭像疊加和幾何個性化,為未來的 AR、IoT 和元宇宙 App 做好了準備。

為了實現最佳圖像表現能力,第二代驍龍 8 與一些高端圖像傳感器進行了聯合優化(機器之心提供)

為了實現最佳圖像表現能力,第二代驍龍 8 與一些高端圖像傳感器進行了聯合優化,包括與索尼 IMX 989 和 IMX 800,其率先支持了四倍數字重疊 HDR 技術。三星 ISOCELL HP3 是首款針對第二代驍龍 8 優化的 2 億像素圖像傳感器,可提供專業級品質的照片和視頻。

影像能力是各家智能手機比拼的關鍵點,第二代驍龍 8 移動平台為計算攝影帶來了強大的基礎。不過,支撐它 AI 能力不僅能用來拍照,還能帶來很多比以往更加直觀的體驗,高通還展示了讓手機實現多語言翻譯和轉錄、AI 視頻增強、更複雜的語音指令、面向下一代遊戲的高智能 NPC 等等能力。

最近幾年來,高通在 AI 領域的佈局逐漸體現出了效果,不知不覺地,AI 成為了新晶片升級的重頭戲。

+2

高通在人工智能領域的投入由來已久,早在 2007 年該公司就啟動了首個 AI 項目,2018 年成立了 AI 研究院,如今每年都有數十篇論文在 AI 學術頂會上出現。

在正在舉行的 NeurIPS 2022 上,高通展示了一系列技術,包括 FP8 浮點數降低機器學習算力需求、減小注意力機制內存用量、更高效的批處理貝葉斯優化方法等。看得出很多工作的目標是在有限算力的移動設備上部署 AI 算法。

還有一些方向則是基礎研究,高通還探討了因果表示學習,深度學習有效性,甚至還有一個冷凍電子顯微鏡 (Cryo-EM) 成像的研究,可以利用 2D 圖像高分辨率重建生物分子的 3D 結構。

此前高通曾表示,自己的 AI 技術從最初發現到形成開源或商業化生態,只需要 2 到 3 年時間。等這樣的技術落地,不知我們會看到什麼黑科技出現。

正如高通總裁、首席執行官 Cristiano Amon 在發布會上所說的:「只有發展出持續工作的處理器、實時連接的網絡才能讓 AI 的強大能力在生活中展現。高通正處在這一切的中心,我們已經有了完整的路線圖。」

基於高通「統一的技術路線圖」,AI 能力正在進入驍龍晶片的方方面面, 第二代驍龍 8 移動平台已為終端 AI 技術的應用打開了一扇創新的大門。

參考內容:

https://www.qualcomm.com/news/releases/2022/11/snapdragon-8-gen-2-defines-a-new-standard-for-premium-smartphone

https://www.qualcomm.com/news/onq/2022/11/neurips-2022-qualcomm-showcases-cutting-edge-advancements-in-machine-learning

https://www.youtube.com/watch?v=2Rqo7oniDlI

延伸閱讀:ChatGPT被稱最強AI 打Code、寫論文無難度 取代人力指日可待

+35

【本文轉自「機器之心」,微信公眾號:almosthuman2014】