Arm 推出了一款新的 Cortex-A CPU 內(nèi)核,旨在將生成式 AI 引入邊緣設(shè)備。Cortex-A320 是首款用于物聯(lián)網(wǎng)的 Arm v9 內(nèi)核,與 Arm 的 Ethos-U85 NPU 配合使用,它將在物聯(lián)網(wǎng)設(shè)備中實現(xiàn)生成式和代理式 AI 用例,包括具有超過 10 億個參數(shù)的模型。
“就在幾年前,邊緣 AI 工作負載比現(xiàn)在簡單得多,專注于基本的降噪或異常檢測,”Arm 物聯(lián)網(wǎng)業(yè)務(wù)線高級副總裁兼總經(jīng)理 Paul Williamson 說,“但現(xiàn)在工作負載變得更加復(fù)雜,我們正在努力滿足更復(fù)雜的用例的需求。
他說,這些用例包括大型模型和 AI 代理。
Williamson 說:“這不僅僅是向前邁出的一步,它代表了我們處理邊緣計算和 AI 處理方式的根本轉(zhuǎn)變,我們相信它將在未來幾年推動邊緣 AI 革命。
升級到 Arm v9 架構(gòu)使 Cortex-A320 與位于 Arm v8 上的前身 A35 相比具有更好的 AI 性能和更好的安全功能。新指令將 GEMM(矩陣乘法)提高了一個數(shù)量級,標量計算速度提高了 30%。SVE2 (scalable vector extension 2) 用于矢量處理;這是 Arm 的 Neon 矢量擴展和公司的 SIMD(單指令、多數(shù)據(jù))指令集 SVE 的組合。增加了對 AI 友好數(shù)據(jù)類型的支持,包括 BF16。一個集群中最多可以配置四個 Cortex-A320 內(nèi)核。
至關(guān)重要的是,作為新平臺的一部分,新的 CPU 內(nèi)核將能夠直接驅(qū)動 Ethos-U85 NPU,這是以前為 Cortex-M 內(nèi)核保留的功能。支持常見 transformer作的 NPU 現(xiàn)在可以通過 A320 訪問更大的內(nèi)存空間,這對于大型模型推理是必需的。
Arm Cortex-A320 將允許 Ethos-U85 訪問比 Cortex-M85 更大的內(nèi)存地址空間,這對于運行大型語言模型至關(guān)重要(來源:Arm)
“具有更好內(nèi)存訪問性能的系統(tǒng)對于執(zhí)行更復(fù)雜的用例變得越來越必要,”Williamson 說?!癈ortex-A 處理器解決了這一挑戰(zhàn),因為它們比基于 Cortex-M 的平臺具有對更大可尋址內(nèi)存的內(nèi)在支持,并且在處理多層內(nèi)存訪問延遲方面更加靈活。”
結(jié)合使用后,Arm 預(yù)計 Cortex-A320 和 Ethos-U85 的性能將提高約 8×,而驅(qū)動 NPU 的 Cortex-M85 則不同。
Cortex-A320 還可以利用 Arm v9 的安全功能。指針身份驗證和分支目標識別可緩解面向跳轉(zhuǎn)和返回的編程攻擊。Williamson 補充說,Arm 的內(nèi)存標記擴展還使黑客更難利用內(nèi)存安全問題。
作為 Cortex-A CPU,A320 可以利用 Arm 的 Cortex-A AI 內(nèi)核庫,統(tǒng)稱為 Kleidi AI。
Williamson 說,在許多用例中,即使系統(tǒng)具有 NPU,在 CPU 上運行 AI 工作負載也可能是高效的。他的例子是一個相機系統(tǒng),它使用 NPU 進行始終在線的圖像處理,然后拍攝標記為有趣的圖像,并在 CPU 上使用小型 LLM 處理它們。
“[在那種情況下],直接在 CPU 上運行它可能更有效,因為你沒有卸載到神經(jīng)處理器和更改上下文的開銷,”他說。
對于這些情況,A320 需要優(yōu)化的 AI 性能。KleidiAI 去年在客戶端計算領(lǐng)域為 Cortex-A 推出,但 A320 將把它帶到物聯(lián)網(wǎng)中。
采用邊緣 AI 的主要障礙之一是軟件開發(fā)和部署的復(fù)雜性。Arm 確保了跨 Cortex-A 內(nèi)核的軟件兼容性,因此現(xiàn)有代碼可以在 A320 上使用。
它與 Linux 和 Android 開箱即用兼容,但也支持常見的實時作系統(tǒng),因此如果需要,可以為 MCU 流程開發(fā)的代碼可以遷移到具有更大內(nèi)存地址空間的系統(tǒng)。通過這種方式,A320 為當今基于 Cortex-M 的 AI 工作負載提供了一條面向未來的途徑。
“這使 [開發(fā)人員] 能夠訪問過去實時系統(tǒng)可能無法獲得的 AI 模型,”Williamson 說?!拔艺J為你會看到一些有趣的全新配置,這些配置擴展了以前在微控制器中完成的邊界,但也為基于 Linux 的開發(fā)人員提供了優(yōu)化的性能?!?/span>
基于 Cortex-A320 的產(chǎn)品已經(jīng)在與客戶一起開發(fā)中,Williamson 預(yù)計明年將看到該內(nèi)核進入硅片。