《电子技术应用》
您所在的位置:首页 > 模拟设计 > 业界动态 > 深入了解Armv9架构特性及优势

深入了解Armv9架构特性及优势

利用Arm Cortex-A320迎接行业未来革新
2025-02-28
作者:Arm 物联网事业部软件产品管理总监 Christophe Fava-Rivi
来源:Arm
关键词: ARM Armv9 Cortex-A320

Arm Cortex-A320 CPU 的推出具有重要的里程碑意义。作为首个基于 Armv9 架构的超高能效 CPU,这一突破性的处理器为功耗有限的设备引入了此前仅在尖端移动计算解决方案中使用的先进功能,使其在人工智能 (AI) 处理、安全性和整体能效方面均实现了显著提升。

鉴于已有其他 Arm 处理器在为多样化的边缘侧和端点设备提供良好支持,为何还要将 Armv9 功能引入一款服务相同目标设备的处理器技术中呢?答案是顺“时”而为。

当今的物联网 (IoT) 环境对边缘设备的需求更胜以往。智能摄像头需要在本地运行复杂的计算机视觉算法;工业传感器须处理复杂的机器学习 (ML) 模型以进行预测性维护;即使是简单的端点设备,也越来越离不开增强的安全性和虚拟化功能。这些不断变化的需求使得 Armv9 的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。

Armv9 架构将 Cortex-A320 的革新功能带到了边缘侧,通过可伸缩向量扩展 (SVE2) 等关键的 Armv9 特性,增强了 AI 和数字信号处理 (DSP) 性能;同时,它还利用了内存标记扩展 (MTE) 以及通过 Secure EL2 (S-EL2) 提供的先进虚拟化支持等全面的安全特性。这些功能与 Cortex-A320 高能效的微架构相结合,使其能够维持严格的能耗预算,并同时为边缘 AI 处理开创新的可能性。

让我们一同来跟随本文探索这些功能。

采用通用 Armv9 架构的优势

Armv9 架构的一大突出特性是支持 SVE2。SVE2 有助于提升 DSP 任务性能,该特性使得处理复杂算法更加快速、高效。这对于 AI 和 ML 工作负载等需要高算力的应用特别有助益。借助 SVE2,智能摄像头可以更高效地处理视频流,语音接口能够以更低的延迟进行自然语言处理,而工业传感器则可在保持长时间电池续航的同时,运行复杂的分析算法。

请参阅:

· 利用 Armv9 CPU 和 SVE2 加速视频解码和图像处理

· 架构学习 - SVE2 入门指南

Cortex-A320 先进的安全性

安全性在当今的数字时代至关重要。为满足这一需求,Cortex-A320 采用了 MTE、指针验证 (PAC) 和分支目标识别 (BTI) 等先进的安全特性,并协同发挥作用,以防御各种网络安全威胁。

MTE 有助于检测和减少 C/C++ 程序中常见的内存安全漏洞。通过对内存分配进行标记,并在访问时检查这些标记,MTE 可以识别并防范潜在的安全漏洞。PAC 通过确保函数指针和返回地址的完整性,为系统增加了一层额外的安全保护,以减少攻击者利用软件漏洞的机会。而 BTI 则是通过确保间接分支仅指向有效位置,来保护系统免受控制流攻击。

请参阅:

· 通过 MTE 增强安全性

· 在面向 Linux 的 AArch64 上启用 PAC 和 BTI(上)

· 在面向 Linux 的 AArch64 上启用 PAC 和 BTI(中)

· 在面向 Linux 的 AArch64 上启用 PAC 和 BTI(下)

· 架构学习 - 为复杂软件保驾护航

S-EL2 虚拟化增强隔离性

虚拟化是现代计算中的一项关键技术,它能够高效利用资源并改善不同工作负载之间的隔离性。Cortex-A320 支持 S-EL2 虚拟化,增强了在同一硬件上运行的虚拟机之间的隔离性。这在多用户环境中尤为重要,因为在此类环境中,不同的用户或应用共享相同的物理资源。

S-EL2 为虚拟机提供了一个安全的执行环境,可确保敏感数据和操作不受其他虚拟机以及底层虚拟机监控程序的影响。该级别的隔离对于维护云计算和边缘计算场景中数据的完整性和机密性相当重要。

为了保护敏感数据和代码免受未经授权的访问,TrustZone 是 Arm 处理器内置的安全特性,它创建了一个独立且受保护的环境,确保关键任务与潜在威胁隔离运行。另一个选择是 Hafnium,这是一个针对 Arm 的 A 处理器的安全固件参考实现,为受信任的应用提供坚实根基,并增强了系统对网络威胁的防护。

请参阅:

· 架构学习 - 面向 AArch64 的 TrustZone

· Hafnium 文档

SVE2 提升 DSP 性能

SVE2 对于提升 Cortex-A320 的 DSP 能力至关重要。DSP 任务在音视频处理、通讯及科学计算等众多应用中必不可少。SVE2 通过引入一系列新指令和数据类型,优化了这些任务的处理性能,从而进一步扩展了 Armv9 架构的功能。

例如,SVE2 引入了用于矩阵乘法的新指令,这一操作是许多 ML 算法的基础。这些指令使得处理大数据集变得更加快速和高效,从而提高了 ML 工作负载的性能。此外,SVE2 还支持如 BF16 等专为 ML 和 AI 应用优化的新数据类型。

请参阅:

· Arm 针对 A 处理器架构推出 SVE2 和 TME

利用庞大的 Armv9 软件生态系统

Cortex-A320 的一大优势在于,它与广泛的 Armv9 软件生态系统的兼容性。该生态系统涵盖一系列专为新一代边缘 AI 开发和优化的工具、库和框架,如高度优化的编译器(包括支持循环优化的 LLVM、加密和 SIMD)等。超过 2,000 万名的 Arm 开发者均能借助这一生态系统,充分受益于最新的软件技术进展,进而加速其应用的开发。

Armv9 软件生态系统支持 Linux 和安卓等主流的操作系统,并能够提供更出色的性能和安全特性,以及容器化和云开发方法。开发者可访问 Arm 广泛的工具和资源,高效地构建和部署应用。

请参阅:

· Arm 嵌入式工具链:新一代 Arm C/C++ 嵌入式编译器

· 扩展 LLVM 优化

运行实时操作系统

Cortex-A320 兼容 Zephyr 等实时操作系统 (RTOS),使其在物联网和嵌入式应用中的用途更为广泛。Zephyr 是一款专为资源有限设备设计的可扩展 RTOS,支持多种硬件架构和通信协议,能够实现高效且可靠的开发。

Kleidi 赋能边缘 AI 性能

Arm KleidiAI 是一款轻量级的开源 AI 库。得益于关键的 ML 框架和运行时集成,其优化并加速了Cortex-A320 上的 AI 工作负载,使开发者能够利用 Armv9 架构的先进功能和灵活性。Kleidi 优化了跨不同工作负载的软件级性能,以充分发挥 Arm CPU 上的 AI 加速。其高度优化的内核提升了 ExecuTorch、LiteRT(前身为 Tensorflow Lite)等主流 AI 框架性能,从而实现了更快速的边缘 AI 执行,以及 CPU 和 NPU 间顺畅的工作负载灵活性。

现在,Arm Kleidi 将扩展至物联网领域,为新一代边缘 AI 应用释放 CPU 性能。Kleidi 在嵌入式和物联网用例中实现了显著的性能加速。例如,在 Llama.cpp 上运行微软的 Tiny Stories 小语言模型时,Cortex-A320 的性能提升了近 70%。这一强大的组合简化了 AI 开发,并加速了数十亿设备的性能,使开发者能够更轻松地在恰当的时间和位置上执行合适的 AI 工作负载。

请参阅:

· Kleidi - 软件级 AI 加速

· Arm KleidiAI 助力 AI 框架性能提升

Cortex-A320 塑造物联网的未来

Cortex-A320 CPU 的推出标志着计算技术的演进历程中的一个重要里程碑。凭借其先进的特性和强大的架构,Cortex-A320 有望革新物联网行业,并为未来的创新应用铺平道路。广泛采用的通用 Armv9 架构、增强的安全特性、S-EL2 虚拟化、借助 SVE2 提升的 DSP 性能、与庞大的 Armv9 软件生态系统的兼容性、对 Zephyr 等 RTOS 的运行支持,以及 Arm Kleidi 的引入,使其成为开发者和企业的理想之选。

将 Armv9 功能引入超高能效设备为边缘侧的创新开辟了全新的可能性。开发者现在可以构思并打造以前在功耗有限环境中无法实现的应用,譬如在本地运行复杂 AI 的智能摄像头、实时处理复杂 ML 模型的工业系统,以及在不牺牲电池续航情况下实现企业级安全性的物联网设备。

无论你是在开发物联网解决方案、AI 和 ML 应用,还是构建安全计算环境,Cortex-A320 都能为你提供 AI 时代所需的工具和能力,助你旗开得胜。点击此处,了解更多有关 Cortex-A320 的信息,及其卓越性能、安全性和能效为物联网领域带来的变革性影响。


Magazine.Subscription.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。