量化工作流程

开发人员使用Qualcomm® 神经处理SDK为搭载 Snapdragon® 移动平台的设备构建 ML 解决方案,可以将 AI 模型效率工具包 (AIMET) 整合到他们的模型构建工作流程中,如下图所示和概述。

1. 该模型使用具有标准 32 位浮点 (FP32) 权重的 PyTorch 或 TensorFlow 进行训练。

2. 用户使用 AIMET 内置的训练后量化技术优化模型进行量化。跨层均衡 (CLE) 和 AdaRound 等训练后技术可以在没有标记数据的情况下使用,并且可以在不需要模型微调的情况下为多个模型提供良好的性能,从而避免超参数调优和训练的时间和精力。AIMET 使用量化模拟评估模型准确性,从而估计在目标上运行量化推理时的预期性能。

3. 用户(可选)使用 AIMET 的量化感知训练功能对模型进行微调,通过模拟量化噪声和调整模型参数来对抗这种噪声,进一步提高量化性能。

4. 优化后的模型导出为典型的 TensorFlow 或 PyTorch 模型,以及包含推荐量化编码的 JSON 文件。

5. 第 4 步的输出被输送到Qualcomm 神经处理SDK中的模型转换工具。这将使用 AIMET 生成的量化编码将模型转换为 Qualcomm Technologies的DLC格式,以在SoC的Qualcomm® AI 引擎上实现最佳执行。

6. 转换后的 (DLC) 模型部署在目标硬件上。

Qualcomm 解决方案

 

高通 AI Hub

全新高通 AI Hub 包含预优化AI模型库,支持在搭载骁龙和高通平台的终端上进行无缝部署。
该模型库为开发者提供超过75个主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同执行环境(runtime)中打包,能够在不同形态终端中实现卓越的终端侧AI性能、降低内存占用并提升能效。所有模型均经过优化,以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力,从而使推理速度提升4倍。

了解更多

SDK 下载

本版块下载 SDK,只需简单注册,就可轻松下载。