Qualcomm开发者专区

C6490-MobileVLM-cn

操作系统	云服务/平台	所需技能水平	关注领域
Linux Ubuntu核心	---	中级	计算机视觉、嵌入

项目目标

MobileVLM是多模态视觉语言模型 (MMVLM),llama.cpp通过Meta的LLaMA模型（以及其他模型）在纯 C/C++中的推理，实现端侧性能的高效性。同时可以应用于智能机器人领域，实现智能特性。

项目说明

MobileVLM 是一种强大的多模态视觉语言模型 (MMVLM)，旨在在移动设备上运行。它是无数面向移动的架构设计和技术的融合，其中包括一组从头开始训练的 1.4B 和 2.7B 参数规模的语言模型，以及在以下环境中预训练的多模态视觉模型：通过高效投影仪进行 CLIP 时尚、跨模态交互。根据几个典型的 VLM 基准评估 MobileVLM。与一些更大的模型相比，模型表现出了同等的性能。

所需材料/零部件清单/工具

• C6490P DK

• USB Line

• Charger

高通 C6490P DK套件

Type-c 数据线

电源

源代码/源示例/可执行应用程序

• 源代码

额外资源

• 视频链接：https://github.com/ThunderSoft-XA/MobileLLVM-on-6490/blob/main/doc/usage.mp4

• MobileVLM原始模型： https://huggingface.co/liuhaotian/llava-v1.5-7b

https://huggingface.co/openai/clip-vit-large-patch14-336

• MobileVLM导出说明：https://github.com/ThunderSoft-XA/MobileLLVM-on-6490/blob/main/doc/MobileVLM-on-6490.doc

构建/汇编指令

cd cpp/source

mkdir build & cd build

cmake /

make -j6

make llava-cli

cp bin/llava-cli ..

cd..

./llava-cli -m ../model/ggml-model-q4_k.gguf --mmproj ../model/mmproj-model-f16.gguf --image ../input/input.jpg -p 'what is it in the picture'

使用说明

在主函数对应位置修改图片路径，后编译运行。默认输出位置为output/0.jpg。运行结果如下：

提供人信息

姓名	名称公司
zhangzz6687@thundersoft.com	中科创达
yunlong.zhao@thundercomm.com	中科创达

如提交有关内容（以下简称为“提交内容”），则表明您向高通公司授予有关以下各项的免费、永久性、非排他性、不受限制、全球范围内的许可：(a)公布、使用、复制、转授、改编、传输、公开执行或展示提交内容；(b)在没有限制条件的情况下使用、复制、修改、改编、发布、翻译、创作衍生作品、分发、执行、演示、托管、提供和发布您的提交内容；(c)向第三方转授无限制的行使针对提交内容所授予的前述任何权利的权利。前述权利应当包括利用提交内容中的任何理念、概念、知识产权、或专有权利的权利，包括但不限于在任何相关司法管辖区内根据著作权、商标、服务标记或专利等法律所享有的权利，同时高通公司无须向您支付任何款项。您声明并保证，您拥有有关提交内容的所有权利、所有权和权益，或您已被授予有关提交内容的充分权利，以确保能够按照前述方式使用提交内容。

Qualcomm 开发者专区是 Qualcomm 联合CSDN 共同打造的面向中国开发者的技术专区。致力于通过提供全球最新资讯和最多元的技术资源及支持，为开发者们打造全面一流的开发环境。本专区将以嵌入式、物联网、游戏开发、Qualcomm® 骁龙™处理器的软件优化等技术为核心，打造全面的开发者技术服务社区，为下一代高性能体验和设计带来更多的想法和灵感。

加入 Qualcomm 开发者专区

高通软件中心

通过集中式门户站无缝管理您的高通®软件和工具

下载软件中心