C6490-MobileVLM-cn

操作系统 云服务/平台 所需技能水平 关注领域
Linux Ubuntu核心 --- 中级

计算机视觉、嵌入  

项目目标

MobileVLM是多模态视觉语言模型 (MMVLM),llama.cpp通过Meta的LLaMA模型(以及其他模型)在纯 C/C++中的推理,实现端侧性能的高效性。同时可以应用于智能机器人领域,实现智能特性。

项目说明

MobileVLM 是一种强大的多模态视觉语言模型 (MMVLM),旨在在移动设备上运行。 它是无数面向移动的架构设计和技术的融合,其中包括一组从头开始训练的 1.4B 和 2.7B 参数规模的语言模型,以及在以下环境中预训练的多模态视觉模型: 通过高效投影仪进行 CLIP 时尚、跨模态交互。 根据几个典型的 VLM 基准评估 MobileVLM。 与一些更大的模型相比,模型表现出了同等的性能。

所需材料/零部件清单/工具

  • C6490P DK

  • USB Line

  • Charger

 

高通 C6490P DK套件

Type-c 数据线

电源

源代码/源示例/可执行应用程序

  • 源代码

额外资源

  • 视频链接:https://github.com/ThunderSoft-XA/MobileLLVM-on-6490/blob/main/doc/usage.mp4

  • MobileVLM原始模型: https://huggingface.co/liuhaotian/llava-v1.5-7b

   https://huggingface.co/openai/clip-vit-large-patch14-336

  • MobileVLM导出说明:https://github.com/ThunderSoft-XA/MobileLLVM-on-6490/blob/main/doc/MobileVLM-on-6490.doc

构建/汇编指令

cd cpp/source

mkdir build & cd build

cmake /

make -j6

make llava-cli

cp bin/llava-cli ..

cd..

./llava-cli -m ../model/ggml-model-q4_k.gguf --mmproj ../model/mmproj-model-f16.gguf --image ../input/input.jpg -p 'what is it in the picture'

使用说明

在主函数对应位置修改图片路径,后编译运行。默认输出位置为output/0.jpg。 运行结果如下:

提供人信息

姓名 名称公司
zhangzz6687@thundersoft.com 中科创达
yunlong.zhao@thundercomm.com

中科创达

 

如提交有关内容(以下简称为“提交内容”),则表明您向高通公司授予有关以下各项的免费、永久性、非排他性、不受限制、全球范围内的许可:(a)公布、使用、复制、转授、改编、传输、公开执行或展示提交内容;(b)在没有限制条件的情况下使用、复制、修改、改编、发布、翻译、创作衍生作品、分发、执行、演示、托管、提供和发布您的提交内容;(c)向第三方转授无限制的行使针对提交内容所授予的前述任何权利的权利。前述权利应当包括利用提交内容中的任何理念、概念、知识产权、或专有权利的权利,包括但不限于在任何相关司法管辖区内根据著作权、商标、服务标记或专利等法律所享有的权利,同时高通公司无须向您支付任何款项。您声明并保证,您拥有有关提交内容的所有权利、所有权和权益,或您已被授予有关提交内容的充分权利,以确保能够按照前述方式使用提交内容。

 

Qualcomm 解决方案

 

高通 AI Hub

全新高通 AI Hub 包含预优化AI模型库,支持在搭载骁龙和高通平台的终端上进行无缝部署。
该模型库为开发者提供超过100个主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同执行环境(runtime)中打包,能够在不同形态终端中实现卓越的终端侧AI性能、降低内存占用并提升能效。所有模型均经过优化,以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力,从而使推理速度提升4倍。

了解更多

SDK 下载

本版块下载 SDK,只需简单注册,就可轻松下载。