移动对象数据集:Something-Something v. 2

您的模型可以识别某些简单的单帧手势,例如竖起大拇指。但是对于一个真正响应迅速、准确的系统,您希望您的模型能够识别日常物体上下文中的手势。这个人是在指着什么东西还是在摆动他们的食指?手是在清洁显示屏还是用两根手指放大和缩小图像?给定足够多的示例,您的模型可以了解其中的差异。

Something-Something 数据集(第 2 版)是 220,847 个标记视频剪辑的集合,这些视频剪辑是人类使用日常物品执行预定义的基本动作。它旨在训练机器学习模型对人类手势的细粒度理解,例如将某物放入某物、将某物倒置并用某物覆盖某物。

来自Something-Something数据集的样本:

一、示例类别

将某物放在表面上

将某物向上移动

用某物覆盖某物

从左向右推某物

将某物向下移动

从右向左推某物

揭开某物

将许多类似的东西之一放在桌子上

将某物倒置将某物

撕成两半

将某物放入

挤压某物扔

某物

将某物放在某物旁边

轻轻戳某物以至于它不动或几乎不动

二、数据集详细信息

该数据集是在 1,300 多名独特的人群演员的帮助下创建的。

像您这样的开发人员已经成功地创建了基于训练集的分类模型,并发现它们在验证集上表现良好。在测试集上运行他们的模型,他们可以获得高达 91% 的分数。

视频数据作为一个大型 TGZ 存档提供,切分成最大为 1 GB 的部分。总下载大小为 19.4 GB。存档包含 webm 文件,使用 VP9 编解码器,高度为 240 像素。文件编号从 1 到 220847。

对于训练和验证集中的每个视频,除了视频标签之外,还有一个对象注释(如果适用)。例如,对于“将 [某物] 放在 [某物] 上”这样的标签,还有一个带注释的版本,例如“将杯子放在桌子上”。总共有 318,572 个注释,涉及 30,408 个唯一对象。

为了减少标签噪音,五位不同的人群演员已验证每个视频中显示的动作与给出的描述相符。数据集仅包含所有五个人群演员都确认匹配的视频。

三、数据集许可证

Something-Something 可免费用于研究目的。

数据许可协议 - 研究用途

下载(92.9 KB) 22 年 2 月 23 日更新

四、标签

20BN-Something-Something 下载包装标签

下载(4.9 兆字节) 21 年 12 月 3 日更新 查看许可协议

五、数据集下载

请下载所有文件,包括下载说明。

注意:由于流量增加,下载速度可能会比平时慢。

20BN-Something-Something 下载说明

下载(142.0 KB

六、引文

“用于学习和评估视觉常识的 'something something' 视频数据库”Goyal, R. 等人,arXiv.org,2017 年 6 月 15 日。

“关于迁移学习的任务粒度的有效性” Mahdisoltani, F. 等人,arXiv.org,2018 年 11 月 29 日。

七、高通人工智能研究

人工智能正在从简单地看到镜头前发生的事情转变为理解它。数据是这些深度学习突破背后的有效力量,是人类神经网络性能不可或缺的一部分。我们的数据收集众包方法克服了众包的典型限制,从而产生了字幕密集、以人为本和多样化的高质量视频数据。

Qualcomm AI Research 继续投资并支持计算机视觉领域的深度学习研究。发布供 AI 研究社区使用的 Something-Something数据集是我们的众多举措之一。

了解有关Qualcomm 人工智能研究的更多信息。

如有任何问题或技术支持,请通过research.datasets@qti.qualcomm.com联系我们

Qualcomm 解决方案

 

高通 AI Hub

全新高通 AI Hub 包含预优化AI模型库,支持在搭载骁龙和高通平台的终端上进行无缝部署。
该模型库为开发者提供超过75个主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同执行环境(runtime)中打包,能够在不同形态终端中实现卓越的终端侧AI性能、降低内存占用并提升能效。所有模型均经过优化,以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力,从而使推理速度提升4倍。

了解更多

SDK 下载

本版块下载 SDK,只需简单注册,就可轻松下载。