@wanghuijiao
2021-01-22T11:10:09.000000Z
字数 711
阅读 2155
Atomic Visual Actions 数据集由YouTube公开视频的URL组成,这些视频被80个原子动作标注,例如走路,踢东西,握手等,所有动作都具有时空定位。
发布者:谷歌
数据量:5.76万个视频片段,9.6万个人类动作,21万个动作标签。
同类动作标记基准数据集:UCF101\ActivityNet\DeepMind Kinetics
内容特点:
- 基于人的标签:每个动作标签都与人相关联,而不是与整段视频或剪辑关联。常见的场景是同一场景中有多个人在执行不同动作,为这些动作分配不同的标签
- 基于原子视觉动作:谷歌将动作标签限制在精细的时间尺度(3秒),在这个尺度上动作都是物理动作,并具有清晰的视觉特征。
- 基于真实视频资料:谷歌把电影作为AVA的数据来源,包括不同国家、不同流派的电影。因此,数据源覆盖了大部分人类行为。
- 行为分为三组:姿态/移动动作、人和物体的交互、人与人的交互。
参考资料:
论文:谷歌发在arXiv上的论文
博文:谷歌发布AVA数据库:5万个精细标注视频片段,助力识别人类动作
网站:AVA官网
Charades and Charades-Ego Datasets 是2016年由亚马逊的众包平台“土耳其机器人”(Amazon Mechanical Turk)收集的9848个日常室内活动视频组成的数据集。
类别: 157
数据大小: 多种尺寸13G-76G不等
近期算法精度:(mAP)
Two-Stream: 14.2%
Asynchronous Temporal Fields: 22.4%