@Matrixzhu
2020-09-18T15:48:18.000000Z
字数 2280
阅读 799
本标准参考由中国电子工业标准化协会发布的《信息技术 人工智能 面向机器学习的数据标注规程》(以下简称标注规程)。该规程内容主要涉及总体框架,具体细节会因项目的具体领域而有所不同。本规程主要从人工智能养老应用的角度具体细化相关内容,将对具体的术语、标注说明、质量管理、以及相关应用场景进行定义。
第一部分将总结《信息技术 人工智能 面向机器学习的数据标注规程》,梳理大致框架。第二部分将就养老场景做具体扩展。
主要内容包括如下几个大块。
1)适用范围
2)术语和定义
3)数据标注流程管理
4)数据标注质量管控与验收
1、 适用范围
本标准适用于面向人工智能研究或开发应用等需要实施数据标注的企业、高校、科研院所、政府机
构等。(具体可按应用场景有所变化)
2、定义和术语
已罗列的术语如下
3、术语体系的规范化至少应满足:
a) 遵从国家法规和行业规范;
b) 建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性;
c) 在学习标注说明规则及进行相应的培训后,数据标注人员能够规范使用标注术语完成任务;
d) 被标注项目的相关方认可。
3 、 数据标注流程
4、数据质量管控与验收
在原标准中只是非常制式的描述有可能会用这个标准的对象。在我们的标准中可以具体说明那些可能的人工智能养老项目会需要使用数据标注。
目前已有的标准已经对标注相关的术语进行的比较全面的罗列。就养老场景来说还可以提出如下术语。
老年人跌倒数据标注
对影像照片中老年人跌倒的过程进行标注,以供相关模型进行跌倒检测
老年人行人重识别标注
截取老年人的体貌特征,在多角度的摄像机中确定同一个人物,一般用于对老年人的监护摄像。
室内场景标注
养老场景大多发生在家庭或养老院等室内环境
替代数据标注
由于老年人的很多资料十分不方便采集 (如,跌倒影像)。实际中往往会采用年轻人进行模拟。
1) 明确机器学习和模型训练过程中所需的标注数据类型
这一点是后续标注工作的基础,养老应用场景下可能使用的数据类型为视屏数据、音频数据、图像数据、语音数据、文字数据。具体需要视模型需求而定。
2)明确数据需求量级
由于在养老应用场景下许多数据的采集都力求数据的真实性。因此会涉及到养老场景现场采集数据的状况。这一过程相对来说成本较高,且较难还原真实情况(例如,较难模拟突发的危险场景)。鉴于以上情况,在预估数据需求时需要对数据量或数据质量不达标的情况有所准备。使用公开数据集进行部分弥补是比较可行的方案。
3)明确用途及应用场景
基本上来说养老场景的应用场景比较单一,主要以家庭和养老院登室内场景为主。因此采集的相关样本也应该发生于类似场景下。又例如,对于孤寡老人的情况下需要增加单人的场景并加强对细节的观察。对话类的场景要考虑到老人可能有口音、方言、含糊不清的情况。
1)标注说明规则职责分工
2)标注说明规则内容
标注说明规则包括但不限于:
a)项目背景:
b)版本信息:
c)任务描述:
d)保密责任:
e)标注方法:
f)正确示例:
g)注意事项:
h)质量要求:数据标注规
以现阶段的经验来说,对于标注数据的检查一般分为两大块
原标准中的检查方法如下:
在质检的过程中需要及时统计标注的合格情况,如发现合格率低于预期需要及时与提供方进行交流。并在后续交付中持续跟踪。
对于不同类型的数据应该有不同的检查侧重点
1)影像标注
视频类标注任务的数据结果可包含视频标签的时间位置、空间位置和标签信息等内容。
具体需要检查的内容如下: