@wanghuijiao
2021-11-03T09:42:53.000000Z
字数 1249
阅读 1299
标注流程规范
技术文档
前因
- 自制数据集时,通常需要的操作都是相似的,这个过程细节较多且繁琐,尤其是请人帮忙标注数据时,通常要跟临时支援标注的同事同步标注要求,以及做一些数据预处理的操作等,一招不慎就会浪费很多时间。特此记录,以供参考。
- 此笔记仅规范一下大体流程,具体的“数据采集方案”、“标注计划”需要算法工程师依据标注任务要求制定。
采集和标注方案准备
- 制定“数据采集方案”
- 明确采集设备、采集的迭代次数(每次采集一部分)、模拟场景等,后续数据采集工作需要依据此采集计划进行。
- 制定“标注计划”
- 内容包括标注标准、参与人员、各自任务分工、完成时间等,后续标注整个过程涉及到的包括标注任务分配、标注标准同步与标注、标注进度管理、质检验收等环节都需要依据此文档进行。
操作流程
数据采集和标注流程示意图
数据采集与预处理
- 前置条件:“数据采集方案”
- 收集数据
- 根据“数据采集方案”,用摄像头实地采集数据,或从网上搜罗符合条件的图片、视频等,这一步得到的是一堆视频或者图片。
- 数据预处理
- 若上一步得到的是视频,需要对视频进行抽帧,得到图片;
- 划分数据集,将图片分成训练集和测试集(这一步可选)。
数据标注
- 前置条件:“标注计划”文档
- 标准同步
- 必要性:每个人对于标签的理解都有些许差别,比如一个头框的范围,耳朵要不要标注,被遮挡的部分是否需要标注,框的四条边界具体需要包含到什么部位等细节。尤其对于第一次标注目标检测任务的新手而言,标注标准的同步尤为重要。
- 具体操作
- 同步:根据“数据采集方案”明确目标检测任务的检测要求并同步,比如需要检测出哪些场景下的实例,哪种情况需要标注,标注时框的边界包含的具体位置(例如头框是否包含脖子耳朵这种);
- 试标:每个标注人员先标注几十张图片
- 质检:对试标的结果进行质检,返回质检反馈给标注人员,标注人员修改标注结果;试标和质检两步需要循环至每个标注人员都能达到标注要求为止。质检通过才算是完成标注标准同步这一步。
- 任务分配与进度管理
- 由于是多人标注,在进行标注时,每一次的标注任务需要有专人分配标注任务,尤其是标注任务持续很久时,整个过程迭代多次,需要有表格记录标注任务分配信息,所以“标注计划”非常必要。需要根据“标注计划”文档管理整个标注过程,监督各个标注员的进度。
- 标注
- 标注:按照“标准同步”时的标注标准进行正式的标注。
- 难例反馈:在正式的标注过程中还是会遇到一些难以判断的情况,这种时候要及时反馈给标注标准提出人,共同商量确定难例的标注情况,并同步更新标注标准给所有标注员。
- 质检验收
- 质检操作:对于标签质量,需要进行验收,快速浏览每个标注人员的标注结果,检查是否有错标、漏标,框的大小和位置是否合格,标注质量前后是否一致等等问题。
- 结果反馈:对于不合格的标注结果需要及时反馈给标注人员,以便在后续标注工作中及时改进;建议在标注开始时,质检时间安排的密集一点,在各位标注人员熟练之后,质检安排可以稀疏一点。
- 数据后处理
- 交付:这一步是对各个标注员的标注结果进行合并,整理成固定格式的数据以供模型训练;
- 迭代:迭代标注下一轮数据。