@wanghuijiao 2021-11-17T06:34:15.000000Z 字数 8254 阅读 1463

“数据闭环” 开发规范

技术文档

前言

本文规范一下如何在“数据闭环”工具上发布数据集、代码库、基础模型、应用模型等需要的文档和配置文件要求。
本文使用对象：模型开发者
- 当需要发布一个数据集、代码库、基础模型时
TODO
- 整理数据集、基础模型、代码库发布时文件存放的结构、命名规范
- 接口定义
- 整理功能需求
- 明确角色分工
  - 用户：选择数据集和模型然后开启训练
  - 模型开发者：发布一个目标检测、分割应用模型需要做什么
  - 框架开发者：通用的支持目标检测、分割等任务
- 明确每种角色需要的输入和输出
- 注意：设计接口的时候重点考虑通用性，涉及不同设置时用封装的方式内部实现，上层分发。

从0集成分割模型步骤

数据集发布
代码库发布
基础模型发布
准备基础模型启动脚本，准备模型训练接口
模型训练
模型测试
应用模型发布

1. 数据集发布

角色分工

模型开发者
1. 提供数据集格式文档（此步骤仅在扩充新任务如分割，或支撑新数据集格式如VOC等框架不支持的情况下才需要模型开发者提供）
2. 修改数据集配置文件（json，发布脚本的输入）
3. 运行数据集发布脚本
框架开发者
1. 提供框架支持的数据集格式列表
2. 提供数据集配置文件（json）格式
3. 提供数据集发布脚本及使用说明
工作依赖
- （可选）模型开发者提供数据集格式文档（to 框架开发者） -> 框架开发者对应修改发布脚本（to 模型开发者）-> 模型开发者使用发布脚本

操作步骤：

确定数据集格式，输出文档
运行数据集发布脚本

示例说明

以yolo格式的目标检测人头数据集发布为例，对以上步骤进行详细说明。

确定数据集格式 预先确定数据集标签格式，每种格式对应的文件组织结构不同，对数据集的解析需要固定的格式。因此第一步先确认“数据闭环”工具是否支持现有格式，否则需要先转换成支持的格式。以yolo格式为例：

| -- head_RGB
    | -- images
        | -- 0000001.jpg # 图片，或者其他格式 .png .jpeg ...
        | -- 0000002.jpg # 图片
        | -- ...
    | -- labels
        | -- 0000001.txt # 标签
        | -- 0000002.txt # 标签
        | -- ...
    | -- train.txt # 存放训练集图片相对路径
    | -- val.txt   # 存放验证集图片相对路径
    | -- test.txt  # 存放测试集图片相对路径
    | -- class.names # 存放类别名称，一类一行，序号与标签文件对应
    | -- data.data  # 存放数据集类别信息和路径

准备数据集配置文件等组成的文件夹：这一步是准备一些记录了数据集位置、类别信息等基础配置信息的文件，并不是数据集包含的图片和标签，目的是为了能让模型通过这些配置文件解析出数据集的内容，用于训练和测试等。
- 文件夹命名格式：{传感器}_{目标类别}_{任务类型}，如目标检测人头数据集为 RGB_head_detection，文件夹命名说明：
  - 传感器：表示由于获取图像时传感器的不同，造成图像所在光域的不同，目前有 RGB\IR （可见光\热红外）两种选项
  - 目标类别：检测的类别，或者分割的目标，比如“passable-area”或“head-car”等
  - 任务类型：按照视觉任务分，比如 detection\segmentation\classification (目标检测\分割\分类)
- 数据集配置文件示例
```
| -- RGB_head_detection # 配置文件组成的文件夹
    | -- RGB_head_detection.data # 记录训练集和测试集路径，类别信息等
    | -- RGB_head_detection.names # 记录数据集的类别名称
```
  - RGB_head_detection.data 内容示例
```
classes = 1 # 类别数量
train   = /ssd01/wanghuijiao/dataset/head_RGB/v1.0/train.txt # 训练图片路径列表文绝对路径
valid   = /ssd01/wanghuijiao/dataset/head_RGB/v1.0/val.txt # 测试图片路径列表文件绝对路径
names   = /ssd01/wanghuijiao/dataset/head_RGB/v1.0/RGB_head_detection.names # 类别信息文件绝对路径
```
  - RGB_head_detection.names 内容示例
```
head
```

运行数据集发布脚本 准备好上述文件后，通过运行此脚本，可以实现将配置文件复制到服务器指定路径，以及将数据集基本信息添加到数据库的操作。至此，数据发布完成。

最终数据集发布前将组织成如下格式：

| -- RGB_head_detection # 配置文件组成的文件夹
    | -- RGB_head_detection.data # 记录训练集和测试集路径，类别信息等
    | -- RGB_head_detection.names # 记录数据集的类别名称
| -- RGB_head_detection_info.json # 基本信息配置文件

基本信息配置文件：此文件的内容记录了本数据集的基本信息，比如数据集的任务类型、使用场景、标签格式等等，大部分内容将会被写入数据库，作为日后选择数据集的重要信息来源。

文件命名：“{数据集名称}_info.json” , 人头数据集示例：RGB_head_detection_info.json

格式示例：

{
    "name": "RGB_head_detection", # 数据集名称
    "version": "v1.0", # 数据集版本号
    "task_type": "Object_Detection", # 任务类型，比如目标检测(Object_Detection)、分割(Segmentation)
    "scene": "Outdoor", # 应用场景描述，比如“Outdoor”  
    "anno_type": "yolo", # 标签格式，比如“yolo” 、“COCO”
    "number": {"head": 19370,}, # 各类别出现的标签数量
    "size": "1GB", # 数据集大小
    "source_dir": "/ssd01/wanghuijiao/pose_detector02/rgb_head_detect", # 数据集文件所在的绝对路径
    "release_person": "Wanghuijiao", # 发布人姓名全拼
    "release_time": "2021/11/11", # 发布时间:{年}/{月}/{日}
    "description": "This is used for head detection in the wild scene where people are blocked by bushes.", # 数据集描述，比如详细用途说明、版本间的改动或者对此数据集的其他补充说明等信息
}

脚本功能：
- 检查配置文件是否合法
- 将文件夹压缩复制到目标位置
- 解析json文件内容，将数据集基本信息添加到数据库中。
脚本输入参数：
- $1 上述文件 RGB_head_detection 和 RGB_head_detection_info.json 所在路径
- $2 目标路径

数据集发布脚本使用说明：后续给别人使用的时候需要写，目前可以先没有

2. 制作代码库image，代码库发布

角色分工

模型开发者
- 提供一键安装脚本
框架开发者
1. 根据安装脚本修改为docker_file
2. 建立codebase的image
3. [待定] 需要考虑image的测试脚本的输入、输出和功能实现
4. 准备codebase的发布配置文件（json, 作为发布脚本的输入）
5. 运行codebase的发布脚本
工作依赖
- 模型开发者输出安装脚本to框架开发者 -> 开发者建立 Image 并发布 image 信息到数据库 to 模型开发者使用（比如写模型启动脚本）
- 视情况而定image由谁制作，前期可以由框架开发者提供，后期需求增多可以由模型开发者制作。

操作步骤：

制作代码库镜像
准备基本信息配置文件
运行代码库发布脚本（by王提供）

示例说明

模型开发和发布者仅提供一键安装所有依赖的脚本即可，由数据闭环工具开发者制作代码库的镜像
- 环境安装脚本：
  - 要求可以一键安装代码库需要的所有依赖
以darknet库为例，代码库命名：{代码库名称}，如 "darknet"

需要提供：

基本信息配置文件

文件命名：“{代码库名称}_info.json”，如 "darknet_info.json"

格式示例：

{
    "name": "darknet", # 代码库名称
    "version": "v1.0", # 版本信息
    "image_info": {"name":"", "version":""}, # 每个代码库的不同版本会建立多个image，此项记录本代码库对应的image名称和版本
    "task_type": "", # 适合的任务类型，比如目标检测(Object Detection)、分割(Segmentation)
    "dataset_anno_type":["yolo", ""], # 支持的数据集格式
    "config_file": {""："",}, # 代码库配置文件路径
    "description": "", # 代码库描述，比如支持哪些backbone、哪几种检测或分割模型
}

运行代码库发布脚本，将代码库信息添加到数据库中

3. 基础模型发布

角色分工

模型开发者
1. 准备模型结构配置文件（codebase中具体选择哪个模型）
2. 修改模型发布配置文件（json，作为发布脚本的输入）
3. 运行基础模型发布脚本
框架开发者
1. 提供模型发布配置文件格式
2. 提供基础模型发布脚本
工作依赖
- 框架开发者提供配置文件格式、发布脚本 to 模型开发者

操作步骤：

准备模型配置文件
准备基本信息配置文件
运行基础模型发布脚本

示例说明

模型命名格式：{基础模型名称}

需要提供

模型配置文件

基本信息配置文件

文件命名：“{基础模型名称}_info.json”

格式示例：

{
    "name": "", # 基础模型名称
    "version": "", # 模型版本
    "codebase_info":{"name":"", "version":""}, # 对应的代码库名称和版本， 比如mmsegmentation库的路径，目的是对应记录到具体是哪个版本的mmsegmentation库。
    "task_type": "", # 任务类型，比如目标检测(Object Detection)、分割(Segmentation)
    "metric":{}, # baseline 指标
    "dataset_anno_type":["yolo", ""], # 支持的数据集格式
    "config_file": {""：,}, # 模型配置文件路径, 比如选择代码库中的哪种模型结构，pretrained model位置等
    "hdwl_effect": {"Jetson Nano": "speed=","Jetson TX2": "speed="}, # 在硬件上的速度
    "description": "", # 基础模型描述
}

运行基础模型发布脚本

4. 准备启动脚本和训练接口

角色分工

模型开发者
- 根据框架开发者提供的数据集、codebase、基础模型相关信息，准备模型训练配置文件
- 准备“实验启动脚本”
框架开发者
- 准备训练接口（任务分发，关于训练参数，封装在codebase的训练脚本中，此训练接口仅选择具体的codebase，问题：如何在框架中输入训练参数呢？）
- 根据数据集、codebase、基础模型选型，解析模型训练需要的信息to模型开发者
- [优先级低] 对输入参数（数据集、codebase、基础模型选型）做有效性检查
- 对不直接支持的数据集格式实现格式转换，比如yolov4仅支持yolo格式，现目标检测工具支持COCO2yolo的格式转换，当输入数据集格式为COCO时，框架可以自动实现COCO2yolo的格式转换然后开启训练。
工作依赖
- 框架开发者解析数据集、codebase、基础模型相关信息 to 模型开发者
- 模型开发者提供“实验启动脚本” to 框架开发者

准备基础模型启动脚本和配置文件

准备构建训练bash命令的配置文件：tdlp_train_config.json，此文件中存放模型训练时需要的参数，比如gpu、训练批次、图片输入尺寸等与训练命令相关的参数

以yolov4为例内容示例如下：

{
    "exp_uri": "/hdd03/minio/data/tdlp/tasks/5/yolov4_tiny_v1.0_rgb_head_detect_v1.1_20211011180550", # （必须有）此次实验路径存储路径，在启动脚本中根据时间戳自动生成，格式为：基础模型名称_基础模型版本_数据集名称_数据集版本_时间戳.
    "data_file": "/hdd03/minio/data/tdlp/tasks/5/yolov4_tiny_v1.0_rgb_head_detect_v1.1_20211011180550/yolov4_tiny.data", # （可选）yolov4数据集配置文件路径，在启动脚本中解析生成
    "cfg_file": "/hdd03/minio/data/tdlp/tasks/5/yolov4_tiny_v1.0_rgb_head_detect_v1.1_20211011180550/yolov4_tiny.cfg", # （可选）yolov4基础模型配置文件路径，在启动脚本中解析生成
    "path_file": "/hdd03/minio/data/tdlp/tasks/5/yolov4_tiny_v1.0_rgb_head_detect_v1.1_20211011180550/yolov4_tiny.path", # # （可选）yolov4数据集配置文件路径，在启动脚本中解析生成
    "default_paras": [ # （必须有）以下是训练命令相关的默认参数，键需要根据基础模型类型人为设置，键值可以根据训练脚本设置为输入参数。
        {
            "-gpus": "0,1,2,3"  # （可选）
        },
        {
            "-dont_show": "" # （可选）
        },
        {
            "-map": "" # （可选）
        }
    ]
}

准备基础模型启动脚本tdlp_start_train.py
- 参考yolov4的启动脚本
- 功能：供TDLP框架调用，使用Docker启动一个新的容器开始模型训练
- 代码思路：
  - 1、解析tdlp_train_config.json
  - 2、构建执行训练的bash命令,保存为sh文件
  - 3、使用docker run命令加载该sh文件

准备模型训练接口

参考yolov4的模型训练接口
训练接口定义，继承自Tdlp类，主要功能是解析配置文件中关于实验的参数设置，开启实验：

from tools.start_exp import Tdlp
# 类名自行根据基础模型名称定义
class mmseg(Tdlp):
    def __init__(self):
        pass
    def start_train(self, task_id, alg_name, alg_vs, dataset_name, dataset_vs, config_path):
        """模型训练接口
        Args:
            task_id: int, # 任务ID，根据数据库任务表单选择, 待讨论？
            alg_name: str, # 基础模型名称
            alg_vs: str, # 基础模型版本
            dataset_name: str, # 数据集名称
            dataset_vs: str, # 数据集版本
            config_path: str, # 第5节中的配置文件：tdlp_train_config.json 路径
        """
        pass

5. 模型训练

角色分工

模型开发者
1. 开启模型训练实验
2. 提供模型训练结果，结果输出形式[待定]，支持训练完毕自动在验证集上测试并输出结果
框架开发者
1. 确定训练结果输出格式
2. 实现记录每一次实验到数据库的实验列表中，即实验发布功能（每次开实验自动触发）
3. 解析模型训练结果，更新实验列表在验证集上的结果
工作依赖
- 模型开发者提供模型训练结果（例如log文本）to 框架开发者

具体说明

开启模型训练的命令格式

python train.py --model_name "" --model_version "" --dataset_name "" --dataset_version "" --config_path "" # config_path是5中定义的tdlp_train_config.json路径

train.py 暂无，功能要求：
- 调用 6 中的模型训练接口, 根据上述输入参数开启实验

6. 模型测试

角色分工

模型开发者
1. 提供模型测试脚本
2. 进行模型测试，在xx数据集上测试xx权重文件，按要求输出测试结果log
框架开发者
1. 确认测试结果log的格式要求
2. 提供查表功能，查询实验表格，并解析（比如获得实验路径，权重文件、配置文件存放路径等）
3. 提供自动更新测试结果到实验表格的功能
4. 检查输入参数是否有效，比如数据集格式是否支持，不支持是否支持格式转换，已有的权重文件如何查看？将权重文件信息更新到实验列表中？
5. 提供测试接口
工作依赖
- 框架开发者解析实验信息 to 模型开发者 -> 模型开发者测试模型输出结果 to 框架开发者 -> 框架开发者更新结果到实验表格

具体说明

略，暂不定义，根据库本身提供的功能自行测试

7. 应用模型发布

角色分工

模型开发者
- 查看实验列表，选择合适的实验id，手动运行发布脚本进行发布
框架开发者
- 提供应用模型发布脚本和使用说明
工作依赖
- 框架开发者提供应用模型发布脚本 to 模型开发者

操作步骤：

准备应用模型配置文件
准备基本信息配置文件
运行基础模型发布脚本

示例说明

模型命名格式：{应用模型名称}_{数据集名称}

需要提供

应用模型配置文件：比如权重文件、模型结构文件以及其他必要支撑文件

基本信息配置文件

文件命名：“{应用模型名称}_info.json”

格式示例：

{
    "name": "", # 基础模型名称
    "version": "", # 模型版本
    "basemodel_info":{"name":"", "version":""}, # 对应的基础模型名称和版本
    "dataset_info":{"name": "", "version":""} # 对应的数据集名称和版本，
    "task_type": "", # 任务类型，比如目标检测(Object Detection)、分割(Segmentation)
    "scene": "", # 应用场景描述，比如“Indoor” 、“Wilderness”
    "metric":{}, # 在不同数据集上的性能指标
    "dataset_anno_type":["yolo", ""], # 支持的数据集格式
    "config_file": {""：,}, # 记录模型配置文件，比如模型结构配置文件、权重文件位置
    "description": "", # 应用模型描述
}

运行基础模型发布脚本, 脚本功能：
- 输入模型版本、实验ID，将对应实验信息保存到应用模型库

附录

开实验时，记录image版本
实验开启训练的脚本用shell实现，输入参数规定为：
- 参数1：model_name_version
- 参数2：dataset_name_version
- 参数3："/ssd01/wanghuijiao/streamlit/configs/yolov4/tdlp_train_config.json" 例如这样的配置文件。
- 注意检查输入参数是否正确
考虑不同角色使用这个库时需要做的事（需要知道或者准备的文件）：
- 数据集发布者；
- 模型开发和发布者；
- 模型使用者：
- 带着数据集来选模型的人
- 带着数据集和模型来使用这个平台的人
训练前检查数据集格式：
- 格式转换脚本要求：
  - 在训练前如果检测到数据版本与模型要求不符，先用格式转换工具将数据集转为目标格式，要求转后的数据集能够正常被模型解析使用开启训练，比如数据标签路径改变之后是否能够顺利解析等问题。
训练中需求
- 要求将过程文件，如权重、loss等文件建立软链接到目标路径，这个功能可以作为输入参数可选。
- 要求实时更新训练状态，此功能可以通过判断进程是否存在实现。
解耦yolov4和数据集
这个月目标主要放在“数据闭环工具”对yolov4的支持上。
注意：
- 写数据集发布脚本的时候注意先检查文件夹内文件是否完整合法，基本信息配置文件是否符合要求。（最好写脚本的时候都检查一下输入是否合法）
- 脚本功能：
  - 检查配置文件是否合法
  - 将文件夹压缩复制到目标位置
  - 解析json文件内容，将数据集基本信息添加到数据库中。

“数据闭环” 开发规范

前言

从0集成分割模型步骤

1. 数据集发布

角色分工

操作步骤：

示例说明

2. 制作代码库image，代码库发布

角色分工

操作步骤：

示例说明

3. 基础模型发布

角色分工

操作步骤：

示例说明

4. 准备启动脚本和训练接口

角色分工

准备基础模型启动脚本和配置文件

准备模型训练接口

5. 模型训练

角色分工

具体说明

6. 模型测试

角色分工

具体说明

7. 应用模型发布

角色分工

操作步骤：

示例说明

附录

内容目录

选择主题