0


label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环

前言

一个 AI 方向的朋友因为标数据集发了篇 SCI 论文,看着他标了两个多月的数据集这么辛苦,就想着人工智能都能站在围棋巅峰了,难道不能动动小手为自己标数据吗?查了一下还真有一些能够满足此需求的框架,比如 cvat 、 doccano 、 label studio 等,经过简单的对比后发现还是 label studio 最好用。本文首先介绍了 label studio 的安装过程;然后使用 MMDetection 作为后端人脸检测标记框架,并通过 label studio ml 将 MMDetection 模型封装成 label studio 后端服务,实现数据集的自动标记;最后参考 label studio ml 示例,为自己的 MMDetection 人脸标记模型设计了一种迭代训练方法,使之能够不断随着标记数据的增加而跟进训练,最终实现了模型自动标记数据集、数据集更新迭代训练模型的闭环。

依赖安装

本项目涉及的源码已开源在 label-studio-demo 中,所使用的软件版本如下,其中 MMDetection 的版本及配置参考 MMDetection 使用示例:从入门到出门 :
软件版本label-studio1.6.0label-studio-ml1.0.8label-studio-tools0.0.1
本文最终项目目录结构如下:

  1. LabelStudio
  2. ├── backend // 后端功能
  3. ├── examples // label studio ml 官方示例(非必须)
  4. ├── mmdetection // mmdetection 人脸检测模型
  5. ├── model // label studio ml 生成的后端服务 (自动生成)
  6. ├── workdir // 模型训练时工作目录
  7. | ├── fcos_common_base.pth // 后端模型基础权重文件
  8. | └── latest.pth // 后端模型最新权重文件
  9. └── runbackend.bat // 生成并启动后端服务的脚本文件
  10. ├── dataset // 实验所用数据集(非必须)
  11. ├── label_studio.sqlite3 // label studio 数据库文件
  12. ├── media
  13. ├── export
  14. └── upload // 上传的待标记数据集
  15. └── run.bat // 启动 label studio 的脚本文件(非必须)

label studio 安装启动

label-studio 是一个开源的多媒体数据标注工具(用来提供基本标注功能的GUI),并且可以很方便的将标注结果导出为多种常见的数据格式。其安装方法主要有以下几种:

  1. Docker
  1. docker pull heartexlabs/label-studio:latest
  1. pip
  1. pip install label-studio

建议是通过 pip 安装,其配置更清晰方便。环境安装完成后在任意位置打开命令行,使用以下命令启动 label studio :

  1. label-studio --data-dir LabelStudio -p80

其中

  1. --data-dir

用于指定工作目录,

  1. -p

用来指定运行端口,运行成功后会当前目录会生成 LabelStudio 目录:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-osKp5UCX-1669559969687)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-23-16-48-29.jpg “label-studio 初始化”)]
并弹出浏览器打开 label studio 工作界面,创建用户后即可登录使用:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KZyHX93a-1669559969689)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-23-16-50-26.jpg “工作界面”)]

label studio ml 安装

label studio ml 是 label studio 的后端配置,其主要提供了一种能够快速将AI模型封装为 label studio 可使用的预标记服务(提供模型预测服务)。其安装方法有以下几种:

  1. GitHub 安装
  1. git clone https://github.com/heartexlabs/label-studio-ml-backend
  2. cd label-studio-ml-backend
  3. pip install-U-e.
  1. pip 安装:
  1. pip install label-studio-ml

仍然建议通过 pip 安装,GitHub 安装可能会有依赖问题。安装完成后使用

  1. label-studio-ml -h

命令检查是否安装成功。

前端配置

在 label studio 前端主页中选择创建项目:

  1. 项目基本信息 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OQHI92Pn-1669559969689)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-23-18-02-47.png “创建项目1”)]
  2. 导入数据 直接将图片选中拖入数据框即可。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pmzJAIaM-1669559969690)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-23-18-11-13.png “创建项目2”)]
  3. 选择标记模板 label studio 内置了很多常见的深度学习标记模板,本示例是人脸识别,所以选择 Object Detection with Bounding Boxes 模板,确定后将模板内自带的 Airplane 、 Car 标签删除,然后添加自定义的标签 face (标签的类别数量可以比后端支持的类别多,也可以更少,但是同类别的标签名必须一致)。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IbR6VO0o-1669559969690)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-23-18-14-09.png “创建项目3”)]

此时我们已经可以通过 label studio 进行普通的图片标记工作,如果要使用其提供的辅助预标记功能,则需要进行后续配置。

后端配置

选取后端模型

在 MMDetection 使用示例:从入门到出门 中,我们已经完成了基于 celeba100 数据集的人脸检测模型的训练,本文将直接使用其中训练的结果模型。

后端服务实现

引入后端模型

在根目录下创建 backend 目录,并将 MMDetection 使用示例:从入门到出门 中的整个项目文件复制其中,此时项目目录为:

  1. .
  2. ├── backend
  3. └── mmdetection // 复制的 mmdetection 文件夹
  4. ├── checkpoints
  5. ├── completion.json
  6. ├── configs
  7. ├── conf.yaml
  8. ├── detect.py
  9. ├── label_studio_backend.py // 需要自己实现的后端模型
  10. ├── mmdet
  11. ├── model
  12. ├── test.py
  13. ├── tools
  14. └── train.py
  15. ├── dataset
  16. ├── export
  17. ├── label-studio-ml-backend
  18. ├── label_studio.sqlite3
  19. ├── media
  20. └── run.bat

创建后端模型

label studio 的后端模型有自己固定的写法,只要继承 label_studio_ml.model.LabelStudioMLBase 类并实现其中的接口都可以作为 label studio 的后端服务。在 mmdetection 文件夹下创建 label_studio_backend.py 文件,然后在文件中引入通用配置:

  1. ROOT = os.path.join(os.path.dirname(__file__))print('=> ROOT = ', ROOT)# label-studio 启动的前端服务地址
  2. os.environ['HOSTNAME']='http://localhost:80'# label-studio 中对应用户的 API_KEY
  3. os.environ['API_KEY']='37edbb42f1b3a73376548ea6c4bc7b3805d63453'
  4. HOSTNAME = get_env('HOSTNAME')
  5. API_KEY = get_env('API_KEY')print('=> LABEL STUDIO HOSTNAME = ', HOSTNAME)ifnot API_KEY:print('=> WARNING! API_KEY is not set')withopen(os.path.join(ROOT,"conf.yaml"), errors='ignore')as f:
  6. conf = yaml.safe_load(f)

这里的

  1. API_KEY

可以在前端的 Account & Settings 中找到。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWWhfqAP-1669559969692)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-09-05.png “API_KEY”)]
然后在 label_studio_backend.py 中创建自己预标记模型的类,使其继承

  1. label_studio_ml.model.LabelStudioMLBase

并实现关键方法,不同方法对应不同功能,后面会陆续实现:

  1. classMyModel(LabelStudioMLBase):def__init__(self,**kwargs):passdefpredict(self, tasks,**kwargs):passdeffit(self, completions, batch_size=32, num_epochs=5,**kwargs):passdefgen_train_data(self, project_id):pass

完成其中的

  1. __init__

方法,以实现模型初始化功能(必须):

  1. def__init__(self,**kwargs):super(MyModel, self).__init__(**kwargs)# mmdetection 的方式加载模型及权重if self.train_output:
  2. self.detector = init_detector(conf['config_file'], self.train_output['model_path'], device=conf['device'])else:
  3. self.detector = init_detector(conf['config_file'], conf['checkpoint_file'], device=conf['device'])# 获取后端模型标签列表
  4. self.CLASSES = self.detector.CLASSES
  5. # 前端配置的标签列表
  6. self.labels_in_config =set(self.labels_in_config)# 一些项目相关常量
  7. self.from_name, self.to_name, self.value, self.labels_in_config = get_single_tag_keys(self.parsed_label_config,'RectangleLabels','Image')# 前端获取任务属性

完成其中的

  1. predict

方法,以实现预标记模型的标记功能(必须):

  1. defpredict(self, tasks,**kwargs):# 获取待标记图片
  2. images =[get_local_path(task['data'][self.value], hostname=HOSTNAME, access_token=API_KEY)for task in tasks]for image_path in images:
  3. w, h = get_image_size(image_path)# 推理演示图像
  4. img = mmcv.imread(image_path)# mmdetection 的方法进行推理
  5. result = inference_detector(self.detector, img)# 手动获取标记框位置
  6. bboxes = np.vstack(result)# 手动获取推理结果标签
  7. labels =[np.full(bbox.shape[0], i, dtype=np.int32)for i, bbox inenumerate(result)]
  8. labels = np.concatenate(labels)# 推理分数 FCOS算法结果会多出来两个分数极低的检测框,需要将其过滤掉
  9. scores = bboxes[:,-1]
  10. score_thr =0.3
  11. inds = scores > score_thr
  12. bboxes = bboxes[inds,:]
  13. labels = labels[inds]
  14. results =[]# results需要放在list中再返回forid, bbox inenumerate(bboxes):
  15. label = self.CLASSES[labels[id]]if label notin self.labels_in_config:print(label +' label not found in project config.')continue
  16. results.append({'id':str(id),# 必须为 str,否则前端不显示'from_name': self.from_name,'to_name': self.to_name,'type':'rectanglelabels','value':{'rectanglelabels':[label],'x': bbox[0]/ w *100,# xy 为左上角坐标点'y': bbox[1]/ h *100,'width':(bbox[2]- bbox[0])/ w *100,# width,height 为宽高'height':(bbox[3]- bbox[1])/ h *100},'score':float(bbox[4]*100)})
  17. avgs = bboxes[:,-1]
  18. results =[{'result': results,'score': np.average(avgs)*100}]return results

完成其中的

  1. gen_train_data

方法,以获取标记完成的数据用来训练(非必须,其实 label studio 自带此类方法,但在实践过程中有各种问题,所以自己写了一遍):

  1. defgen_train_data(self, project_id):import zipfile
  2. import glob
  3. download_url =f'{HOSTNAME.rstrip("/")}/api/projects/{project_id}/export?export_type=COCO&download_all_tasks=false&download_resources=true'
  4. response = requests.get(download_url, headers={'Authorization':f'Token {API_KEY}'})
  5. zip_path = os.path.join(conf['workdir'],"train.zip")
  6. train_path = os.path.join(conf['workdir'],"train")withopen(zip_path,'wb')asfile:file.write(response.content)# 通过二进制写文件的方式保存获取的内容file.flush()
  7. f = zipfile.ZipFile(zip_path)# 创建压缩包对象
  8. f.extractall(train_path)# 压缩包解压缩
  9. f.close()
  10. os.remove(zip_path)ifnot os.path.exists(os.path.join(train_path,"images",str(project_id))):
  11. os.makedirs(os.path.join(train_path,"images",str(project_id)))for img in glob.glob(os.path.join(train_path,"images","*.jpg")):
  12. basename = os.path.basename(img)
  13. shutil.move(img, os.path.join(train_path,"images",str(project_id), basename))returnTrue

完成其中的

  1. fit

方法,以实现预标记模型的自训练功能(非必须):

  1. deffit(self, completions, num_epochs=5,**kwargs):if completions:# 使用方法1获取 project_id
  2. image_urls, image_labels =[],[]for completion in completions:
  3. project_id = completion['project']
  4. u = completion['data'][self.value]
  5. image_urls.append(get_local_path(u, hostname=HOSTNAME, access_token=API_KEY))
  6. image_labels.append(completion['annotations'][0]['result'][0]['value'])elif kwargs.get('data'):# 使用方法2获取 project_id
  7. project_id = kwargs['data']['project']['id']ifnot self.parsed_label_config:
  8. self.load_config(kwargs['data']['project']['label_config'])if self.gen_train_data(project_id):# 使用 mmdetection 的方法训练模型from tools.mytrain import MyDict, train
  9. args = MyDict()
  10. args.config = conf['config_file']
  11. data_root = os.path.join(conf['workdir'],"train")
  12. args.cfg_options ={}
  13. args.cfg_options['data_root']= data_root
  14. args.cfg_options['runner']=dict(type='EpochBasedRunner', max_epochs=num_epochs)
  15. args.cfg_options['data']=dict(
  16. train=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),
  17. val=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),
  18. test=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),)
  19. args.cfg_options['load_from']= conf['checkpoint_file']
  20. args.work_dir = os.path.join(data_root,"work_dir")
  21. train(args)
  22. checkpoint_name = time.strftime("%Y%m%d%H%M%S", time.localtime(time.time()))+".pth"
  23. shutil.copy(os.path.join(args.work_dir,"latest.pth"), os.path.join(conf['workdir'], checkpoint_name))print("model train complete!")# 权重文件保存至运行环境,将在下次运行 init 初始化时加载return{'model_path': os.path.join(conf['workdir'], checkpoint_name)}else:raise"gen_train_data error"

上述完整代码如下:

  1. import os
  2. import yaml
  3. import time
  4. import shutil
  5. import requests
  6. import numpy as np
  7. from label_studio_ml.model import LabelStudioMLBase
  8. from label_studio_ml.utils import get_image_size, get_single_tag_keys
  9. from label_studio_tools.core.utils.io import get_local_path
  10. from label_studio_ml.utils import get_env
  11. from mmdet.apis import init_detector, inference_detector
  12. import mmcv
  13. ROOT = os.path.join(os.path.dirname(__file__))print('=> ROOT = ', ROOT)
  14. os.environ['HOSTNAME']='http://localhost:80'
  15. os.environ['API_KEY']='37edbb42f1b3a73376548ea6c4bc7b3805d63453'
  16. HOSTNAME = get_env('HOSTNAME')
  17. API_KEY = get_env('API_KEY')print('=> LABEL STUDIO HOSTNAME = ', HOSTNAME)ifnot API_KEY:print('=> WARNING! API_KEY is not set')withopen(os.path.join(ROOT,"conf.yaml"), errors='ignore')as f:
  18. conf = yaml.safe_load(f)classMyModel(LabelStudioMLBase):def__init__(self,**kwargs):super(MyModel, self).__init__(**kwargs)# mmdetection 的方式加载模型及权重if self.train_output:
  19. self.detector = init_detector(conf['config_file'], self.train_output['model_path'], device=conf['device'])else:
  20. self.detector = init_detector(conf['config_file'], conf['checkpoint_file'], device=conf['device'])# 获取后端模型标签列表
  21. self.CLASSES = self.detector.CLASSES
  22. # 前端配置的标签列表
  23. self.labels_in_config =set(self.labels_in_config)# 一些项目相关常量
  24. self.from_name, self.to_name, self.value, self.labels_in_config = get_single_tag_keys(self.parsed_label_config,'RectangleLabels','Image')# 前端获取任务属性defpredict(self, tasks,**kwargs):# 获取待标记图片
  25. images =[get_local_path(task['data'][self.value], hostname=HOSTNAME, access_token=API_KEY)for task in tasks]for image_path in images:
  26. w, h = get_image_size(image_path)# 推理演示图像
  27. img = mmcv.imread(image_path)# mmdetection 的方法进行推理
  28. result = inference_detector(self.detector, img)# 手动获取标记框位置
  29. bboxes = np.vstack(result)# 手动获取推理结果标签
  30. labels =[np.full(bbox.shape[0], i, dtype=np.int32)for i, bbox inenumerate(result)]
  31. labels = np.concatenate(labels)# 推理分数 FCOS算法结果会多出来两个分数极低的检测框,需要将其过滤掉
  32. scores = bboxes[:,-1]
  33. score_thr =0.3
  34. inds = scores > score_thr
  35. bboxes = bboxes[inds,:]
  36. labels = labels[inds]
  37. results =[]# results需要放在list中再返回forid, bbox inenumerate(bboxes):
  38. label = self.CLASSES[labels[id]]if label notin self.labels_in_config:print(label +' label not found in project config.')continue
  39. results.append({'id':str(id),# 必须为 str,否则前端不显示'from_name': self.from_name,'to_name': self.to_name,'type':'rectanglelabels','value':{'rectanglelabels':[label],'x': bbox[0]/ w *100,# xy 为左上角坐标点'y': bbox[1]/ h *100,'width':(bbox[2]- bbox[0])/ w *100,# width,height 为宽高'height':(bbox[3]- bbox[1])/ h *100},'score':float(bbox[4]*100)})
  40. avgs = bboxes[:,-1]
  41. results =[{'result': results,'score': np.average(avgs)*100}]return results
  42. deffit(self, completions, num_epochs=5,**kwargs):if completions:# 使用方法1获取 project_id
  43. image_urls, image_labels =[],[]for completion in completions:
  44. project_id = completion['project']
  45. u = completion['data'][self.value]
  46. image_urls.append(get_local_path(u, hostname=HOSTNAME, access_token=API_KEY))
  47. image_labels.append(completion['annotations'][0]['result'][0]['value'])elif kwargs.get('data'):# 使用方法2获取 project_id
  48. project_id = kwargs['data']['project']['id']ifnot self.parsed_label_config:
  49. self.load_config(kwargs['data']['project']['label_config'])if self.gen_train_data(project_id):# 使用 mmdetection 的方法训练模型from tools.mytrain import MyDict, train
  50. args = MyDict()
  51. args.config = conf['config_file']
  52. data_root = os.path.join(conf['workdir'],"train")
  53. args.cfg_options ={}
  54. args.cfg_options['data_root']= data_root
  55. args.cfg_options['runner']=dict(type='EpochBasedRunner', max_epochs=num_epochs)
  56. args.cfg_options['data']=dict(
  57. train=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),
  58. val=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),
  59. test=dict(img_prefix=data_root, ann_file=data_root +'/result.json'),)
  60. args.cfg_options['load_from']= conf['checkpoint_file']
  61. args.work_dir = os.path.join(data_root,"work_dir")
  62. train(args)
  63. checkpoint_name = time.strftime("%Y%m%d%H%M%S", time.localtime(time.time()))+".pth"
  64. shutil.copy(os.path.join(args.work_dir,"latest.pth"), os.path.join(conf['workdir'], checkpoint_name))print("model train complete!")# 权重文件保存至运行环境,将在下次运行 init 初始化时加载return{'model_path': os.path.join(conf['workdir'], checkpoint_name)}else:raise"gen_train_data error"defgen_train_data(self, project_id):import zipfile
  65. import glob
  66. download_url =f'{HOSTNAME.rstrip("/")}/api/projects/{project_id}/export?export_type=COCO&download_all_tasks=false&download_resources=true'
  67. response = requests.get(download_url, headers={'Authorization':f'Token {API_KEY}'})
  68. zip_path = os.path.join(conf['workdir'],"train.zip")
  69. train_path = os.path.join(conf['workdir'],"train")withopen(zip_path,'wb')asfile:file.write(response.content)# 通过二进制写文件的方式保存获取的内容file.flush()
  70. f = zipfile.ZipFile(zip_path)# 创建压缩包对象
  71. f.extractall(train_path)# 压缩包解压缩
  72. f.close()
  73. os.remove(zip_path)ifnot os.path.exists(os.path.join(train_path,"images",str(project_id))):
  74. os.makedirs(os.path.join(train_path,"images",str(project_id)))for img in glob.glob(os.path.join(train_path,"images","*.jpg")):
  75. basename = os.path.basename(img)
  76. shutil.move(img, os.path.join(train_path,"images",str(project_id), basename))returnTrue

启动后端服务

以下命令为 window 脚本,皆在 backend 根目录下执行。

  1. 根据后端模型生成服务代码
  1. label-studio-ml init model --script mmdetection/label_studio_backend.py --force
  1. label-studio-ml init

命令提供了一种根据后端模型自动生成后端服务代码的功能,

  1. model

为输出目录,

  1. --script

指定后端模型路径,

  1. --force

表示覆盖生成。该命令执行成功后会在

  1. backend

目录下生成

  1. model

目录。
2. 复制 mmdetection 依赖文件
由于 label-studio-ml 生成的后端服务代码只包含基本的 label_studio_backend.py 中的内容,而我们所用的 mmdetection 框架的执行需要大量额外的依赖,所以需要手动将这些依赖复制到生成的 model 目录中。使用以下命令完成自动复制依赖:

  1. md .\model\mmdet
  2. md .\model\model
  3. md .\model\configs
  4. md .\model\checkpoints
  5. md .\model\tools
  6. md .\model\workdir
  7. xcopy .\mmdetection\mmdet .\model\mmdet /S /Y /Q
  8. xcopy .\mmdetection\model .\model\model /S /Y /Q
  9. xcopy .\mmdetection\configs .\model\configs /S /Y /Q
  10. xcopy .\mmdetection\checkpoints .\model\checkpoints /S /Y /Q
  11. xcopy .\mmdetection\tools .\model\tools /S /Y /Q
  12. copy .\mmdetection\conf.yaml .\model\conf.yaml
  1. 启动后端服务
  1. label-studio-ml start model --host 0.0.0.0 -p 8888

启动成功后效果如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0VraBIMl-1669559969692)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-14-57-03.png “启动后端服务”)]

前端自动标注

前面我们已经能够从 label studio 前端正常手动标注图片,要想实现自动标注,则需要在前端引入后端服务。在我们创建的项目中依次选择 Settings ->
Machine Learning -> Add model ,然后输入后端地址

  1. http://10.100.143.125:8888/

点击保存(此地址为命令行打印地址,而非

  1. http://127.0.0.1:8888/

):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DSLKk3Ze-1669559969693)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-12-31.png “Add model”)]
此时我们从前端项目中打开待标记图片,前端会自动请求后端对其进行标记(调用后端的

  1. predict

方法),等待片刻后即可看见预标记结果,我们只需要大致核对无误后点击 submit 即可:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZRJyYK6Q-1669559969693)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-17-42.png “前端自动标注”)]
如果觉得每次打开图片都需要等待片刻才会收到后端预测结果比较费时,可以在 Settings -> Machine Learning 设置中选择打开

  1. Retrieve predictions when loading a task automatically

,此后前端会在我们每次打开项目时自动对所有任务进行自动预测,基本能够做到无等待:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MtW5i8Od-1669559969693)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-22-32.png “Retrieve predictions when loading a task automatically”)]

后端自动训练

现在所有的图片都已经有了与标注信息,我们先检查所有图片,检查并改进所有标注信息然后点击 submit 提交:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vf3SKQ3S-1669559969693)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-35-11.png “提交标注”)]
在 Settings -> Machine Learning 中点击后端服务的 Start Training 按钮,即可调用后端模型使用已标记信息进行训练:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fpD9uryy-1669559969694)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-38-15.png “Start Training”)]
该操作会调用后端模型的

  1. fit

方法对模型进行训练,可以在后端命令行界面看见训练过程,训练完成后的所有新数据集都会使用新的模型进行预测:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nQtQ3Btu-1669559969694)(https://cdn.jsdelivr.net/gh/wefantasy/FileCloud/img/label_studio_setup_and_auto_label-2022-11-24-15-39-44.png “自动训练”)]
也可以 Settings -> Machine Learning 中允许模型自动训练,但训练频率过高会影响程序效率。

部分常见问题

Q: 一种访问权限不允许的方式做了一个访问套接字的尝试。
A: label-studio-ml start 启动时指定端口 -p 8888

Q: Can’t connect to ML backend http://127.0.0.1:8888/, health check failed. Make sure it is up and your firewall is properly configured.
A: label-studio-ml start 启动后会打印一个监听地址,label studio 前端添加该地址而非 http://127.0.0.1:8888/

Q: FileNotFoundError: Can’t resolve url, neither hostname or project_dir passed: /data/upload/1/db8f065a-000001.jpg
A: 接口返回的是项目的相对地址,无法通过该地址直接读取到图片原件,需要配合 get_local_path 函数使用。

Q: UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 2: illegal multibyte sequence
A: 修改 C:\Users\Fantasy.conda\envs\labelstudio\lib\json_init_.py#line 179 为:

  1. for chunk in iterable:
  2. fp.write(chunk.replace(u'\xa0',u''))

参考



本文转载自: https://blog.csdn.net/cx776474961/article/details/128071369
版权归原作者 丿风色幻想 所有, 如有侵权,请联系我们删除。

“label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环”的评论:

还没有评论