一种面向医学垂直领域的数据标注平台的制作方法

文档序号：31051917发布日期：2022-08-06 07:47阅读：125来源：国知局

1.本发明涉及计算机技术领域，具体涉及一种基于分布式微服务和人工智能技术的数据标注平台。

背景技术：

2.近年来我国医疗资源正在处于供不应求的状态，来自于大城市三甲医院的医生每天都要面临繁琐的门诊或者手术等工作，同时有些医生也需要为了医学的发展去做更多的科研相关工作。因此需要依靠技术的手段帮助依赖工作者提升效率，在效率提升的同时也能帮助医生提高医疗服务的质量。
3.在医生的日常工作中，医生需要根据自己的知识与经验与患者进行沟通、诊断、实施治疗方案和随访工作等等，当中少不了需要记录大量的数据。由于患者的具体情况在绝大部分系统中并不能很好地使用结构化的方式进行表现和存储，因此医生在工作过程当中需要用文字去表达和记录重要的关键信息，具体包括电子病历、检查检验描述报告等等。文本数据的记录对于具有专业医学背景的来说具有较高的可读性，并且表达能力丰富。但是，文本数据属于非结构化数据，很难对其进行具体的分析统计、精准检索和系统间互通互联等。
4.当前人工智能技术在高速发展，其中自然语言处理则是人工智能范畴中一个非常重要的领域，基于统计学习或者深度学习的自然语言处理无论在通用领域或者是专业领域都得到了广泛的利用，医学和医疗领域也是其中之一。使用自然语言处理技术应用在医疗、医学、医药文本数据上进行关键信息抽取，可以有效地将数据进行结构化从而实现精确搜索、统计分析甚至提升系统间的互操作性等。但是医疗领域的文本数据相对于通用领域来说有着很大的差异，包括书写行文、专业化术语等等。这些原因使得通用的自然语言处理技术和工具很难直接应用到医疗领域上。

技术实现要素：

5.针对现有技术的不足，本发明旨在提供一种面向医学垂直领域的数据标注平台。
6.为了实现上述目的，本发明采用如下技术方案：
7.一种面向医学垂直领域的数据标注平台，包括：
8.术语库：用于存储用于标注的篇章标题、实体标签、关系类型和对齐术语；
9.登录模块：用于供用户登录验证，用户根据权限分为标注管理员和标注员；
10.项目管理模块：用于供标注管理员创建标注项目并为标注项目创建数据标注任务；标注管理员可定义标注项目的名称，创建数据标注任务时需要输入任务的信息，包括设置任务类型、添加任务数据、设定用于标注的标签来源、设置是否进行预标注以及预标注的方式和参数；标注管理员可将数据标注任务分派一个或多个标注员执行，也可以分派给自身执行；所述任务类型包括篇章分析、实体标注、实体对齐、实体关系识别；设定用于标注的标签来源即为指定目标术语库；所述项目管理模块还用于供标注管理员审核已经完成并提
交的数据标注任务，如确认标注无误则审核通过，否则审核不通过且标注管理员可以对错误的内容进行批注，审核不通过的数据标注任务会退回给对应的标注员进行修改；
11.预标注模块：用于根据标注管理员设定的预标注的模式和参数，对数据标注任务中的任务数据进行预标注，并将预标注后的任务数据推送给标注员；
12.数据标注模块：用于供标注管理员或标注员执行被分派的数据标注任务，按照标注管理员对数据标注任务的设置，对任务数据进行标注，标注完成后将标注后的任务数据提交至标注审核模块，以及对未通过审核的数据标注任务进行修改；标注管理员或标注员可在数据标注模块查看每个数据标注任务的审核结果以及批注；与任务类型相对应，所述数据标注执行模块中具有篇章分析标注工具、实体识别标注工具、实体对齐标注工具和实体关系识别标注工具，分别用于进行篇章分析、实体识别、实体对齐和实体关系识别的标注任务。
13.进一步地，所述术语库包括内置的专用术语库和由用户按需自定义的术语库。
14.进一步地，项目管理模块还用于供标注管理员导出目标数据标注任务的已标注的任务数据。
15.进一步地，项目管理模块还用于供标注管理员通过标注任务列表查看数据标注任务的任务量和标注人员总数，并通过标注详情查看每个数据标注任务中各种类型的标签对应的已被标注的数据量。
16.进一步地，所述预标注包括使用预训练的模型模式；预训练的模型是内置的，包括病历文本的实体标注、实体关系、实体对齐模型，和药品说明书的实体标注、实体关系、实体对齐模型，这些预训练模型均是经过大规模的数据标注训练而成；当标注管理员设定了使用预训练的模型作为预标注的模式，预标注模块会使用预训练的模型提前对任务数据进行预标注，标注员在执行数据标注任务时，在预标注结果的基础上进行修改或添加新的标注。
17.进一步地，所述预标注包括自主学习训练模式；在自主学习训练模式下，标注管理员需要设定自主学习训练中包括每次迭代需要的样本数量、基线模型、训练轮数在内的超参数，预标注模块会自动根据每次迭代增量的数据进行迁移学习训练，训练完毕后会立即对下一批数据进行预标注，并根据预标注结果的置信度按从低到高排序并推送给标注员，加强标注员对于不确定样本的标注。
18.进一步地，在数据标注模块中，用户可通过个人任务列表查看被分派的数据标注任务以及所述标注项目，支持通过名称和状态或时间对被分派的数据标注任务进行搜索和过滤，定位到具体的数据标注任务。
19.进一步地，在某个数据标注任务数据审核不通过并且附带了标注管理员的批注被退回到标注员账户的情况下，标注员在打开待修改的数据标注任务时，批注内容自动打开，支持标注员在点击批注内容时，定位到任务数据的对应位置。
20.本发明的有益效果在于：利用本发明，可以帮助医疗专业人士组织和标注不同的自然语言处理任务的数据，并通过内置常用的标注术语库和专业领域的预训练模型帮助提升标注工作效率，为数字化医疗累积优质的标注数据。同时，本发明平台也提供了数据质量控制功能，帮助从业人员保证数据质量从而提升医疗人工智能模型的表现性能。
附图说明
21.图1为本发明实施例中平台的流程示意图；
22.图2为本发明实施例中创建项目界面示例图；
23.图3为本发明实施例中创建任务界面示例图；
24.图4为本发明实施例中标注任务列表界面示例图；
25.图5为本发明实施例中标注详情界面示例图；
26.图6为本发明实施例中任务分派界面示例图；
27.图7为本发明实施例中审核界面示例图；
28.图8为本发明实施例中查看审核批注界面示例图；
29.图9为本发明实施例中导出界面示例图；
30.图10为本发明实施例中篇章分析的标注界面示例图；
31.图11为本发明实施例中实体标注界面示例图；
32.图12为本发明实施例中实体对齐的标注界面示例图；
33.图13为本发明实施例中实体关系识别的标注结果示例图。
具体实施方式
34.以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。
35.本实施例提供一种面向医学垂直领域的数据标注平台，包括：
36.术语库：用于存储用于标注的篇章标题、实体标签、关系类型和对齐术语；所述术语库可以是常用的专用术语库，包括snomed ct、umls、loinc等，也可以是由用户按需自定义的术语库。术语库在本实施例中有两个用途，其中一个用途是作为篇章分析、实体标注、实体关系识别的标签体系，另一个用途是作为实体对齐标注任务中标准化术语。
37.登录模块：用于供用户登录验证，用户根据权限分为标注管理员和标注员；
38.项目管理模块：用于供标注管理员创建标注项目(创建项目界面示例如图2所示)并为标注项目创建数据标注任务(创建任务界面示例如图3所示)；标注管理员可定义标注项目的名称，创建数据标注任务时需要输入任务的信息，包括设置任务类型、添加任务数据、设定用于标注的标签来源、设置是否进行预标注以及预标注的方式和参数；标注管理员可将数据标注任务分派一个或多个标注员执行，也可以分派给自身执行(分派界面示例如图6所示)；所述任务类型包括篇章分析、实体标注、实体对齐、实体关系识别；设定用于标注的标签来源即为指定目标术语库；所述项目管理模块用于供标注管理员审核已经完成并提交的数据标注任务，如确认标注无误则审核通过，否则审核不通过，且标注管理员可以对错误的内容进行批注，审核不通过的数据标注任务会退回给对应的标注员进行修改(审核界面示例如图7所示，批注界面示例如图8所示)。
39.进一步地，项目管理模块还用于供标注管理员导出目标数据标注任务的已标注的任务数据(导出界面示例如图9所示)。本实施例支持多种常用的标注数据格式导出，为了方便用户进行模型开发或者是系统对接工作。
40.进一步地，项目管理模块还用于供标注管理员通过标注任务列表查看数据标注任
务的任务量和标注人员总数(标注任务列表界面示例如图4所示)，并通过标注详情查看每个数据标注任务中各种类型的标签对应的已被标注的数据量(标注详情界面示例如图5所示)。这样，标注管理员可以快速了解工作进度来监控项目整体进度，从而可以根据需要对项目作出适当的调整，包括工作量的预估、标注员数量的增减等等。
41.预标注模块：用于根据标注管理员设定的预标注的模式和参数，对数据标注任务中的任务数据进行预标注，并将预标注后的任务数据推送给标注员。
42.在本实施例中，所述预标注分为两种模式，分别为使用预训练的模型模式和自主学习训练模式。
43.预训练的模型是内置的，包括病历文本的实体标注、实体关系、实体对齐模型，和药品说明书的实体标注、实体关系、实体对齐模型，这些预训练模型均是经过大规模的数据标注训练而成。假如标注管理员设定了使用预训练的模型作为预标注的模式，预标注模块会使用预训练的模型提前对任务数据进行预标注，标注员在执行数据标注任务时，在预标注结果的基础上进行修改或添加新的标注。
44.在自主学习训练模式下，标注管理员需要设定自主学习训练中每次迭代需要的样本数量、基线模型、训练轮数等超参数，预标注模块会自动根据每次迭代增量的数据进行迁移学习训练，训练完毕后会立即对下一批数据进行预标注，并根据预标注结果的置信度按从低到高排序并推送给标注员，目的是加强标注员对于不确定样本的标注，使标注工作时间尽量缩短。假如标注管理员设定了自主学习训练的模式作为预标注的模式，预标注模块会自动学习标注员的标注行为并根据置信度，推荐不确定较高的样本给标注员反复确认。
45.数据标注模块：用于供标注管理员或标注员执行被分派的数据标注任务，按照标注管理员对数据标注任务的设置，对任务数据进行标注，标注完成后将标注后的任务数据提交至标注审核模块，以及对未通过审核的数据标注任务进行修改；标注管理员或标注员可在数据标注模块查看每个数据标注任务的审核结果以及批注；与任务类型相对应，所述数据标注执行模块中具有篇章分析标注工具、实体识别标注工具、实体对齐标注工具和实体关系识别标注工具，分别用于进行篇章分析、实体识别、实体对齐和实体关系识别的标注任务。
46.当标注管理员设置数据标注任务需要进行预标注时，被分派该数据标注任务的标注管理员或标注员是在预标注的任务数据基础上完成标注任务。这样可以缩短标注时间，提高标注质量和效率。
47.进一步地，在本实施例中，在数据标注模块中，用户可通过个人任务列表查看被分派的数据标注任务以及所述标注项目，支持通过名称和状态或时间对被分派的数据标注任务进行搜索和过滤，快速定位到具体的数据标注任务。
48.进一步地，在某个数据标注任务数据不通过并且附带了标注管理员的批注被退回到标注员账户的情况下，标注员在打开待修改的数据标注任务时，批注内容自动打开，支持标注员在点击批注内容时，定位到任务数据的对应位置。示例界面如图13所示。
49.图1为本实施例中数据标注平台的流程走向示意图。
50.需要说明的是，本实施例提供的是面向医疗、医学领域的文本数据标注平台，目的是为了构建自然语言处理模型并辅助处理医疗医学领域文本数据。本实施例中，任务类型包括篇章分析、实体标注、实体对齐和实体关系识别这四种自然语言处理任务。
51.篇章分析的标注任务是指对文本进行句子级别或者段落级别的数据标注。在医学和医疗领域，常有同一段落中的文本包含不同性质的描述内容，例如在电子病历的现病史的内容中，会同时包含发病情况、主要症状、伴随症状等。而在不同性质的描述内容中，描述的行文结构、内容、词汇都有所区别。为了做到更准确的信息抽取，往往需要针对不同性质的内容进行建模，本实施例的篇章分析标注任务就是为了区分不同性质的内容而设计的功能。用户可以根据自身的需求设计不同颗粒度的标签去描述不同性质的内容。使用篇章分析标注功能可以标识内容的起始和结束位置，以及内容对应的类型或者标签，类型或者标签的设定是管理员在创建数据标注任务的时候统一指定的。篇章分析的标注界面示例如图10所示。
52.实体标注是比篇章分析颗粒度低一个级别的数据标注任务，其更聚焦于一个或者多个词组所共同组成的实体。本实施例的实体的概念不同于通用领域自然语言处理中的实体，更倾向于指医疗、医学文本数据中经常出现的概念，例如疾病、表现、人群等等。但是本实施例中的实体标注功能也可以被用于标注通用领域中所指的实体。本实施例的实体识别标注功能可以标识实体的起始和结束位置，以及实体对应的类型标签，类型标签的设定是标注管理员在创建数据标注任务的时候统一指定的。实体标注界面示例如图11所示。
53.在医疗、医学领域中，文本数据往往来源于不同机构或者是依据不同的标准进行书写，其中术语同一概念的名词、实体可以有多种的表示。为了使人工智能技术能进行大规模的自动化工作、同时为了实现多系统间的互操作性，实体标准化工作变得尤为重要，因此实施例中包含了实体对齐的标注任务。实体对齐的标注任务可以基于创建数据标注任务时预先选择的术语库作为标准。本实施例的数据标注平台内置常用的标准术语库，包括snomed ct、umls、lonic、icd10等等，可以满足不同的应用场景需求。另外，用户可以自定义术语库标准词汇。本实施例中，在进行实体对齐的标注任务时，针对前置的实体标注任务所产生实体集合进行整理后，作为新的标注任务被标注管理员分发到标注员，标注时，根据划定实体的字表意思、形态、上下文、不同语言版本的翻译和海量医学文本的预训练模型，去搜索设定术语库中概念意义接近的标准术语作为推荐选项，并以置信度进行排序展示给标注员，标注员根据理解选择最合适的一个。在搜索不到的情况下，标注员可以根据自己的理解去手动搜索和添加标准术语，使整个标注过程能顺利进行。实体对齐的标注界面示例如图12所示。
54.实体关系识别的标注任务是指标注不同实体间的连接或者关联关系。实体关系是包含知识的，同时是构成知识图谱或者crf格式的关键，因此此项功能非常重要。使用实体关系识别的标注功能，标注员可以制定任意两个已经标注的实体之间的关系，关系可以被设定为有向或者无向，并且标注员可以选择关系的类型。另外，标注员在使用实体关系标注功能时，可以通过预览图谱或者crf的功能查看最终展现的效果，以校正自己标注的动作，从而保证数据质量。同时，预览的效果是基于规则设定的，目的是为了适应标注员自定义最终的结构化效果以适应不同的应用场景需求。在本实施例中，一些常用的结构化规则是内置的，针对病历或者药品说明书。而用户自定义的规则是通过swrl(semantic world rule language)去设定。实体关系识别的标注结果示例如图13所示。
55.一般来说，形成人工智能的能力，需要两种比较重要的支持，一个是专家知识，另一个是数据量。专家知识的获取由于其难度很难形成规模化，并且针对文本数据的解析任
务很难穷尽其解析的规则。另一个就是数据量，现在大部分的人工智能模型都是通过大量的数据进行模型的训练而获得的，因此规模化生产高质量数据是实现人工智能解决医疗、医学文本数据关键信息提取的一个非常重要的途径。本实施例的数据标注平台用于规模化的数据标注工作，因此需要团队项目管理和数据质量保证的功能。
56.团队项目管理方面，包括标注项目的创建、数据标注任务的创建、标注任务的指派、过程管理、标注审核，以及标注结果的导出。
57.标注管理员通过创建项目的形式来构建数据标注任务集合，可以依据某个特定的目标作为划分项目的依据。在创建标注项目时需要定义好项目的名称、备注等基本信息，方便后续管理。
58.一个标注项目可以包含多个数据集合和多个任务，用户可以根据需求设定。用户在创建任务需要设定数据标注任务的基本信息、任务数据、元数据信息(即标签来源)、以及基于人工智能技术辅助提升效率的功能设定(即预标注)。首先是基本信息，需要定义好数据标注任务的名称，需要选择标注任务的类型。其后，配置数据标注任务的重点是添加任务数据，用户可以根据需要为不同的数据标注任务添加任务数据，任务数据可以是上传的数据，可以复用过往任务的数据，也可以沿用已完成标注的任务数据，例如实体关系识别的标注功能是基于实体标注的结果进行的，所以可以选择沿用实体标注任务的数据或者是上传带有实体标注的数据。再者，标注管理员需要为任务设定元数据信息，例如篇章分析标注的篇章标签、实体标注的实体标签、实体关系识别的关系类型以及实体对齐的标准化术语，这些均可以通过从术语库中选择并设置为标注任务的标签。最后，用户可以按照需要设置辅助提效功能，也就是预标注设定。
59.综上所述，本实施例的数据标注平台的架构可以划分为项目管理、任务管理、任务标注和能力更新。关于项目管理，当中包含数据来源管理、任务类型管理、标签管理、数据预处理管理的事务。而任务管理则聚焦于标注项目管理员和标注员之间的交互方面的事务，包括任务分配和标注任务审核。在任务标注过程中，涉及到人和机器、人和人之间的交互，任务标注更关注这些交互的事件。在特定的任务中，假如标注管理员设定了使用预标注模型或者自主学习作为效率提升的手段，预标注模型服务会提前对样本数据进行标注，标注员会根据预标注的结进行果修改或添加新的标注；而自主学习模型服务会自动学习标注员的标注行为并推荐不确定较高的样本给标注员反复确认。另一方面，标注员确定提交的已标注样本数据会转移到标注管理员账户下，经过审核－修改－再审核的循环后可以确定样本数据的完成。能力更新管理则是用于预标注服务或者自主学习服务与系统间的交互过程，已标注的样本数据经过标注管理员的审核确认后可以用于训练新的模型作为下一阶段预标注的服务，系统会自动化完成这一操作应用到选择了自主学习的任务上。另一方面，该模块同样帮助已拥有数据的用户快速部署自然语言处理服务。
60.需要说明的是，本实施例的数据标注平台是基于微服务的容器化技术开发而成的，其中包含网关服务、前端服务、数据存储服务、标注平台服务和插件服务模块。
61.1.网关服务主要负责对外提供通讯和数据交换服务；
62.2.前端服务主要提供web界面交互服务；
63.3.数据存储服务提供任务、数据、标签、标注结果、操作流水等的数据持久化服务；
64.4.插件服务提供标注结果存储、标签搜索和预标注的非耦合功能。
65.需要说明的是，本实施例采用非关系型数据库产品作为存储介质，以“文档”形式作为存储结构。文档形式的数据存储结构的优点在于支持数据结构灵活存储，支持多种数据类型，多样的数据结构，而且同时满足检索和存储的要求。项目、任务设置、标注任务、标注结果、标签等元素都是“文档”结构的对象。标注任务中嵌套包含不同标注类型的标注结果。
66.为了满足可用性的需求，本实施例采取了以下的高可用设计。标注平台内部服务采用模块化设计、外围服务采用插件式设计，之间互不影响。这种设计模式可以避免单个模块的失效导致系统全局不可用。模块分离的设计可以使得各自模块可以根据需求量动态伸缩以扩充处理能力。模块服务容器化处理，通过容器服务编排工具进行服务编排。服务间环境隔离、资源隔离，便于快速部署、管理和扩容。
67.1.前后端模块分离，它们互相之间通过基于http协议的统一通讯协议格式进行通讯，可维护性高；
68.2.应用服务与插件分离，应用逻辑和插件服务解耦，避免上下游数据通量不平衡所导致的阻塞问题；
69.3.web服务与任务调度分离，应用处理和任务处理解耦，通过队列进行通讯，提高前端用户使用体验；
70.4.内外网关分离，从入口层级进行隔离。
71.对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐珂轲黄毅宁林少泽韦宜均陈美莲梁锐
技术所有人：广州中康资讯股份有限公司
我是此专利的发明人

上一篇：一种用于英语翻译训练的学习机
上一篇：一种基于尾气火焰回热的超焓阴燃系统与方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。