从医患对话中捕获详细结构用于在临床文献中使用的制作方法

文档序号：19689361发布日期：2020-01-14 18:56阅读：218来源：国知局

背景技术：

本公开涉及一种用于促进对医疗接触中的转录的音频或音频-视频录音进行注释的方法和系统。

患者和医疗从业者(诸如医生和护士)之间的对话以及他们的对话经常被录音下来。对话的录音和转录本是患者的病案的一部分。转录本可以由语音到文本(speech-to-text)转换器创建，也可以由受过训练的(人)医疗转录师听取录音来创建。

不带任何注释的转录本在医生检查时用处有限，因为他们必须全神贯注地阅读转录本的许多行或页才能找到相关信息或理解转录本中不同评论的关联性。

此外，医疗接触的转录本的收集可以用来训练机器学习模型。训练机器学习模型需要大量高质量的训练示例，即，被标记的数据。在本领域中，需要一种方法来促进医疗接触的被注释的转录本的生成，即，相关词汇或短语被突出显示并与医疗概念相关联，并且被分组为彼此相关。本公开满足了这一需求。

技术实现要素：

在第一方面，公开了一种促进对医疗从业者-患者对话的录音进行注释的方法。该方法包括生成转录的音频录音的显示(即转录本)的步骤，例如在由执行注释的人(“划线标记员(scribelabeler)”)使用的工作站的显示器上显示。提供了一种工具用于突出显示转录本中由一个或多个词汇组成的文本跨度(spanoftext)。这些工具可以是简单的鼠标或键盘快捷键，用于选择或突出显示一个或多个词汇。

该方法还包括提供用于将标记分配给被突出显示的文本跨度的工具的步骤。该工具包括用于搜索可用于被分配给被突出显示的文本跨度的一组预定义标记的特征。例如，当划线标记员在转录本中突出显示词汇(诸如“胃痛”)时，弹出窗口，用户可以在该窗口中搜索(例如通过滚动或使用搜索工具进行搜索)可用标记。标记对医疗实体(诸如症状、药物、实验室结果等)和医疗实体的属性(例如，症状实体的严重性、位置、频率、发作时间)进行编码。

在本文档中，术语“医疗实体”意指离散医疗主题的类别，诸如症状、药物、实验室结果、生命体征、主诉、医疗成像、状况、医疗设备等。医疗实体被预定义为与标记任务的上下文相关，因此在这种情况下，在一个实施例中，它们可以由以下列表组成：药物、程序、症状、生命体征、状况、社会史、医疗状况、手术、成像、提供者、疫苗、生育史、检查、以及医疗设备。医疗实体可以以分级方式构造，诸如医疗实体“药物”可以是“药物：过敏”的形式，其中“过敏”是整个类别“药物”的类型或子类。作为另一示例，医疗实体“症状”可以以身体不同部分的症状的分级方式来构造，诸如“症状：眼睛”、“症状：神经”等。

术语“医疗实体的属性”简单地意味着医疗实体的一些描述性特性或特性，诸如例如医疗实体“医疗设备”可以具有“患者的实际使用”的属性，这意味着患者当前正在使用一件医疗设备。作为另一示例，症状医疗实体可以具有“发作”的属性。当转录本中有词汇或短语指示患者第一次开始经历症状的时间时，将使用“症状/发作”的标记作为注释。作为另一示例，当转录本中有词汇或短语指示患者定期使用某件医疗设备时，将使用“医疗设备/定期”的标记作为注释，其中“定期”是医疗实体“医疗设备”的属性。

该方法还包括提供用于对相关的被突出显示的文本跨度进行分组的工具的步骤。该工具可以是例如鼠标点击或键盘快捷键的组合，以建立分组。这些分组允许与被分配给被突出显示的文本跨度的标记相关联的医疗实体作为一个组相关联。例如，在患者描述上周开始的剧烈胸痛的对话中，文本“剧烈”、“胸痛”和“上周”将被突出显示，并分别用症状标记以及严重性、位置和发作时间的属性进行标记，并被分组在一起，因为所有这些都是相互关联的。

在另一方面，公开了一种系统，用于促进对医疗从业者-患者对话的录音的注释。该系统包括：a)显示录音的转录本的界面；b)用于突出显示转录本中由一个或多个词汇组成的文本跨度的工具；c)用于将标记分配给突出显示的文本跨度的工具，其中该工具包括能够搜索可用于被分配给被突出显示的文本跨度的预定标记的特征，并且其中该标记对医疗实体和医疗实体的属性进行编码；以及d)用于创建相关的被突出显示的文本跨度的分组的工具。

该方法和系统适用于其他类型的转录本，其中例如由操作者创建了一组预定义标记，这些标记被设计成与手头的注释任务相关，并且这些标记与关于转录本和注释任务的实体和属性相关联。本公开的工具以相同的方式用于这些其他可能的实施方式中，诸如例如法律诉讼(诸如证词或审判)的转录本，或者行政机构(诸如市议会、国会、州立法机构等)前的听证转录本。

附图说明

图1是示出在其中可以执行该方法的环境的流程图。

图2是工作站图示，该工作站具有显示器和用户接口，供人(“划线标记员”)用来注释医疗接触的转录本。用户接口包括结合图4-6所描述的工具。术语“用户接口”是指工作站上的显示和用于提供用户输入的相关设备(诸如鼠标和键盘)的组合。

图3是图2的用户接口的图示，示出了准备注释的转录本列表。

图4是医疗接触的转录本的图示，其中划线标记员正在注释文本中的某些词汇或短语。图4示出弹出的搜索框，该搜索框允许划线标记员搜索医疗实体和相关属性。文本跨度通过工具的使用(诸如通过点击词汇或使用鼠标拖动技术)被突出显示。

图5是图4的转录本的图示，其中划线标记员正在注释文本“左上角”和弹出的搜索框。此外，针对短语“左上角”，还显示了提议的标记：医疗实体“症状”和属性“位置(在身上)”。提议的标记由图1中示出的预标记系统生成。

图6是当划线标记员形成两个被突出显示的文本跨度“胃痛”和“三天”的分组时，图4和图5的转录本的图示。用于形成该分组的工具由突出显示两个文本然后按下键盘快捷键组成，该键盘快捷键是按住“g”键、单击被突出显示的文本跨度、以及释放“g”键。图6还示出了“组”选项卡中的组的形成，该选项卡在显示器的底部列出了转录本中的所有组。

图7是图1的预标记器的更详细的图示。

图8是根据图1的特征的机器学习模型训练系统的图示，该系统接收大量被注释的转录本作为输入。

具体实施方式

本公开涉及用于促进对医疗接触的录音(即患者和医疗从业者(诸如医生或护士)之间的对话)进行注释的方法和系统。录音可以是音频或音频-视频录音。录音被转录成书面形式。转录本可以由受过训练的医疗转录师生成，即手工生成，或者通过使用本领域已知的语音到文本转换器生成。系统的输出是转录本的注释版本，其中文本中的相关医疗信息(即文本跨度，诸如单个词汇或词汇组)被标记(即被标注为与医疗实体和这些实体的属性相关联)，并且被分组以表达被标记的文本之间的相关性。

图1是示出在其中实践本公开的方法和系统的环境的流程图。在102，获得患者对与医生或护士的接触进行录音的同意。此外，建议患者将录音的转录本放入电子健康记录中，并获得同意。还建议患者该录音可能被注释并被用于生成或训练机器学习模型，并且也获得同意。在转录本被注释或被用于机器学习模型训练的所有情况下，转录本数据隐去患者的身份，并按照hipaa下的公开和使用有限数据集的所有要求来使用。从每个机构获得道德审查和机构审查委员会豁免。患者数据没有链接到任何谷歌用户数据。此外，对于将被注释的转录本用于机器学习模型训练的系统116，包括沙箱基础设施，沙箱基础设施根据法规、数据许可和/或数据使用协议保持每个电子健康记录(或转录本)数据集彼此分离。每个沙箱中的数据都是加密的；所有数据访问都在单独的级别上进行控制、日志记录和审核。

在步骤104，在获得所需的患者同意后，患者咨询医疗从业者并且获得音频或音频-视频录音，并且以数字格式存储该音频或音频-视频录音。

在步骤106，由受过训练的转录员或通过使用语音到文本转换器获得录音的书面转录本。转录本最好附有时间索引，其中转录本中所说的词汇或文本行与录音的耗时(elapsedtime)相关联，这将在后续说明。

在步骤108，转录本的注释由划线标记员以在随后的附图中描述和解释的方式执行。注释包括将标记分配给转录本中的文本跨度以及文本跨度的分组，以指示它们的相关性。在步骤108中，生成被转录的音频录音的显示，例如在划线标记员所使用的工作站的显示器上生成。参见图2以及图4-6。提供了一个工具，用于突出显示被转录的音频录音中的由一个或多个词汇组成的文本跨度。该工具可以是用于选择或突出显示一个或多个词汇的简单的鼠标或键盘快捷键。还提供了一个工具，用于为被突触显示的文本跨度分配标记。该工具包括用于搜索可用于被分配给被突出显示的文本跨度的预定标记的特征。例如，当划线标记员在转录本中突出显示词汇(诸如“胃痛”)时，会弹出一个列表，用户可以在该列表中搜索可用的标记，并且提供了一个搜索工具，用于在标记列表中执行词汇搜索。标记对医疗实体(诸如症状、药物、实验室结果等)和医疗实体的属性(例如，症状实体的严重性、位置、频率、发作时间)进行编码。

还提供了一个工具，用于对相关的被突出显示的文本跨度进行分组。这些分组允许将与标记相关联的医疗实体分组在一起。例如，在患者描述上周开始的剧烈胸痛的对话中，文本“剧烈”、“胸痛”和“上周”将被突出显示，并用症状标记以及严重性、位置和发作时间的属性进行标记，并被分组在一起，因为它们都与患者的单一医疗状况相关。如下所述，该工具可以由键盘和/或鼠标操作组成。

该系统可以包括预标记器110，在图7中更详细地示出。预标记器是实施学习的自动词汇识别模型的计算机系统，该模型识别转录本中可能是标记或分组的主题的词汇或文本跨度。预标记器110通过在划线标记员执行转录本的注释时为被突出显示的文本跨度提供建议标记来向注释步骤108提供输入。这在图5中有更详细的显示。

作为注释步骤108的结果，创建了被注释的转录本文件112，被注释的转录本文件112由转录本、以被标记或被标注的文本跨度(词汇或短语)形式出现的注释、以及被标注的文本跨度的分组组成。被注释的转录本文件是数字形式的，文件中的注释和分组作为元数据等。被注释的转录本文件112然后被添加到患者的电子健康记录(electronichealthrecord，ehr)114或者被供应给机器学习模型训练系统116，机器学习模型训练系统116可以例如是用于训练机器学习模型以自动注释医疗接触的转录本的系统。可替换地，机器学习模型可以使用被注释的转录本以及患者健康记录中的其他数据，不仅针对单个患者，而且针对大量其他患者，以生成对未来医疗事件的预测，例如，如2017年7月28日提交的序列号为62/538,112的未决美国临时申请中所述的，其内容通过引用结合于此。ehr114可以被提供给系统116，如虚线114所指示的。

被注释的转录本文件112可以反馈到预标记器中，以便能够进一步训练机器学习预标记器110，如虚线120所指示的。这一方面将在稍后进一步详细描述。

图2是在图1的注释步骤108期间划线标记员所使用的工作站200的图示。工作站包括执行应用的中央处理单元(通用计算机210)，该应用提供医疗接触的转录本和工具的显示，通过这些工具，由键盘212、鼠标214和监视器216组成的用户接口允许突出显示文本跨度(词汇或短语230)，为文本跨度分配标记，以及对被突出显示的文本跨度进行分组，如下文将讨论的。监视器216包括转录本222的显示218和用于允许用户导航到转录本的各个部分的滚动条224。转录本的时间索引220被示出在显示218的顶部。时间索引包括滑动器221，当滑动器221水平来回移动时，允许转录本的与特定耗时相关联的部分被显示在显示118的顶部。在这种情况下，时间索引220指示转录本为13分24秒的持续时间，并且滑动器221在最左边，因此转录本的开始被示出在显示的顶部。转录本以编号行的形式出现，随后是对说话者(医生或患者)的标识，随后是所讲内容的文本转录本。

图3示出了当划线标记员登录到图2的工作站时，在图2的用户接口上提供的需要注释的转录本的“待办”列表的显示。单个转录本是隐去患者身份的(即，仅通过列302中的患者编号而不是姓名来标识)。列304示出了耗时，列306示出了转录本中的文本的行数，列308示出了与医疗接触相关联的患者的主诉，以及列310示出了医疗接触的性质或类型。当在图3中选择转录本中的一个时(例如，通过点击列302中的数字)，生成图2的显示。

图4是用户接口的显示218以及转录本222和时间索引220的图示。在转录本中提供每个话语(句子或词汇)的时间段信息，并且时间索引220提供滑动器工具221，滑动器工具221左右移动以跳转到转录本的不同部分。

该界面提供了用于文本突出显示的工具。特别是，鼠标和键盘快捷键使得突出显示文本跨度变得容易。例如，用户可以双击给定的词汇，并且该词汇会自动在显示器上突出显示。只能突出显示词汇，不能突出显示单个字符，这样可以减少错误并提高注释速度。其他工具也可以用于突出显示，诸如通过鼠标点击和拖动技术、键盘敲击(诸如将光标放在词汇上并点击特定的键，诸如h或ctrl-h)，或者键盘敲击和鼠标动作的组合。

在图4的示例中，用户突出显示了词汇“胃痛”(见400)。用户接口提供了用于文本标注的工具，即，对突出显示的术语进行标记。标记被应用于突出显示的文本跨度，实质上允许划线标记员将信息注入到转录本中，例如指示突出显示的文本“胃痛”是一种症状或胃肠症状。特别地，当用户突出显示了术语“胃痛”时，弹出其示出了医疗实体和相关属性的列表404的框(工具)402、他们可以通过其搜索列表404的搜索的术语输入字段405、以及允许划线标记员滚动列表并选择适于突出显示的测试的医疗实体和相关联的属性的滚动条406。在示例图4中，在列表404中找到医疗实体“症状：gi”和相关属性“腹痛”，并且用户点击医疗实体和属性的组合。显示包括位于显示底部的表格选项卡410，其列出了被标记的文本跨度，包括医疗实体、属性、转录本中的位置(第4行)和相关联的文本跨度(“胃痛”)。

划线标记员执行相同的过程并使用相同的工具来突出显示文本跨度“三天”，将医疗实体的标记“症状属性”和属性“持续时间”(“症状属性/持续时间”)分配给被突出显示的文本跨度“三天”，并且该附加注释被显示在注释表格410中。

划线标记员然后继续突出显示文本跨度“左上角”412。划线标记员再次使用工具402将标记归于文本跨度“左上角”。同样，这可以使用图4中描述的工具来完成。如图5中示出的，在一个实施例中，其中存在转录本的预标记，当用户突出显示文本跨度“左上角”时，在框502中示出建议标记。该建议标记由图1的预标记器分配给文本跨度“左上角”。用户可以通过点击框502接受该建议，或者通过点击x图标504拒绝该建议。在图5的情况下，划线标记员通过鼠标点击(或任何其他合适的用户接口动作，诸如键盘快捷键等)接受建议，并将注释添加到表格410，如图5中的506所示出的。如果划线标记员拒绝该建议，他们可以使用弹出搜索工具402或滚动标记列表来寻找合适的标记。

应当理解，搜索工具402可以在划线标记员采取动作以突出显示一个文本跨度时弹出，并且在标记被分配之后消失，或者可替换地，它可以是注释期间用户接口的持久特征。

如先前所述，图2和图4-6的用户接口包括用于允许划线标记员将概念上或因果上相互关联的被突出显示并且被标记的文本跨度组合在一起的工具。例如，在图6中，文本跨度“胃痛”和“三天”与胃肠症状相关，即症状的类型和症状的持续时间。为了进行这种分组，在图示的实施例中，界面以键盘敲击和鼠标动作的组合的形式提供工具。特别是，划线标记员按住“g”键，点击两个被突出显示的文本跨度，然后释放“g”键。当然，在本公开的范围内，用于形成分组的工具的该特定示例的变化是可能的，诸如单独的鼠标动作的组合(例如，通过左键点击然后右键点击来选择文本跨度，以形成组)、单独的按键敲击(例如，通过alt-g选择被突出显示的文本跨度并然后回车，以形成组)，或者鼠标动作和按键敲击的其他各种可能的组合。在图6中，“2”图标602指示分组中的元素数量(这里是两个)。“x”图标604是点击目标以删除分组。用户已经切换了组选项卡606，“胃痛”和“三天”的组以及转录本中的位置(在该示例中，第4行用于组中第一元素的位置)如608所指示。

图4的搜索工具402使得定位相关标记的过程易于导航。在医疗转录本的示例中，可能有数百种可能的标记可供选择。例如，可能有十个或二十个预定义的不同医疗实体，并且每个医疗实体有十个或二十个或更多个不同的属性。如前所述，医疗实体可以以分级方式定制和组织。这些标记对专门为医疗文档设计的医疗本体进行编码。这些标记对医疗实体信息(诸如药物、程序、症状、状况等)、和实体的属性(诸如症状的发作、严重性、频率等)，以及患者是否拒绝(属性)医疗程序(实体)进行编码。

如图6中示出的文本分组允许划线标记员将附加信息注入转录本，特别是识别概念之间的关系或相关性。例如，本公开的系统和方法允许划线标记员指定被突出显示的文本的组，使得实体可以作为一个组与属性相关联。

图7更详细地示出了图1的预标记系统110。系统110的输入是在图1的步骤108生成的文本转录本702。系统110使用机器学习医疗命名实体识别(namedentityrecognition，ner)模型703，该模型703以预注释转录本704的形式，基于来自训练示例的监督学习，识别转录本中的候选信息(词汇或短语)以及用于这些词汇或短语的建议标记。命名实体识别模型在机器学习领域是熟知的，在科学文献中有广泛的描述。ner模型703需要其自有的标记训练数据。对于这些训练数据，我们使用了医疗教科书(超过120,000本医疗教科书)的大量语料，使用了深度学习词汇嵌入，结合了大量的现有医疗本体论词典，例如umls(统一医疗语言系统，unifiedmedicallanguagesystem)和snomed(医学的系统化命名，systemizednomenclatureofmedicine)。此外，ner可以根据注释的医疗接触转录本中得到训练。ner模型也可以根据混合数据源来进行训练，数据源可以包括医疗和临床教科书、来自医生-患者对话的被注释转录本以及包含在大量患者的匿名电子健康记录中的临床文档。如图1和图7中执行的，可以根据转录本的注释的反馈来进一步训练ner模型。例如，在预标记系统生成预注释的转录本704并且划线标记员已经在步骤108完成注释之后，可以将预注释的转录本704中的建议注释和被注释的转录本112之间的校正反馈回ner模型。

如图8中示出的，被注释的转录本112可以供应给机器学习模型训练系统。在一种形式中，模型训练系统116使用来自大量患者的转录本以及其他患者数据来生成机器学习模型以进行健康预测。可替换地，被注释的转录本可以在系统116中用于开发深度学习模型，以用于自动进行生成医疗接触的被注释的转录本的过程。

本公开的系统和方法具有几个优点。在许多自然语言处理文本注释工具中，必须以明确而繁琐的方式识别它们之间的关系。相反，在本公开中，标记(包括与注释任务相关的预定义标记)以及标记和分组工具允许这种关系被容易地指定。用户可以通过如图所示的搜索工具快速搜索标记，并通过简单的用户接口动作(诸如点击鼠标)来选择标记。此外，如上所述，通过使用键盘、鼠标或其组合的简单用户接口动作，可以非常快速地创建概念上或因果上相关的被突出显示的文本跨度的分组。

虽然图示的实施例描述了用于帮助标记医疗接触的转录本的界面和工具，但是本公开的原理可以应用于其他情况。具体而言，为实体和这些实体的属性生成预定义标记列表，例如，列出转录本中感兴趣词汇的所有可能类别或分类以及与类别或分类中的每一个相关联的属性，类似于医疗实体的属性。上述用户接口动作通常以相同的方式执行，即划线标记员将使用简单的用户接口工具读取转录本并突出显示与注释任务相关的词汇或其他文本跨度，然后划线标记员可以通过这些工具搜索可用标记并将它们分配给突出显示的文本跨度。此外，还提供分组工具来形成相关的突出显示的文本跨度的组。结果是被注释的转录本。这些方法对其他类型的转录本是有用的，诸如法律专业背景下的证词或审判转录本、政府机构证据的听证转录本等。

用于在医疗转录本的注释中使用的标记列表的示例在下面的表1中列出。当然，应当理解，列表的变化是可能的，并且在其他上下文中，将定义其他标记。在列表中，实体1是医疗实体，实体2是实体1的医疗实体的子类别或医疗实体的属性，实体3是分层模式中医疗实体的属性或实体1的医疗实体的进一步子类别。

表1

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C.科;G.李;P.钟;J.保罗;D.S.S.谢;K.周;D.乔恩泽卡尔;A.拉杰科马尔
技术所有人：谷歌有限责任公司
我是此专利的发明人

上一篇：系统的登录方法与流程
上一篇：用于比对靶向的核酸测序数据的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。