1.本发明涉及将用于训练人工智能模型的内容结构化。所述内容可以与适用于医学和保健领域的文档相关联。
背景技术:2.可以提供技术文档以提供诊断、如何使用、功能特征解释和说明。这些由技术编写者编写为使用说明(ifu)手册、服务手册以及关于系统功能的知识库。这样的文档可以在医学或保健领域中提供,并且可以例如是诊断机器的说明手册。诸如临床医生、医院技术人员和服务工程师的终端用户使用这些文档以根据其中的说明进行使用。
3.基于聊天机器人和人工智能的问答系统可以向终端用户提供针对特定话题/问题的相关说明。如果文档被结构化使得聊天机器人/ai可以处理文档,则可以从这些技术文档检索相关说明。目前,将非结构化文档转换成“准备好由ai系统处理结构”(即,可以由ai系统处理的结构化文档)是非常手动、繁琐且耗时的过程。
4.因此,期望将诸如文档的内容转换成可以由ai系统处理的结构。
技术实现要素:5.根据第一方面的实施例,提供了一种将用于训练人工智能模型的内容结构化的方法,所述方法包括:接收与医学设备文档相关联的输入内容;将所述输入内容转换为数据交换格式;从经转换的输入内容提取多个关键术语;从经转换的输入内容提取多个关键短语;从监督者接收对所述关键术语和所述关键短语的验证;并且基于经验证的关键术语和经验证的关键短语中的至少一些来构建用于训练所述人工智能模型的对话,其中,所述对话包括一系列语句。
6.因此,可以从输入内容构建用于训练人工智能(ai)模型的对话。换句话说,输入内容(例如非结构化文档)可以以用于训练人工智能模型(例如聊天机器人或问答(qa)系统)的这种格式提供。因此,可以采用非结构化文档并以ai系统能够处理的格式和结构提供它。此外,输入内容的处理由监督者验证,以便确保从内容提取适当的术语和短语,从而提高对话和所得到的ai系统的准确性。
7.对话包括从输入内容中识别和提取并由用户验证的一些或所有关键术语和关键短语。关键短语可以是包括三到五个术语的一系列术语。所述方法可以包括存储所提取的关键术语和所提取的关键短语。可以将所提取的术语和短语呈现给监督者,使得监督者可以验证术语和短语。因此,该方法包括与个人的交互,并且令用户评估对话的有效性,从而改变用户的行为。作为本发明的各方面的实施例的结果,在其上实施该方法的计算机的行为也被改变。例如,当输入内容(例如,以pdf格式)已经无法以其他方式训练ai模型时,由于从监督者接收到的用于验证对话的词汇表的输入并且通过可以用于训练ai模型的所得到的对话,可能发生改变。因此,也可以改善计算机的处理和性能。
8.所构建的对话可以是自包含的,并且对于输入内容所对应的所述医学设备的特定
查询是监管批准的。可以从ai系统的用户接收特定查询。也就是说,从各方面的实施例构建的对话(或对话的部分)的关键元素是它们可以包括一条信息,所述一条信息对于所述医学设备的特定查询是自包含的。所提取的信息确切地是针对来自用户的查询所需的信息,并且是监管批准的。这可以通过监督者的验证来确保。
9.当应用于医学或保健领域时,本发明的各方面的实施例可以是特别有益的,因为使用设备和诊断机器的说明在这些领域中是非常重要的。这样的说明也可以是法规的主题,并且因此提供用户说明的任何ai系统可能需要满足相关法规。这些法规可以通过针对与医学设备文档相关联的输入内容的构建对话来满足。
10.所述方法可以包括:预处理所述对话。所述预处理可以包括以下中的一项或多项:对所述对话进行清理;对所述对话进行注释;以及对所述对话进行标准化。因此,可以对对话进行预处理,使得对话更准确地反映输入内容,并且以更适当的方式被提供以用于后续处理,例如,通过移除多余的术语。对于输入内容所对应的所述医学设备的特定查询,预处理的对话仍然可以是自包含的并且是监管批准的。例如,可以鉴于监管批准来注释和/或标准化对话。
11.对所述对话进行清理可以包括以下中的一项或多项:停止词语移除和大写。对所述对话进行注释可以包括以下中的一项或多项:词性标注和标记化。对所述对话进行标准化可以包括以下中的一项或多项:词干化和词元化。
12.所述方法可以包括:扩充所述对话。所述扩充可以包括以下中的一项或多项:从与所提取的关键术语(和/所提取的关键短语的术语)中的一个或多个相关联的通用文本语料库识别并提取术语;从与所提取的关键短语(和/所提取的关键短语的术语)中的一个或多个相关联的通用文本语料库识别并提取短语;识别并提取与所述输入内容相关联的词汇表外(out of vocabulary)术语;识别并提取与所述输入内容相关联的领域相关术语;以及通过提供领域特异性等效关键术语来添加词汇表外术语。因此,可以将与输入内容相关的其他关键术语和短语添加到对话,以便通过使对话更准确地反映输入内容来改善对话,并且添加可能不包括在内容中但可能与它相关的替代术语和/或短语。另外的术语/短语可以是所提取的关键术语/短语的同义词。与输入内容相关联的领域相关术语和/或与输入内容相关联的多个词汇表外术语可以是预定的,并且例如由监管者输入。
13.可以通过提供领域特定的关键词语和领域来添加词汇表外词语。例如,设备文档中使用的一些术语可以特定于特定制造商,并且另一制造商可能使用替代术语。这些替代可以被提供为不能以其他方式作为领域关键词语列表而找到的技术词语的同义词。
14.所述方法可以包括:使用所述对话来训练所述人工智能模型。所述训练可以包括:对于所述对话的多个语句中的每个语句,将所述语句拆分成多个单独词语;确定针对所述语句的所述多个单独词语中的每个词语的词语嵌入向量;确定针对所述语句的所述多个单独词语中的每个词语的术语频率-逆文档频率分数;对于所述多个单独词语中的每个词语,将所述词语嵌入向量和相应的术语频率-逆文档频率分数相乘,以获取针对所述语句的所述多个单独词语中的每个词语的加权词语向量;对所述多个加权词语向量求平均以获取与所述对话的所述语句相对应的语句向量;并且聚合与所述对话的所述多个语句相对应的多个语句向量以提供经训练的人工智能模型。因此,所述对话可以用于训练ai模型。
15.用于训练模型的对话可以是根据各方面的实施例的处理的任何阶段的对话。例
如,对话可以是最初从输入内容构建的对话,对话可以是预处理的对话,或对话可以是扩充的对话。由预处理且扩充的对话训练的模型可以比由初始构建的对话训练的模型更准确。因此,用于训练模型的对话的多个语句可以例如已经接收到标记化和停止词语移除处理。可以为对话的多个语句确定语句向量,并且可以聚合所得到的多个语句向量以提供经训练的模型。多个语句可以包括对话的全部或大部分(例如,90%)语句。
16.作为针对多个语句中的每个语句的词语确定的tf-idf分数的补充或替代,另一权重可以被确定并且用于确定加权词语向量,例如词性权重(pos标签)。可以使用实施领域特异性信息系统基于逆频率的方式的任何方法,包括例如熵检测。
17.可以以预定数量的语言中的语言训练所述人工智能模型。所述ai模型的所述语言可以对应于用于训练所述人工智能模型的所述对话的所述语言。也就是说,模型可以以多种预定语言中的任一语言来训练,并且用于训练模型的语言可以由对话的语言确定。例如,如果以英语提供对话,则可以以英语训练模型。
18.所述方法可以包括:从用户接收查询;预处理所述查询;确定所述查询的查询向量;通过将所述查询向量与经训练的人工智能模型的语句向量进行比较来识别所述查询的意图;并且基于所确定的意图来确定对所述查询的响应。因此,可以从ai系统(例如,聊天机器人或qa系统)的用户接收查询,可以以与对话相同的方式处理查询,并且经处理的查询可以与经训练的模型一起用于确定对查询的适当响应。因此,可以经由ai系统响应于用户查询而从输入内容提供数据。用户可以是医学设备的客户或操作者。
19.识别所述意图可以包括计算所述查询向量与经训练的人工智能模型的多个语句向量中的每个语句向量之间的余弦距离。确定所述响应可以包括选择最接近于与匹配所述查询向量的所述语句向量相对应的语句的所述对话的语句。换句话说,经处理的查询可以被传递到匹配方法,该匹配方法使用距离度量(余弦相似性)来识别训练模型中存在的最接近(最短距离)响应。因此,最接近的响应可以是对话中与距查询向量最短距离的语句向量相对应的语句。因此,可以提供对用户查询的适当响应。
20.可以以预定数量的语言中的语言接收所述查询;并且可以使用与所述语言相对应的人工智能模型来确定所述响应。换句话说,可以以多种语言训练模型,以便获取多种不同的语言模型。可以使用与查询的语言相对应的语言模型来确定响应,使得响应可以以与用户响应相同的语言确定并提供给用户。
21.可以在对应语言的对话上训练不同的语言模型。这可以通过从与该语言相对应的输入内容确定对话来获取,或它可以通过将对话从另一种语言翻译成所需语言来获取。例如,英语输入内容可以用于确定英语对话,该英语对话然后可以用于训练英语语言模型。替代地,可以将英语对话翻译为荷兰语以训练荷兰语语言模型,该荷兰语语言模型可以用于确定对以荷兰语接收的查询的响应。该翻译可以由双语/多语言监督者执行,或该翻译可以是机器翻译。机器翻译可以由双语/多语言监督者验证,以确保翻译是正确的。用户可以是输入内容的领域的专家,并且可以验证所翻译的对话以确保所翻译的对话符合监管法律。可以使用翻译和验证从同一对话训练多个不同的语言模型。
22.所述输入内容可以具有包括多个小节的结构。可以从所述多个小节中的一个或多个小节提取关键术语。可以从所述多个小节中的一个或多个小节提取关键短语。可以根据给定小节的标识符存储针对所述给定小节的关键术语和关键短语。因此,输入内容可以被
提供有小节和小节标识符,其可以用于存储所提取的关键术语和关键短语,使得对话具有与输入内容相对应的小节和小节标识符。因此,输入内容的任何结构可以在提取且转换的内容中被维持,并传送到对话。小节标识符可以是小节的标题和/或与小节相关联的标签。
23.输入内容可以具有包括多个小节的结构。多个小节中的每个小节可以包括小节标识符。可以相对于小节标识符从多个小节中的一个或多个小节提取关键术语。可以相对于小节标识符从多个小节中的一个或多个小节提取关键短语。因此,小节标识符可以用于提取与小节标识符相对应的关键术语和/或关键短语。
24.所述验证可以包括以下中的一项或多项:接收对所提取的关键术语的批准;接收对所提取的关键术语的修改;接收对所提取的关键术语的拒绝;接收对所提取的关键术语的补充;接收另外的关键术语;接收对所提取的关键短语的批准;接收对所提取的关键短语的修改;接收对所提取的关键短语的拒绝;接收对所提取的关键短语的补充;以及接收另外的关键短语。因此,监督者可以编辑、添加或移除所提取的关键术语和/或短语,以便增强对话并确保它准确地反映输入内容。这进而可以令使用对话训练的ai模型更准确,并且向用户提供更准确地回答用户查询的信息。
25.所述方法可以包括:响应于从所述监督者接收到请求,将所述输入内容和所述对话中的一项或多项翻译成预定数量的语言中的语言。因此,对话可以被翻译成多种不同的语言。可以在处理的任何阶段处翻译对话,例如在预处理之前,使得对话的预处理可以以任何预定语言执行。翻译可以由第三方机器翻译服务执行,并且可以由双语/多语言用户验证。另外,可以以预定数量的语言中的任何语言提供输入内容和对话中的一项或多项。
26.转换可以包括:将输入内容转换为标记语言;并且进一步将标记语言转换为数据交换格式。标记语言可以是可扩展标记语言(xml)。数据交换格式可以是javascript对象表示法(json)。
27.所述方法包括通过确定所述输入内容中的术语的术语频率并且确定所述输入内容中的术语的逆文档频率来识别用于提取的关键术语。所述方法包括通过以下来识别用于提取的关键短语:使用预定停止词语列表将所述输入内容拆分成多个短语;基于所述关键短语的词语频率和重要程度对所述多个短语中的每一个短语进行评分;并且响应于分数超过预定阈值而提取短语。
28.所述方法可以包括在用户界面上显示所提取的关键术语和所提取的关键短语。可以经由用户界面从监督者接收验证。用户界面可以是在显示器上提供的软件。软件可以是虚拟通信器框架。因此,可以在显示器上为验证者(监督者)呈现所提取的关键术语和短语,并且可以利用输入设备(例如触摸屏、计算机鼠标和键盘等)执行验证。所提取的术语、所提取的短语和对话可以显示在json查看器(例如内容创作套件或json lint)上,以便在视觉上向监督者呈现对话。
29.输入内容可以是以下中的一项或多项:用户手册;服务手册;使用说明书手册;以及知识库。监督者可以是以下中的一项或多项:临床医生;保健专业人员;医院技术人员;以及服务工程师。输入内容可以以诸如pdf、word、html等的文件格式提供。输入内容可以包括文本;表格;图像;或其任何组合。医学设备文档可以是在医学/临床/保健领域中使用的器械中使用的文档或与医学/临床/保健领域中使用的器械相关联的文档。
30.所提取的关键术语和关键短语可以对应于输入内容的主题,并且可以被识别为与
内容相关。可以使用术语频率-逆文档频率算法来提取关键术语。可以使用快速自动关键词语提取(rake)算法来提取关键短语。对话也可以被称为词汇表。
31.根据第二方面的实施例,提供了一种被配置为将用于训练人工智能模型的内容结构化的装置,所述装置包括一个或多个处理器和存储器,所述一个或多个处理器被配置为:接收与医学设备文档相关联的输入内容;将所述输入内容转换为数据交换格式;从经转换的输入内容提取多个关键术语;从经转换的输入内容提取多个关键短语;从监督者接收对所述关键术语和所述关键短语的验证;并且基于经验证的关键术语和经验证的关键短语中的至少一些来构建用于训练所述人工智能模型的对话,其中,所述对话包括一系列语句。
32.根据第三方面的实施例,提供了一种计算机程序,所述计算机程序在被运行时执行将用于训练人工智能模型的内容结构化的计算机实施的方法,所述方法包括:接收与医学设备文档相关联的输入内容;将所述输入内容转换为数据交换格式;从经转换的输入内容提取多个关键术语;从经转换的输入内容提取多个关键短语;从监督者接收对所述关键术语和所述关键短语的验证;并且基于经验证的关键术语和经验证的关键短语中的至少一些来构建用于训练所述人工智能模型的对话,其中,所述对话包括一系列语句。
33.方法和计算机程序方面的特征和子特征可以应用于装置方面,并且反之亦然。
34.根据本发明的第四方面的实施例,提供了一种存储如上所述的计算机程序的非瞬态计算机可读介质。
35.根据本发明的优选实施例的装置或计算机程序可以包括方法方面的任何组合。根据另外实施例的方法或计算机程序可以被描述为计算机实施的,因为它们需要处理和存储器能力。
36.根据优选实施例的装置被描述为被配置或布置为或简单地“用于”执行某些功能。这种配置或布置可以通过使用硬件或中间件或任何其他合适的系统。在优选实施例中,所述配置或布置通过软件。
37.因此,根据一个方面,提供了一种程序,所述程序在被加载到至少一个计算机上时将计算机配置成为根据任何前述装置定义或其任何组合的装置。
38.根据另一方面,提供了一种程序,所述程序在被加载到所述至少一个计算机上时将所述至少一个计算机配置为执行根据任何前述装置定义或其任何组合的方法步骤。
39.通常,计算机可以包括被列出为被配置或布置为提供所定义的功能的元件。例如,该计算机可以包括存储器、处理和网络接口。
40.本发明可以在数字电子电路中、或在计算机硬件、固件、软件、或在它们的组合中实施。本发明可以被实施为计算机程序或计算机程序产品,即,有形地体现在非瞬态信息载体中(例如,在机器可读存储设备中或在传播信号中)的计算机程序,以用于由一个或多个硬件模块执行或控制一个或多个硬件模块的操作。
41.计算机程序可以是独立程序、计算机程序部分或多于一个计算机程序的形式,并且可以以任何形式的编程语言(包括编译或解释语言)编写,并且它可以以任何形式部署(包括作为独立程序或作为模块、部件、子例程或适于在数据处理环境中使用的其他单元)。计算机程序可以被部署为在一个模块上或在一个地点处或跨多个地点分布并通过通信网络互连的多个模块上执行。
42.本发明的方法步骤可以由运行计算机程序的一个或多个可编程处理器执行,以通
过对输入数据进行操作并生成输出来执行本发明的功能。本发明的装置可以实施为编程硬件或专用逻辑电路,包括例如fpga(现场可编程门阵列)或asic(专用集成电路)。
43.作为示例,适合于运行计算机程序的处理器包括通用微处理器和专用微处理器两者、以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是耦合到用于存储指令和数据的一个或多个存储器设备的用于运行指令的处理器。
44.根据特定实施例描述了本发明。其他实施例在以下权利要求的范围内。例如,本发明的步骤可以以不同的顺序执行并且仍然实施期望的结果。
45.已经使用术语“存储器”、“处理器”等描述了本发明的元件。本领域技术人员将理解,这些术语及其等同物可以是指在空间上分开但组合以服务于所定义的功能的系统的部分。同样地,系统的相同物理部分可以提供所定义的功能中的两个或更多个。
46.例如,在适当的情况下可以使用相同的存储器和/或处理器来实施单独定义的模块。
附图说明
47.现在将参考以下附图仅通过示例的方式描述示例性实施例,其中:
48.图1是根据本发明的方面的一般实施例的方法的流程图;
49.图2是根据本发明的方面的一般实施例的主要系统部件的框图;
50.图3是根据本发明的方面的实施例的知识管理路线的框图;
51.图4是根据本发明的方面的实施例的知识管理路线的阶段的工作流程;
52.图5是pdf格式的超声用户手册的示例性视图;
53.图6是虚拟通信器框架的内容创作套件中的对话流程的示例性视图;
54.图7是虚拟通信器框架的内容创作套件中的对话流程的另一示例性视图;
55.图8是在虚拟通信器框架的内容创作套件中示出的超声用户手册数据的示例性视图;
56.图9是根据本发明的方面的实施例的训练模型的框图;
57.图10是根据本发明的方面的实施例的用于荷兰语的多语言路线的训练阶段的框图;
58.图11是根据本发明的方面的实施例的在用于回答用户问题的扩充且验证的超声用户手册数据上训练的模型的示例性视图;
59.图12是根据本发明的方面的实施例的多语言路线的部署阶段的框图;
60.图13是根据本发明的方面的实施例的用于创建语言模型的过程的流程图;并且
61.图14是图示用于实施本发明实施例的硬件的硬件示意图。
具体实施方式
62.各方面的实施例可以提供用于使文档(输入内容)的结构化过程自动化的方法、装置、计算机程序和系统。结构化文档包括由具有与输入内容有关的适当知识和/或资格的个人进行的验证。结构化文档可以被进一步处理以生成人工智能(ai)知识模型。可以保留原始文档的任何结构(例如,小节、章节等),使得由ai系统给出的回答与维持监管批准的方式
类似。此外,可以提供聊天机器人和这些ai知识模型之间的互连,使得基于上下文,可以为特定话题/问题调用ai知识模型。
63.在文献中,存在允许文档(诸如word文档)被转换成标记语言(诸如可扩展标记语言(xml)格式)的系统。这允许用户编辑xml标记,并允许文档管理解决方案管理版本控制。然而,这些系统在关键阶段缺乏领域专家输入。它们也无法以逐步的方式处理表格、复杂图像或详细说明,或无法控制qa系统中的回答的文本范围、无法链接不相交的段落(部分回答提取、依赖性)等。
64.各方面的实施例还可以提供使用词语嵌入和用于以相应的本地语言处理文本的语言模型的方法、装置、计算机程序和系统。该方法可以在飞利浦会话聊天机器人中使用。飞利浦在市场上有几种医学、消费者和个人健康产品,其涉及患者/客户参与/客户服务。会话聊天机器人可以递送这些交互中的许多交互。
65.在会话聊天机器人中具有多语言特征可能是非常有益的,因为它们可以允许在不同的国家和不同的市场中创建和部署用于应用的聊天机器人,以便解决新的客户群及其各种语言。在聊天机器人中提供多种语言选项可以提供重新设计特定市场中的用户体验并且以不同方式吸引不同区域的机会。这种对定位的关注可以允许聊天机器人设计者创建对特定文化或区域更有参与性并且因此更有效的机器人。
66.更有效的聊天机器人意味着可以更准确且有效地回答用户查询,这减少了用户和聊天机器人之间的所需的交互次数,从而减少了去往和来自聊天机器人的所需通信并改善了计算机的性能。此外,用户可以能够快速获得查询的回答并继续操作例如医学设备,并且因此可以通过改进的聊天机器人系统来改变用户的行为。
67.此外,用于处理多语言自然语言处理(nlp)的当前方法涉及利用翻译算法在英语文本和本地语言之间来回翻译。这是因为英语的nlp路线比其他语言更成熟。为了处理本地语言文本,首先使用任何翻译服务将其它翻译成英语,并且然后对英语文本执行处理。这可能是有问题的,因为它引入了对翻译服务的依赖性,并且本地语言的上下文可能在翻译中丢失,因此导致处理中的错误。
68.各方面的实施例可以提供以下中的一项或多项:
69.可以转换非结构化和受管制的非结构化文档以供ai系统(例如聊天机器人和qa系统)处理。
70.可以提供处理混合模态/多模态格式的表格、说明和图像的过程。
71.qa系统可以在监管批准的文档结构中提供回答。
72.自动化路线还可以允许人类领域专家输入和审查处理,从而确保处理的有效性。
73.可以提供可以针对特定上下文在聊天机器人中动态地插入的知识模型。
74.可以从根本上创建多语言机器人,其中,可以以特定语言创建和训练路线,以减少对由用户提供的每一个查询的翻译函数的依赖性。
75.机器人还可以作为多语言代理从一种语言无缝地切换到另一种中间会话。
76.图1示出了表示根据本发明的方面的一般实施例的将用于训练人工智能模型的内容结构化的计算机实施的方法的流程图。首先,在步骤s11中,接收与医学设备文档相关联的输入内容。例如,可以经由网络从诸如服务器的远程设备、或从连接到计算机的存储介质接收内容。然后在步骤s12中将输入内容转换为数据交换格式。接下来,在步骤s13处从经转
换的输入内容提取多个关键术语,并且在s14处还从经转换的输入内容提取多个关键短语。在步骤s15,从监督者接收关键术语和关键短语的验证。最后,在步骤s16中,基于经验证的关键术语和经验证的关键短语中的至少一些来构建用于训练人工智能模型的对话。对话包括一系列语句。
77.图2示出了进入装置20中的主系统部件的信息流的框图。输入内容由处理器21接收并转换为数据交换格式,以产生经转换的输入内容。经转换的输入内容由处理器22(其可以是与处理器21相同的处理器)处理以提取多个关键术语和关键短语。从监督者接收对所提取的关键术语和短语的验证,并且基于一些或所有经验证的关键术语和关键短语来构建对话,其中,该处理由处理器23(其可以与处理器21和/或22相同)执行。
78.因此,各方面的实施例可以提供一种将任何非结构化文档转换成结构化文档使得它可以作为对话流程而被提供或它可以用于构建要在问答(qa)系统中使用的模型的方法。计算机从充当监督者的个人接收输入指令,以验证对话流程并确保构成对话的所提取术语的合法性。该方法包括可以被组合用于以下各项的不同块:1)主题提取;2)短语提取;3)允许扩充主题模型的视觉方法;4)允许提交数据以用于训练qa系统的包括知识管理路线的模型。
79.图3示出了根据一个方面的实施例的过程的主要块。这些块是:用户手册数据31;主题提取32;短语提取33;允许扩充主题模型的视觉方法34;以及允许提交数据以用于训练qa系统的模型35。这些块可以在知识管理路线中被组合。知识摄取路线可以将非结构化文档转换为结构化且扩充的用户手册数据,其可以用于构建针对qa系统的知识模型(ai模型)。
80.图3所示的用户手册数据31相当于与医学设备文档相关联的输入内容。也就是说,医学设备文档可以是医学设备的用户手册或医学/保健领域中的类似相关文档。作为用户和服务手册编写的软件/系统文档通常是pdf/文本格式,其通常是非结构化或半结构化的。对于与用户进行对话或回答查询的聊天机器人,信息需要是结构化格式,作为对话流程或问答对。用于知识管理路线的完整工作流程被组织在如下详述的各个阶段中。在图4中示出了工作流程的不同阶段的概述。
81.在路线中的第一阶段中,接收输入内容。在框411处,输入内容可以是用户手册文档的pdf版本,然后在框412处将其与图像一起转换为文本xml格式。在框413处,通过知识摄取块将该xml文档转换为等效的json格式。如pdf版本中的数据转为主题、副主题和内容的分层结构的排序如原始格式中那样被维持。除了pdf文件之外,还可以支持任何结构化数据格式,诸如html页面、word文档。
82.在第二阶段中,在框421处通过提取关键术语和关键短语来执行主题增强,然后在框422处使用关键术语和关键短语来创建对话流程。可以在诸如知识创作套件的json查看器中查看对话流程,使得监督者可以容易地查看对话。在第三阶段中,监督者(知识作者)在框431处编辑和验证对话的内容,并且可以使用结构化知识库432来扩充/补充对话。最后,在第四阶段中,在框441处使用经验证的对话来构建模型。本发明的主要块包括该工作流程的阶段,并且在下面详细描述。
83.利用超声用户手册的示例示出了根据本发明的方面的实施例的所有不同块的图示。图5是pdf格式的超声用户手册的示例性视图。图5所示的超声用户手册的pdf被转换成
xml,并且随后被转换成json,其中,主题、子主题和内容层级被维持。
84.在主题提取块中,json格式的数据用作输入。每个段落的内容用于关键词语(关键主题)的提取。该阶段用于捕获尚未在标题中捕获但与内容相关的主题关键词语。然后将这些关键词语/关键主题附加到用户手册中可用的主题标题。在该阶段中,可以使用如tf-idf的算法来从内容导出关键词语或关键主题。与其他主题提取算法相比,如tf-idf的算法可以提供简单性、速度和效率的优点。
85.tf-idf算法可以用于输入内容的给定部分的段落以及来自文档(输入内容)的其余部分的段落,以识别在主题下的当前内容中相对重要的词语。该算法使用词语的术语频率和逆文档频率来确定其重要性。为所有词语计算tf-idf,并且将这些词语的分数用作权重。数值权重值越高,术语越稀少。权重越小,术语越常见。
86.如上所述,标签(关键术语和关键短语)可以从诸如章节、小节等输入内容的小节下的内容提取。这些标签与小节标题(标识符)一起添加以扩充它们。然而,也可以对未被拆分成小节并且未被提供有小节标题的输入内容执行提取。在没有标题的情况下,可以以任何粒度(句子级、段落级、文档级等)执行标签提取。
87.接下来,在短语提取块中,从输入内容的每个段落提取短语。该块提取在内容中使用的长度为3到5个词语的关键短语。这有助于使用关键短语来识别内容。当用户/客户使用这些短语或语义上类似的短语中的任何一个来查询系统时,可以容易地识别具有回答的内容。在该阶段提取的关键短语也被添加到在前一阶段提取的标题和主题关键词语中。
88.可以使用快速自动关键词语提取(rake)算法来提取关键短语。rake算法使用标准停止词语和一些定制停止词语的列表来将句子拆分成关键词语短语。主题或子主题下的内容使用停止词语列表被拆分成关键词语短语。然后基于词语频率和重要程度对这些关键词语短语进行评分。关键词语短语的计算分数用于对这些短语进行排序。最后,仅选择超过阈值分数(诸如4.0)的短语。
89.因此,关键词语(术语)和关键短语使用tf-idf和rake算法从内容提取,并添加到主题节点。可以根据输入内容的小节标题来提供这些节点。
90.下一个块是视觉表示块。在该块中,利用主题关键术语和短语增强的用户手册数据以主题、子主题和内容节点的格式可视地表示,其允许知识作者(监督者)容易地查看内容并验证增强的用户手册数据。知识作者是理解输入内容并且能够验证所提取的术语和短语对应于主题的用户。例如,如果输入内容是针对医学诊断机器的用户手册,则知识作者(监督者)可以是有资格操作机器的技术人员,或可以是理解机器的诊断方法和与诊断方法相关联的潜在生理考虑的医学专业人员。知识作者还可以通过添加或编辑个体主题或内容节点或移除可能不适合和/或不需要用于模型训练的主题关键术语来进一步扩充数据。该阶段的输出是扩充且经验证的数据。
91.已经开发了包括构建块的虚拟通信器框架(vcf),所述构建块在被组合时使得能够创建用于不同语言的聊天机器人部署的高度参与和动态的多模态对话流程。vcf的构建块是内容创作套件和知识摄取路线,两者都被提供有多语言支持。
92.图6和图7所示的虚拟通信器框架的内容创作套件块可以允许用户创建、可视化、测试和管理用于聊天机器人部署的对话流程脚本。该工具具有高度用户友好的基于树的对话流程脚本可视化,其符合飞利浦用户界面指南。这允许内容编写者以更好的方式专注于
对话内容。该对话可以使用vcf的内容创作套件来最好地查看和编辑,但是也可以使用任何通用json查看器(例如json lint)来查看和编辑。
93.虚拟通信器框架的知识摄取块可以允许将非结构化文档摄取到框架并将其转换成可以用于问答系统的结构化知识模型。路线遵循结构化方法以使过程尽可能通用,使得它可以应用于尽可能多类型的文档。
94.vcf框架中的nlp路线的多语言特征确保以所支持的语言之一创建的对话流程脚本可以在所有所支持的语言中可用且可执行,而没有任何数据丢失。一个方面的实施例可以提供用于在该vcf框架中实施该多语言特征的系统和方法。使用该自然语言处理(nlp)路线支持的语言可以包括英语、荷兰语、德语、法语、西班牙语、俄语、汉语、阿拉伯语、印地语、葡萄牙语和丹麦语。
95.虚拟通信器框架(vcf)使得能够为不同语言的聊天机器人部署创建高度参与且动态的多模态对话流程。vcf的两个主要构建块是内容创作套件和知识摄取路线,两者都具有多语言支持。
96.框架(vcf)遵循允许基于不同使用情况添加/使用服务和特征的灵活架构。图6所示的vcf的内容创作套件块允许用户创建、可视化、测试和管理可用于聊天机器人部署的对话流程。该工具提供了高度用户友好的基于树的对话可视化。这可以允许内容编写者以更好的方式专注于对话内容。框架可以用于经由例如rest服务链接到qa系统和知识系统。
97.用户手册被转换为内容创作套件兼容格式,并且可以由知识作者(监督者)访问以用于添加、移除或扩充主题或内容节点中的任何一个。也就是说,监督者验证和扩充可以将领域词语/短语或目标词语/短语添加到小节。因此,知识作者的输入确保了所提取的术语和短语的有效性,并且改善了所得到的对话。
98.图8示出了在内容创作套件中表示的超声用户手册的示例性视图。可以在左面板上查看用户手册的所有主要主题标题。这里,正在选择并正在查看主要主题“使用系统”。正在显示子主题标题“监视器调整”和“定位监视器”,其中,对应的内容节点在它们下面。右面板示出了所选择的节点“定位监视器”,并且该节点已经使用主题增强和短语增强块利用术语“调整监视器的位置”和“倾斜监视器”被增强。
99.下一个块是用于模型训练的词汇表构建。在工作流程的该最后一个块中,词汇表(对话)建立在用户手册的该经验证的数据上。如上所述,监督者可以在内容创作套件中验证和扩充对话流程。例如,监督者可以添加同义词和/或编辑对话。对话可以被提供为包括一系列语句的对话流程,并且然后可以进一步用于训练模型。相反,对话流程也可以用于创建聊天机器人,其可能不需要训练。
100.然后可以提交内容用于训练。这里,算法可以用于预处理,其包括子过程,例如:标记化、停止词语移除、词元化、标点符号移除。图9示出了基于对话训练模型的过程的框图。图9包括在框91处接收对话脚本,在框92处执行nlp处理,在框93处训练语言模型,并且在框94处部署用于用户查询的模型。
101.可以首先预处理对话,并且可以通过利用额外的相关术语补充对话来进一步扩充对话。可以用nlp路线支持的每种语言执行预处理,并且预处理块包括用于清理、注释和标准化对话脚本的子块。然后在路线中接着是同义词集合块,其用于在对话流程脚本中的聊天文本的替代文本方面增加训练语料库。
102.通用文本语料库(诸如text8和布朗通用语料库)也可以用于在输入内容的预处理之后补充词汇表。另外,可以在用户手册(输入内容)中使用但可能作为向量嵌入的部分不可用的一些关键词语或领域特定的词语被分类为词汇表外(oov)或领域相关的词语。代替忽略或排除这些领域词语(这将导致信息和语义的丢失),词汇表构建块可以生成这些oov或领域相关词语的向量嵌入。针对给定文档(输入文档)的oov和领域相关词语可以被预先确定,并且被提供有文档的信息。
103.在训练阶段中,对所构建的对话进行预处理,并且创建与对话相对应的语言模型。对话包括一系列语句。对话可以被称为对话流程脚本,其是在脚本中用于引导用户通过与聊天机器人的对话来解决特定问题或一组问题的语句的集合。
104.图10所示的路线中的训练阶段块用于荷兰语语言,并且已经为nlp路线支持的所有语言创建了类似的路线。在图10中,荷兰语文本在框101中被接收,文本在预处理框102中被清理、注释和标准化,词汇表在框103中被增强,并且模型在框104中被构建。内容创作套件使得内容作者能够创建详细的对话流程脚本。该流程内的每个语句(单个/多个句子)表示用户意图。
105.训练阶段中的初始块(其驻留在内容创作套件中)有助于以任何支持的语言创建对话流程脚本,或使用第三方翻译服务将对话从一种语言翻译到另一种语言。如上所述,对话流程脚本可以在内容创作套件中可视化。这使得双语或多语作者能够在发起训练过程之前验证内容,从而确保有效性符合法规标准。
106.一旦构建并预处理了词汇表,就可以发起word2vec模型的训练。使用词语向量嵌入为每种支持语言的对话流程建立语言模型。构建语言模型(ai模型)可以包括以下步骤:
107.文本内容(对话)中的每个句子(语句)被拆分成词语。
108.对于每个词语,将该目标语言中的相应词语嵌入向量与其对应的tf-idf分数相乘。
109.然后对这些向量求平均以获得句子级向量(语句向量)。
110.所有这些句子级向量构成针对文本内容的目标语言模型。
111.为所需的每种语言构建和存储这样的模型,并且在部署阶段使用相同的模型来对用户查询进行响应。
112.在下面的表1中示出了每种语言中的嵌入的词汇表大小。大的词汇表大小提供了这些语言中的词语嵌入的足够覆盖。
[0113][0114]
[0115]
表1:用于各种语言的嵌入的词汇表大小
[0116]
使用具有单个隐藏层的神经网络(模型)在词汇表上进行训练以基于上下文预测当前词语。目标是学习隐藏层的权重。这些权重本质上是我们试图学习的词语向量。所得到的学习向量是嵌入-描述目标词语的特征。这些嵌入被存储为经训练的模型。该经过训练的模型为任何问答系统做好了准备。
[0117]
在从用户手册内容创建的词汇表上训练向量嵌入(word2vec)模型,并且经训练的模型用于回答用户查询。图11示出了使用在扩充和验证的超声用户手册数据上训练的模型来回答客户问题的示例。用户可以与建立在用户手册数据上的模型交互,以获得与回答的产品相关的任何查询。这可以被称为部署阶段。
[0118]
在图12中示出了路线的部署阶段块。部署路线接受任何所支持的语言中的用户查询。在框121处,使用对应的语言路线来预处理以特定语言的这些用户查询。在框122处由意图引擎使用在框123处构建的模型来确定查询的意图。最后,对查询的响应在框124处基于意图来检索,并且被提供给用户。
[0119]
图13示出了针对荷兰语文本“我的设备有问题”的脚本中的对话的语言模型创建的示例。在步骤s131处接收查询,并且在步骤s132和步骤s133处执行预处理。具体地,对查询执行标记化和停止词语移除。然后,预处理的术语在步骤s134处被转换为向量空间,并且针对查询的句子向量在步骤s135处通过对各个词语向量求平均来获得。
[0120]
因此,在部署阶段中,接收查询并且确定查询的意图,使得适当的响应可以被确定并提供给用户。所述意图引擎:
[0121]
使用适当的语言模型以与训练阶段中描述的相同方式将预处理的用户查询转换成句子向量。
[0122]
然后计算该用户查询向量与经训练的对话水平向量(经训练的模型的语句向量)之间的余弦距离分数以识别用户意图。聊天机器人根据对话流程脚本中的所识别的意图用下一个语句进行响应。
[0123]
因此,预处理的查询被传递给匹配方法。该方法进而使用距离度量(余弦相似性)来识别训练模型中存在的最接近响应。
[0124]
因此,未被结构化用于ai处理的文档可以被结构化为确定对话流程,并且然后对话可以用于训练用于确定对来自用户的查询的响应的模型。所构建的对话可以是自包含的,并且对于输入内容所对应的所述医学设备的特定查询是监管批准的。因此,文档可以由ai聊天机器人/qa系统利用,而不需要手动处理输入文档。对话的确定是自动的,并且可以通过来自用户(监督者)的输入来增强,以验证和扩充对话。该处理可以以任何所支持的语言执行,而不依赖于外部翻译,诸如机器翻译。
[0125]
然后可以使用对话来开发可以部署在聊天机器人/qa系统中的任何所支持的语言的语言模型(ai模型)。用户可以向ai模型提供查询,并且可以使用用于训练模型的相同预处理方法来预处理查询,并且模型和预处理的查询可以用于从输入内容确定对查询的响应。查询和响应过程也可以以任何所支持的语言执行。
[0126]
因此,系统可以允许个人验证和增强对话,同时允许用户以有效的方式接收对查询的准确响应。对话和响应是从输入内容导出的。
[0127]
图14是可以实施本发明的计算设备的框图,所述计算设备诸如是包含适合于语言
和ai处理的资源的服务器,并且所述计算设备可以用于实施将用于训练人工智能模型的内容结构化的方法。计算设备包括处理器993和存储器994。可选地,计算设备还包括用于与其他计算设备(例如与本发明实施例的其他计算设备)通信的网络接口997。
[0128]
例如,实施例可以由这样的计算设备的网络组成。可选地,计算设备还可以包括用于用户输入例如关键术语或关键短语的验证/编辑中的任何一项的一个或多个输入机构(诸如键盘和鼠标996)和显示单元(诸如一个或多个监视器995)。显示单元可以示出由计算设备存储的数据的表示,例如对话流程、经训练的模型、聊天机器人或qa系统或vcf的内容创作套件的表示。显示单元995还可以显示光标和对话框以及屏幕,使得能够在用户与存储在计算设备上的程序和数据之间进行交互。输入机构996可以使得用户能够向计算设备输入数据和指令。部件可经由总线992连接到彼此。
[0129]
存储器994可以包括计算机可读介质,该术语可以是指被配置为携带计算机可执行指令或具有存储在其上的数据结构的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。计算机可执行指令可以包括例如可由通用计算机、专用计算机或专用处理设备(例如,一个或多个处理器)访问并令通用计算机、专用计算机或专用处理设备(例如,一个或多个处理器)执行一项或多项功能或操作的指令和数据。因此,术语“计算机可读存储介质”还可以包括能够存储、编码或携带一组指令以供机器执行并且令机器执行本公开的任何一种或多种方法的任何介质。因此,术语“计算机可读存储介质”可以被认为包括但不限于固态存储器、光学介质和磁性介质。作为示例而非限制,这样的计算机可读介质可以包括非瞬态计算机可读存储介质,包括随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、光盘只读存储器(cd-rom)或其他光盘存储、磁盘存储或其他磁存储设备、闪存设备(例如,固态存储器设备)。
[0130]
处理器993被配置为控制计算设备并执行处理操作,例如执行存储在存储器中的代码以实施这里和权利要求中描述的各种不同功能。这样的处理操作包括接收可以与医学设备文档相关联的输入内容;将输入内容转换为数据交换格式;从经转换的输入内容提取多个关键术语;从经转换的输入内容提取多个关键短语;从监督者接收对所述关键术语和所述关键短语的验证;并且基于经验证的关键术语和经验证的关键短语中的至少一些来构建用于训练人工智能模型的对话。
[0131]
存储器994存储由处理器993读取和写入的数据,诸如输入(例如,输入内容)、中间结果(例如,提取的关键术语和短语以及语句向量)和上述过程的结果(例如,对话和训练模型)。如本文所述,处理器可以包括一个或多个通用处理设备,诸如微处理器、中央处理单元等。处理器可以包括复杂指令集计算(cisc)微处理器、精简指令集计算(risc)微处理器、超长指令字(vliw)微处理器或实施其他指令集的处理器或实施指令集的组合的处理器。处理器还可以包括一个或多个专用处理设备,诸如专用集成电路(as1c)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、网络处理器等。在一个或多个实施例中,处理器被配置为执行用于执行本文所讨论的操作和步骤的指令。
[0132]
网络接口(网络i/f)997可以连接到诸如互联网的网络,并且可经由网络连接到其他这样的计算设备。网络i/f 997可以控制经由网络从其他装置输入数据/向其他装置输出数据。诸如麦克风、扬声器、打印机、电源单元、风扇、外壳、扫描仪、轨迹球等的其他外围设备可以包括在计算设备中。
[0133]
体现本发明的方法可以在诸如图14所示的计算设备上执行。这样的计算设备不需要具有图14所示的每个部件,并且可以由这些部件的子集组成。体现本发明的方法可以由经由网络与一个或多个数据存储服务器通信的单个计算设备来执行。计算设备可以是存储处理之前和之后的输入内容并且因此存储例如对话和/或训练模型的数据存储设备本身。
[0134]
体现本发明的方法可以由彼此协作操作的多个计算设备来执行。多个计算设备中的一个或多个可以是存储ai模型的至少一部分的数据存储服务器。通常可以替代地提供其他硬件布置,诸如膝上型计算机、ipad和平板pc。用于执行本发明实施例的方法的软件以及输入内容和所需的任何其他文件可以例如通过诸如互联网的网络或使用可移动介质来下载。任何对话或训练模型可以被存储、写入到可移动介质上或通过网络下载。
[0135]
本发明实施例可以应用于需要构建用于ai处理的内容的任何领域。本发明实施例可以优选地应用于医学和保健领域。
[0136]
人工神经网络被广泛用于使用所谓的“机器学习”来执行模式匹配和诊断过程。人工神经网络的典型结构是具有输入层、隐藏层或处理层以及输出层的三层结构,在输入层处,观察被输入到网络,在隐藏层或处理层处,对从输入层接收的信息执行进一步的处理操作,在输出层处,基于从处理层接收的信息生成输出信号。人工神经网络的精确结构不受限制,层的具体功能也不受限制。
[0137]
合适的神经网络系统可以包括利用测试数据和注释数据来生成用于ai系统的训练模型的训练处理器,该训练模型可由ai系统访问。参考相似度值计算处理器执行检测。
[0138]
这样的系统包括可以用于使用对话来训练模型的硬件架构,诸如图14所示的硬件架构(上面描述)。特别地,处理器993可以执行用于训练模型、确定用户查询的意图以及提供响应和相关联的处理的处理指令。一个或多个存储单元(存储器)994存储处理指令、经训练的模型查询响应和对话。
[0139]
本领域技术人员通过研究附图、公开内容以及权利要求,在实践本文中的原理和技术时能够理解并实现对所公开的实施例的变型。在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。尽管某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。计算机程序可以被存储或分布在合适的介质上,例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质,但是也可以被以其他形式分布,例如经由互联网或其他有线或无线的电信系统。权利要求中的任何附图标记都不应被解释为对范围的限制。