在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统与流程

文档序号:12142072阅读:268来源:国知局
在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统与流程

本申请大体涉及电子设备,更具体地,涉及使用电子设备的本文解释。



背景技术:

为了进行人机交互,某些电子设备使用能够支持语音的用户接口。对于一些电子设备和电器,自然语言的使用成为一种交互方法的选择。从自然语言向预期(intended)交互的平滑转变在消费者满意度上可发挥着逐渐重要的作用。



技术实现要素:

技术问题

提供一种鲁棒的命名实体标记系统,所述鲁棒的命名实体标记系统能够不考虑来源错误或翻译错误识别通信源的预期含义。

发明的有益效果

鲁棒的命名实体标记系统可不考虑来源错误或翻译错误识别通信源的预期含义。

附图说明

图1A示出根据本公开其中设备可对命名实体执行鲁棒标记的示例性计算系统;

图1B示出根据本公开来自图1A的其中可对命名实体执行鲁棒标记的计算系统的示例性客户端设备125;

图2示出根据本公开存储设备的示例性高级框图;

图3示出根据本公开命名实体标记功能的示例图;

图4示出根据本公开鲁棒命名实体标记功能的示例图;

图5示出根据本公开图解鲁棒标记过程的示例性流程图;

图6示出根据本公开对从短语字典中的原始命名实体(raw named entities)中检索出的命名实体进行编写或存储的示例图;

图7A示出根据本公开前缀树(prefix tree)的示例图;

图7B示出根据本公开具有单个前向步骤和多个后向步骤的前缀树的示例图;

图8示出根据本公开对前缀树结构中的子代进行多层次(multi-level)协调集群(clustering)的示例图;

图9示出根据本公开令牌词典内用于映射的令牌的示例性条目;

图10示出根据本公开来自统计学命名实体识别(NER)系统的NER结果的示例;

图11示出根据本公开的消歧(disambiguation)过程;

图12示出根据本公开的名称类别(标签)的层次结构的示例图;

图13示出根据本公开可用于从句子中提取相关知识或信息的滑动概念窗口的示例;

图14示出根据本公开从常识知识库中提取的常识知识的示例;

图15示出根据本公开的消歧过程的预计输出的示例;

图16示出根据本公开的多假设对齐的示例性方法;

图17示出根据本公开的示例性最佳对齐;

图18示出根据本公开用于不同示例的相应音素的示例性对齐;以及

图19示出根据本公开其中单词用作用于对齐目的的不可分割单元的示例性最佳对齐。

具体实施方式

在第一实施方式中,公开了一种鲁棒的命名实体标记系统,所述鲁棒的命名实体标记系统能够不考虑来源错误或翻译错误识别通信源的预期含义。该系统包括存储设备,存储设备配置为存储从多个来源采集的多个命名实体。将命名实体中的每一个令牌化为通用格式的命名实体令牌。命名实体中的每一个与标签关联。命名实体令牌中的每一个是单词或单词音节中的一者。系统还包括标记装置,该标记装置配置为接收一个或多个文本通信。标记装置还配置为识别一个或多个文本通信中的每一个。标记装置还配置为将一个或多个文本通信令牌化为通用格式的文本令牌。标记装置配置为将一个或多个文本令牌与存储设备中所存储的一个或多个命名实体令牌匹配,以将文本令牌分配给与命名实体令牌关联的标签。标记装置还配置为:基于文本令牌与命名实体令牌之间的匹配标记一个或多个文本通信,以识别一个或多个文本通信中的每一个的预期含义。标记装置配置为:基于对一个或多个文本通信应用标记,来识别一个或多个文本通信的预期含义。

在第二实施方式中,公开了一种在鲁棒的命名实体标记系统中使用的方法,所述方法能够不考虑来源错误或翻译错误识别通信源的预期含义。该方法包括通过标记装置接收一个或多个文本通信。该方法还包括识别一个或多个文本通信中的每一个。该方法还包括将一个或多个文本通信令牌化为通用格式的文本令牌。该方法包括:将所述一个或多个文本令牌与所述存储设备中所存储的一个或多个命名实体令牌匹配,以将所述文本令牌分配给与所述命名实体令牌关联的标签。所述一个或多个命名实体中的每一个与标签关联。该方法还包括:基于所述文本令牌与所述命名实体令牌之间的匹配标记所述一个或多个文本通信,以识别所述一个或多个文本通信中的每一个的预期含义。该方法还包括:基于对所述一个或多个文本通信应用标记,识别所述一个或多个文本通信的预期含义。

在第三实施方式中,公开了用于电子设备中并且能够对命名实体消歧的方法。该方法包括通过电子设备接收文本通信。文本通信包括一个或多个命名实体。该方法还包括将与所述一个或多个命名实体关联的概念组合,以从知识库中提取相关信息。该方法还包括由从所述知识库中提取的相关信息推理出相关信息。该方法包括:针对所述一个或多个命名实体,计算所推理的相关知识并对所述相关知识排名。该方法还包括:针对所述一个或多个命名实体中的每一个,基于所推理的相关知识的最高排名来识别最相关的标签。

在描述以下具体实施方式之前,阐述在本专利文档通篇所使用的某些单词和短语的定义可能有利。术语“联接”及其派生词是指在两个或更多元件之间的任意直接或间接的通信,而与那些元件是否在物理上彼此接触无关。术语“发送”、“接收”和“通信”及其派生词既涵盖直接通信又涵盖间接通信。术语“包括”和“包含”及其派生词是指包括但不限于。术语“或”是包括性的,表示和/或。短语“与……相关”及其派生词表示包括、包括在内、与之关联、包含、包含在内、连接至或与之连接、联接至或与之联接、可与之通信、与之协作、交织、并列、接近、结合至或与之结合、具有、具有特性、关联至或与之关联等。术语“控制器”表示控制至少一个操作的任意设备、系统或其一部分。这种控制器可实施为硬件或者硬件和软件和/或固件的组合。与任意特定控制器相关的功能可以是集中式或分布式的,无论是本地的还是远程的。当与一列项目一起使用时,短语“……中的至少一个”是指可使用所列项目中的一个或多个的不同组合,并且可能仅需要列表中的一个项目。例如,“A、B和C中的至少一个”包括以下组合中的任意一个:A;B;C;A和B;A和C;B和C;以及A和B和C。

本发明的实施方式

本申请要求于2014年7月14日提交至美国专利及商标局的第14/330,888号美国临时专利申请的优先权,该申请的公开内容通过引用整体地并入本文。

下面讨论的图1A到图19以及该专利文档中用于描述本公开原理的各实施方式仅仅以示例的方式给出,而不应该解释为以任何方式限制本公开的范围。本领域技术人员将理解,本公开的原理可在任何适当布置的电子设备中实现。

以下文档和标准著录如同在本文中充分阐述那样并入本公开:于2001年9月7日提交的第6,975,766B2号美国专利申请;于2007年2月26日提交的第2008/0208864号美国专利申请公开;于2002年8月26日提交的第2003/0208354号美国专利申请公开;于2007年2月26日提交的第2003/0208354号美国专利申请公开。所述文档和标准著录中的每一个在此通过引用并入本申请中,如同在本文中充分阐述那样。

图1A示出根据本公开的示例性计算系统100。图1A所示的计算系统100的实施方式仅是出于说明的目的。在不脱离本公开的范围的情况下,可使用计算系统100的其它实施方式。

如图1A所示,系统100包括网络102,网络102有助于系统100中各组件之间的通信。例如,网络102可在网络地址之间传送互联网协议(IP)包、帧中继帧(frame relay frames)、异步发送模式(ATM)信元或者其它信息。网络102可包括一个或多个局域网(LAN)、城域网(MAN)、广域网(WAN)、全球网络(诸如互联网)中的全部或者一部分、或者位于一个或多个位置处的任何其它通信系统。

网络102有助于至少一个服务器104和各客户端设备106-114之间的通信。网络102还可有助于各客户端设备106-114和云计算之间的通信。每个服务器104包括可为一个或多个客户端设备提供计算服务的任何合适的计算或处理设备。每个服务器104例如可包括一个或多个处理设备、一个或多个存储器以及一个或多个网络接口,所述一个或多个存储器存储指令和数据,所述一个或多个网络接口有助于通过网络102进行通信。

每个客户端设备106-114代表通过网络102与至少一个服务器或其它计算设备交互的任何合适的计算或处理设备。在该示例中,客户端设备106-114包括台式计算机106、移动电话或智能手机108、个人数字助手(PDA)110、电视、智能电视、膝上型计算机112和平板计算机114。然而,计算系统100中可使用任何其它或另外的客户端设备。

在该示例中,一些客户端设备108-114间接与网络102通信。例如,客户端设备108-110经由诸如蜂窝基站或eNodeB的一个或多个基站116进行通信。另外,客户端设备112-114通过一个或多个无线接入点118(诸如IEEE802.11无线接入点)进行通信。注意,这些仅是示例,并且每个客户端设备可直接与网络102通信或者经由任何合适的中间设备或网络间接地与网络102通信。

根据本公开,示例性计算系统100包括可对命名实体执行鲁棒标记的设备。计算系统100包括存储设备120,该存储设备120可通过网络102(诸如互联网)和包括基站(BS)116的无线通信系统联接到一个或多个客户端设备106-114(诸如,智能电话108),用于将存储在存储设备120内的所标记的实体对象与通过智能电话108接收的实体对象进行匹配。

虽然图1A示出计算系统100的一个示例,但是可对图1A做出各种变型。例如,计算系统100的每个元件可包括任何恰当布置和任何数量。通常,计算和通信系统有多种常用配置,并且图1A不将本公开的范围限制于任何具体配置。虽然图1A示出可使用本专利文档中公开的各种特征的一个操作环境,但是这些特征可在任何其它合适的系统中使用。

图1B示出根据本公开来自图1A的其中可对命名实体执行鲁棒标记的计算系统100的示例性客户端设备125。客户端设备125可代表图1A中的一个或多个客户端设备106-114。

如图1B所示,客户端设备125包括天线130、射频(RF)收发器135、发送(TX)处理电路140、麦克风145以及接收(RX)处理电路150。客户端设备125还包括扬声器155、主处理器160、输入/输出(I/O)接口(IF)165、小键盘170、显示器175和存储器180。存储器180包括基本操作系统(OS)程序181和一个或多个应用182。

RF收发器135从天线130接收由系统中的另一组件发送的一个到来的RF信号。RF收发器135向下转换到来的RF信号以生成中频(IF)或基带信号。IF或基带信号被发送到RX处理电路150,所述RX处理电路150通过对基带或IF信号进行过滤、解码和/或数字化来生成经处理的基带信号。RX处理电路150将经处理的基带信号发送到扬声器155(诸如针对语音数据),或者发送到主处理器160以用于进行进一步处理(诸如针对网络浏览数据)。

TX处理电路140从麦克风145接收模拟或数字语音数据,或者从主处理器160接收其它传出的基带数据(诸如,网页数据、电子邮件或交互式视频游戏数据)。TX处理电路140对传出的基带数据进行编码、多路复用和/或数字化,以生成经处理的基带或IF信号。RF收发器135从TX处理电路140接收传出的经处理的基带或IF信号,并且将基带或IF信号向上转换成经由天线130传输的RF信号。

主处理器160可包括一个或多个处理器或其它处理设备,并且可执行存储在存储器180中的基本OS程序181以控制客户端设备125的总体操作。例如,主处理器160可根据公知的原理通过RF收发器135、RX处理电路150和TX处理电路140控制前向通道信号的接收和反向通道信号的发送。在某些实施方式中,主处理器160包括至少一个微处理器或微控制器。

主处理器160还能够执行处于存储器180中的其它进程或程序,诸如用于对命名实体进行鲁棒标记的操作。主处理器160可如执行过程所要求的那样将数据移入或移出存储器180。在某些实施方式中,主处理器160配置为基于OS程序181或者响应于从外部设备或操作者接收的信号而执行应用182。主处理器160还联接至I/O接口165,I/O接口165向客户端设备125提供连接至诸如膝上型计算机和手提式计算机的其它设备的能力。I/O接口165是这些配件和主处理器160之间的通信路径。联接到主处理器160的存储器180可存储短语字典、前缀树、令牌词典等。

主处理器160还连接至小键盘170和显示器单元175。客户端设备125的操作者可使用小键盘170将数据输出到客户端设备125中。显示器175可以是能够诸如从网站渲染文本和/或至少一定图形的液晶显示器或其它显示器。主处理器160可控制在显示器单元175上呈现的内容。主处理器160和用户设备125内的其它组件可由可通过外部电源再充电的电池或其它供电源提供电力,或者可由外部电源提供电力。

图2示出根据本公开计算系统中的示例性设备。具体地,图2示出根据本公开来自图1A的其中可对命名实体执行鲁棒标记的计算系统100的存储设备120的示例性高级框图。如图2所示,存储设备200包括总线系统205、至少一个存储器230、至少一个通信单元220以及至少一个输入/输出(I/O)单元225,其中总线系统205可配置为支持至少一个处理设备210之间的通信。

处理器210配置为执行可加载到存储器230中的指令。服务器200可包括呈任何恰当布置的任何合适数量和类型的处理设备210。示例性处理设备210可包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、专用集成电路以及离散电路。处理设备210可配置为执行驻留在存储器230中的进程和程序,诸如用于生成显示器适应元数据的操作。

存储器230和永久性存储体235可表示能够存储和检索信息(诸如基于临时或永久原则的数据、程序代码或其它合适的视频信息)的任何结构。存储器230可表示随机存取存储器或者任何其它合适的易失性或非易失性存储设备。永久性存储体235可包括支持较长时间地存储数据的一个或多个组件或设备,诸如只读存储器、硬盘驱动器、闪速存储器或光盘。存储器230和永久性存储体可配置为如本文将进一步公开的那样存储命名实体和前缀树。

通信单元220配置为支持与其它系统或设备的通信。例如,通信单元220可包括有助于通过网络103进行通信的网络接口卡或无线收发器。通信单元220可配置为支持通过任何适当的物理或无线通信链路进行通信。

I/O单元225配置为允许用于数据的输入和输出。例如,I/O单元225可配置为通过键盘、鼠标、小键盘、触摸屏或其它适当的输入设备为用户输入提供连接。I/O单元225还可配置为向显示器、打印机或其它适当的输出设备发送输出。

虽然图1B和图2示出计算系统中的设备的示例,但是可对图1B和图2做出各种变型。例如,图1B和图2中的各种组件可组合、进一步地细分或被省去,并且可根据具体需要添加额外的组件。作为具体示例,主处理器340可分为多个处理器,诸如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。此外,虽然图1B示出客户端设备125配置为移动电话或智能电话,但是客户端设备可以配置成作为其它类型的移动或不动设备进行操作。此外,如计算和通信网路那样,客户端设备和服务器可具有广泛种类的配置,并且图1B和图2不会将本公开限于任何具体客户端设备或服务器。

当自然语言成为电子设备和电器的交互方法选择时,从自然语言向预期交互的平滑转变在消费者满意度上发挥着逐渐重要的作用。在该转变中,主要的任务是基于文本通信识别用户或作者实际意图的是什么(诸如,对于动作以及动作参数/目标)。例如,口头语言转换到文本可以是一系列处理步骤的结果,所述处理步骤包括语音捕捉、自动语音识别(ASR)、令牌化、命名实体标记、概念分析、语义分析、目标检测等。文本通信源可包括口头用户会话、打印文本、用户输入文本、用户手写笔迹等。可使用ASR、光学字符识别(OCR)等来对通信源文本化。应理解,虽然术语“通信”可包括从一个设备向另一个设备发送信息,但是术语“通信”还可以指可进行通信的任何介质。例如,通信可包括语言、文本、书面语等,而与其是否被传送到任何地方无关。

标记命名实体可包括:识别文本中的域相关(domain-relevant)实体;以及利用适当的标识信息对所述实体中的每一个进行标记(诸如关联或链接)。标识信息可包括类别标签等。识别命名实体可以指命名实体的文本检测、分类和标识(诸如消歧)。标记命名实体(诸如,电影标题、运动员、演员、界标等)在涉及文本理解和处理(诸如自然语言理解)的诸多领域中可能是重要的,因为命名实体可以是动作的主体或目标,因此包括至关重要的信息。当文本中的句子特别短(诸如针对电子设备的人类控制命令的文本翻译)时或者当文本中的句子成比例地具有大量命名实体时,标记可能有用。

在句子中,潜在命名实体可包括多个单词、可以重叠甚至可包括在另一个命名实体中。例如,句子“Show me a documentary about the making of Safe House(向我展示与安全屋制作有关的纪录片)”可包括与同一标签“展示”关联的至少三个命名实体(诸如,“安全屋制作”、“安全屋”和“房屋”)。

在自然语言理解的传递途径中,ASR(或OCR)和命名实体的标记均可发生在早期阶段,并且它们的结果可对其余传递途径的成功具有重大影响。根据嵌入有自然语言理解传递途径的系统类型,确定:例如,用户或说话者从由口头语言转换来的文本语言中意图(intend)的可以允许在不必访问和校正会话中的每个和每一个文本单词的情况下继续进行传递途径。例如,如果扬声器或用户发出句子“I want to watch Harry Potter and the Philosopher's Stone(我想观看哈利·波特与魔法石)”,并且语音到文本转变过程将利用短语“I want two wash Harry Potter and the Philosopher’s Stone”对所述会话进行文本化,则一旦真正的电影标题(“哈利·波特与魔法石”)被标记,简单的校正机制可识别正确的动作(“观看”)。在这种情况中,还可在不一定必须校正单词“two(二)”的情况下直接推理出并且实现用户的意图。根据上下文,将出于各种目的使用标记的结果,包括但不限于:通过替换直接校正、进一步相关校正、推理用户目标等。图3示出根据本公开命名实体标记功能的示例图。在图3所示的示例中,一个或多个用户会话、打印文本、用户输入、用户手写笔迹或另一文本源被转换成电子文本。根据电子文本,标记命名实体并将其转发到文本替换单元、文本校正单元、目标推理单元、或者另一进一步处理单元中的一个或多个。图3所示的命名实体标记功能的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

虽然可使用技术(诸如ASR、OCR等)来将通信源翻译为文本,但是在用于分析和理解通信的自然语言处理传递途径中,进一步处理步骤可能受到文本中错误的妨碍。文本中的来源错误和翻译错误可以是声学和语言模型(诸如通过硬件限制)、背景噪声、特定用户的发音异常、特定用户的言语风格、特定用户的普通语言技能、不合适的令牌化、错误的或不完整的拼写或语法、打印文本、打字错误、翻译错误、ASR过程错误、OCR过程错误其组合等的结果。图4示出根据本公开鲁棒的命名实体标记系统的示例图。在图4所示的示例中,错误的源(诸如用户会话、打印文本、用户输入、用户手写笔迹、或者来自另一源的文本中的一个或多个)被转换成电子文本,且所述转换可能另外产生错误。根据具有错误的电子文本,一个或多个命名实体可被鲁棒命名实体标记单元进行鲁棒标记,并且被转发到文本替换单元、文本校正单元、目标推理单元或另一进一步处理单元中的一个或多个。图4所示的命名实体标记功能的实施方式仅仅是示例。在不脱离本公开的范围的情况下,可使用其它实施方式。

在会话(检索)中,一个或多个单词错误(诸如,当“house”被错误识别为“haus”时)可导致诸多命名实体无法被标记或者被错误地标记。鲁棒命名实体标记功能可通过识别用户或作者实际意图表达什么来改善自然语言理解传递途径的效果,其中所述鲁棒命名实体标记功能配置为不考虑来源错误和翻译错误检测文本的所有命名实体。例如,当翻译文本包括相当大数量的命名实体时,根据上下文,鲁棒命名实体标记功能可帮助校正OCR或ASR结果、拼法和语法错误等。

诸如因为即使在含有文本或句子的具体位置处也具有大量替换含义、因为在不同的语言中具有不同含义、因为不容易由周围单词推理出、因为具有不同的语言等,诸多命名实体可能具有局限的上下文锚定以及处于平均值以上的复杂特性。除了专有名词或者甚至一般名词、可用作针对简化命名实体检测的线索的名词之外,诸多命名实体还可以是或可包括言语中的多种其它部分。对于包括这种命名实体的句子,根据用户或作者的意图,应用语言模型信息或传统图案匹配来检测命名实体以及专门地校正来源错误和翻译错误可能不会为命名实体和为句子提供足够的校正。

相反地,通过使用鲁棒的方法对命名实体进行标记,如本文所公开的那样,可根据需要利用传统的方法校正句子的剩余部分。在诸多情况下,诸如当命名实体是已知的时,对于句子其它重要部分(诸如动作本身)的可能校正可变得更加明显,使得命名实体标记能最终支持校正程序,而不是反之由校正程序支持命名实体标记。例如,用ASR输出“I want to wash Harry Potter and the Philosopher’s Stone”,一旦真实电影标题被识别,便可变得明显:单词“wash(洗)”应当被更适当的“watch(观看)”替换或校正。

如本文所公开,可使用不考虑源错误或翻译错误而从句子中的给定域中标记(诸如通过检测、分类、识别、关联、组合等)一个或多个命名实体的系统和方法来提供或标识通信源的意图。另外,如本文所公开的那样,所述系统和方法可应用到从ASR、OCR等得出的任何邻近文本句子或句子集合,而不考虑ASR错误、OCR错误、用户错误等。

在某些实施方式中,如本文公开的用于执行所述方法的系统包括具有存储设备的鲁棒标记系统。图5示出根据本公开图解鲁棒标记方法500的示例性流程图。虽然流程图示出一系列连续的步骤,但是除非明确地叙述,否则不应当从所述顺序中得出关于以下的推论:以特定顺序执行步骤或其一部分、连续地而不是并行地或以重叠的方式执行步骤或其一部分、或者在不存在介于中间的步骤或中间步骤的情况下执行专门示出的步骤。所示示例中的所示过程由例如处于移动站中的处理器来执行。

在步骤505中,通过包括从多个现有来源采集的多个原始命名实体(诸如单词、名称、短语等),可在存储设备中创建短语字典。例如,可处理来自不同来源的原始命名实体或原始短语,从而在命名实体字典中创建大量一致的命名实体集合。应理解,虽然原始命名实体可包括单词、名称、短语等,但是如本文将进一步描述的那样,原始命名实体可以不包括每个单词,以在由装置接收的命名实体与短语字典中所存储的命名实体进行匹配时使搜索时间最小化。在实施方式中,原始命名实体可包括对象、与对象或人物关联的名称、与对象或人物关联的专有名称、标题、短语(诸如通常使用的短语)及其组合等。

图6示出根据本公开用于在短语字典中对从原始命名实体中检索出的命名实体进行编写或存储的示例图。图6所示的图的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

通过将原始命名实体中的每一个与来自现有来源的标签信息(诸如一个或多个标签或另外的信息)关联,可将原始命名实体转换成命名实体,从而将原始命名实体标准化并且将其令牌化为通用格式。在某些实施方式中,原始命名实体的令牌化包括将文本打断为各个单词或各个单词音节。在某些实施方式中,从现有来源中采集与命名实体的别名有关信息,并且将其与所采集的命名实体关联。

在步骤510中,将树和检测模型加载到具有短语字典的存储设备中。存储在短语字典中的命名实体可被集群在具有父节点和子节点的前缀树结构中,其中子节点源自于父节点。经集群的结构可包括预定深度,从而限制与可串联链路的特定父节点关联的子节点的数量。在实施方式中,预定深度可定义为在前缀树中节点与其子节点之间的中间集群层次(level)的最大数量。在集群打断为更细化集群之前,可使用其它限制参数来限制集群中元素的最大数量。在前缀树维度中,具有共同父代的直接子节点可在“局部的”集群结构维度中作为枝叶或端部出现。在实施方式中,局部可意味它仅仅关系到父代以及其子代。在每个集群层次(诸如父代层次、直接连接到父代的第一子节点层次、直接连接到第一子节点层次的第二子节点层次等)处,可使用利于冲突的编码(诸如,哈希)函数(诸如语音编码函数、具有增加的代码长度的经典编码函数、具有听觉和增加的代码长度的扩展编码函数、应用于令牌上和反向令牌上的经典或扩展编码(encoding)函数的两级使用等)的集合来对命名实体进行集群。在实施方式中,可存在两个有区别的维度/视野:

“前缀树”维度和“集群树”维度。在第一阶段中,前缀树可包括令牌(诸如单词),当其在命名实体中出现时通过“下一令牌”链路进行连接,使得从根到叶的任意路径呈现为一个命名实体。在实施方式中,不同的命名实体可共享同一前缀因而共享同一名称。在实施方式中,诸如当一个命名实体是另一个命名实体的子序列时,命名实体可以以内部节点终止。

在第二阶段中,可利用失败链路对前缀树进行扩充。在第三阶段中,可分析前缀树中的每个父代-子代(诸如“下一令牌”)的关系。如果超过特定阈值,诸如共享到达当前节点/令牌但是前向下一节点/令牌不同的同一前缀的命名实体的数量大,则可应用局部集群。在实施方式中,父代与其子代之间可存在直接关系。在实施方式中,可创建达到某一最大深度的一些中间的间接层次。为了创建这些中间层次,可通过如经由有利于冲突(如通常那样)的哈希(hashing)函数所确定的、子代共同拥有的事物来对具有多个子代的父代的子代进行集群。可使用粗略集群(诸如,粗略的哈希)来确定第一层次上的若干集群。当集群中的子代数量大于阈值时,更可执行更细化的集群(诸如,细化的哈希),以将第一层次上的那些集群分解成第二层次上的多个集群中,依次类推。

在某些实施方式中,当集群的大小超过集群大小阈值时,增加前缀树的深度,以将集群的大小减小回到集群大小阈值以下。在某些实施方式中,每个层次处的编码函数可能与具有适当参数化精度的相同函数不同。在实施方式中,可使用相似性测量(作为编码函数的改进)来在最深层次上的集群内进行最终选择。

在步骤515中,基于每个命名实体的标识部分(诸如别名),利用短语字典在存储设备中构建前缀树,并且前缀树利用与所述命名实体关联的标签信息对与命名实体的结束令牌对应的每个节点进行扩充。图7A示出根据本公开前缀树700的示例图。图7B示出根据本公开具有单个前向步骤和多个后向步骤的前缀树750的示例图。图7A和图7B所示的前缀树的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

前缀树700和前缀树750可基于每个命名实体的标识部分(诸如别名)来构造,并且可利用与之相关的标签信息来对与命名实体的结束令牌对应的每个节点进行扩充。前缀树700和前缀树750可包括父节点(诸如根)702,所述父节点702经由下一链路703链接到一个或多个子节点704-710。前缀树还可包括失败链路711,失败链路711允许在失败之后立即从父节点702处的当前后缀开始继续搜索。为了简明,图7A和图7B所示的令牌处于目标节点中而不是链路本身中。然而,下一链路中的每一个可与表示单个单词或单词音节的各个令牌对应,从而提供近似匹配。每个独特的令牌(token)可在存储单元中仅保持一次,并且前缀树简单地引用这些令牌从而减少内存占用。

通过指定具有整个单词或至少单词音节而不是单词的每个独立字符的令牌,前缀树深度和需要检测匹配的步骤数量可小化,同时还内在地避免错误地检测短命名实体的问题,其中所述短命名实体仅仅是目标句子中较长单词的子字符串。此外,使用音节作为令牌可具有以下益处:对由于翻译错误而引起的会话中的令牌化错误较不敏感。

在某些实施方式中,为了在存储设备中创建前缀树,可采用以下步骤:(1)在命名实体的标识部分上应用内部令牌化函数;(2)将每个令牌连同其编码一起添加到词典(本文进一步阐述);(3)必要时,循环访问每个令牌和对应树节点,并且附加新的子节点;(4)执行前缀树的广度优先遍历并创建失败链路;以及(5)在前缀树的顶部创建集群结构。

在实施方式中,最初可完整地创建包括下一链路和失败链路的前缀树。这可能导致父节点具有直接连接的成千上万的子代。随后,当每个父代的全部子代是已知的时,可创建集群结构,从而使得父代及其子代之间的整个树具有更小的集群。还可以执行其它集群策略。例如,集群策略可包括:每当集群变为过大直到大概最大层次或者具有固定深度并且保持在集群中的所有子节点处于固定的最深层次时,包括可变的深度和更细化的集群占用空间。

为了在前缀树中创建用于父代-子代关系的集群结构,可考虑由这些子代表示的全部令牌。针对给定深度和针对每个令牌,可从存储设备中检索或联机(on-the-fly)生成对应令牌编码。可相继地应用对应令牌编码,以在最深层次上选择最适当的集群来存储该令牌。如果集群内不存在这种精确的子代,则可添加一个子代。每当没有寻找到适当的集群时,可向对应的集群结构附加(诸如顺序地)这些集群。同样地,在附加集群之后,可在最深层次上的集群中添加对应的子代。在实施方式中,每当超过确定集群大小时,可将集群动态地打断为更细的集群。在前缀树中,对全部的父代-子代关系应用该过程。

在对包括错误的会话进行鲁棒的近似匹配的情况中,在搜索期间可能在父代之后出现多个类似子代,这可使遍历的有效地延续。可考虑所有的子代,以使得可选定根据相似性测量最相似的子集。

应注意,图7A和图7B均举例说明前缀树。例如,图7A可举例说明前缀树中的静态链路,诸如前向/下一和后向/失败链路。图7B可举例说明可由树中的以下下一和失败链路完成的动态搜索步骤。如图7B所示,在通过树的搜索的每个步骤处,不仅可考虑一个完美的子节点以继续搜索,还可考虑多个有前景(promising)的子节点。可对它们中的一个子节点继续搜索,并且可将其余子节点搁置一旁(例如,堆栈)。当考虑到全部的所得替代方案时,可考虑搁置一旁的有前景的子代中的一个,然后可考虑下一个,依次类推等。

图8示出根据本公开前缀树中节点的子代的多层次协调(harmonized)集群结构800的示例图。图8所示的图形的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。当命名实体的下一令牌将与前缀树中的命名实体中的同一位置处的类似令牌相匹配时,通过在整个集群树802等中从托管当前令牌的父节点801(来自前缀树)朝向相关最深局部集群804迅速下降,子代的多层次协调集群可使得能够迅速选择这样相似的下一令牌,其中所述最深局部集群804包括具有类似候选下一令牌的子节点(来自前缀树)。可使用利用相似性的连续搜索来进一步限制选择,其中所述相似性用作哈希函数的改进。

在步骤520中,在存储设备中创建令牌词典。根据集群结构的深度,令牌词典可配置为将每个令牌映射到包括整数ID和编码集合的条目中。

图9示出根据本公开令牌词典中用于映射的令牌的示例性条目。图9所示的令牌条目的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

当建立令牌词典时,可在前缀树建立期间将令牌映射到条目。因为同样的编码可能由于预计冲突而出现多次,所以编码可保持在次级编码词典中并且从令牌词典中被引用。

鲁棒的标记系统还可包括鲁棒标记装置,诸如诸如电子设备、移动电子设备等。如本文所公开,鲁棒的标记装置可包括处理器和计算机可读介质。在步骤525中,可将经预处理的电子文本发送到鲁棒的标记装置。在构建具有包括集群结构的前缀树的短语字典以及构建令牌词典之后,例如在与鲁棒的标记系统的存储设备通信中可使用鲁棒的标记装置以对经预处理的文本执行鲁棒的标记。

为了之后在文本会话中从字典中检测一个或多个命名实体,该装置可配置为接收一个或多个文本会话或通信、将所述文本会话或通信标准化、并且以将原始命名实体预处理为字典中的命名实体的方式类似的方式将所述文本会话或通信令牌化。针对每个生成的令牌,如果可用则可从词典中检索对应条目。否则,如与本文所公开的类似,可联机生成与词典条目类似的信息。

在步骤530中,该装置和存储设备在彼此通信时鲁棒地检测发送到装置的电子文本与处于前缀树中且与令牌词典相映射的命名实体之间的匹配。一旦装置接收到一个或多个文本会话、将它们标准化并且将它们令牌化,装置便与存储设备进行通信,以鲁棒地检测经令牌化的一个或多个文本会话与存储设备的命名实体之间的匹配。装置与存储设备之间的匹配可包括:从非常大的候选实体字典中检测命名实体文本句子中的多项匹配,使得匹配多半重叠并且来自候选命名实体的任何单词可以以略微不同的形式出现在句子中(诸如,由于来源错误或翻译错误)。

为了实现这一点,本方法可在前缀树上利用包括具有可配置大小的局部解集的束遍历(beam traversal)。可使用惯用的相似性测量来进行比较,所述比较发生在前缀树中相继遍历的节点处。所述比较可有助于在任何位置处详尽地检测包括类似令牌的所有命名实体的所有匹配(例如,当局部解集大小为无穷时),并且彼此独立以及支持不同的惯用相似性测量。类似地,在另一实施方式中,局部解集大小可能受限,以便以全面性为代价更迅速地进行搜索。

在对前缀树进行束搜索(beam search)期间,如与步骤515所公开的类似,可核查当前节点以识别其子代的子集是否与下一令牌匹配,在搜索期间没有缺失子代可添加除外。对于给定深度,可从词典中检索或联机生成对应令牌编码,并且可相继地应用所述令牌编码以在其局部多层次协调集群结构中选择最深层次上的最适当集群。如果不存在这样的集群路径,则搜索可在该分支上中止。在某些实施方式中,在最深集群内,可利用给定相似性测量来进行完整的连续搜索以选择子代的子集。在某些实施方式中,通过一些相关标准(诸如,包括令牌的命名实体数量、访问量、固有值等)对最深集群上的子代进行排序,并且在标准符合(诸如,相关性下降到预定水平以下或者找到足够数量的子代)时连续搜索可中止。在某些实施方式中,可设定附加限制参数,以进一步限制束搜索的范围和标记持续时间。然而,任何这种限制都可能进一步减少匹配的数量。

例如,在没有使用多层次协调集群的情况下以及在某些父代可能容易具有1,000个子代的情况下,可能需要未经判断(naive)地选择子代的子集O(1,000)。相反地,在具有例如两个适当的编码函数的多层次协调集群中(所述编码函数能够构建10个集群并且10个集群各自被使用),搜索的复杂性可降低至O(1+1+M),其中M理想地具有与10类似的大小,这可改善标记过程的执行。

在检测完成之后,可采集有可能重叠和对抗的匹配及相关标记的集合。每个标记可由与这样的命名实体相关的标签信息表示,所述命名实体的标识部分(诸如别名)通过使用鲁棒匹配而匹配在用户会话中。

在步骤535中,装置基于发送到装置的电子文本与包含在前缀树中跟令牌词典相映射的命名实体之间的匹配,来标记电子文本。一旦采集到有可能重叠和对抗的匹配及相关标记的集合,便发生局部消歧。局部消歧可用于确保:可从可变质量且有可能对抗的标记的整个集合(例如与全部可能的匹配对应)中选择高可信度的子集。通过定义,存储设备中的命名实体不会引起歧义。局部消歧从命名实体的有可能重叠的标记的较大集合(例如与全部可能的匹配对应)中选择连贯的、较小的、更高可信度的子集,其中所述命名实体最有可能成为用户意图的命名实体。局部消歧还可包括:计算匹配检测的可信度、滤除低可信度的标记(匹配)以及根据某些标准对剩余的标记(匹配)子集进行排名。

在某些实施方式中,排名标准可包括:例如基于与命名实体标识部分中的令牌的位置相关的加权因子提供每个令牌匹配的得分,以青睐后出现的令牌,尽管这些令牌具有低的原始匹配得分。此外,可利用域相关附加信息(诸如,针对域的常识推理数据、图形密度解等)来进行全部消歧。

在步骤540中,装置对电子文本应用标记。一旦消歧(部分或全部消歧)完成,根据来自步骤535的最终标记列表对每个文本会话进行标记。标记列表可制作成对例如在自然语言处理传递途径中进行进一步处理有效。在某些实施方式中,将由局部消歧生成的匹配实体替换到原始句子中以校正错误,从而形成替代句子校正假设(hypotheses)的排名集合。这样,可校正诸如具有最高排名句子校正假设的文本会话错误。在全部消歧的情况下,将所生成的匹配命名实体替换到原始句子中。类似地,可以这种方式校正文本会话错误。

在某些实施方式中,可使用常识推理方法来进行命名实体的消歧。由于同一名称可能具有诸多不同的含义或变体,所以命名实体可能具有歧义。例如,“Washington(华盛顿)”可任一地表示人名或位置。当前命名实体识别(NER)工具和命名实体消歧(NED)工具可能依赖于通常包括非结构性文本的公共大型文本主体(诸如百科全书、维基百科、网搜索结果、地名辞典等)来对命名实体消歧。由于在结构性低的自然语言文档中处理不确定文本元素的影响,可能存在错误和不正确的消歧。此外,虽然当前方法中的一些可浏览命名实体的周围文本以解决它的歧义,但是这些方法仅仅处理周围项目的文本,而不是检查文本在整个上下文中的含义以获得用于消歧任务的有用信息。例如,单个单词“Paris”既可表示“法国巴黎”又可表示“德克萨斯州巴黎”。然而,如果周围上下文包括单词“塞纳河”,则通过考虑上下文的含义将能够推理出实体是指“法国巴黎”。

利用文本输入的NER问题的具体示例示出如下:“Show me more movies on Hulu about Tom Hanks in Apollo 13(在Hulu上向我展示与阿波罗13号中的汤姆·汉克斯有关的更多电影)”。图10示出通过支持NER任务的现有统计学NLP工具返回的NER结果的示例。

如图10中所示,在NER中通用工具可返回NER结果。在该结果中,识别出三个实体,诸如“Hulu(葫芦网)”、“汤姆·汉克斯”和“13”,其中“Hulu”分类为位置类型、“汤姆·汉克斯”分类为人物类型以及“13”分类为数字类型。虽然该结果能够分别将作为人物类型和数字类型的“汤姆·汉克斯”和“13”的类型适当地分类,但是当“Hulu”实际上是在线视频娱乐领域中的组织或公司的名称时,所述“Hulu”被不正确地识别和分类为位置类型。此外,因为“阿波罗13号”是汤姆·汉克斯为主要男演员的电影的标题,所以可预计较好的结果。当汤姆·汉克斯被识别为男演员时,一些当前NER工具可能忽视与电影领域相关的上下文。这些信息可通过使用知识库中描绘的知识断言来推理。

对于NER和NED工具而言弄清文本外的意思是非常重要的,使得它们可提供更多信息以适当地识别实体。人类常识可包括电脑不能实现的、理解和推理事情的能力。因此,如果消歧依赖结构性和常识性的文本知识来源,则对任务消歧可能是重要的。

本文公开的系统和方法可通过利用来自知识库的语义知识断言来处理自然语言中的不确定性性,以对实体消歧。本文公开的系统和方法处理歧义的类型,所述歧义包括:(1)文本中的名称;以及(2)有歧义文本的特定标签。例如,对于文本中的名称,“George Bush(乔治·布什)”和“G.Bush(G·布什)”可以指同一实体。对于有歧义文本的特定标签,根据上下文,实体“George Bush(乔治·布什)”可被分配如“总统”的标签,而不是普通标签“人物”或者错误标签“位置”。为了对命名实体消歧,可从上下文窗口框架中的概念中提取常识知识而不是直接使用该文本。此外,可基于知识断言的相关性得分使用用于对实体候选标签排名的新得分模型。

本文公开的系统和方法大体涉及命名实体识别,更具体地涉及通过使用常识知识以及从有歧义的命名实体的上下文信息中推理出的知识断言来进行自然语言文本中的命名实体消歧。

利用常识知识的消歧系统可使用大量的知识库以对自然语言文档中的命名实体消歧,并且可利用来自常识知识库的语义数据和知识推理机制。诸多NER工具可能缺乏常识推理。因此,本文公开的利用常识知识的消歧系统可通过使用知识库来弄清文本信息的意思,以挖掘用于实体消歧任务的附加知识。常识知识库可以是由语义网络形成的开放式源知识库,其中所述语义网络对于自然语言处理和智能用户交互有益。常识知识库可以是免费可用的数据库,所述数据库包括常识知识和诸多节点和边界。常识知识库可与多个不同的语义关系相链接,并且可提供实用的常识推理工具箱浏览器和集成的自然语言处理引擎,自然语言处理引擎可支持诸多实用的文本推理任务,所述任务包括主题生成、语义消歧和分类、语感感测、类推和其它面向上下文的推理。

此外,利用从围绕有歧义的命名实体的概念中挖掘的上下文信息的知识断言可帮助对多个命名实体消歧,以发现用于该实体的正确标签。这可通过滑动覆盖在有歧义实体输入文本及其周围上下文概念上的概念窗口框架来实现。对于每个窗口框架,可采集从知识库推导出的附加知识,以计算对于有歧义实体的新得分。根据这些有歧义的命名实体所占用的语义得分,可验证这些命名实体并且根据需要向其分配新的标签。

图11示出根据本公开的消歧过程1100。虽然流程图示出一系列连续的步骤,但是除非明确地阐述,否则不应当从该顺序中得出关于以下的推论:以特定顺序执行步骤或步骤中的一部分、顺序地执行步骤或步骤中的一部分,而不是同时地或以重叠的方式执行步骤或步骤中的一部分,或者在没有介于中间的步骤或中间步骤的情况下执行排它地示出的步骤。示例中所示的过程由例如移动站中的处理器来执行。

在步骤1105中,可将文本输入到利用常识知识的消歧系统中。文本可包括有歧义的命名实体。在步骤1110中,利用常识知识的消歧系统可从输入文本中提取概念。可对包括有歧义实体的输入文本预处理,以在概念提取步骤之前移除停止词和标点。

例如,可向利用常识知识的消歧系统发送包括有歧义的命名实体的输入文本,诸如讲述“Show me more movies on<Hulu>about<Tom Hanks>in Apollo<13>(在<Hulu>上向我展示与阿波罗<13>号中的<汤姆·汉克斯>有关的更多电影)”的文本。可去除对于句子的整个含义较不重要的停止词和标点。

利用常识知识的消歧系统可确定句子中特定单词的相关概念。例如,利用常识知识的消歧系统可返回针对诸如单词“阿波罗”的特定单词的不同概念,所述单词“阿波罗”可匹配到两个概念“阿波罗”和“阿波罗13号”。可执行能从匹配同一输入单词的候选概念的集合中选择最佳概念的功能。通常,从知识库中定向到大量单词并且有更高返回得分的概念可被更频繁地使用。预处理文本输入和提取概念可生成包括如下概念的输入文本:

“[向我展示][电影][Hulu][汤姆·汉克斯][阿波罗13号]”

在某些实施方式中,可检查特定实体以确定是否已经向它们分配名称类别(标签)。例如,“汤姆·汉克斯”可贴上人物类别的标签。命名实体可匹配到名称类别层次结构(hierarchy),以获得可能更专门地与所述实体匹配而不是与分配的更多相关实体类别。

图12示出根据本公开名称类别层次结构的示例图。在图12所示的层次结构的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

可从经分类的预定义概念集合中建立类别层次结构。随后可利用通过验证过程从知识库中挖掘的新概念来更新类别层次结构。

在将命名实体与新的标签关联之后,有歧义实体可具有附加候选标签。例如,实体“汤姆·汉克斯”可具有不同的名称,诸如<汤姆·汉克斯、人物>、<汤姆·汉克斯、男演员>、<汤姆·汉克斯、总统>等。

在步骤1115中,利用常识知识的消歧系统可将概念性的概念与有歧义实体组合,以从知识库中提取更多相关的知识或信息。因为自然语言句子中的连续单词可能处于类似的上下文中或者具有相近的关系,所以可能有歧义地围绕命名实体的概念可组合到同一上下文中。为了确保覆盖所有的概念和实体,可使用具有预定义大小(例如大小=3、5、7…)的上下文概念窗口,其中所述上下文概念窗口从输入文本的开始滑动到结束。针对其中窗口包括有歧义实体的每个快照,可从有歧义实体的周围概念中采集附加的知识或信息以计算得分。

图13示出根据本公开可用于从句子中提取相关知识或信息的概念窗口的示例。图13所示的概念窗口的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

如图13所示,有歧义实体“汤姆·汉克斯”出现在两个连续的概念窗口框架中:诸如第二窗口1304和第三窗口1306(但不是第一窗口1302)。在这些窗口中,所有概念可用于从知识库中提取相关的知识断言。

在步骤1120中,利用常识知识的消歧系统推理新的常识知识。利用常识知识的消歧系统可进行优化,以通过真实世界的文本进行实用的基于概念的交互,并且可容易地应用于任何文本输入以用于查询扩展或者确定语义相似性。

利用常识知识的消歧系统可做出常识相关断言,所述断言对于确定针对有歧义实体的新标签可能有益。相关断言可通过语义关系和概念的集合被链接和可交换地推理出。利用常识知识的消歧系统可将这些关系类型组合到各种语义关系中,所述语义关系包括弱语义关系(诸如“LocationOf(位置为)”、“IsA(是)”)或者强语义关系(诸如“PropertyOf(性质为)”、“MotivationOf(动机为)”)。

在某些实施方式中,利用常识知识的消歧系统使用知识推理库,所述知识推理库可建立在知识库的顶部上用于通过类比进行推理或者用于通过语义网络进行关联,所述知识推理库包括常识网络和数据库。知识推理库可用来在可表示为语义网络的任何知识库中查找相关的概念、特点和关系类型。

知识推理库可包括用于允许利用常识知识的消歧系统查询相关概念的函数、可获取更多关系、以及做出信息项目是否正确的推断。此外,利用常识知识的消歧系统可查找相似的概念或关系等。通过分析窗口框架中的每个概念,如图13所示,可使用常识知识库来采集更多相关的知识断言。利用常识知识的消歧系统可使用机制来滤除对上下文重要的那些知识断言和附加概念。

图14示出根据本公开从常识知识库中提取的常识知识的示例。图14所示的常识知识的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

由于常识数据可与概念“Hulu”和“阿波罗13”相关。这些断言可被评估并用于识别新的实体标签或类别。

在步骤1125中,利用常识知识的消歧系统计算实体消歧得分并对其排名。对于每个有歧义的命名实体(ANE),利用常识知识的消歧系统可在搜索更好的标签匹配(fit)中计算与每个候选标签(CLabel)对应的新得分。得分计算可使用从用于所有概念的知识库中推导出的信息以及同一窗口中有歧义的命名实体。具体地,利用常识知识的消歧系统可浏览包括有歧义命名实体的每个滑动窗,并且可处理该窗口框架中的全部概念。利用常识知识的消歧系统可采集与来自知识库的这些概念对应的知识断言(KA)。因为每个概念可能包括相关性低或呈不同语言的诸多知识断言,所以利用常识知识的消歧系统可执行过滤器,所述过滤器可基于断言的相关性得分仅保留接近概念窗口上下文的断言。因此,利用常识知识的消歧系统可为窗口框架中的概念(诸如KAconcepts)提供选定知识断言集合。类似地,利用常识知识的消歧系统可针对得分计算采集与实体候选标签(诸如KACLabel)对应的知识断言集合。

利用常识知识的消歧系统还可通过score_assertions(得分_断言)函数测量有歧义的命名实体(ANE)与其标签候选CLabel之间的相似性,所述score_assertions函数可在两个集合KAconcepts和KACLabel之间确定断言如何与彼此相关。对于每个上下文窗口框架w,具有特定候选标签CLabelj的有歧义的命名实体的得分可根据公式1来计算:

特定概念窗口框架w中的命名实体的新得分和标签可通过公式2和公式3确定:

因为有歧义的命名实体ANE可根据其框架大小属于不同的概念窗口,所以利用常识知识的消歧系统可在所有包括的窗口框架上评估具有选定标签CLabel的该实体的最终得分为其最高返回得分。因此,用于实体的新标签可根据公式4确定:

Label(ANE)=arg maxscore(ANE,CLabel)W

W=l-W

例如,从图15中,假设“汤姆·汉克斯”在第二窗口1204中分配有具有0.9823得分的人物标签,而针对第三窗口1206标签和得分分别是男演员和0.9985。于是,实体“汤姆·汉克斯”将获得作为男演员的新标签。

图15示出根据本公开消歧过程的预料输出的示例。图15所示的消歧过程的输出的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

如图15所示,利用常识知识的消歧系统可提供消歧过程的输出,在消歧过程中,可向预先确定的命名实体分配更多正确的标签,并且针对不明确实体创建新标签。在这种情况中,“阿波罗13号”分配有标签“电影标题。”

在某些实施方式中,为了使具有其最接近新标签的实体的得分最大化,利用常识知识的消歧系统在计算期间执行不同的方法以灵活地改变参数。

在步骤1130中,利用常识知识的消歧系统输出具有经消歧的命名实体的文本。

本发明的某些实施方式适于在现有自动语言识别(ASR)系统的输出过程中精确地检测错误的片段。通常,因为大部分用户输入获得正确的翻译,所以ASR输出中的错误可被限制为少量输出片段。其结果是,对于校正仅仅本质上错误的那些片段可能有益。因此,识别ASR输出的错误部分对于精确地校正和恢复用户输入而言是至关重要的。以下系统设计成与配置有正确的声学和语言模型的ASR系统一起工作。

ASR系统可输出用户输入的多个假设(替代方案)。本公开使用这些多个假设中提出的信息来识别输出中的错误片段。因为每个假设可以是同一用户输入的翻译,所以来自ASR系统的所有假设可几乎等同。然而,它们可以仅仅在ASR关于用户输入不确定的区域中不同。本公开的实施方式识别这些不确定区域,在不确定区域处,所述假设可通过执行假设的最佳对齐而不同。虽然可能能够在多项式时间中构建一对假设(n=2)的最佳对齐,但是可能无法在多项式时间中构建多个假设(n>2)的最佳对齐,因为这是NP难题。其结果是,针对ASR输出中的对齐假设(aligning hypotheses),专门研发成用于构建生物序列的多个对齐的程序可能合适。为了使用针对生物序列而开发的多重序列对齐程序,可针对给定语言中的字符构建给出替换、插入和删除的代价的替换矩阵。某些实施方式还包括用于自动从数据中学习这些替换矩阵的方法。接着,可计算表明每个对齐中每个位置中占用的所有字符的共有序列。具有多个字符的共有序列中的位置可表示不确定或错误区域。然后,可通过辨识所有这些单词来识别共有(consensus)序列中由具有不同字符的位置构成的不正确区域。

在某些实施方式中,替换矩阵构造成使得:具有相似拼写的单词的替换方案妨碍对ASR输出中拼法错误做出解释。在某些实施方式中,本文描述的系统和方法还用于对不完整或不正确拼写的单词(如“textlish”)进行对齐,从而检测区域或错误匹配或不确定性。在某些实施方式中,如果两个单词之间的相似性高于给定阈值,则它们的替换得分被视为0,诸如如果对齐程序将这些单词对齐在一起则不存在妨碍。

在某些实施方式中,检测单词边界,并且作为如与各个字符相反地进行对齐的不可分割单元处理各个单词。

在某些实施方式中,使用如Soundex或Double Metaphone的编码将起始假设中的文本转换为其相应语音编码,并且所形成的音素被对齐。在某些实施方式中,发音相似的单词通常彼此对齐。替换矩阵构造成使得不存在对发音相似的单词进行对齐的妨碍(penalty)。

在某些实施方式中,当域中(in-domain)数据对于训练n-gram语言模型可用时,对不确定单词计分以估计错误的量。如使用n-gram语言模型(n>=2)所计算的那样,基于概率及不确定单词的上下文(左侧和右侧的单词或者n-grams)对不确定单词计分。为了获得精确得分,较大的n可使用大量的训练数据以及有效的平滑。

本公开的某些实施方式用于任何语言的字符给定集合中检测错误匹配的区域。相应地修改用于对齐程序的替换矩阵。

本发明的某些实施方式适合于精确地检测任何现有ASR系统的输出中的错误片段的系统和方法。通常,ASR输出中的错误可限于少量输出片段,因为大部分用户输入获得正确的翻译。其结果是,仅仅校正本质上错误的那些片段可能有益。因此,识别ASR输出的不正确部分对于精确地校正和恢复用户输入可能是至关重要的。

ASR系统可输出用户输入的多个假设。本公开的实施方式使用这些多个假设中提出的信息来识别输出中的错误片段。由于每个假设可能是同一用户输入的翻译,所以来自ASR系统的所有假设可能几乎等同。然而,它们仅在ASR关于用户输入是不确定的区域可能不同。

考虑以下示例(“示例1”)。用户输入:“I want to watch Seinfeld(我想看宋飞正传)”。ASR输出:假设1:“I want too watch Seinfeld”,假设2:“I want to wash Seinfeld”和假设3:“I want two watch Seinfeld”。在该示例中,因为在ASR输出中单词位置3和单词位置4中的假设可能不同,所以可能能够推导出ASR系统在正确地翻译与这些位置对应的用户输入中存在问题。然而,因为在全部假设中针对剩余位置的翻译输出可相同,所以可表明这些区域中的正确翻译的较高概率。在将它们与输出中的剩余假设进行比较之后,仅给定假设中的不确定区域可被识别。在没有比较的情况下,可能不会始终能够识别这些错误片段。因为片段“too watch”和“two watch”在语法上不是正确的,所以可能不难检测假设1和假设3中的错误。然而,由于假设2中的片段“to wash”在语法本身上是正确的,所以在不与其它片段进行比较的情况下可能不会被识别为错误片段。该示例表明,ASR输出的多个假设中可存在有用的信息,这些信息可有效地用于检测错误。

本公开的实施方式举例说明用于检测ASR输出中的错误的系统和方法。图16示出根据本公开多个假设对齐的示例性方法1600。图16所示的过程1600的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

在步骤1605中,系统,诸如客户端设备中的系统处理器,利用如Soundex或Double Metaphone的语音编码将ASR假设转换为其相应音素。到音素的转换对于将如“friend(朋友)”和“fringe(边缘)”的单词对齐在一起可能有用,在将原始文本用于对齐时这不会获得对齐。转变步骤还可帮助将如“cnn”和“seen(看)”的单词对齐在一起。将文本输出转换为用于后续对齐的相应音素可以是所提出公开的新颖性之一。

在某些实施方式中,跳过步骤1605,并且该方法转到利用相应文本对假设进行对齐。例如,如“we(我们)”和“wii”的单词在没有被转换成其相应音素时可更好地对齐。

在步骤1610中,系统,诸如客户端设备中的系统处理器,生成音素或原始文本的最佳对齐,使得需要最少数量的编辑或改变来将一个假设转换为另一个。包括空空间的每个单独字符/音素可作为用于对齐的不可分割单元被处理。通过优化Levenshtein距离,可使用动态编程获得一对字符串的最佳对齐。对于包括文本或音素字符的三个或更多个字符串的最佳对齐,可能不存在在多项式时间中运行的确切程序,因为存在NP难题。该问题可通过改编多重序列对齐(MSA)程序使用组合问题来解决,其中所述多重序列对齐(MSA)程序专门开发成用于将多重生物序列对齐。本公开的某些实施方式改编用于将ASR假设有效地对齐的MSA程序。具体地,可相应地构建由用于将一个字符替换为另一字符的得分构成的替代矩阵。替换矩阵可从由一对用户输入和相应的ASR翻译构成的训练集合习得。本公开的某些实施方式举例说明,系统(诸如客户端设备中的系统处理器)可在没有用户介入的情况下学习替换矩阵。换言之,系统(诸如客户端设备中的系统处理器)配置为自动地学习替换矩阵。图17示出根据本公开的示例性最佳对齐。图18示出根据本公开针对不同示例的对应音素的示例性对齐。图17和图18所示的对齐的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。本公开的实施方式也支持在对齐中插入和删除字符。

图19示出根据本公开其中使用单词作为用于对齐目的的不可分割单元的示例性最佳对齐。图19所示的对齐的实施方式仅仅是例证。在不脱离本公开的范围的情况下,可使用其它实施方式。

在某些实施方式中,既对原始的文本又对其相应音素执行对齐。

在某些实施方式中,检测单词的边界并且将各个单词作为用于对齐的不可分割单元进行处理。

在某些实施方式中,通过对不同对假设执行多重成对对齐来将假设对齐,然后可交替地将它们对齐。

在步骤1615中,系统(诸如客户端设备中的系统处理器)从对齐中构造共有序列。共有序列中的每个位置可在对齐中展示该位置处呈现的所有字符。接着,系统(诸如客户端设备中的系统处理器)分析共有序列以识别假设中的不确定区域。共有序列中具有单个字符或音素的位置可表明,在ASR输出中所有假设中的该位置处呈现相同字符。其结果是,ASR可确信在该位置处相应用户输入的翻译。可替代地,共有序列中具有多个音素或字符的位置可表示在翻译用户输入过程中的可变性。这些位置可被标记成不确定的,并且相应的单词可标记成用于校正。

在某些实施方式中,可从原始的文本以及相应音素中获得对齐作为该步骤的输入。共有序列可针对两种对齐进行构造,并且可从两个序列中检测不确定区域。可保持从两个对齐中检测的所有独特不确定序列,而丢弃重复的。

当域内数据可用时,系统(诸如客户端设备中的系统处理器)继续步骤1620,以对在先前步骤中检测到的不确定单词计分。在步骤1615中,系统(诸如客户端设备中的系统处理器)可在ASR输出中检测若干可能不正确的单词。为了按照重要性的顺序对这些单词排名,本文公开的系统和方法可针对每个候选单词计算代表不确定性的得分。该得分可使用在与谷歌N-Gram语料库(corpus)或微软N-Gram语料库相似的域内语料库上训练的n-gram模型来计算。n-gram模型可给出观察语料库中的候选单词的概率。“n”值可以是2或者更多。较大的n可使用大量训练数据以及用于精确概率(probability)计算的有效平滑技术。本公开还支持计算单词的上下文以及概率。本质上,n-gram概率可通过包括候选单词之前和之后的单词或n-grams以及单词本身来计算。对于以上示例中的不确定单词“wash(洗)”和“watch(手表)”,n-gram概率可计算出“too watch Seinfelf”、“to wash Seinfeld”和“two watch Seinfeld。”具有下级概率的候选短语较不可能在训练语料库中看见,因此更有可能是不正确的。其结果是,候选短语可放置在输出的不确定片段列表的顶部。得分列表可按概率得分的升序分类。在某些实施方式中,可使用不同的得分技术(如使用统计语法分析器)来对候选单词计分。

本公开的实施方式提供用于学习替换矩阵的系统和方法。本公开的某些实施方式举例说明,系统(诸如客户端设备中的系统处理器)可在没有用户介入的情况下学习替换矩阵。换言之,系统(诸如客户端设备中的系统处理器)配置为自动学习替换矩阵。在上面描述的系统用于检测ASR输出中的错误之前,可利用训练数据构建替换矩阵。用于学习替换矩阵的训练数据可由通向ASR系统的用户输入和相应ASR输出构成。对于每个用户输入,可创建由用户输入和每个ASR输出构成的训练对。然后,可将这些训练对作为输出给予学习系统以学习替换矩阵。系统可学习三种不同的替换矩阵:第一种用于替换各个字符;第二种用于替换音素;以及第三种用于替换单词。

对于每个训练对,学习系统可构造配对中句子的基于字符的成对对齐。对于每对字符(char1、char2),系统可横跨所有训练对计算char1与char2(char1和char2可相同)对齐的次数。空格和删除还可作为单独的对齐单元处理。然后,系统(诸如客户端设备中的系统处理器)可横跨所有训练对通过可见(对齐)的char1的总次数将这些计数标准化。系统还可横跨所有训练对构造基于音素的成对的训练对对齐并且可计算每个音素和另一个(包括它本身)对齐的次数,以及可相应地将该计数标准化。系统可适当地将这些计数保存为矩阵。由于这些矩阵可以是对称的,诸如得分(unit1、unit2)与得分(unit2、unit1)相同,所以仅可保存矩阵的上三角和下三角。

虽然利用示例性实施方式描述了本公开,但是本领域技术人员可得到各种变型和修改的启示。本公开旨在涵盖这些变型和修改,因为其落入所附权利要求的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1