域特定的词汇驱动的预解析器的制作方法

文档序号：20361550发布日期：2020-04-10 23:43阅读：来源：国知局

技术特征：

1.一种方法，包括：

在设备的文本解析器处获得输入文本，所述文本解析器包括域特定的词汇驱动的预解析器和基于独立于域的规则的解析器；

在所述设备处识别所述输入文本中的第一词语；

在所述设备处访问词典数据以识别与所述第一词语对应的第一条目，所述第一条目包括核心数据和非核心数据，其中所述核心数据对应于所述第一词语的独立于域的词汇信息，并且其中所述非核心数据对应于所述第一词语的域特定的词汇信息；

在所述域特定的词汇驱动的预解析器处确定所述第一条目的所述非核心数据将所述输入文本中的第二词语识别为所述第一词语的修饰语；

在所述域特定的词汇驱动的预解析器处生成所述输入文本的部分解析和加括号的版本，其中所述部分解析和加括号的版本指示所述第二词语修饰所述输入文本中的所述第一词语；以及

在所述基于独立于域的规则的解析器处，基于所述输入文本的所述部分解析和加括号的版本来生成所述输入文本的解析版本。

2.根据权利要求1所述的方法，其中所述非核心数据基于对域特定语料库的分析。

3.根据权利要求1所述的方法，其中，所述非核心数据基于用户输入或共现统计数据中的至少一个，并且其中，所述共现统计数据是基于对域特定语料库的分析来生成的。

4.根据权利要求1所述的方法，其中所述第二词语包括形容词修饰语词语、介词修饰语词语或名词修饰语词语中的至少一个。

5.根据权利要求1的方法，其中所述输入文本的部分解析和加括号的版本是由所述域特定的词汇驱动的预解析器基于域特定的解析规则生成的。

6.根据权利要求5所述的方法，其中所述域特定的解析规则包括搭配规则、语素语义规则、基于名称实体的模式规则或语义句法模式规则中的至少一个。

7.根据权利要求1所述的方法，还包括在所述域特定的词汇驱动的预解析器处确定所述非核心数据将所述输入文本中的一个或多个第二特定词语识别为所述第一词语的一个或多个附加的域特定修饰语，其中所述部分解析和加括号的版本指示所述一个或多个第二特定词语修饰所述输入文本中的所述第一词语。

8.根据权利要求1所述的方法，还包括确定所述输入文本与第一域相关联，所述第一域与域特定语料库相关联。

9.根据权利要求8所述的方法，其中，所述非核心数据包括针对一个或多个附加域的所述第一词语的一个或多个附加修饰语词语，其中，所述第一域与所述一个或多个附加域中的每一个附加域不同。

10.根据权利要求9所述的方法，其中，所述第一域包括医学、工程、艺术、音乐、金融、石油和天然气、英语、法语、西班牙语或另一专业域中的至少一个，并且其中，所述附加域中的第二域包括医学、工程、艺术、音乐、金融、石油和天然气、英语、法语或西班牙语中的至少一个。

11.根据权利要求1所述的方法，其中所述基于独立于域的规则的解析器独立于域特定规则而生成所述输入文本的所述解析版本。

12.根据权利要求1所述的方法，其中，所述非核心数据基于共现统计数据或用户输入中的至少一个，并且其中，所述共现统计数据指示所述第二词语在域特定语料库中修饰所述第一词语的次数。

13.根据权利要求1所述的方法，其中对应于所述域特定的词汇驱动的预解析器的软件被提供为云计算环境中的服务。

14.一种用于域特定的解析的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序指令，所述程序指令能够由处理器执行以使所述处理器执行操作，所述操作包括：

在文本解析器处获得输入文本，所述文本解析器包括域特定的词汇驱动的预解析器和基于独立于域的规则的解析器；

识别输入文本中的第一词语；

访问词典数据以识别对应于所述第一词语的第一条目，所述第一条目包括核心数据和非核心数据，其中所述核心数据对应于所述第一词语的独立于域的词汇信息，并且其中所述非核心数据对应于所述第一词语的域特定的词汇信息；

在所述域特定的词汇驱动的预解析器处确定所述第一条目的所述非核心数据将所述输入文本中的第二词语识别为所述第一词语的修饰语；

在所述基于独立于域的规则的解析器处，基于所述输入文本的所述部分解析和加括号的版本来生成所述输入文本的解析版本。

15.根据权利要求14所述的计算机程序产品，其中所述基于独立于域的规则的解析器独立于域特定的规则而生成所述输入文本的解析版本。

16.一种系统，包括：

存储器，被配置为存储输入文本和词典数据；

处理器，所述处理器被配置为：

识别输入文本中的第一词语；以及

访问所述词典数据以识别与所述第一词语对应的第一条目，所述第一条目包括核心数据和非核心数据，其中所述核心数据对应于所述第一词语的独立于域的词汇信息，并且其中所述非核心数据对应于所述第一词语的域特定的词汇信息；

域特定的词汇驱动的预解析器，被配置成：

确定所述第一词语的所述非核心数据将所述输入文本中的第二词语识别为所述第一词语的修饰语；以及

生成所述输入文本的部分解析和加括号的版本，其中所述部分解析和加括号的版本指示所述第二词语修饰所述输入文本中的所述第一词语；以及

基于独立于域的规则的解析器，被配置为基于所述输入文本的所述部分解析和加括号的版本来生成所述输入文本的解析版本。

17.根据权利要求16所述的系统，其中，所述处理器被配置为基于对域特定语料库的分析来生成共现统计数据，其中，所述共现统计数据指示所述第二词语在所述域特定语料库中修饰所述第一词语的次数，并且其中，所述非核心数据基于用户输入或所述共现统计数据中的至少一个。

18.根据权利要求16所述的系统，其中所述第二词语包括形容词修饰语词语、介词修饰语词语或名词修饰语词语中的至少一个。

19.根据权利要求16所述的系统，其中所述输入文本的所述部分解析和加括号的版本是由所述域特定的词汇驱动的预解析器基于域特定的解析规则生成的。

20.根据权利要求19所述的系统，其中，所述域特定的解析规则包括搭配规则、语素语义规则、基于名称实体的模式规则或语义句法模式规则中的至少一个。

技术总结
一种方法包括：获得输入文本；识别输入文本中的第一词语；以及访问词典数据以识别与第一词语对应的第一条目。第一条目包括与第一词语的独立于域的词汇信息对应的核心数据，以及与第一词语的域特定的词汇信息对应的非核心数据。该方法还包括确定第一条目的非核心数据将输入文本中的第二词语识别为第一词语的修饰语。该方法还包括生成输入文本的部分解析和加括号的版本。部分解析和加括号的版本指示第二词语修饰输入文本中的第一词语。该方法还包括基于输入文本的部分解析和加括号的版本生成输入文本的解析版本。

技术研发人员：B·瑟加尔;B·博古拉艾维;E·曼安迪瑟
受保护的技术使用者：国际商业机器公司
技术研发日：2018.08.02
技术公布日：2020.04.10

完整全部详细技术资料下载

当前第2页1 2