在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统与流程

文档序号：12142072阅读：来源：国知局

技术特征：

1.一种鲁棒的命名实体标记系统，所述系统能够不考虑来源错误或翻译错误识别通信源的预期含义，所述系统包括：

存储设备，配置为存储从多个来源采集的多个命名实体，其中，所述命名实体中的每一个被令牌化为通用格式的命名实体令牌，所述命名实体中的每一个与标签关联，以及所述命名实体令牌中的每一个是单词或单词音节中的一种；以及

标记装置，配置为：

接收一个或多个文本通信，

识别所述一个或多个文本通信中的每一个，

将所述一个或多个文本通信令牌化为通用格式的文本令牌，

将所述一个或多个文本令牌与所述存储设备中所存储的所述命名实体令牌中的一个或多个进行匹配，以将所述文本令牌分配给与所述命名实体令牌关联的标签，

基于所述文本令牌与所述命名实体令牌之间的匹配对所述一个或多个文本通信进行标记，以识别所述一个或多个文本通信中的每一个的预期含义，以及

基于对所述一个或多个文本通信应用标记，识别所述一个或多个文本通信的预期含义。

2.如权利要求1所述的系统，其中，所述命名实体包括对象名称、与对象或人物关联的名称、与对象或人物关联的专有名称、标题、短语中的至少一个以及其组合。

3.如权利要求1所述的系统，其中，所述标记装置配置为：对所述一个或多个文本通信应用所述标记以校正文本错误。

4.如权利要求1所述的系统，其中所述标记装置配置为：当在前缀树中被相继遍历的节点处进行比较时，利用惯用相似性测量来对所述前缀树使用束遍历，以将所述一个或多个文本通信与存储在所述存储设备中的一个或多个命名实体匹配，其中所述束遍历具有可配置大小的部分解集。

5.如权利要求4所述的系统，其中所述部分解集包括有限大小。

6.如权利要求1所述的系统，其中所述标记装置配置为：对与所述一个或多个文本令牌匹配的一个或多个命名实体中的至少一个进行部分地消歧，以确保能够从所述一个或多个命名实体的整个集合中选择所述一个或多个命名实体的具有高可信度的子集。

7.如权利要求1所述的系统，其中所述标记装置配置为：通过滤除与所述一个或多个文本令牌相匹配的一个或多个命名实体中匹配检测具有最低可信度的至少一个命名实体，来对所述一个或多个命名实体中的至少一个进行消歧。

8.如权利要求1所述的系统，其中所述标记装置配置为：通过对与所述一个或多个文本令牌相匹配的一个或多个命名实体中的至少两个的可信度级别进行排名，来对与所述一个或多个文本令牌相匹配的所述一个或多个命名实体中的至少一个进行部分消歧。

9.一种在鲁棒的命名实体标记系统中使用的方法，所述方法能够不考虑来源错误或翻译错误识别通信源的预期含义，所述方法包括：

通过标记装置接收一个或多个文本通信；

识别所述一个或多个文本通信中的每一个；

将所述一个或多个文本通信令牌化为通用格式的文本令牌；

将所述一个或多个文本令牌与所述存储设备中所存储的一个或多个命名实体令牌匹配，以将所述文本令牌分配给与所述命名实体令牌关联的标签，以及其中所述一个或多个命名实体中的每一个与标签关联；

基于所述文本令牌与所述命名实体令牌之间的匹配对所述一个或多个文本通信进行标记，以识别所述一个或多个文本通信中的每一个的预期含义；以及

基于对所述一个或多个文本通信应用标记，识别所述一个或多个文本通信的预期含义。

10.如权利要求9所述的方法，其中所述命名实体包括对象名称、与对象或人物关联的名称、与对象或人物关联的专有名称、标题、短语中的至少一个及其组合。

11.如权利要求9所述的方法，还包括：对所述一个或多个文本通信应用所述标记以校正文本错误。

12.如权利要求9所述的方法，还包括：当在前缀树中被相继遍历的节点处进行比较时，利用惯用相似性测量来对所述前缀树使用束遍历，以将所述一个或多个文本通信与存储在所述存储设备中的一个或多个命名实体匹配，其中所述束遍历具有可配置大小的部分解集。

13.如权利要求12所述的方法，其中所述部分解集包括有限大小。

14.如权利要求9所述的方法，还包括：对与所述一个或多个文本令牌匹配的所述一个或多个命名实体中的至少一个进行部分地消歧，以确保能够从一个或多个命名实体的整个集合中选择所述一个或多个命名实体的具有高可信度的子集。

15.如权利要求9所述的方法，还包括：通过滤除与所述一个或多个文本令牌相匹配的一个或多个命名实体中匹配检测具有所述最低可信度的至少一个命名实体，来对所述一个或多个命名实体中的至少一个进行消歧。

16.如权利要求9所述的方法，还包括：通过对与所述一个或多个文本令牌相匹配的所述一个或多个命名实体中的至少两个的可信度级别进行排名，来对与所述一个或多个文本令牌相匹配的所述一个或多个命名实体中的至少一个进行部分消歧。

17.能够对命名实体消歧的方法，所述方法用于电子设备中，所述方法包括以下步骤：

通过电子设备接收文本通信，其中所述文本通信包括一个或多个命名实体；

将与所述一个或多个命名实体关联的概念组合，以从知识库中提取相关信息；

由从所述知识库中提取的相关信息推理出相关信息；

针对所述一个或多个命名实体，计算所推理的相关知识并对所述相关知识排名；以及

针对所述一个或多个命名实体中的每一个，基于所推理的相关知识的最高排名来识别最相关的标签。

18.如权利要求17所述的方法，其中所述文本通信包括一个或多个有歧义实体。

19.如权利要求17所述的方法，其中对所述文本通信进行预处理，以去除停止词和标点。

20.如权利要求17所述的方法，其中计算所推理的相关知识并对所述相关知识排名包括基于以下函数计算得分：

$<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <msub> <mrow> <mo>(</mo> <mi>A</mi> <mi>N</mi> <mi>E</mi> <mo>,</mo> <msub> <mi>CLabel</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>w</mi> </msub> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>C</mi> <mo>,</mo> <mi>L</mi> </mrow> </munderover> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>_</mo> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>KA</mi> <mrow> <msub> <mi>concepts</mi> <mi>i</mi> </msub> <mo>,</mo> </mrow> </msub> <msub> <mi>KA</mi> <mrow> <msub> <mi>CLabel</mi> <mi>j</mi> </msub> </mrow> </msub> <mo>)</mo> </mrow> </mrow>$

其中，(ANE)表示有歧义命名实体；(CLabel)表示标签候选；以及(KA)表示知识断言。

完整全部详细技术资料下载

当前第2页1 2 3