用于消除非结构化文本中的特征的歧义的方法与流程

文档序号：11851472阅读：来源：国知局

技术特征：

1.一种方法，包括：

通过对内存数据库进行寄存的系统的节点搜索一组候选记录，以识别与一个或多个提取的特征匹配的一个或多个候选，其中，与候选匹配的提取的特征是初级特征；

通过所述节点使每个所述提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联；

基于主题ID的相关性，通过所述节点使每个所述初级特征相对于彼此消除歧义；

基于所述主题ID的相关性，通过所述节点来识别与每个初级特征关联的一组次级特征；

基于所述主题ID的相关性，通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义；

通过所述节点将每个初级特征链接到关联的所述一组次级特征，以形成新的集群；

通过所述节点确定所述新的集群是否与现存的知识库集群匹配，其中，

当匹配存在时，通过所述内存数据库服务器计算机的消除歧义模块来确定与所述知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新所述知识库集群以包括所述新的集群；以及

当匹配不存在时，通过所述节点创建新的知识库集群并给所述新的知识库集群的初级特征分配新的唯一ID；以及

通过所述节点传送用于初级特征的所述现存的唯一ID和所述新的唯一ID中的一个。

2.根据权利要求1所述的方法，进一步包括：通过所述节点将与提取的特征匹配的每个所述候选记录作比较；以及基于所述比较，通过所述节点给每个所述提取的特征分配加权的匹配分数结果。

3.根据权利要求2所述的方法，进一步包括：通过所述节点使每个所述提取的特征与一组加权的特征属性关联。

4.根据权利要求3所述的方法，进一步包括：基于一个或多个加权的特征属性，通过所述节点确定每个所述提取的特征的相关性。

5.根据权利要求1所述的方法，进一步包括：

通过所述节点的提取模块来识别和提取，其中，在一个或多个提取的特征中识别一个或多个初级特征；以及

通过所述节点的提取模块将每个所述提取的特征存储在数据库中。

6.根据权利要求5所述的方法，进一步包括：通过所述节点的提取模块给每个所述特征分配提取确定性分数。

7.根据权利要求1所述的方法，其中，每个初级特征与一组一个或多个特征属性关联。

8.根据权利要求7所述的方法，其中，特征属性选自由以下各项构成的组：主题ID、文档标识符(“文档ID”)、特征类型、特征名称、置信度分数以及特征位置。

9.根据权利要求1所述的方法，其中，每个关联的特征与根据预定集群层级的一组次序更低的特征关联。

10.根据权利要求1所述的方法，进一步包括：通过节点执行所述一组候选记录的模糊关键字搜索。

11.根据权利要求7所述的方法，进一步包括：基于相关的多个主题ID的共同出现以及一个或多个特征属性，通过所述节点的即时链接模块来链接两个或更多个数据源。

12.根据权利要求1所述的方法，进一步包括：

通过将一个数据源中的提取的特征与第二数据源中的特征作比较，通过所述节点确定所述一个数据源中的提取的特征是否共同出现在所述第二数据源中；以及

基于所述比较，通过所述节点链接每个数据源。

13.根据权利要求1所述的方法，进一步包括：通过所述节点分析来自多个不同数据源的提取的特征的共同出现，以提高对提取的特征进行消除歧义的准确度。

14.根据权利要求1所述的方法，进一步包括：

通过所述节点持续地接收一个或多个新的数据源；

通过所述节点持续地提取一个或多个提取的特征；

通过所述节点在所述一个或多个提取的特征上持续地执行候选搜索；

通过所述节点持续地消除所述提取的特征的歧义；以及

通过所述节点将所述提取的特征持续地链接到一个或多个新的集群中。

15.一种非暂时性计算机可读介质，其上存储有计算机可执行的指令，所述指令包括：

通过所述节点使每个所述提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联；

基于主题ID的相关性，通过所述节点使每个所述初级特征相对于彼此消除歧义；

基于所述主题ID的相关性，通过所述节点识别与每个初级特征关联的一组次级特征；

基于主题ID的相关性，通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义；

通过所述节点将每个初级特征链接到关联的所述一组次级特征，以形成新的集群；

通过所述节点确定所述新的集群是否与现存的知识库集群匹配，其中，

当匹配存在时，通过所述节点确定与所述知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新所述知识库集群以包括所述新的集群；以及

当匹配不存在时，创建新的知识库集群并给所述新的知识库集群的初级特征分配新的唯一ID；以及

通过所述节点传送用于所述初级特征的所述现存的唯一ID和所述新的唯一ID中的一个。

16.根据权利要求15所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点将与提取的特征匹配的每个所述候选记录作比较；以及基于所述比较，给每个所述提取的特征分配加权的匹配分数结果。

17.根据权利要求16所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点使每个所述提取的特征与一组加权的特征属性关联。

18.根据权利要求17所述的计算机可读介质，其中，所述指令进一步包括：基于一个或多个加权的特征属性，通过所述节点确定每个所述提取的特征的相关性。

19.根据权利要求15所述的计算机可读介质，其中，所述指令进一步包括：

通过所述节点的提取模块识别和提取一个或多个提取的特征，其中，在所述一个或多个提取的特征中识别一个或多个初级特征；以及

通过所述节点的提取模块将每个所述提取的特征存储在数据库中。

20.根据权利要求19所述的计算机可读介质，其中，所述指令进一步包括：通过所述节点的提取模块给每个所述特征分配提取确定性分数。

完整全部详细技术资料下载

当前第2页1 2 3