一种基于文法模板的实体抽取方法与流程

文档序号:12597360阅读:来源:国知局

技术特征:

1.一种基于文法模板的实体抽取方法,包括以下步骤:

定义带上下文的文法模板,使得所述文法模板之间能够相互引用并且支持正则表达式、普通字符、及其组合;

将所述文法模板中定义的每个文法转为文法树,针对所述文法树的结点的多个分支结点中的每一个进行匹配,找出其中消耗字符最多的一个分支结点作为最佳匹配;并且

根据文法模板的匹配结果进行类别过滤,以抽取所需的实体。

2.根据权利要求1所述的方法,还包括从入口文法开始匹配的以下步骤:

判断是否还有待匹配字符串,

如果没有,则匹配完成,如果有,则将待匹配字符串根据文法树进行匹配,

如果匹配失败,则将待匹配字符串移动一个字符并且重新执行上述步骤,

如果匹配成功,则将待匹配字符串设置为成功匹配后剩余的未匹配的字符串并且重新执行上述步骤。

3.根据权利要求2所述的方法,还包括从某个文法树开始匹配的以下步骤:

循环遍历文法树的每一个分支结点,并将待匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为匹配状态,

如果没有匹配成功的分支结点,则将所述匹配状态设置为失败状态,

退出并返回所述匹配状态。

4.根据权利要求3所述的方法,还包括在某个文法树的内部结点 开始匹配的以下步骤:

查看当前结点类型,根据不同结点类型分别进行匹配,并记录第一匹配状态,

如果第一匹配状态为失败状态,则退出并返回第一匹配状态,

如果当前结点还有待匹配的分支结点,则循环遍历当前结点的每一个分支结点,并将剩余的未匹配字符串根据各个分支结点分别进行匹配,记录其中匹配成功且剩余的未匹配字符串长度最短的作为第二匹配状态,如果所述当前结点没有待匹配的分支结点或分支结点均匹配失败,则直接将第二匹配状态设置为失败状态,

如果所述当前结点不为可结束结点,则当所述第二匹配状态为失败状态时,将所述第一匹配状态设置为失败状态,

如果所述第一匹配状态和所述第二匹配状态均成功,则将所述第一匹配状态设置为所述第二匹配状态,退出并返回第一匹配状态。

5.根据权利要求1-4的任一项所述的方法,其中能够实时地对所述文法树进行修改。

6.根据权利要求1-4的任一项所述的方法,其中根据文法模板的匹配结果进行类别过滤还包括指定其它的类别和指定不同的类别范围。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1