文本内容校验方法、装置、电子设备及存储介质与流程

文档序号:29034282发布日期:2022-02-25 17:10阅读:来源:国知局

技术特征:
1.一种文本内容校验方法,其特征在于,包括:获取目标文本的首字,并将所述首字作为当前文字;基于预先构建的黑名单状态转移树和白名单状态转移树,确定与所述当前文字相对应的根节点命中结果;基于所述根节点命中结果,确定当前文字的下一文字的目标处理方式,并基于所述目标处理方式确定所述下一文字的命中结果;根据所述目标文本中各文字的命中结果,确定所述目标文本的校验结果。2.根据权利要求1所述的方法,其特征在于,所述基于预先构建的黑名单状态转移树和白名单状态转移树,确定与所述当前文字相对应的根节点命中结果,包括:根据黑名单状态转移树和白名单状态转移树中的根节点所对应的目标文字,确定与所述当前文字相匹配的目标根节点,并将所述目标根节点作为所述当前文字的根节点命中结果。3.根据权利要求2所述的方法,其特征在于,还包括:若所述黑名单状态转移树和所述白名单状态转移树中的根节点中不包括所述当前文字,则获取当前文字的下一文字,并将所述下一文字作为所述当前文字。4.根据权利要求2所述的方法,其特征在于,所述基于所述根节点命中结果,确定当前文字的下一文字的目标处理方式,并基于所述目标处理方式确定所述下一文字的命中结果,包括:若所述根节点命中结果为黑名单状态转移树或白名单状态转移树中的任一目标根节点,则获取所述当前文字的下一文字,并将所述目标根节点标记为已匹配状态;若从所述目标根节点所属的状态转移树相对应的另一状态转移树中匹配到与所述下一文字对应的待标记根节点,且从所述已匹配状态的目标根节点相关联的下一层级中匹配到待标记叶子节点,则将所述待标记根节点和所述待标记叶子节点作为所述下一文字的命中结果,并将所述待标记根节点和所述待标记叶子节点标记为已匹配状态,以在获取到所述下一文字的下一文字时,从各状态转移树中节点标记为已匹配状态且深度值最大的节点开始确定所述下一文字的命中结果。5.根据权利要求4所述的方法,其特征在于,在所述若所述根节点命中结果为黑名单状态转移树或白名单状态转移树中的任一目标根节点,则获取所述当前文字的下一文字,并将所述目标根节点标记为已匹配状态之后,还包括:若从所述目标根节点所属的状态转移树相对应的另一状态转移树中未匹配到与所述下一文字对应的待标记根节点,或未从所述已匹配状态的目标根节点相关联的下一层级中匹配到待标记叶子节点,则所述下一文字的命中结果为未命中,将所述目标根节点的状态从已匹配状态更新为空闲状态,以在获取所述下一文字的下一文字时,从各状态转移树的根节点开始匹配。6.根据权利要求4或5所述的方法,其特征在于,在获取所述下一文字的下一文字时,所述方法还包括:针对各状态转移树,若存在节点的标记为已匹配状态,则从所述已匹配状态且深度值最大的目标叶子节点处开始确定与所述目标叶子节点相关联的下一层级中是否包括所述下一文字;
若是,则将与所述下一文字相同的待标记叶子节点标记为已匹配状态;若否,则将所述目标叶子节点的上一层级直至所述目标根节点的已匹配状态更新为空闲状态。7.根据权利要求4或5所述的方法,其特征在于,在获取所述下一文字的下一文字时,所述方法还包括:若检测到各节点的标记均为空闲状态,则确定所述黑名单状态转移树和所述白名单状态转移树的根节点中是否包括所述下一文字,并将与所述下一文字相同的目标根节点标记为已匹配状态。8.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中各文字的命中结果,确定所述目标文本的校验结果,包括:若检测到当前文字所对应的叶子节点为所述黑名单状态转移树的最后一个叶子节点且为所述白名单状态转移树的待标记叶子节点,则获取所述当前文字的下一文字,并将所述待标记叶子节点标记为已匹配状态;若所述白名单状态转移树中,与深度值最大且处于已匹配状态的叶子节点相关联的下一层级的叶子节点中存在与所述下一文字相对应的目标文字时,则所述目标文本中与所述白名单状态转移树的节点命中的连续字符为白名单文本。9.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中各文字的命中结果,确定所述目标文本的校验结果,包括:若检测到当前文字所对应的叶子节点为所述白名单状态转移树的最后一个叶子节点且为所述白名单状态转移树的待标记叶子节点,则获取所述当前文字的下一文字,并将所述待标记叶子节点标记为已匹配状态;若所述黑名单状态转移树中,与深度值最大且处于已匹配状态的叶子节点相关联的下一层级的叶子节点中存在与所述下一文字相对应的目标文字时,则所述目标文本中与所述黑名单状态转移树命中的连续字符为黑名单文本。10.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中各文字的命中结果,确定所述目标文本的校验结果,包括:若检测到当前文字所对应的叶子节点为所述黑名单状态转移树的最后一个叶子节点且为所述白名单状态转移树的待标记叶子节点,则获取所述当前文字的下一文字,并将所述待标记叶子节点标记为已匹配状态;若所述白名单状态转移树中,与深度值最大且处于已匹配状态的叶子节点相关联的下一层级的叶子节点中不存在与所述下一文字相对应的目标文字时,则所述目标文本中与所述黑名单状态转移树命中的连续字符为黑名单文本,并将所述白名单状态转移树中各节点标记为已匹配状态更新为空闲状态;或,若检测到当前文字所对应的叶子节点为所述白名单状态转移树的最后一个叶子节点且为所述黑名单状态转移树的待标记叶子节点,则获取所述当前文字的下一文字,并将所述待标记叶子节点标记为已匹配状态;若所述白名单状态转移树中,与深度值最大且处于已匹配状态的叶子节点相关联的下一层级的叶子节点中不存在与所述下一文字相对应的目标文字时,则所述目标文本中与所述白名单状态转移树命中的连续字符为白名单文本,并将所述黑名单状态转移树中各标记为已匹配状态更新为空闲状态。11.一种文本内容校验装置,其特征在于,包括:
文字提取模块,用于获取目标文本的首字,并将所述首字作为当前文字;根节点匹配模块,用于基于预先构建的黑名单状态转移树和白名单状态转移树,确定与所述当前文字相对应的根节点命中结果;目标处理方式确定模块,用于基于所述根节点命中结果,确定当前文字的下一文字的目标处理方式,并基于所述目标处理方式确定所述下一文字的命中结果;校验结果确定模块,用于根据所述目标文本中各文字的命中结果,确定所述目标文本的校验结果。12.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的文本内容校验方法。13.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的文本内容校验方法。

技术总结
本发明公开了一种文本内容校验方法、装置、电子设备及存储介质,该方法包括:获取目标文本的首字,并将首字作为当前文字;基于预先构建的黑名单状态转移树和白名单状态转移树,确定与当前文字相对应的根节点命中结果;基于根节点命中结果,确定当前文字的下一文字的目标处理方式,并基于目标处理方式确定下一文字的命中结果;根据目标文本中各文字的命中结果,确定目标文本的校验结果。本发明实施例的技术方案,通过黑白名单词汇相互校验的方式,确定目标文本中的黑白名单词汇,提高了文本内容校验的准确性以及高效性的技术效果。容校验的准确性以及高效性的技术效果。容校验的准确性以及高效性的技术效果。


技术研发人员:肖翔 朱彬 张学理
受保护的技术使用者:北京京东世纪贸易有限公司
技术研发日:2021.01.29
技术公布日:2022/2/24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1