一种用于全媒体审读的文本相似度比对方法及装置与流程

文档序号:26705687发布日期:2021-09-18 03:54阅读:来源:国知局

技术特征:
1.一种用于全媒体审读的文本相似度比对方法,其特征在于,包括:根据预先配置的词库生成模式串,对所述模式串执行分组操作,以便生成第一模式串数组和第二模式串数组;其中,每个所述模式串对应词库中的一个关键词;基于所述第一模式串数组和第二模式串数组,利用预先配置的字符串匹配算法执行匹配操作,确定与所述关键词相匹配的待比对文本;在基于所述待比对文本进行全媒体审读时,将所述待比对文本以及所述待比对文本对应的关键词作为参数,利用文本相似度算法对所述待比对文本进行相似度比对。2.根据权利要求1所述的方法,其特征在于,在所述根据预先配置的词库生成模式串之前,还包括:获取多个待比对文本,从所述待比对文本中提取出关键词并形成第一关键词集合;根据预先存储的关键词生成第二关键词集合,基于所述第一关键词集合和第二关键词集合生成词库;其中,所述关键词中包含至少一个字符。3.根据权利要求1所述的方法,其特征在于,所述根据预先配置的词库生成模式串,包括:获取所述词库中的关键词,将所述词库中的每一个关键词对应的字符串作为一个模式串。4.根据权利要求1所述的方法,其特征在于,所述对所述模式串执行分组操作,以便生成第一模式串数组和第二模式串数组,包括:根据所述模式串所对应的字符个数,对所述模式串执行分组操作,具体地,当所述模式串所对应的字符个数小于或等于预设阈值时,将所述模式串存储到第一模式串数组中;当所述模式串所对应的字符个数大于预设阈值时,将所述模式串存储到第二模式串数组中。5.根据权利要求4所述的方法,其特征在于,所述字符串匹配算法采用wm多模式匹配算法;所述基于所述第一模式串数组和第二模式串数组,利用预先配置的字符串匹配算法执行匹配操作,包括:对所述第一模式串数组和第二模式串数组所组成的模式串集合进行预处理,得到第一位移表、第二位移表、哈希表和前缀表;根据所述第一位移表、所述第二位移表、所述哈希表和所述前缀表,将所述模式串与所述待比对文本中的字符串逐一进行匹配;根据匹配结果确定与所述待比对文本中的字符串相匹配的一个或多个模式串。6.根据权利要求5所述的方法,其特征在于,还包括:将所述第一模式串数组中的最后两个字符去除后构建得到所述第一位移表;在将所述模式串与所述待比对文本中的字符串逐一进行匹配时,将所述待比对文本中的每两个字符与所述第一模式串数组中的模式串进行比较。7.根据权利要求1所述的方法,其特征在于,所述文本相似度算法采用海明码算法;所述将所述待比对文本以及所述待比对文本对应的关键词作为参数,利用文本相似度算法对所述待比对文本进行相似度比对,包括:
对所述待比对文本进行分词,并对分词后的结果进行过滤,得到过滤后的分词;根据预设的权重规则为所述过滤后的分词以及所述关键词添加权重,并基于添加权重后的所述过滤后的分词和关键词计算两个待比对文本之间的海明距离,根据所述海明距离判断所述待比对文本之间的相似度。8.一种用于全媒体审读的文本相似度比对装置,其特征在于,包括:分组模块,被配置为根据预先配置的词库生成模式串,对所述模式串执行分组操作,以便生成第一模式串数组和第二模式串数组;其中,每个所述模式串对应词库中的一个关键词;匹配模块,被配置为基于所述第一模式串数组和第二模式串数组,利用预先配置的字符串匹配算法执行匹配操作,确定与所述关键词相匹配的待比对文本;比对模块,被配置为在基于所述待比对文本进行全媒体审读时,将所述待比对文本以及所述待比对文本对应的关键词作为参数,利用文本相似度算法对所述待比对文本进行相似度比对。9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本公开涉及数据处理技术领域,提供了一种用于全媒体审读的文本相似度比对方法及装置。该方法包括:根据预先配置的词库生成模式串,对模式串执行分组操作,以便生成第一模式串数组和第二模式串数组;其中,每个模式串对应词库中的一个关键词;基于第一模式串数组和第二模式串数组,利用预先配置的字符串匹配算法执行匹配操作,确定与关键词相匹配的待比对文本;在基于待比对文本进行全媒体审读时,将待比对文本以及待比对文本对应的关键词作为参数,利用文本相似度算法对待比对文本进行相似度比对。本公开能够提升文本相似度比对过程中文本匹配的效率,提高文本相似度比对结果的准确性。确性。确性。


技术研发人员:李腾飞 王理瑞 田新胜 王见 王丽萍 张旗 郭宏志
受保护的技术使用者:科技日报社
技术研发日:2021.06.17
技术公布日:2021/9/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1