一种文书内容比对性能提升方法及系统与流程

文档序号:33159459发布日期:2023-02-04 00:20阅读:61来源:国知局
一种文书内容比对性能提升方法及系统与流程

1.本发明涉及信息处理技术领域,特别是涉及一种文书内容比对性能提升方法及系统。


背景技术:

2.随着互联网的发展和信息时代的到来,互联网已经成为人们沟通、交流的重要平台。互联网每天都会产生大量的信息资源,而据相关统计数据表明,互联网上近似重复的网页的数量占网页总数量的比例高达29%,在一个大型信息采集系统中,采集到的网页信息内容有大多数是完全重复或近似重复的,文本内容相似度计算技术在搜索引擎、自动问答、文档分类、新闻推送等常见应用场景中是必不可少的关键技术。
3.在对文书篇幅较长甚至达到几百页的长文本内容进行对比时,在对文本内容进行比对时,需要将大量文本信息进行提取压缩与匹配计算,基于全文字符组成的字符串进行逐字比对,但该方式的计算压力会随着字符串长度的增加呈指数增长,无法应对文书篇幅较长甚至达到几百页的长文本内容比对。为了减少长文本内容对比的计算量,现有技术大多采用基于关键词提取的方法和引入深度学习模型的方法。基于关键词提取的方法通过提取少量关键词或标题作为长文本的代表进行相似度计算,该方法虽然可以减少长文本内容对比的计算量,但是计算结果依赖于少数几个关键词,损失了大量的语义信息,鲁棒性较差。基于深度学习模型的方法使用深度学习模型对全文进行编码后计算其相似度。但现有的深度学习模型限制了文本的输入长度,只能在长度为数百个词以内的文本序列上取得较好的编码效果。而类似书本这样的长文本经常有数万字甚至数十万字,在采用深度学习模型时由于存在输入长度限制,需要对文本进行分割,而以长度作为文本的划分依据,该突兀的文本分割方式会引入大量的数据偏见,不利于相似度判别结果。


技术实现要素:

4.本技术提供了一种文书内容比对性能提升方法及系统,用于提高文本内容比对的准确性和便捷性。
5.第一方面,本技术提供了一种文书内容比对性能提升方法,包括:根据待比对文档的目录结构将所述待比对文档分为若干内容块;根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵;将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进
行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果。
6.这样,根据待比对文档的目录结构分为若干内容块,避免单纯以长度进行文本划分带来的数据偏见。进一步的,根据预设分词规则对内容块下的每一句子进行过滤分词,在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。将每一内容块作为父节点,内容块下的每一句子作为子节点,形成待比对文档的树状结构图,依次生成各个内容块的关键词数据集和待比对文档的全局语义特征向量,保留文本间的语义信息,增加鲁棒性。基于待比对文档的全局语义特征向量构建与匹配文档的相似度矩阵后再将该相似度矩阵输入至预设的网络模型,可以有效利用网络模型的深度学习和特征聚合能力,提高近似度比对结果的准确性。且,由于预先对待比对文档和匹配文档的文本交互关系进行处理,网络模型不需要对全部的文本数据进行比编码,减少了模型的数据处理压力,可以提升近似度比对的处理速度。
7.在一种实现方式中,所述根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。
8.在一种实现方式中,所述以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。
9.在一种实现方式中,所述以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至bilstm模型,以使所述bilstm模型输出具备上下文信息的全局语义特征向量。
10.在一种实现方式中,所述基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配文档的特征向量;
根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特征向量和所述匹配文档的特征向量分别作为横轴和纵轴,以所述相似度数据作为所述相似度矩阵的值构建所述相似度矩阵。
11.在一种实现方式中,所述将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果,具体包括:基于预设卷积网络对所述相似度矩阵进行卷积处理,生成所述相似度矩阵对应的初始特征矩阵;基于预设维度的池化网络对所述初始特征矩阵进行池化处理,生成固定大小的特征矩阵;基于预设多层感知机网络对所述固定大小的特征矩阵进行转化,输出所述待比对文档与所述匹配文档的相似度比对结果。
12.在一种实现方式中,在所述选取预设排名范围内的句子后,还包括:选取预设排名范围内的句子并将句子中的每一词向量输入至lda模型进行主题聚合训练;其中,所述lda模型根据所述待比对文档对应的主题,在所述主题下获取与所述词向量相同数量的词,并对每一词的概率值进行归一化计算,生成每一所述词的权重信息;将所述词向量与所述权重信息进行加权求和,生成所述内容块的关键数据集。
13.第二方面,本技术还提供一种文书内容比对性能提升系统,包括内容划分模块、句子分词模块、第一算法模块、第二算法模块、矩阵生成模块和相似比对模块,具体为:所述内容划分模块用于根据待比对文档的目录结构将所述待比对文档分为若干内容块;所述句子分词模块用于根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;所述第一算法模块用于以每一句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;所述第二算法模块用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;所述矩阵生成模块用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;所述相似比对模块用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量。
14.本技术提供一种文书内容比对性能提升系统,根据待比对文档的目录结构分为若干内容块,避免单纯以长度进行文本划分带来的数据偏见。进一步的,根据预设分词规则对内容块下的每一句子进行过滤分词,在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。将每一内容块作为父节点,内容块下的每一句子作为子节点,形成待比对文档的树状结构图,依次生成各个内容块的关键词数据集和待比对文档的全局语义特征向量,保留文本间的语义信息,增加鲁
棒性。基于待比对文档的全局语义特征向量构建与匹配文档的相似度矩阵后再将该相似度矩阵输入至预设的网络模型,可以有效利用网络模型的深度学习和特征聚合能力,提高近似度比对结果的准确性。且,由于预先对待比对文档和匹配文档的文本交互关系进行处理,网络模型不需要对全部的文本数据进行比编码,减少了模型的数据处理压力,可以提升近似度比对的处理速度。
15.在一种实现方式中,句子分词模块用于根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。
16.在一种实现方式中,所述第一算法模块用于以每一句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。
17.在一种实现方式中,所述第二算法模块用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至bilstm模型,以使所述bilstm模型输出具备上下文信息的全局语义特征向量。
18.在一种实现方式中,所述矩阵生成模块用于基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配文档的特征向量;根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特征向量和所述匹配文档的特征向量分别作为横轴和纵轴,以所述相似度数据作为所述相似度矩阵的值构建所述相似度矩阵。
19.在一种实现方式中,所述相似比对模块用于将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果,具体包括:
基于预设卷积网络对所述相似度矩阵进行卷积处理,生成所述相似度矩阵对应的初始特征矩阵;基于预设维度的池化网络对所述初始特征矩阵进行池化处理,生成固定大小的特征矩阵;基于预设多层感知机网络对所述固定大小的特征矩阵进行转化,输出所述待比对文档与所述匹配文档的相似度比对结果。
20.在一种实现方式中,在所述选取预设排名范围内的句子后,还包括:选取预设排名范围内的句子并将句子中的每一词向量输入至lda模型进行主题聚合训练;其中,所述lda模型根据所述待比对文档对应的主题,在所述主题下获取与所述词向量相同数量的词,并对每一词的概率值进行归一化计算,生成每一所述词的权重信息;将所述词向量与所述权重信息进行加权求和,生成所述内容块的关键数据集。
21.第三方面,本技术还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的文书内容比对性能提升方法。
22.第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的文书内容比对性能提升方法。
附图说明
23.图1是本发明实施例提供的一种文书内容比对性能提升方法的流程示意图;图2是本发明实施例提供的一种文书内容比对性能提升系统的模块示意图。
具体实施方式
24.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
25.本技术的说明书和权利要求书及所述附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
27.首先,对本技术中的部分用语进行解释说明,以便于本领域技术人员理解。
28.(1)停用词:停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为stop words(停用词)。
29.(2)注意力机制(attention mechanism):指在计算能力有限的情况下,将计算资
源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。
30.实施例1参见图1,图1是本发明实施例提供的一种文书内容比对性能提升方法的流程示意图。本发明实施例提供一种文书内容比对性能提升方法,包括步骤101至步骤106,各项步骤具体如下:步骤101:根据待比对文档的目录结构将所述待比对文档分为若干内容块;步骤102:根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;步骤103:以每一所述句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;步骤104:以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;步骤105:基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵;步骤106:将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果。
31.一个目录结构中一般包含摘要和若干一级标题。本发明实施例中,获取待比对文档的目录结构后,根据每个一级标题的位置将待比对文档分为若干内容块。根据一级标题的结构将待比对文档划分为若干内容块后,以内容块下的每一所述句子作为一个子节点,根据预设算法生成每一内容块的关键词数据集。若一个内容块下包含的段落或多,可根据内容块的包含的段落将每一段落分为一个子块,再以每个句子作为子节点进行文本处理。优选的,若一级标题下包含二级标题或三级标题,也可根据目录结构中各个二标题对每一内容块包含的文字内容进一步进行划分,将一个内容块分为若干子块。基于上述内容块划分方式,可以有效减少单次文本处理的工作量,避免单纯以长度进行文本划分带来的数据偏见。且根据待比对文档的目录结构分为若干内容块,可生成以待比对文档标题为根节点,各个一级标题为父节点,各句子为子节点的树状结构图,保留待比对文档的整体结构脉络,不会因为进行内容块划分而丢失各个内容块之间的语义联系。
32.一实施例中,为了降低划分内容块过程中由于标题与标题之间的相似度而造成的误识别,容易将实际意义不同的两个段落由于标题相似的原因进行错误合并。因此,为了提高内容块划分的准确性,在实际操作中,步骤101具体包括:步骤1011,对所述待比对文档的目录结构进行提取,得到目录结构信息,并确定所述目录结构信息中每一个标题所对应的页码范围;步骤1012,分别对每一个标题对应的页码范围的第一页文段和最后一页文段进行内容提取,得到页首文段和页末文段;步骤1013,分别对所述页首文段和页末文段的关键词进行提取,组成关键词集合,并根据所述关键词在所述页首文段和页末文段出现的顺序,在所述关键词集合中按次序排列;步骤1014,根据预设的关键词规则,对所述按次序排列的关键词集合进行计算对应的词指纹数值序列;
分别计算任意两个词指纹数值序列的相似度,当所述相似度超过阈值时,确定所述标题所对应的页码范围的文段内容为同一内容,将对应的两个标题所对应的页码范围的文段内容进行合并。
33.具体地,通过将页首文段和页末文段的关键词在关键词集合中按次序排列,利用预设的关键词规则可以计算出该文段内容对应的内容意思,并通过词指纹数值序列来表达。通过计算任意两个相似度,即可对比出两段文段的内容是否一致。可以理解的是,计算相似度的公式可以通过现有技术的矩阵计算公式即可计算出两段序列的相似度,此处不作累赘。另外,此步骤提及的预设的关键词规则,在实际操作中,是指根据关键词的不同,预先设置对应的数值序列,可根据实际情况进行变换和调整,此处不作限定。
34.一实施例中,所述根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。本发明实施例将每一内容块的文本输入至jieba分词工具,采用精确模式对每一内容块的文本进行分词,根据分词结果对每一词语进行词性标注。所谓分词就是将一段表述里的词汇进行分解,比如“我爱中国”,分解后有三个词:我、爱、中国,词性分别是名词、动词、名词。对内容块中的文本进行分词完成后,过滤掉内容块中的停用词,本发明实施例中一般过滤掉语气助词、副词、介词、连接等通常本身并无明确的意义,只有将其放入一个完整的句子中才有一定作用的词语,例如“的”“在”等,并保留指定词性的单词,如动词、名词、形容词等。将内容块的分词结果输入至glove词嵌入模型,glove词嵌入模型用于进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。通过glove词嵌入模型将预设词性的分词转化为词向量,输出每一内容块的第一分词序列。由于预先根据预设分词规则对内容块下的每一句子进行过滤分词,可以在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。且由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。
35.一实施例中,所述以每一句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。本发明实施例基于textrank算法的思想的建立每一内容块中句子的权重排名列表。textrank算法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系。认为在单文档中,所有的句子都是相邻的,不需要像多文档一样进行多个窗口的生成和抽取,仅需要单一文档窗口即可。基于textrank算法的思想,本发明实施例中默认一个内容块下所有的句子都是相邻的,计算内容块下每两个句子之间的余弦相似度,建立句子之间的余弦相似度矩阵。由于余弦相似度的计算为本领域的常用技术手段,在此不做赘述。生成相似度计算矩阵后根据预设公式生成每一句子的权重结果,其中,所述预设公式如下所述:;
式中,表示句子i的权重,其中指代句子i;指代句子j;表示内容块内每个相邻句子对句子i的贡献程度;表示句子i的共现关系中包含的所有词的集合;表示句子j的共现关系章包含的所有词的集合;表示句子i和句子j的相似度结果,可通过余弦相似度矩阵获取;表示上次迭代结束后句子j的权重;d表示阻尼系数,取值范围为0到1,一般取值为0.85。k表示共现窗口的大小;表示与 存在共现关系的节点;表示 与的相似度结果。
36.根据上述预设公式计算内容块中每一句子的权重结果并进行正序排名,生成每一句在对应内容块中的权重排名。选取排名在前n的句子作为内容块的关键词数据集,排名较为靠后的句子则不纳入关键词数据集,n的取值范围可根据内容块包含的文本内容长度、权重结果的数据等进行自定义设置,在此不做限定。
37.一实施例中,所述以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至bilstm模型,以使所述bilstm模型输出具备上下文信息的全局语义特征向量。在生成每一内容块的关键词数据集后,可根据待比对文档的目录结构,对应每一内容块的标题将各个内容块的关键词数据集进行关联,生成树状节点式的关键词数据集。将每一内容块的关键词数据集进行整合拼接,即可生成待比对文档的文本摘要数据。将待比对文档的文本摘要数据进行序列化操作,文本摘要数据中包含若干哥句子,以一个句子为例进行示例说明:设句子x=[x1 ,x2 ,

,xi ,

,x19 ],式中,x是句子的向量表示,xi表示该句子文本中的第i个字符。将文本x输入到 albert层进行序列化操作,得到序列化后的文本向量e=[e1 ,e2 ,

,ei ,

,e19 ]。其中,e表示句子文本经序列化后的字符数组,ei表示文本中第i个词的序列化字符。将经过albert处理后的序列化字符输入到bilstm模型, bilstm模型是由前向lstm与后向lstm组合而成,lstm模型在rnn基础上增加了输入门,遗忘门,单元状态,输出门,还增加了门机制和记忆单元,可以有效防止梯度爆炸和梯度消失,同时更好的捕捉到较长距离的依赖以及双向的语义依赖。将经过序列化后的关键词数据集经过bilstm模型,可以生成具备上下文信息的全局语义特征向量。
[0038]
一实施例中,所述基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配文档的特征向量;根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特征向量和所述匹配文档的特征向量分别作为横轴和纵轴,以所述相似度数据作为所述相似度矩阵的值构建所述相似度矩阵。将需要与待比对文档进行比对的匹配文档进行过滤分词,并通过glove词嵌入模型将匹配文档的分词结果输出为词向量形式的第二分词序列。本发明实施例采用自注意力机制对第二分词序列中的每一词向量添加权重数据,生成匹配文档的特征向量。进一步的,建立待比对文档的全局语义特征向量和匹配文档的特征向量之间的相似度数据。根据余弦相
似度计算公式将全局语义特征向量与特征向量中的词向量进行两两计算,生成关于待比对文档和匹配文档的相似度数据。优选的,该相似度数据还可以通过将全局语义特征向量和特征向量之间的词向量两两计算,生成的欧几里得距离进行表征。当生成相似度数据后,将全局语义特征向量和特征向量分别作为相似度矩阵的横轴和纵轴,每一词向量作为一个具体的坐标值,将两两词向量之间的相似度结果,即相似度数据作为相似度矩阵的值构建关于待比对文档和匹配文档的相似度矩阵。
[0039]
一实施例中,所述将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果,具体包括:基于预设卷积网络对所述相似度矩阵进行卷积处理,生成所述相似度矩阵对应的初始特征矩阵;基于预设维度的池化网络对所述初始特征矩阵进行池化处理,生成固定大小的特征矩阵;基于预设多层感知机网络对所述固定大小的特征矩阵进行转化,输出所述待比对文档与所述匹配文档的相似度比对结果。本发明实施例中,构建一个二维卷积神经网络对输入的相似度矩阵进行卷积处理,生成该相似度矩阵对应的初始特征矩阵。进一步的,构建二维池化网络对初始特征矩阵进行池化处理,生成固定大小的特征矩阵。作为本发明实施例的一个优选方案,还通过预设池化核公式调整池化核的大小以实现对所述初始特征矩阵的动态池化处理;其中,所述预设池化核公式可用以下公式表示:,;式中,为池化核的宽度;为池化核的长度;和为初始特征矩阵的宽度和长度;'和'为输出的特征矩阵的大小。通过动态调整池化核的大小,可以因匹配文档改变导致的初始特征矩阵内词向量的长度变化,以提高后续比对结果的精准度。进一步的,本发明实施例中,在生成固定大小的特征矩阵后,将生成的固定大小的特征矩阵输入至多层感知机,由多层感知机进行转化处理,生成待比对文档和匹配文档之间的比对结果,根据比对结果中可以在待比对文档和匹配文档中确定两个文档间存在相似度或相似度较高的文本内容。
[0040]
作为本发明实施例的又一优选方案,在所述选取预设排名范围内的句子后,还包括:选取预设排名范围内的句子并将句子中的每一词向量输入 至lda模型进行主题聚合训练;其中,所述lda模型根据所述待比对文档对应的主题,在所述主题下获取与所述词向量相同数量的词,并对每一词的概率值进行归一化计算,生成每一所述词的权重信息;将所述词向量与所述权重信息进行加权求和,生成所述内容块的关键数据集。根据每一内容块对应的标题在lda模型中选出内容块的文内容中对应的概率最大的主题,而后选择该主题下的前k个词(w1,w2,w3,

wk,)及其对应的概率(p1,p2,p3,

pk,)。将获取的概率值进行归一化并作为选取的k个词的权重大小结果。基于选取的每个词的权重大小结果进行加权求和运算,生成内容块的关键词特征信息,将所述关键词特征信息与内容块中的词向量进行拼接,生成内容块的关键词数据集。
[0041]
本发明实施例中,还提供了一种文书内容比对性能提升设备,包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序,处理器执行计算机程序时实现上述的文书内容比对性能提升方法。
[0042]
本发明实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质包括
存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的文书内容比对性能提升。
[0043]
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在文书内容比对性能提升设备中的执行过程。
[0044]
所述文书内容比对性能提升设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文书内容比对性能提升设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是文书内容比对性能提升设备的示例,并不构成对文书内容比对性能提升设备的限定,可以包括比所述部件更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文书内容比对性能提升设备还可以包括输入输出设备、网络接入设备、总线等。
[0045]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述文书内容比对性能提升设备的控制中心,利用各种接口和线路连接整个所述文书内容比对性能提升设备的各个部分。
[0046]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述文书内容比对性能提升设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0047]
其中,所述文书内容比对性能提升设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机
可读介质不包括电载波信号和电信信号。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0048]
本发明实施例提供一种文书内容比对性能提升方法,根据待比对文档的目录结构分为若干内容块,避免单纯以长度进行文本划分带来的数据偏见。进一步的,根据预设分词规则对内容块下的每一句子进行过滤分词,在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。将每一内容块作为父节点,内容块下的每一句子作为子节点,形成待比对文档的树状结构图,依次生成各个内容块的关键词数据集和待比对文档的全局语义特征向量,保留文本间的语义信息,增加鲁棒性。基于待比对文档的全局语义特征向量构建与匹配文档的相似度矩阵后再将该相似度矩阵输入至预设的网络模型,可以有效利用网络模型的深度学习和特征聚合能力,提高近似度比对结果的准确性。且,由于预先对待比对文档和匹配文档的文本交互关系进行处理,网络模型不需要对全部的文本数据进行比编码,减少了模型的数据处理压力,可以提升近似度比对的处理速度。
[0049]
实施例2参见图2,图2是本发明实施例提供的一种文书内容比对性能提升系统的模块示意图。本发明实施例提供一种文书内容比对性能提升系统,包括内容划分模块201、句子分词模块202、第一算法模块203、第二算法模块204、矩阵生成模块205和相似比对模块206,具体为:所述内容划分模块201用于根据待比对文档的目录结构将所述待比对文档分为若干内容块;所述句子分词模块202用于根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果;所述第一算法模块203用于以每一句子为子节点,根据预设算法生成每一所述内容块的关键词数据集;所述第二算法模块204用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量;所述矩阵生成模块205用于基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵;所述相似比对模块206用于将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果。
[0050]
一实施例中,所述句子分词模块202用于根据预设分词规则对每一所述内容块中的每一句子进行过滤分词,生成每一句子的分词结果,具体包括:对每一所述内容块的文本内容进行词性标注;基于预设分词规则过滤所述内容块中的停用词,保留所述内容块中预设词性的分词;将所述预设词性的分词输入至预设词嵌入模型,以使所述词嵌入模型输出词向量形式的第一分词序列。
[0051]
一实施例中,所述第一算法模块203用于以每一句子为子节点,根据预设算法生成每一所述内容块的关键词数据集,具体包括:计算同一个内容块中每两个句子之间的余弦
相似度,建立句子之间的余弦相似度矩阵;根据预设公式计算每一句子在对应内容块中的权重排名,生成每一所述内容块中句子的权重排名列表;选取预设排名范围内的句子,生成内容块的关键词数据集。
[0052]
一实施例中,所述第二算法模块204用于以每一所述内容块为父节点,基于每一所述内容块的关键词数据集生成所述待比对文档的全局语义特征向量,具体包括:根据所述待比对文档的目录结构整合每一所述内容块的关键词数据集,生成所述待比对文档的文本摘要数据;对所述待比对文档的文本摘要数据进行序列化操作,生成序列化文本向量;将所述序列化文本向量输入至bilstm模型,以使所述bilstm模型输出具备上下文信息的全局语义特征向量。
[0053]
一实施例中,所述矩阵生成模块205用于基于所述全局语义特征向量构建用于表征所述待比对文档与匹配文档之间文本交互关系的相似度矩阵,具体包括:根据所述预设分词规则对所述匹配文档进行过滤分词,输出词向量形式的第二分词序列;根据预设注意力机制对所述第二分词序列中的每一分词添加权重向量,生成所述匹配文档的特征向量;根据预设相似度计算公式计算所述全局语义特征向量中每一词向量与所述特征向量中每一词向量的相似度数据;以所述全局语义特征向量和所述匹配文档的特征向量分别作为横轴和纵轴,以所述相似度数据作为所述相似度矩阵的值构建所述相似度矩阵。
[0054]
一实施例中,所述相似比对模块206用于将所述相似度矩阵输入至预设网络模型,以使所述预设网络对所述相似度矩阵进行特征聚合,输出所述待比对文档与所述匹配文档的相似度比对结果,具体包括:基于预设卷积网络对所述相似度矩阵进行卷积处理,生成所述相似度矩阵对应的初始特征矩阵;基于预设维度的池化网络对所述初始特征矩阵进行池化处理,生成固定大小的特征矩阵;基于预设多层感知机网络对所述固定大小的特征矩阵进行转化,输出所述待比对文档与所述匹配文档的相似度比对结果。
[0055]
一实施例中,在所述选取预设排名范围内的句子后,还包括:选取预设排名范围内的句子并将句子中的每一词向量输入至lda模型进行主题聚合训练;其中,所述lda模型根据所述待比对文档对应的主题,在所述主题下获取与所述词向量相同数量的词,并对每一词的概率值进行归一化计算,生成每一所述词的权重信息;将所述词向量与所述权重信息进行加权求和,生成所述内容块的关键数据集。
[0056]
所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0057]
本发明实施例提供一种文书内容比对性能提升系统,根据待比对文档的目录结构分为若干内容块,避免单纯以长度进行文本划分带来的数据偏见。进一步的,根据预设分词规则对内容块下的每一句子进行过滤分词,在保留关键特征的情况下降低文档中的无关词语占比,减少待比对文档中的冗余数据,缓解长文本内容对比的计算量。由于各个内容块间互不干扰,可通过多个线程同时对内容块进行数据处理,提升数据处理速度。将每一内容块作为父节点,内容块下的每一句子作为子节点,形成待比对文档的树状结构图,依次生成各个内容块的关键词数据集和待比对文档的全局语义特征向量,保留文本间的语义信息,增加鲁棒性。基于待比对文档的全局语义特征向量构建与匹配文档的相似度矩阵后再将该相似度矩阵输入至预设的网络模型,可以有效利用网络模型的深度学习和特征聚合能力,提
高近似度比对结果的准确性。且,由于预先对待比对文档和匹配文档的文本交互关系进行处理,网络模型不需要对全部的文本数据进行比编码,减少了模型的数据处理压力,可以提升近似度比对的处理速度。
[0058]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1