本发明涉及人工智能和自然语言处理领域,更具体地,涉及一种基于段落划分的长文本相似度比对方法。
背景技术:
1、在人工智能技术背景下,自然语言处理走向了智能化和规模化。随着自然语言处理被广泛应用信息检索、新闻分类、情感分析、垃圾邮件过滤等领域,文本相似度比对方法被不断深入研究。随着互联网的普及,文本数据的规模不断的扩增,已经步入了大数据时代,因此如何精准进行长文本信息的比对以及分类成为当代研究的焦点。其中,各种文本比对算法对输入文本的长度限制以及多段文本的顺序限制成为其核心问题,需要采取一定的算法打破这两种限制。
2、关于文本比对算法对文本长度的限制,bert等模型都有输入长度的限制,大模型算法似乎没有限制,其根本也是通过算法迭代解决,即将长文本变成多个短文本。显然,不能物理去切分长文本,而要根据自然意义或者说一定的合理段落去切分,问题的核心变成怎样识别长本文的自然段落,区别于作者往往根据主题或者写作要求划分的段落。
技术实现思路
1、本发明针对现有技术中存在的技术问题,提供一种基于段落划分的长文本相似度比对方法,包括:
2、基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果;
3、根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,基于顺序层次聚类进行段落划分,得到初步段落划分结果;
4、根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;
5、获取待比对的两个长文本的段落划分结果,并获取每个长文本的每个段落的融合嵌入向量;
6、基于两个长文本的每个段落的融合嵌入向量,进行段落相似度比对交叉计算,得到两个长文本的段落匹配结果,并根据段落匹配结果从两个长文本中提取相似段落内容。
7、本发明提供的一种基于段落划分的长文本相似度比对方法,合理地对长文本进行段落划分,将长文本的比对转化为段落的比对,由此避免长文本相似度比对中的文本长度限制问题。本发明方案能够解决长文本分析比对中的居多限制问题,并通过聚类指标和输入向量的合理选择有效提升比对精度,由此为自然语言处理中长文本处理提供一种新的可选方案。
1.一种基于段落划分的长文本相似度比对方法,其特征在于,包括:
2.根据权利要求1所述的基于段落划分的长文本相似度比对方法,其特征在于,基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,包括:
3.根据权利要求2所述的基于段落划分的长文本相似度比对方法,其特征在于,所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,建立顺序层次聚类进行段落划分,得到初步段落划分结果,包括:
4.根据权利要求3所述的基于段落划分的长文本相似度比对方法,其特征在于,所述根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果,包括:
5.根据权利要求4所述的基于段落划分的长文本相似度比对方法,其特征在于,所述计算每一个特征词在对应句子中的信息熵和段外信息熵,包括:
6.根据权利要求4所述的基于段落划分的长文本相似度比对方法,其特征在于,对于每一个簇,穷尽计算所有的可能的句子划分组合的信息熵,找到目标函数计算结果最小的句子划分组合,包括: