句子相似度计算方法、文档比对方法、句子相似度计算设备及文档比对设备与流程

文档序号:36093445发布日期:2023-11-18 13:11阅读:37来源:国知局
句子相似度计算方法与流程

本发明属于文档比对,特别涉及一种句子相似度计算方法、文档比对方法、句子相似度计算设备及文档比对设备。


背景技术:

1、两个相关文档的内容对比,适用于多种场景,例如:论文查重,对修改前后的论文的重复度进行审核;新的公司规则、部门制度或法规出台,为充分理解新规与旧规的差异,需要标记出修改处,以便于新规则、制度或者法规的贯彻与实施。

2、文档对比是一项十分复杂的对比模型,涉及到行与行的对齐,干扰文字的处理,比如输入法全角半角会影响到对比的精度,甚至于当相同的句子,出现在不同的行中,也会影响对比的最终效果。

3、经过检索,最接近的现有技术为专利文献kr20130008418a公开的一种数字文档的分阶段比较方法,以通过将数字文档划分为句子单元,将句子划分为阶段单元以及分析句子和阶段来提供准确的比较结果数据。构成:控制单元将存储的文档和比较文档分为句子单元。控制单元对目标句子和比较句子执行句子单位分析和阶段单位分析。控制单元计算句子单元匹配率。控制单元计算文档单元匹配率。控制单元通过二值化将比较结果存储在存储单元中。将存储的文档和比较文档分成句子单元;进行句子单位分析和阶段单位分析;通过逐句连接相同的相位,计算出句单元匹配率;按句子单位之间的匹配率顺序排列;利用冗余连接排除原理,通过优先最高匹配率来连接句子单元;计算文件单位之间的匹配率;通过二值化存储比较结果。上述方法的对比过程比较复杂,运算步骤多,比对的速度较慢,且对系统内存等硬件设备要求高。


技术实现思路

1、鉴于背景技术所存在的技术问题,本发明所提供的句子相似度计算方法、文档比对方法、句子相似度计算设备及文档比对设备,通过相似度找到相同句,再进行不同点的确定,最终实现相关句子、相关文档的对比和标注。

2、为了解决上述技术问题,本发明采取了如下技术方案来实现:

3、一种句子相似度计算方法,步骤为:

4、step1、获取待对比句子和对比句子;

5、step2、计算待对比句子和对比句子中每个文字与该文字所在句子第一个文字之间的文字距离,得到每个文字的文字距离;

6、step3、计算待对比句子中每个文字在所在位置出现的词频和待对比句子中每个文字在对比句子对应位置出现的词频,得到每个文字的出现次数;

7、step4、根据待对比句子和对比句子中每个文字的文字距离和出现次数分别生成待对比句子的二维数组和对比句子的二维数组;

8、step5、根据待对比句子的二维数组和对比句子的二维数组计算待对比句子和对比句子的相似度。

9、优选地,步骤step5中的相似度计算方式为:将待对比句子的二维数组和对比句子的二维数组相减,得到待对比句子和对比句子的相似度。

10、一种文档比对方法,采用了一种句子相似度计算方法,比对方法为:获取待对比文档和对比文档,待对比文档中包含至少一个待对比句子,对比文档中包含至少一个对比句子,计算待对比文档中所有待对比句子分别与对比文档中所有对比句子的相似度。

11、优选地,在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之前,检测待对比文档和对比文档中的空白字符;将相邻两个位置的空白字符替换为一个空白字符。

12、优选地,在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之前,检测待对比文档和对比文档中的分页符;删除所述待对比文档和对比文档中的分页符。

13、优选地,在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之后,根据所述相似度确定出所述待对比文档和对比文档中相同句和差异句;对所述差异句进行diff计算,确定出所述待对比文档的不同点。

14、一种句子相似度计算设备,采用了句子相似度计算方法,包括依次通信连接的存储器和控制器。所述存储器上存储有计算机程序,所述控制器用于读取所述计算机程序。

15、一种文档比对设备,采用了文档比对方法,包括依次通信连接的存储器和控制器。所述存储器上存储有计算机程序,所述控制器用于读取所述计算机程序,控制器用于执行一种文档比对方法。

16、一种计算机可读存储介质,计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行一种句子相似度计算方法,或者执行一种文档比对方法。

17、本发明可达到以下有益效果:

18、1、本发明通过矢量算法判断两个句子的相似度,计算精度高且方法简单。

19、2、本发明通过计算相似度确定待对比文档与对比文档中的相同句,再对差异句进行diff计算,确定出所述待对比文档的不同点,方法简单。

20、3、本发明实现了两个句子、两个文档间的快速对比功能,尤其适用于两个相似文档间的内容差异对比,如通过本发明进行新规章制度与旧规章制度间的对比,可快速提取差异内容,并定位差异内容的位置,实现新旧制度间的快速对比功能。



技术特征:

1.一种句子相似度计算方法,其特征在于包括以下步骤:

2.根据权利要求1所述的句子相似度计算方法,其特征在于:步骤step5中的相似度计算方式为:将待对比句子的二维数组和对比句子的二维数组相减,得到待对比句子和对比句子的相似度。

3.一种文档比对方法,其特征在于:采用了根据权利要求1或2所述的句子相似度计算方法,比对方法为:获取待对比文档和对比文档,待对比文档中包含至少一个待对比句子,对比文档中包含至少一个对比句子,计算待对比文档中所有待对比句子分别与对比文档中所有对比句子的相似度。

4.根据权利要求3所述的文档比对方法,其特征在于:在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之前,检测待对比文档和对比文档中的空白字符;将相邻两个位置的空白字符替换为一个空白字符。

5.根据权利要求4所述的文档比对方法,其特征在于:在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之前,检测待对比文档和对比文档中的分页符;删除所述待对比文档和对比文档中的分页符。

6.根据权利要求5所述的文档比对方法,其特征在于:在计算待对比文档中所有待对比句子与对比文档中所有对比句子的相似度之后,根据所述相似度确定出所述待对比文档和对比文档中相同句和差异句;对所述差异句进行diff计算,确定出所述待对比文档的不同点。

7.一种句子相似度计算设备,其特征在于:采用了根据权利要求1或2所述的句子相似度计算方法,包括依次通信连接的存储器和控制器。

8.一种文档比对设备,其特征在于:采用了根据权利要求3-6中任意一项所述的文档比对方法,包括依次通信连接的存储器和控制器。


技术总结
一种句子相似度计算方法、文档比对方法、句子相似度计算设备及文档比对设备,句子相似度算法包含文字距离、文字词频、文字二维数组计算。所述文字距离,由待对比句子与对比句子中每个文字与该文字所在句子第一个文字之间的距离确定;所述文字词频,由待对比句子与对比句子中每个文字在所在位置出现的词频确定;所述文字二维数组,由文字距离、文字词频共同确定。最终,以句子相似度算法为基础,得出待对比文档与对比文档的差异化对比结果,实现两文档的智能对比功能。

技术研发人员:夏运超,林显,陶兴勇,蔡鹏,李鹏,徐涛,周敏,王代春,曹海
受保护的技术使用者:中国长江电力股份有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1