基于ICR字符矩阵的合同文档差异性检测方法和装置与流程

文档序号:35127333发布日期:2023-08-14 20:58阅读:56来源:国知局
基于ICR字符矩阵的合同文档差异性检测方法和装置与流程

本技术涉及自然语言处理,具体而言,涉及一种基于icr字符矩阵的合同文档差异性检测方法和装置。


背景技术:

1、商业往来中经常需要进行合同审查,即比较两份合同的文本差异。人工核查费时费力且容易出现疏漏,在电子化办公的时代,业务人员可利用文档工具软件完成此工作。这些文档工具可以识别并忽略合同可能包含的页眉和页脚,分别处理表格和正文。然而,它们通常不能处理合同的扫描件等图片型pdf文档;它们的比对方法通常为逐行比对,无法忽略合同中对语义无影响的差异,例如表格内一行文本被分成多行,或增加或删除文本导致当前行末尾缺少文本或增加了下一行的部分文本,造成反馈结果中的差异点数量多于真实值。


技术实现思路

1、本技术的目的是提供一种基于icr字符矩阵的合同文档差异性检测方法和装置,用以提供更符合人预期的合同差异检测结果。

2、为了实现上述目的,第一方面,本发明提供了一种基于icr字符矩阵的合同文档差异性检测方法,包括以下步骤:

3、s1,将原合同和比较合同的pdf文件转换为图片,利用icr技术从图片中取得合同的文本数据,文本数据提供的信息包括合同文本、合同文本的字符的位置信息、合同文本所属单元格的位置信息;

4、s2,利用基于规则的版式识别方法,将文本数据拆分成页眉、正文、页脚和表格文本四部分,分别按序拼接为长字符串,表格文本的一个单元格拼接为一行,其余部分一个文本框为一行;

5、s3,检测原文档与比较文档之间的差异,利用二步式差异点查询算法依次从正文和表格文本中查询差异点,生成文本比对结果。

6、在可选的实施方式中,所述步骤s2中,基于规则的版式识别方法包括:

7、s21,根据是否存在所属单元格将文本数据划分成表格文本数据和非表格文本数据;

8、s22,利用基于规则的纵坐标标准化方法,取得非表格文本每一个文本框的标准纵坐标,并根据文本框的横坐标和标准纵坐标自左而右、自上而下排序;

9、s23,利用基于规则的页眉识别算法,识别非表格文本数据中的页眉;

10、s24,利用基于规则的页脚识别算法,识别非表格文本数据中的页脚;

11、s25,根据页眉和页脚的识别结果,将非表格文本数据进一步划分成页眉、正文和页脚三部分。

12、在可选的实施方式中,所述步骤s22中,基于规则的纵坐标标准化方法包括以下步骤:

13、s221,初始化行索引字典,默认一个文本框为一行,因此字典元素数量为当前页的文本数,键名i代表第i个文本框,键值为包含元素i的列表;

14、s222,顺序遍历当前页的每一个文本框,对文本框i,顺序遍历其后的文本框,若文本框j和i在y轴上的重叠度大于阈值,则在索引字典中将i的键值合并至j移除i后跳出循环;

15、若文本框j和i在y轴上的重叠度小于等于阈值时不做操作,继续考察文本框i和文本框j+1,如果j已是最后一个文本框,再考察文本框i和i+1;

16、s223,遍历行索引字典,对字典中每一个元素i,若键值列表中的文本框索引数量大于1,则计算这些文本框的初始y值的平均值并标记为标准y值,否则该文本框的标准y值为初始y值。

17、在可选的实施方式中,所述步骤s23中,基于规则的页眉识别算法包括以下步骤:

18、s231,初始化页眉索引字典,该字典用于记录每页待考察行的首个文本框的索引,初始值为0;

19、s232,根据页眉索引字典和文本框的标准纵坐标,每页取得一行文本框,若某页已完成对文本框的遍历,则执行步骤s235,否则提取并拼接文本框内文本并将页码替换为x;

20、s233,利用基于规则的判断方法,判断待考察行是否包含页眉,若是,则执行s232,否则执行s234;

21、s234,利用基于规则的考察文本补齐方法,修正待考察行,利用基于规则的判断方法判断待考察行是否包含页眉,若是,则执行s232,否则执行s235;

22、s235,输出页眉索引字典,字典记录了每页首个属于正文的文本框的索引。

23、在可选的实施方式中,所述步骤s24中,基于规则的页脚识别算法包括以下步骤:

24、s241,初始化页脚索引字典,该字典用于记录每页待考察行的首个文本框的倒序索引,初始值为-1;

25、s242,根据页脚索引字典和文本框的标准纵坐标,每页取得一行文本框,若某页已完成对文本框的遍历,则执行步骤s244,否则提取并拼接文本框内文本并将页码替换为x;

26、s243,利用基于规则的判断方法,判断待考察行是否包含页脚,若是,则执行s242,否则执行s244;

27、s244,输出页脚索引字典,字典记录了每页最后一个属于正文的文本框的倒序索引。

28、在可选的实施方式中,所述步骤s234中,基于规则的考察文本补齐方法包括:

29、统计各页待考察文本长度,记第i页待考察文本的非空格字符数为ni,下一行非空格字符数为n′i,ni最大值为nmax;

30、遍历每一页,若ni+n′i<nmax-2,则提取第i页下一行的框内文本并拼接至当前考察文本之后。

31、在可选的实施方式中,所述步骤s233及步骤s243中,基于规则的判断方法包括:

32、利用levenstein算法计算第i页与第j页的考察文本相似度sim(i,j),若sim(i,j)的最小值大于0.8,则遍历每一页,若当前考察的是页眉,则页眉索引字典第i页的键值更新为考察文本框索引最大值+1;若当前考察的是页脚,则页脚索引字典第i页的键值更新为考察文本框倒序索引最小值-1,反馈判定结果为包含页眉或页脚,否则执行以下操作;

33、遍历每一页,若sim(i,j)(i,j≠i')的最小值大于0.8,则遍历除i'以外的每一页,若当前考察的是页眉,则页眉索引字典第i页的键值更新为考察文本框索引最大值+1,若当前考察的是页脚,则页脚索引字典第i页的键值更新为考察文本框倒序索引最小值-1,反馈判定结果为包含页眉或页脚,否则反馈判定结果为不包含页眉或页脚。

34、在可选的实施方式中,所述步骤s3中,所述二步式差异点查询算法包括以下步骤:

35、s31,利用基于动态规划的最小编辑距离算法,取得以行为单位的文本最小编辑矩阵;

36、s32,根据最小编辑矩阵,取得最小编辑路径;

37、s33,判断考察的文本是否为正文,若是,则通过差异点合并算法合并路径中连续的差异点;否则,不做处理;

38、s34,遍历最小编辑路径,对每一个差异点,若操作为添加或删除,则判定查询到一个添加或删除差异点,记录该查询结果,若操作为替换,则执行字符级差异点检索;完成遍历后,查询算法结束;

39、所述字符级差异点检索包括以下步骤:

40、s341,利用levenstein算法计算需被替换的字符串之间的相似度,若相似度小于等于给定阈值,则判定查询到一个替换差异点,记录该查询结果;否则执行s342;

41、s342,利用基于动态规划的最小编辑距离算法,取得以字符为单位的最小编辑距离矩阵;

42、s343,根据最小编辑距离矩阵,取得最小编辑路径;

43、s344,通过差异点合并算法合并路径中连续的差异点;

44、s345,编辑最小编辑路径,对每一个差异点,根据操作为添加、删除或替换,判定查询到一个添加、删除或替换差异点,记录该查询结果,完成遍历后,结束字符级差异点检索。

45、在可选的实施方式中,所述步骤s33及步骤s344中,所述差异点合并算法包括:

46、遍历编辑路径,若路径点i至j的类型均不为“相同”,则合并路径点i至j为一个差异点,统计路径点i至j的类型数ntype,若ntype>1,则差异点类型为“修改”,否则差异点类型与路径点i至j的类型相同;

47、所述步骤s345中,所述查询结果记录的信息包括:

48、差异点的类型;差异点相关文本;位于原文档或比较文档的页码范围;若差异点类型为添加,则原文档的相关文本和页码均为空;若差异点类型为删除,则比较文档的相关文本和页码均为空;若需要可视化处理差异检测结果,还应提供相关文本的字符的四点坐标,并在反馈比较结果时提供经过预处理、输入至icr模型的合同图片。

49、第二方面,本发明还提供了一种基于icr字符矩阵的合同文档差异性检测装置,包括存储器以及与所述存储器连接的处理器,所述处理器被配置成执行上述基于icr字符矩阵的合同文档差异性检测方法。

50、通过本发明中的基于icr字符矩阵的合同文档差异性检测方法和装置,利用icr技术提取文本信息,因此允许读取的合同为扫描件甚至照片。

51、比对规则的设计针对合同文档具有页眉页脚和表格等结构文本的特性并考虑了人通常对差异点的理解,使本发明具备忽略不影响合同语义的差异的能力,能反馈符合人的预期的差异统计结果。

52、本技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1