一种合同文本错误信息的模糊判定方法及装置与流程

文档序号:35381194发布日期:2023-09-09 06:53阅读:35来源:国知局
一种合同文本错误信息的模糊判定方法及装置

本技术涉及自然语言处理,具体而言,涉及一种合同文本错误信息的模糊判定方法及装置。


背景技术:

1、在现有技术中,合同审核的流程依次是相关部门提交合同、人工审核合同、人工批注、返回合同等,这个过程往往会有着很多缺点,例如第一、需要耗费大量的时间成本和人力成本进行审核工作,尤其是对于大量的合同审核,需要海量的人力资源进行处理,增加了企业的成本和管理难度。第二、人力审核的效率低下,人工审核需要进行大量的读取和对比工作,而这些工作可能涉及到多个部门和岗位,需要进行不断的沟通和协调,导致审核流程缓慢,效率低下。第三、由于人力审核过程基于专业人员的经验和主观判断,存在着可能出现错误和漏判的问题。人工审核需要进行大量的对比和判断工作,可能会因为个人观点、知识水平等因素而产生错误或漏判。第四、人工审核的结果不够直观,往往需要对大量的审核数据进行汇总和分析,才能得出合同审核的结论,这不仅增加了审核结果的不确定性,也增加了审核结果的误解和误判的可能性。

2、因此,现有的合同审核的流程需要耗费大量的时间成本和人力成本,而且还非常容易出现错误和漏判的情况,从而导致一些不必要的争议和纠纷,最终呈现的结果也不够直观简洁。如何解决合同审核过程中存在的人力资源浪费、效率低下、可能出现错误和结果不够直观等问题成为本领域技术人员需要解决的众多问题之一。


技术实现思路

1、本技术的目的在于,为了克服现有的技术缺陷,提供了一种合同文本错误信息的模糊判定方法及装置,通过计算文本之间的余弦相似度,配合diff算法进行自动文本比对,并设计程序对审核结果进行自动批注,能够提供更加直观和准确的审核结果,减少审核结果的误解和误判的可能性。

2、本技术目的通过下述技术方案来实现:

3、第一方面,本技术提出了一种合同文本错误信息的模糊判定方法,所述方法包括:

4、基于python-docx库的二次封装对合同文本进行读写得到多个段落;

5、将所述多个段落与合同文本模板中的段落进行对比,计算段落余弦相似度;

6、使用差异比较算法按照所述段落余弦相似度对所述多个段落与合同文本模板中的段落进行差异比较处理得到文本差异内容和文本差异位置;

7、根据所述文本差异内容和文本差异位置对所述合同文本进行修改。

8、在一种可能的实施方式中,读写方案包括:按段落读写、按runs读写、按文本读写、按指定文本内容读写和按指定文本索引读写。

9、在一种可能的实施方式中,所述方法还包括:

10、将所述段落余弦相似度的最高值作为匹配结果,使用差异比较算法按照所述匹配结果对所述多个段落与合同文本模板中的段落进行处理。

11、在一种可能的实施方式中,使用差异比较算法按照所述段落余弦相似度对所述多个段落与合同文本模板中的段落进行差异比较处理得到文本差异内容和文本差异位置的步骤,包括:

12、使用差异比较算法按照所述段落余弦相似度对所述多个段落与合同文本模板中的段落进行插入、删除和匹配得到文本差异内容和文本差异位置;

13、插入操作为在合同文本中插入新的字符或行;

14、删除操作为删除合同文本中的字符或行;

15、匹配操作为将合同文本的字符与合同文本模板的字符,或合同文本的行与合同文本模板的行进行匹配。

16、在一种可能的实施方式中,差异比较算法在所述匹配操作中通过寻找公共子序列的最大值得到文本差异内容和文本差异位置。

17、在一种可能的实施方式中,所述根据所述文本差异内容和文本差异位置对所述合同文本进行修改的步骤,包括:

18、s1、传入起始索引和结束索引,计算出文本差异位置的run列表以及索引;

19、s2、将run列表中的run拆分为三段:标记前的文字、待标记的目标文字、标记后的文字,run表示一个格式化的文本块;

20、s3、在原run后面添加一个新run并设置指定颜色和目标文字;

21、s4、将原run的文字内容修改为标记前面的文字。

22、s5、如果需要标记的目标文字不是原run的整段文字,需要将标记后面的文字新建一个run并设置为原run的颜色。

23、s6、重复s3-s5,遍历所有的run。

24、在一种可能的实施方式中,所述合同文本模板包括工程承包人、工程分包人、签订地点以及签订日期。

25、第二方面,本技术还提出了一种合同文本错误信息的模糊判定装置,所述装置包括:

26、读写模块,用于基于python-docx库的二次封装对合同文本进行读写得到多个段落;

27、对比模块,用于将所述多个段落与合同文本模板中的段落进行对比,计算段落余弦相似度;

28、处理模块,用于使用差异比较算法按照所述段落余弦相似度对所述多个段落与合同文本模板中的段落进行差异比较处理得到文本差异内容和文本差异位置;

29、修改模块,用于根据所述文本差异内容和文本差异位置对所述合同文本进行修改。

30、第三方面,本技术还提出了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如第一方面任一项所述的合同文本错误信息的模糊判定方法。

31、第四方面,本技术还提出了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如第一方面任一项所述的合同文本错误信息的模糊判定方法。

32、上述本技术主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本技术可采用并要求保护的方案;且本技术,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本技术方案后根据现有技术和公知常识可明了有多种组合,均为本技术所要保护的技术方案,在此不做穷举。

33、本技术公开了一种合同文本错误信息的模糊判定方法及装置,首先基于python-docx库的二次封装对合同文本进行读写得到多个段落,再将差异比较处理多个段落与合同文本模板中的段落进行对比,计算段落余弦相似度,然后使用差异比较算法按照差异比较处理段落余弦相似度对差异比较处理多个段落与合同文本模板中的段落进行差异比较处理得到文本差异内容和文本差异位置,最后根据差异比较处理文本差异内容和文本差异位置对差异比较处理合同文本进行修改。通过计算文本之间的余弦相似度,配合差异比较算法进行自动文本比对,对审核结果进行自动批注,具有识别准确、速度快、效率高的优点,还能够提供直观和准确的审核结果,减少审核结果的误解和误判的可能性。

34、本发明所达到的技术效果为:

35、第一、基于对python-docx库进行二次封装实现对合同文档进行读写,通过封装提供的函数实现更方便的调用,并增加了新的功能。

36、第二、遍历两个docx文件的每一个段落并计算它们之间的余弦相似度。通过计算相似度,可以找到两个文件中匹配的段落避免在比较大的文档中对整个文档进行比对,从而节省时间和提高比对的准确性。

37、第三,在找到匹配的段落后,差异比较算法来比较两个段落之间的文本,并得到差异的内容和文本的位置可以更直观地显示出文档中的差异,而不仅仅是显示不同的段落。

38、第四、标注出来有差异的内容,并使用相关算法在段落的runs之间找到需要修改的文字内容,对文字的格式进行修改。可以更精确地修改文档中的内容,从而提高文档的质量和准确性。

39、第五、引入自然语言处理技术,实现对合同中的重要信息的自动提取和分析,提高审核的准确性和效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1