一种合同规范性的审核方法、装置、设备和介质与流程

文档序号:30096315发布日期:2022-05-18 10:58阅读:101来源:国知局
一种合同规范性的审核方法、装置、设备和介质与流程

1.本发明涉及光学字符识别的技术领域,特别涉及一种合同规范性的审核方法、装置、设备和介质。


背景技术:

2.合同是当事人或当事双方之间设立、变更、终止民事关系的协议。依法成立的合同,受法律保护,由于合同往往涉及较重大的利益,不同类型的合同均具有不同的重要条款必须明确,且重要条款还需规范表达,因此合同的规范性要求尤其重要,需要对合同作必要的审核。
3.由于目前的合同格式有多种,有的格式(如word格式)可以直接读取文本内容,因此审核比较方便,而有的合同是扫描件,无法直接读取文本内容,需借助光学字符识别技术(ocr)进行内容识别后再进行审核。目前没有统一的审核系统,而是需要在多种软件平台上进行,这种多个平台的切换操作导致审核效率较低。
4.另外,使用光学字符识别技术(ocr)进行识别时,需先将外部ocr识别模型从存储器上读取到内存上,再由处理器进行处理,但由于目前市面上使用的ocr识别模型普遍体量较大,从而导致模型读取时间长,影响效率。


技术实现要素:

5.本发明要解决的技术问题,在于提供一种合同规范性的审核方法、装置、设备和介质,可以通过不同的合同文件格式来综合匹配不同的方式以获取合同文件的内容文本并进行审核,而且既能小体量的光学字符识别模型,从而提升模型的识别速度,又能保证模型的识别效果。
6.第一方面,本发明提供了一种合同规范性的审核方法,包括下述步骤:
7.s1、接收到合同审核指令,获取合同文件的格式信息;
8.s2、根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
9.s3、将所述全文内容文本与合同类型模板进行正交比对,确认合同所属的种类,并根据种类确认适用的审核模板,所述审核模板包括一个或多个关键词、各关键词使用的空间条件以及各关键词的叙述规范;
10.s4、调用适用的审核模板,对所述全文内容文本进行模板比对审核,具体是:将所述全文内容文本与各所述关键词进行一一比对,判断是否存在所述关键词;
11.若否,则提示需添加相关项;
12.若是,进一步判断关键词是否满足所述空间条件,若不满足,则提示对于该审核项需要清晰说明;若满足,则给出该合同涉及相关项且不违规的提示,并根据所述叙述规范进一步判断关键词叙述是否规范;若规范,则直接提示不规范并显示规范要求;若不规范,则提示合同符合规范。
13.第二方面,本发明提供了一种合同规范性的审核装置,包括:
14.格式判断模块,用于在接收到合同审核指令后,获取合同文件的格式信息;
15.文档内容获取模块,用于根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
16.审核规则确认模块,用于将所述全文内容文本与合同类型模板进行正交比对,确认合同所属的种类,并根据种类确认适用的审核模板,所述审核模板包括一个或多个关键词、各关键词使用的空间条件以及各关键词的叙述规范;
17.审核模块,用于调用适用的审核模板,对所述全文内容文本进行模板比对审核,具体是:将所述全文内容文本与各所述关键词进行一一比对,判断是否存在所述关键词;
18.若否,则提示需添加相关项;
19.若是,进一步判断关键词是否满足所述空间条件,若不满足,则提示对于该审核项需要清晰说明;若满足,则给出该合同涉及相关项且不违规的提示,并根据所述叙述规范进一步判断关键词叙述是否规范;若规范,则直接提示不规范并显示规范要求;若不规范,则提示合同符合规范。
20.第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
21.第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
22.本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:无论合同的格式如何均可在一个平台中实现审核。光学字符识别模型中的空间模型在融合浅层信息和融合深层信息特征时,均是采用一层1*1卷积层和一层3*3或5*5的卷积层,而摒弃了采用两层3*3的卷积层,不仅保证了浅层信息或深层信息的融合质量,而且还减小了模型的体量,从而大大提升了运算速度。
23.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
24.下面参照附图结合实施例对本发明作进一步的说明。
25.图1为本发明实施例一中方法中的流程图;
26.图2为本发明实施例二中装置的结构示意图;
27.图3为本发明光学字符识别模型的结构示意图;
28.图4为本发明实施例三中电子设备的结构示意图;
29.图5为本发明实施例四中介质的结构示意图。
具体实施方式
30.本技术实施例通过提供一种合同规范性的审核方法、装置、设备和介质,可以通过不同的合同文件格式来综合匹配不同的方式以获取合同文件的内容文本并进行审核,而且
既能小体量的光学字符识别模型,从而提升模型的识别速度,又能保证模型的识别效果。
31.本技术实施例中的技术方案,总体思路如下:无论合同的格式如何均集中在一个平台中实现审核,平台先获取合同文件的格式信息来确定识别方式,若能按文件的编码格式直接读取文档内容则直接读取,如word文档和部分pdf文档,否则调用光学字符识别模型获取文档内容,例如合同扫描件等。光学字符识别模型先对输入图像进行预处理操作,crnn通过多个的卷积层、激活层、池化层提取预处理后图像的空间信息,然后将得到的通过两层双向长短时记忆网络提取数据的时序信息,最后通过嵌入层进行字符的分类,从而得到全文内容文本;之后通过模板匹配确定待审核文本中可能的不规范之处。其中,为了提高光学字符识别模型的识别速度,将空间模型现有的通过2层3*3或5*5大小的卷积层改为采用1层1*1卷积层以及1层3*3或5*5增加通道数以及提取特征,不仅保证了识别的效果不变,又能提高识别速度。且进一步为了提高模型的识别速度,还将光学字符识别模型直接设在平台内部,直接运行于内存,提高了识别速度。
32.实施例一
33.如图1所示,本实施例提供一种合同规范性的审核方法,其特征在于:包括下述步骤:
34.s1、接收到合同审核指令,获取合同文件的格式信息;
35.s2、根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;例如:
36.若为word文档,直接读取文档内容,形成全文内容文本;
37.若是pdf文档,尝试按照pdf的编码格式获取文字信息,若尝试获取成功,则将文档转换为word文档,读取文档内容;若尝试获取失败,则调用光学字符识别模型获取文档内容,形成全文内容文本;
38.若是图片格式文档,直接调用光学字符识别模型获取文档内容,形成全文内容文本;
39.s3、将所述全文内容文本与合同类型模板进行正交比对,确认合同所属的种类,并根据种类确认适用的审核模板,所述审核模板包括一个或多个关键词、各关键词使用的空间条件以及各关键词的叙述规范;
40.s4、调用适用的审核模板,对所述全文内容文本进行模板比对审核,具体是:将所述全文内容文本与各所述关键词进行一一比对,判断是否存在所述关键词;
41.若否,则提示需添加相关项;例如:在某份合同中确认到其包含违约金信息,会确认其是否包含有相关的具体描述;若违约金超过30%,会进行提示:“违约金不能超过合同总额的30%”。
42.若是,进一步判断关键词是否满足所述空间条件,若不满足,则提示对于该审核项需要清晰说明;若满足,则给出该合同涉及相关项且不违规的提示,并根据所述叙述规范进一步判断关键词叙述是否规范;若规范,则直接提示不规范并显示规范要求;若不规范,则提示合同符合规范。所述空间条件是指信息是否相邻,例如:合同的法人信息也是合同审核的重点,此处我们根据“姓名”、“电话”、“邮箱”等信息是否相邻确认这些字段是否都是用来描述法人的,进而确认合同的法人信息是否完善。是否相邻的判断中,合同文件为图片文件
(如扫描件或无法按照pdf的编码格式获取文字信息的文件)时,可根据信息坐标进行判断,而word文档或按照pdf的编码格式获取文字信息的文件则可根据关键词是否在相邻的段落里进行判断的。
43.其中,作为本实施例的一种更优或更为具体的实现方式,所述光学字符识别模型为经过扫描合同数据集强化训练好的智能模型,所述光学字符识别模型获取文档内容的具体过程如下:
44.(1)、通过预处理模型对合同文件进行预处理后并得到合同文件的预处理图片;例如:识别图片格式文档的文字方向,若文字方向不正确,则旋转至正确方向;以及对处于正确方向的图片格式文档进行分割,得出包含文字的一个或多个文本框;
45.(2)、将预处理图片输入到空间模型中,通过卷积、池化、激活函数提取空间潜层信息;所述空间模型在融合浅层信息和融合深层信息特征时,均是采用一层1*1卷积层和一层3*3或5*5的卷积层;
46.(3)、将得到的空间潜层信息输入到时序模型中,通过多层双向srn层提取时序潜层信息;所述时序模型的构成是:第一层和第三层均为双向srn层,对大部分运算进行并行处理;第二层和第四层为全连接层;
47.(4)、根据时序潜层信息对输入的图片进行字符分类,得到全文内容文本。该步骤可由嵌入层实现,嵌入层的节点数为分类字符的总个数。
48.所述空间模型的构成如下:
49.第一层是卷积层,卷积核为5
×
5,步长为2
×
2,填充为2
×
2,通道数为24,激活函数为relu;
50.第二层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为24,激活函数为relu;
51.第三层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为128;
52.第四层是池化层,核为2,步长为2;
53.第五层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为128,归一化方法为bn,激活函数为relu;
54.第六层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为256,归一化方法为bn;
55.第七层是卷积层,卷积核为3
×
3或5
×
5,步长为1
×
1,填充为1
×
1,通道数为256,归一化方法为bn,激活函数为relu;
56.第八层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为256;
57.第九层是池化层,核为2
×
2,步长为2
×
1,填充为0
×
1;
58.第十层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为256,归一化方法为bn,激活函数为relu;
59.第十一层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512,归一化方法为bn;
60.第十二层是卷积层,卷积核为3
×
3或5
×
5,步长为1
×
1,填充为1
×
1,通道数为512,激活函数为relu;
61.第十三层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512;
62.第十四层是池化层,核为2
×
2,步长为2
×
1,填充为0
×
1;
63.第十五层是卷积层,卷积核为2
×
2,步长为1
×
1,填充为1
×
1,通道数为512,归一
化方法为bn,激活函数为relu;
64.第十六层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512,归一化方法为bn。
65.上述第一层至第五层中的卷积层是用于提取较为浅层的信息,第六层和第七层是用于融合较为浅层的信息;第八层卷积层和第十层卷积层是用于提取较为深层的信息,第十一层和第十二层则是用于融合较为深层的信息。浅层信息包含了更多的图像细节纹理信息,深层信息包含了更多的总体特征信息。经过第六层和第七层以及第十一层和第十二层两处卷积操作,使提取的特征分别为了融合浅层信息与深层信息。
66.本发明中,第六层卷积层采用1*1卷积层,目的是融合浅层通道之间的特征信息,第七层卷积层采用3*3或5*5的卷积层,可以有效提取浅层特征图的特征信息,二者配合使用,大大提升了浅层信息的融合质量。同理,第十一层卷积层采用1*1卷积层,目的是融合深层通道之间的特征信息,第十二层卷积层采用3*3或5*5的卷积层,可以有效提取深层特征图的特征信息,二者配合使用,大大提升了深层信息的融合质量。
67.所述时序模型的构成是:
68.第一层为双向srn层,节点数为256;
69.第二层为全连接层,节点数为256:
70.第三层为双向srn层,节点数为256:
71.第四层为全连接层,节点数为256。
72.基于同一发明构思,本技术还提供了与实施例一中的方法对应的装置,详见实施例二。
73.实施例二
74.如图2所示,在本实施例中提供了一种合同规范性的审核装置,包括:
75.格式判断模块,用于在接收到合同审核指令后,获取合同文件的格式信息;
76.文档内容获取模块,用于根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
77.审核规则确认模块,用于将所述全文内容文本与合同类型模板进行正交比对,确认合同所属的种类,并根据种类确认适用的审核模板,所述审核模板包括一个或多个关键词、各关键词使用的空间条件以及各关键词的叙述规范;
78.审核模块,用于调用适用的审核模板,对所述全文内容文本进行模板比对审核,具体是:将所述全文内容文本与各所述关键词进行一一比对,判断是否存在所述关键词;
79.若否,则提示需添加相关项;
80.若是,进一步判断关键词是否满足所述空间条件,若不满足,则提示对于该审核项需要清晰说明;若满足,则给出该合同涉及相关项且不违规的提示,并根据所述叙述规范进一步判断关键词叙述是否规范;若不规范,则直接提示不规范并显示规范要求;若规范,则提示合同符合规范。
81.其中,作为本实施例的一种更优或更为具体的实现方式,所述光学字符识别模型为经过扫描合同数据集强化训练好的智能模型,如图3所示,具体包括:
82.预处理模型,用于对合同文件进行预处理后并得到合同文件的预处理图片;
83.空间模型,用于将预处理图片通过卷积、池化、激活函数提取空间潜层信息;
84.时序模型,用于将得到的空间潜层信息通过多层双向srn层提取时序潜层信息;
85.嵌入层,用于根据时序潜层信息对输入的图片进行字符分类,得到全文内容文本。
86.所述空间模型的构成如下:
87.第一层是卷积层,卷积核为5
×
5,步长为2
×
2,填充为2
×
2,通道数为24,激活函数为relu;
88.第二层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为24,激活函数为relu;
89.第三层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为128;
90.第四层是池化层,核为2,步长为2;
91.第五层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为128,归一化方法为bn,激活函数为relu;
92.第六层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为256,归一化方法为bn;
93.第七层是卷积层,卷积核为3
×
3或5
×
5,步长为1
×
1,填充为1
×
1,通道数为256,归一化方法为bn,激活函数为relu;
94.第八层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为256;
95.第九层是池化层,核为2
×
2,步长为2
×
1,填充为0
×
1;
96.第十层是卷积层,卷积核为3
×
3,步长为1
×
1,填充为1
×
1,通道数为256,归一化方法为bn,激活函数为relu;
97.第十一层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512,归一化方法为bn;
98.第十二层是卷积层,卷积核为3
×
3或5
×
5,步长为1
×
1,填充为1
×
1,通道数为512,激活函数为relu;
99.第十三层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512;
100.第十四层是池化层,核为2
×
2,步长为2
×
1,填充为0
×
1;
101.第十五层是卷积层,卷积核为2
×
2,步长为1
×
1,填充为1
×
1,通道数为512,归一化方法为bn,激活函数为relu;
102.第十六层是卷积层,卷积核为1
×
1,步长为1
×
1,通道数为512,归一化方法为bn。
103.所述时序模型的构成是:
104.第一层为双向srn层,节点数为256;
105.第二层为全连接层,节点数为256:
106.第三层为双向srn层,节点数为256:
107.第四层为全连接层,节点数为256。
108.上述第一层至第五层中的卷积层是用于提取较为浅层的信息,第六层和第七层是用于融合较为浅层的信息;第八层卷积层和第十层卷积层是用于提取较为深层的信息,第十一层和第十二层则是用于融合较为深层的信息。浅层信息包含了更多的图像细节纹理信息,深层信息包含了更多的总体特征信息。经过第六层和第七层以及第十一层和第十二层两处卷积操作,使提取的特征分别为了融合浅层信息与深层信息。
109.本发明中,第六层卷积层采用1*1卷积层,目的是融合浅层通道之间的特征信息,第七层卷积层采用3*3或5*5的卷积层,可以有效提取浅层特征图的特征信息,二者配合使用,大大提升了浅层信息的融合质量。同理,第十一层卷积层采用1*1卷积层,目的是融合深
层通道之间的特征信息,第十二层卷积层采用3*3或5*5的卷积层,可以有效提取深层特征图的特征信息,二者配合使用,大大提升了深层信息的融合质量。
110.由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
111.基于同一发明构思,本技术提供了实施例一对应的电子设备实施例,详见实施例三。
112.实施例三
113.如图4所示,本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
114.由于本实施例所介绍的电子设备为实施本技术实施例一中方法所采用的设备,故而基于本技术实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本技术实施例中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例中的方法所采用的设备,都属于本技术所欲保护的范围。
115.基于同一发明构思,本技术提供了实施例一对应的存储介质,详见实施例四。
116.实施例四
117.如图5所示,本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
118.本技术实施例提供的方法、装置、设备及介质,至少具有如下技术效果或优点:在接收到合同审核指令时,先获取合同文件的格式信息来确定识别方式,若能按文件的编码格式直接读取文档内容则直接读取,如word文档,和部分pdf文档,否则调用光学字符识别模型获取文档内容,如扫描合同获得的图片格式;在得到全文内容文本时对其进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;再判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
119.本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
120.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
121.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
122.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
123.虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1