合同相对方信息的结构化方法及装置与流程

文档序号:19879421发布日期:2020-02-08 06:49阅读:369来源:国知局
合同相对方信息的结构化方法及装置与流程

本申请涉及自然语言处理领域,尤其涉及一种合同相对方信息的结构化方法及装置。



背景技术:

合同,又称为契约、协议,是平等的当事人之间设立、变更、终止民事权利义务关系的协议。在合同文本中,当事人又称为相对方或相对方主体,例如,甲方、乙方等。一份合同文本至少包括两个相对方主体,即甲方和乙方,有时则包括多个相对方,如甲方、乙方、丙方、丁方等。

由于合同与公民个人的生活、社会经济的运行息息相关,例如公民购房需要签订购房合同、企业之间经济往来需要签订买卖合同等,尤其是对于企业来说,其在运行过程中将产生大量的合同,因此为了规避合同履行过程中的法律风险,随之产生了合同审核需求。

近年来,为了节约人力资源并提高合同审核的准确性,基于机器学习技术的机器辅助审核方式逐渐取代人工审核。其中,由于相对方主体的属性信息是广泛存在于不同类型的合同文本中的重要信息,因此对相对方主体的属性信息的审核,对完成一份完整合同文本的审核尤为重要。进而,如何实现合同文本中相对方信息的抽取及结构化处理,是机器辅助审核过程中亟待解决的问题。



技术实现要素:

本申请提供一种合同相对方信息的结构化方法及装置,以解决如何实现合同文本中相对方信息的抽取及结构化处理的问题。

第一方面,本申请提供一种合同相对方信息的结构化方法,所述方法包括:

利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;

按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;

从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。

第二方面,本申请还提供一种合同相对方信息的结构化处理装置,所述装置包括:

抽取模块,用于利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;

切分模块,用于按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;

归类模块,用于从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。

由以上技术方案可知,本申请实施例提供的合同相对方信息的结构化方法及装置,首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请根据一示例性实施例示出的合同相对方信息的结构化方法流程图;

图2为本申请根据一示例性实施例示出的合同相对方信息的结构化方法的另一流程图;

图3为本申请根据一示例性实施例示出的合同相对方信息的结构化装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请实施例提供一种合同相对方信息的结构化方法,用于实现合同中相对方信息的抽取及结构化处理,应用于合同的机器辅助审核方法中,使机器根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。其中,合同相对方信息即合同文本中所包括的相对方主体的属性信息。

实际上,合同可以具有不同的形式,包括书面形式、口头形式和其他形式,多为书面形式。本申请方法的处理对象,为书面形式的合同,即合同文本。合同文本作为载体,记载了合同的内容。

需要说明的是,在一些场景中,不乏将其他形式的合同转换成合同文本,再进行下一步处理的情况,对此,需要强调的是,经其他形式的合同转换得到的合同文本,也是本申请方法的应用对象。

图1为本申请合同相对方信息的结构化方法的流程图,如图1所示,该方法可以包括:

步骤101,利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。

合同文本可以以不同的版式来记载合同内容。在本实施例中,根据合同的常见版式,将各类合同文本划分成两种情形,分别为第一情形和第二情形。该两种情形的相同之处在于,均包括至少两个相对方主体,其不同之处在于,属于第一情形的合同文本中,不同相对方主体的属性信息同行,而属于第二情形的合同文本中,每个相对方主体的至少一条属性信息单独成行。

示例性地,以下“发明专利转让合同”属于第一情形。

发明专利转让合同

甲方(转让方):_________乙方(受让方):_________

职务:_________职务:_________

地址:____市____路___号地址:___市____路____号

代理人:_________代理人:_________

鉴于转让方合法拥有一项非职务发明创造……

双方认为,……经双方友好协商,就下述内容达成协议:

转让方将_________发明专利申请权有偿转让给受让方。

……

转让方:_________(签章)受让方:_________(签章)

_________年____月____日_________年____月____日

上述“发明专利转让合同”文本中,甲方(转让方):___、职务:___、地址:____市____路___号、代理人:____等,属于甲方的属性信息,同理,乙方的属性信息也包括乙方(受让方):___、职务:___、地址:____市____路___号、代理人:____等。从该“发明专利转让合同”文本中,可以看出,分别属于不同相对方主体的属性信息位于同一行中。

示例性地,以下“劳动合同”和“物业管理合同”属于第二情形。

劳动合同

甲方(名称):_____________________

法定代表人或委托代理人:___________

注册地址:_________________________

通讯地址:_________________________

邮政编码:_________________________

乙方(姓名):_____________________

性别:_____________________________

居民身份证号码:___________________

出生日期:_________________________

家庭住址:_________________________

邮政编码:_________________________

户口所在地:_______________________

通讯地址:_________________________

邮政编码:_________________________

电话:_____________________________

鉴于乙方……,甲乙双方经平等协商一致,自愿签订本劳务协议,共同遵守本协议所列条款。

第一条本协议期限为________年。

……

第十六条本合同一式两份,甲乙双方各执一份。

甲方:(公章)_______________

日期:_______年_____月_____日

乙方:(签章)_______________

日期:_______年_____月_____日

乙方家属意见:_______________

签字:_______________________

与乙方关系:_________________

身份证号码:_________________

从以上“劳动合同”可以看出,一个相对方(甲方或者乙方)的每一条属性信息均单独成行,例如,甲方(名称):____单独成行。

物业管理合同

甲方(委托方):____地址:____邮码:___电话:________

法定代表人:_____职务:___

乙方(受委托方):____地址:____邮码:____电话:________

法定代表人:______职务:___

为加强……经双方友好协商,达成如下协议。

……

甲方:____

代表人:____

____年____月____日

乙方:____

代表人:____

____年____月____日

从以上“物业管理合同”可以看出,一个相对方(甲方或者乙方)的多条属性信息同行,例如,甲方的属性信息甲方(委托方):____地址:____邮码:___电话:_____同行。

在一种可能的实现方式中,目录树以目录节点的形式,对各类合同文本中的各种关键信息进行概括,其中,多个目录节点顺序地列出合同文本中可能会出现的关键信息的主题,例如,相对方信息(相对方主体的属性信息)即为合同文本中的一种关键信息的主题,此外,还包括诸如甲方权利与义务信息、乙方权利与义务信息等主题。

示例性地,一种目录树部分结构如下:

……

合同审核信息抽取

相对方信息抽取-----------<抽取表达式>

甲方权利与义务信息抽取--<抽取表达式>

乙方权利与义务信息抽取--<抽取表达式>

……

可以看出,每个目录节点包括至少一个抽取表达式,用于从合同文本中抽取该节点对应的段落。抽取表达式预先定义在目录树中,表达式中包括抽取前界、抽取前界与抽取内容之间的距离、抽取后界,以及抽取后界与与抽取内容之间的距离。

示例性地,一种抽取表达式结构如下:

c_甲方{0,0}@.*@{0,0}c_乙方

该抽取表达式的作用是,抽取前界“甲方”之后的0个距离与后界“乙方”之前的0个距离之间的任意字符。

另外,为了实现更多功能,上述目录树中,每个目录节点还可以包括子节点,每个子节点对应至少一个抽取表达式,用于从合同文本中抽取该节点对应的段落。由于不同子节点对应的抽取表达式会不同,因此,可以同于定义每个子节点的抽取表达式,实现针对不同的情形的合同文本进行处理。

基于上述目录树,另一示例性目录树结构如下:

……

合同审核信息抽取

相对方信息抽取-----------<抽取表达式>

多相对方信息--------<抽取表达式>

相对方同行-----------<抽取表达式>

多属性同行-----------<抽取表达式>

甲方权利与义务信息抽取--<抽取表达式>

甲方权利--------------<抽取表达式>

甲方义务--------------<抽取表达式>

乙方权利与义务信息抽取--<抽取表达式>

乙方权利--------------<抽取表达式>

乙方义务--------------<抽取表达式>

……

作为一种可能的实现方式,“多相对方信息”这一子节点可以针对包括两个以上相对方主体的合同文本进行处理,“相对方同行”这一子节点可以针对属于第一情形的合同文本进行处理,等等。

需要说明的是,本申请中,目录树不局限于上述示例中示出的结构,目录树的结构可以根据用户的合同文本中相对方信息的处理需求做出改变。

在上述步骤101中,将合同文本的内容按行输入到目录树中,可以抽取出至少一个内容区块。每个内容区块包括至少一行文本内容,当其包含多行文本内容时,所包含的多行文本内容是连续的,或者说是相邻的。

具体实现时,可以首先获取合同文本所属的情形,然后再根据合同文本所属的情形,从目录树中选择相应的目录节点或子节点,以利用所选择的节点的抽取表达式,抽取出包括相对方信息的内容区块。

示例性地,以上述“发明专利转让合同”为例,由于该合同文本属于第一情形,即其不同相对方主体(甲方和乙方)的属性信息同行,因此,可以选择上述示例性目录树中的“相对方同行”这一节点对该合同文本进行处理。抽取结果如下:

甲方(转让方):_________乙方(受让方):_________

职务:_________职务:_________

地址:____市____路___号地址:___市____路____号

代理人:_________代理人:_________

---------------------------------------------------------------------

转让方:_________(签章)受让方__________(签章)

_________年____月____日_________年____月____日

可以看出,该抽取结果包括两个内容区块,实际上,这两个内容区块分别为:在合同文本的首部段落罗列的相对方信息,和,在尾部段落罗列的相对方信息。该首部和尾部对应的内容区块中,分别包括连续的多行内容,但首部对应的内容区块的最后一行与尾部对应的内容区块的第一行不相邻。

另一示例性地,以上述“劳动合同”为例,由于该合同文本属于第二情形,并且,其中,每个相对方主体的仅一条属性信息单独成行,因此,可以选择上述示例性目录树中的“相对方信息抽取”这一目录节点对合同文本进行处理。

抽取结果如下:

甲方(名称):_______________________

法定代表人或委托代理人:___________

注册地址:_________________________

通讯地址:_________________________

邮政编码:_________________________

乙方(姓名):_______________________

性别:_____________________________

居民身份证号码:___________________

出生日期:_________________________

家庭住址:_________________________

邮政编码:_________________________

户口所在地:_______________________

通讯地址:_________________________

邮政编码:_________________________

电话:_____________________________

---------------------------------------------------------------------

甲方:(公章)_______________

日期:_______年_____月_____日

乙方:(签章)_______________

日期:_______年_____月_____日

乙方家属意见:_______________

签字:_______________________

与乙方关系:_________________

身份证号码:_________________

可以看出,该抽取结果包括两个内容区块,由于与上述“发明专利转让合同”的抽取结果类似,此处不再赘述。

以上两个示例,仅仅是本申请方法根据合同文本所属的情形,选择从目录树中选择相应的目录节点或子节点,以利用所选择的节点的抽取表达式,抽取出包括相对方信息的内容区块的示例性说明。

当然,随着用户的处理需求的改变,以及目录树结构的改变,本申请方法还可以有更多示例。例如,如果某份合同文本中包含四个相对方主体,则除了可以使用上述“相对方信息”这一目录节点外,还可以选择使用诸如“多相对方”节点的其他节点,以方便在后续步骤中根据相对方主体的数量,对抽取出的相对方信息进行结构化处理。例如,使用“多相对方”或“识别三相对方”、“识别四相对方”、“识别五相对方”中的一个或多个节点对合同文本(同时)进行处理,如果其中“识别三相对方”具有抽取结果,则说明该合同文本中至少存在三个相对方主体,如果其中“识别四相对方”具有抽取结果,则说明该合同文本中至少存在四个相对方主体,当多个目录树节点均具有抽取结果时,则以相对方数量较多的结果为准。

步骤102,按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应。

对内容区块进行切分,即分行处理,目的是使得到的每一目标行仅包含一条属性信息。在步骤102中,如果一个内容区块中,一行内容仅对应一条属性信息,则切分后的行与切分前的行,在所包含内容上,并无不同。如果一个内容区块中,一行内容对应多条属性信息,则经切分,原本的一行内容会形成多个目标行。

基于此,步骤102在具体实现时,对于每个内容区块,可以首先利用预设目录树识别内容区块中包含一条以上属性信息的行。

具体的,在一种可能的方式中,可以利用相应的目录节点,对整份合同文本进行处理,以从中抽取出包含一条以上属性信息的行,再结合已抽取出的内容区块,即可得到该内容区块中包含一条以上属性信息的行。

需要说明的是,由于多属性同行的情形,不但包括同一个相对方主体的不同属性信息同行的情形,如上述属于第二情形的“物业管理合同”,还包括不同相对方主体的属性信息同行的情形,如上述属于第一情形的“发明专利转让合同”。因此,如果合同文本所属的情形为第二情形,则利用预设目录树识别所述内容区块中包含一条以上属性信息的行;如果合同文本所属的情形为第一情形,由于其对应的内容区块的每一行必然会包括至少两条属性信息,因此,无需再次识别。

以上述“物业管理合同”为例,由于该合同属于第二情形,因此根据步骤101,一方面,可以选择“相对方信息”这一目录节点,从中抽取出至少一个内容区块,抽取结果如下:

甲方(委托方):____地址:____邮码:___电话:________

法定代表人:_____职务:___

乙方(受委托方):____________物业管理公司

地址:________________邮码:____________电话:________

法定代表人:________________职务:________

------------------------------------------------------------------

甲方:____

代表人:____

____年____月____日

乙方:____

代表人:____

____年____月____日

另一方面,为了识别出以上两个内容区块中包含一条以上相对方属性信息的行,需要同时利用目录树中相应的目录节点对该合同文本进行处理,例如使用上述示例目录树中的“多属性同行”这一子节点进行识别。识别结果如下:

甲方(委托方):____地址:____邮码:___电话:________

法定代表人:_____职务:___

乙方(受委托方):______地址:________邮码:________电话:________

法定代表人:_______职务:________

--------------------------------------------------------------------

上述示例性展示的识别结果中,未划线的行中包括一条以上的属性信息,并且,同一个相对方主体的不同属性信息同行。

另一示例性地,对上述“发明专利转让合同”对应的内容区块进行识别,识别到的包括一条以上属性信息的行,如下:

甲方(转让方):_________乙方(受让方):_________

职务:_________职务:_________

地址:____市____路___号地址:___市____路____号

代理人:_________代理人:_________

--------------------------------------------------------------------

转让方:_________(签章)受让方:_________(签章)

_________年____月____日_________年____月____日

可见,对于该两个内容区块,每个内容区块中的每一行,均包括两条属性信息,这两条属性信息分别属于甲方和乙方。

步骤102在具体实现时,识别出每个内容区块中包含一条以上属性信息的行之后,对于包含一条以上属性信息的行,在每一条属性信息的首部(或者尾部)设置切分点,而对于仅包含一条以上属性信息的行,在所述行的首部(或者尾部)设置切分点;最后,按照设置的切分点,将所述内容区块切分成若干目标行。

需要说明的是,可以通过在切分点处插入间隔符,来间隔相邻的属性信息,从而达到将内容区块切分成目标行的目的,也就是说,设置切分点即是先行确定间隔符的插入位置。切分得到的每一目标行则仅包括一条属性信息。

示例性地,按照属性信息,分别对“物业管理合同”对应的两个内容区块进行切分,得到若干目标行,结果如下:

甲方(委托方):____\n

地址:____\n

邮码:___\n

电话:________\n

法定代表人:_____\n

职务:___\n

乙方(受委托方):_______\n

地址:________\n

邮码:________\n

电话:________\n

法定代表人:________\n

职务:________\n

---------------------------------------------------------------------

甲方:____\n

代表人:____\n

____年____月____日\n

乙方:____\n

代表人:____\n

____年____月____日\n

另一示例性地,按照属性信息,分别对“发明专利转让合同”对应的两个内容区块进行切分,得到若干目标行,结果如下:

甲方(转让方):______\n

乙方(受让方):______\n

职务:_______\n

职务:_______\n

地址:____市____路___号\n

地址:___市____路____号\n

代理人:_______\n

代理人:_______\n

---------------------------------------------------------------------

转让方:_________(签章)\n

受让方:_________(签章)\n

_________年____月____日\n

_________年____月____日\n

上述示例中,\n即为间隔符。

步骤103,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。

由上述实施例可知,将包含相对方属性信息的内容区块切分成若干目标行后,每一条属性信息单独存在于一个目标行中,因此从切分得到的目标行中,可以分别提取出每个相对方主体的属性信息。

具体实现时,首先按照属性信息在合同文本中的位置顺序,对目标行进行排序;然后,根据如果合同文本所属的情形获取相应的提取规则:如果合同文本所属的情形为第一情形,则获取第一情形预设的第一提取规则;使用第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;如果合同文本所属的情形为第二情形,则获取第二情形预设的第二提取规则;使用第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。

需要说明的是,第一提取规则为第一情形的合同文本预设的提取规则,用于从此类合同文本经处理得到的若干目标行中,提取出每个相对方主体的属性信息。第一提取规则中包括每个相对方主体的属性信息在合同文本中的位置规律。例如,由于在第一情形中,不同相对方主体的属性信息同行,因此各个相对方主体的第一条属性信息顺序地记载在内容区块的第一行中,各个相对方主体的第二条属性信息则顺序地记载在内容区块的第二行中,各个相对方主体的第三条属性信息则顺序地记载在内容区块的第三行中,以此类推……,当目标行的排列顺序与其在合同文本中的位置顺序一致的情况下,即可根据第一提取规则,分别提取出每个相对方主体的属性信息。

示例性地,将上述“发明专利转让合同”对应的若干目标行按照其在合同文本中的位置顺序进行排序,得到:

甲方(转让方):______\n

乙方(受让方):______\n

职务:_______\n

职务:_______\n

地址:____市____路___号\n

地址:___市____路____号\n

代理人:_______\n

代理人:_______\n

---------------------------------------------------------------------

转让方:_________(签章)\n

受让方:_________(签章)\n

_________年____月____日\n

_________年____月____日\n

根据第一提取规则,将上述若干目标行中位置序号为奇数的目标行提取出来,则可以得到甲方的属性信息,剩余的目标行则为乙方的属性信息,分别如下:

甲方(转让方):______\n

职务:_______\n

地址:____市____路___号\n

代理人:_______\n

---------------------------------------------------------------------

乙方(受让方):______\n

职务:_______\n

地址:____市____路___号\n

代理人:_______\n

---------------------------------------------------------------------

转让方:_________(签章)\n

_________年____月____日\n

---------------------------------------------------------------------

受让方:_________(签章)\n

_________年____月____日\n

与上述第一提取规则类似,第二提取规则为第二情形的合同文本预设的提取规则,用于从此类合同文本经处理得到的若干目标行中,提取出每个相对方主体的属性信息。第二提取规则中包括相对方主体的属性信息在合同文本中的位置规律。例如,由于在第二情形的合同文本中,甲方的属性信息先于乙方的属性信息出现,如果存在丙方,则乙方的属性信息会先于丙方的属性信息出现……而当目标行的排列顺序与其在合同文本中的位置顺序一致的情况下,即可根据第二提取规则,分别提取出每个相对方主体的属性信息。

示例性地,将上述“物业管理合同”对应的若干目标行按照其在合同文本中的位置顺序排序得到:

甲方(委托方):____\n

地址:____\n

邮码:___\n

电话:________\n

法定代表人:_____\n

职务:___\n

乙方(受委托方):_______\n

地址:________\n

邮码:________\n

电话:________\n

法定代表人:________\n

职务:________\n

---------------------------------------------------------------------

甲方:____\n

代表人:____\n

____年____月____日\n

乙方:____\n

代表人:____\n

____年____月____日\n

根据第二提取规则,将位于字符“甲方”的前一个字符与字符“乙方”之间的目标行抽取出来,即可得到甲方的属性信息,剩余的目标行则为乙方的属性信息,分别如下:

甲方(委托方):____\n

地址:____\n

邮码:___\n

电话:________\n

法定代表人:_____\n

职务:___\n

---------------------------------------------------------------------

乙方(受委托方):_______\n

地址:________\n

邮码:________\n

电话:________\n

法定代表人:________\n

职务:________\n

---------------------------------------------------------------------

甲方:____\n

代表人:____\n

____年____月____日\n

---------------------------------------------------------------------

乙方:____\n

代表人:____\n

____年____月____日\n

还需说明的是,在步骤103具体实现时,可以将由同一个内容区块切分得到的目标行放入到保存到同一个字符串中,以便针对不同的内容区别分别处理。

由以上实施例可知,本申请提供一种合同相对方信息的结构化方法,包括:利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息;按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应;从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。

该方法首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。

图2为本申请合同相对方信息的结构化方法的另一实施例流程图,该实施例为基于图1所示的实施例的细化实施例。如图2所示,一种合同相对方信息的结构化方法,可以包括:

步骤201,获取所述合同文本所属的情形。

其中,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行。

步骤202,如果合同文本所属的情形为第一情形,则选择第一目录节点从所述合同文本中抽取至少一个所述内容区块。

步骤203,如果合同文本所属的情形为第二情形,则选择第二目录节点从所述合同文本中抽取至少一个所述内容区块。

其中,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。每个目录节点包括至少一个抽取表达式,第一目录节点的抽取表达式与第二目录节点的抽取表达式不同。

在步骤203之后,执行步骤204,利用预设目录树识别所述内容区块中包含一条以上属性信息的行。

在步骤202和步骤204之后,执行步骤205,在每一条属性信息的首部或者尾部设置切分点,按照设置的所述切分点,将所述内容区块切分成若干目标行,以使每一目标行仅包含一条属性信息。

其中,对于仅包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点。

步骤206,按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序。

如果所述合同文本所属的情形为第一情形,则在步骤206后执行步骤207,则获取所述第一情形预设的第一提取规则。

步骤208,使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。

如果所述合同文本所属的情形为第二情形,则在步骤206后执行步骤209,获取所述第二情形预设的第二提取规则。

步骤210,使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。

本实施例中,首先从合同文本中抽取至少一个包括相对方信息的内容区块,由于内容区块中包括每个相对方主体的属性信息,不便于区分属性信息与相对方主体的所属关系,进而不便于审核,因此该方法再按照属性信息,将每一内容区块切分成若干目标行,使每一目标行与一条属性信息对应,进而以每一条属性信息为归类对象,方便对每个相对方主体的属性信息进行归类,即,从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。将该方法应用于合同的机器辅助审核方法中,使机器可以根据相对方信息的结构化处理结果来审核相对方信息,提高审核效率和审核的准确性。

根据本申请实施例提供的合同相对方信息的结构化方法,本申请实施例还提供一种合同相对方信息的结构化装置。图3为本申请示例性示出的装置框图,如图3所示,该装置可以包括:

抽取模块301,用于利用预设目录树从合同文本中抽取至少一个内容区块,一个所述内容区块由一行或者连续的多行内容构成,所述一行或者连续的多行内容包括至少两个相对方主体的属性信息。

切分模块302,用于按照所述属性信息,将所述内容区块切分成若干目标行,每一所述目标行与一条属性信息对应。

归类模块303,用于从切分得到的若干目标行中,分别提取出每个相对方主体的属性信息。

在一个实施例中,抽取模块301,包括:获取单元,用于获取所述合同文本所属的情形,所述情形至少包括第一情形和第二情形,所述第一情形中包括至少两个相对方主体,不同相对方主体的属性信息同行,所述第二情形中包括至少两个相对方主体,每个相对方主体的至少一条属性信息单独成行;选择单元,用于根据所述合同文本所属的情形,选择用于从合同文本中抽取所述内容区块的目录节点,所述目录节点包括至少一个抽取表达式;抽取单元,用于利用选择的目录节点从所述合同文本中抽取至少一个所述内容区块。

在一个实施例中,所述切分模块302,包括:识别单元,用于如果所述合同文本所属的情形为第二情形,利用预设目录树识别所述内容区块中包含一条以上属性信息的行。切分单元,用于对于识别出的包含一条以上属性信息的行,在每一条属性信息的首部或者尾部设置切分点;对于识别出的未包含一条以上属性信息的行,在所述行的首部或者尾部设置切分点;按照设置的所述切分点,将所述内容区块切分成若干目标行。

在一个实施例中,所述归类模块303,包括:排序单元,用于按照所述属性信息在所述合同文本中的位置顺序,对所述目标行进行排序;获取单元,用于如果所述合同文本所属的情形为第一情形,则获取所述第一情形预设的第一提取规则;如果所述合同文本所属的情形为第二情形,则获取所述第二情形预设的第二提取规则;提取单元,用于使用所述第一提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行;或者,使用所述第二提取规则从排序后的目标行中提取出与每个相对方主体的属性信息对应的目标行。

具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的呼叫方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:rom)或随机存储记忆体(英文:randomaccessmemory,简称:ram)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1