本发明涉及语义分析的,尤其涉及一种深度语义分析的电子合同任务分派方法。
背景技术:
1、电子合同在互联网金融、银行、电子商务等业务应用广泛,打破传统地域限制,改变传统快递、传真等合同文件的传递方式,在电子合同在船舶行业应用提供可行性。电子合同的推广在极大提高产业交流效率的同时也为合同的智能分析提供了便利。为了进一步提高电子合同的智能化程度,本发明提出一种深度语义分析的电子合同任务分派方法,在电子合同任务内容强关联性和专业性的基础上通过深度语义分析技术实现对电子合同任务内容的自动关联,促进电子合同内容的快速理解与实施,提高任务分派效率。
技术实现思路
1、有鉴于此,本发明提供一种深度语义分析的电子合同任务分派方法,目的在于:1)利用两种编码方式分别对电子合同以及任务内容文本数据进行编码表示,在电子合同中分词结果的编码过程中,通过结合分词结果的位置以及前文信息生成分词结果编码结果,使得分词结果的编码结果有效结合了上文信息以及位置信息,增强了电子合同文本编码向量的语义连续性,而对任务内容文本中的内容描述词汇进行基于注意力机制的编码处理,进而得到能够有效表征任务内容有效信息的编码结果;2)分别构建用于对编码结果进行重映射的电子合同句向量重映射矩阵以及任务内容句向量重映射矩阵,通过结合句向量之间的关联性,在不改变句向量本身语义的情况下,对每个句向量添加邻域句向量的语义,使得重映射后每个句向量均可以表征本身以及邻域的语义信息,进而结合特征分解方式分别对流形电子合同向量以及流形任务内容向量进行分解,得到特征向量矩阵实现电子合同向量的任务内容识别,根据任务内容识别结果对待分派的电子合同文本数据进行任务分派,促进电子合同内容的快速理解与实施,提高任务分派效率。
2、实现上述目的,本发明提供的一种深度语义分析的电子合同任务分派方法,包括以下步骤:
3、s1:获取待分派的电子合同文本数据,并生成多种任务内容的文本数据,分别对电子合同文本数据和任务内容文本数据进行编码处理,得到电子合同向量和任务内容向量;
4、s2:对编码处理得到的电子合同向量和任务内容向量分别进行重映射得到流形电子合同向量和流形任务内容向量;
5、s3:构建电子合同任务内容识别模型,所述电子合同任务内容识别模型以流形电子合同向量和流形任务内容向量为输入,以流形电子合同向量对应的任务内容为输出;
6、s4:利用电子合同任务内容识别模型对待分派电子合同文本数据的流形电子合同向量进行任务内容识别,根据任务内容识别结果对待分派的电子合同文本数据进行任务分派。
7、作为本发明的进一步改进方法:
8、可选地,所述s1步骤中获取待分派的电子合同文本数据,并生成多种任务内容的文本数据,包括:
9、获取待分派的电子合同文本并进行分词处理,得到待分派的电子合同文本数据:
10、x=(x1,x2,...,xn,...,xn)
11、其中:
12、x表示待分派的电子合同文本数据,xn表示电子合同文本数据x中的第n个分词结果,n表示电子合同文本经分词处理得到的分词结果总数;
13、其中电子合同文本中任意一句合同文本的分词处理流程为:
14、预构建合同文本常用词词典,截取合同文本中前s个文本字符与合同文本常用词词典中的常用词进行比对匹配,若匹配不成功,则截取合同文本前s-1个文本字符与合同文本常用词词典中的常用词进行比对匹配,以此类推,直到比对成功或合同文本仅剩一个文本字符,将比对成功的合同文本字符作为匹配成功的分词结果,并在该句合同文本前删去分词结果,重新进行常用词比对匹配;
15、生成多种任务内容的文本数据:
16、
17、其中:
18、表示第m种电子合同任务内容的文本数据,表示ym中的第m个内容描述词汇,m表示所生成电子合同任务内容的种类数,k表示所生成每种电子合同任务内容的内容描述词汇总数。在本发明实施例中,文本数据中的标点符号同样为一个分词结果或者内容描述词汇,并对标点符号利用[cls]符号进行编码表示。
19、可选地,所述s1步骤中分别对电子合同文本数据和任务内容文本数据进行编码处理,包括:
20、分别对电子合同文本数据和任务内容文本数据进行编码处理,得到电子合同向量和任务内容向量,其中文本数据的编码处理流程为:
21、s11:对电子合同文本数据中的任意分词结果及任务内容文本数据中的内容描述词汇进行独热编码表示,得到任意分词结果及内容描述词汇的独热编码表示结果;
22、s12:根据文本数据中的标点符号将分词结果以及内容描述词汇归属到对应句子中,对分词结果进行权重计算:
23、
24、其中:
25、w(xn)表示分词结果xn的权重;
26、exp(·)表示以自然常数为底的指数函数;
27、l(xn)表示分词结果xn所归属句子的句中分词结果总数,loc(xn)表示分词结果xn在所属句子中的位置,即分词结果xn为所属句子的第loc(xn)个分词结果;
28、count(xn)表示分词结果xn在电子合同文本数据x中出现的次数;
29、sum(x)表示电子合同文本数据x中的句子数,sum(x,xn)表示电子合同文本数据x中出现分词结果xn的句子数;
30、并设置内容描述词汇的权重为1;
31、s13:基于分词结果以及内容描述词汇的权重,对分词结果及内容描述词汇的独热编码表示结果进行重编码处理:
32、
33、
34、其中:
35、z(xn)表示分词结果xn的重编码处理结果,表示内容描述词汇的重编码处理结果;
36、w(xn)表示分词结果xn的权重,表示内容描述词汇的权重,其中
37、wx表示预设的分词结果重编码矩阵参数,wy表示预设的内容描述词汇重编码矩阵参数;
38、σ1(·),σ2(·)表示激活函数,其中σ1(·)为relu激活函数,σ2(·)为sigmoid激活函数;
39、其中标点符号未进行重编码处理;
40、s14:基于重编码处理结果,分别构成电子合同向量和任务内容向量:
41、z(x)=(z(x1),z(x2),...,z(xn),...,z(xn))
42、
43、其中:
44、z(x)表示电子合同向量;
45、z(ym)第m种电子合同任务内容的任务内容向量。
46、可选地,所述s2步骤中对编码处理得到的电子合同向量和任务内容向量分别进行重映射,包括:
47、对编码处理得到的电子合同向量和任务内容向量分别进行重映射,其中重映射流程为:
48、s21:将电子合同向量和任务内容向量分别切分为句向量,得到电子合同句向量集合以及任务内容句向量集合:
49、
50、
51、其中:
52、表示电子合同句向量集合,sum(x)表示电子合同文本数据x中的句子数,z(xj)表示电子合同文本数据x中第j句文本数据的句向量;
53、表示第j句文本数据中第jnum个分词结果的重编码结果,jnum表示电子合同文本数据x中第j句文本数据内的分词结果数目;
54、表示第m种电子合同任务内容的任务内容句向量集合,z(ym(u))表示第m种电子合同任务内容中第u句文本数据的句向量,sum(ym)表示第m种电子合同任务内容的句子数;
55、表示第j句文本数据中第mnum(u)个内容描述词汇的重编码结果,mnum(u)表示第j句文本数据内的内容描述词汇数目;
56、在本发明实施例中,句向量中包含了除标点符号的其他重编码结果;
57、s22:对于电子合同句向量集合中的任意电子合同句向量z(xj),计算得到电子合同句向量z(xj)与电子合同句向量集合中其他电子合同句向量z(xs)的向量距离:
58、dis(z(xj),z(xs))=||z(xj)―z(xs)||2
59、其中:
60、dis(z(xj),z(xs))表示电子合同句向量z(xj)与电子合同句向量z(xs)的向量距离,s∈
61、[1,sum(x)],s≠j;
62、||·||2表示l2范数;
63、选取向量距离最近的jnum个电子合同句向量作为电子合同句向量z(xj)的邻域向量;
64、s23:构建关于求解电子合同句向量重映射矩阵的目标函数:
65、
66、
67、其中:
68、ωj(x)表示电子合同句向量z(xj)的邻域向量集,c表示邻域向量集中的任意电子合同句向量;
69、w(j,c)表示电子合同句向量z(xj)与电子合同句向量c的重映射参数;
70、||·||表示l1范数;
71、利用拉格朗日乘子法对目标函数进行求解,得到电子合同句向量z(xj)的重映射矩阵w(j):
72、w(j)=[w(j,1),w(j,2),...,w(j,c),...,w(j,jnum)]
73、基于重映射矩阵对电子合同句向量z(xj)进行重映射处理,其中映射处理公式为:
74、
75、其中:
76、z*(xj)表示电子合同句向量z(xj)的重映射结果;
77、重复步骤s22-s23,得到电子合同句向量集合中所有电子合同句向量的重映射结果;
78、s24:对于第m种电子合同任务内容的任意任务内容句向量,在第m种电子合同任务内容的任务内容句向量集合中获取邻域向量,并构建关于求解任务内容句向量重映射矩阵的目标函数进行重映射参数求解,进而构建得到重映射矩阵,基于重映射矩阵对任务内容句向量进行重映射处理,得到重映射结果,则z(ym(u))的重映射结果为z*(ym(u));
79、s25:构建得到流形电子合同向量和流形任务内容向量:
80、f(x)=(z*(x1),z*(x2),...,z*(xj),...,z*(xsum(x)))
81、f(ym)=(z*(ym(1)),z*(ym(2)),...,z*(ym(u)),...,z*(ym(sum(ym))))
82、其中:
83、f(x)表示流形电子合同向量;
84、f(ym)表示第m种电子合同任务内容的流形任务内容向量。
85、可选地,所述s3步骤中构建电子合同任务内容识别模型,包括:
86、构建电子合同任务内容识别模型,所述电子合同任务内容识别模型以流形电子合同向量和流形任务内容向量为输入,以流形电子合同向量对应的任务内容为输出;
87、其中电子合同任务内容识别模型包括输入层、语义关联层以及输出层,输入层用于接收待分派电子合同的流形电子合同向量以及所有任务内容的流形任务内容向量,并对输入结果进行特征分解处理,语义关联层用于计算流形电子合同向量与任意流形内容向量的语义关联程度,并选取语义关联程度最高的流形内容向量所对应的任务内容进行输出,输出结果即为待分派电子合同所对应的任务内容识别结果。
88、可选地,所述s3步骤中电子合同任务内容识别模型的训练流程包括:
89、获取d组流形电子合同向量以及对应的流形任务内容向量构成训练数据集data:
90、data={(gd,fd)|d∈[1,d]}
91、其中:
92、gd表示所获取的第d组流形电子合同向量,fd为流形电子合同向量gd对应的流形任务内容向量;在本发明实施例中,流形任务内容向量fd所对应的电子合同任务内容用以描述流形电子合同向量gd对应的电子合同;
93、基于训练数据集data的电子合同任务内容识别模型的训练流程为:
94、s31:构建电子合同任务内容识别模型的训练目标函数loss(h,w):
95、
96、其中:
97、表示对gd进行特征分解,分解得到的h个特征向量所对应的特征向量矩阵;
98、表示对fd进行特征分解,分解得到的h个特征向量所对应的特征向量矩阵;
99、w表示待优化求解的映射参数,h表示待优化求解的特征向量分解数目;
100、sim(·)表示余弦相似度算法;
101、表示选取使得达到最大的特征向量矩阵
102、s32:初始化映射参数w0,设置当前映射参数的优化次数为t,t的初始值为0,最大值为max,则第t次优化得到的映射参数为wt;
103、s33:利用adam优化算法对训练目标函数中的映射参数进行求解,求解结果即为w*,并基于映射参数w*构建得到电子合同任务内容识别模型。
104、可选地,所述s4步骤中利用电子合同任务内容识别模型对待分派电子合同文本数据的流形电子合同向量进行任务内容识别,包括:
105、利用电子合同任务内容识别模型对待分派电子合同文本数据的流形电子合同向量f(x)进行任务内容识别,其中任务内容识别流程为:
106、s41:输入层对流形电子合同向量f(x)以及m种电子合同任务内容对应的流形任务内容向量进行特征分解,分解得到h个特征值以及对应的特征向量,将h个特征向量构成特征向量矩阵,则流形电子合同向量f(x)的特征向量矩阵为q(x),流形任务内容向量f(ym)对应的特征向量矩阵为q(ym);
107、s42:语义关联层对特征向量矩阵q(x)进行特征映射,其中特征映射公式为:
108、q′(x)=w*q(x)
109、其中:
110、w*表示语义关联层中的映射参数;
111、q′(x)表示特征向量矩阵q(x)的特征映射结果;
112、计算特征映射结果q′(x)与任意流形任务内容向量所对应特征向量矩阵的余弦相似度,将余弦相似度计算结果作为流形电子合同向量f(x)与对应流形任务内容向量的语义关联程度;
113、s43:选取语义关联程度最高的流形内容向量所对应的任务内容进行输出,输出结果即为待分派电子合同所对应的任务内容识别结果;
114、根据任务内容识别结果进行电子合同任务分派。
115、为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
116、存储器,存储至少一个指令;
117、通信接口,实现电子设备通信;及
118、处理器,执行所述存储器中存储的指令以实现上述所述的深度语义分析的电子合同任务分派方法。
119、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的深度语义分析的电子合同任务分派方法。
120、相对于现有技术,本发明提出一种深度语义分析的电子合同任务分派方法,该技术具有以下优势:
121、首先,本方案提出一种文本数据编码表示方法,分别对电子合同文本数据和任务内容文本数据进行编码处理,得到电子合同向量和任务内容向量,其中文本数据的编码处理流程为:对电子合同文本数据中的任意分词结果及任务内容文本数据中的内容描述词汇进行独热编码表示,得到任意分词结果及内容描述词汇的独热编码表示结果;根据文本数据中的标点符号将分词结果以及内容描述词汇归属到对应句子中,对分词结果进行权重计算:
122、
123、其中:w(xn)表示分词结果xn的权重;exp(·)表示以自然常数为底的指数函数;l(xn)表示分词结果xn所归属句子的句中分词结果总数,loc(xn)表示分词结果xn在所属句子中的位置,即分词结果xn为所属句子的第loc(xn)个分词结果;count(xn)表示分词结果xn在电子合同文本数据x中出现的次数;sum(x)表示电子合同文本数据x中的句子数,sum(x,xn)表示电子合同文本数据x中出现分词结果xn的句子数;并设置内容描述词汇的权重为1;基于分词结果以及内容描述词汇的权重,对分词结果及内容描述词汇的独热编码表示结果进行重编码处理:
124、
125、
126、其中:z(xn)表示分词结果xn的重编码处理结果,表示内容描述词汇的重编码处理结果;w(xn)表示分词结果xn的权重,表示内容描述词汇的权重,其中wx表示预设的分词结果重编码矩阵参数,wy表示预设的内容描述词汇重编码矩阵参数;σ1(·),σ2(·)表示激活函数,其中σ1(·)为relu激活函数,σ2(·)为sigmoid激活函数;其中标点符号未进行重编码处理;基于重编码处理结果,分别构成电子合同向量和任务内容向量:
127、z(x)=(z(x1),z(x2),...,z(xn),...,z(xn))
128、
129、其中:z(x)表示电子合同向量;z(ym)第m种电子合同任务内容的任务内容向量。本方案利用两种编码方式分别对电子合同以及任务内容文本数据进行编码表示,在电子合同中分词结果的编码过程中,通过结合分词结果的位置以及前文信息生成分词结果编码结果,使得分词结果的编码结果有效结合了上文信息以及位置信息,增强了电子合同文本编码向量的语义连续性,而对任务内容文本中的内容描述词汇进行基于注意力机制的编码处理,进而得到能够有效表征任务内容有效信息的编码结果。
130、同时,本方案提出一种文本向量重映射方式,对编码处理得到的电子合同向量和任务内容向量分别进行重映射,其中重映射流程为:
131、s21:将电子合同向量和任务内容向量分别切分为句向量,得到电子合同句向量集合以及任务内容句向量集合:
132、
133、
134、其中:表示电子合同句向量集合,sum(x)表示电子合同文本数据x中的句子数,z(xj)表示电子合同文本数据x中第j句文本数据的句向量;表示第j句文本数据中第jnum个分词结果的重编码结果,jnum表示电子合同文本数据x中第j句文本数据内的分词结果数目;z(ym(u))表示第m种电子合同任务内容中第u句文本数据的句向量,sum(ym)表示第m种电子合同任务内容的句子数;表示第j句文本数据中第mnum(u)个内容描述词汇的重编码结果,mnum(u)表示第j句文本数据内的内容描述词汇数目;对于电子合同句向量集合中的任意电子合同句向量z(xj),计算得到电子合同句向量z(xj)与电子合同句向量集合中其他电子合同句向量z(xs)的向量距离:
135、dis(z(xj),z(xs))=||z(xj)―z(xs)||2
136、其中:dis(z(xj),z(xs))表示电子合同句向量z(xj)与电子合同句向量z(xs)的向量距离,s∈[1,sum(x)],s≠j;||·||2表示l2范数;选取向量距离最近的jnum个电子合同句向量作为电子合同句向量z(xj)的邻域向量;构建关于求解电子合同句向量重映射矩阵的目标函数:
137、
138、
139、其中:ωj(x)表示电子合同句向量z(xj)的邻域向量集,c表示邻域向量集中的任意电子合同句向量;w(j,c)表示电子合同句向量z(xj)与电子合同句向量c的重映射参数;||·||表示l1范数;利用拉格朗日乘子法对目标函数进行求解,得到电子合同句向量z(xj)的重映射矩阵w(j):
140、w(j)=[w(j,1),w(j,2),...,w(j,c),...,w(j,jnum)]
141、基于重映射矩阵对电子合同句向量z(xj)进行重映射处理,其中映射处理公式为:
142、
143、其中:z*(xj)表示电子合同句向量z(xj)的重映射结果;对于第m种电子合同任务内容的任意任务内容句向量,在第m种电子合同任务内容的任务内容句向量集合中获取邻域向量,并构建关于求解任务内容句向量重映射矩阵的目标函数进行重映射参数求解,进而构建得到重映射矩阵,基于重映射矩阵对任务内容句向量进行重映射处理,得到重映射结果,则z(ym(u))的重映射结果为z*(ym(u));
144、构建得到流形电子合同向量和流形任务内容向量:
145、f(x)=(z*(x1),z*(x2),...,z*(xj),...,z*(xsum(x)))
146、f(ym)=(z*(ym(1)),z*(ym(2)),...,z*(ym(u)),...,z*(ym(sum(ym))))
147、其中:f(x)表示流形电子合同向量,f(ym)表示第m种电子合同任务内容的流形任务内容向量。本方案通过分别构建用于对编码结果进行重映射的电子合同句向量重映射矩阵以及任务内容句向量重映射矩阵,通过结合句向量之间的关联性,在不改变句向量本身语义的情况下,对每个句向量添加邻域句向量的语义,使得重映射后每个句向量均可以表征本身以及邻域的语义信息,进而结合特征分解方式分别对流形电子合同向量以及流形任务内容向量进行分解,得到特征向量矩阵实现电子合同向量的任务内容识别,根据任务内容识别结果对待分派的电子合同文本数据进行任务分派,促进电子合同内容的快速理解与实施,提高任务分派效率。