一种合同文本智能清洗系统的制作方法

文档序号:17862064发布日期:2019-06-11 22:56阅读:386来源:国知局

本发明涉及人工智能技术领域,特别涉及一种合同文本智能清洗系统。



背景技术:

众所周知,合同的审批工作是非常单调和枯燥的,很多合同的撰写过程中为了避免歧义,经常把文字写的非常严谨,过于严谨会产生很多啰嗦的语句。法务工作人员进行合同审批时,需要面对大量此种格式的文字,但又不得不看,而真正有价值的数据(为某项业务定制的语句或者在标准合同中填写的数据)不多,这里面就有大量的时间和精力的浪费。

计算机程序适合处理有固定逻辑的流程式工作,人工智能和大数据近几年的飞速发展,让程序处理一些模糊事件变得越来越可能,目前国内市场上对智能合同审批还处于基于规则的阶段,这些基于规则的方案可以处理合同常见的正确写法和常见的错误写法,但是对于不常见的合同写法如罕见错误或者定制内容则束手无策。

现有技术比较常用的是使用分类的方法进行文本过滤的,其思想是把所有合同文本作为正样本,其他的新闻、小说、杂志、随机文本作为负样本,把所有数据进行分词后,形成段落级的词袋数据,使用回归或者分类的方法进行建模。当新的测试数据即新合同需要分析的时候,也得到每个段落的词袋数据,使用上述模型进行分类或回归,类似于垃圾邮件的过滤,但是这种方法有一个比较大的缺陷,就是把一个正常的语句分词后,打乱词的顺序重新排列后,得到的词袋是一样的,但此时已经变成了乱序的垃圾文本,此模型就无能为力。



技术实现要素:

为了克服现有技术的上述缺陷,本发明提供一种合同文本智能清洗系统,该方法对合同文本进行解读,识别语义,将非合同用语和疑似定制合同语句重点标出,可以协助法律工作者高效快速的完成合同的校对,审批等工作。

本发明所采用的技术方案为:一种合同文本智能清洗系统,该方法包括以下步骤:

a)训练得到合同词向量模型;

b)训练得到通用词向量模型;

c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:

(i)把合同文本全文转成编码;

(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值,则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,最后使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值,则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;

(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的通用生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除;

(iv)使用合同词向量模型计算整个自然段的合同生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的合同生成概率低于某一个阈值则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除。

作为本发明的优选方案,所述训练得到合同词向量模型的步骤包括:首先获取大量的合同文本数据和同等规模数量的新闻文本数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。

作为本发明的优选方案,所述训练得到通用词向量模型的步骤包括:首先获取大量的新闻文本、小说、杂志数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。

作为本发明的优选方案,所述编码采用gb2312编码。

与现有技术相比,本发明具有以下技术效果:

本发明,一种针对合同文本进行分析,清洗的人工智能处理系统,本系统需要大量合同数据使用深度学习的方法训练合同词向量模型和通用词向量模型,然后对合同文本进行解读,识别语义,将非合同用语和疑似定制合同语句重点标出,对于后续律师人工审核可以很大的提升效率,或者帮助自动化审核提供正确率和用户体验。

附图说明

图1是本发明一种合同文本智能清洗系统中训练通用词向量模型的流程示意图;

图2是本发明一种合同文本智能清洗系统中训练合同词向量模型的流程示意图;

图3是本发明一种合同文本智能清洗系统中合同段落逐句清洗的流程示意图;

图4是本发明一种合同文本智能清洗系统中段落级清洗的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

一种合同文本智能清洗系统,其特征在于:该方法包括以下步骤:

a)训练得到合同词向量模型:首先获取大量的合同文本数据和同等规模数量的新闻文本数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。

b)训练得到通用词向量模型:首先获取大量的新闻文本、小说、杂志数据组成训练集;然后对训练集数据进行分词、去停用词处理;最后使用多层神经网络感知机训练得到合同词向量模型。

c)对一份新的合同文本进行处理,使用合同词向量模型和通用词向量模型对该合同进行文本分析、清洗和标注,该方法包括以下步骤:

(i)把合同文本全文转成编码;

(ii)对合同的每段文本进行清洗,包括首先把整段合同文本使用句号”。”、问号”?”、叹号”!”进行分解,分解成多个单独的句子,然后使用通用词向量模型计算每个句子的通用生成概率,如果概率小于一定阈值(通常比较小,如0.1),则认为该句语句不是正常语句,里面或者有错别字,或者就是一堆乱序的文字,该句会被提示“需要注意文字上的错误”,对于没有问题的语句,进行下面的判断,使用合同词向量模型计算每个句子的合同生产概率,如果概率小于一定阈值(通常比较小,如0.3),则认为该句语句不是常用合同用语,里面或者填空的数据内容,或者就是定制的合同条款,该句会被提示“定制条款或者具体内容需要律师详细审核”;

(iii)使用通用词向量模型计算整个自然段的通用生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的通用生成概率低于某一个阈值(通常比较小,如0.2)则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除;

(iv)使用合同词向量模型计算整个自然段的合同生成概率,即为该自然段里面所有语句最小的三个合同生成概率的均值,如果自然段的合同生成概率低于某一个阈值(通常比较小,如0.5)则认为整段内容都是需要律师重点留意的,该段内部语句级别的提示都可以清除。

作为本发明的优选方案,所述编码采用gb2312编码。

上述计算生成概率的采用深度学习模型,一般为n-gram模型、word2vec模型和elmo模型。

n-gram模型:n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型,习惯上,1-gram叫unigram,2-gram称为bigram,3-gram是trigram。还有four-gram、five-gram等,不过大于n>5的应用很少见。由于运算量和数据需求量巨大,需要引入马尔科夫假设,即:一个item的出现概率,只与其前m个items有关,当m=0时,就是unigram,m=1时,是bigram模型。因此,p(t)可以求得,例如,当利用bigram模型时,p(t)=p(a1)p(a2|a1)p(a3|a2)…p(an|an-1)而p(an|an-1)条件概率可以通过极大似然估计求得,等于count(an-1,an)/count(an-1)。

word2vec模型:1.假定词表中的每一个word都对应着一个连续的特征向量;2.假定一个连续平滑的概率模型,输入一段词向量的序列,可以输出这段序列的联合概率;3.同时学习词向量的权重和概率模型里的参数。

采用了一个简单的前向反馈神经网络f(wt-n+1,...,wt)来拟合一个词序列的条件概率p(wt|w1,w2,...,wt-1)。

该神经网络可以拆分成两部分加以理解:首先是一个线性的embedding层。它将输入的n-1个one-hot词向量,通过一个共享的d×v的矩阵c,映射为n-1个分布式的词向量(distributedvector)。其中,v是词典的大小,d是embedding向量的维度(一个先验参数)。cc矩阵里存储了要学习的wordvector。其次是一个简单的前向反馈神经网络g。它由一个tanh隐层和一个softmax输出层组成。通过将embedding层输出的n-1个词向量映射为一个长度为v的概率分布向量,从而对词典中的word在输入context下的条件概率做出预估:p(wi|w1,w2,...,wt-1)≈f(wi,wt-1,...,wt-n+1)=g(wi,c(wt-n+1),...,c(wt-1));使用word2vec计算概率模型时,不能使用负样本算法,要使用hierarchicalsoftmax。

elmo模型:elmo相对于word2vec最大的提升是可以根据上下文语境来识别多义词,elmo是双向语言模型bilm的多层表示的组合,基于大量文本,elmo模型是从深层的双向语言模型(deepbidirectionallanguagemodel)中的内部状态(internalstate)学习而来的,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然,在预训练好这个语言模型之后,同样可以计算一个语句的生成概率。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1