一种合同分类自动识别方法及系统与流程

文档序号:12666770阅读:262来源:国知局

本发明属于信息化服务技术领域,尤其是涉及一种合同分类自动识别方法及系统。



背景技术:

在市场经济中,公司日常经营中合同扮演了越来越重要的角色,如何在日常经营中防范合同风险显得尤为重要。合同风险包括了合同的管理风险和合同的法律风险,合同的管理风险是从合同的管理职能出发,而法律风险则是从合同文本的完备性和有效性出发,深入研究各种条款的设计技巧。随着人工智能技术的飞速发展,在国外,采用计算机技术的人工智能合同法律风险自动识别的研究已经取得了初步成果;在国内,由于汉语的语义自动识别与英文有着巨大的差异,采用人工智能技术的合同法律风险识别研究还处于起步阶段。

由于合同种类繁多,不同种类合同的法律风险也不同。因此,高识别率的合同分类自动识别技术成为采用计算机技术实现合同法律风险自动提示的关键难题。

现有技术的缺点:

1、目前国内对于合同法律风险自动识别的研究中,采用了由用户自己选择合同分类,然后再由计算机给出针对性的风险提示。由于合同种类繁多,合同各类别之间的界限模糊,一般非法律专业人员很难准确界定自己的合同的确切分类。因此,因用户选择类别错误,造成合同法律风险提示非常不准确,难以达到实际应用的要求。

2、由于汉语的语言结构与英文不同,目前也无法直接借鉴国外的成功经验。



技术实现要素:

有鉴于此,本发明旨在提出一种合同分类自动识别方法,解决了现有技术中存在的采用计算机自动识别合同分类时,识别率不高的问题。

为达到上述目的,本发明的技术方案是这样实现的:

一种合同分类自动识别方法,包括如下步骤:

(1)采用有人工干预的深度学习算法,排除样本中不能反映合同本质特性关键词;

(2)通过大量样本学习,对关键词的权重进行设置;

(3)找出不同合同分类的差异,判断合同类别。

进一步的,所述步骤(1)具体包括如下步骤:

(1)通过互联网搜索到各类合同样本,目前样本数量为1000份;

(2)采用基于字典的最大逆向分词算法,找出每类合同出现频次最高的关键词,按照中文的语言规则,筛选3-6个汉字的词语,去除形容词性的关键词,每类留存30个以内的关键词。

进一步的,所述步骤(2)具体包括如下步骤:

(1)对不同关键词设置不同的权重,对于能够明显确定合同类别的关键词给予较高权重;对于不能明显确定合同分类的关键词给予较低权重;

(2)按照上述方式给予关键词设定权重从1-50,每次增量10,依次判别1000份样本合同的分类是否正确,计算出相应的识别率,取其中识别率最高的作为最优权重。

进一步的,所述步骤(3)具体包括对具有特征的关键词赋予的权重比较高,用来区分比较接近的合同种类。

采用对不同种类合同的特征关键词赋予不同权重,并结合与或非逻辑运算,达到高识别率。具体实现方式是编制自动识别程序,对权重值进行智能优化,找出最优权重,而对关键词权重的范围是依据专业人员的专业知识拟定。

相对于现有技术,本发明所述的一种合同分类自动识别方法具有以下优势:本方法采用计算机人工智能技术实现了对汉语合同的自动识别和分类,识别率非常高,达到了实际应用的要求,解决了目前靠用户自行选择合同分类引起法律风险提示不准确的问题。

本发明的另一目的在于提出一种合同分类自动识别系统,解决了现有技术中存在的采用计算机自动识别合同分类时,识别率不高的问题。

为达到上述目的,本发明的技术方案是这样实现的:

一种合同分类自动识别系统,包括

用于采用有人工干预的深度学习算法,排除样本中不能反映合同本质特性关键词的提取模块;

用于通过大量样本学习,对关键词的权重进行设置的设置模块;

用于找出不同合同分类的差异,判断合同类别的判别模块。

进一步的,所述提取模块包括

用于通过互联网搜索到各类合同样本,目前样本数量为1000份的搜索模块;

用于采用基于字典的最大逆向分词算法,找出每类合同出现频次最高的关键词,按照中文的语言规则,筛选3-6个汉字的词语,去除形容词性的关键词,每类留存30个以内的关键词的筛选模块。

进一步的,所述设置模块包括

用于对不同关键词设置不同的权重,对于能够明显确定合同类别的关键词给予较高权重;对于不能明显确定合同分类的关键词给予较低权重的不同权重设置模块;

用于按照上述方式给予关键词设定权重从1-50,每次增量10,依次判别1000份样本合同的分类是否正确,计算出相应的识别率,取其中识别率最高的作为最优权重的最优权重设置模块。

本发明所述的一种合同分类自动识别系统与上述一种合同分类自动识别方法具有相同的有益效果,在此不再赘述。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例所述的一种合同分类自动识别方法的流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示,一种合同分类自动识别方法具体包括如下步骤:

(1)通过互联网搜索到各类合同样本,目前样本数量为1000份;

(2)采用基于字典的最大逆向分词算法,找出每类合同出现频次最高的关键词,按照中文的语言规则,筛选3-6个汉字的词语,去除形容词性的关键词,每类留存30个以内的关键词。

(3)对不同关键词设置不同的权重。对于能够明显确定合同类别的关键词给予较高的权重,例如“涉外货物买卖合同”或者“出口买卖合同”;对于不能明显确定合同分类的关键词给予较低的权重,例如“进口国”、“出口国”、“FOB”等。

(4)按照上述方式给予关键词设定权重从1-50,每次增量10,依次判别1000份样本合同的分类是否正确,计算出相应的识别率,取其中识别率最高的作为最优权重。

(5)由于同一个关键词在不同合同分类中可能都会出现。例如:关键词“借款合同”和“担保合同”,在借款类合同中和担保类合同中都会出现,这两个关键词在这两类合同中出现的频次都非常高,因此无法通过这两个词的权重对合同分类进行区分,但“借款利率”、“借款期限”等关键词在借款合同中出现频次较高,因此这些具有特征的关键词赋予的权重比较高。这样可以将不同种类合同的特征关键词的权重调高,可以有效区分两个比较接近的合同种类。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1