一种基于语义匹配的裁判文书检索方法和服务器与流程

文档序号:12123935阅读:217来源:国知局
一种基于语义匹配的裁判文书检索方法和服务器与流程

本发明属于数据检索领域,更具体的,涉及一种基于语义匹配的裁判文书检索方法和服务器。



背景技术:

现有的各种裁判文书检索服务器中都是使用关键词检索技术,系统通过在裁判文书中查找用户所输入的词或者词的组合来判断推送哪些文书。由于语言表述的模糊性与多样性,在裁判文书中可能会出现同一个词在不同的上下文中的意思不一样的情形,也可能出现不同的词表达的是同一个意思的情形。在关键词检索服务器中,由于词语是严格的按照字面来匹配的,由于上述的语言表述的多样性,用户需要十分熟练的掌握法律知识,熟悉裁判文书的常见表达后,才能通过关键词搭配组合的方式检索到类似的案例,这以特性导致现有的裁判文书检索服务器的使用门槛很高,并且需要花费较长的时间才能找到与需求相匹配的裁判文书。造成这个问题的深层次原因是现在的检索服务器是基于语言文字的计算机存储内容来做的,文字存储的是编码(通用的是UTF-8)后的二进制内容,一个文字一般是1~4个字节,检索服务器在库里精确查找出现这些字节内容的文本。目前的现有技术存在下列问题:在这些系统中用户需要输入文书中包含的精确的关键词才能找到类似的案例,需要用户具有较高的法律专业知识才可以使用。当需要查找的信息比较明确时,输入的关键词较多时,由于需要全都匹配到,往往会查找不到。当需要查找的信息比较模糊时,输入的关键词会较少,会出来大量的无关内容,难以定位出用户真正需要的内容。当用户输入不够精准,例如出现错别字,或者使用同义词,或者使用非法律专业术语,将查找不到期望的内容。对于搜索结果的排序通常是基于输入的关键词的概率来进行的,而没有关注用户输入内容的意义及重点。



技术实现要素:

本发明旨在至少解决现有技术中存在的技术问题之一。

为此,本发明的目的在于,提供一种基于语义匹配的裁判文书检索方法和服务器,通过设计一种基于语义匹配的裁判文书检索方法和服务器,让案例检索不需要直接输入与裁判文书中的关键词精确匹配的词语,而是直接用自然语言描述遇到的法律问题或者案情即可找到匹配的裁判文书,解决了上述问题,大大的降低了文书检索服务器的使用门槛,提高了检索效率。

为实现上述目的,本发明提供一种基于语义匹配的裁判文书检索方法,包括:

步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件;

步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量;

步骤3,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端。

优选的,在所述步骤1之前还包括:

服务器端采集裁判文书;

将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;

将所述多个关键字段进行向量化处理,生成关键字段向量;

将生成的关键字段向量与裁判文书建立映射关系;

将所述关键字段向量、映射关系、裁判文书存储在数据库中。

优选的,所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。

更优的,所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。

优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。

本发明另一方面还提供一种基于语义匹配的裁判文书检索服务器,包括:

接收模块,服务器端接收所述检索信息,所述检索信息为客户端接收的用户输入的检索信息;

向量生成模块,用于将检索信息进行向量化,生成检索信息向量;

对比分析模块,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量;

发送模块,用于将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端;

所述检索信息为待搜索的字段和/或筛选条件。

优选的,还包括:数据清洗模块,用于将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;

映射模块,将所述多个关键字段进行向量化处理,生成关键字段向量,将生成的关键字段向量与裁判文书建立映射关系;

数据库,用于存储所述关键字段向量、映射关系、裁判文书。

优选的,所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。

优选的,所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。

优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。

通过本发明设计的一种基于语义匹配的裁判文书检索方法和服务器,让案例检索不需要直接输入与裁判文书中的关键词精确匹配的词语,而是直接用自然语言描述遇到的法律问题或者案情即可找到匹配的裁判文书,解决了上述问题,大大的降低了文书检索服务器的使用门槛,提高了检索效率。

附图说明

图1示出了本发明一种基于语义匹配的裁判文书检索方法的流程图;

图2示出了本发明一种基于语义匹配的裁判文书检索服务器的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于语义匹配的裁判文书检索方法的流程图。

如图1所示,根据本发明一种基于语义匹配的裁判文书检索方法,包括:

步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件。

所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。

所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。

所述案件类型包括:普通民事纠纷、房地产类、合同纠纷、涉外类、公司纠纷、海事海商、知识产权、投融资业务、赔偿案件、行政纠纷和刑事;

普通民事纠纷包括:债权债务纠纷、婚姻家庭、交通事故、医疗纠纷、劳动争议、侵权损害赔偿纠纷、其他普通民事纠纷;

房地产类包括:建设工程合同纠纷和房地产开发经营纠纷;

合同纠纷包括:常见合同纠纷、土地矿产类合同纠纷和其他类合同纠纷;所述常见合同纠纷包括:买卖合同纠纷、租赁合同纠纷、房屋租赁合同纠纷、车辆租赁合同纠纷、承揽合同纠纷、劳务合同纠纷、不当得利纠纷、合伙合同纠纷、电信服务合同纠纷、委托合同纠纷、服务合同纠纷、居间合同纠纷、供用热力合同纠纷、公交运输合同纠纷、供用水合同纠纷、供用电力合同纠纷、法律服务合同纠纷、供用气合同纠纷、保管合同纠纷、仓储合同纠纷、行纪合同纠纷;

涉外类包括:国际贸易金融合同纠纷、涉外仲裁和信用证纠纷;

公司纠纷包括:股东权益、公司并购收购、公司破产清算、其他公司纠纷;

知识产权包括:垄断不正当竞争、专利、商标、著作权纠纷、技术合同和其他知识产权纠纷;

投融资业务包括:证券纠纷、期货交易纠纷、信托纠纷和票据纠纷。

步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量。

接收到检索信息后,将检索信息进行向量化处理,生成检索信息向量,此向量化的处理方法可采用如下方式进行处理,但不仅限于此方式:

例如,对一系统中的每一篇文章,我们首先计算每个单词的出现频率(TF:TermFrequency),即该单词出现的次数除以文章总单词数,然后统计这个单词的反比文档频率(IDF:Inverse Document Frequency),在所有文章中出现的次数,并用该数除文章总数,即总文章数除以出现该单词文章的数目。由上面的定义可以看出,单词越重要,他的单词出现频率TF就越高,单词越是只在这篇文章中出现,很少在其它文章中出现,那该单词越对本篇文章具有重要意义。通过一定的公式,可以计算出每个单词的对每篇文章的权重,这样所有单词加上其对应的权重,就形成了一个多维术语向量。

步骤3,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端。

优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。这两种向量对比方法为本领域的常用方法,本发明不再一一赘述。

优选的,在所述步骤1之前还包括:

服务器端采集裁判文书;

将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;

将所述多个关键字段进行向量化处理,生成关键字段向量,其中关键字段是预设的,和上述检索信息向量中的字段需要对应;

将生成的关键字段向量与裁判文书建立映射关系;

将所述关键字段向量、映射关系、裁判文书存储在数据库中。

当服务器接收到检索信息后,生成检索向量,再通过与预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,最后通过映射关系找出对应的裁判文书,把此裁判文书发送至客户端,完成整个的检索过程。

图2示出了本发明一种基于语义匹配的裁判文书检索服务器的结构框图。

如图2所示,本发明提供一种基于语义匹配的裁判文书检索服务器,包括:

接收模块,服务器端接收所述检索信息,所述检索信息为客户端接收的用户输入的检索信息;

向量生成模块,用于将检索信息进行向量化,生成检索信息向量;

对比分析模块,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量;

发送模块,用于将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端;

所述检索信息为待搜索的字段和/或筛选条件。

所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。

所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。

所述案件类型包括:普通民事纠纷、房地产类、合同纠纷、涉外类、公司纠纷、海事海商、知识产权、投融资业务、赔偿案件、行政纠纷和刑事;

普通民事纠纷包括:债权债务纠纷、婚姻家庭、交通事故、医疗纠纷、劳动争议、侵权损害赔偿纠纷、其他普通民事纠纷;

房地产类包括:建设工程合同纠纷和房地产开发经营纠纷;

合同纠纷包括:常见合同纠纷、土地矿产类合同纠纷和其他类合同纠纷;所述常见合同纠纷包括:买卖合同纠纷、租赁合同纠纷、房屋租赁合同纠纷、车辆租赁合同纠纷、承揽合同纠纷、劳务合同纠纷、不当得利纠纷、合伙合同纠纷、电信服务合同纠纷、委托合同纠纷、服务合同纠纷、居间合同纠纷、供用热力合同纠纷、公交运输合同纠纷、供用水合同纠纷、供用电力合同纠纷、法律服务合同纠纷、供用气合同纠纷、保管合同纠纷、仓储合同纠纷、行纪合同纠纷;

涉外类包括:国际贸易金融合同纠纷、涉外仲裁和信用证纠纷;

公司纠纷包括:股东权益、公司并购收购、公司破产清算、其他公司纠纷;

知识产权包括:垄断不正当竞争、专利、商标、著作权纠纷、技术合同和其他知识产权纠纷;

投融资业务包括:证券纠纷、期货交易纠纷、信托纠纷和票据纠纷。

接收到检索信息后,将检索信息进行向量化处理,生成检索信息向量,此向量化的处理方法可采用如下方式进行处理,但不仅限于此方式:

例如,对一系统中的每一篇文章,我们首先计算每个单词的出现频率(TF:TermFrequency),即该单词出现的次数除以文章总单词数,然后统计这个单词的反比文档频率(IDF:Inverse Document Frequency),在所有文章中出现的次数,并用该数除文章总数,即总文章数除以出现该单词文章的数目。由上面的定义可以看出,单词越重要,他的单词出现频率TF就越高,单词越是只在这篇文章中出现,很少在其它文章中出现,那该单词越对本篇文章具有重要意义。通过一定的公式,可以计算出每个单词的对每篇文章的权重,这样所有单词加上其对应的权重,就形成了一个多维术语向量。

优选的,还包括:数据清洗模块,用于将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;

映射模块,将所述多个关键字段进行向量化处理,生成关键字段向量,将生成的关键字段向量与裁判文书建立映射关系,其中关键字段是预设的,和上述检索信息向量中的字段需要对应;

数据库,用于存储所述关键字段向量、映射关系、裁判文书。

优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。这两种向量对比方法为本领域的常用方法,本发明不再一一赘述。

在本说明书的描述中,术语“安装”、“相连”、“连接”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1