案件文本匹配方法、装置、电子设备和存储介质与流程

文档序号:19787052发布日期:2020-01-24 13:43阅读:156来源:国知局
案件文本匹配方法、装置、电子设备和存储介质与流程

本申请涉及文本匹配领域,具体而言,涉及一种案件文本匹配方法、装置、电子设备和存储介质。



背景技术:

在案件审判中,借鉴以往相似的案件的审判经验对当前案件进行判定是很常见的做法,称为“类似案例类似处理”。

目前,各种案件数据库为案件审判提供了数字化支撑,法律相关人员一般可以通过传统的数据库检索方式来获取相对应的案件,例如,在搜索栏中输入案件的关键词,搜索引擎根据输入的案件的关键词在案件数据库中查找相似的案例,并向用户返回通过关键词查找到的相似度较高的历史案例。

但由于输入的案件关键词具有很大的主观性,不同的用户对于同一个案件归纳的关键词可能存在不同,因此,即使根据关键词获取到多篇历史案例文本之后,还需要人为进行对比,才能最终获得相似度最高的历史案例文本。此种检索方式不仅无法保证准确度,还会花费大量的时间。



技术实现要素:

为了解决上述问题,本申请的目的在于提供了一种案件文本匹配方法、装置、电子设备和存储介质。

第一方面,本申请实施例提供一种案件文本匹配方法,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述方法包括:

对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;

将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。

在可选的实施方式中,所述将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,包括:

将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的案件关键词的第三相似度;

针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的所述第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。

在可选的实施方式中,所述对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,包括:

结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。

在可选的实施方式中,所述方法还包括获得历史案件文本的结构化数据的步骤,包括:

通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。

第二方面,本申请实施例提供一种案件文本匹配装置,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述装置包括:

待匹配案件文本处理模块,用于对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;

相似度比对模块,用于将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。

在可选的实施方式中,所述相似度比对模块包括:

分别比对子模块,用于将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的第三相似度;

相似度计算子模块,用于针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。

在可选的实施方式中,所述待匹配案件文本处理模块具体用于:

结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。

在可选的实施方式中,所述装置还包括历史案件文本处理模块,具体用于:

通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。

第三方面,本申请实施例提供一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行前述实施方式中任意一项所述的案件文本匹配方法。

第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式任意一项所述的案件文本匹配方法。

本申请实施例的有益效果:

本申请实施例涉及一种案件文本匹配方法、装置、电子设备和存储介质。该方法应用于电子设备,电子设备包括存储有历史案件文本及各个历史案件文本的结构化数据的数据库,所述方法包括:对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书;将待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。上述方法无需手动输入关键词进行匹配,也就避免了由于关键词选择错误造成的案件匹配准确度较低的问题,同时,也无需人为对比以获得准确度更高的历史案例文本。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本申请是实施例提供的电子设备的结构示意图;

图2为本申请实施例提供的案件匹配方法的流程图;

图3为图2中步骤s230的子步骤流程图;

图4为本申请实施例提供的案件文本匹配装置的功能模块图;

图5为本申请实施例提供的图4中的相似度比对模块的子模块的功能模块图。

图标:100-电子设备;110-案件文本匹配装置;120-存储器;130-处理器;111-待匹配案件文本处理模块;112-相似度比对模块;113-历史案件文本处理模块;1121-分别比对子模块;1122-相似度计算子模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。

请参照图1,图1是本申请是实施例提供的电子设备100的结构示意图,该电子设备100包括有处理器130、存储器120以及案件文本匹配装置110,所述存储器120与处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述案件文本匹配装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(operatingsystem,os)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如案件文本匹配装置110所包括的软件功能模块及计算机程序等。

其中,所述存储器120可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。

所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参考图2,图2为本申请实施例提供的案件匹配方法的流程图。在本实施例中,该方法应用于电子设备100,电子设备100中包括有一数据库,数据库中存储有多个历史案件文本以及各个历史案件文本的结构化数据。该方法包括以下步骤:

步骤s220,对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据。

其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书。

在本步骤中,在进行待匹配案件文本与历史案件文本的相似度比较之前,首先要对待匹配案件文本进行预处理,以获得待匹配案件文本的结构化数据,通过将待匹配案件文本的结构化数据与数据库中存储的历史案件文本的结构化数据进行比较获得待匹配案件文本与历史案件文本的相似度。

具体地,在步骤s220中,在对待匹配案件文本预处理时,需要结合分词算法或语义分析算法对待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词。其中,案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷,案件关键词是指整个待匹配案件文本的关键词。

在本步骤中,待匹配案件文本是指某一案件的起诉书或诉讼书,案件的起诉书或诉讼书具有一定地撰写规范,使用分词算法或语义分析算法从起诉书或诉讼书的固定段落能够获取到案件类型、案件发生的时间或地点、案件经过或结果以及案件争议焦点等数据。

在步骤s220之后,案件文本匹配方法还包括:

步骤s230,将待匹配案件文本的结构化数据与数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与待匹配案件文本的相似度对历史案件文本进行排序。

在本步骤中,获取到待匹配案件文本的结构化数据之后,将其与数据库中存储的历史案件文本的结构化数据进行比较,从而获得待匹配案件文本与各个历史案件文本的相似度,并按照相似度进行排序。通常,按照相似度由高到低的顺序进行排序。

具体地,请参照图3,图3为图2中步骤s230的子步骤流程图,包括:

子步骤s2301,将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,获得任意一个历史案件文本的案件信息与待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与待匹配案件文本的案件关键词的第三相似度。

子步骤s2302,针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与待匹配案件文本之间的第一相似度、第二相似度及第三相似度进行加权求和,以获得该任意一个历史案件文本与待匹配案件文本的相似度。

在上述步骤中,在获得待匹配案件文本的结构化数据之后,分别将待匹配案件文本的案件信息、案件争议焦点及案件关键词与数据库中任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行对比,分别获得第一相似度、第二相似度以及第三相似度,其中,第一相似度用于表示待匹配案件文本的案件信息与任意一个历史案件文本的案件信息之间的相似度,第二相似度用于表示待匹配案件文本的案件争议焦点与任意一个历史案件文本的案件争议焦点之间的相似度,第三相似度用于表示待匹配案件文本的案件关键词与任意一个历史案件文本的案件关键词的第三相似度。

对于每一个预存在数据库中的历史案件文本,通过分词算法或语义分析算法都能获取到该历史案件文本的第一相似度、第二相似度及第三相似度,根据案件信息、案件争议焦点、案件关键词的权重计算待匹配案件文本与各个历史案件文本的总的相似度。

例如,若案件信息的权重为40%,案件争议焦点的权重为40%,案件关键词的权重为20%,某一历史案件文本与待匹配案件文本的第一相似度为60%、第二相似度为80%、第三相似度为70%,则该历史案件文本与待匹配案件文本的总的相似度为40%*60%+40%*80%+20%*70%=70%,则该历史案件文本与待匹配案件文本的相似度为70%。

通过上述方法计算数据库中各个历史案件文本与待匹配案件文本的相似度,并按照相似度对历史案件文本进行排序。

可选地,在本实施例中,案件信息、案件争议焦点、案件关键词的权重通常是通过不断地训练得出。

请继续参照图2,可选地,在本实施例中,在步骤s220之前,案件文本匹配方法还包括:

步骤s210,获得历史案件文本的结构化数据。

具体地,在本步骤中,通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得各个历史案件文本的案件信息、案件争议焦点及案件关键词并将各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。

请参照图4,图4为本申请实施例提供的案件文本匹配装置110的功能模块图,在本实施例中,案件文本匹配装置110应用于电子设备100中,电子设备100包括有一数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,案件文本匹配装置110装置包括:

待匹配案件文本处理模块111,用于对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据。其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书。

具体地,待匹配案件文本处理模块111具体用于:结合分词算法或语义分析算法对待匹配案件文本进行处理,以获得待匹配案件文本的案件信息、案件争议焦点及案件关键词。其中,案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。

相似度比对模块112,用于将待匹配案件文本的结构化数据与数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与待匹配案件文本的相似度对历史案件文本进行排序。

继续参照图4,案件文本匹配装置110还包括历史案件文本处理模块113,该模块具体用于:通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得各个历史案件文本的案件信息、案件争议焦点及案件关键词并将各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。

请参照图5,图5为本申请实施例提供的图4中的相似度比对模块112的子模块的功能模块图。相似度比对模块112包括:

分别比对子模块1121,用于将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的第三相似度。

相似度计算子模块1122,用于针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。

本申请实施例所提供的案件文本匹配装置110可以为电子设备100上的特定硬件或者安装于电子设备100上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。

可选地,本申请实施例还提供一种电子设备100,包括处理器130及存储有计算机指令的非易失性存储器120,计算机指令被处理器130执行时,电子设备100执行上述的案件文本匹配方法,具体实现可参见方法实施例,在此不再赘述。

可选地,本申请实施例还提供一种存储介质,存储介质中存储有计算机程序,计算机程序被执行时实现上述的案件文本匹配方法,具体实现可参见方法实施例,在此不再赘述。

综上所述,本申请实施例涉及一种案件文本匹配方法、装置、电子设备和存储介质。该方法应用于电子设备,电子设备包括存储有历史案件文本及各个历史案件文本的结构化数据的数据库,所述方法包括:对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书;将待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。上述方法无需手动输入关键词进行匹配,也就避免了由于关键词选择错误造成的案件匹配准确度较低的问题,同时,也无需人为对比以获得准确度更高的历史案例文本。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1