案件分类方法及装置与流程

文档序号:21725580发布日期:2020-08-05 01:16阅读:206来源:国知局
案件分类方法及装置与流程

本发明涉及信息处理技术领域,具体而言,涉及一种案件分类方法及装置。



背景技术:

当前,随着人们法律意识增强,需要法官处理的案件也越来越多,传统的司法审理模式中,一般会涉及到立案、调解、送达、庭审、裁判、执行、归档、诉服等诸多流程,在相关技术中,处理这些流程的各个节点一般都是由自然人(法官、当事人和其他辅助人员)操作,但是随着案件的增加,仍然使用人工进行操作,需要的人工成本太高,而且当前的人工数量无法应对案件数量的逐步增多,使得案件处理的效率低下。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种案件分类方法及装置,以至少解决相关技术中在处理司法模式中的案件时,效率低下的技术问题。

根据本发明实施例的一个方面,提供了一种案件分类方法,包括:获取与待分类案件关联的多种类型特征,其中,所述多种类型特征包括:文本特征、语音特征、图像特征、离散特征;将所述多种类型特征设置为神经网络分类模型的输入参数,通过所述神经网络分类模型得到分类结果。

根据本发明实施例的另一方面,还提供了一种案件分类装置,包括:获取单元,用于获取与待分类案件关联的多种类型特征,其中,所述多种类型特征包括:文本特征、语音特征、图像特征、离散特征;分类单元,用于将所述多种类型特征设置为神经网络分类模型的输入参数,通过所述神经网络分类模型得到分类结果。

根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的案件分类方法。

根据本发明实施例的另一方面,还提供了一种终端,包括:第一装置;第二装置;处理器,所述处理器运行程序,其中,所述程序运行时对于从所述第一装置和第二装置输出的数据执行如下处理步骤:第一步骤,获取与待分类案件关联的多种类型特征,其中,所述多种类型特征包括:文本特征、语音特征、图像特征、离散特征;第二步骤,将所述多种类型特征设置为神经网络分类模型的输入参数,通过所述神经网络分类模型得到分类结果。

本发明可以应用于各种分案工作中,力求减少人工分案的工作量,本发明实施例中利用分类模型快速分类,即可以借助终端、服务器和各类型网络采集与待分类案件相关的多类型特征,然后对多种类型特征进行处理,得到特征向量等参数,进而确定出分类结果。由于借助了与待分类案件相关的特征,可以更大程度上提高分类准确度,这样就可以减少人工的工作量,实现了智能案件繁简分流,将案件分成繁简两类,其中复杂的案件直接推送给法官,简单的案件先给智能审判系统预审,然后推送给法官确认,达到给法官减负的目的,提高司法工作者的工作效率。

在本发明实施例中,采用获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。在该实施例中,可以将与待分类案件关联的多种类型特征作为输入参数,通过神经网络分类模型对待分类案件分类,减少在司法模式中人工分案的工作量,实现了智能案件繁简分流,提高司法案件分案的效率,进而解决相关技术中在处理司法模式中的案件时,效率低下的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了一种用于实现案件分类方法的计算机终端的硬件结构框图;

图2示出了一种案件分类方法网络终端的示意图;

图3是根据本发明实施例一的案件分类方法的流程图;

图4是根据本发明实施例的一种可选的法律知识图谱的示意图;

图5是根据本发明实施例的一种可选的神经网络分类模型的网络结构示意图;

图6是根据本发明实施例一种案件分类系统的系统框图;

图7是根据本发明实施例的一种案件分类装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:

nlp:naturallanguageprocessing,自然语言处理。

ocr:opticalcharacterrecognition,光学字符识别技术,是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

asr:automaticspeechrecognition,语音识别技术,其目标是将人类的语音中的词汇内容转换为计算机可读的输入。

skip-gram,属于自然语言处理,是从前馈神经网络模型改进而来,是word2vec的一类神经网络模型。在许多自然语言处理任务中,许多单词表达是由他们的tf-idf分数决定的,通过这些分数确定一个单词在一个文本中的相对重要性,在给定无标签的语料库的情况下,为语料库中的单词产生一个能表达语义的向量。

cbow:连续词袋模型,与skip-gram模型互为镜像,也是一种word2vec处理模型。

神经网络,一般包括:输入层、输出层、隐藏层,其中,输入层含有众多神经元,通过神经元接受大量非线形输入讯息,输入的讯息可以称为输入向量;输出层中讯息在神经元链接中传输、分析、权衡,得到输出结果,输出的讯息为输出向量;隐藏层,是输入层和输出层之间众多神经元和链接组成的各个层面。

双向lstm,bi-directionallstm,双向长短时记忆网络。

cnn,卷积神经网络。

实施例1

根据本发明实施例,还提供了一种案件分类的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现案件分类方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的案件分类方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的案件分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2示出了一种案件分类方法网络终端的示意图,如图2所示,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器(例如安全服务器、资源服务器、游戏服务器等)。一种可选实施例中,上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。

在上述运行环境下,本申请提供了如图3所示的案件分类方法。图3是根据本发明实施例一的案件分类方法的流程图。如图3所示,该方法包括:

步骤s302,获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征;

步骤s304,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

通过上述步骤,通过获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。在该实施例中,可以将与待分类案件关联的多种类型特征作为输入参数,通过神经网络分类模型对待分类案件分类,减少在司法模式中人工分案的工作量,实现了智能案件繁简分流,提高司法案件分案的效率,进而解决相关技术中在处理司法模式中的案件时,效率低下的技术问题。

本发明实施例可以应用于各种分案工作中,力求减少人工分案的工作量,优选的,在本申请中以司法模式中的分案作为说明,帮助相关分案人员进行繁简分类,本发明实施例中通过与待分类案件相关的多类型特征作为输入参数,利用分类模型快速分类,即可以借助终端、服务器和各类型网络采集与待分类案件相关的多类型特征,然后对多种类型特征进行处理,得到特征向量等参数,进而确定出分类结果。由于借助了与待分类案件相关的特征,可以更大程度上提高分类准确度,这样就可以减少人工的工作量,实现了智能案件繁简分流,将案件分成繁简两类,然后,可以将其中复杂的案件直接推送给法官,简单的案件先给智能审判系统预审,然后推送给法官确认,达到给法官减负的目的,提高司法工作者的工作效率。

可选的,本发明实施例涉及到的案件可以为实体当事人案件,也可以是网络交易案由。

下面结合各个步骤对本发明进行说明。

步骤s302,获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征。

待分类案件可以是通过人工或者终端整理后的案件,可以包括多个案件信息,案件信息包括但不限于:起诉方、应诉方、案件发生时间、案件类型、案件情由、案件号等。这些待分类案件可以直接通过终端输入,并在确定待分类案件后,采集到与待分类案件关联的多种类型特征。

可选的,离散特征包括:第一离散特征子集,则获取与待分类案件关联的多种类型特征包括:从待分类案件的诉讼材料中抽取第一离散特征子集。其中,诉讼材料可以包括但不限于:起诉书、答辩书、证据信息等,例如,可以从起诉书中抽取原被告信息;从证据交易日志中抽取是否退款、是否保留追偿权利;从证据商品信息中抽取折扣价格,实际价格等。即可以通过信息抽取或数据挖掘得到相应的特征参数。

另一种可选的,离散特征还包括:第二离散特征子集,文本特征包括:第一文本特征子集,获取与待分类案件关联的多种类型特征包括:对待分类案件的当事人进行用户画像分析,得到分析结果,其中,用户画像分析的数据来源包括以下至少之一:当事人的历史诉讼数据、当事人在网络交易过程中的交易信息与行为信息;采用分析结果进行特征工程构建,得到第二离散特征子集和/或第一文本特征子集。

即可以通过对待分类案件的当事人进行分析,确定分析结果,上述当事人的历史诉讼数据可以包括其被诉数据和主动起诉数据。例如,在网络交易案由的当事人可以分为买家和卖家,其用户画像来自两部分,一是当事人的诉讼历史,其数据来源可以包括:互联网法院和最高法的被执行人数据等,可以挖掘出的特征有买家起诉次数、卖家被诉次数,当事人被执行次数等;二是用户画像,可以用当事人在应用软件的交易信息和行为信息中挖掘出当事人的偏好、买家的纠纷投诉次数,卖家纠纷中被投诉次数,买家信用分、星级,卖家信用分、星级、店铺星级等,还有买卖家的纠纷记录,聊天记录等文本信息。当事人的画像中既有第二离散特征子集,也有第一文本特征子集。

作为本发明一可选的实施例,上述文本特征包括:第二文本特征子集,获取与待分类案件关联的多种类型特征包括:对待分类案件的诉讼材料中的文本数据进行自然语言处理,得到处理结果,其中,自然语言处理包括:分词、词性标注、实体识别;采用处理结果进行特征工程构建,通过词频类统计方式对处理结果进行统计得到统计特征,以及采用词向量模型对处理结果进行训练,得到词向量特征;将统计特征与词向量特征确定为第二文本特征子集。

可选的,第二文本特征子集可以分析的材料包括但不限于:起诉状、答辩状、原告和/或被告提交的证据,其中,起诉状、答辩状是最重要的案情分析材料,对案情描述和抗辩的文本是非常重要的特征来源。针对该第二文本特征子集,可以提取两类特征,第一种,词的统计特征,例如tf-idf,第二种,词向量特征。

其中,在上述对待分类案件的诉讼材料中的文本数据进行自然语言处理,得到处理结果时,可以是对上述材料进行预处理,例如,对材料进行分词、词性标注、实体识别等nlp处理。在进行自然语言处理后,可以挖掘词的统计特征,即采用处理结果进行特征工程构建,通过词频类统计方式对处理结果进行统计得到统计特征,例如,挖掘tf-idf,tf等统计特征。在得到统计特征的同时,还可以采用词向量模型对处理结果进行训练,得到词向量特征,例如,使用网络交易案由的起诉状、答辩状、判决书等文本材料,越多越好,进行分词,对分词后的语料训练词向量,这里可以采用cbow、skip-gram等方式,具体方法不限制。

在本发明另一可选的实施例,文本特征包括:第三文本特征子集、第四文本特征子集和第五文本特征子集,获取与待分类案件关联的多种类型特征包括:对待分类案件的证据材料进行分类处理,得到分类结果;采用分类结果进行特征工程构建,从文本类型证据中提取出第三文本特征子集,从图像类型证据中提取出第四文本特征子集和/或图像特征,以及从音频或视频类型证据中提取出语音特征和/或第五文本特征子集。

在文本特征中,一般会包括:通过文本(如txt、word)记录的文本特征,通过图片识别得到的文本特征,通过语音识别和/或视频识别的文本特征。例如,以网络交易纠纷案由进行说明,网络交易纠纷案由的证据一般包括商品详情页的截图,商品图片/照片,鉴定书,聊天记录,商品视频等;对于图片来说,其中核心为文字的证据,需要用ocr等技术识别出具体的文字,主要是商品(包括商品类型、商品数量、商品价格等)、品牌等的证据,需要用图像分割、提取等技术提取特征;对于语音类型证据来说,需要用asr等技术将声音转化为文字。

在本发明另一可选的实施例中,上述离散特征还包括:第三离散特征子集,获取与待分类案件关联的多种类型特征包括:通过将第一离散特征子集填充至法律知识图谱,进行特征工程构建,得到第三离散特征子集,其中,法律知识图谱按照待分类案件所属的案由领域预先构建完成。

本发明实施例可以通过法律知识图谱来实现自动分类、裁判、推理等操作,根据不同案由领域,可以构建不同的法律知识图谱,该知识图谱可以通过法律专家人工构建,也可以通过终端,利用算法自动构建。图4是根据本发明实施例的一种可选的法律知识图谱的示意图,如图4所示,每个节点代表一个要素、判别要点或者逻辑门,每条边的左边节点是右边节点的输入,这个图包含了生成文书需要的所有要素和审判逻辑的中间节点,例如,最开始的输入数据可以为识别出的原告在中国裁判文书网诉讼次数和/或原告在互法诉讼次数,然后结合原告的信息(包括知识图谱中“是否为原告自认滥诉”、“是否被告举证原告自认滥诉”、“是否在中国裁判文书网诉讼3次以上”、“是否在互法诉讼3次以上”),得到一个参数(如图4中001),通过该参数确定是否为原告自认滥诉。

可选的,知识图谱的关系可以以三元组的形式存储。

在该实施例中,在得到法律知识图谱后,通过将第一离散特征子集填充至法律知识图谱,进行特征工程构建,得到第三离散特征子集,其中,第三离散特征子集可以是指案件的各个法律要素特征,案件的繁简一般跟法律要素息息相关,通过上述的法律知识图谱,相当于有了节点重要程度的先验知识,然后通过第一离散特征子集去匹配法律知识图谱,进行特征工程构建,这样可以得到第三离散特征子集。

在一种可选的实施例中,第三离散特征子集包括:法律要素是否存在,法律要素的权重(重要程度),法律要素到裁判节点的最短路径长度。

步骤s304,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

在确定上述多种类型特征后,可以将多种类型特征作为输入参数,输入至神经网络分类模型中,以对待分类案件进行分类处理。可选的,本发明中的神经网络分类模型相比于传统的线性分类模型,神经网络分类模型可以融合更多类型的特征,还可支持向量机,最大熵等,提高分类准确率。

在本发明实施例中,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果包括:将多种类型特征设置为输入参数,分别采用多种类型特征中每种类型特征对应的特征编码器进行编码处理,共同输出稠密特征向量;将稠密特征向量作为下一层编码器的输入参数,经过编码处理得到分类结果。

图5是根据本发明实施例的一种可选的神经网络分类模型的网络结构示意图,在本发明实施例中,通过神经网络分类模型进行分类时,如图5所示,该网络结构中,对不同类型特征分别使用不同的特征编码器,可选的,分别采用多种类型特征中每种类型特征对应的特征编码器进行编码处理包括:采用双向长短期记忆网络对文本和/或语音特征进行编码处理;采用卷积神经网络对图像特征进行编码处理;采用多层感知器对离散特征进行编码处理。即针对文本和/或语音类特征,采用bi-lstm(双向长短期记忆网络lstm),针对图像类特征,采用cnn(卷积神经网络),针对离散类特征,采用mlp(多层感知器),通过不同的编码器得到了稠密特征向量,作为下一层编码器的输入,下一层编码器可以是普通的神经元层,也可以是基于attention机制的transformer,最后是一个输出层,给出分类结果。

下面通过一种详细分类框图对本发明进行说明,图6是根据本发明实施例一种案件分类系统的系统框图,如图6所示,该案件分类系统中会包括5个输入模块,分别为:信息抽取与数据挖掘模块61、法律要素特征工程模块62、当事人画像特征工程模块63、文本证据特征工程模块64、多模态证据特征工程模块65,其中,法律要素特征工程模块62可以通过该构建的法律知识图谱66进行特征匹配,得到各个法律要素特征。该案件分类系统中还包括一神经网络分类模型67,上述信息抽取与数据挖掘模块61、法律要素特征工程模块62、当事人画像特征工程模块63、文本证据特征工程模块64、多模态证据特征工程模块65中输入的各个特征都可以输入至神经网络分类模型67中,以通过神经网络分类模型对待分类案件进行分类。下面对上述各个模块进行说明。

关于信息抽取/数据挖掘模块61,该模块的作用是挖掘出有意义的离散特征和实体,给模块62和67提供输入。该模块的输入来源包括起诉书、答辩书、证据信息等,比如可以从起诉书中抽取原被告信息;从证据交易日志中抽取是否退款、是否保留追偿权利;从证据商品信息中抽取折扣价格,实际价格等。

关于当事人画像特征工程模块63,网络交易案由的当事人可以分为买家和卖家,其用户画像来自两部分,一是当事人的诉讼历史,来自于互联网法院和最高法的被执行人数据等,可以挖掘出的特征有买家起诉次数、卖家被诉次数,当事人被执行次数等;二是阿里的用户画像,可以当事人在应用软件的交易信息和行为信息中挖掘出当事人的偏好、买家的纠纷投诉次数,卖家纠纷中被投诉次数,买家信用分、星级,卖家信用分、星级、店铺星级等,还有买卖家的纠纷记录,聊天记录等文本信息。当事人的画像中既有离散特征,又有文本特征。

关于文本证据特征工程模块64,起诉状、答辩状是最重要的案情分析材料,其次还有原被告提交的证据。对案情描述和抗辩的文本是非常重要的特征来源,针对文本,主要提取两类特征,一是词的统计特征,比如tf-idf;二是词的向量特征。具体的,包括:预处理,分词,词性标注,实体识别等基础nlp处理;挖掘tf-idf,tf等统计特征;使用网络交易案由的起诉状、答辩状、判决书等文本材料,越多越好,进行分词,可以采用cbow、skip-gram等对分词后的语料训练词向量,具体方法在本发明实施例中不做限制。

关于多模态证据特征工程模块65,网络交易纠纷案由的证据一般包括商品详情页的截图,商品图片,照片,鉴定书,聊天记录,商品视频等证据;对于图片来说,核心为文字的证据,需要用ocr技术识别出具体的文字,例如识别出商品、品牌等证据,需要用图像分割、提取等技术提取特征,具体可以为图片的灰度;对于语音类型证据来说,需要用asr技术将声音转化为文字。

关于法律知识图谱66,其为后续自动裁判推理的核心数据结构,根据不同案由领域需要构建不同的知识图谱,通过法律专家人工构建,也可以通过算法自动构建。

关于法律要素特征工程模块62,本模块提取的特征都跟法律要素有关,有了法律知识图谱66,使用信息抽取与数据挖掘模块61中得到的关键信息,去匹配法律知识图谱66,可以得到特征包括:法律要素是否存在;法律要素的权重(重要程度);法律要素到裁判节点的最短路径长度。

而神经网络分类模型67,模块61至65的特征作为输入,这些特征总体上分类3类:文本/语音特征,图像特征,离散特征。首先对不同类型特征分别使用不同的特征编码器,分别为bi-lstm(双向lstm)、cnn(卷积神经网络)、mlp(多层感知器),通过不同的编码器得到了稠密特征向量,作为下一层编码器的输入,下一层编码器可以是普通的神经元层,也可以是基于attention机制的transformer,最后是一个输出层,给出分类结果。

通过上述实施例,可以实现在司法模式中的分案环节,采用与待分类案件相关联的多种类型特征,将多种类型特征作为输入参数,利用分类模型进行智能分案,可以将案件分为繁简两类,这样可以将其中复杂的案件直接推送给法官,简单的案件先给智能审判系统预审,然后推送给法官确认,达到给法官减负的目的,同样可以减少分类人员的工作量,提高分类效率。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的案件分类方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例,还提供了一种用于实施上述案件分类方法的案件分类装置,图7是根据本发明实施例的一种案件分类装置的示意图,如图7所示,该装置包括:获取单元71,分类单元73,其中,

获取单元71,用于获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征;

分类单元73,用于将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

上述案件分类装置,通过获取单元71获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征,通过分类单元73将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。在该实施例中,可以将与待分类案件关联的多种类型特征作为输入参数,通过神经网络分类模型对待分类案件分类,减少在司法模式中人工分案的工作量,实现了智能案件繁简分流,提高司法案件分案的效率,进而解决相关技术中在处理司法模式中的案件时,效率低下的技术问题。

可选地,离散特征包括:第一离散特征子集、第二离散特征子集和第三离散特征子集,文本特征包括:第一文本特征子集、第二文本特征子集、第三文本特征子集、第四文本特征子集和第五文本特征子集,获取单元包括:信息抽取与数据挖掘模块,用于从待分类案件的诉讼材料中抽取第一离散特征子集;法律要素特征工程模块,用于通过将第一离散特征子集填充至法律知识图谱,进行特征工程构建,得到第三离散特征子集,其中,法律知识图谱按照待分类案件所属的案由领域预先构建完成;当事人画像特征工程模块,用于对待分类案件的当事人进行用户画像分析,得到分析结果,其中,用户画像分析的数据来源包括以下至少之一:当事人的历史诉讼数据、当事人在网络交易过程中的交易信息与行为信息;以及采用分析结果进行特征工程构建,得到第二离散特征子集和/或第一文本特征子集;文本证据特征工程模块,用于对待分类案件的诉讼材料中的文本数据进行自然语言处理,得到处理结果,其中,自然语言处理包括:分词、词性标注、实体识别;采用处理结果进行特征工程构建,通过词频类统计方式对处理结果进行统计得到统计特征,以及采用词向量模型对处理结果进行训练,得到词向量特征;将统计特征与词向量特征确定为第二文本特征子集;多模态证据特征工程模块,用于对待分类案件的证据材料进行分类处理,得到分类结果;采用分类结果进行特征工程构建,从文本类型证据中提取出第三文本特征子集,从图像类型证据中提取出第四文本特征子集和/或图像特征,以及从音频或视频类型证据中提取出语音特征和/或第五文本特征子集。

此处需要说明的是,上述获取单元71,分类单元73对应于实施例1中的步骤s302至步骤s304,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

实施例3

本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。

可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地,在本实施例中,终端可以包括:第一装置;第二装置;处理器,处理器运行程序,其中,程序运行时对于从第一装置和第二装置输出的数据执行如下处理步骤:第一步骤,获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征;第二步骤,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

在本实施例中,上述计算机终端可以执行案件分类方法中以下步骤的程序代码:获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征语音特征、图像特征、离散特征;将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

该计算机终端还可以包括存储器,其中,存储器可用于存储软件程序以及模块,如本发明实施例中的案件分类方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的案件分类方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从待分类案件的诉讼材料中抽取第一离散特征子集。

可选的,上述处理器还可以执行如下步骤的程序代码:对待分类案件的当事人进行用户画像分析,得到分析结果,其中,用户画像分析的数据来源包括以下至少之一:当事人的历史诉讼数据、当事人在网络交易过程中的交易信息与行为信息;采用分析结果进行特征工程构建,得到第二离散特征子集和/或第一文本特征子集。

可选的,上述处理器还可以执行如下步骤的程序代码:对待分类案件的诉讼材料中的文本数据进行自然语言处理,得到处理结果,其中,自然语言处理包括:分词、词性标注、实体识别;采用处理结果进行特征工程构建,通过词频类统计方式对处理结果进行统计得到统计特征,以及采用词向量模型对处理结果进行训练,得到词向量特征;将统计特征与词向量特征确定为第二文本特征子集。

可选的,上述处理器还可以执行如下步骤的程序代码:对待分类案件的证据材料进行分类处理,得到分类结果;采用分类结果进行特征工程构建,从文本类型证据中提取出第三文本特征子集,从图像类型证据中提取出第四文本特征子集和/或图像特征,以及从音频或视频类型证据中提取出语音特征和/或第五文本特征子集。

可选的,上述处理器还可以执行如下步骤的程序代码:通过将第一离散特征子集填充至法律知识图谱,进行特征工程构建,得到第三离散特征子集,其中,法律知识图谱按照待分类案件所属的案由领域预先构建完成。

可选的,上述处理器还可以执行如下步骤的程序代码:将多种类型特征设置为输入参数,分别采用多种类型特征中每种类型特征对应的特征编码器进行编码处理,共同输出稠密特征向量;将稠密特征向量作为下一层编码器的输入参数,经过编码处理得到分类结果。

可选的,上述处理器还可以执行如下步骤的程序代码:采用双向长短期记忆网络对文本和/或语音特征进行编码处理;采用卷积神经网络对图像特征进行编码处理;采用多层感知器对离散特征进行编码处理。

采用本发明实施例,提供了获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征、语音特征、图像特征、离散特征,将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果的方案。通过神经网络分类模型对待分类案件分类,减少在司法模式中人工分案的工作量,实现了智能案件繁简分流,提高司法案件分案的效率,进而解决了相关技术中在处理司法模式中的案件时,效率低下的技术问题。

本领域普通技术人员可以理解,图1所示的结构仅为示意,计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。图1其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图1所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的案件分类方法所执行的程序代码。

可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取与待分类案件关联的多种类型特征,其中,多种类型特征包括:文本特征语音特征、图像特征、离散特征;将多种类型特征设置为神经网络分类模型的输入参数,通过神经网络分类模型得到分类结果。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1