一种基于遗传算法与最近邻算法的案件检索方法与流程

文档序号:11519649阅读:264来源:国知局

本发明涉及信息检索技术领域,尤其涉及一种基于遗传算法与最近邻算法的案件检索方法。



背景技术:

法院作为案件审理的主体,在多年的工作中已经积累了大量丰富的成功经验,并以数字化的形式保存了大量案件情报信息。同时,随着计算机技术应用的逐步深入,对这些信息的管理和应用策略也日渐成熟,特别是在各种管理信息系统投入应用后,对案件情报信息的应用力度和管理能力已经大大提高。

在历史案件信息的综合挖掘利用方面,部分发达国家早在上世纪80年代后期就开始了研究。他们依靠其先进的计算机技术的发展,利用计算机系统强大的数据处理与数据分析能力,把案件处理工作中获取的各类信息进行统一而规范的管理,以人工智能(如机器学习、人工神经网络、决策树、案例推理等)的方法进行数据的综合挖掘与综合利用,从而得出相对可靠的、具有预警功能的情报信息或方案建议,以利于决策并指导行动。具有代表性的有英国情报核心分析系统(icas)、美国比较数据系统(compstat)、加拿大自动化犯罪情报信息系统(aciis)、澳大利亚执法情报网络(alein)以及我国香港的警队刑事情报信息系统(fcis)等。

我国司法部门从上个世纪90年代后期开始跟踪有关技术的发展,经过几年的积累,目前已经对本课题的基本研究方向有了一定的认识。当前,全国公安系统正在深入开展的“金盾工程”和公安信息化建设的逐步深入,给我们提供了十分难得的发展机遇。人们已经逐渐认识到了数据的重要价值,并努力建设相应的应用系统来发挥数据的巨大效力。有关部门在此基础上提出了打造“案侦信息化”的发展思路。通过引入信息化的思想,把常规的案件侦察流程信息化,融入信息化,应用信息化来辅助办案。刑侦部门在这方面的探索与发展已处于国内公安领域的前列,陆续建设了“刑事案件串并案系统”、“xx数据专家分析系统”、“公安指挥决策支持系统”等综合分析挖掘系统。但是,在综合利用数据挖掘和案例推理技术来辅助案件侦察的研究方面还十分欠缺,目前还没有开发出成功的系统,很多冠以“xx挖掘”的系统,仅仅是传统的查询、统计方法的综合运用罢了。并且,公安各警种相互间由于竞争而存在严重的技术壁垒,高新技术的产品及应用系统往往对其他警种实施技术封锁,使得各警种在新技术应用水平上参差不齐,在一定程度上也阻碍了先进技术在公安案侦领域的应用。

另一方面,人们虽然逐渐习惯了案件情报数字化的使用方式,而且也产生了明显的实际效果。但是,法院对这些数据的应用还仅仅停留在简单的查询、统计、数据交换上,无法提供深层次的辅助决策支持服务。各部门在建设信息化应用系统时,一开始对于系统的长期目标规划一般就是满足信息的常规应用,信息采集入库往往是重点,缺乏深层次的综合分析利用的规划。而随着时代发展,各类民事和刑事案件也是复杂纷繁,案件审理活动由人力密集型方式向信息密集型方式演进,信息对案件审理的导向作用越来越明显。这些历史数据是大量的细节数据,提供了大量的事实和过程描述,缺乏深入的综合分析与挖掘利用实在可惜。因此为了发挥这些海量数据的价值,必须借助案例推理系统及大数据分析等相关技术。



技术实现要素:

本发明要解决的技术问题是,提供一种基于遗传算法与最近邻算法的案件检索方法。

为实现上述目的,本发明采用如下的技术方案:

一种基于遗传算法与最近邻算法的案件检索方法包括以下步骤:

步骤s1、将刑事案例数据科学有效地以向量形式表述并存储;

步骤s2、使用基于ga-knn方法算法建立的模型进行推理;

步骤s3、通过海量刑事案例数据的增删改查模块,为用户存取数据提供操作接口;

步骤s4、利用神经网络进行建模,预测出法官判决的结果。

作为优选,步骤s1具体包括:

在经过预处理后产生可供机器学习使用的向量化的数据;

在每次计算参数以及检索相似案例时被多次读取向量形式的数据。

作为优选,步骤s2具体包括:

初始化权重种群,及产生大量的与刑事案例属性对应的权重;

使用改进的相似算法从案例库中搜索出相似案例,即在测试数据库中寻找相似案例,进行推理时检索算法采用最常用的k-nn邻近算法;

为每个染色体计算适应性函数,并进行遗传算法的进化操作;

根据适应性函数的具体函数值评估结果。

作为优选,步骤s3具体包括:

对法律文书等资料的批量增加、对法律文书等资料的批量删除、对录入有误数据的修改以及对特定相关案例的查询;

海量数据的增删改查技术必须确保对用户操作及函数调用的及时响应;

确保数据在储存、读取及修改时的可靠性。

作为优选,步骤s4具体包括:

根据以往的案例训练神经网络,对案例判决过程建立起模型;

将待检检索案例输入到神经网络后能够输出对判决的预测结果。

本发明具有以下特点:

(1)目前有诸多关于案件推理相关研究,但是以大数据管理和分析为基础的案件推理系统还鲜有研究和讨论,本发明研究基于遗传算法与最近邻算法的案件的智能分析及推理,研究内容具有新颖性。

(2)本发明从案件的向量及过往因循案例出发,实现案件智能分析及证据关联,有助于减轻法官的工作量,研究具有工程前瞻性。

(3)考虑到案件审理的具有一定的主观性,同时当前对案件的处理依然不能摆脱人工密集型的特点,本发明将基于遗传算法与最近邻算法的推理系统应用到案件审理过程中,可以有效保障案件审理的客观性;同时辅助决策系统可以有效保障案件审理的公平,提高审案效率,具有理论创新和应用创新的价值。

附图说明

图1为本发明的基于遗传算法与最近邻算法的案件检索方法的流程示意图。

具体实施方式

将案例的特征与法律领域本体案例库中的本体信息进行比较、匹配,通过本体解析,在法律条例本体案例库中找到与案例的特征相似的相关法条,并提取法条及相关审判推荐,整体架构如图1所示。

以法院案件审理过程中重要的证据及因循案例海量数据为基础的刑事案件和民事案件判决书文档集。

把这些文档存储于本地或网络的数据库或根目录下的子文件夹下。

对刑事案例进行建模,归纳案例特征:

共计39类案例特征,涵盖了犯罪行为的起因、经过、事后行为3方面语义。

根据刑事属性的专家解析,我们拟将案例属性确定为这39个指标。

将每个具体案例中的关键词抽取出来,并用标量来描述每个属性。

将所判刑罚类型归纳为如下7类:

e1:三年以下有期徒刑e5:十年以上有期徒刑

e2:三年以下拘役e6:无期徒刑

e3:三年以下管制e7:死刑

e4:三年以上十年以下有期徒刑

将事件起因可能的特征值总结如表1所示,表中第一行为一级特征;

第二行为对一级特征的特征值的进一步分类,使在表述某一案例时,各二级特征有且只有一个特征值;

第三行为各类中可能的特征值;

规范特征值的目的是为了便于使用决策树、神经网络等数据挖掘算法,为各非二值特征属性的特征值赋予符号标识(如表中的a1至a9),二值特征属性的特征值规范为0或1。

表一

将先施暴方可能的特征值总结如表2所示;

表二

将施暴方式可能的特征值总结如表3所示;

表三

在总结作案工具的特征值时,对多个可能的特征值进行归纳总结,总结为如表4所示的若干二级特征值,及其规范化后的特征值。

特别地,在实际案例中,有混合使用多种作案工具的情况。

表四

将袭击部位可能的特征值总结如表5所示;

表五

最后,将这些标量组成描述该法律案例的一个语义向量:

手工进行提取案例特征并进行以案例特征单值化为目的的预处理,即根据专家经验判断案件是否满足表1到表5描述的特征。

如果满足某个特征则将在向量中对应该特征的元素置为1,否则置为0。

根据专家经验将这些案件分类,并为每个向量增加一个元素,用于存储类别编号。

将这些向量化的数据存储于本地或网络的数据库或根目录下的子文件夹下,以方便多次使用。

以故意伤害罪的法条为例,将判决结果(即预测结果)分为刑、期、缓等3部分,刑即为刑法类型,期即为具体刑期,缓即为缓刑期。

首先,分析了以案例库为基础的数据挖掘技术,根据刑事案件信息离散性和决策过程的非线性特点,提出并论证了决策树模型和神经网络模型的综合应用模式,使法规与案例在决策推理中进行结合;

其次,利用ga-knn方法,形成各类型案件特征对应的权重;

第一步,初始化:

把每个案件特征的权重组成的向量视为遗传算法中的个体,由这些个体组成一个种群;

选定二进制编码,随机产生初始种群;

每组权重表示成二进制码串(对个体采用0-1串行编码方式),具体形式为

xi=(x1,x2,..,xl),{0,1};

其中l为个体的长度,为基因位。通常情况下,随机选择0或1来确定;

第二步,把现有数据分成两个集合:训练集和测试集:

随机抽取10%的数据作为测试集,其余作为训练集。

第三步,执行最近邻(knn)算法:

把全体数据的每个属性分别乘以它们的权重;

利用加权后的属性计算测试集中的每个样本与训练集中的样本的距离:

对于案例库p={x1,x2......xn}中的任意的两个案例,xi=(xi1,xi2,..,xil)和xj=(xj1,xj2…,xjt),有

对于案例库中的任意两个个体xi,xj,定义

sij=(l-dij)/l

其中l为个体的长度,称sij为第i个体与第j个体之间的相似度。

对于测试集中的每个案例,都能确定与之最近的k个案例,把这k个案例成为它的“邻居”;

对于测试集中的一个案例,将包含它的“邻居”最多的类别确定为它的类别;

第四步,确定适应度函数:

根据目标要求确定适应度函数为

其中i是种群中的个体的索引,也可以理解为不同的加权方案的编号,testi(wrong)表示采用第i种加权方式时,利用上一步描述的knn方法来分类时,被分类错误的测试数据的集合,||表示集合的势。

第五步,用遗传算子对个体进行操作,按适应值的大小,从种群中选出适应值较大的一些个体进行选择、交叉、变异操作,形成新一代的种群:

通常情况下,随机选择0或1来确定交叉的位置,从而得到x1,x2,..,xl构成个体x上随机选择某位,然后以此点为界将其分为左右部分,根据设定的交叉概率大小决定是否将两组权重的左右部分互相交换,交叉后会形成两组新的权重。

变异即为了提高遗传算法的全局搜索能力,还需要执行变异操作;

从交叉后的每组权重中,随机选取某位,根据设定的变异概率大小决定是否将该位取反,若满足取反条件,则产生新的权重分布。

第六步,反复执行步骤二到五,直至满足收敛判断为止。

利用ga-knn算法确定案例权重之后进入决策阶段。

使用神经网络,建立案件关键特征与刑事判决类型之间的推理规则—神经网络模型,主要用于分类预测,就是通过向可靠的历史数据学习,使模型具备对未来新数据或新案例进行分类预测的能力。

这里有学习的指导是指数据除包含作为输入角色的变量外,一定还包含作为输出角色的输出变量,且输出变量的取值在现有数据上是已知的。

这里的输入数据是指上一步ga-knn算法计算得到的量刑决策问题使用的按刑罚类型分类的相似案例库,其中的案例即包括量刑决策的输入条件,比如案情,同时也包括案例的判决结果。

以这些数据指导着模型的学习,使模型能够理解怎样的输入变量取值或组合,能得到怎样的分类结果。

通过把输入数据不断输入到神经网络,并且比较网络的输出与期望的输出(案件的正确分类),我们利用随机梯度下降法将这个差异反馈给网络并调整网络参数。

参数的调整幅度为wij(t+1)=wij(t)+α(di-yi)xj(t)

其中wij表示神经元j到神经元i的连接权,di是神经元i的期望输出,yi是神经元i的实际输出,xj表示神经元j状态,若神经元j处于激活态则xj为1,若处于抑制状态则xj为0或-1(根据激活函数而定);a是表示学习速度的常数。

基于遗传算法与最近邻算法的案件推理系统是一个自学习、自适应的系统,它将在问题求解过程中获得的知识以新案例的形式加入到案例库中,完成自学习功能。

当新输入的问题通过基于遗传算法与最近邻算法的案件推理系统解决以后,则形成了一个完整的新案例,由于它可能用于将来情形与之相似的问题,所以有必要把它加入到案例库中。

随着新案例的不断加入,基于遗传算法与最近邻算法的案件推理系统将变得更加有用。这是学习也是知识获取。

本发明的基于遗传算法与最近邻算法的案件检索方法,借鉴国内外相关研究成果,以智能决策理论、信息抽取理论、大数据思想为依托,总结出大数据背景下的智能决策研究的总体思路和关键技术,建立基于规则和案例推理集成的刑事案件智能决策辅助系统的研究框架。依据研究框架,重点研究了刑事案件本体设计与建立,基于本体的刑事案例信息抽取,规则和案例推理集成决策模型和刑事案件量刑决策系统原型设计。

将案例的特征与法律领域本体案例库中的本体信息进行比较、匹配,通过本体解析,在法律条例本体案例库中找到与案例的特征相似的相关法条,并提取法条及相关审判推荐。通过与法律案例本体案例库中的特征匹配,找到与案例相关的历史案例,并提取审判结果。针对刑事案例多属性、多要素特点,通过比较提出和论证了对于多属性、多案例、多要素背景下,基于遗传算法的刑事案例属性优化方法,运用ga-knn方法的结合,实现了多案例、多属性、多要素司法案例推理中的案例检索的可靠性与高精度,解决了支持刑事案件量刑决策可靠案例的关键技术问题。提高了司法案例检索的精度和可靠性,拓展了多类型、多属性案例的检索与属性优化方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1