一种数据挖掘系统以及实现方法和应用的制作方法

文档序号:6608193阅读:235来源:国知局

专利名称::一种数据挖掘系统以及实现方法和应用的制作方法
技术领域
:本发明是一种数据挖掘系统,主要应用到文本、图像等数据的挖掘中,相关的技术包括数据仓库、数据挖掘、自然语言处理、图像处理等。
背景技术
:当前数据挖掘系统,通常不考虑数据中非结构化列的对照关系,事实上不能很好地处理法院裁判数据、行政处罚数据等含有具有对照关系的非结构化列的数据。当前的文本挖掘,可以按照主题对文档进行分类。这种挖掘,在法院裁判数据中,没有现实意义,因为裁判文书中本来就有案由等信息,可以直接用它们进行这种分类。如果要预测一份判决书是否会出现上诉、抗诉等,当前的文本挖掘系统因为不考虑数据中非结构化列的对照关系,很难得到可以适用的效果。类似的问题也出现在图像数据的处理中。
发明内容鉴于以上实际情况,本发明的目的在于提供一种新的数据挖掘系统(1)其输入数据集中至少包含两个或以上的具有对照关系的非结构化数据列,比如文本或图像数据列;(2)对每一行采用如下步骤进行预处理(a)把对照列中的非结构化数据进行特征抽取转化为n维特征向量Vi=(tli,t2i,t3i,…,tni),Vi表示第i个对照列中的一行数据经特征抽取之后形成的特征向量,tli,t2i,t3i,...,tni表示向量Vi在特征tl,t2,t3,...,tn上的值,集合(tl,t2,t3,…,to语所有行中所有对照列中特征的并集,n是总的特征数;(b)将各对照列的特征向量Vi进行合并,形成一个新的特征向量¥*=01*,12*,13*,...,to*),tl*,t2*,t3*,...,tn*,表示向量V—在特征tl,t2,t3,...,tn上的值,合并算法可以是任意一种能够表达tf为各对照列是否出现特征tj的算法,l<=j<=n,j是整数;(c)用特征向量¥*取代原始对照列数据,与这行中的结构化列,即数字列、时间列等一起组成这行的新的表示,必要时增加其它预处理步骤;(3)包含一个建模子系统,根据按照(2)预处理之后的数据进行建模。本发明所述系统,关键在于数据预处理中如何合并各对照列的特征向量表示为一个特征向量表示。本发明进一步提供了如下两种合并算法合并算法l:(1)把对照列中的非结构化数据进行特征抽取转化为特征向量Vi-(tli,t2i,t3i,...,toi)时,tli,t2i,t3i,…,tni的值只能是0和2的i次方之一,分别表示未出现和出现相应的特征;(2)合并各对照列的特征向量Vi为一个新的特征向量V一二(tl*,t2*,t3*,...,加*)时,采用加法,即tj*=tjl+tj2+tj3+...+tjm,m为对照列的总列数。合并算法2:(1)把对照列中的非结构化数据进行特征抽取转化为特征向量Vi二(tli,t2i,t3i,...,tai)时,tli,t2i,t3i,…,tni的值只能是0和1之一,分别表示未出现和出现相应的特征;(2)合并各对照列的特征向量^为一个新的特征向量¥*=({1*,12*,13*,...扭*)时,采用字符连接法,即tj*=tjlIItj2IItj3II...IItjm,m为对照列的总列数,"||"为字符串连接操作符。3为了进一步描述本发明所述系统的现实意义,本发明指出了它在法院裁判数据挖掘中的部分应用在法院民事无第三人、无反诉一审判决书数据挖掘中的应用(1)将每份判决书表示为由法院、案由、判决时间等结构化数据,以及原告陈述内容、被告答辩内容、法院查明内容、法院判决内容等具有对照关系的非结构化数据组成的数据集的一行,输入数据集由多个这样的行组成;(2)根据挖掘的需要,可以增加类别列,包括表示判决生效、原告上诉、被告上诉、检察院抗诉、审判监督程序再审的一个类别列,以及表示一审生效、二审维持、二审改判、发回重审这样的类别列;(3)应用权利要求1所述的系统进行数据挖掘。为了进一步增强上述应用,可以将庭审笔录中的具有对照关系的非结构化数据和判决书的内容合并在一起,组成数据集的一行。具体实施例方式实现本发明所述系统,非常容易,只需要在现有数据挖掘系统中增加一个本发明所要求的预处理模块即可。因此,下面着重描述如何实现本发明所要求的预处理模块。实现本发明所要求的预处理模块,有很多方法。这里描述其中一种。首先描述特征和特征向量的计算机表示。最简单的表示是tl,t2,t3,…,ta,用其编号来表示,即数字1,2,3,...,n。各对照列对应的特征向量Vi表示为一含n个元素的数组。假定某个对照列中的数据含有特征l、3、5,可以表示为数组{1,0,1,0,l,O,O,...,0},除了第l、3、5个元素是1夕卜,其它都是0。这种表示比较占内存,因为事实上绝大多数向量都是稀疏的。通常的表示方法是用一个数组或者有序集来表示,数组或有序集中仅仅包含存在的特征的编号。前文所述的向量可以表示为数组或有序集U,3,5}。乂*的表示在下面介绍。接下来,我们描述向量Vi合并为丫*的过程。假定共有3个对照列,对应的向量为V1={1,2},V2={2},V3={3,4}。按照本发明指出的算法l,通过两重循环就可以确定丫*的表示。第一重循环是l到n的循环,在这个循环内,嵌套一个1到对照列的个数的循环,在内嵌的循环中检测是否存在对应编号的特征,不存在则计为0,否则计为2的i次方,并将这些计数相加,直至内嵌循环结束,将相加之和作为Vf中对应特征的值,记为[特征编号]:[这个相加之和],然后进入下一轮循环,直至外层循环结束。最终,本例中丫*表示为{1:1,2:3,3:4,4:4},它表示11*=1,t2*=3,t3*=4,t4*=4,之所以这样表示是因为V+通常也是稀疏的。最后,将V-与同一行中的结构化数据合并,形成数据挖掘系统常用的表示方法。数据挖掘的输入数据通常包括宽表和窄表两种结构。因为非结构化数据经特征抽取之后通常是稀疏的,所以我们通常采用窄表方式。假定某行的数据如下表所示<table>tableseeoriginaldocumentpage4</column></row><table>其中,原告陈述、被告答辩、法院査明、法院判决是非结构化对照列,其余是结构化列。假定各对照列经上述步骤处理之后表示为{1:1,2:3,3:4,4:4},则这行数据可以用窄表表示如下-<table>tableseeoriginaldocumentpage4</column></row><table>权利要求1、一种数据挖掘系统,其特征在于(1)其输入数据集中至少包含两个或以上的具有对照关系的非结构化数据列,比如文本或图像数据列;(2)对每一行采用如下步骤进行预处理(a)把对照列中的非结构化数据进行特征抽取转化为n维特征向量Vi=(t1i,t2i,t3i,...,tni),Vi表示第i个对照列中的一行数据经特征抽取之后形成的特征向量,t1i,t2i,t3i,...,tni表示向量Vi在特征t1,t2,t3,...,tn上的值,集合{t1,t2,t3,...,tn}是所有行中所有对照列中特征的并集,n是总的特征数;(b)将各对照列的特征向量Vi进行合并,形成一个新的特征向量V*=(t1*,t2*,t3*,...,tn*),t1*,t2*,t3*,...,tn*,表示向量V*在特征t1,t2,t3,...,tn上的值,合并算法可以是任意一种能够表达tj*为各对照列是否出现特征tj的算法,1<=j<=n,j是整数;(c)用特征向量V*取代原始对照列数据,与这行中的结构化列,即数字列、时间列等一起组成这行的新的表示,必要时增加其它预处理步骤;(3)包含一个建模子系统,根据按照(2)预处理之后的数据进行建模。2、如权利要求l所述的系统,其特征在于其预处理步骤中(1)把对照列中的非结构化数据进行特征抽取转化为特征向量Vi-(tli,t2i,t3i,...,tni)时,tli,t2i,t3i,...,tai的值只能是0和2的i次方之一,分别表示未出现和出现相应的特征;(2)合并各对照列的特征向量^为一个新的特征向量¥*=(tl*,t2*,t3*,...,tn"时,采用加法,即tj*=tjl+tj2+tj3+...+tjm,m为对照列的总列数。3、如权利要求l所述的系统,其特征在于其预处理步骤中(1)把对照列中的非结构化数据进行特征抽取转化为特征向量Vi:(tli,t2i,t3i,…,tni)时,tli,t2i,t3i,…,tni的值只能是0和1之一,分别表示未出现和出现相应的特征;(2)合并各对照列的特征向量Vi为一个新的特征向量V*=(tl*,t2*,t3*,...,tn"时,采用字符连接法,即tj*=tjlIItj2IItj3II...IItjm,m为对照列的总列数,"||"为字符串连接操作符。4、如权利要求1所述的系统在法院民事无第三人、无反诉一审判决书数据挖掘中的应用,其特征在于(1)将每份判决书表示为由法院、案由、判决时间等结构化数据,以及原告陈述内容、被告答辩内容、法院査明内容、法院判决内容等具有对照关系的非结构化数据组成的数据集的一行,输入数据集由多个这样的行组成;(2)根据挖掘的需要,可以增加类别列,包括表示判决生效、原告上诉、被告上诉、检察院抗诉、审判监督程序再审的一个类别列,以及表示一审生效、二审维持、二审改判、发回重审这样的类别列;(3)应用权利要求1所述的系统进行数据挖掘。5、如权利要求4所述的应用的进一步增强,其特征在于将庭审笔录中的具有对照关系的非结构化数据和判决书的内容合并在一起,组成数据集的一行。全文摘要本发明是一种数据挖掘系统,主要应用到文本、图像等数据的挖掘中,相关的技术包括数据仓库、数据挖掘、自然语言处理、图像处理等。它包含一个特殊的预处理步骤,对每一行采用如下步骤进行预处理把对照列中的非结构化数据进行特征抽取转化为n维特征向量Vi;将各对照列的特征向量Vi进行合并,形成一个新的特征向量V<sup>*</sup>。文档编号G06F17/30GK101499075SQ20081003316公开日2009年8月5日申请日期2008年1月28日优先权日2008年1月28日发明者万德洪申请人:万德洪
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1