基于信息推理的智能计算机系统构造方法

文档序号:6483412阅读:226来源:国知局
专利名称:基于信息推理的智能计算机系统构造方法
专利说明基于信息推理的智能计算机系统构造方法 技术领域
本发明属于人工智能技术领域,特别涉及一种计算机系统或智能机器人等以信息推理为核心,从大量现有数据中发现规律,获得有价值的信息,并利用这些信息进行智能分析和推理以便解决用户所提出实际问题的系统构造方法。
背景技术
一、数据挖掘技术人工智能领域中传统的从大量数据中发现规律的方法是关联规则挖掘、相关规则挖掘、Web挖掘等数据挖掘技术。数据挖掘技术的一个参考文献是韩家炜等著,《数据挖掘概念与技术》(机械工业出版社,2001)。
数据挖掘的一个核心技术是从数据库中存储的大量数据中挖掘数据项之间的因果关系的规律。传统的方法是挖掘关联规则,给出满足最小支持度和最小置信度条件的形如“如果A,则B”的关联规则。其中关联规则“如果A,则B”的支持度是A和B同时发生的概率;它的置信度是发生A的条件下发生B的概率。关联规则“如果A,则B”的支持度p(A∩B)反映规则的有用性,置信度p(B|A)反映规则的确定性。挖掘关联规则的一般过程是先生成满足最小支持度条件的频繁项集,再由频繁项集产生满足最小置信度条件的关联规则。
关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品的关联,分析顾客的购买习惯,从而帮助零售商制定营销策略和商业布局。随着数据量越来越大,许多业界人士对于从数据库中的大量数据间挖掘规律越来越感兴趣。
关联规则本身存在的缺陷是,关联规则“如果A,则B”的置信度只是给定A、B之间条件概率的估计,不必指示因果关系,并不度量A和B之间蕴涵的实际强度。举个例子来说明。在某商店的事务分析中,60%的事务包含购买计算机游戏,75%的事务包含购买录像,而40%的事务同时包含计算机游戏和录像。设A=购买计算机游戏,B=购买录像,则关联规则“如果A,则B”的支持度为40%,置信度约为66%。如果设置最小支持度为20%,最小置信度为60%,则关联规则“如果A,则B”将作为强关联规则向用户报告。然而,购买录像的可能性是75%,比66%还大,因此,计算机游戏和录像是负相关的,买其中一种实际上减小了买另一种的可能性。由这个例子可见,关联规则“如果A,则B”的置信度有一定的欺骗性,并不度量A和B之间蕴涵的实际强度,有可能产生误导。
另一种传统的方法是相关规则的挖掘,这里相关规则“如果A,则B”中A和B之间的相关性通过来度量。这个值大于1,等于1,小于1分别反映A和B之间是正相关,独立无关,负相关。它反映了统计的相关性,但是它的缺陷是没有反映A和B之间蕴涵的实际强度。
此外,国家知识产权局于2004年4月14日公告授权的03105330.0号《一种基于信息挖掘的智能决策支持构造方法》(申请日2003年2月23日)的发明专利属于Web挖掘的例子,Web挖掘从大量非结构化、异构的Web文档的集合中发现有效的、新颖的、潜在可用的及最终可理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)。其主要数据挖掘的方式是关联规则和序列模式的发现;聚类和分类。利用这些方法来给出能从大量的、异质的Web信息资源中,快速、有效地发现资源和知识的工具。该方法的特点是针对Web网页内容、用户访问信息、电子商务信息等Web信息源的多样性,根据处理对象的不同,采用适当的挖掘方法,对目标样本进行挖掘处理,得到潜在的知识或者模式。方法中存在的问题是仅仅集成了多种传统的数据挖掘方式,并根据任务选择适当的数据挖掘方式,因而不能有效地克服前面提到的传统的数据挖掘方法的缺陷。
二、不确定性推理技术不确定性可以理解为在缺少足够信息的情况下做出判断,是智能问题的特征之一;推理是人类的思维过程,它是从已知事实出发,通过运用相关的知识逐步推出某个结论的过程。所谓不确定性推理就是从不确定性初始证据出发,通过运用不确定性的知识,最终推出具有一定程度的不确定性但却是基本合理的结论的思维过程。
最常见的不确定性是随机性。处理随机性的典型理论是数学上的概率论。反映到推理上,概率论体现为一种“概率逻辑”。概率逻辑分两种。一种是“定量的”概率逻辑。在定量的概率逻辑里面,对命题成立的概率是多少进行数学上的计算和推算。在复杂的推理中,相应的概率逻辑具有一种网络式的结构,这就是所谓的“信念网络”或“贝叶斯网络”。另一种是“定性的”概率逻辑。这种逻辑不具体涉及命题成立的概率值是多少,只是进行定性的讨论。另一种不确定性是模糊性。比如,说某学生“成绩良好”的时候,“成绩良好”的范围是不确定的,由此带来整个命题的不确定性。处理模糊性的典型理论是模糊数学。经过多年的努力,模糊数学已经广泛地用到许多实际领域。除此之外,还有其它的不确定性推理模型,在此不作介绍。
在面向各种具体应用领域的专家系统中,不确定性推理的数学模型被广泛研究和使用。在实际应用中,上述不确定推理方法也存在着各自的问题。例如贝叶斯网络对数据有一定的要求,构造贝叶斯网络时事件要满足条件独立的前提;模糊数学中隶属函数的确定有一定的主观性,模糊系统适合于人的经验的有效控制系统而不适合于高精度定量的系统等。

发明内容
本发明目的是克服现有技术存在的上述不足,提供一种以信息推理为核心,从大量现有数据中发现规律,获得有价值的信息,并利用这些信息进行智能决策分析和推理以便解决用户所提出实际问题的智能计算机系统构造方法。
本发明方法的特点是使用新的信息理论发现大量数据当中蕴含的规律,给出相应的信息推理规则及其可信度的定量数值,使用信息推理提取大量数据中有价值的信息并加以处理,在此基础上构造智能计算机系统。
本发明方法是建立在新的信息理论的基础上新的信息理论中,两个事件A和B的关联度可正可负,即反映事件A和B之间“正面关联”或“反面关联”的程度,在此基础上给出可信度,度量事件A和B之间蕴涵的实际强度。事件A和B之间“正面关联”时,可信度为正;“反面关联”时,可信度为负;独立时,可信度为0。
本发明提供的基于信息推理的智能计算机系统构造方法,是以计算机或计算机系统中的中央处理器和数据存储器为智能系统的硬件基础,以信息推理为核心,其中所述的数据存储器用于存储与任务有关的数据库、由选择任务相关的数据生成的数据表、用于信息推理的各种参数、由数据表计算出的概率场、以及得出的信息推理规则和可信度,该方法的具体构造步骤如下 第1、首先由用户提出所要解决的问题,即事件B; 第2、分析用户的需求,选择数据库中与需求相关的数据,收集解决用户问题要用到的外部数据,对外部数据和存储在数据库中的数据进行整理得到目标数据; 第3、按照用户要求,交互地由用户选择计算中所用的数据,经过离散化等数据预处理生成数据表,由用户设置计算中可调的参数可信度的正阈值与负阈值; 第4、由数据表计算概率场,即从数据表计算事件的频率,根据概率论中的大数定律,当数据量足够丰富时,频率将接近于概率,从而将事件的频率作为事件的概率就得到概率场; 第5、由数据表发现数据当中蕴含的形如“如果事件A成立,那么事件B成立”的规律,使用新的信息理论计算规律的可信度,当可信度大于正阈值或者小于负阈值时得到信息推理规则; 第6、保存第5步得到的信息推理规则和计算出的可信度结果; 第7、交互地将提取的信息显示给用户,帮助用户进行获取信息的评价。
以上第3步所述的数据预处理包括完成数据清理、数据集成和变换、数据归约和离散化,其中 第3.1、数据清理,是要填写空缺的值,处理不完整数据,解决不一致的数据; 第3.2、数据集成和变换,是由多个数据存储合并数据,根据需要变换成适合信息推理的形式; 第3.3、数据归约和离散化,是将数据集进行压缩,使用新的信息理论在归约后的数据集上进行信息推理将更有效。
第5步所述的得到信息推理规则的具体方法是 第5.1、对于事件A和B,由概率场得到p(A),p(B)和p(A,B); 第5.2、比较p(A)p(B)和P(A,B)的大小,判断事件A和B的关联性 当p(A,B)>p(A)p(B),是正面关联, 当p(A,B)=p(A)p(B),独立无关, 当p(A,B)<p(A)p(B),是反面关联; 然后根据以上不同情况按如下计算公式计算规则A→B的可信度H(A→B)
第5.3、当可信度H(A→B)大于可信度的正阈值或者小于可信度的负阈值,则得到信息推理规则A→B,输出规则“如果A,则B”及其可信度H(A→B)。
这一步是提取信息和进行信息推理的核心。
对于多个前提下可信度的计算是完全类似的,即第5步所述的得到信息推理规则的具体方法是 第5.4、对于事件A1、A2…An和B,由概率场得到p(A1,A2,...,An),p(B)和p(A1,A2,...,An,B); 第5.5、比较p(A1,A2,...,An)p(B)和p(A1,A2,...,An,B)的大小,然后根据不同情况按如下计算公式计算规则A1,A2,...,An→B的可信度H(A1,A2,...,An→B)
第5.6、当可信度H(A1,A2,...,An→B)大于可信度的正阈值或者小于可信度的负阈值,则得到信息推理规则A1,A2,...,An→B,输出规则“如果A1,A2,...,An,则B”及其可信度H(A1,A2,...,An→B)。
下面介绍本发明的理论基础新的信息理论。
事件S的补集

表示事件S的信息。事件S的信息量满足公理 (a)非负性事件的信息量总非负; (b)严格单调性若事件A的概率小于事件B的概率,则事件A的信息量大于事件B的信息量; (c)可加性若事件A与事件B独立,则事件“A且B”的信息量等于事件A的信息量加上事件B的信息量。
数学上可以证明在上述公理下,事件S的信息量为 其中p(S)是事件S的概率。事件包含的信息愈多,则信息量愈大,推理潜能愈强。
由两个事件S1和S2的基本信息量

可以给出两个事件的派生信息量





称为事件S1和S2的关联度;

称为事件S2对S1的差异度。

与传统信息量中的互信息不同,互信息始终非负,而

可正可负,反映事件S1和S2“正面关联”与“反面关联”的程度。例如,例.S1=戴眼镜,S2=知识分子,则

>0,S1和S2正面关联;S1=戴眼镜,S2=儿童,则

<0,S1和S2反面关联;S1=假日,S2=地震,则

=0,S1和S2独立无关。
图1是关于信息的韦恩图,由它可以得出两个事件的基本信息量与派生信息量之间的各种可加关系。例如,
等等。
规律S′→S的可信度是已知证据S′的已知信息提取未知原因S的未知信息的信息量的比重。实际应用中,当S′和S反面关联时,为了使得可信度取值在[-1,0],用-H(S′→

)(这里的

是S的对立事件而不是S的信息)作为反面关联时的可信度。用公式来说,就是
可信度不仅反映了相关性,而且反映了蕴涵的实际强度。
本发明的优点和积极效果 本发明构造的智能计算机系统可对大量数据进行智能化的信息处理,自动地从数据中提取信息,发现大量数据之中的规律,用信息推理规则表示规律并给出信息推理规则的可信度的定量数值,可信度不仅反映规律A→B中A与B之间是正面关联,独立无关还是反面关联,并且它也度量推理规则A→B中证据A蕴涵结果B的实际强度,即定量地给出信息推理中证据充分的程度,从而帮助用户从其所有的大量数据中获取有价值的信息,本发明可以广泛地应用于从大量现有数据中发现规律,获得有价值的信息,并利用这些信息进行智能决策分析和推理以便解决用户所提出实际问题的各种计算机系统或智能机器人等。


图1是关于信息的韦恩图; 图2是智能系统的结构图。
具体实施方式
该方法可以通过编程制成相应的计算机软件来具体实施。
本发明提供的基于信息推理的智能计算机系统构造方法,是以计算机或计算机系统中的中央处理器和数据存储器为智能系统的硬件基础,以信息推理为核心,其中所述的数据存储器用于存储与任务有关的数据库、由选择任务相关的数据生成的数据表、用于信息推理的各种参数、由数据表计算出的概率场、以及得出的信息推理规则和可信度,该方法的具体构造步骤如下 第1、首先由用户提出所要解决的问题,即事件B; 第2、分析用户的需求,选择数据库中与需求相关的数据,收集解决用户问题要用到的外部数据,对外部数据和存储在数据库中的数据进行整理得到目标数据; 第3、按照用户要求,交互地由用户选择计算中所用的数据,经过离散化等数据预处理生成数据表,由用户设置计算中可调的参数可信度的正阈值与负阈值; 第4、由数据表计算概率场,即从数据表计算事件的频率,根据概率论中的大数定律,当数据量足够丰富时,频率将接近于概率,从而将事件的频率作为事件的概率就得到概率场; 第5、由数据表发现数据当中蕴含的形如“如果事件A成立,那么事件B成立”的规律,使用新的信息理论计算规律的可信度,当可信度大于正阈值或者小于负阈值时得到信息推理规则,具体方法是 第5.1、对于事件A和B,由概率场得到p(A),p(B)和p(A,B); 第5.2、比较p(A)p(B)和P(A,B)的大小,判断事件A和B的关联性 当p(A,B)>p(A)p(B),是正面关联, 当p(A,B)=p(A)p(B),独立无关, 当p(A,B)<p(A)p(B),是反面关联; 然后根据以上不同情况按如下计算公式计算规则A→B的可信度H(A→B)
第5.3、当可信度H(A→B)的绝对值大于等于最小可信度的阈值,则得到信息推理规则A→B,输出规则“如果A,则B”及其可信度H(A→B)。
这一步是提取信息和进行信息推理的核心。对于多个前提下可信度的计算是完全类似的。
第6、保存第5步得到的信息推理规则和计算出的可信度结果; 第7、交互地将提取的信息显示给用户,帮助用户进行获取信息的评价。
实施例1 下面我们来看一个从数据计算可信度的例子。
设某学校有1000个学生。数据中包含性别、成绩和健康三个属性。性别的属性值是男、女;成绩的属性值是优、良、劣;健康的属性值是上、中、下。将相同属性值的学生归并成一个学生组并记下组中的学生人数。据此得到一个数据表 表1 根据上述数据,我们来计算规律“如果A,则B”的可信度,其中A=健康是上,B=成绩优秀(即指用户的需求)。由上表的数据,有 由于A和B反面关联,从而规律“如果健康是上,则成绩优秀”的可信度为 即健康是上较弱地否定成绩优秀。
同样方法来计算规律“如果A,则B”的可信度,其中A=女生,B=成绩良。则得可信度为H(A→B)=-0.06,可知是很弱的反面关联,而这个规则作为关联规则的置信度为并不反映女生与成绩良之间近乎独立无关的情况。由此可见在发现和处理因果关系的规律上本发明提出的方法有优越之处。
实施例2多个前提下可信度的计算。
例如我们来计算规律“如果A1并且A2,则B”的可信度,其中A1=男生,A2=健康是上,B=成绩优秀。由上表的数据,有 由于前提与结论反面关联,从而规律“如果男生且健康是上,则成绩优秀”的可信度为 即男生且健康是上较弱地否定成绩优秀。
这里,所谓“规律”应该反映事件A与事件B之间的关系,更确切地说,是二者之间可信度为H(A→B)的信息推理规则“如果A,则B”。与关联规则的置信度不同,可信度可正可负,本发明可以发现有用的强的正信息推理规则与强的负信息推理规则,这里强是指可信度的绝对值大,规则越强,那么规则“如果A,则B”的蕴涵的实际强度越大。实际应用中设定可信度的正、负阈值,当信息推理规则的可信度大于正的阈值或小于负的阈值,则认为是强的信息推理规则。极端情况H(A→B)=1,那么规则“如果A,则B”100%成立;H(A→B)=-1,那么规则“如果A,则非B”100%成立。
实施例3地球化学探矿中的应用 在某地区进行金矿的勘探,根据地球化学理论,在一些区域进行了实地勘探,结果其中有些区域发现金矿,另一些区域没有发现金矿。
对于这个实施例,具体实施步骤如下 第1、用户是地质勘探人员,他们所提出的问题是如何根据已勘探过的区域的情况去判断未勘探过的区域地下是否有金矿。这里,目标事件B是“地下有金矿”。
第2、现有在该地区所有地点采样而得到的地表元素含量的数据库。每四平方公里采一个样本,每个样本分析金、银、铅、锌等三十多种元素的含量。元素含量数据库中数据表的形式如下(只列了10种元素) 在信息推理中不需要考虑横坐标和纵坐标。根据用户的专业知识,某些元素与地下是否有金矿没有关系。因此,在构造智能系统时,选择元素含量数据库中已勘探区域的数据,删去横、纵坐标以及上述与金矿无关的元素,保留其余元素的数据用于信息推理的计算。除了数据库中的元素含量数据外,还要加上已勘探区域的金矿勘探结果作为外部数据,加以整合后得到目标数据(图2的步骤1)。对于本例来说,目标数据的形式如下 其中金矿属性值为0表示没有金矿,为1表示有金矿。
第3、按照用户要求,交互地由用户选择计算中所用的数据,在本例中,用户选择全部目标数据,经过离散化等数据预处理生成数据表(图2的步骤2),数据表的形式如下 由用户设置计算中可调的参数可信度的正阈值与负阈值,在本例中,正阈值设为0.75,负阈值设为-0.65. 第4、由数据表计算概率场,即从数据表可以计算事件的频率,根据概率论中的大数定律,当数据量足够丰富时,频率将接近于概率,从而将事件的频率作为事件的概率就得到概率场; 第5、对于本例,解决问题的关键是从数据中发现各种元素的含量对于地下是否有金矿的规律,在此基础上进行信息推理来帮助判断未进行实地勘探区域的地下是否有金矿。这里要寻找的是结论B为“有金矿”而前提A为元素含量组合的规律。这种规律反映由前提到结论的因果关系。具体来说,由数据表发现数据当中蕴含的形如“如果事件A1,A2,...,An成立,那么事件B成立”的规律,使用新的信息理论计算推理规则A1,A2,...,An→B的可信度。在本实施例中,对于n等于1或者2,计算所有形如A1,A2,...,An→B的推理规则的可信度,当可信度大于正阈值或者小于负阈值时得到信息推理规则,对于三个或三个以上前提的情况,在本例中只考虑在两个前提的信息推理计算基础上增加新前提去发现规律(图2的步骤3)。例如,由数据表计算可得信息推理规则“如果三氧化二铁含量数据值为4,并且氧化钙含量数据值为1,则有金矿”的可信度=-93%。这里可信度为负,说明前提和结论是反面关联。由可信度小于负阈值可见这是一条强的负面信息推理规则。
第6、保存第5步得到的信息推理规则和计算出的可信度结果; 第7、将第6步保存的信息推理规则加以解释,例如“如果三氧化二铁含量数据值为4,并且氧化钙含量数据值为1,则有金矿”,其可信度为-93%,实际上是“如果三氧化二铁含量在9.5到12之间,并且氧化钙的含量在1.4到2之间,则有金矿”,其可信度为-93%。整理后形成信息推理结果的报告,交互地将提取的信息显示给用户,帮助用户进行获取信息的评价。
最后发现的信息推理规则都反映数据中的前提到结论(“有金矿”)的因果关系,可信度确实反映了从数据中得到的前提到结论的推理规则的蕴涵强度。用户(地质勘探人员)可以利用信息推理所提取的数据中的信息来作为判断未勘探区域地下是否有金矿的依据。对于本实施例,在定量发现因果规律时,本发明提供的技术方案比传统技术方案要优越,信息推理所提取的信息对地球化学的研究有帮助。
权利要求
1、一种基于信息推理的智能计算机系统构造方法,该方法以计算机或计算机系统中的中央处理器和数据存储器为智能系统的硬件基础,以信息推理为核心,其中所述的数据存储器用于存储与信息推理有关的数据库、由选择任务相关的数据生成的数据表、由数据表计算出的概率场、用于信息推理计算的参数、以及得出的信息推理规则和可信度,该方法的具体构造步骤如下
第1、首先由用户提出所要解决的问题,即事件B;
第2、分析用户的需求,选择数据库中与需求相关的数据,收集解决用户问题要用到的外部数据,对外部数据和存储在数据库中的数据进行整理得到目标数据;
第3、按照用户要求,交互地由用户选择计算中所用的数据,经过数据预处理生成数据表,由用户设置计算中可调的参数可信度的正阈值与负阈值;
第4、由数据表计算概率场,即从数据表计算事件的频率,根据概率论中的大数定律,当数据量足够丰富时,频率将接近于概率,从而将事件的频率作为事件的概率就得到概率场;
第5、由数据表发现数据当中蕴含的形如“如果事件A成立,那么事件B成立”的规律,使用新的信息理论计算规律的可信度,当可信度大于正阈值或者小于负阈值时得到信息推理规则;
第6、保存第5步得到的信息推理规则和计算出的可信度结果;
第7、交互地将第5步得到的信息推理规则显示给用户,帮助用户进行获取信息的评价。
2、根据权利要求1所述的方法,其特征在于第3步所述的数据预处理包括完成数据清理、数据集成和变换、数据归约和离散化,其中
第3.1、数据清理,是要填写空缺的值,处理不完整数据,解决不一致的数据;
第3.2、数据集成和变换,是由多个数据存储合并数据,根据需要变换成适合信息推理的形式;
第3.3、数据归约和离散化,是将数据集进行压缩,使用新的信息理论在归约后的数据集上进行信息推理将更有效。
3、根据权利要求1所述的方法,其特征在于第5步所述的发现数据当中蕴含的形如“如果事件A成立,那么事件B成立”的规律的具体方法是
第5.1、对于事件A和B,由概率场得到p(A),p(B)和p(A,B);
第5.2、比较p(A)p(B)和P(A,B)的大小,判断事件A和B的关联性
当p(A,B)>p(A)p(B),是正面关联,
当p(A,B)=p(A)p(B),独立无关,
当p(A,B)<p(A)p(B),是反面关联;
然后根据以上不同情况按如下计算公式计算规则A→B的可信度H(A→B)
第5.3、当可信度H(A→B)大于可信度的正阈值或者小于可信度的负阈值,则得到信息推理规则A→B,输出规则“如果A,则B”及其可信度H(A→B)。
4、根据权利要求1所述的方法,其特征在于对于多个前提下可信度的计算,第5步所述的方法是
第5.4、对于事件A1、A2...An和B,由概率场得到p(A1,A2,...,An),p(B)和p(A1,A2,...,An,B);
第5.5、比较p(A1,A2,...,An)p(B)和p(A1,A2,...,An,B)的大小,然后根据不同情况按如下计算公式计算规则A1,A2,...,An→B的可信度H(A1,A2,...,An→B)
第5.6、当可信度H(A1,A2,...,An→B)大于可信度的正阈值或者小于可信度的负阈值,则得到信息推理规则A1,A2,...,An→B,输出规则“如果A1,A2,...,An,则B”及其可信度H(A1,A2,...,An→B)。
全文摘要
一种基于信息推理的智能计算机系统构造方法。该方法以信息推理为核心,具体步骤由用户提出问题,分析用户的需求,选择数据库中与需求相关的数据,收集解决问题要用的外部数据,对数据进行预处理;生成数据表,计算概率场,根据新的信息理论进行信息推理规则的可信度计算,输出信息推理规则“如果A,则B”及其可信度;保存发现的信息推理规则的结果。本发明构造的智能计算机系统可对大量数据进行智能化的信息处理,根据信息推理规则“如果A,则B”的可信度判断A与B是正面关联,独立无关还是反面关联,并定量给出推理中证据充分的程度。本发明帮助用户从其所有的大量数据中获取有价值的信息,可广泛地应用于大量数据上的智能系统的构造。
文档编号G06F17/30GK101599072SQ20091006954
公开日2009年12月9日 申请日期2009年7月3日 优先权日2009年7月3日
发明者胡国定 申请人:南开大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1