一种基于搜索引擎的群体智能系统的制作方法

文档序号:6386049阅读:770来源:国知局
专利名称:一种基于搜索引擎的群体智能系统的制作方法
技术领域
本发明涉及一种人机交互信息检索处理系统。使用群体智能、蚁群算法、数据挖掘 和搜索引擎技术,分析和利用用户信息检索过程的思维活动,通过证据理论及不确定性推 理对信息处理,产生知识网络集,提高检索结果质量。
背景技术
一、人工智能人工智能(Artificial Intelligence),它是研究、开发用于模拟、延伸和扩展人 的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个 分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智 能机器。“人工智能” 一词最初是在1956年Dartmouth学会上提出的。从那以后,研究者 们发展了众多理论和原理,人工智能的概念也随之扩展。人工智能涉及到其它诸如意识、自 我、心灵(包括无意识的精神)等等问题。目前对人工智能的定义大多可划分为四类,即机 器“像人一样思考”、“像人一样行动”、“理性地思考”和“理性 地行动”。这里“行动”应广义 地理解为采取行动,或制定行动的决策。人工智能特点是利用计算机技术,建立智能数据库,通过某种策略让计算机像人 类一样思考,按照相应的规范和要求,作出预期的行动和决策。二、蚁群算法与群体智能蚁群算法(ant colony optimization,AC0),又称蚂蚁算法,是一种用来在图中寻 找优化路径的机率型算法。它由Marco Dorigo于1992年在他的博士论文中提出,其灵感 来源于蚂蚁在寻找食物过程中发现路径的行为。各个蚂蚁在没有事先告诉他们食物在什么地方的前提下开始寻找食物。其中一只 找到食物以后,它会向环境释放一种信息素,吸引其他的蚂蚁过来,这样越来越多的蚂蚁会 找到食物!有些蚂蚁并没有象其它蚂蚁一样总重复同样的路,他们会另辟蹊径,如果令开 辟的道路比原来的其他道路更短,渐渐,更多的蚂蚁被吸引到这条较短的路上来。最后,经 过一段时间运行,可能会出现一条最短的路径被大多数蚂蚁重复着。蚁群算法是一种模拟进化算法,初步的研究表明该算法具有许多优良的性质。将 蚁群算法设计的结果与遗传算法设计的结果进行了比较,数值仿真结果表明,蚁群算法具 有一种新的模拟进化优化方法的有效性和应用价值。蚁群算法是一种求解组合最优化问题的新型通用启发式方法,该方法具有正反 馈、分布式计算和富于建设性的贪婪启发式搜索的特点。群体智能是近年来发展迅速的人工智能学科领域。通过研究分散、自组织的动物 群体和人类社会的智能行为,学者们提出了许多迥异于传统思路的智能算法,很好地解决 了不少原来非常棘手的复杂工程问题。三、搜索引擎随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在判断、思考、决策中发挥作用。搜索 引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。①搜索器其功能是在互联 网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以 避免死连接和无效连接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现 和更新的速度。②索引器其功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表 示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③ 检索器其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评 价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有 集合理论模型、代数模型、概率模型和混合模型四种。④用户接口 其作用是输入用户查询、 显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提 供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制[5]。四、数据挖掘数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含 的、事先未知的、潜在的有用信息。①分类模型。其主要功能是根据商业数据的属性将数据 分派到不同的组中,通过分析分组中数据的各种属性,找出数据的属性模型。②关联模型。 主要是描述了一组数据项目的密切度或关系,通过挖掘数据派生关联规则,了解客户的行 为。③顺序模型。主要用于分析数据仓库中的某类与时间相关的数据,并发现某一时间段 内数据的相关处理模型。它是一种在关联模型中增加了时间属性的特定的关联模型。④聚 簇模型。主要用于当要分析的数据缺乏描述信息或无法组织成任何分类模式时,按 照某种 相近程度度量方法将用户数据分成互不相同的一些分组。进而,通过采用聚簇模型,根据部 分数据发现规律,找出对全体数据的描述。根据用法不同,网络数据挖掘又分为①网络内 容挖掘。②网络结构挖掘。③网络用法挖掘。五、不确定性理论和证据理论无论人文社会科学的知识,还是自然科学的知识,都具有确定性和不确定性,其不 确定性主要源于客现世界本身具有不确定、变动不居的性质,因此,人们的知识必定限于特 定的历史阶段和特定的社会条件。知识的相对性就成了知识的不确定性的重要特征。知识 的不确定性表现为(1)知识构成的前提就存在不确定性。知识是人类认识的结晶,其形成依赖两个 前提经验基础和理性基础。经验为知识的形成提供素材,理性对经验所提供的材料进行统 整、加工、概括,二者缺一不可,然而经验常常因人而异,用既定的理性、逻辑去整理已经观 察到的现实,是非常有限的,因为现实的复杂性通常超出理性与逻辑的力量。(2)知识生成过程的不确定性。知识生产复杂多变,除了必然、逻辑、理性的因素, 还充满着许多偶然的因素和非理性的力量如直觉、灵感、顿悟。弗雷明发现青霉素便是其中 最为典型的一例。波兰尼的缄默知识理论亦证明“科学的进步在每一阶段都取决于难以界 定的思维力量”。(3)知识成果的不确定性。这主要体现在知识的增长与变化方面。“二战”以后出 现所谓“知识爆炸”及科技成果转换加快的现象就是最好的说明。随机性真正为人类所认识,要归功于前苏联数学家柯尔莫哥洛夫。他在测度论基 础上,于1933年在其《概率论的基本概念》一文中,首次提出并建立了概率论的公理化方法,使得人们可以用数学的方法研究随机性,将“随机性”用“概率”予以量化表示。借助于 随机变量的分布函数,人们可以研究随机现象的全部统计特征。以贝叶斯公式为基础的贝叶斯理论,在人工智能中一直是处理不确定性的重要工 具。贝叶斯网用图形模式表示随机变量间的依赖关系,提供一种框架结构来表示因果信息。 贝叶斯网可以表达各个节点间的条件独立关系。人们可以直观地从贝叶斯网中得出属性间 的条件独立以及依赖关系。另外,贝叶斯网还给出了事件的联合概率分布,根据网络结构以 及条件概率表可以得到每个基本事件的概率。贝叶斯理论利用先验知识和样本数据来获 得对未知样本的估计,而概率是先验信息和样本数据信息在贝叶斯理论中的表现形式。这 样,贝叶斯理论使得不确定知识表示和推理在逻辑上非常清晰并且易于理解。此外,在基 于概率的不确定性知识表示研究方面,ShortlifT等人提出了带可信度的不确定推理之后, Dempster和Shafer又提出证据理论,引入信任函数和似然函数来描述命题的不确定性。证 据理论满足比概率论弱的公理,又称为广义概率论。当先验知识很难获得时,证据理论可以 区分不确定和不知道的差异,比概率论更合适。而当先验概率已知时,证据理论就变成了概 率论[5]。六、现有技术存在问题1、人工智能技术,虽然近年来发展较快,但是一直未找到可适用于广泛领域的载 体。各种神经网络、专家系统、决策系统多建立在模型基础之上,单一应用成本较高,模型效 果难以验证和预测,模型同现实有一定脱节。技术难以充分利用和调动社会资源。现主要 用于航空、航天、经济政策等大规模、高新科技应用。

2、数据挖掘与知识挖掘均是被动型知识挖掘,难以实现自动化知识发现要求。3、现有的搜索技术主要是“关键字”搜索,即用户输入和结果输出必须存在关键字 匹配,信息与信息之间关联,信息语义结构未被充分利用。3、目前的搜索引擎存在搜索速度慢、死链接太多、重复信息或不相关信息较多,难 以满足人们的各种信息需求,搜索引擎将向智能化、精确化、交叉语言检索、多媒体检索、专 业化等适应不同用户需求的方向发展。互联网络爆炸式的信息膨胀,存在大量的有价值信息。传统搜索引擎本身只能不 断提高链接准确度,及关键字匹配度,按信息质量排名。神经网络、人工智能、数据挖掘、证 据理论等技术及应用方式过于复杂,难以贴近普通民众,未能发挥出信息潜在价值。六、参考资料[1]蔡自兴,徐光佑 人工智能及其应用北京清华大学出版社,2004。8[2]张文修,梁怡,徐萍 基于包含度的不确定性推理北京清华大学出版 社,2007。3[3]探讨搜索引擎技术在网络信息挖掘的应用 程序员,2006[4]徐扬,乔全喜,陈超平,秦克云 不确定性推理成都西南交通大学出版 社,1994[5]李德毅,刘常昱,杜鹋,韩旭不确定性人工智能软件学报,2004

发明内容
针对现有技术存在问题及技术趋势,本发明在搜索引擎基础上,建立群体智能系统,实现知识自动发现与挖掘,提高信息检索结果质量。用户使用搜索引擎时,是一次连续性的思维活动过程。信息检索活动最初时,用户 会使用“关键字”或“关键字组合”来检索,搜索引擎返回信息检索结果。用户选择性查看信 息检索结果。然后,用户根据结果是否满意更换“关键字”或“关键字组合”重新检索。用 户在检索过程中不断调整方法和策略,作出相应判断,如质量越高的资料查看时间越长, 无价值内容被快速关闭,无关联关键字被快速更换。这些信息都潜在反映了同用户意图之 间关系。系统角度观察,用户在信息检索时,思维活动过程是一个信息处理过程。信息处理 内容包括关键字和检索结果。此过程具有较强的目的性。思维活动过程中涉及的信息,可 以提取成一个有价值信息集。人类社会是群体社会,将每一次信息检索活动视为“群体”中的“个体”活动。参 考蚁群系统,设计基于搜索引擎的群体算法,通过正反馈,将个体思维活动作为分布式计算 单元,利用贪婪启发式搜索,获得较高质量信息。现在,信息检索次数达到数亿次每日,意味 着同一行为特征被多次验证的概率极高。将用户一次信息检索思维活动过程视为一次知识证明过程。设用户最终为获取潜 在知识D,潜在知识D构成包括关键字、检索结果、结果顺序、查看内容、查看顺序、查看时 长、关键字变换规律等用户行为及特征,同时还包含可靠性及之间关系。

贝斯公式也称作后验概率公式,在已知结果发生情况下,寻求结果发生原因。其中
权利要求
1.本发明涉及一种基于搜索引擎的群体智能系统,其特征在于搜索引擎技术上实现群 体智能,自动知识网络发现,优化信息检索质量。
2.权利1所述的群体智能系统,其特征在于将信息检索用户作为群体智能系统中的个 体信息处理单元。
3.权利1所述的搜索引擎,其特征在于至少使用一种搜索引擎,为用户提供信息检索接口。
4.权利1和权利3所述搜索引擎,其特征在于使用含搜索器、索引器、检索器和用户接 口的搜索引擎。
5.权利3和权利4所述基于搜索引擎的群体智能系统,其特征在于系统自动提取用户 行为与特征,包括以下一项或多项关键字、检索结果、结果顺序、查看内容、查看顺序、查看 时长、关键字变换规律。
6.权利1和权利5所述群体智能系统,其特征在于将可度量用户检索行为及特征作为 潜在知识的概率测度,合成信任度与似然度。
7.权利5和权利6所述群体智能系统,其特征在于通过信任度、似然度,形成潜在知识 网络。变量节点及连接这些节点有向边构成。节点代表随机变量,节点间的有向边代表节 点间的互相关系,用条件概率表达关系强度。
8.权利6和权利7所述群体智能系统,其特征在于利用用户间检索特征的交叉与重叠, 通过共有节点合并潜在知识的交叉与融合,合并知识网络。
9.权利1和权利8所述基于搜索引擎的群体智能系统,其特征在于检索过程,根据特征 节点匹配,从知识网络路径选择最佳检索结果。
10.根据权利2和权利9所述群体智能系统,其特征在于用户作为群体智能系统中的个 体信息处理单元及可编程单元,设计交互处理逻辑,收集用户处理过程信息,形成启发式反 馈。
全文摘要
本发明涉及一种基于搜索引擎的智能群体系统。系统实现自动知识网络发现、分析与挖掘,优化信息检索结果质量。本发明,利用用户在信息检索中思维活动过程,将用户作为群体智能系统的信息处理单元,设置处理逻辑。将用户检索过程行为及特征作为知识节点,推断其与潜在知识的概率测度,合成潜在知识网。通过大量用户间的搜索行为及特征进行交叉与融合,将潜在知识网络利用共有节点合并,实现语义及知识关联。在信息检索时,根据知识网络路径提供最优搜索结果,形成群体正向反馈,启发式寻优。
文档编号G06F17/30GK102103595SQ200910188879
公开日2011年6月22日 申请日期2009年12月16日 优先权日2009年12月16日
发明者吴桂荣 申请人:吴桂荣
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1