用于农业复杂自适应搜索引擎系统的控制方法

文档序号:6614622阅读:218来源:国知局
专利名称:用于农业复杂自适应搜索引擎系统的控制方法
技术领域
本发明涉及计算机和人工智能应用领域,特别涉及用于农业 复杂自适应搜索引擎系统的控制方法。
背景技术
国内外学者对个性化、专业化以及自适应搜索模式的研究做 了大量有价值的工作。比如,唐晨辉设计的"一种互联网用户相互搜索方法 及其搜索引擎",提供一种互联网用户之间相互搜索的方法和搜索引擎。互联 网用户之间可以根据彼此使用搜索引擎时的搜索记录(采用的关键字和搜索时间)而找到对方;GROSS WILLIAM等人设计的"SEARCH ENGINE USING USER INTENT",提出了一种基于历史搜索用户行为属性的搜索结果排序方法。这些 属性为搜索查询要求与链、文件或与其相关的其他资源的相关度提供了一个 评测标准。但是,由于Internet的结构无组织、多模式特点;信息源动态性、异地 分布性特点;信息量曰新月异地增加,致使保存的信息是变化的、模糊的甚 至是不完整的;这些特点使得这些搜索模型无法适应复杂网络环境的动态变 化,信息更新速度缓慢;专业化信息获取困难,网页抓取的采全率、釆准率 无法得到保证;个性化搜索模型与自适应搜索模型仅仅建立了用户兴趣与搜 索服务的适应与协作关系,如何把用户兴趣模式用于校准专业信息釆集意向, 如何进一步提高专业信息分类精度,如何净化分类信息进一步提高信息质量, 都是新一代专业化、个性化、高度智能化搜索引擎面临的核心问题。正如戴汝为院士指出的互联网是一个以不确定的形式、不确定的时间 进行着不确定内容的动态交互作用形成的动态系统,这个系统完全具备了开 放的巨复杂系统的动力学特征。经查新检索,现有技术中的情报杂志24卷7期介绍了《多Agent协作的智能搜索引擎系统的设计与实现》论文。论文主要技术内容是设计了一 种基于多Agent协作的智能搜索引擎系统模型,结合人工智能的Agent技术 与元搜索引擎技术来共同执行检索任务,实现基于用户兴趣的智能化与个性化。该现有技术论文所述的多Agent协作的智能搜索引擎系统综合考虑了用 户个性化的特点,以Agent之间的通信与协作完成信息检索,具有良好的灵活 性和扩展性,为用户检索所需的信息提供了较好的解决方案。但是该系统的不足之处是多Agent协作的智能搜索引擎系统是一种元 搜索引擎系统,存在着搜索效率较低,受到成员搜索引擎功能的限制,对于 一些行业的专业化搜索引擎的需要,如农业方面的搜索,则查全率与查准率 还不够。发明内容本发明的目的是针对互联网开放性、层次性、演化性、巨 量性等本质特性,在提高查全率与查准率等重要指标的同时,提出一种用于 农业复杂自适应搜索引擎系统的控制方法。该方法能够提高搜索引擎对用户 与网络环境的动态适应能力,为我国广大农业协会、企业、大户以及农技人 员提供农业巿场、技术以及政策、新闻等智能化、个性化专业化服务,有效 解决农业信息服务"信息过载"问题。同时,该方法对建立其它行业的专业 化搜索引擎也具有指导意义。本发明的技术方案是 一种用于农业复杂自适应搜索引擎系统的控制方 法,包括釆用搜集子系统、索引子系统、日志挖掘子系统和釆集信息数据库, 通过系统控制器釆用分层式多主体联盟,其中搜集子系统包括基于知识模板的采集主体与互联网和系统控制器的交 互,,它从系统控制器中获得需要搜集的网页地址,然后根据HTTP协议,和对 应的网页地址所在的网络服务器建立连接,在每个系统控制器上设一个以上 分布接口,使用于农业复杂自适应搜索引擎系统向搜集子系统进行扩展;索引子系统包括索引器和索引数据库,索引器包括词典、 一级网页索引、 二级网页索引和网页描述;曰志挖掘子系统包括日志分析器和用户行为日志数据库;特别是用于农业复杂自适应搜索引擎系统建立釆集信息数据库的原始 信息数据库,实现农业信息的形式化表达,该方法的执行步骤是将与执行任务的顺序控制或伺服控制程序存入系统的程序存储器;
启动该用于农业复杂自适应搜索引擎系统工作,CPU按系统的程序存储器内容读取指令、执行操作,并根据所执行指令的内容更新程序计数器; 当所执行的指令为打开指令时,程序计数器更新与通用计算机相同,通过多个主体协作组进入多主体分类联盟,建立农业信息采集、分类、清洗和服务的农业知识平台;当所执行的指令为工作指令时,所述的用于农业复杂自适应搜索引擎釆用搜集节点、索引节点、查询主体和用户;设定搜集到的网页存在于一个搜集节点上,每个索引节点对应搜集节点搜集的网页;查询主体通过多播向所有索引节点发送查询命令,等待搜集到全部索引 节点返回的检索结果后,对所有结果依据相关度排序,并缓存一定数量的结 果,最后向用户返回结果的首页;当所执行的指令为农业知识平台中的釆集主体指令时,用于农业复杂自 适应搜索引擎采用搜集子系统、索引子系统和曰志挖掘子系统三个子系统;设定在搜集子系统中采集主体利用知识模板从互联网上不断的采集信 息,经过系统控制器将信息存储在原始信息数据库中;将原始信息数据库中的数据通过多主体分类联盟进行信息分类,然后通 过索引器的分析,建立索引数据库;同时将原始信息数据库中的数据通过多主体分类联盟分类和日志分析器 的分析,建立索引数据库,通过检索器建立用户接口,方便用户查询检索信 息,将用户的行为记录在用户行为日志数据库中,作为日志分析器的依据;农业知识平台中的釆集主体能够根据用户的不同需要和兴趣自适应调整釆集意向,分类主体协作组、清洗主体协作组和服务主体协作组通过相互间 的通信以及跟釆集主体协作组的相互通信,也进行自适应调整,包括原始信 息数据库的背景知识,索引节点的网页索引、检索式、结果排序,最终提供 给用户满意的搜索结果和服务。作为对现有技术的进一步改进,原始信息数据库包括数据库、文本库、 图片库、知识库,知识库为农业分类本体知识库。
多个主体协作组进入多主体分类联盟,其中,多个主体协作组为四个, 包括服务主体协作组、清洗主体协作组、分类主体协作组、和釆集主体协作 组,多主体分类联盟为四个,包括釆集联盟、分类联盟、清洗联盟、服务联 盟。釆集联盟,以星型结构建立多主体釆集联盟,釆用知识模板技术,根据 农业种植、养殖分类标准定义主体的信息釆集意向,实现大量农业技术、农 业巿场、农业新闻信息的分类釆集,建立网络信息的釆集主体。分类联盟以星型结构建立多主体分类联盟,针对种植、养殖的品种技术、 施肥技术、病虫害诊断与防治技术以及粮食作物、经济作物、瓜果蔬菜分类 本体为背景知识,釆用基于支持向量机的半监督聚类方法对釆集的网络信息 建立支持向量机分类主体。清洗联盟以星型结构建立多主体清洗联盟,设有数据清洗、文本清洗、 图片清洗,采用时间序列插值、空间序列插值方法建立数据缺损、矛盾、冗 余探测与清洗主体;釆用基于背景知识的半监督聚类方法建立网页信息奇异 点探测主体,釆用基于矢量空间模型相似度计算方法建立冗余网页信息探测 与清洗主体。服务联盟建立多主体服务联盟,利用广大用户注册信息作为背景知识, 结合网络用户曰志挖掘技术,基于农业分类本体的信息扩张技术,实现用户 需求逐步聚焦,针对农业协会、农业企业、农民大户建立服务主体。本发明的有益效果是现有技术论文中的多Agent协作的智能搜索引擎系统是一种元搜索引擎 系统,直接利用成员搜索引擎进行搜索,获得结果,不需要对网络原始信息 进行釆集,没有利用知识表达方法对信息进行形式化表达,不存在原始信息 数据库。本发明方法中建立原始信息数据库,实现农业信息的形式化表达,釆 集主体利用知识模板从互联网上不断的采集信息,经过系统控制器,将信息 存储在原始信息数据库中。原始信息数据库中的数据通过多主体分类联盟进 行信息分类,然后通过索引器的分析,建立索引数据库。用户通过用户接口,
利用检索器查询索引数据库中的信息,同时用户的行为会记录在用户行为曰 志数据库中,作为曰志分析器的依据。曰志分析器的结果会反馈到原始信息 数据库和索引数据库,对原始信息数据库中的内容做相应的调整。农业知识 平台中的采集主体能够根据用户的不同需要和兴趣自适应调整釆集意向,分 类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信以及跟 釆集主体协作组的相互通信,也进行自适应调整,包括原始信息数据库的背 景知识,索引节点的网页索引、检索式、结果排序,最终提供给用户满意的 搜索结果和服务。本专利申请中的用于农业复杂自适应搜索引擎系统是一种基于网络信息 采集器的搜索引擎,利用釆集主体联盟和知识模板直接在互联网上釆集信息, 不存在对外界搜索引擎的依赖,并且利用知识表达方法对信息进行形式化表 达,建立系统的原始信息数据库,而且本系统利用复杂适应系统的思想,建立具有学习机制和进化机制的多智能体,不但注重主体(agent)间的交互, 还强调主体与外界环境的交互和影响,与传统的多主体系统有所不同。本发明针对互联网开放性、层次性、演化性、巨量性等本质特性,从复 杂适应系统这一全新的角度,以农业搜索服务为应用背景,建立专业信息釆 集、分类、清洗与服务主体联盟,并组成多主体联盟实验环境。
本发明对文化程度以及计算机操作水平相对较低的涉农用户将有更加迫 切的需求。目前国内农业专业搜索引擎,特别是个性化、自适应的农业搜索 引擎还处于技术突破的前沿,因此用于农业复杂自适应搜索引擎系统的控制 方法为我国蓬勃发展的农业企业、农业协会、农民大户以及广大农业技术人 员提供农业巿场、农业技术以及政策新闻等个性化服务。有效缓解农业信息 服务"信息过载"问题,对促进我国农业与农村信息化建设也将起到关键作 用。同时,该方法对建立其它行业的专业化搜索引擎也具有指导意义。


图l是本发明的农业知识平台示意图。图2是用于农业复杂自适应搜索引擎设计示意图。图3是用于农业复杂自适应搜索引擎系统的控制方法实施方框图。图4是用于农业复杂自适应搜索引擎系统的控制方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步解释 图l是本发明的农业知识平台示意图。在图l中多个主体协作组为四个,包括服务主体协作组、清洗主体协作组、分类主体协作组、和釆集主体协作组;多主体分类联盟为四个,包括釆集联盟、分类联盟、清洗联盟、服务联 盟。其中釆集联盟,由农业技术釆集主体、农业巿场釆集主体、农业新闻釆集主 体等组成采集联盟。以星型结构建立多主体釆集联盟,釆用知识模板技术, 根据农业种植、养殖分类标准定义主体的信息釆集意向,实现大量农业技术、 农业巿场、农业新闻信息的分类采集,建立网络信息的采集主体。分类联盟,由种植业分类主体、养殖业分类主体、林业分类主体等组成 分类联盟。以星型结构建立多主体分类联盟,针对种植、养殖的品种技术、 施肥技术、病虫害诊断与防治技术以及粮食作物、经济作物、瓜果蔬菜分类 本体为背景知识,釆用基于支持向量机的半监督聚类方法对采集的网络信息 建立支持向量机分类主体。清洗联盟,由数据清洗主体、文本清洗主体、图片清洗主体等组成清洗 联盟。以星型结构建立多主体清洗联盟,设有数据清洗、文本清洗、图片清 洗,釆用时间序列插值、空间序列插值方法建立数据缺损、矛盾、冗余探测 与清洗主体;采用基于背景知识的半监督聚类方法建立网页信息奇异点探测 主体,釆用基于矢量空间模型相似度计算方法建立冗余网页信息探测与清洗 主体。服务联盟,由农业协会服务主体、农业企业服务主体、农民大户服务主 体等组成服务联盟。建立多主体服务联盟,利用广大用户注册信息作为背景 知识,结合网络用户日志挖掘技术,基于农业分类本体的信息扩张技术,实 现用户需求逐步聚焦,针对农业协会、农业企业、农民大户建立服务主体。多个主体协作组进入多主体分类联盟,并以原始信息数据库为交互平台、 按层次式组织结构最终形成农业复杂自适应多主体联盟系统,即农业知识平
随着用户兴趣模式的变化,索引节点的网页索引、检索式、结果排序, 釆集主体釆集意向,清洗联盟与分类联盟学习的背景知识都在进行与之适应的演变。用户能够釆用农业知识平台观察多主体协助组和多主体分类联盟之 间及其与用户环境、网络环境之间交互、学习、适应、进化的结果,进行自 适应搜索模型的查全率、查准率在宏观上的演化规律的研究。图2是用于农业复杂自适应搜索引擎设计示意图。搜集节点之间相互协调,分配URL,保证每个网络主机的全部网页只能存在于一个搜集节点上。每个索引节点对应搜集节点搜集的网页,查询主体通过多播向所有索引节点 发送查询命令,等待搜集到全部索引节点返回的检索结果后,对所有结果依 据相关度排序,并缓存一定数量的结果,最后向用户返回结果的首页。用户 的后续查询(翻页),将会在缓存命中,不必再次启动后面的网络查询,这将 大大减少查询的响应时间,降低后面查询系统的负载,从而提高查询系统的 性能。图3是用于农业复杂自适应搜索引擎系统的控制方法实施方框图。首先釆集主体利用知识模板从互联网上不断的釆集信息,经过系统控制 器,将信息存储在原始信息数据库中。原始信息数据库中的数据通过多主体 分类联盟进行信息分类,然后通过索引器的分析,主要包括利用字典实现原始信息特征项和URL的编码,通过编码建立一级网页索引和二级网页索引,最 后是网页描述,建立索引数据库。用户通过用户接口,利用检索器査询索引 数据库中的信息,同时用户的行为会记录在用户行为日志数据库中,作为曰 志分析器的依据。日志分析器的结果会反馈到原始信息数据库和索引数据库, 对数据库中的内容做相应的调整。从图3可以看出,从功能模块上划分,用于农业复杂自适应搜索引擎系 统由搜集子系统、索引子系统和曰志挖掘子系统三个子系统构成。搜集子系统包括基于知识模板的釆集主体与互联网和系统控制器的交 互,它从系统控制器中获得需要搜集的网页地址,然后根据HTTP协议,和对 应的网页地址所在的网络服务器建立连接。索引子系统包括索引器和索引数据库,索引器包括如下四部分
一、 词典词典是实现特征项、URL和其对应编码的工具。对于搜索引 擎而言,特征项和URL是中文或英文的不定长字符串。显然这不利于系统的 存储和运算。通过词典,将这些不定长的数据转换成系统唯一的整型编码, 能够节省系统的存储空间,同时提高了检索中最常用的运算——比较运算的 运行效率。二、 一级网页索引通过词典, 一个特征项被翻译为系统唯一的编码。 利用这个编码,可以找到这个特征项对应的网页的一级索引的入口。 一级索 引中包含两个数据, 一是该特征项对应的二级网页索引的入口地址偏移量, 二是二级索引项的个数。三、 二级网页索引二级索引是一个索引项列表,它通过一级索引获得。 二级索引表中每一项代表检索特征项对应的一个结果网页概要描述,包括该 网页的编码,特征项与该网页的相关度权值以及用户的评价权值。四、 网页描述这就是检索到的信息,用户通过网页编码获得它。它的 对应域基本上和网页分析时产生的网页描述相同,只有一个域_一链接权值, 是在索引生成时通过对已搜集网页的链接关系生成。曰志挖掘子系统是包括用户行为日志数据库和日志分析器。系统控制器 除了按照启发式算法优先选择重要的URL并分派给各个釆集主体外,还完成 站点过滤、实现釆集主体协议及域名解析高速缓存功能。釆集主体按照HTTP 协议负责从网络上抓取网页,为提高网页搜集速度,通常可以启动上百个釆 集主体同时工作。釆集主体同时对搜集回来的网页内容进行分析处理。系统控制器由主控接口、网页处理模块、超链提取模块三部分构成。其 中主控接口负责和釆集主体的通信,以及和系统控制器内部网页处理模块 和超链提取模块的通信。主控接口将采集主体提交的信息转送给网页处理模 块和超链提取模块,同时将超链提取模块选出的待抓取的URL分配给釆集主 体。网页处理模块主要的功能主要是将网页的文本及相关信息,如网页大小、 网页的最后更新日期等,进行提取分析,然后保存到原始信息数据库中的网 页数据库。
超链提取模块分析网页的文本内容,从中提取指向其它网页的链接,将 它们保存到原始信息数据库中的链接数据库中。超链提取模块的选择是按照 一定的算法,从超链数据库中提取优先级最高的网页,将它们分配给采集主 体进行搜集。在用于农业复杂自适应搜索引擎系统的设计里,在每一个系统 控制器上多设了 一个分布接口 ,使原有系统向子系统进行扩展。用于农业复杂自适应搜索引擎系统的控制方法执行步骤是将与执行任务的顺序控制或伺服控制程序存入系统的程序存储器; 启动该用于农业复杂自适应搜索引擎系统工作,CPU按系统的程序存储器内容读取指令、执行操作,并根据所执行指令的内容更新程序计数器; 当所执行的指令为打开指令时,程序计数器更新与通用计算机相同,通过多个主体协作组进入多主体分类联盟,建立农业信息釆集、分类、清洗和服务的农业知识平台;当所执行的指令为工作指令时,搜索引擎釆用搜集节点、索引节点、查 询主体和用户;设定搜集到的网页存在于一个搜集节点上,每个索引节点对应搜集节点 搜集的网页;查询主体通过多播向所有索引节点发送查询命令,等待搜集到全部索引 节点返回的检索结果后,对所有结果依据相关度排序,并缓存一定数量的结 果,最后向用户返回结果的首页;当所执行的指令为农业知识平台中的釆集主体指令时,搜索引擎采用搜 集子系统、索引子系统和曰志挖掘子系统三个子系统;设定在搜集子系统中采集主体利用知识模板从互联网上不断的采集信 息,经过系统控制器将信息存储在原始信息数据库中;将原始信息数据库中的数据通过多主体分类联盟分类和日志分析器的分 析,建立索引数据库,通过检索器建立用户接口,方便用户查询检索信息, 将用户的行为记录在用户行为日志数据库中,作为日志分析器的依据;农业知识平台中的釆集主体能够根据用户的不同需要和兴趣自适应调整釆集意向,分类主体协作组、清洗主体协作组和服务主体协作组通过相互间 的通信以及跟釆集主体协作组的相互通信,也进行自适应调整,包括原始信 息数据库的背景知识,索引节点的网页索引、检索式、结果排序,最终提供 给用户满意的搜索结果和服务。索引器将原始信息数据库的内容重新组织,建立索引数据库,以提高检 索效率。调用切词软件以提取关键词和摘要,提取URL超链接,记录网页的 元信息,如作者、修改日期、长度等,并将这些内容存入原始信息数据库。用户接口在截取用户的查询请求后,将它转发给检索器,检索器根据查 询项和索引数据库的内容,找到匹配的网页后,进行相关度计算并排序,然 后通过用户接口返回给用户。另外,用户接口程序还将用户行为信息,包括用户查询项、用户点击的URL、用户翻页情况等,记录到用户行为曰志数据库中。日志分析器用于跟踪用户行为,能够学习新词来动态更新词典内容, 以提高搜索引擎的服务质量。图4是用于农业复杂自适应搜索引擎系统的控制方法的流程图。 农业复杂自适应搜索引擎开始启动(步骤100 ),搜索引擎系统初始化(步 骤IIO),然后,采集主体联盟开始采集网络信息(步骤120),对获得的网络 原始信息进行网络信息处理,对网页的文本及相关信息进行提取分析(步骤 130),并从中提取指向其它网页的超链接(步骤140),将分析后的网络信息 保存到原始信息数据库(步骤150),对原始信息建立信息索引(步骤160), 建立索引数据库(步骤170),用户对索引数据库进行信息检索(步骤180), 系统返回给用户相应的检索结果即作为结果网页(190),同时系统保存用户 曰志行为(步骤200 ),用户日志行为分析器对用户日志行为进行分析(步骤 210),修改原始信息采集策略和索引策略(步骤220 )。如果还有新的检索要 求,用户继续检索信息(步骤230),则重复步骤180至步骤220,若否,则 检索结束(步骤240)。
权利要求
1、一种用于农业复杂自适应搜索引擎系统的控制方法,包括采用搜集子系统、索引子系统、日志挖掘子系统和采集信息数据库,通过系统控制器采用分层式多主体联盟,其中所述的搜集子系统包括基于知识模板的采集主体与互联网和系统控制器的交互,它从系统控制器中获得需要搜集的网页地址,然后根据HTTP协议,和对应的网页地址所在的网络服务器建立连接,在每个系统控制器上设一个以上分布接口,使用于农业复杂自适应搜索引擎系统向搜集子系统进行扩展;所述的索引子系统包括索引器和索引数据库,索引器包括词典、一级网页索引、二级网页索引和网页描述;所述的日志挖掘子系统包括日志分析器和用户行为日志数据库;其特征在于用于农业复杂自适应搜索引擎系统建立采集信息数据库的原始信息数据库,实现农业信息的形式化表达,该方法的执行步骤是将与执行任务的顺序控制或伺服控制程序存入系统的程序存储器;启动该用于农业复杂自适应搜索引擎系统工作,CPU按系统的程序存储器内容读取指令、执行操作,并根据所执行指令的内容更新程序计数器;当所执行的指令为打开指令时,程序计数器更新与通用计算机相同,通过多个主体协作组进入多主体分类联盟,建立农业信息采集、分类、清洗和服务的农业知识平台;当所执行的指令为工作指令时,所述的用于农业复杂自适应搜索引擎采用搜集节点、索引节点、查询主体和用户;设定搜集到的网页存在于一个搜集节点上,每个索引节点对应搜集节点搜集的网页;查询主体通过多播向所有索引节点发送查询命令,等待搜集到全部索引节点返回的检索结果后,对所有结果依据相关度排序,并缓存一定数量的结果,最后向用户返回结果的首页;设定在所述的搜集子系统中采集主体利用知识模板从互联网上不断的采集信息,经过系统控制器将信息存储在所述的原始信息数据库中;将所述的原始信息数据库中的数据通过多主体分类联盟进行信息分类,然后通过所述的索引器的分析,建立索引数据库;同时将所述的原始信息数据库中的数据通过多主体分类联盟分类和日志分析器的分析,建立索引数据库,通过检索器建立用户接口,方便用户查询检索信息,将用户的行为记录在用户行为日志数据库中,作为日志分析器的依据;所述的农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向,分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信与采集主体协作组相互通信,进行自适应调整,包括所述的原始信息数据库的背景知识,索引节点的网页索引、检索式、结果排序,最终提供给用户满意的搜索结果和服务。
2、 根据权利要求l所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的原始信息数据库包括数据库、文本库、图片库、知识库,所述的知识库为农业分类本体知识库。
3、 根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的多个主体协作组进入多主体分类联盟,其中,所述的 多个主体协作组为四个,包括服务主体协作组、清洗主体协作组、分类主体 协作组、和釆集主体协作组,所述的多主体分类联盟为四个,包括釆集联盟、 分类联盟、清洗联盟、服务联盟。
4、 根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的采集联盟,以星型结构建立多主体釆集联盟,釆用知 识模板技术,根据农业种植、养殖分类标准定义主体的信息采集意向,实现 大量农业技术、农业市场、农业新闻信息的分类釆集,建立网络信息的釆集 主体。
5、 根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的分类联盟以星型结构建立多主体分类联盟,针对种植、 养殖的品种技术、施肥技术、病虫害诊断与防治技术以及粮食作物、经济作 物、瓜果蔬菜分类本体为背景知识,釆用基于支持向量机的半监督聚类方法 对釆集的网络信息建立支持向量机分类主体。
6、 根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的清洗联盟,以星型结构建立多主体清洗联盟,设有数 据清洗、文本清洗、图片清洗,釆用时间序列插值、空间序列插值方法建立 数据缺损、矛盾、冗余探测与清洗主体,釆用基于背景知识的半监督聚类方 法建立网页信息奇异点探测主体,釆用基于矢量空间模型相似度计算方法建 立冗余网页信息探测与清洗主体。
7、 根据权利要求1所述的用于农业复杂自适应搜索引擎系统的控制方 法,其特征是所述的服务联盟,建立多主体服务联盟,利用广大用户注册 信息作为背景知识,结合网络用户曰志挖掘技术,基于农业分类本体的信息 扩张技术,实现用户需求逐步聚焦,针对农业协会、农业企业、农民大户建 立服务主体。
全文摘要
本发明涉及用于农业复杂自适应搜索引擎系统的控制方法,包括采用搜集子系统、索引子系统、日志挖掘子系统和原始信息数据库,通过系统控制器采用分层式多主体联盟。通过多个主体协作组进入多主体分类联盟,建立农业信息采集、分类、清洗和服务的农业知识平台。农业知识平台中的采集主体能够根据用户的不同需要和兴趣自适应调整采集意向,分类主体协作组、清洗主体协作组和服务主体协作组通过相互间的通信与采集主体协作组相互通信,进行自适应调整,包括原始信息数据库的内容更新,最终提供给用户满意的搜索结果和服务。本发明提高搜索引擎对用户与网络环境的动态适应能力,解决农业信息服务“信息过载”问题。
文档编号G06F19/00GK101162472SQ20071019395
公开日2008年4月16日 申请日期2007年11月21日 优先权日2007年11月21日
发明者孙丙宇, 张晓明, 王儒敬, 魏圆圆, 河 黄 申请人:中国科学院合肥物质科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1