信息对象搜索的方法和装置的制作方法

文档序号:6576537阅读:407来源:国知局
专利名称:信息对象搜索的方法和装置的制作方法
技术领域
本发明属于计算机科学技术领域语义搜索分支,具体涉及一种信息对象搜索的方法和装 置,适用于网络信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库建 立、手机搜索等应用领域。
背景技术
査准率和查全率是衡量搜索引擎的两个重要指标,但是对于海量的综合的搜索引擎来说, 由于互联网信息过剩,重复率很高,对于一般的检索请求,在上述两个指标并不是很优秀的 情况下,仍然能够给客户提供较满意的搜索结果。但是,如果用户要检索一些强结构化的信 息(下文将其称为信息对象,或简称对象,就像面向对象编程里面的对象一样,是强结构化 的,其结构由可嵌套的对象属性(property)构造),普通的综合搜索引擎很难给出满意的结 果,例如,用户搜索最近发布的跟PHP编程有关的威客项目,或者近期将在深圳举办的个人 钢琴表演活动,几乎当前所有的主流搜索引擎不能给出满意的结果。这类信息一方面是强结 构化的,其信息结构表达丰富的语义信息但是信息内容文字数量很小,而普通的综合搜索引 擎难于有效利用这些语义信息;另一方面,这类信息对象往往是有生命周期的,普通的搜索 引擎的索引策略,例如,经典的PageRank,没有很好的利用和管理代表其生命周期的信息。
垂直搜索是一个比较有效的解决方案,垂直搜索将索引的内容专注于某个特定领域或者 行业,采用定制的网络爬虫、内容存储和索引算法和搜索结果呈现方法,提高查准率。例如, 使用定题爬虫和定题搜索方法,为特定几个网站的内容进行索引和搜索。在用户操作界面上, 一般提供类似于数据库査询的操作接口,例如,査询深圳到北京的航班信息或者査询某个商 品的价格等等,像关系数据库査询一样能够获得几乎是完美的査准率。虽然,定制开发的垂 直搜索比较好地解决了领域内的信息搜索问题,但是形成了一个信息孤岛,难于实现异构信 息的共享、交换和检索。综合搜索引擎也提供垂直化的搜索手段,例如,新闻搜索、博客搜 索、论坛搜索等等,然而这种语义的划分是一种粗粒度的分类,不能贴切地反映被搜索内容 的语义。
语义网络的一个重要目标将所有信息孤岛连接起来,促进信息的共享和交换,首先,被 交换和共享的信息必须含有语义结构元数据,才能够被智能代理或者其它各种计算机程序自动识别和处理,采用的技术手段可以是XML和RDF技术等等,例如,如果搜索引擎能够识别 代表信息对象生命周期的信息的语义,那么就可以解决前面述及的搜索引擎的缺陷;其次, 在具有语义结构的互联网内容之上通过建立知识模型,例如采用OWL技术,由计算机程序实 现基于知识的推理等智能运算。
然而要全面实现语义网络,必须有效地跨出基础性的一步——互联网信息的结构化(在 英文文献中,结构化的内容称为data sets,也就是本文所说的信息对象),即使这一步也没 有行之有效的可商用的解决方案。人们试图解决这个问题,涌现出各种方法,大致可以分成 两类,第一类是在网页中直接嵌入元数据,指导计算机程序识别被标记的内容的语义,例如, Microformat可以作为这一类的代表,然而按照统一的标准的语义标记重新书写现有的互联 网页面是不可行的,改写成本难于承担,而且标准讨论和达成一致的过程很漫长;另外一类 采用一些自适应的方法,企图从互联网页面内容中识别出语义信息,然而这类方法基本上还 处于研究或者实验阶段,识别的准确度有待提高,而且实现难度过高,短时间内难于普及应 用。
从另一个角度分析,垂直搜索甚至关系数据库査询系统具有很高的查准率,得益于用户 知晓被査询信息的元数据或者系统将元数据提示给用户,例如,用户査询威客项目时,系统 提供査询界面上给出了多个字段,"类别"、"时间段"、"关键字"等等,用户可以按字段提供 査询条件,经过多个条件的综合约束,将査询范围变得很狭窄。但是,综合搜索系统中,与 某个关键词关联的语义很广泛,也就是说一个关键词可能会落入多个不同的语义范畴,如果 这些语义范畴都用不同的语义结构建模,那么与该关键词关联的语义结构千差万别,用户猜 不出目标语义结构而系统也给不出一个按字段査询的界面。例如,在综合搜索引擎中,用户 输入"最新PHP编程威客项目",想找到与PHP编程有关的威客项目而且还是没有结标的项 目(最新)几乎是不可能的。
随着移动数据业务的普及,用户越来越多的使用手机搜索,用户使用桌面计算机搜索信 息往往是一种探索性的行为,经常乐于翻看搜索引擎提供的多页搜索结果。而手机搜索往往 是一种即兴的、短暂的行为,而且用户还希望一搜即得,获得某个特定信息对象或者怎样获 得该对象的准确的建议。这进一步提高了对信息对象査准率的要求。
本发明的方法和装置解决了上述问题,用于建立综合搜索系统,使用具有语义结构识别 能力的综合网络爬虫提取互联网内容,所述综合是指不局限于特定垂直领域,此网络爬虫利 用语义结构知识库识别目标网页的语义结构,而不局限于特定主题的内容;本方法和装置将 提取到的内容格式化成有语义结构的信息对象,并且从语义知识库中获得索引信息对象的信息属性的指令,分别索引各信息属性,而不是将整个对象的所有内容当成一段文字进行索引; 最后,用户不必按字段输入査询条件,就像使用综合搜索服务一样,仅仅输入被查对象可能 包含的文本短语或者关键字,本发明的方法和装置根据相关性给出多个搜索结果,同时,提 供一个层次化的语义导航树,用户通过点击导航树节点,提炼搜索结果集,快速定位被搜索 的对象,最适于手机或者数字电视等没有全尺寸字符键盘的终端使用。

发明内容
本发明公开了一种信息对象搜索的方法和装置,根据本发明的一个方面,提供了一种信 息对象搜索的方法,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的 信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元 数据的集合,元数据包括信息对象的特性、信息属性的特性、信息对象和信息属性之间的语 义关系、信息属性之间的语义关系、本信息对象与其它有语义关联的信息对象的关系等。其 特征在于,所述方法包括
(1) 建设语义结构和网络资源URI或其前缀的关联库;
(2) 使用目标网页URI査询关联库,获得语义结构;
(3) 根据语义结构,提取网页信息并建立索引;
(4) 响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树;
(5) 用户点击语义导航树的节点时,给用户提供精炼的搜索结果。
根据本发明的另一个方面,提供了一种信息对象搜索的装置,其特征在于,所述装置包

语义结构编辑单元为语义结构编辑人员提供用户界面和编辑工具,生成{语义结构,网 络资源URI)二元组;
语义结构管理单元将网络资源URI解析成路径分解序列,向语义结构和网络资源URI 或其前缀的关联库发送语义结构的插入或者删除或者修改请求;
语义结构和网络资源URI关联库存储和管理语义结构和网络资源URI或者URI前缀
的关联关系树,对外提供语义结构査询接口和语义结构管理接口。查询语义结构时,按照尽
可能深的匹配原则,定位到最深的节点,按优先级排列所有此查找路径上的语义结构;插入 语义结构时,修剪存储树,找出合适的节点存储语义结构;网络内容提取单元由网络爬虫和内容提取器组成,、网络爬虫根据爬行任务列表中的目 标网络资源的地址下载网络资源,通过语义结构査询单元査询语义结构,验证所有语义结构 的适应性,由内容提取器根据语义结构提取目标网络资源的内容,并格式化成语义结构规定 的格式,产生结构化的信息对象,并提交给信息对象索引单元进行索引和存储。另一方面, 还根据语义结构的定义,识别出语义相关的其它网络资源的URI,将新发现的{语义结构,网 络资源皿}二元组提交给语义结构和网络资源URI或其前缀关联库保存;
语义结构査询单元将网络资源URI解析成路径分解序列,向语义结构和网络资源URI 或其前缀关联库发送语义结构査询请求,获得一个有优先级的语义结构序列;
信息对象索引单元接收网络内容提取单元发送来的格式化后的信息对象,按照语义结 构的规定,为信息对象建立索引,存储到信息对象索引序中;
信息对象索引库是信息对象的数齒库r存储和管理信息对象内容、所属的语义结构id、 以上内容的索引等信息;
信息对象搜索单元提供用户搜索界面,分析用户输入的搜索条件文本,产生査询指令, 分页展现符合査询条件的信息对象,同时展现语义导航树。


图1是语义结构和网络资源URI或其前缀关联库的存储树结构
图2是根据本发明的优选实施例的建设语义结构和网络资源URI或其前缀的关联库的流 程图 '
图3是根据本发明的优选实施例的查找关联库存储树并存储语义结构的流程图
图4是根据本发明的优选实施例的修剪关联库存储树并确定当前节点的流程图
图5是根据本发明的优选实施例的处理用户搜索请求的流程图
图6是根据本发明的优选实施例呈现出来的搜索结臬页面
图7是根据本发明的优选实施例呈现出来的使用语义导航经过提炼的搜索结果页面 图8是根据本发明的优选实施例的信息对象搜索的装置的分解图
具体实施例方式
下面结合附图对本发明的优选实施例进行详细的说明。图1是语义结构和网络资源URI或其前缀关联库的存储树结构。深度0只有一个节点, 即根节点,这是一个虚拟的节点。网络资源URI可以分解成多个部分stepn,根据URI规范 RFC2396,通常采用以下格式
<scheme>:〃<authority><path> <query> 本发明所述网络资源URI前缀是指只有上述格式的前面几个部分。
命名机制(scheme)和主机名(authority部分)构成深度为1的节点,路径(path)部分 可以进一步分解成多步,例如, 网络资源 http:〃www.gooseeker.com/cn/node/document/metastudio/operationv3/bookfront,命名机帝U http禾口 主机名 www.gooseeker.com 共同构成深度是 1 的节点,路径 /cn/node/document/metastudio/operationv3/bookfront , 可以分解成{cn, node, document, metastudio,operationv3,bookfront)6步,每一步对应一个节点,而且深度递增,从深度2到7。 在所有节点上都可以存储语义结构,如图所示,圆圈表示一个节点,代表一步。举例来说,
(注释节点编号第一位数字表示深度,后三位数字表示在某个深度下的节点序号),节点
3002上存有语义结构10,在节点2001上存储语义结构6,而节点2001是节点3002的祖先 (本例是直接父节点),对于节点3002来说,语义结构10相比语义结构6更有特定意义,而 语义结构6描述了节点3001和节点3002共同的语义方面,相反,语义结构10描述了节点 3002特有的语义方面。当査询对应于节点3002的网络资源的语义结构时,会得到一个语义 结构序列{语义结构10,语义结构6,语义结构1},优先级递减。本发明的优选实施例利用 语义结构产生校验规则指令,针对某个页面进行校验,检査该语义结构是否适合此页面。
图2是根据本发明的优选实施例的建设语义结构和网络资源URI或其前缀的关联库的流 程图。首先在步骤201,接受输入的语义结构和网络资源URI或者URI的前缀,组成一个二 元组。根据本发明的优选实施例,从两个渠道输入语义结构和网络资源URI或者URI的前缀, 分别是第一,语义结构编辑人员使用根据本发明的优选实施例提供的语义结构编辑工具为 某网络资源编辑完语义结构后,提交存储;第二,根据本发明的优选实施例的网络内容提取 单元提取网络资源上的超链接,在当前页面的语义结构中存有这些超链接所指向的网络资源 的语义结构,所以,将这些超链接指向的网络资源的URI和其语义结构作为输入。
接着在步骤202,生成网络资源URI或者URI前缀的路径分解序列,例如,将http:〃www.gooseeker,com/cn/node/document/metastudio/operationv3/bookfront 分 解 成 {http:〃www.gooseeker.com, cn, node, document, metastudio, operationv3, bookfront}。
接着在步骤203,査找语义结构和网络资源URI或其前缀的关联库的存储树,定位到合 适的树节点,在此节点上存储本语义结构。定位过程中需要修改存储树的拓扑结构,这个过 程在图3和图4中详细分解。
图3是根据本发明的优选实施例的査找关联库存储树并存储语义结构的流程图。该流程 的査找过程是一个循环,从根节点开始查找与某网络资源URI或者URI前缀的路径分解序列 D—致的存储树分支,假设已经循环到序列D中的stepn这一步了,也就是说stepn及其以前 各步连接成的一段分支已经在存储树上找到了。首先在步骤301,用一个程序指针currentNode 指向当前节点,所述当前节点表示査找存储树过程中当前时刻达到的节点,该节点对应路径 分解序列中的stepn步;
接着在步骤302,变量S是一个程序指针,指向路径分解序列中的当前考察的元素,给 变量S赋值S^tepn+i,表示当前处理路径分解序列中的第step^步;
接着在步骤303,査找当前节点的子节点,检査是否已经存在一个子节点对应S,是则执 行步骤304,否则执行步骤308;
接着在步骤304,表示在存储树上找到一个既有的对应S的节点,那么,修改currentNode 指针,指向这个节点,表示査找存储树时向深度方向推移一级;
接着在步骤305,检查当前节点(也就是currentNode指针指向的节点)上是否存有本语 义结构,是则完成本次査找关联库存储树存储语义结构的流程;否则执行步骤306;
接着在步骤306,检査路径分解序列是否还有未处理的元素,是则执行步骤307,否则执 行步骤309;
接着在步骤307,修改指针S,指向路径分解序列中的下一个元素,然后返回步骤303, 再次进入上述循环过程;
接着在步骤308,表示当前节点的子节点中找不到与S步对应的节点,那么需要一个子 过程,建立一个新的存储树的分支,并且在处理过程中,根据需要修剪存储树原有的拓扑结 构,这个子过程在图4中详解;
接着在步骤309, currentNode指针指向的当前节点确定为存储本语义结构的节点,存储 语义结构,完成本次査找关联库存储树并存储语义结构的流程。图4是根据本发明的优选实施例的修剪关联库存储树并确定当前节点的流程图,是图3 所示的步骤308的进一步分解图。首先在步骤401,査找当前节点的所有子树,检査是否在 某个子树的某级节点上己经存有本语义结构,是则执行步骤403,否则执行步骤406;
接着在步骤403,为每个存有本语义结构的子树执行本步骤,删除此子树上的以前存储 的本语义结构;
接着在步骤404,检査该子树上是否还有其它语义结构,或者从己经删去本语义结构的 节点开始向深去的节点上是否还有其他语义结构,是则执行步骤410,否则执行步骤405;
接着在步骤405,如果存储树的分支上已经没有任何语义结构,则删除此分支;
接着在步骤406,表示所有子树上都没有存储本语义结构,也就是说本语义结构是新的, 那么需要建立存储树的新的分支存储本语义结构,在本步骤为S步建立节点; 接着在步骤407,修改当前节点指针currentNode,指向该新建的节点;
接着在步骤408,检査路径分解序列是否还有未处理的元素,是则执行步骤409,否则执 行步骤410;
接着在步骤409,修改指针S,指向路径分解序列中的下一个元素,然后返回步骤406, 再次进入建立新分支的循环中;
接着在步骤410,在currentNode指向的当前节点上存储本语义结构,完成本次査修剪关 联库存储树并确定当前节点的流程
图5是根据本发明的优选实施例的处理用户搜索请求的流程图,首先在步骤501,接受 用户输入的搜索条件, 一般是一组关键词或者短语,也可以包括搜索指令,例如"description: 编程",表示在"description"字段搜索"编程"关键字;
接着在步骤502,解析用户输入的搜索条件,生成根据本发明的优选实施例的引擎能够 接受的搜索指令,执行后,获得一个搜索结果集合;
接着在步骤503,如果搜索结果集合很大,搜索结果需要分页显示,那么从搜索结果集 合中将用户要求的那一页的搜索结果取出来,这些搜索结果也就是本发明所述的信息对象, 信息对象中记录所属的语义结构的ID,根据ID从语义结构和网络资源URI或其前缀关联库 中査询得到语义结构信息;
接着在步骤504,根据每个信息对象的语义结构,生成信息对象的显示格式;接着在步骤505,从用户要求的那一页开始,向后(即页码增大的方向)再获取N页的 搜索结果,其中N是一个配置参数,将所有不同的语义结构汇集在一起。根据本发明的优选 实施例汇集语义结构的方法是一种简单的顺序查找的方法,为了尽快(N越小花费的时间越 少)而且更全面的査找不同的语义结构,可以采用其它的方法,例如,根据本发明的另一个 实施例采用Lucene搜索引擎,修正Lucene原有的评分计算公式,其中一种方法是进行两阶 段评分,第一阶段,使用 Lucene 原有的评分公式(参考 [http:〃lucene.apache.org/java/2一4—1/api/org/apache/lucene/search/Similarity.html]) , i十算i平分并t艮 据得分排列搜索结果;第二阶段,为遇到的每个语义结构维护一个评分平抑参数inhibit(s), s 表示语义结构,第一次遇到语义结构时,该参数初始化为l,随着重复遇到相同的语义结构, 根据某个函数,减小该参数的取值,并且将该参数与原有评分相乘获得新评分,最后,根据 新评分重新排列搜索结果。
接着在步骤506,将搜索结果页显示出来,并且在页面的某个位置显示符合搜索条件的 搜索结果的语义结构的列表。因为语义结构可以用树表示,那么在页面上为每个语义结构显 示一棵树,树的节点的显示名可以是语义结构名、语义结构中规定的信息属性名或者其它语 义关系名,而且每个节点用一个超链接表示,例如,HTML页面的A元素,用户点击这些超 链接,可以重新发起搜索结果提炼请求,将搜索结果局限于用户点击的语义范围内。提炼搜 索结果的语义范围还可以包括一些全局的特性,例如,如果搜索结果集中的信息对象含有表 示生命周期的信息属性,可以将时间段或点作为提炼搜索结果的语义范围。
图6是根据本发明的优选实施例呈现出来的搜索结果页面,左栏是用于提炼搜索结果的 语义导航树,其中包括按照时间段(例如,最近一周)提炼结果的导航节点。
图7是根据本发明的优选实施例呈现出来的使用语义导航经过提炼的搜索结果页面,就 是在图6所示的页面上面,点击"威客项目"节点,将搜索结果限制在威客项目语义范畴内。
信息对象搜索的装置
图8是根据本发明的优选实施例的信息对象搜索的装置的分解图。
语义结构编辑单元(801):为语义结构编辑人员提供一个用户界面,通过此界面,编辑
人员为一个或者一组网络资源(例如Web页面)定义语义结构、指定该语义结构与其它语义结构的关系、指定信息对象及其信息属性的索引参数等。完成编辑操作后,该单元将语义结
构和关联的网络资源URI或者URI前缀(例如用于代表一组具有相同语义结构的Web页面)
提交给语义结构管理单元(802);
语义结构管理单元(802):解析网络资源URI,将URI各组成部分分解开,也就是将 URI路径按每一步分解开,产生一个URI路径分解序列D^(stepi, step2, stepend},向语义 结构和网络资源URI或其前缀关联库(803)发送语义结构的插入或者删除或者修改请求;
语义结构和网络资源URI关联库(803):存储和管理语义结构和网络资源URI或其前缀 关联关系树,对外提供语义结构查询接口和语义结构管理接口,包括关联关系的插入和删除。 其它单元发起语义结构査询请求时,提交目标URI路径分解序列,本单元査找关联关系存储 树,按照尽可能深的匹配原则,定位到最深的节点,排列所有此査找路径上的语义结构,越 深的语义结构的优先级越高。用最深匹配原则而不是精确匹配原则实现一组网络资源内容的 语义结构的聚类,而且縮小关联库的大小。
当语义结构编辑人员完成语义结构编辑任务后会经由语义结构管理单元(802)向本单元 发起语义结构插入或者删除或者修改请求,另外,网络内容提取单元(804)识别出与当前语 义结构有语义关系的新的网络资源URI时,也会直接向本单元发起语义结构插入请求。
插入请求消息中,语义结构与URI路径分解序列关联在一起,序列中每一个元素与语义 结构和网络资源URI或其前缀关联库(803)的存储树中的一个节点对应,按照图3和图4 的详细分解步骤査找语义结构和网络资源URI或其前缀关联库存储树并存储语义结构;
网络内容提取单元(804):由网络爬虫和内容提取器组成,网络爬虫从爬行任务列表中 取得一个目标网络资源的地址,例如,网页URL,下载该网络资源,然后,向语义结构査询 单元(805)发送査询语义结构的请求,输入参数是目标网络资源的地址;请求响应中返回一 个语义结构序列,本单元按顺序验证所有语义结构的适应性,筛选出符合验证规则的一个或 者多个语义结构。内容提取器根据这些语义结构,提取目标网络资源的内容,并格式化成语 义结构规定的格式,产生结构化的信息对象,并提交给信息对象索引单元(806)进行索引和 存储。本单元除了提取和格式化目标网络资源内容以外,还根据语义结构的定义,识别出语 义相关的其它网络资源的URI,例如,Web HTML页面中的超链接所指向的网络资源,将识 别出的网络资源URI和其语义结构关联在一起,将{语义结构,网络资源URI)二元组提交给 语义结构和网络资源URI或其前缀关联库(803),扩充关联库;
语义结构查询单元(805):对目标网络资源地址格式化转换成标准的URI,解析目标资 源的URI,将URI路径中的各步分解开,产生一个URI路径分解序列R二(step、, step'2,step'J,提交给语义结构和网络资源关联库(803),获得一个有优先级的语义结构序列,返回 给发起查询请求的单元;
信息对象索引单元(806):接收网络内容提取单元(804)发送来的格式化后的信息对象, 同时发送的还有相关的语义结构,如果发送来的语义结构中没有索引参数信息,向语义结构 査询单元(805)发送査询请求,获得该语义结构的索引参数信息,根据语义结构及其每个信 息属性的索引参数信息(例如,是否需要特殊处理时间、数字或者货币等,以及索引权重和 文字分析规则等),为信息对象建立索引,存储到信息对象索引库(807)中;
信息对象索引库(807):是信息对象的数据库,存储和管理信息对象内容、所属的语义 结构id、以上内容的索引等信息;
信息对象搜索单元(808):提供用户搜索界面,接受用户的搜索请求,分析用户输入的 搜索条件文本,产生査询指令,从信息对象索引库(807)获取符合査询条件的信息对象,对 査询结果进行分页,假设用户在看第n页,从该页开始,再向后解析N页搜索结果,获得这 些信息对象的语义结构ID,根据语义结构ID从语义结构和网络资源URI关联关联库(803) 获得具体的语义结构信息,其中,N是一个系统配置参数。本单元除了展现一页搜索结果外, 还展现语义导航树,也就是搜索结果可能落入的语义范畴,用户通过点击语义导航树上的某 个节点,可以利用该节点代表的语义提炼搜索结果。
权利要求
1,一种信息对象搜索的方法,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元数据的集合,元数据包括信息对象的特性、信息属性的特性、信息对象和信息属性之间的语义关系、信息属性之间的语义关系、本信息对象与其它有语义关联的信息对象的关系等。其特征在于,所述方法包括(1)建设语义结构和网络资源URI或其前缀的关联库;(2)使用目标网页URI查询关联库,获得语义结构;(3)根据语义结构,提取网页信息并建立索引;(4)响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树;(5)用户点击语义导航树的节点时,给用户提供精炼的搜索结果。
2,根据权利要求1所述的信息对象搜索的方法,其特征在于,所述建设语义结构和网络资源URI或其前缀的关联库,步骤包括(11) 将网络资源的语义结构和网络资源的URI关联在一起,产生{语义结构,网络资源URI)二元组;(12) 解析网络资源URI,将URI各组成部分分解开,产生一个URI路径分解序列D-{stepi, step2,…,stepend};(13) 查找语义结构和网络资源URI或其前缀的关联库并存储语义结构。
3,根据权利要求2所述的信息对象搜索的方法,其特征在于,所述查找语义结构和网络资源URI或其前缀的关联库并存储语义结构,包括(131) 根据URI路径分解序列D查找关联库的存储树,找出路径分解序列D对应的树分支;(132) 如果在本树分支的某个节点上己经存有本语义结构,则终止本过程;(133) 如果在其它分支的某个节点上已经存有本语义结构,则合并此两个分支,修剪存储树拓扑结构;(134) 如果没有任何节点存有本语义结构,建立存储树分支,存储语义结构。
4, 根据权利要求1所述的信息对象搜索的方法,其特征在于,所述网络资源URI的前缀是完整URI分解序列D的子集P={stePl, step2,…,stepn},而且总是由分解序列D中从第一个元素开始的连续的元素组成。
5, 根据权利要求1所述的信息对象搜索的方法,其特征在于,所述使用目标网页URI査询关联库,获得语义结构,步骤包括(21) 解析目标网页的URI,将URI各组成部分分解开,产生一个URI路径分解序列R={step'i, step'2,…,step'n};(22) 使用URI路径分解序列R査找关联库存储树,定位到所在分支尽可能深的节点;(23) 从此节点开始向根节点方向依次将节点上的语义结构依次排列;(23) 根据语义结构校验目标网页是否符合本语义结构的规定(24) 筛选出通过校验的语义结构序列。
6,根据权利要求1所述的信息对象搜索的方法,其特征在于,所述提取网页信息并建立索引,步骤包括(31) 根据语义结构,将语义结构规定的目标网页上的内容提取下来;(32) 根据语义结构,将提取结果格式化成信息对象,可以采用XML或者RDF等格式进行存储;(33) 根据语义结构,建立信息对象的索引
7,根据权利要求6所述的信息对象搜索的方法,其特征在于,所述根据语义结构建立信息对象的索引包括为信息对象中信息属性的内容建立索引时分别使用特定于该信息属性语义的索引参数。所述索引参数包括本信息对象对应的语义结构中关于怎样建立索引的信息片段,包括预定义索引参数和自定义索引参数。所述预定义索引参数对应的计算逻辑是预先定义好的,预定义参数包括但不限于规定是否存储、怎样存储、是否是关键字、是否建立索引、以及对数字、日期、货币、电话号码、自由文本等进行特定处理;所述自定义索引参数包括根据本发明的装置在部署以后根据特定应用场景进行扩展的参数,其对应的计算逻辑是根据特定的信息属性的语义定制的,并注册到根据本发明的装置中,本发明提供自定义索引参数注册管理方法。
8,根据权利要求1所述的信息对象搜索的方法,其特征在于,所述响应用户搜索请求按相关性排序提供搜索结果的同时提供层次化语义导航树,步骤包括(41) 解析用户输入的搜索条件,生成索引库査询指令并执行;(42) 根据搜索结果集中的信息对象的语义结构生成信息对象的显示格式;(43) 汇集搜索结果集中的信息对象的语义结构;(44) 显示搜索结果的同时显示语义结构集,每个语义结构显示成层次化语义导航树。
9,根据权利要求8所述的信息对象搜索的方法,其特征在于,所述层次化语义导航树,包括展现一个树状结构,树的节点包括(441) 按照时间跨度导航的节点,适用于有表示生命周期的信息属性的信息对象;(442) 按照语义结构导航的节点,用语义结构名命名,包括向用户推荐的与被搜索的内容有关的语义结构;(443) 按照语义结构中的信息属性导航的节点,用信息属性名命名,包括语义结构导航节点所拥有的信息属性子节点。
10,根据权利要求1所述的信息对象搜索的方法,其特征在于,所述导航包括用户通过点击层次化语义导航树的节点,进入到另一个搜索结果页面,展现提炼过的搜索结果。
11, 一种信息对象搜索的装置,其特征在于,所述装置包括语义结构编辑单元为语义结构编辑人员提供用户界面和编辑工具,生成{语义结构,网络资源URI)二元组;语义结构管理单元将网络资源URI解析成路径分解序列,向语义结构和网络资源URI或其前缀的关联库发送语义结构的插入或者删除或者修改请求;语义结构和网络资源URI关联库存储和管理语义结构和网络资源URI或者URI前缀的关联关系树,对外提供语义结构査询接口和语义结构管理接口。査询语义结构时,按照尽可能深的匹配原则,定位到最深的节点,按优先级排列所有此查找路径上的语义结构;插入语义结构时,修剪存储树,找出合适的节点存储语义结构;网络内容提取单元由网络爬虫和内容提取器组成,网络爬虫根据爬行任务列表中的目标网络资源的地址下载网络资源,通过语义结构査询单元査询语义结构,验证所有语义结构的适应性,由内容提取器根据语义结构提取目标网络资源的内容,并格式化成语义结构规定的格式,产生结构化的信息对象,并提交给信息对象索引单元进行索引和存储。另一方面,还根据语义结构的定义,识别出语义相关的其它网络资源的URI,将新发现的{语义结构,网络资源URI》二元组提交给语义结构和网络资源URI或其前缀关联库保存;语义结构査询单元将网络资源URI解析成路径分解序列,向语义结构和网络资源URI或其前缀关联库发送语义结构查询请求,获得一个有优先级的语义结构序列;信息对象索引单元接收网络内容提取单元发送来的格式化后的信息对象,按照语义结构的规定,为信息对象建立索引,存储到信息对象索引库中;信息对象索引库是信息对象的数据库,存储和管理信息对象内容、所属的语义结构id、以上内容的索引等信息;信息对象搜索单元提供用户搜索界面,分析用户输入的搜索条件文本,产生査询指令,分页展现符合査询条件的信息对象,同时展现语义导航树。
全文摘要
本发明公开了一种信息对象搜索的方法和装置,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元数据的集合。通过建设语义结构和网络资源URI或其前缀的关联库,能够使用目标网页URI查询关联库,获得语义结构;在语义结构的指导下格式化网页信息并建立索引;响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树;并在用户点击语义导航树的节点时,给用户提供精炼的搜索结果。本发明属于计算机科学技术领域,适用于网络信息提取、全文搜索和语义搜索、手机搜索等应用领域。
文档编号G06F17/30GK101655862SQ200910109540
公开日2010年2月24日 申请日期2009年8月11日 优先权日2009年8月11日
发明者华天清, 栋 宋, 曹鸿钧, 齐勇挺 申请人:华天清;齐勇挺
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1