用于门户网站上,对多种资源仓库统一并行检索的方法

文档序号:6556627阅读:143来源:国知局
专利名称:用于门户网站上,对多种资源仓库统一并行检索的方法
技术领域
本发明涉及门户网站,尤其涉及一种用于门户网站上,对多种资源仓库统一并行检索的方法。
背景技术
互联网为信息的分发传播带来了新的模式。传统的第一代互联网的典型应用是收发电子邮件、传输文件、发布文字新闻及言论等。20世纪90年代以后,超文本格式被发明,它把分布在互联网上的各种文件链接在一起,用户只要通过点击链接,就可以从一个网页跳转到另外一个网页,网页上面不仅有文字,还可以包括声音、图像、视频等丰富多彩的多媒体信息。这个阶段的互联网,往往被称为万维网,它用超链接技术和多媒体技术改造了第一代互联网。万维网极大地改变了人们工作、学习、生活、娱乐的方式。
当前,互联网成为一个巨大的无序的海量知识库,人们会发现互联网就像一个堆满书籍,无人整理的超大型数字图书馆。用户寻找所需信息的方法无外乎两种,要么直接访问自己知道的网站,要么通过搜索引擎查找自己感兴趣的内容。为了方便用户找寻所需要的信息,门户概念应运而生,门户通常被认为是信息共享的枢纽和用户窗口。未来互联网将朝着智能化、深入化、社会化的方向来发展,而个人门户,将代表和引领下一代门户的发展方向。下一代门户的核心正是内容和应用的整合、搜索技术以及web2.0理念,而兼具以上特征的个人门户正是下一代门户的典型形态。个人门户,采取的是信息的分布式生产和一对一的个性化传播的模式,是指由个体自主定制的、个性化的、专属的互联网的内容和应用整合平台,是个体进入互联网的主要入口,能满足个体的大多数服务需求。
互联网门户网站作为消费者从事电子商务和其他网上活动的起点,提供高质量的检索服务就变得极为必要。互联网的发展正在导致信息提供和传递的“公共化”,信息提供和传递的商业价值正在消减。事情的关键不是能否快速、海量地提供和传递信息,而是能否在期望的时间和地点,以期望的方式和成本,获取所期望的信息;也就是说,商业价值的重点正在从信息的“发送端”向“接收端”延伸和转移。因此,在信息要求日渐准确快捷的今天,长时间的筛选工作无疑成为了一个新的瓶颈,解决这个问题也就成了搜索技术的研究重点。

发明内容
本发明的目的是提供一种用于门户网站上,对多种资源仓库统一并行检索的方法。
它包括如下步骤(1)门户利用视图综合器读取门户配置文件,根据配置文件中资源仓库的配置,在门户页面上动态生成勾选框和描述文本,一个资源仓库配置对应一对勾选框和描述文本;(2)用户选中想要检索的资源仓库的勾选框,点击检索按钮,触发门户网站,用户的浏览器完全刷新,门户针对被检索的资源仓库触发相应的后端检索系统,后端检索系统以标记语言形式生成检索结果视图;(3)门户利用视图综合器计算各个被检索资源仓库的检索结果视图在浏览器页面上的显示区域,将每个仓库的检索结果放到计算得到的显示区域中,每个区域的内部右上方有最小化按钮、最大化按钮;(4)用户点击最小化按钮,门户则解除勾选对应资源仓库的勾选框,隐藏其检索结果区域;(5)用户再次勾选先前被解除勾选的资源仓库勾选框,门户重新显示相应的资源仓库的检索结果区域;(6)用户点击最大化按钮,门户将对应资源仓库的检索结果显示区域扩展到整个浏览器屏幕,解除勾选其它被检索资源仓库的勾选框,隐藏其相应的检索结果区域;(7)用户点击最大化显示区域右上方的还原按钮,门户将该资源仓库检索结果显示区域还原到原始大小;重新勾选其它被检索资源仓库的勾选框,重新被显示相应的检索结果区域。
所述的资源仓库是异构资源仓库,它存放在分布式网络存储上面,门户通过和资源仓库之间的约定,定期收割资源仓库的元数据。资源仓库的类型包括电子书,图片,音频,视频以及相应的元数据。后端检索系统是在具体的资源仓库检索方法之上提供了统一的抽象程序接口,具体的资源仓库检索方法分为基于元数据的检索和基于数据内容本身的检索两类。后端检索系统是在统一的检索抽象层之上提供统一配置机制,以方便向门户中添加、删除、修改资源仓库的名称,后端检索模块,存储位置信息。视图综合器允许用户同时提交多个资源仓库的检索请求,门户后端同时执行这些资源仓库的检索请求。视图综合器是在一个页面上面显示所有资源仓库的检索结果。视图综合器是按被检索资源仓库的检索结束顺序,依次在页面上指定区域显示相应的检索结果。越先结束检索的资源仓库的检索结果越先被显示,视图综合器不会等待所有被检索资源仓库都结束检索过程,然后再显示全部检索结果。视图综合器是允许用户随意选择想要检索的资源仓库,视图综合器会重新计算页面布局,以显示检索结果。在这个过程中,浏览器不会刷新整个页面。检索结果视图是类似于一个windows桌面窗口,可以最小化,最大化和还原。让用户只关注自己最感兴趣的资源仓库的检索结果视图。
本发明具有的有益的效果是门户网站是一种B/S应用,浏览器应用由于受到浏览器/服务器交互模式的限制,在用户使用体验方面一直大大落后桌面应用。本发明为了改善用户的交互体验,设计实现了一种新颖的交互式多资源仓库检索方式。新颖的浏览器内用户交互检索界面使得用户获得了类似Windows桌面应用程序的使用体验,用户浏览器在检索过程中不会经常处于完全刷新状态,等待服务器端响应数据的传输。如果用户选择了多个资源仓库,那么各个资源仓库检索完毕的顺序会有先后,先检索完毕的资源仓库的检索结果会直接呈现在浏览器页面的某块区域,它不需要等待别的资源仓库的检索过程结束。这个过程所耗费的时间和等到所有资源仓库都检索结束,再把所有的检索结果呈现在浏览器页面中所耗费的时间相比要短得多;用户在输入检索词和完成第一次查询之后,还可以动态选择以已输入的检索词检索哪些资源仓库。检索结果呈现区域本身就类似Windows桌面中的窗口,用户可以最大化、最小化检索结果呈现区域。另外视图综合器能够充分利用页面的宽度和高度,使得用户不用滚动页面就能观看到大量检索结果记录。门户后端检索系统在程序内部抽象统一检索接口,使得添加、删除资源仓库可以通过配置文件得以实现,增强了系统部署时候的灵活性和可维护性。


图1是本发明的门户软硬件系统图;图2是本发明的多资源仓库统一抽象检索接口示意图;图3是本发明的统一检索首页图;图4是本发明的统一检索使用过程图;图5是本发明的统一检索使用过程图,去除视频资源仓库的勾选;图6是本发明的统一检索使用过程图,最大化论文资源仓库的检索结果窗口;图7是本发明的统一检索系统整体工作流程图。
具体实施例方式
下面将具体说明本发明的一种具体实施方法。
图1显示了根据本发明的软硬件系统,包括门户程序108,计算机系统101等。如图所示,计算机系统101一般来说包括中央处理单元(CPU)102,存储器103,总线111,输入输出(I/O)105,外部设备/资源109,和数据库110。CPU102可以是单个处理单元,或者是跨客户机和服务器上的多个位置中的多个处理单元。存储器103可以包括任何已知的数据存储和/或传输介质类型,包括磁介质,光学介质,随机存取存储器(RAM),只读存储器(ROM),数据高速缓冲,数据对象等等。此外,类似于CPU102,存储器103可以是位于单个物理位置,包括一种或多种数据存储类型,或者是跨多种形式的物理系统。
I/O接口105包括用于与外部源交换信息的任何系统。外部设备/资源109包括任何已知的外部设备类型,如扬声器,CRT,LED屏幕,掌上型设备,键盘,鼠标,语音识别系统,语音输出系统,打印机,监视器,传真,寻呼机等等。总线111在计算机系统101中的每一个部件之间提供通信链路,可以是任何已知的传输链路类型,包括电,光学,无线等等。此外,计算机系统101中还可以包括更多的部件,如高速缓冲存储器,通信部件,系统软件等等。
数据库110可以用于存储执行本发明所必须的信息。这样的信息可以包括,例如,数字资源(例如,数字图书,视频,图像等)和用户数据(例如偏好,web通信历史等等)。数据库110即可以是一个或多个存储设备,如磁盘驱动器或光盘驱动器,也可以是跨局域网(LAN),广域网(WAN)或存储区网络(SAN)(未显示)分布的数据存储设备。精通数据库技术的普通人员可以将数据库110解释为包括一个或多个存储设备。
通常认为,计算机系统101是向用户112提供web内容的任何类型的计算机。这样的例子包括服务器,客户端,工作站,膝上计算机,个人数字助手等等。就这一点来说,计算机系统101是一个直接由用户112进行访问的系统(例如,家庭或办公室计算机),或者是在远离用户112的一个位置运行的web服务器。此外,通常认为,资源仓库提供者114和计算机系统101之间的通信可以通过直接的硬连线的连接(例如,串行端口)或者通过可寻址的连接进行。如此,用户112,资源仓库提供者114和计算机系统101可以通过因特网,LAN,WAN,VPN或其他网络类型进行通信。
门户程序104在计算机系统101的存储器103中运行。如图所示,门户程序104包括,用户交互控制器106,视图综合器107和多个后端检索模块108。一般使用场景是,用户112将访问计算机系统101以从资源仓库114获得/查看web内容。具体来说,用户112通过与计算机系统101建立连接来访问一个门户页面。在门户页面中用户通过用户交互控制器106,指示一个或多个后端检索模块108从资源仓库提供者114获得用户需要的内容。然后,每一个后端检索模块108都以标记语言(如XML,HTML)形式输出检索结果。检索结果最终被视图综合器107组织为相应的门户视图,以便作为门户页显示。此外,可以基于数据库110中的用户数据进一步组织检索结果的筛选和显示。具体来说,可以基于用户112的兴趣,偏好,web通信历史等改变结果的显示,例如,如果用户112在过去一星期内访问建筑设计类图书五十多次,则将优先显示后端检索模块输出的建筑设计相关的检索记录。或者,如果用户112在门户的个人资料中表示对计算机程序设计有兴趣,则优先显示最新的或最受欢迎的计算机程序设计方面的资源记录。
现在看图2,本发明适用的资源仓库类型包括数字图书210,图像208,音频209,视频(未绘出)以及由数字图书元数据仓库206,视频元数据仓库205、图像元数据仓库207。用户通常在查询检索输入框中输入查询关键字,通过门户中的用户交互控制器106,指定需要查询的资源仓库进行检索。用户交互控制器106根据用户和门户交互过程中指定的资源仓库,调用指定的资源仓库对应的后端检索系统。很多资源仓库属于元数据仓库这种类型,例如206,205,207。元数据通常是数字图书、图像、音频、视频等数据的描述信息,例如作者、年代、大小、简介、版权等,采用文本形式保存。那么具体的检索技术实现会有基于数据库技术的检索实现203和基于全文检索技术的检索方法202。数据库检索实现203通常基于字符模式匹配,也就是在元数据信息中从头到尾利用模式匹配算法寻找和用户的查询关键字最接近的字符模式。全文检索实现202则和203不同,202会预先对元数据信息进行预处理,将从元数据信息中提取关键字索引。关键字和关键字在元数据记录中的具体位置的对应关系将被建立,这样一来,只需要在预先得到的索引文件中寻找和用户查询关键字最接近的索引关键字,就能得到哪些元数据记录被用户所关心。通常索引文件的大小只有原始文本大小的30%到40%,所以通常全文检索技术在用户检索时比数据库检索技术拥有更快的响应速度。因此元数据信息数量多,推荐采用全文检索技术来实现后端检索系统。
如果资源仓库的类型为图像208、音频209或数字图书全文210等富含多媒体的多媒体文档,那么后端检索系统通常提供基于内容的多媒体文档样例检索系统204。具体一些来说,假设某些资源仓库存储的都是图像数据,一个是自然风景图像资源仓库,一个是海洋动物图像资源仓库,一个是人类建筑图像资源仓库。门户的某位用户收藏过一张南极洲的企鹅的图片,这时他想看到更多的南极洲相关图片以及企鹅相关图片。那么他可以同时选择自然图像资源仓库和海洋动物图像资源仓库,点击上传样图按钮,上传他收藏的南极洲企鹅的图片。门户检索系统接受到用户上传的图片后,会到后台调用相应资源仓库注册的后端检索系统,分析用户上传的样例图像,到资源仓库检索出类似的图像。
上面叙述了多种检索技术实现,这些实现尽管针对的媒质不同,采用的具体方式方法各有变化但是它们都属于检索技术这个大范畴,那么就可以从这些具体的检索技术中抽象出统一程序接口201。在抽象的基础之上,可以提供管理机制,通过统一配置文件来设置用户可检索的资源仓库,方便门户管理员动态增加、撤销门户上可供用户使用的资源仓库,配置时候不用修改系统前端的界面程序代码。
图3是一个典型门户系统,它提供的用户检索界面是传统的关键字检索方式,后端使用的资源仓库都是元数据类型资源仓库。将数字图书资源按照年代和出版物类型,划分为古籍、民国图书、民国期刊、现代图书、学位论文五种。除了数字图书资源以外,还存在数量丰富的绘画资源和视频资源,它们的描述信息构成了相应的元数据仓库。因为总的资源数量接近百万册,所以门户的后端检索系统采用了lucene做为后台元数据仓库的全文检索引擎。门户首页上包括查询词输入框301,检索按钮306,现代图书元数据仓库302,学位论文元数据仓库303,绘画元数据仓库304,视频元数据仓库305还有古籍、民国等资源仓库。上方是子系统导航,引导读者进入门户的其它子系统,考虑到本专利主要关于统一并行检索,对其它子系统不多做叙述。
门户网站是一种B/S应用,本发明为了改善用户的交互体验,该方法和系统设计实现了一种新颖的交互式多资源仓库检索方式。用户在门户网站上面,动态交互地勾选中现代图书元数据仓库302,学位论文元数据仓库303,绘画元数据仓库304,视频元数据仓库305;则门户用户交互控制器106知道了用户想要查询的资源仓库。下一步,用户交互控制器106将调用相应资源仓库的后端检索模块108。在实施例中,现代图书元数据仓库的元数据格式是DC元数据标准结合MARC元数据标准,其它图书的元数据标准都采用DC元数据标准。每个资源仓库的图书元数据记录都被lucene预处理,建立索引。每个资源仓库都有一个独自的lucene索引文件,这样处理索引文件有利于适应资源仓库自身原数据格式的变化,也有利于并行检索多个资源仓库。
在图4中,检索输入框401中仍然保留用户输入的查询词。现代图书元数据仓库402,学位论文元数据仓库403,绘画元数据仓库404,视频元数据仓库405仍然和图3中保持一致,全都被勾选中。检索结果陈列框406是图4相对于图3的不同之处。检索结果陈列框406中包括现代图书元数据仓库的检索结果陈列框407,论文元数据仓库的检索结果陈列框408,绘画元数据仓库的检索结果陈列框409,视频元数据仓库的检索结果陈列框410。视图综合器107会根据资源仓库从左向右的顺序和被检索资源仓库的个数,计算资源仓库检索结果呈现在浏览器页面中的哪块区域,实施例的处理方法是平均分配整个屏幕宽度给被检索的每个资源仓库。每个资源仓库的资源数量和描述信息都不相同,那么检索过程所需要的时间也都不一样。按照检索结束的时间先后顺序,用户浏览器依次更新被检索资源仓库所分配的页面区域,而不会完全刷新整个浏览器页面。现代图书元数据仓库资源量大,在这次查询中最晚结束检索,在没有结束检索时,检索结果陈列框407将显示“载入中”。已经结束查询的资源仓库,则将这次查询得到的检索结果列在408,409,410上面。407,408都是数字图书的元数据记录,所以每条记录都由文字构成,409,410都是多媒体文档,所以每条记录除了文字,还包括图像。同时检索多个资源仓库时候,先检索完毕的资源仓库的检索结果先呈现在浏览器页面中,这个过程和等到所有资源仓库都检索结束,再把所有的检索结果呈现在浏览器页面中相比,时间要缩短许多,用户在检索过程中不会长时间面对空白的浏览器屏幕,因而大为改善使用体验。
用户还可以动态选择增加资源仓库,无须再次输入检索词,在图5中,视频勾选框501相对于图4,用户去掉了勾选。门户视图综合器107立刻重新计算页面区域布局,将视频元数据仓库的检索结果呈现区域平均分配给其它区域407,408,409。视频元数据仓库的检索结果呈现区域就从页面上面消失了。其实410的检索结果没有完全被撤销,它们被缓存在用户的浏览器中,当用户再次勾选视频勾选框501时候,门户视图综合器107将重新计算页面区域布局,再次显示视频元数据仓库的检索结果。新颖的浏览器交互式用户检索界面使得用户获得类似Windows桌面应用程序的使用体验。检索结果呈现区域本身就类似Windows桌面中的窗口,按钮502是窗口最小化按钮,用户点击按钮502就可以最小化该检索结果呈现区域,类似于用户解除对应资源仓库的勾选。按钮503是窗口最大化按钮,点击按钮503就可以最大化相应检索结果呈现区域。图6就是点击最大化按钮503后的显示结果。论文元数据仓库的检索结果区域被门户视图综合器显示在整个屏幕宽度上面,除了学位论文604勾选框仍旧被勾选,现代图书603,绘画605,都被取消了勾选。如果此时用户点击还原按钮602,整个页面布局将恢复到图5状态。这种设计可以让用户关注自己想关注的内容,隐藏自己次要关注的内容。当需要关注次要内容时候,用户可以恢复原先的显示模式,给用户带来良好的符合人类寻找事物特点的使用体验。
图7列出了完整的方法工作流程,701步骤发生在用户进入检索首页时候,视图综合器读取门户配置文件,根据配置文件中的资源仓库配置,在门户页面上面动态生成勾选框和描述文本,一个资源仓库配置对应一对勾选框和描述文本。702步骤是用户勾选中想要检索的资源仓库勾选框,点击检索按钮,用户浏览器完全刷新。703步骤是被检索的多个资源仓库,触发相应的后端检索系统。704步骤是后端检索系统以标记语言(html或xml)形式生成检索结果视图。705步骤中,视图综合器计算各个被检索资源仓库的检索结果在页面上的显示区域。将每个仓库的检索结果放到计算得到的显示区域中。每个区域的内部右上方有最小化按钮、最大化按钮。点击最小化按钮,则706步骤发生,对应的资源仓库的勾选框被解除勾选,检索结果区域被隐藏。再次勾选先前被解除勾选的资源仓库勾选框,则707步骤发生,检索结果区域会重新被显示。点击最大化按钮,则708步骤发生,对应的资源仓库的检索结果显示区域被扩展到整个屏幕,其它被检索资源仓库的勾选框被解除勾选,其相应得检索结果区域也被隐藏。点击最大化显示区域右上方的还原按钮,则709步骤发生,该资源仓库检索结果显示区域被还原到原始大小;其它被检索资源仓库的勾选框被重新勾选,相应得检索结果区域也重新被显示。
上述描述只是为了说明和描述统一并行检索方法和系统。它不是详尽的描述,也不将本发明限制为所说明和描述的形式,显然,许多修改和变化也是可以的。对所属技术领域的专业人员显而易见的修改和变化也包括在附带的权利要求所定义的本发明的范围内。
权利要求
1.一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,它包括如下步骤(1)门户利用视图综合器读取门户配置文件,根据配置文件中资源仓库的配置,在门户页面上动态生成勾选框和描述文本,一个资源仓库配置对应一对勾选框和描述文本;(2)用户选中想要检索的资源仓库的勾选框,点击检索按钮,触发门户网站,用户的浏览器完全刷新,门户针对被检索的资源仓库触发相应的后端检索系统,后端检索系统以标记语言形式生成检索结果视图;(3)门户利用视图综合器计算各个被检索资源仓库的检索结果视图在浏览器页面上的显示区域,将每个仓库的检索结果放到计算得到的显示区域中,每个区域的内部右上方有最小化按钮、最大化按钮;(4)用户点击最小化按钮,门户则解除勾选对应资源仓库的勾选框,隐藏其检索结果区域;(5)用户再次勾选先前被解除勾选的资源仓库勾选框,门户重新显示相应的资源仓库的检索结果区域;(6)用户点击最大化按钮,门户将对应资源仓库的检索结果显示区域扩展到整个浏览器屏幕,解除勾选其它被检索资源仓库的勾选框,隐藏其相应的检索结果区域;(7)用户点击最大化显示区域右上方的还原按钮,门户将该资源仓库检索结果显示区域还原到原始大小;重新勾选其它被检索资源仓库的勾选框,重新被显示相应的检索结果区域。
2.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的资源仓库是异构资源仓库,它存放在分布式网络存储上面,门户通过和资源仓库之间的约定,定期收割资源仓库的元数据。
3.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的资源仓库的类型包括电子书,图片,音频,视频以及相应的元数据。
4.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的后端检索系统是在具体的资源仓库检索方法之上提供了统一的抽象程序接口,具体的资源仓库检索方法分为基于元数据的检索和基于数据内容本身的检索两类。
5.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的后端检索系统是在统一的检索抽象层之上提供统一配置机制,以方便向门户中添加、删除、修改资源仓库的名称,后端检索模块,存储位置信息。
6.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的视图综合器允许用户同时提交多个资源仓库的检索请求,门户后端同时执行这些资源仓库的检索请求。
7.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的视图综合器是在一个页面上面显示所有资源仓库的检索结果。
8.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的视图综合器是按被检索资源仓库的检索结束顺序,依次在页面上指定区域显示相应的检索结果。越先结束检索的资源仓库的检索结果越先被显示,视图综合器不会等待所有被检索资源仓库都结束检索过程,然后再显示全部检索结果。
9.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的视图综合器是允许用户随意选择想要检索的资源仓库,视图综合器会重新计算页面布局,以显示检索结果。在这个过程中,浏览器不会刷新整个页面。
10.根据权利1所述的一种用于门户网站上,对多种资源仓库统一并行检索的方法,其特征在于,所述的检索结果视图是类似于一个windows桌面窗口,可以最小化,最大化和还原。让用户只关注自己最感兴趣的资源仓库的检索结果视图。
全文摘要
本发明公开了一种用于门户网站上,对多种资源仓库统一并行检索的方法。用户在门户网站上面,动态交互地选择想要检索的资源仓库;视图综合器会依据用户的动态选择,确定相应资源仓库的检索结果在浏览器页面中的呈现区域,视图综合器将按照多个资源仓库的检索结束先后,依次更新被检索资源仓库所对应的页面区域,而不会完全刷新整个浏览器页面。该交互方式的优点在于减少用户等待检索结果的时间,充分利用页面空间显示大量检索结果。该方法规定了资源仓库的统一接口,资源仓库既可以是以数据库形式存储的原始数据,也可以是利用索引技术对原始数据处理后得到的索引数据,实现了通过配置文件添加、删除资源仓库,这样设计使得系统的部署更加灵活。
文档编号G06F17/30GK1920817SQ200610053388
公开日2007年2月28日 申请日期2006年9月14日 优先权日2006年9月14日
发明者庄越挺, 吴江琴, 张寅 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1