在用户设备上基于查询分类搜索网页内容的方法与设备的制作方法

文档序号:6433477阅读:130来源:国知局
专利名称:在用户设备上基于查询分类搜索网页内容的方法与设备的制作方法
技术领域
本发明涉及搜索技术领域,尤其涉及一种在用户设备上实现的用于进行网页内容搜索的技术。
背景技术
现有技术中用户设备的浏览器提供与用户输入的URL相对应的原始网页,而未考虑用户对该原始网页中特定内容的需求,用户在浏览该原始网页查找目标内容时会受到其他无用信息的干扰;特别是在移动终端中,由于其显示屏幕大小的限制,移动终端将原始网页中的全部内容都展示给用户时,一般会缩小网页的尺寸,因此用户在进行网页浏览时需要进行拖动、放大等操作以查找获得目标内容,从而增加用户操作负担,影响用户浏览体验。因此,如何帮助用户有效地获得特定的网页内容,已成为本领域技术人员需要解决的问题。

发明内容
本发明的目的是提供一种用于在用户设备上进行网页内容搜索的方法与设备。根据本发明的一个方面,提供了一种在用户设备上实现的用于进行网页内容搜索的方法,该方法包括以下步骤a获取来自用户的关于待搜索网页的一个或多个查询分类信息;b根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;c根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容;d根据所述网页内容,生成新的网页。根据本发明的另一方面,还提供了一种用于进行网页内容搜索的用户设备,该设备包括分类信息获取装置,用于获取来自用户的关于待搜索网页的一个或多个查询分类 fn息;关键词获取装置,用于根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;第一内容获取装置,用于根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容;第一生成装置,用于根据所述网页内容,生成新的网页。与现有技术相比,本发明根据一个或多个查询分类信息获取一个或多个查询关键词,进而根据该(等)查询关键词确定在原始网页中查找与该(等)查询关键词相对应的网页内容,并基于该网页内容生成新网页,以实现根据用户的查询需求有针对性的提取并展示网页内容,使得用户在网页浏览过程中,能够快速锁定目标信息,节省浏览时间,从而提高用户浏览体验。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1示出根据本发明一个方面的进行网页内容搜索的设备示意图;图2示出根据本发明一个优选实施例的进行网页内容搜索的设备示意图;图3示出根据本发明另一个优选实施例的进行网页内容搜索的设备示意图;图4示出根据本发明另一个方面的进行网页内容搜索的方法流程图;图5示出根据本发明一个优选实施例的进行网页内容搜索的方法流程;图6示出根据本发明另一个优选实施例的进行网页内容搜索的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1示出根据本发明一个方面的进行网页内容搜索的设备示意图。获取设备1包括分类信息获取装置11、关键词获取装置12、第一内容获取装置13和第一生成装置14。在此,获取设备1为用户设备,包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。如图1所示,首先,分类信息获取装置11获取来自用户的关于待搜索网页的一个或多个查询分类信息。在此,所述待搜索网页包括但不限于1)用户在浏览器中打开的当前激活网页;2)应事件触发实时地、或定期地从第三方设备中获取的待搜索网页。在此,所述获取的方式包括但不限于1)实时地监听用户在获取设备1提供的预定查询分类列表中所选择的查询分类信息;在此,所述查询分类列表中包含各查询分类信息;2)实时地监听用户通过在获取设备1的浏览器的查询分类搜索框中输入的分类关键词,然后根据该分类关键词在查询分类列表中进行匹配查询,以获得与该分类查询相对应的查询分类信息。在此,所述查询分类信息包括但不限于查询分类名称、查询分类标识信息、查询分类的预定查询权重等。在一示例中,首先,用户借助获取设备1的交互装置,包括但不限于键盘、鼠标、遥控器、触摸板,对查询分类列表中的查询分类信息进行选择操作;以鼠标为例,用户通过获取设备1中的查询分类列表的用户界面,点击选择该查询分类列表中的名称为“体育”的查询分类,并将该选择操作作为用户消息通过诸如总线等介质基于约定的内部通信协议发送到分类信息获取装置11,分类信息获取装置11通过实时地监听的方式接收并解析该用户消息,以获取用户所选择的查询分类信息。在此,所述内部通信协议包括但不限于存在于计算机中的各种形式通信,例如面向对象编程中对象之间的通信协议;操作系统内不同程序或计算机不同模块之间的消息传送协议。本领域技术人员应能理解上述获取查询分类信息的方式仅为举例,其他现有的或今后可能出现的获取查询分类信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。接着,关键词获取装置12根据分类信息获取装置11获取的一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词。具体地,关键词获取装置12根据一个或多个查询分类信息,如查询分类名称、查询分类标识等,在分类库中进行匹配查询,以获得与该(等)查询分类信息相对应的一个或多个查询关键词。其中,所述分类库中包括查询分类信息及其所对应的查询关键词。在此, 获取设备1可将来自第三方设备推送的推荐查询分类信息及其查询关键词存储于该分类库中。在一示例中,分类信息获取装置11获取的查询分类信息的查询分类名称为“体育”、“娱乐”,关键词获取装置12根据该两个查询分类信息在分类库中进行匹配查询,以获得与“体育”相对应的查询关键词为“刘翔”、“世界杯预选赛”、“NBA”等,与“娱乐”相对应的查询关键词为“电影”、“张柏芝”、“演唱会”等。本领域技术人员应能理解上述获取查询关键词的方式仅为举例,其他现有的或今后可能出现的获取查询关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,第一内容获取装置13根据关键词获取装置12获取的一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容。具体地,第一内容获取装置13根据关键词获取装置12获取的一个或多个查询关键词,例如在待搜索网页的HTML源文件中进行字符串匹配或模式匹配等方式进行匹配查询,以获得包含该一个或多个查询关键词的网页纯文本、超文本链接内容,或与该一个或多个查询关键词相关联的网页图片、多媒体内容等,例如,若网页图片的摘要信息中包含某个查询关键词,则该网页图片与该查询关键词相关联。在此,所述网页内容包括但不限于1)超文本链接;2)图片;3)多媒体数据。在一个示例中,查询关键词包括“NBA”和“演唱会”,第一内容获取装置13根据该两个查询关键词在待搜索网页的HTML源文件进行字符串匹配查询,以获得在纯文本段落 Pl中包含查询关键词“NBA”,而在网页图片Gl的摘要信息中包含查询关键词“演唱会”,由此,第一内容获取装置13将纯文本段落Pl和网页图片Gl作为与该等查询关键词相对应的网页内容。本领域技术人员应能理解上述网页内容仅为举例,其他现有的或今后可能出现的网页内容如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本领域技术人员还应能理解上述获取网页内容的方式仅为举例,其他现有的或今后可能出现的获取网页内容的方式如可适用于本发明,也应包含在本发明保护范围以内, 并以引用方式包含于此。随后,第一生成装置14根据第一内容获取装置13获取的网页内容,生成新的网页。在此,所述生成新网页的方式包括但不限于1)根据各网页内容获得的顺序,在新网页中依次展示该等网页内容。2)根据网页内容,并基于预定的网页模板,生成新的网页。在此,所述网页模板决定网页的基本结构和网页设置,例如字符格式、段落格式、 页面格式等其它样式,其可通过HTML、CSS等页面技术实现。在一示例中,第一生成装置14根据第一内容获取装置13获取的多个网页内容,基于预定的网页模板,确定在新网页中网页文字、超文本链接内容的字体均设置为宋体,图片均以其原始尺寸展现等格式信息,并通过HTML页面技术生成包含网页内容的新的网页。本领域技术人员应能理解上述生成新网页的方式仅为举例,其他现有的或今后可能出现的生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,分类信息获取装置11、关键词获取装置12、第一内容获取装置13和第一生成装置14之间是持续不断地工作。具体地,分类信息获取装置11持续地获取来自用户的关于待搜索网页的一个或多个查询分类信息;关键词获取装置12也持续地根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;第一内容获取装置13也持续地根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容; 第一生成装置14也持续地根据所述网页内容,生成新的网页。在此,本领域技术人员应理解“持续”是指各装置不断进行上述查询分类信息的获取、查询关键词的获取、网页内容的获取和新网页的生成,直至满足预定停止条件,例如分类信息获取装置11在较长时间内停止对查询分类信息的获取。图2示出根据本发明一个优选实施例的进行网页内容搜索的设备示意图,其中, 第一内容获取装置13’包括优选关键词获取单元131’和第二内容获取单元132’。优选关键词获取单元131’根据所述多个查询关键词的查询使用信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词;第二内容获取单元132’根据所述优选查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。在此,图2中所示装置11’、12’和14’的功能与前面参照图1所描述的装置11、12 和14的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。以下参照图2来对该优选实施例进行详细描述具体地,优选关键词获取单元131’根据关键词获取装置12’获取的多个查询关键词,在用户历史查询库中进行匹配查询,以获得该多个查询关键词的查询使用信息,然后根据该些查询使用信息,按照预定筛选规则,从该多个查询关键词中获取优选查询关键词;接着,第二内容获取单元132’根据优选关键词获取单元131’获取的优选查询关键词,在待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。
8
在此,所述查询使用信息包括但不限于1)查询关键词的累计查询使用次数;2)查询关键词的查询使用频次;3)查询关键词的最近查询使用时间。本领域技术人员应能理解上述查询使用信息仅为举例,其他现有的或今后可能出现的查询使用信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,所述用户历史查询库中包括但不限于用户历史查询的关键词及每个关键词所对应的累计查询使用次数、查询使用频次和最近查询使用时间。在此,按照所述预定筛选规则获取优选查询关键词包括但不限于以下情形1)将该多个查询关键词中累计查询使用次数超过累计次数阈值的查询关键词作为优选查询关键词;2)将该多个查询关键词中累计查询使用次数最多的第一预定数量的查询关键词作为优选查询关键词;3)将该多个查询关键词中查询使用频次超过频次阈值的查询关键词作为优选查询关键词;其中,所述查询使用频次例如可为在过去的预定时间段内,查询关键词平均每天的使用次数。4)将该多个查询关键词中查询使用频次最高的第二预定数量的查询关键词作为优选查询关键词;5)将该多个查询关键词中最新查询使用时间晚于第一时间阈值的查询关键词作为优选查询关键词;6)将该多个查询关键词中最新查询使用时间距离当前时间最近的第三预定数量的查询关键词作为优选查询关键词。本领域技术人员应能理解上述预定筛选规则仅为举例,其他现有的或今后可能出现的预定筛选规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一示例中,当多个查询关键词分别为“刘翔”、“新婚姻法”、“威尼斯电影节”,优选关键词获取单元131’根据该三个查询关键词,在用户历史查询库中查询以获得该三个查询关键词累计查询使用次数依次分别为10次、8次、1次,则优选关键词获取单元131’将累计查询使用次数超过累计次数阈值5次的查询关键词作为优选查询关键词,即“刘翔”、“新婚姻法”;接着,第二内容获取单元132’在待搜索网页中进行匹配查询,以获得与“刘翔”和 “新婚姻法”相对应的网页内容。在另一示例中,当多个查询关键词分别为“欧洲杯”、“金融危机”、“平板电视”,优选关键词获取单元131’根据该三个查询关键词,在用户历史查询库中查询以获得该三个查询关键词的最新查询使用时间依次分别为72小时内、24小时内、48小时内,则优选关键词获取单元131’将最新查询使用时间距离当前时间最近的2个的查询关键词作为优选查询关键词,即“金融危机”、“平板电视”;接着,第二内容获取单元132’在待搜索网页中进行匹配查询,以获得与“金融危机”和“平板电视”相对应的网页内容。本领域技术人员应能理解上述各项预定筛选规则不仅可以单独用于优选关键词
9获取单元131’获取优选查询关键词,还可以相互结合后加权用于优选关键词获取单元 131,获取优选查询关键词。本领域技术人员应能理解获取优选查询关键词的方式和/或获取网页内容的方式仅为举例,其他现有的或今后可能出现的获取优选查询关键词的方式和/或获取网页内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。优选地(参照图2),优选关键词获取单元131’根据多个查询关键词的查询使用信息,并结合各查询关键词所属的查询分类信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词。在一示例中,关键词获取装置12’获取的查询关键词分别为“刘翔”、“新婚姻法”、 “威尼斯电影节”、“变形金刚”,并据此在用户历史查询库中查询以获得该4个查询关键词查询使用频次分别为2次/日、1.6次/日、0.2次/日、1.2次/日,且查询关键词“刘翔”所属的查询分类为“体育”,查询关键词“新婚姻法”所属的查询分类为“法律”,查询关键词“威尼斯电影节”、“变形金刚”所属的查询分类为“电影”;由此,关键词获取装置12’在上述查询分类所对应的查询分类信息中获取与查询分类“体育”相对应的预定查询权重为2、与查询分类“法律”相对应的预定查询权重为1、与查询分类“电影”相对应的预定查询权重为3, 则优选关键词获取单元131’将查询使用频次超过查询频次阈值1次/日、且所属的查询分类的预定查询权重大于2的查询关键词作为优选查询关键词,即“变形金刚”。本领域技术人员应能理解获取优选查询关键词的方式仅为举例,其他现有的或今后可能出现的获取优选查询关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图3示出根据本发明另一个优选实施例的进行网页内容搜索的设备示意图。其中,第一生成装置14”包括显示顺序确定单元141”和第二生成单元142”。显示顺序确定单元141”根据预定排序规则,确定第一内容获取装置13”获取的各网页内容在新的网页中的显示顺序;第二生成单元142”根据各网页内容和显示顺序确定单元141”确定的显示顺序,生成新的网页。在此,图3中所示装置11”、12”和13”的功能与前面参照图2所描述的装置11’、 12’和13’的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。在此,所述预定排序规则包括以下至少任一项1)根据网页内容所对应的查询关键字的累计查询使用次数,由大到小进行排序;2)根据网页内容所对应的查询关键字的查询使用频次,由高到低进行排序;3)根据网页内容所对应的查询关键字的最新查询使用时间进行排序;例如,查询关键词的最近查询使用时间与当前时间之间的时间差越小,则该查询关键词的排序权重越
尚ο4)根据网页内容所对应的查询关键字所属的查询分类信息的预定查询权重进行排序;例如,查询关键词所属的查询分类信息的预定查询权重越高,则该查询关键词的排序权重越高。
本领域技术人员应能理解上述预定排序规则仅为举例,其他现有的或今后可能出现的预定排序规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一示例中,预定排序规则为根据网页内容所对应的查询关键字的累计查询使用次数进行排序,并且各查询关键词及其累计查询使用次数如下-“刘翔”,其累计查询使用次数为6次;-“新婚姻法”,其累计查询使用次数为5次;-“威尼斯电影节”,其累计查询使用次数为3次。则显示顺序确定单元141”按照该三个查询关键词的累计查询使用次数由大到小进行排序,确定将查询关键词“刘翔”所对应的网页内容在新网页最上方显示,接着显示查询关键词“新婚姻法”所对应的网页内容,最后显示查询关键词“威尼斯电影节”所对应的网页内容;随后,第二生成单元142”根据该显示顺序,通过HTML、CSS等页面技术,生成包含上述网页内容的新网页。在又一示例中,预定排序规则为根据网页内容所对应的查询关键字所属的查询分类信息的预定查询权重进行排序,并且各查询关键词及其所属的查询分类信息的预定查询权重如下-“欧洲杯”,其所属的查询分类信息为“体育”且该查询分类的预定查询权重为3 ;-“新婚姻法”,其所属的查询分类信息为“法律”且该查询分类的预定查询权重为 1 ;-“变形金刚”,其所属的查询分类信息为“电影”且该查询分类的预定查询权重为 2。则显示顺序确定单元141”按照该三个查询关键词所属的查询分类信息的预定查询权重由大到小进行顺序,确定将包含查询关键词“欧洲杯”的网页内容置于新网页最上方显示,接着显示包含查询关键词“变形金刚”的网页内容,最后显示包含查询关键词“新婚姻法”的网页内容;接着,第二生成单元142”根据该显示顺序,通过HTML、CSS等页面技术,生成包含上述网页内容的新网页。本领域技术人员应能理解,上述各项预定排序规则不仅可以单独用于显示顺序确定单元141”确定网页内容的显示顺序,还可以将多项结合用于显示顺序确定单元141”确定网页内容的显示顺序。本领域技术人员应能理解上述确定网页内容显示顺序的方式和/或生成新网页的方式仅为举例,其他现有的或今后可能出现的确定网页内容显示顺序的方式和/或生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在又一个优选实施例中(参照图1),获取设备1还包括提供装置(未示出)。其中,该提供装置将第一生成装置14生成的新的网页提供给所述用户。以下参照图1对该又一优选实施例进行详细描述,其中,关键词获取装置12根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词; 第一内容获取装置13根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容;第一生成装置14根据所述网页内容,生成新的网页;其具体过程与前述参照图1所描述的实施例中关键词获取装置12、 第一内容获取装置13和第一生成装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。具体地,提供装置根据第一生成装置14生成的新的网页,采用任何已知的计算机提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将所述新的网页提供给用户。 以屏幕显示为例,提供装置将第一生成装置14生成的新的网页,例如通过调用获取设备1 的网页浏览器提供的应用编程接口(API),提供至该网页浏览器,该网页浏览器加载并渲染该新的网页,以供用户进行浏览。本领域技术人员应能理解上述将新的网页提供给用户的方式仅为举例,其他现有的或今后可能出现的将新的网页提供给用户的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图4示出根据本发明一个方面的进行网页内容搜索的方法流程图。其中,获取设备1为用户设备,包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机、或IPTV等。如图4所示,首先,在步骤Sl中,获取设备1获取来自用户的关于待搜索网页的一个或多个查询分类信息。在此,所述待搜索网页包括但不限于1)用户在浏览器中打开的当前激活网页;2)应事件触发实时地、或定期地从第三方设备中获取的待搜索网页。在此,所述获取的方式包括但不限于1)实时地监听用户在获取设备1提供的预定查询分类列表中所选择的查询分类信息;在此,所述查询分类列表中包含各查询分类信息;2)实时地监听用户通过在获取设备1的浏览器的查询分类搜索框中输入的分类关键词,然后根据该分类关键词在查询分类列表中进行匹配查询,以获得与该分类查询相对应的查询分类信息。在此,所述查询分类信息包括但不限于查询分类名称、查询分类标识信息、查询分类的预定查询权重等。在一示例中,首先,用户借助获取设备1的交互装置,包括但不限于键盘、鼠标、遥控器、触摸板,对查询分类列表中的查询分类信息进行选择操作;以鼠标为例,用户通过获取设备1中的查询分类列表的用户界面,点击选择该查询分类列表中的名称为“体育”的查询分类,并将该选择操作作为用户消息通过诸如总线等介质基于约定的内部通信协议发送到获取设备1,在步骤S 1中,获取设备1通过实时地监听的方式接收并解析该用户消息,以获取用户所选择的查询分类信息。在此,所述内部通信协议包括但不限于存在于计算机中的各种形式通信,例如面向对象编程中对象之间的通信协议;操作系统内不同程序或计算机不同模块之间的消息传送协议。本领域技术人员应能理解上述获取查询分类信息的方式仅为举例,其他现有的或今后可能出现的获取查询分类信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。接着,在步骤S2中,获取设备1根据其在步骤Sl中获取的一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词。具体地,在步骤S2中,获取设备1根据一个或多个查询分类信息,如查询分类名称、查询分类标识等,在分类库中进行匹配查询,以获得与该(等)查询分类信息相对应的一个或多个查询关键词。其中,所述分类库中包括查询分类信息及其所对应的查询关键词。 在此,获取设备1可将来自第三方设备推送的推荐查询分类信息及其查询关键词存储于该分类库中。在一示例中,在步骤Sl中,获取设备1获取的查询分类信息的查询分类名称为“体育”、“娱乐”,在步骤S2中,获取设备1根据该两个查询分类信息在分类库中进行匹配查询, 以获得与“体育”相对应的查询关键词为“刘翔”、“世界杯预选赛”、“NBA”等,与“娱乐”相对应的查询关键词为“电影”、“张柏芝”、“演唱会”等。本领域技术人员应能理解上述获取查询关键词的方式仅为举例,其他现有的或今后可能出现的获取查询关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,在步骤S3中,获取设备1根据其在步骤S2中获取的一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容。具体地,在步骤S3中,获取设备1根据其在步骤S2中获取的一个或多个查询关键词,例如在待搜索网页的HTML源文件中进行字符串匹配或模式匹配等方式进行匹配查询, 以获得包含该一个或多个查询关键词的网页纯文本、超文本链接内容,或与该一个或多个查询关键词相关联的网页图片、多媒体内容等,例如,若网页图片的摘要信息中包含某个查询关键词,则该网页图片与该查询关键词相关联。在此,所述网页内容包括但不限于1)超文本链接;2)图片;3)多媒体数据。在一个示例中,查询关键词包括“NBA”和“演唱会”,在步骤S3中,获取设备1根据该两个查询关键词在待搜索网页的HTML源文件进行字符串匹配查询,以获得在纯文本段落Pl中包含查询关键词“NBA”,而在网页图片Gl的摘要信息中包含查询关键词“演唱会”, 由此,在步骤S3中,获取设备1将纯文本段落Pl和网页图片Gl作为与该等查询关键词相对应的网页内容。本领域技术人员应能理解上述网页内容仅为举例,其他现有的或今后可能出现的网页内容如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。本领域技术人员还应能理解上述获取网页内容的方式仅为举例,其他现有的或今后可能出现的获取网页内容的方式如可适用于本发明,也应包含在本发明保护范围以内, 并以引用方式包含于此。随后,在步骤S4中,获取设备1根据其在步骤S3中获取的网页内容,生成新的网页。在此,所述生成新网页的方式包括但不限于1)根据各网页内容获得的顺序,在新网页中依次展示该等网页内容。
13
2)根据网页内容,并基于预定的网页模板,生成新的网页。在此,所述网页模板决定网页的基本结构和网页设置,例如字符格式、段落格式、 页面格式等其它样式,其可通过HTML、CSS等页面技术实现。在一示例中,在步骤S4中,获取设备1根据其在步骤S3中获取的多个网页内容, 基于预定的网页模板,确定在新网页中网页文字、超文本链接内容的字体均设置为宋体,图片均以其原始尺寸展现等格式信息,并通过HTML页面技术生成包含网页内容的新的网页。本领域技术人员应能理解上述生成新网页的方式仅为举例,其他现有的或今后可能出现的生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,获取设备1在步骤Si、步骤S2、步骤S3和步骤S4中是持续不断地工作。 具体地,在步骤Sl中,获取设备1持续地获取来自用户的关于待搜索网页的一个或多个查询分类信息;在步骤S2中,获取设备1也持续地根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;在步骤S3 中,获取设备1也持续地根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容;在步骤S4中,获取设备1也持续地根据所述网页内容,生成新的网页。在此,本领域技术人员应理解“持续”是指各步骤不断进行上述查询分类信息的获取、查询关键词的获取、网页内容的获取和新网页的生成, 直至满足预定停止条件,例如获取设备1在较长时间内停止对查询分类信息的获取。图5示出根据本发明一个优选实施例的进行网页内容搜索的方法流程图。其中, 在步骤S31’中,获取设备1根据所述多个查询关键词的查询使用信息,按照预定筛选规则, 从所述多个查询关键词中获取优选查询关键词;在步骤S32’中,获取设备1根据所述优选查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。在此,图5中所示获取设备1在步骤Si’、步骤S2’和步骤S4’中的功能与前面参照图4所描述的获取设备1在步骤Si、步骤S2和步骤S4中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。以下参照图5来对该优选实施例进行详细描述具体地,在步骤S31’中,获取设备1根据其在步骤S2’中获取的多个查询关键词,在用户历史查询库中进行匹配查询,以获得该多个查询关键词的查询使用信息,然后根据该些查询使用信息,按照预定筛选规则,从该多个查询关键词中获取优选查询关键词;接着,在步骤S32’中,获取设备1根据其在步骤S31’中获取的优选查询关键词,在待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。在此,所述查询使用信息包括但不限于1)查询关键词的累计查询使用次数;2)查询关键词的查询使用频次;3)查询关键词的最近查询使用时间。本领域技术人员应能理解上述查询使用信息仅为举例,其他现有的或今后可能出现的查询使用信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述用户历史查询库中包括但不限于用户历史查询的关键词及每个关键词所对应的累计查询使用次数、查询使用频次和最近查询使用时间。在此,按照所述预定筛选规则获取优选查询关键词包括但不限于以下情形1)将该多个查询关键词中累计查询使用次数超过累计次数阈值的查询关键词作为优选查询关键词;2)将该多个查询关键词中累计查询使用次数最多的第一预定数量的查询关键词作为优选查询关键词;3)将该多个查询关键词中查询使用频次超过频次阈值的查询关键词作为优选查询关键词;其中,所述查询使用频次例如可为在过去的预定时间段内,查询关键词平均每天的使用次数。4)将该多个查询关键词中查询使用频次最高的第二预定数量的查询关键词作为优选查询关键词;5)将该多个查询关键词中最新查询使用时间晚于第一时间阈值的查询关键词作为优选查询关键词;6)将该多个查询关键词中最新查询使用时间距离当前时间最近的第三预定数量的查询关键词作为优选查询关键词。本领域技术人员应能理解上述预定筛选规则仅为举例,其他现有的或今后可能出现的预定筛选规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一示例中,当多个查询关键词分别为“刘翔”、“新婚姻法”、“威尼斯电影节”,在步骤S31’中,获取设备1根据该三个查询关键词,在用户历史查询库中查询以获得该三个查询关键词累计查询使用次数依次分别为10次、8次、1次,则在步骤S31’中,获取设备1将累计查询使用次数超过累计次数阈值5次的查询关键词作为优选查询关键词,即“刘翔”、 “新婚姻法”;接着,在步骤S32’中,获取设备1在待搜索网页中进行匹配查询,以获得与“刘翔,,和“新婚姻法”相对应的网页内容。在另一示例中,当多个查询关键词分别为“欧洲杯”、“金融危机”、“平板电视”, 在步骤S31’中,获取设备1根据该三个查询关键词,在用户历史查询库中查询以获得该三个查询关键词的最新查询使用时间依次分别为72小时内、24小时内、48小时内,则在步骤 S31’中,获取设备1将最新查询使用时间距离当前时间最近的2个的查询关键词作为优选查询关键词,即“金融危机”、“平板电视”;接着,在步骤S32’中,获取设备1在待搜索网页中进行匹配查询,以获得与“金融危机”和“平板电视”相对应的网页内容。本领域技术人员应能理解上述各项预定筛选规则不仅可以单独用于获取设备1 获取优选查询关键词,还可以相互结合后加权用于获取设备1获取优选查询关键词。本领域技术人员应能理解获取优选查询关键词的方式和/或获取网页内容的方式仅为举例,其他现有的或今后可能出现的获取优选查询关键词的方式和/或获取网页内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
优选地(参照图幻,在步骤S31’中,获取设备1根据多个查询关键词的查询使用信息,并结合各查询关键词所属的查询分类信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词。在一示例中,在步骤S2’中,获取设备1获取的查询关键词分别为“刘翔”、“新婚姻法”、“威尼斯电影节”、“变形金刚”,并据此在用户历史查询库中查询以获得该4个查询关键词查询使用频次分别为2次/日、1.6次/日、0.2次/日、1.2次/日,且查询关键词“刘翔”所属的查询分类为“体育”,查询关键词“新婚姻法”所属的查询分类为“法律”,查询关键词“威尼斯电影节”、“变形金刚”所属的查询分类为“电影”;由此,在步骤S2’中,获取设备 1在上述查询分类所对应的查询分类信息中获取与查询分类“体育”相对应的预定查询权重为2、与查询分类“法律”相对应的预定查询权重为1、与查询分类“电影”相对应的预定查询权重为3,则在步骤S31’中,获取设备1将查询使用频次超过查询频次阈值1次/日、且所属的查询分类的预定查询权重大于2的查询关键词作为优选查询关键词,即“变形金刚”。本领域技术人员应能理解获取优选查询关键词的方式仅为举例,其他现有的或今后可能出现的获取优选查询关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图6示出根据本发明另一个优选实施例的进行网页内容搜索的方法流程图。其中,在步骤S41”中,获取设备1根据预定排序规则,确定其在步骤S3 ”中获取的各网页内容在新的网页中的显示顺序;在步骤S42”中,获取设备1根据各网页内容和其在步骤S41”中确定的显示顺序,生成新的网页。在此,图6中所示获取设备1在步骤Si”、步骤S2”和步骤S3”中的执行与前面参照图5所描述的获取设备1在步骤Si’、步骤S2’和步骤S3’中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。在此,所述预定排序规则包括以下至少任一项1)根据网页内容所对应的查询关键字的累计查询使用次数,由大到小进行排序;2)根据网页内容所对应的查询关键字的查询使用频次,由高到低进行排序;3)根据网页内容所对应的查询关键字的最新查询使用时间进行排序;例如,查询关键词的最近查询使用时间与当前时间之间的时间差越小,则该查询关键词的排序权重越
尚ο4)根据网页内容所对应的查询关键字所属的查询分类信息的预定查询权重进行排序;例如,查询关键词所属的查询分类信息的预定查询权重越高,则该查询关键词的排序权重越高。本领域技术人员应能理解上述预定排序规则仅为举例,其他现有的或今后可能出现的预定排序规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一示例中,预定排序规则为根据网页内容所对应的查询关键字的累计查询使用次数进行排序,并且各查询关键词及其累计查询使用次数如下-“刘翔”,其累计查询使用次数为6次;-“新婚姻法”,其累计查询使用次数为5次;-“威尼斯电影节”,其累计查询使用次数为3次。
则在步骤S41”中,获取设备1按照该三个查询关键词的累计查询使用次数由大到小进行排序,确定将查询关键词“刘翔”所对应的网页内容在新网页最上方显示,接着显示查询关键词“新婚姻法”所对应的网页内容,最后显示查询关键词“威尼斯电影节”所对应的网页内容;随后,在步骤S42”中,获取设备1根据该显示顺序,通过HTML、CSS等页面技术, 生成包含上述网页内容的新网页。在又一示例中,预定排序规则为根据网页内容所对应的查询关键字所属的查询分类信息的预定查询权重进行排序,并且各查询关键词及其所属的查询分类信息的预定查询权重如下-“欧洲杯”,其所属的查询分类信息为“体育”且该查询分类的预定查询权重为3 ;-“新婚姻法”,其所属的查询分类信息为“法律”且该查询分类的预定查询权重为 1 ;-“变形金刚”,其所属的查询分类信息为“电影”且该查询分类的预定查询权重为 2。则在步骤S41”中,获取设备1按照该三个查询关键词所属的查询分类信息的预定查询权重由大到小进行顺序,确定将包含查询关键词“欧洲杯”的网页内容置于新网页最上方显示,接着显示包含查询关键词“变形金刚”的网页内容,最后显示包含查询关键词“新婚姻法”的网页内容;接着,在步骤S42”中,获取设备1根据该显示顺序,通过HTML、CSS等页面技术,生成包含上述网页内容的新网页。本领域技术人员应能理解,上述各项预定排序规则不仅可以单独用于获取设备1 确定网页内容的显示顺序,还可以将多项结合用于获取设备1确定网页内容的显示顺序。本领域技术人员应能理解上述确定网页内容显示顺序的方式和/或生成新网页的方式仅为举例,其他现有的或今后可能出现的确定网页内容显示顺序的方式和/或生成新网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在又一个优选实施例中(参照图4),该过程还包括步骤S5。在步骤S5中,获取设备1将其在步骤S4中生成的新的网页提供给所述用户。以下参照图4对该又一优选实施例进行详细描述,其中,在步骤S2中,获取设备1根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;在步骤 S3中,获取设备1根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容;在步骤S4中,获取设备1根据所述网页内容,生成新的网页;其具体过程与前述参照图4所描述的实施例中获取设备1在步骤S2、步骤S3和步骤S4中所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。具体地,在步骤S5中,获取设备1根据其在步骤S4中生成的新的网页,采用任何已知的计算机提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将所述新的网页提供给用户。以屏幕显示为例,在步骤S5中,获取设备1将其在步骤S4中生成的新的网页, 例如通过调用获取设备1的网页浏览器提供的应用编程接口(API),提供至该网页浏览器, 该网页浏览器加载并渲染该新的网页,以供用户进行浏览。本领域技术人员应能理解上述将新的网页提供给用户的方式仅为举例,其他现有的或今后可能出现的将新的网页提供给用户的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种在用户设备上实现的用于进行网页内容搜索的方法,其中该方法包括以下步骤a获取来自用户的关于待搜索网页的一个或多个查询分类信息; b根据所述一个或多个查询分类信息,在分类库中进行匹配查询,以获得与各查询分类信息相对应的一个或多个查询关键词;c根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容; d根据所述网页内容,生成新的网页。
2.根据权利要求1所述的方法,其中,所述网页内容包括以下至少任一项 -超文本链接;-图片; -多媒体数据。
3.根据权利要求1或2所述的方法,其中,所述步骤c包括cl根据所述多个查询关键词的查询使用信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词;c2根据所述优选查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。
4.根据权利要求3所述的方法,其中,所述查询使用信息包括以下至少任一项 -所述查询关键词的累计查询使用次数;-所述查询关键词的查询使用频次; -所述查询关键词的最新查询使用时间。
5.根据权利要求3或4所述的方法,其中,所述预定筛选规则包括以下至少任一项 -获取累计查询使用次数超过累计次数阈值的查询关键词作为优选查询关键词;-获取累计查询使用次数最多的第一预定数量的查询关键词作为优选查询关键词; -获取查询使用频次超过频次阈值的查询关键词作为优选查询关键词; -获取查询使用频次最高的第二预定数量的查询关键词作为优选查询关键词; -获取最新查询使用时间晚于第一时间阈值的查询关键词作为优选查询关键词; -获取最新查询使用时间距离当前时间最近的第三预定数量的查询关键词作为优选查询关键词。
6.根据权利要求3所述的方法,其中,所述步骤cl包括-根据所述多个查询关键词的查询使用信息,并结合各查询关键词所属的查询分类信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词。
7.根据权利要求3至6中任一项所述的方法,其中,所述步骤d包括 -根据预定排序规则,确定各网页内容在所述新的网页中的显示顺序; -根据所述各网页内容和所述显示顺序,生成所述新的网页。
8.根据权利要求7所述的方法,其中,所述预定排序规则包括以下至少任一项 -所述网页内容所对应的查询关键字的累计查询使用次数;-所述网页内容所对应的查询关键字的查询使用频次; -所述网页内容所对应的查询关键字的最新查询使用时间;-所述网页内容所对应的查询关键字所属的查询分类信息的预定查询权重。
9.根据权利要求1至8中任一项所述的方法,其中所述步骤d包括 -根据所述网页内容,并基于预定网页模板,生成所述新的网页。
10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括 -将所述新的网页提供给所述用户。
11.一种用于进行网页内容搜索的用户设备,其中该设备包括分类信息获取装置,用于获取来自用户的关于待搜索网页的一个或多个查询分类信息;关键词获取装置,用于根据所述一个或多个查询分类信息,在分类库中进行匹配查询, 以获得与各查询分类信息相对应的一个或多个查询关键词;第一内容获取装置,用于根据所述一个或多个查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述一个或多个查询关键词相对应的网页内容; 第一生成装置,用于根据所述网页内容,生成新的网页。
12.根据权利要求1所述的设备,其中,所述网页内容包括以下至少任一项 -超文本链接;-图片; -多媒体数据。
13.根据权利要求11或12所述的设备,其中,所述第一内容获取装置包括优选关键词获取单元,用于根据所述多个查询关键词的查询使用信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词;第二内容获取单元,用于根据所述优选查询关键词,在所述待搜索网页中进行匹配查询,以获得与所述优选查询关键词相对应的网页内容。
14.根据权利要求13所述的设备,其中,所述查询使用信息包括以下至少任一项 -所述查询关键词的累计查询使用次数;-所述查询关键词的查询使用频次; -所述查询关键词的最新查询使用时间。
15.根据权利要求13或14所述的设备,其中,所述预定筛选规则包括以下至少任一项-获取累计查询使用次数超过累计次数阈值的查询关键词作为优选查询关键词; -获取累计查询使用次数最多的第一预定数量的查询关键词作为优选查询关键词; -获取查询使用频次超过频次阈值的查询关键词作为优选查询关键词; -获取查询使用频次最高的第二预定数量的查询关键词作为优选查询关键词; -获取最新查询使用时间晚于第一时间阈值的查询关键词作为优选查询关键词; -获取最新查询使用时间距离当前时间最近的第三预定数量的查询关键词作为优选查询关键词。
16.根据权利要求13所述的设备,其中,所述优选关键词获取单元用于根据所述多个查询关键词的查询使用信息,并结合各查询关键词所属的查询分类信息,按照预定筛选规则,从所述多个查询关键词中获取优选查询关键词。
17.根据权利要求13至16中任一项所述的设备,其中,所述第一生成装置包括显示顺序确定单元,用于根据预定排序规则,确定各网页内容在所述新的网页中的显示顺序;第二生成单元,用于根据所述各网页内容和所述显示顺序,生成所述新的网页。
18.根据权利要求17所述的设备,其中,所述预定排序规则包括以下至少任一项 -所述网页内容所对应的查询关键字的累计查询使用次数;-所述网页内容所对应的查询关键字的查询使用频次;-所述网页内容所对应的查询关键字的最新查询使用时间;-所述网页内容所对应的查询关键字所属的查询分类信息的预定查询权重。
19.根据权利要求11至18中任一项所述的设备,其中所述第一生成装置用于根据所述网页内容,并基于预定网页模板,生成所述新的网页。
20.根据权利要求11至19中任一项所述的设备,其中,该设备还包括 提供装置,用于将所述新的网页提供给所述用户。
全文摘要
本发明的目的是提供一种在用户设备上基于查询分类搜索网页内容的方法与设备。本发明根据一个或多个查询分类信息获取一个或多个查询关键词,进而根据该(等)查询关键词确定在原始网页中查找与该(等)查询关键词相对应的网页内容,并基于该网页内容生成新网页,以实现根据用户的查询需求有针对性的提取并展示网页内容,使得用户在网页浏览过程中,能够快速锁定目标信息,节省浏览时间,从而提高用户浏览体验。
文档编号G06F17/30GK102339311SQ201110278328
公开日2012年2月1日 申请日期2011年9月19日 优先权日2011年9月19日
发明者徐濛, 诸爽, 邓腾 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1