获取截短的网页标题的方法及装置的制造方法

文档序号:9375563阅读:251来源:国知局
获取截短的网页标题的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及浏览器显示处理技术,具体涉及一种获取截短的网页标题的方法及装 置。
【背景技术】
[0002] 目前,基于浏览器显示界面布局的需要,由于显示用户存储在浏览器收藏栏、收藏 夹中收藏的网页标题的浏览器显示区域相对有限,而通过该浏览器显示区域显示的网页标 题,能够使用户获取到该网页(网站)的相关信息。因而,如何在有限的浏览器显示区域内, 使得存储的网页标题能够向用户提供尽可能多的信息,以使用户获取关于网页的更多有用 信息,从而提升用户的业务体验,成为一个亟需解决的技术问题。其中,网页标题是用于概 括网页内容的一句话,是对网页内容的高度浓缩,可以向用户提供相关网页精炼以及有用 的信息。
[0003] 在现有浏览器中,对于用户在收藏夹中收藏的网页标题,一般通过浏览器自动 提取网页顶部的标题(Title)作为网页标题,例如,对于需要收藏的网页统一资源定位符 (URL,Uniform Resource Locator)信息:www. sohu. com,浏览器自动将网M www. sohu. com 顶部设置的标题"上搜狐,看奥运"作为该网页www. sohu. com标题,并存储在收藏夹中,当 然,用户也可以根据自身的实际需要,对收藏夹中的网页标题进行手动修改。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的获取截短的网页标题的方法及装置。
[0005] 依据本发明的一个方面,提供了获取截短的网页标题的方法,该方法包括:
[0006] 获取网页统一资源定位符信息以及该网页统一资源定位符信息映射的待截短网 页标题;
[0007] 对待截短网页标题进行处理,只保留能够反映网页内容的部分;
[0008] 所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组 合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网 页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行 处理,获取截短的网页标题;利用通用规则对标题做截短处理;
[0009] 所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页 标题前后缀识别库。
[0010] 根据本发明的另一方面,提供了获取截短的网页标题的装置,包括:截短请求处理 模块以及截短的网页标题获取模块,其中,
[0011] 截短请求处理模块,用于从接收的进行网页标题截短的请求中获取待截短网页统 一资源定位符信息以及该待截短网页统一资源定位符信息映射的网页标题;
[0012] 截短的网页标题获取模块,用于查询预先设置的网页标题匹配库,得到待截短网 页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行 处理,获取截短的网页标题;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模 板库、和/或,网页标题前后缀识别库。
[0013] 根据本发明的获取截短的网页标题的方法及装置,根据输入的网页统一资源定位 符信息以及网页标题,利用预先建立的网页白名单库、和/或,网页模版库、和/或,网页标 题前后缀识别库、和/或,截短通用规则,对网页标题进行截短。由此解决了现有方法对网 页标题进行提取后,得到截短的网页标题包含修饰性词语以及前后缀的技术问题,能够有 效地去除网页标题中包含的前后缀以及修饰性词语,获得了良好的去冗余目的,达到获取 的截短的网页标题满足浏览器显示区域要求,并能向用户提供更多有用的信息,从而提升 用户业务体验的有益效果。
[0014] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0015] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0016] 图1示出了本发明实施例获取截短的网页标题的方法流程示意;
[0017] 图2示出了本发明实施例获取截短的网页标题的装置结构示意;以及
[0018] 图3示出了本发明实施例获取截短的网页标题的方法具体流程示意。
【具体实施方式】
[0019] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0020] 随着网络技术的发展,为了向用户提供更为有用的信息以及适应浏览器显示区 域,还需要对收藏夹中存储的网页标题中包含的一些非必要信息进行过滤处理,即对网页 标题进行关键字词提取以截短网页标题,以在有限的浏览器显示区域内向用户提供尽可能 有用的信息。
[0021] 作为可选实施例,可以通过分词切分方法对获取的网页标题进行拆分,先对网页 标题进行字词切分,接着,对切分的字词进行无意义词去除,最后,对经过去除处理后的网 页标题进行字词组合,得到截短的网页标题。
[0022] 实际应用中,由于采用分词切分方法对网页标题进行字词切分,并对切分的字词 进行无意义词去除,不能有效去除网页标题中对用户无关的信息。例如,网页标题"上搜狐, 看奥运"经过字词切分、无意义词去除以及字词组合后,得到提取的网页标题仍然为"上搜 狐,看奥运",而对于用户来说,"上"以及"看奥运"可能是对用户无用的信息,使得有限的浏 览器显示区域内向用户提供的有用信息量减少,降低了用户的业务体验;再例如,对于网页 标题"欢迎访问搜狐",经过现有方法对网页标题进行提取后,得到截短的网页标题仍然为 "欢迎访问搜狐",而其中,"欢迎访问"为修饰性词语,不能提供对用户有用的信息,这样,由 于截短的网页标题中包含了一些修饰性词语,一方面,使得截短的网页标题不能满足浏览 器显示区域要求,另一方面,也使得截短的网页标题提供给用户的有用信息较少,网页标题 去冗余效果较差。优选地,本发明实施例中提出一种对各网页标题尽可能保留标题有用信 息的一种网页标题截短技术,即获取截短的网页标题的方法,通过建立网页白名单库、和/ 或,网页模版库、和/或,网页标题前后缀识别库、和/或,截短通用规则,对网页标题进行有 用截短,使之包含更为精炼的关键词或关键词组,并去除与用户无关的信息,从而满足浏览 器显示区域要求,并向用户提供更多有用的信息。
[0023] 图1示出了本发明实施例获取截短的网页标题的方法流程示意。参见图1,该流程 包括:
[0024] 步骤101,获取待截短网页统一资源定位符信息以及该待截短网页统一资源定位 符信息映射的网页标题;
[0025] 本步骤中,相对于现有仅针对网页标题进行截短的技术,本发明实施例中,为了实 现更为有效的网页标题截短以及匹配本发明实施例提出的网页白名单库、和/或,网页模 版库、和/或,网页标题前后缀识别库技术,在对网页标题进行获取时,还需要获取并利用 该网页统一资源定位符信息,且作为可选实施例,与现有技术不同的是,本发明实施例中, 待截短网页标题可以为空或者url等并非表示页面主题信息的无效标题。
[0026] 本步骤具体包括:
[0027] 接收进行网页标题截短的请求;
[0028] 本步骤中,用户在浏览网页的过程中,如果确定需要将该网页进行收藏,则在该网 页的显示界面,通过点击收藏夹下拉菜单中的添加到收藏夹子菜单,触发进行网页标题截 短,该网页浏览器提取该用户浏览的网页标题,即待截短网页标题,将提取的网页标题以及 该网页统一资源定位符信息(待截短网页统一资源定位符信息)封装在进行网页标题截短 的请求中,向服务器发送;或者,用户需要对收藏夹中存储的网页标题(待截短网页标题)进 行优化,则通过点击整理收藏夹下拉菜单中的重命名子菜单,触发进行网页标题截短,用户 可以选取需要进行截短的网页标题,网页浏览器将该用户选取的网页标题以及该网页统一 资源定位符信息封装在进行网页标题截短的请求中,向服务器发送,其中,如果用户选取有 多个网页标题,则在进行网页标题截短的请求中,每一网页标题与该网页统一资源定位符 信息形成映射关系。
[0029] 解析进行网页标题截短的请求,得到待截短网页标题以及该待截短网页统一资源 定位符信息。
[0030] 本步骤中,服务器在接收到进行网页标题截短的请求,通过解封装以及解析该请 求,可以得到请求中携带的网页标题以及该网页统一资源定位符信息。
[0031] 步骤102,查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息 对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页 标题;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标 题前后缀识别库、和/或,截短通用规则,其中,
[0032] 网页白名单库中存储有网页统一资源定位符信息对应的截短的网页标题;
[0033] 网页标题模板库中存储有网页统一资源定位符信息对应的正则截短规则;
[0034] 网页标题前后缀识别库中存储有网页标题前后缀列表和/或前后缀识别规则。其 中,网页标题前后缀识别规则为设置的用于对网页标题进行前后缀识别的词频-逆文档词 频计算策略,后续再进行详细描述。
[0035] 本步骤中,作为较佳实施例,也可以预先将网页标题匹配库加载到缓存中。
[0036] 本发明实施例中,如果网页标题匹配库中存储有网页白名单库、网页标题模板库 以及网页标题前后缀识别库,由于网页白名单库匹配所需时间短,能够有效过滤未包含在 网页白名单库中的网页标题,减少后续处理;而与网页标题模板库进行匹配所需时间较长, 以及,与网页标题前后缀识别库进行匹配所需时间最长。因而,如果需要采用三者结合进行 短标题截短,较佳地,采用的匹配规则依序为:网页白名单库、网页标题模板库、网页标题前 后缀识别库。
[0037] 生成网页白名单库包括:
[0038] All,提取用户收藏夹中包含的各网页统一资源定位符信息及网页统一资源定位 符信息映射的网页标题;
[0039] 本步骤中,从包含网页标题(网页收藏名称)的用户收藏夹中,提取用户设置的网 页标题以及网页统一资源定位符信息。
[0040] 本发明实施例中,由于用户在使用搜狗浏览器进行网页访问时,搜狗浏览器会存 储用户的网页访问记录,例如,用户为网页设置的网页标题以及该网页URL信息,服务器通 过提取搜狗浏览器中的网页收藏夹数据,可以得到大量的网页URL信息以及各用户对网页 URL信息设定的网页标题。其中,网页URL信息与网页标题构成映射关系(标题对),不同的 用户对于同一网页URL信息,设置的网页标
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1