获取截短的网页标题的方法及装置的制造方法_4

文档序号:9375563阅读:来源:国知局
除前后缀的网页 标题作为截短的网页标题。
[0151] 作为可选实施例,该方法还可以进一步包括:
[0152] 步骤103,将获取的截短的网页标题下发至用户收藏夹中进行存储。
[0153] 本步骤中,也可以是服务器将获取的截短的网页标题下发至用户并显示,由用户 选择是否修改后,依据用户选择在收藏夹中进行存储。
[0154] 作为另一可选实施例,该方法还可以进一步包括:
[0155] 采用预先设置的截短通用规则对待截短的网页标题进行截短处理。关于采用截短 通用规则进行截短处理,后续再进行详细描述。
[0156] 图2示出了本发明实施例获取截短的网页标题的装置结构示意。参见图2,该装置 包括:截短请求处理模块以及截短的网页标题获取模块,其中,
[0157] 截短请求处理模块,用于从接收的进行网页标题截短的请求中获取待截短网页 URL信息以及该待截短网页URL信息映射的网页标题;
[0158] 截短的网页标题获取模块,用于查询预先设置的网页标题匹配库,得到待截短网 页URL信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取 截短的网页标题;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/ 或,网页标题前后缀识别库,其中,
[0159] 网页白名单库中存储有网页URL信息对应的截短的网页标题;
[0160] 网页标题模板库中存储有网页URL信息对应的正则截短规则;
[0161] 网页标题前后缀识别库中存储有网页标题前后缀列表和/或前后缀识别规则。
[0162] 其中,
[0163] 截短请求处理模块包括:接收单元以及解析单元(图中未示出),其中,
[0164] 接收单元,用于接收进行网页标题截短的请求;
[0165] 解析单元,用于解析进行网页标题截短的请求,得到待截短网页标题以及该待截 短网页URL信息。
[0166] 作为可选实施例,截短的网页标题获取模块包括:网页白名单库生成单元以及截 短的网页标题查询单元(图中未示出),其中,
[0167] 网页白名单库生成单元,用于提取用户收藏夹中包含的各网页URL信息及网页 URL信息映射的网页标题;对于每一网页资源定位符信息,获取该网页资源定位符信息映 射的所有网页标题,以及,统计该网页资源定位符信息映射的每一网页标题对应的用户数; 将网页标题对应的用户数以及网页标题应用于预先设置的网页白名单计算策略,得到该网 页标题权重值;在同一网页URL信息中,选取最大网页标题权重值对应的网页标题,将网页 URL信息与选取的网页标题作为网页URL信息映射的网页标题,置于设置的网页白名单库 中;
[0168] 截短的网页标题查询单元,用于查询网页白名单库生成单元,得到待截短网页URL 信息映射的网页标题,并将得到的网页标题作为截短的网页标题。
[0169] 本发明实施例中,较佳地,截短的网页标题获取模块还可以包括:
[0170] 网页标题更新单元,用于获取网页导航数据,提取网页导航数据中包含的网页URL 信息以及该网页URL信息映射的网页标题;遍历提取的每一网页URL信息,查询网页白名单 库生成单元中是否存在该网页URL信息,如果不存在,将该网页URL信息以及该网页URL信 息映射的网页标题写入网页白名单库生成单元,如果存在,从提取的网页标题以及网页白 名单库生成单元中,分别获取该网页URL信息映射的网页标题,进行比较后确定是否更新 网页白名单库生成单元中该网页URL信息映射的网页标题。
[0171] 作为另一可选实施例,截短的网页标题获取模块包括:网页标题模板库生成单元 以及截短的网页标题获取单元,其中,
[0172] 网页标题模板库生成单元,用于预先为网页URL信息映射的网页标题设置归类策 略,并为每一归类的网页标题设置对应的正则规则;
[0173] 截短的网页标题获取单元,用于提取待截短网页URL信息映射的网页标题的命名 规则,将提取的命名规则匹配预先设置的归类策略,得到所述待截短网页URL信息映射的 网页标题所属的归类;查询网页标题模板库生成单元,获取所述待截短网页URL信息映射 的网页标题所属的归类对应的正则规则;利用获取的正则规则对待截短网页URL信息映射 的网页标题进行正则处理,获取截短的网页标题。
[0174] 作为再一可选实施例,截短的网页标题获取模块包括:网页标题前后缀识别库生 成单元以及截短的网页标题处理单元,其中,
[0175] 网页标题前后缀识别库生成单元,用于获取用户收藏夹中网页URL信息映射的网 页标题并存储;设置用于对网页标题进行前后缀识别的词频-逆文档词频计算策略。
[0176] 截短的网页标题处理单元,用于获取待截短网页URL信息映射的网页标题,按照 预先设置的拆分策略对获取的网页标题进行拆分,得到一个或多个网页子标题;结合网页 标题前后缀识别库中存储的网页URL信息映射的网页标题,针对每一网页子标题,利用网 页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该每一网页子标题的词 频-逆文档词频值;判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值,如果 是,确定该每一网页子标题为前后缀,将该前后缀从网页标题中滤除,并将滤除前后缀的网 页标题作为截短的网页标题。
[0177] 作为再一可选实施例,截短的网页标题获取模块包括:网页白名单库生成单元、网 页标题模板库生成单元、网页标题前后缀识别库生成单元、截短的网页标题查询单元、截短 的网页标题获取单元以及截短的网页标题处理单元,其中,
[0178] 网页白名单库生成单元,用于提取用户收藏夹中包含的各网页URL信息及网页 URL信息映射的网页标题;对于每一网页资源定位符信息,获取该网页资源定位符信息映 射的所有网页标题,以及,统计该网页资源定位符信息映射的每一网页标题对应的用户数; 将网页标题对应的用户数以及网页标题应用于预先设置的网页白名单计算策略,得到该网 页标题权重值;在同一网页URL信息中,选取最大网页标题权重值对应的网页标题,将网页 URL信息与选取的网页标题作为网页URL信息映射的网页标题,置于设置的网页白名单库 中;
[0179] 网页标题模板库生成单元,用于预先为网页URL信息映射的网页标题设置归类策 略,并为每一归类的网页标题设置对应的正则规则;
[0180] 网页标题前后缀识别库生成单元,用于获取用户收藏夹中网页URL信息映射的网 页标题并存储;设置用于对网页标题进行前后缀识别的词频-逆文档词频计算策略;
[0181] 截短的网页标题查询单元,用于根据待截短网页URL信息查询网页白名单库生成 单元,如果得到待截短网页URL信息映射的网页标题,并将得到的网页标题作为截短的网 页标题,否则,通知截短的网页标题获取单元;
[0182] 截短的网页标题获取单元,用于提取待截短网页URL信息映射的网页标题的命名 规则,将提取的命名规则匹配预先设置的归类策略,得到所述待截短网页URL信息映射的 网页标题所属的归类;查询网页标题模板库生成单元,如果获取到所述待截短网页URL信 息映射的网页标题所属的归类对应的正则规则,利用获取的正则规则对待截短网页URL信 息映射的网页标题进行正则处理,获取截短的网页标题,否则,通知截短的网页标题处理单 元;
[0183] 截短的网页标题处理单元,用于获取待截短网页URL信息映射的网页标题,按照 预先设置的拆分策略对获取的网页标题进行拆分,得到一个或多个网页子标题;结合网页 标题前后缀识别库中存储的网页URL信息映射的网页标题,针对每一网页子标题,利用网 页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该每一网页子标题的词 频-逆文档词频值;判断计算的词频-逆文档词频值不大于预先设置的前后缀阈值,确定该 每一网页子标题为前后缀,将该前后缀从网页标题中滤除,并将滤除前后缀的网页标题作 为截短的网页标题。
[0184] 下面再举一具体实施例,对获取截短的网页标题的方法进行说明。
[0185] 图3示出了本发明实施例获取截短的网页标题的方法具体流程示意。参见图3,该 流程包括:
[0186] 步骤301,输入待截短的网页标题及该待截短的网页标题映射的网页URL信息;
[0187] 本步骤中,用户可以是在浏览网页的过程中进行网页标题收藏,也可以是对网页 收藏夹中存储的网页标题进行优化,即对网页标题进行截短,例如,当用户点击待优化的网 页标题后,触发网页浏览器向服务器输入待截短的网页标题及该待截短的网页标题映射的 网页URL信息。
[0188] 步骤302,根据网页URL信息查询网页白名单库,如果网页白名单库中存储有所述 网页URL信息,执行步骤303,否则,执行步骤304 ;
[0189] 步骤303,读取网页白名单库中所述网页URL信息映射的网页标题,作为截短的网 页标题输出并结束流程;
[0190] 步骤304,判断输入的待截短的网页标题是否有效,如果无效,执行步骤305,否 贝IJ,执行步骤306 ;
[0191] 步骤303至步骤304中,从网页白名单库中检索输入的网页URL信息,如果网页白 名单库中存储有输入的网页URL信息,则命中网页白名单,直接返回该网页URL信息映射的 网页标题,作为截短的网页标题输出并结束流程;否则,需要对输入的待截短的网页标题的 有效性进行判断。例如,输入的待截短的网页标题为"百度一下,你就知道",映射的网页URL 信息为http://www. baidu. com/,则经过网页白名单库查询和匹配,返回网页白名单库中存 储的网页标题"百度"作为截短的网页标题。
[0192] 作为可选实施例,也可以预先将网页白名单库加载到缓存中,在缓存中进行网页 URL信息匹配,这样,可以提高获取截短的网页标题的效率,缩短处理时间。
[0193] 本步骤中,网页标题无效是指输入的网页标题完全不能反应网页内容,例如为空 或不包含有任何文字(例如,仅包含符号等)。
[0194] 步骤305,返回所述网页URL信息对应的域名,作为截短的网页标题并结束流程;
[0195] 步骤306,根据输入的网页URL信息查询网页标题模板库,如果网页标题模板库中 存在所述输入的网页URL信息,执行步骤307,否则,执行步骤308 ;
[0196] 步骤307,读取网页标题模板库中所述输入的网页URL信息对应的正则规则,利用 读取的正则规则对待截短的网页标题进行正则处理,获取截短的网页标题并结束流程;
[0197] 本步骤中,查询输入的网页URL信息是否命中网页标题模板库。例如,输入的待 截短的网页标题为"俄罗斯女孩浴场晒太阳很性感_刘星云_新浪博客",网页URL信息为 http://bl〇R. sina. com. cn/s/bl〇R 49b0d2b50102eyxt. html?t i=l,如果网 W标是页構板库 中存储有http://bl〇R. sina. com, cn及其对应的正则规则,贝U命中网页标题模板库,根据 命中的网页标题模板库,利用存
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1