获取截短的网页标题的方法及装置的制造方法_2

文档序号:9375563阅读:来源:国知局
题可以不同。因而,同一网页URL信息可能映射 有各用户对该网页URL信息设置的大量不同网页标题。
[0041] A12,对于每一网页资源定位符信息,获取该网页资源定位符信息映射的所有网页 标题,以及,统计该网页资源定位符信息映射的每一网页标题对应的用户数;
[0042] 本步骤中,由于用户的不同,因而,对于每一网页URL信息,映射有不同的网页标 题。本发明实施例中,对于每一网页URL信息,分别统计该网页URL信息映射的每一网页标 题对应的用户数。例如,对于网页URL信息:www. sohu. com,映射的网页标题包括:"上搜狐, 看奥运"、"欢迎访问搜狐"、"搜狐"以及"搜狐官网",其中,经过统计,"上搜狐,看奥运"对应 的用户数为1万,即有1万名用户将网M URL信息:WWW, sohu. com映射的网M标题设置为 "上搜狐,看奥运","欢迎访问搜狐"对应的用户数为1. 5万,"搜狐"对应的用户数为5万, "搜狐官网"对应的用户数为2. 5万。
[0043] A13,将网页标题对应的用户数以及网页标题应用于预先设置的网页白名单计算 策略,得到该网页标题权重值;
[0044] 本步骤中,作为可选实施例,网页白名单计算策略可以是按照用户数的计算策略, 则网页标题权重值为用户数值。如步骤A12中所述,按照用户数的计算策略,网页标题"上 搜狐,看奥运"对应的网页标题权重值为1万,"欢迎访问搜狐"对应的网页标题权重值为1. 5 万,"搜狐"对应的网页标题权重值为5万,"搜狐官网"对应的网页标题权重值为2. 5万。
[0045] 当然,作为另一可选实施例,还可以考虑到实际应用中用户所属领域的领域权重, 对于某一领域内的用户来说,该领域内的用户对网页URL信息映射的网页标题命名的准确 性应大于其它非该领域内的用户对同一网页URL信息映射的网页标题命名的准确性,即该 领域内的用户对网页URL信息映射的网页标题命名可以获取更为广泛的应用和普及。例 如,对于某一机械领域的用户,其对机械领域网页URL信息映射的网页标题命名的准确性 应大于其它非机械领域用户对该网页URL信息映射的网页标题命名的准确性。因而,网页 白名单计算策略可以是按照预先设置的用户所属领域权重的计算策略,这样,通过预先为 每一用户分别设置各领域权重,例如,对于某一领域用户,可以设置其机械领域权重为〇. 5, 电学领域权重为〇. 3,通信领域权重为0. 2等。关于确定用户所属的领域,可通过用户标签 的特征匹配来得到,为公知技术,在此略去详述。这样,将网页标题对应的用户数以及网页 标题应用于预先设置的网页白名单计算策略,得到该网页标题权重值包括:
[0046] B11,提取网页URL信息映射的网页标题中包含的特征词,与预先设置的各领域特 征词库进行匹配,确定该网页URL信息所属的领域;
[0047] 本步骤中,举例来说,对于网页URL信息,随机选取一网页标题"欢迎访问搜狐", 提取的特征词为搜狐,如果在通信领域特征词库中,包含有特征词搜狐,则该网页标题所属 的领域为通信领域。
[0048] B12,根据预先为每一用户分别设置的各领域权重,分别获取网页URL信息映射的 各网页标题包含的用户在确定的该网页URL信息所属领域的领域权重;
[0049] 本步骤中,对于"上搜狐,看奥运",其中,在1万名用户中,有0. 2万用户在通信领 域的领域权重为〇. 2,有0. 3万用户在通信领域的领域权重为0. 3,有0. 1万用户在通信领 域的领域权重为〇. 6,有0. 4万用户在通信领域的领域权重为0. 9。对于网页URL信息:www. sohu. com映射的其它网页标题,依据与该相同的方法进行统计。
[0050] B13,将网页标题包含的用户数以及用户在确定的该网页URL信息所属领域的领 域权重应用于预先设置的权重计算公式,得到网页标题权重值。
[0051] 本步骤中,权重计算公式可以是总权重计算公式,也可以是相对权重计算公式。其 中,总权重计笪公式如下:
[0052]
[0053] 式中,
[0054] X1为第i个网页标题权重值,其中,i为自然数;
[0055] Uli j为第i个网页标题对应的第j个用户;
[0056] ξ u为第i个网页标题对应的第j个用户在该网页标题所属领域的领域权重;
[0057] K为第i个网页标题对应的用户总数,K为自然数。
[0058] 相对叔重i+笪公式加下,
[0059]
[0060] 作为其它可选实施例,还可以预先为每一网页标题设置网页标题优先权系数,并 结合为网页标题映射的用户设置的领域权重计算网页标题权重值,即网页白名单计算策略 可以是按照预先设置的用户所属领域权重结合网页标题优先权系数的计算策略。该方法进 一步包括:
[0061] 将得到的网页标题权重值与网页标题优先权系数相乘,作为最终输出的网页标题 权重值。
[0062] 本步骤中,对于总权重计算公式,计算最终输出的网页标题权重值如下:
[0063]
[0064] 式中,
[0065] V1为第i个网页标题优先权系数。
[0066] 本发明实施例中,网页标题优先权系数可通过人工方式设置。例如,通过获取搜狗 浏览器中的各网页标题,分别为各网页标题设置相应的网页标题优先权系数。
[0067] A14,在同一网页URL信息中,选取最大网页标题权重值对应的网页标题,将网页 URL信息与选取的网页标题作为网页URL信息映射的网页标题,置于设置的网页白名单库 中。
[0068] 本步骤中,对于同一网页URL信息,计算出该网页URL信息映射的各网页标题权 重值后,选取最大网页标题权重值对应的网页标题,作为网页白名单库中网页URL信息映 射的网页标题。其中,网页标题权重值包括网页标题最大总权重值和网页标题最大相对权 重值,可以选取网页标题最大总权重值对应的网页标题作为该网页URL信息映射的网页标 题;或者,选取网页标题最大相对权重值对应的网页标题作为该网页URL信息映射的网页 标题。
[0069] 作为可选实施例,还可以在同一网页URL信息中,对网页标题权重值按大小进行 排序,选取排序前N位的网页标题权重值对应的网页标题,每一网页URL信息映射N个网页 标题,并将网页URL信息映射的N个网页标题置于设置的白名单库中,其中,N为自然数。即 在网页白名单库中,每一网页URL信息映射有N个网页标题,其中,N可以根据实际需要确 定。
[0070] 实际应用中,由于通过上述方法得到的网页URL信息映射的网页标题是根据用户 行为进行选择,而用户收藏夹中的网页URL信息映射的网页标题可能并不能准确反映网页 标题,而各导航网站提供的网页导航数据中,由于是经过专业的技术人员对网页进行了高 度概括,因而,提供的网页标题相对较为精炼,且包含的有用信息较多。因而,本发明实施例 中,在生成网页白名单库后,进一步地,该方法还可以包括:
[0071] C11,获取网页导航数据,提取网页导航数据中包含的网页URL信息以及该网页 URL信息映射的网页标题;
[0072] 本步骤中,可以通过网络爬虫的方式,从各导航网站抓取网页导航数据,并对网页 导航数据进行解析,从中提取出网页URL信息和网页URL信息映射的网页标题。关于抓取 网页导航数据,提取网页标题与网页URL信息为公知技术,在此略去详述。
[0073] C12,遍历提取的每一网页URL信息,查询网页白名单库中是否存在该网页URL信 息,如果不存在,将该网页URL信息以及该网页URL信息映射的网页标题写入白名单库,如 果存在,从提取的网页标题以及网页白名单库中,分别获取该网页URL信息映射的网页标 题,进行比较后确定是否更新网页白名单库中该网页URL信息映射的网页标题。
[0074] 本发明实施例中,由于网页导航数据中提供的网页URL信息数量相对有限,即不 能大范围覆盖所有的网页URL信息,因而,将该方法作为网页白名单库的一个有益补充。通 过抓取各导航网站的网页导航数据,提取网页URL信息和该网页URL信息映射的网页标题, 并根据网页URL信息,将从网页白名单库中存储的网页标题与抓取的网址导航数据中的网 页标题进行比较,从而选取表意更为精确的网页标题,即如果网页白名单库中存储的网页 标题表意更为精确,则不作处理,如果从网页导航数据提取的该网页URL信息映射的网页 标题表意更为精确,则对网页白名单库中存储的网页标题进行更新。
[0075] 至此,生成网页白名单库的流程结束。
[0076] 生成网页标题模板库包括:
[0077] 预先为网页URL信息映射的网页标题设置归类策略,并为每一归类的网页标题设 置对应的正则规则。
[0078] 本步骤中,虽然各网站的网页标题数量繁多,但是从大量的网页标题数据中,可以 将网页标题按照预先设置的归类策略进行归类,其中,归类策略可以是按照社交类、技术博 客类等的归类策略,也就是说,将网页标题归类为社交类网页标题、技术博客类网页标题 等。并为每一归类的网页标题设置对应的正则规则,形成网页标题模板。
[0079] 后续中,在对网页标题进行归类后,在归类的网页标题中,使用该归类对应的正则 规则,对归类的网页标题进行截取,即可得到截短的网页标题。例如,在网页标题模板库中, 预先分别设置社交类网页标题以及技术博客类网页标题对应的正则规则,这样,在将网页 标题归类为社交类网页标题或技术博客类网页标题后,对每一归类的网页标题,均可以按 照预先设置的对应于相应归类的正则规则进行截取,从而得到相应截短的网页标题。
[0080] 关于为每一归类的网页标题设置对应的正则规则,可通过对归类的网页标题进行 数据挖掘得到,在此略去详述。
[0081] 本发明实施例中,由于在各网页标题的收尾处,往往会含有"首页"、"据报道"、"外 媒"、"热点"等用于使网页标题醒目的前后缀信息,或者表示网页标题结构而与网页标题的 主题无关的前后缀信息。为了去除网页标题的前后缀信息,使用前述正则规则或者白名单 库进行前后缀信息过滤的流程较为繁琐。因而,本发明实施例中,可以利用标题库(存储的 网页URL信息映射的网页标题)进行海量数据分析,利用TFIDF方法进行定期数据挖掘,从 而抓取出前后缀信息。
[0082] 生成网页标题前后缀识别库包括:
[0083] 获取用户收藏夹中网页URL信息映射的网页标题并存储;
[0084] 设置用于对网页标题进行前后缀识别的词频-逆文档词频(TF-IDF,Term Frequency-Inverse Document Frequency)计算策略。
[0085] 本发明实施例中,TF-IDF是一种用于信息检索的常用加权统计方法。其中,词频 用以评估一字词对于一个文档库(文件集或语料库)中的其中一份文档的权重,字词的权重 随着该字词在文档库中出现的次数成正比增加,同时随着该字词在文档库中出现的频率成 反比下降;逆文档词频是一个字词普遍重要性的度量。
[0086] TF的权重计算公式为:
[
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1