获取截短的网页标题的方法及装置的制造方法_6

文档序号:9375563阅读:来源:国知局
方法,所述网页白名单计算策略为按照预先设置的用户所属领 域权重的计算策略,所述得到该网页标题权重值包括: 提取网页统一资源定位符信息映射的网页标题中包含的特征词,与预先设置的各领域 特征词库进行匹配,确定该网页统一资源定位符信息所属的领域; 根据预先为每一用户分别设置的各领域权重,分别获取网页统一资源定位符信息映射 的各网页标题包含的用户在确定的该网页统一资源定位符信息所属领域的领域权重; 将网页标题包含的用户数以及用户在确定的该网页统一资源定位符信息所属领域的 领域权重应用于预先设置的权重计算公式,得到网页标题权重值。8. 如权利要求6或7所述的方法,所述方法进一步包括: 获取网页导航数据,提取网页导航数据中包含的网页统一资源定位符信息以及该网页 统一资源定位符信息映射的网页标题; 遍历提取的每一网页统一资源定位符信息,查询网页白名单库中是否存在该网页统一 资源定位符信息,如果不存在,将该网页统一资源定位符信息以及该网页统一资源定位符 信息映射的网页标题写入白名单库,如果存在,从提取的网页标题以及网页白名单库中,分 别获取该网页统一资源定位符信息映射的网页标题,进行比较后确定是否更新网页白名单 库中该网页统一资源定位符信息映射的网页标题。9. 如权利要求8所述的方法,所述网页标题匹配库包括网页白名单库,所述查询预先 设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到 的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题包括 : 查询网页白名单库,得到待截短网页统一资源定位符信息映射的网页标题,并将得到 的网页标题作为截短的网页标题。10. 如权利要求1所述的方法,生成所述网页标题模板库包括: 预先为网页统一资源定位符信息映射的网页标题设置归类策略,并为每一归类的网页 标题设置对应的正则规则。11. 如权利要求10所述的方法,所述网页标题匹配库包括网页标题模板库,所述查询 预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据 得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题包括 : 提取待截短网页统一资源定位符信息映射的网页标题的命名规则,将提取的命名规则 匹配预先设置的归类策略,得到所述待截短网页统一资源定位符信息映射的网页标题所属 的归类; 查询网页标题模板库,获取所述待截短网页统一资源定位符信息映射的网页标题所属 的归类对应的正则规则; 利用获取的正则规则对待截短网页统一资源定位符信息映射的网页标题进行正则处 理,获取截短的网页标题。12. 如权利要求1所述的方法,生成所述网页标题前后缀识别库包括: 获取待截短的网页统一资源定位符信息映射的网页标题并存储; 设置用于对网页标题进行前后缀识别的词频-逆文档词频计算策略,形成网页标题前 后缀列表和/或前后缀识别规则。13. 如权利要求12所述的方法,所述网页标题匹配库包括网页标题前后缀识别库,所 述查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规 贝U,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题包括: 获取待截短网页统一资源定位符信息映射的网页标题,按照预先设置的拆分策略对获 取的网页标题进行拆分,得到一个或多个网页子标题; 结合网页标题前后缀识别库中存储的网页统一资源定位符信息映射的网页标题,针对 每一网页子标题,利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算 该每一网页子标题的词频-逆文档词频值; 判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值,如果是,确定该网 页子标题为前后缀,将该前后缀从网页标题中滤除,并将滤除前后缀的网页标题作为截短 的网页标题,以及,将确定的前后缀存储在网页标题前后缀库中。14. 如权利要求13所述的方法,在所述计算该每一网页子标题的词频-逆文档词频值 之前,所述方法进一步包括: 对得到的多个网页子标题进行组合,并针对每一组合的网页子标题,结合网页标题前 后缀识别库中存储的网页统一资源定位符信息映射的网页标题以及词频-逆文档词频计 算策略,计算该每一组合的网页子标题的TFIDF值,并在每一组合的网页子标题都非前后 缀的情况下,执行所述计算该每一网页子标题的词频-逆文档词频值。15. 如权利要求13所述的方法,在所述将该前后缀从网页标题中滤除之后,并将滤除 前后缀的网页标题作为截短的网页标题之前,所述方法进一步包括: 判断滤除前后缀的网页标题长度是否大于预先设置的网页标题长度阈值,并将不大于 预先设置的网页标题长度阈值的滤除前后缀的网页标题作为所述截短的网页标题。16. 如权利要求13所述的方法,所述拆分策略为按照网页标题中包含的预先设置的 标点符号进行拆分,所述预先设置的标点符号包括、一、+、&、#、……、:、.、,、|、:、 I、||、;、,、。、、、S、、 ? O17. 如权利要求1所述的方法,所述按照预先设置的截短通用规则对待截短的网页标 题进行截短处理包括: G1,判断待截短的网页标题中是否包含有所括内容,其中,所括内容为包含在符号中的 内容,如果是,执行步骤G2,否则,执行步骤G3 ; G2,将所括内容作为截短的标题内容,并结束流程; G3,利用预先设置的第一组标点符号对待截短的网页标题进行切分; G4,判断是否有切分的片段长度不大于预先设置的片段阈值,如果是,执行步骤G5,否 贝U,执行步骤G8 ; G5,对于每一不大于预先设置的片段阈值的切分的片段,去除该片段中常用短语,判断 去除常用短语的片段长度是否不大于预先设置的网页标题长度阈值,如果是,执行步骤G6, 否则,执行步骤G7; G6,返回去除常用短语后的片段作为截短的网页标题并结束流程; G7,利用预先设置的第二组标点符号对去除常用短语的片段进行切分,返回执行步骤 G4 ; G8,从所述待截短的网页标题起始位置开始,截取网页标题长度阈值的字符串作为截 短的网页标题。18. -种获取截短的网页标题的装置,该装置包括:截短请求处理模块以及截短的网 页标题获取模块,其中, 截短请求处理模块,用于从接收的进行网页标题截短的请求中获取待截短网页统一资 源定位符信息以及该待截短网页统一资源定位符信息映射的网页标题; 截短的网页标题获取模块,用于查询预先设置的网页标题匹配库,得到待截短网页统 一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处 理,获取截短的网页标题;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板 库、和/或,网页标题前后缀识别库。19. 如权利要求18所述的装置,所述截短请求处理模块包括:接收单元以及解析单元 其中 接收单元,用于接收进行网页标题截短的请求; 解析单元,用于解析进行网页标题截短的请求,得到待截短网页标题以及该待截短网 页统一资源定位符信息。20. 如权利要求18所述的装置,所述截短的网页标题获取模块包括:网页白名单库生 成单元以及截短的网页标题查询单元,其中, 网页白名单库生成单元,用于提取用户收藏夹中包含的各网页统一资源定位符信息及 网页统一资源定位符信息映射的网页标题;对于每一网页资源定位符信息,获取该网页资 源定位符信息映射的所有网页标题,以及,统计该网页资源定位符信息映射的每一网页标 题对应的用户数;将网页标题对应的用户数以及网页标题应用于预先设置的网页白名单计 算策略,得到该网页标题权重值;在同一网页统一资源定位符信息中,选取最大网页标题权 重值对应的网页标题,将网页统一资源定位符信息与选取的网页标题作为网页统一资源定 位符信息映射的网页标题,置于设置的网页白名单库中; 截短的网页标题查询单元,用于查询网页白名单库生成单元,得到待截短网页统一资 源定位符信息映射的网页标题,并将得到的网页标题作为截短的网页标题。21. 如权利要求20所述的装置,所述截短的网页标题获取模块进一步包括: 网页标题更新单元,用于获取网页导航数据,提取网页导航数据中包含的网页统一资 源定位符信息以及该网页统一资源定位符信息映射的网页标题;遍历提取的每一网页统一 资源定位符信息,查询网页白名单库生成单元中是否存在该网页统一资源定位符信息,如 果不存在,将该网页统一资源定位符信息以及该网页统一资源定位符信息映射的网页标题 写入网页白名单库生成单元,如果存在,从提取的网页标题以及网页白名单库生成单元中, 分别获取该网页统一资源定位符信息映射的网页标题,进行比较后确定是否更新网页白名 单库生成单元中该网页统一资源定位符信息映射的网页标题。22. 如权利要求18所述的装置,所述截短的网页标题获取模块包括:网页标题模板库 生成单元以及截短的网页标题获取单元,其中, 网页标题模板库生成单元,用于预先为网页统一资源定位符信息映射的网页标题设置 归类策略,并为每一归类的网页标题设置对应的正则规则; 截短的网页标题获取单元,用于提取待截短网页统一资源定位符信息映射的网页标题 的命名规则,将提取的命名规则匹配预先设置的归类策略,得到所述待截短网页统一资源 定位符信息映射的网页标题所属的归类;查询网页标题模板库生成单元,获取所述待截短 网页统一资源定位符信息映射的网页标题所属的归类对应的正则规则;利用获取的正则 规则对待截短网页统一资源定位符信息映射的网页标题进行正则处理,获取截短的网页标 题。23. 如权利要求18所述的装置,所述截短的网页标题获取模块包括:网页标题前后缀 识别库生成单元以及截短的网页标题处理单元,其中, 网页标题前后缀识别库生成单元,用于获取用户收藏夹中网页统一资源定位符信息映 射的网页标题并存储;设置用于对网页标题进行前后缀识别的词频-逆文档词频计算策 略; 截短的网页标题处理单元,用于获取待截短网页统一资源定位符信息映射的网页标 题,按照预先设置的拆分策略对获取的网页标题进行拆分,得到一个或多个网页子标题;结 合网页标题前后缀识别库中存储的网页统一资源定位符信息映射的网页标题,针对每一网 页子标题,利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该每一 网页子标题的词频-逆文档词频值;判断计算的词频-逆文档词频值是否大于预先设置的 前后缀阈值,如果是,确定该每一网页子标题为前后缀,将该前后缀从网页标题中滤除,并 将滤除前后缀的网页标题作为截短的网页标题。
【专利摘要】本发明公开了一种获取截短的网页标题的方法及装置。方法包括:获取网页统一资源定位符信息以及该信息映射的待截短网页标题;对待截短网页标题进行处理,只保留能够反映网页内容的部分;所述对待截短网页标题进行处理的方法包括下述方法中的一种或多种的任意组合:对标题做分词处理并去除无意义词;查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题;利用通用规则对标题做截短处理;所述网页标题匹配库包括:网页白名单库、和/或,网页标题模板库、和/或,网页标题前后缀识别库。应用本发明,可以有效提升网页标题的去冗余效果。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105095175
【申请号】CN201410158987
【发明人】商胜, 徐俊
【申请人】北京搜狗科技发展有限公司
【公开日】2015年11月25日
【申请日】2014年4月18日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1