获取截短的网页标题的方法及装置的制造方法_3

文档序号:9375563阅读:来源:国知局
0087]
[0088] 式中,
[0089] TF为词频权重;
[0090] Pw为词(字词)W出现在文档库中的次数;
[0091] P为文档库长度,即包含的字词总数量。
[0092] TDF的奴重i+笪公式为:
[0093]
[0094] 式中,
[0095] IDF为逆文档词频权重;
[0096] Dw为样本(文档库、文件集或语料库)中含有字词w的个体(文档)总数;
[0097] D为样本总数,即总文档数。
[0098] 如果IDF值越小,表示样本中越多的文档包含有该字词,该字词包含的信息量越 少;如果IDF值越大,表示样本中只有越少的文档包含有该字词,该字词包含的信息量越 大。
[0099] 结合词频及逆文档词频,可以得到词频-逆文档词频:
[0100]
[0101] 式中,Weightw为字词W的TF-IDF权重。
[0102] 如果TF-IDF权重值越大,表示该字词的指示性越好。
[0103] 下面对获取截短的网页标题再进行详细描述。
[0104] 本发明实施例中,如果网页标题匹配库包括网页白名单库,则查询预先设置的网 页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规 则对所述待截短网页标题进行处理,获取截短的网页标题包括:
[0105] 查询网页白名单库,得到待截短网页统一资源定位符信息映射的网页标题,并将 得到的网页标题作为截短的网页标题。
[0106] 本步骤中,对于网页白名单库中没有存储待截短网页统一资源定位符信息的情 形,可以按照现有技术对网页标题进行截短处理,在此不再赘述。
[0107] 如果网页标题匹配库包括网页标题模板库,则查询预先设置的网页标题匹配库, 得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述待截短 网页标题进行处理,获取截短的网页标题包括:
[0108] D11,提取待截短网页URL信息映射的网页标题的命名规则,将提取的命名规则匹 配预先设置的归类策略,得到所述待截短网页URL信息映射的网页标题所属的归类;
[0109] 本步骤中,可以通过分析网页标题的命名规则,区分该网页标题所属的归类。关于 对网页标题进行归类为公知技术,在此略去详述。
[0110] 作为可选实施例,如果网页URL信息映射的网页标题无效,即网页标题完全不能 反应网页内容,例如为空,即不包含任何内容或仅包含符号,则可以返回该网页URL信息的 域名作为截短的网页标题。
[0111] D12,查询网页标题模板库,获取所述待截短网页URL信息映射的网页标题所属的 归类对应的正则规则;
[0112] 本步骤中,如果对待截短网页URL信息映射的网页标题进行归类后,所属的归类 为社交类网页标题,则从网页标题模板库中,读取为社交类网页标题设置的正则规则。
[0113] D13,利用获取的正则规则对待截短网页URL信息映射的网页标题进行正则处理, 获取截短的网页标题。
[0114] 如果网页标题匹配库包括网页标题前后缀识别库,则查询预先设置的网页标题匹 配库,得到待截短网页统一资源定位符信息对应的匹配规则,根据得到的匹配规则对所述 待截短网页标题进行处理,获取截短的网页标题包括:
[0115] E11,获取待截短网页URL信息映射的网页标题,按照预先设置的拆分策略对获取 的网页标题进行拆分,得到一个或多个网页子标题;
[0116] 本步骤中,由于在对网页标题进行收藏时,网页标题的各组成部分具有一定的特 点,例如,一般包含有前缀(或修饰性词语)、标题正文、一个或多个后缀,而通过对网页标题 各组成部分的估计分析,可以通过一些特定的标点符号进行区分;再者,对于标题正文,是 对用户有用的信息,可以作为整体向用户提供。
[0117] 由此,本发明实施例中,拆分策略可以是按照网页标题中包含的预先设置的标点 符号进行拆分。例如,预先设置的标点符号可以是_、-、一、+、&、#、……、:、.、,、|、:、 I、Il、;、,、。、、、8、一、一、?等。如果网页标题中包含有上述任一预先设置的符号,则将该 网页标题从该符号处拆分。
[0118] E12,结合网页标题前后缀识别库中存储的网页URL信息映射的网页标题,针对每 一网页子标题,利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该 每一网页子标题的词频-逆文档词频值;
[0119] 本步骤中,作为可选实施例,还可以在对网页子标题进行词频-逆文档词频值计 算之前,该方法进一步包括:
[0120] 对得到的多个网页子标题进行组合,并针对每一组合的网页子标题,结合网页标 题前后缀识别库中存储的网页URL信息映射的网页标题以及词频-逆文档词频计算策略, 计算该每一组合的网页子标题的TFIDF值,并在每一组合的网页子标题都非前后缀的情况 下,执行对所述每一网页子标题的词频-逆文档词频值的计算。
[0121] 本步骤中,组合网页子标题的方式可以为,例如,网页标题经过拆分后,依序得到 三个网页子标题,分别为A、B、C,则进行组合后,得到两个组合的网页子标题,分别为AB、 BC,先对AB进行前后缀判断,如果AB为前后缀,则将C作为截短的网页标题;如果AB不为 前后缀,则对BC进行前后缀判断,如果BC为前后缀,则将A作为截短的网页标题;如果BC 不为前后缀,则再对A、B、C分别进行前后缀判断。
[0122] 本发明实施例中,计算网页子标题的词频-逆文档词频值的公式可以如下:
[0123]
[0124] 式中,
[0125] TF是网页子标题的词频;
[0126] IDF是网页子标题的逆文档词频;
[0127] η'是网页子标题在样本集中出现的次数;
[0128] η是样本集中各网页子标题的总数量;
[0129] D是样本集中包含网页子标题的总文档数;
[0130] D'是样本集中包含的总文档数;
[0131] +1是平滑处理。
[0132] 所应说明的是,计算组合的网页子标题的词频-逆文档词频值的方法与计算网页 子标题的词频-逆文档词频值的方法相类似,在此略去详述。
[0133] E13,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值,如果是, 确定该每一网页子标题为前后缀,将该前后缀从网页标题中滤除,并将滤除前后缀的网页 标题作为截短的网页标题。
[0134] 本步骤中,如果步骤E12计算得到的网页子标题的词频-逆文档词频值大于预先 设置的前后缀阈值,则表明该网页子标题(整体)为前后缀,并将该网页子标题删除。
[0135] 进一步地,由于各网站编辑编写的网页标题都会有自己的风格或者模板,因而,实 际应用中,在进行上述前后缀判断,即执行步骤E13后,再对截短的网页标题中包含的各网 页子标题进行前后缀滤除,可以进一步提高输出的截短的网页标题的有效性,因而,该方法 还可以进一步包括:
[0136] E14,根据待截短网页URL信息,从网页标题前后缀识别库中存储的网页URL信息 映射的网页标题,提取出该待截短网页URL信息映射的网页标题;
[0137] E15,结合提取出的网页标题,针对截短的网页标题对应的每一网页子标题,利 用网页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该网页子标题的词 频-逆文档词频值;
[0138] 本步骤中,针对滤除前后缀的每一网页子标题,结合从网页标题前后缀识别库中 提取的网页标题所属的网站的各网页标题,计算该滤除前后缀的每一网页子标题的TFIDF 值。
[0139] E16,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值,如果是, 确定该每一网页子标题为前后缀,将该前后缀从截短的网页标题中滤除,并更新截短的网 页标题。
[0140] 本发明实施实例中,步骤E14至步骤E16为前述的利用网页标题前后缀识别库中 存储的网页标题前后缀列表和/或前后缀识别规则,对网页标题进行前后缀识别的具体流 程。
[0141] 本发明实施例中,步骤E14至步骤E16中,将所有网站信息的网页标题作为样本 库,然后,在样本库中对每一网页标题进行前后缀判断。
[0142] 作为另一可选实施例,也可以单独按照网站信息,先对网页标题进行分类,例如, 分类为搜狐、新浪、163、网易等,然后,再从网页标题前后缀识别库中提取该分类对应的网 页URL信息映射的网页标题,利用网页标题前后缀识别库中设置的词频-逆文档词频计算 策略进行词频-逆文档词频值计算,并进行前后缀的判断,从而达到去除前后缀的效果。这 样,相对于前述将所有网站信息的网页标题作为样本库的情形,本实施例将分类的网站信 息的网页标题作为样本库,然后,确定待截短网页URL信息所属的分类,并在分类的样本库 中,对该待截短网页URL信息对应网页标题进行前后缀判断。
[0143] 作为另一可选实施例,还可以将通过TFIDF方法挖掘得到的前后缀存储在网页标 题前后缀库中,并在后续的流程中,首先对网页标题进行拆分后,通过网页标题前后缀库进 行前后缀初步匹配,过滤掉网页标题中与网页标题前后缀库相匹配的前后缀,然后,针对过 滤得到的网页标题,再通过TFIDF方法进行前后缀判断,并在判断出前后缀后,以增量的形 式将判断出的前后缀添加到预先存储的网页标题前后缀库中。
[0144] 如果网页标题匹配库包括网页白名单库、网页标题模板库和网页标题前后缀识别 库,则查询预先设置的网页标题匹配库,得到待截短网页统一资源定位符信息对应的匹配 规则,根据得到的匹配规则对所述待截短网页标题进行处理,获取截短的网页标题包括:
[0145] F11,查询网页白名单库,如果得到待截短网页统一资源定位符信息映射的网页标 题,并将得到的网页标题作为截短的网页标题,否则,执行步骤F12;
[0146] F12,提取待截短网页URL信息映射的网页标题的命名规则,将提取的命名规则匹 配预先设置的归类策略,得到所述待截短网页URL信息映射的网页标题所属的归类;
[0147] F13,查询网页标题模板库,如果获取到所述待截短网页URL信息映射的网页标题 所属的归类对应的正则规则,利用获取的正则规则对待截短网页URL信息映射的网页标题 进行正则处理,获取截短的网页标题,否则,执行步骤F14 ;
[0148] F14,获取待截短网页URL信息映射的网页标题,按照预先设置的拆分策略对获取 的网页标题进行拆分,得到一个或多个网页子标题;
[0149] F15,结合网页标题前后缀识别库中存储的网页URL信息映射的网页标题,针对每 一网页子标题,利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略,计算该 每一网页子标题的词频-逆文档词频值;
[0150] F16,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值,如果是, 确定该每一网页子标题为前后缀,将该前后缀从网页标题中滤除,并将滤
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1