获取截短的网页标题的方法及装置的制造方法_3

文档序号：9375563阅读：来源：国知局

0087]
[0088] 式中，
[0089] TF为词频权重；
[0090] Pw为词(字词）W出现在文档库中的次数；
[0091] P为文档库长度，即包含的字词总数量。
[0092] TDF的奴重i+笪公式为：
[0093]
[0094] 式中，
[0095] IDF为逆文档词频权重；
[0096] Dw为样本(文档库、文件集或语料库）中含有字词w的个体(文档）总数；
[0097] D为样本总数，即总文档数。
[0098] 如果IDF值越小，表示样本中越多的文档包含有该字词，该字词包含的信息量越少；如果IDF值越大，表示样本中只有越少的文档包含有该字词，该字词包含的信息量越大。
[0099] 结合词频及逆文档词频，可以得到词频-逆文档词频：
[0100]
[0101] 式中，Weightw为字词W的TF-IDF权重。
[0102] 如果TF-IDF权重值越大，表示该字词的指示性越好。
[0103] 下面对获取截短的网页标题再进行详细描述。
[0104] 本发明实施例中，如果网页标题匹配库包括网页白名单库，则查询预先设置的网页标题匹配库，得到待截短网页统一资源定位符信息对应的匹配规则，根据得到的匹配规则对所述待截短网页标题进行处理，获取截短的网页标题包括：
[0105] 查询网页白名单库，得到待截短网页统一资源定位符信息映射的网页标题，并将得到的网页标题作为截短的网页标题。
[0106] 本步骤中，对于网页白名单库中没有存储待截短网页统一资源定位符信息的情形，可以按照现有技术对网页标题进行截短处理，在此不再赘述。
[0107] 如果网页标题匹配库包括网页标题模板库，则查询预先设置的网页标题匹配库，得到待截短网页统一资源定位符信息对应的匹配规则，根据得到的匹配规则对所述待截短网页标题进行处理，获取截短的网页标题包括：
[0108] D11，提取待截短网页URL信息映射的网页标题的命名规则，将提取的命名规则匹配预先设置的归类策略，得到所述待截短网页URL信息映射的网页标题所属的归类；
[0109] 本步骤中，可以通过分析网页标题的命名规则，区分该网页标题所属的归类。关于对网页标题进行归类为公知技术，在此略去详述。
[0110] 作为可选实施例，如果网页URL信息映射的网页标题无效，即网页标题完全不能反应网页内容，例如为空，即不包含任何内容或仅包含符号，则可以返回该网页URL信息的域名作为截短的网页标题。
[0111] D12,查询网页标题模板库，获取所述待截短网页URL信息映射的网页标题所属的归类对应的正则规则；
[0112] 本步骤中，如果对待截短网页URL信息映射的网页标题进行归类后，所属的归类为社交类网页标题，则从网页标题模板库中，读取为社交类网页标题设置的正则规则。
[0113] D13,利用获取的正则规则对待截短网页URL信息映射的网页标题进行正则处理，获取截短的网页标题。
[0114] 如果网页标题匹配库包括网页标题前后缀识别库，则查询预先设置的网页标题匹配库，得到待截短网页统一资源定位符信息对应的匹配规则，根据得到的匹配规则对所述待截短网页标题进行处理，获取截短的网页标题包括：
[0115] E11，获取待截短网页URL信息映射的网页标题，按照预先设置的拆分策略对获取的网页标题进行拆分，得到一个或多个网页子标题；
[0116] 本步骤中，由于在对网页标题进行收藏时，网页标题的各组成部分具有一定的特点，例如，一般包含有前缀(或修饰性词语)、标题正文、一个或多个后缀，而通过对网页标题各组成部分的估计分析，可以通过一些特定的标点符号进行区分；再者，对于标题正文，是对用户有用的信息，可以作为整体向用户提供。
[0117] 由此，本发明实施例中，拆分策略可以是按照网页标题中包含的预先设置的标点符号进行拆分。例如，预先设置的标点符号可以是_、-、一、+、&、#、……、：、.、，、|、：、 I、Il、；、，、。、、、8、一、一、？等。如果网页标题中包含有上述任一预先设置的符号，则将该网页标题从该符号处拆分。
[0118] E12,结合网页标题前后缀识别库中存储的网页URL信息映射的网页标题，针对每一网页子标题，利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略，计算该每一网页子标题的词频-逆文档词频值；
[0119] 本步骤中，作为可选实施例，还可以在对网页子标题进行词频-逆文档词频值计算之前，该方法进一步包括：
[0120] 对得到的多个网页子标题进行组合，并针对每一组合的网页子标题，结合网页标题前后缀识别库中存储的网页URL信息映射的网页标题以及词频-逆文档词频计算策略，计算该每一组合的网页子标题的TFIDF值，并在每一组合的网页子标题都非前后缀的情况下，执行对所述每一网页子标题的词频-逆文档词频值的计算。
[0121] 本步骤中，组合网页子标题的方式可以为，例如，网页标题经过拆分后，依序得到三个网页子标题，分别为A、B、C，则进行组合后，得到两个组合的网页子标题，分别为AB、 BC，先对AB进行前后缀判断，如果AB为前后缀，则将C作为截短的网页标题；如果AB不为前后缀，则对BC进行前后缀判断，如果BC为前后缀，则将A作为截短的网页标题；如果BC 不为前后缀，则再对A、B、C分别进行前后缀判断。
[0122] 本发明实施例中，计算网页子标题的词频-逆文档词频值的公式可以如下：
[0123]
[0124] 式中，
[0125] TF是网页子标题的词频；
[0126] IDF是网页子标题的逆文档词频；
[0127] η'是网页子标题在样本集中出现的次数；
[0128] η是样本集中各网页子标题的总数量；
[0129] D是样本集中包含网页子标题的总文档数；
[0130] D'是样本集中包含的总文档数；
[0131] +1是平滑处理。
[0132] 所应说明的是，计算组合的网页子标题的词频-逆文档词频值的方法与计算网页子标题的词频-逆文档词频值的方法相类似，在此略去详述。
[0133] E13,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值，如果是，确定该每一网页子标题为前后缀，将该前后缀从网页标题中滤除，并将滤除前后缀的网页标题作为截短的网页标题。
[0134] 本步骤中，如果步骤E12计算得到的网页子标题的词频-逆文档词频值大于预先设置的前后缀阈值，则表明该网页子标题(整体）为前后缀，并将该网页子标题删除。
[0135] 进一步地，由于各网站编辑编写的网页标题都会有自己的风格或者模板，因而，实际应用中，在进行上述前后缀判断，即执行步骤E13后，再对截短的网页标题中包含的各网页子标题进行前后缀滤除，可以进一步提高输出的截短的网页标题的有效性，因而，该方法还可以进一步包括：
[0136] E14,根据待截短网页URL信息，从网页标题前后缀识别库中存储的网页URL信息映射的网页标题，提取出该待截短网页URL信息映射的网页标题；
[0137] E15,结合提取出的网页标题，针对截短的网页标题对应的每一网页子标题，利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略，计算该网页子标题的词频-逆文档词频值；
[0138] 本步骤中，针对滤除前后缀的每一网页子标题，结合从网页标题前后缀识别库中提取的网页标题所属的网站的各网页标题，计算该滤除前后缀的每一网页子标题的TFIDF 值。
[0139] E16,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值，如果是，确定该每一网页子标题为前后缀，将该前后缀从截短的网页标题中滤除，并更新截短的网页标题。
[0140] 本发明实施实例中，步骤E14至步骤E16为前述的利用网页标题前后缀识别库中存储的网页标题前后缀列表和/或前后缀识别规则，对网页标题进行前后缀识别的具体流程。
[0141] 本发明实施例中，步骤E14至步骤E16中，将所有网站信息的网页标题作为样本库，然后，在样本库中对每一网页标题进行前后缀判断。
[0142] 作为另一可选实施例，也可以单独按照网站信息，先对网页标题进行分类，例如，分类为搜狐、新浪、163、网易等，然后，再从网页标题前后缀识别库中提取该分类对应的网页URL信息映射的网页标题，利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略进行词频-逆文档词频值计算，并进行前后缀的判断，从而达到去除前后缀的效果。这样，相对于前述将所有网站信息的网页标题作为样本库的情形，本实施例将分类的网站信息的网页标题作为样本库，然后，确定待截短网页URL信息所属的分类，并在分类的样本库中，对该待截短网页URL信息对应网页标题进行前后缀判断。
[0143] 作为另一可选实施例，还可以将通过TFIDF方法挖掘得到的前后缀存储在网页标题前后缀库中，并在后续的流程中，首先对网页标题进行拆分后，通过网页标题前后缀库进行前后缀初步匹配，过滤掉网页标题中与网页标题前后缀库相匹配的前后缀，然后，针对过滤得到的网页标题，再通过TFIDF方法进行前后缀判断，并在判断出前后缀后，以增量的形式将判断出的前后缀添加到预先存储的网页标题前后缀库中。
[0144] 如果网页标题匹配库包括网页白名单库、网页标题模板库和网页标题前后缀识别库，则查询预先设置的网页标题匹配库，得到待截短网页统一资源定位符信息对应的匹配规则，根据得到的匹配规则对所述待截短网页标题进行处理，获取截短的网页标题包括：
[0145] F11，查询网页白名单库，如果得到待截短网页统一资源定位符信息映射的网页标题，并将得到的网页标题作为截短的网页标题，否则，执行步骤F12;
[0146] F12,提取待截短网页URL信息映射的网页标题的命名规则，将提取的命名规则匹配预先设置的归类策略，得到所述待截短网页URL信息映射的网页标题所属的归类；
[0147] F13,查询网页标题模板库，如果获取到所述待截短网页URL信息映射的网页标题所属的归类对应的正则规则，利用获取的正则规则对待截短网页URL信息映射的网页标题进行正则处理，获取截短的网页标题，否则，执行步骤F14 ;
[0148] F14,获取待截短网页URL信息映射的网页标题，按照预先设置的拆分策略对获取的网页标题进行拆分，得到一个或多个网页子标题；
[0149] F15,结合网页标题前后缀识别库中存储的网页URL信息映射的网页标题，针对每一网页子标题，利用网页标题前后缀识别库中设置的词频-逆文档词频计算策略，计算该每一网页子标题的词频-逆文档词频值；
[0150] F16,判断计算的词频-逆文档词频值是否大于预先设置的前后缀阈值，如果是，确定该每一网页子标题为前后缀，将该前后缀从网页标题中滤除，并将滤

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6