一种抓取网页内容的方法及装置的制造方法_2

文档序号:9911228阅读:来源:国知局
生成网页内容请求发送至相应的web服务器,其中,上述网页信息可以为网址或者与网址相关的关键字;web服务器根据该网页内容请求,生成包含网页内容数据包的网页内容响应,并将该网页内容响应发送至客户端;客户端根据该网页内容数据包,通过浏览器向用户呈现相应的网页,并将该呈现的网页作为待抓取网页。
[0039]客户端接收到网页内容响应之后,获取该待抓取网页的URL;其中,该URL由上述网页内容响应承载。
[0040]步骤210:在抓取规则库中,获取待抓取网页的URL对应的抓取规则。
[0041 ]本发明实施例中,客户端根据上述待抓取网页的URL,在抓取规则库中进行查找;其中,抓取规则库为预先设置在本地的数据库,该抓取规则库中包含各个URL与抓取规则的对应关系。
[0042]可选的,上述抓取规则库根据对样本网页(如图3所示)对应的抓取规则进行训练生成;具体的,客户端获取样本网页的URL;建立样本网页对应的预设抓取规则与所述样本网页的URL之间的对应关系,将该对应关系存储至抓取规则库中。在抓取规则库中URL和抓取规则——对应。
[0043]进一步的,在客户端获取待抓取网页的URL的同时,客户端按照预设抓取规则获取样本网页中包含的样本内容,样本网页类型,并根据该样本网页中包含的样本内容,建立隐马尔科夫模型,并采用维比特算法,对该样本内容进行分词划分,将生成的每一个样本分词组中包含的指定词性的分词组均作为特征值;将所有特征值存储至与上述样本网页类型相对应的主题语义库中。在客户端中包含多个主题语义库,每一个主题语义库中包含一种网页类型的样本分词组,由于一个主题语义库中可能包含多个URL对应的样本网页中的样本分词组,因此,一个主题语义库可能对应多个抓取规则。其中,上述指定词性为分词或者动
Τ.κ| ο
[0044]步骤220:当无法获取到对应于待抓取网页的URL的抓取规则时,对待抓取网页中的内容进行分析,并对满足抓取条件的待抓取网页生成抓取规则。
[0045]本发明实施例中,当抓取规则库中不存在待抓取网页的URL时,客户端采用网络爬虫技术获取待抓取网页中包含的所有内容;根据该待抓取网页中包含的内容,建立隐马尔科夫模型,并采用维比特算法,对该待抓取网页中包含的内容进行分词划分,生成多个分词组。其中,在对待抓取网页中所包含的待划分字符串进行划分时,该待划分字符串是否为一个分词组仅与该待划分字符串之前的分词组相关,客户端根据该待划分字符串与该待划分字符串之前已划分分词组的关联性,确定建立的隐马尔科夫模型的阶数;具体的,由于本发明实施例中,上述待划分字符串是否为一个分词组的概率仅与该待划分字符串之前的上一个分词组相关,而与该上一个分词组之前的分词组无关,因此,客户端在本地建立一阶隐马尔科夫模型。
[0046]可选的,客户端对待抓取网页中包含的每一个句子进行分词划分,确定该句子对应的各种组合类型的初始分词组,每一种组合类型的初始分词组均能组成上述待抓取网页所包含的内容;针对每一种组合类型,客户端根据该种组合类型中包含的所有分词组,以及该任一组合类型对应的句子,基于贝叶斯公式,建立隐马尔科夫模型,并计算该种组合类型中包含的所有分词组相对于该组合类型所对应的句子的概率值;将所有组合类型中概率值最大的组合类型中包含的初始分词组,作为待抓取网页对应的分词组。
[0047]其中,待抓取网页中包含的任一句子对应的任一种组合类型中包含的所有分词组可以表示为X = Xl,X2,…,Xi,…,Xn,Xi表示一个分词组;上述任一句子可以表示为Y = yi,y2,…,yi,…,yn,yi表示一个字;贝叶斯公式可以表示为:
[0048]公式一
[0049]其中,为任一种组合类型相对于上述任一句子的概率值。
[0050]本发明实施例中,客户端采用上述方式确定待抓取网页所包含的每一个句子对应的概率值最大的组合类型,并将所有组合类型中包含的初始分词组确定为待抓取网页所对应的分词组。
[0051]可选的,客户端基于上述分词划分方式,获取待抓取网页对应的所有分词组,并确定每一个分词组的词性,在本地生成依存句法树,在生成的依存句法树中,ROOT代表待抓取网页中包含的所有内容,IP代表将上述所有内容进行划分后得到的简单从句,NP代表简单从句中包含的名词短语,VP代表简单从句中包含的动词短语,NR代表简单从句中包含的固有名词,VV代表短语中包含的动词,NN代表短语中包含的常用名词,VP代表短语中的副词短语或者形容词短语。
[0052]采用上述技术方案,根据该内容中包含的每相邻多个字组成一个词的概率,确定待抓取网页对应的分词组,由于基于概率分布的比较方式能够较为准确的确定字与字之间的关系,因此,基于隐马尔客户模型和维特比算法对待抓取网页中包含的内容进行分词划分,能够提高获取的分词组的准确性,进而保证后续对待抓取网页按照相应的抓取规则进行网页内容抓取的准确性。
[0053]进一步的,当计算得到的待抓取网页对应的所有分词组与任一主题语义库之间的相似度大于等于第一预设阈值时,对待抓取网页对应的抓取规则进行生成。具体的,客户端基于对上述待抓取网页对应的分词组,采用余弦定理,计算待抓取网页的所有分词组与每一个主题语义库中包含的所有特征值之间的相似度;当存在任一相似度大于等于第一预设阈值时,确定待抓取网页对应的抓取规则;并采用确定的抓取规则,抓取待抓取网页中的内容;并将待抓取网页对应的分词组中包含的指定词性的分词组保存至主题内容库中;其中,该第一预设阈值为根据具体应用场景预先设置的值;该指定词性为名词或者动词。
[0054]其中,针对待抓取网页对应的所有分词组与任一主题语义库之间的相似度比较,客户端根据任一主题语义库中每一个分词组的出现次数生成第一向量,以及根据待抓取网页对应的每一个分词组的出现次数生成第二向量,可以采用如下公式计算待抓取网页对应的所有分词组与任一主题语义库之间的相似度:
[0055]公式二
[0056]其中,为待抓取网页对应的所有分词组与任一主题语义库之间的相似度;A表示第一向量,且该第一向量的维数为η,Ai表示该η维向量中的一个元素,用于表示该任一主题语义库中每一个分词组的出现次数;B表示第二向量,且该第二向量的维数为!!,B1表示该η维向量中的一个元素,用于表示该待抓取网页对应的所有分词组中每一个分词组的出现次数。
[0057]例如,当任一主题语义库中每一个分词组出现的次数分别为:中国3,两国2,合作2,发展3……;待抓取网页对应的每一个分词组出现的次数分别为:互联网2,发展3,中国2,国际2,信息I……;则生成的第一向量为六=[3,2,2,3,1,-_],生成的第二向量8=[2,3,2,2,I,…],采用公式二计算第一向量和第二向量和之间的相似度,当越趋近于I,即表示第一向量和第二向量之间的相似度越高。
[0058]特殊的,当主题语义库中包含的不同分词组的数目小于待抓取网页对应的不同分词组的数目时,采用待抓取网页对应的分词组中存在,而主题语义库中不存在的分词组,对主题语义库中的分词组进行补齐,该补齐的分词组的出现次数为零,使主题语义库中包含的不同分词组的数目少于待抓取网页对应的不同分词组的数目相等;当主题语义库中包含的不同分词组的数目大于待抓取网页对应的不同分词组的数目时,采用主题语义库中存在的分词组,而待抓取网页对应的分词组中不存在的分词组,对待抓取网页对应的分词组进行补齐,该补齐的分词组的出现次数为零,使主题语义库中包含的不同分词组的数目少于待抓取网页对应的不同分词组的数目相等。
[0059]采用上述技术方案,分别基于主题语义库中包含的分词组和待抓取网页对应的分词组,生成相应的向量,采用余弦定理法则,能够准确获取两个向量之间的相似度,从而保证了获取的主题语义库和带抓取网页之间的相似度的准确性,进而保证了后续获取的待抓取网页对应的抓取规则的准确性。
[0060]可选的,当客户端判定存在任一相似度大于等于第一预设阈值时,获取待抓取网页对应的抓取规则的方法,包括:客户端获取待抓取网页对应的HTML (HyperText MarkupLanguage;超文本标记语言)文档,将该HTML文档去除js标签和head标签之后,将body标签中最高层级的分段标签作为根节点,将其他分段标签作为分节点,根据该HTML文档中各个分段标签及其对应层级,构建树状结构;由根节点开始,逐层遍历上述树状结构,采用余弦定理,依次计算每一个分节点对应的文本内容分别与相似度达到第一预设阈值的各个主题语义库之间的相似度,计算文本内容与相似度达到第一预设阈值的各个主题语义库之间的相似度,即为计算文本内容对应的
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1