基于超链分析的页面语义信息提取方法及系统的制作方法

文档序号:9489453阅读:319来源:国知局
基于超链分析的页面语义信息提取方法及系统的制作方法
【技术领域】
[0001]本发明关于一种页面语义信息提取方法及系统,特别是涉及一种基于超链分析的 页面语义信息提取方法及系统。
【背景技术】
[0002] 目前,当需要分析一个垂直行业网站的url(UniformResoureLocator,统一资源 定位器)和页面语义的对应关系的时候,往往需要爬虫去抓取该站点下面的所有页面,这样 往往需要耗费大量的时间和资源,同时有被网站封禁的风险。

【发明内容】

[0003] 为克服上述现有技术存在的不足,本发明之目的在于提供一种基于超链分析的页 面语义信息提取方法及系统,其通过爬虫按照一定层次爬取页面的超链,以很小的成本和 时间来实现对网站层次数据信息的获取,同时通过利用网页语义信息和url模板一一对应 的算法来实现对网站信息的理解,从而实现给定一个url就能知道该url所代表的页面信 息和层次信息的目的。
[0004] 为达上述及其它目的,本发明提出一种基于超链分析的页面语义信息提取方法, 包括如下步骤: 步骤一,从某一网站的首页开始,逐层抓取当前层下面的所有超链信息; 步骤二,对步骤一的抓取结果进行统计学习匹配,对每层获取的超链信息中的锚文本 和超链接分别进行切分,计算锚文本与超链接的切分结果之间的相似度,根据相似度获得 锚文本与超链接的切分结果的匹配度。
[0005]进一步地,步骤一进一步包括: 步骤1. 1,从该网站的首页开始,抓取首页下面的所有超链; 步骤1. 2,对首页或者上一层抓取下来的每一个超链接,抓取该超链接下面所有的超 链,对每一个超链,记录超链的前链信息和它本身的信息; 步骤1. 3,持续步骤1. 2抓取到某一层次,以获得大量的锚文本和超链接的对应关系信 息。
[0006] 进一步地,步骤二进一步包括: 步骤2. 1,对每一个锚文本进行中文切词,记作W数组,其中的子项记为w; 步骤2. 2,将每一行的超链接按照一定的分隔符切分,记作U数组,其中的子项记住u; 步骤2. 3,将抓取下来的所有数据的行数记作N,对W中每一项和U中每一项,都表示成 一个N维的向量,并进行赋值; 步骤2. 4,计算每一行数据中,U中每一个u到对应的W中每一个w的余弦距离,获得相 似度。
[0007]进一步地,于步骤2. 4之后,还包括: 步骤2. 5,对每一个u,如果它在N行中的Μ行出现,则需对它对应的每一个w的值进行 加权处理。
[0008] 进一步地,于步骤2. 3中,向量赋值方法如下: 如果W中的w在第m行出现,则w向量第m位为1,向量其余位都为0。
[0009] 进一步地,两个η维样本点w(xll,xl2,…,xln)和u(x21,x22,…,x2n)的夹角余 弦为:
其中,count(w,u)是w,u共同出现的次数。
[0011] 为达到上述目的,本发明还提供一种基于超链分析的页面语义信息提取系统,包 括: 超链信息抓取模块,用于从网站首页开始,逐层抓取当前层下的所有超链信息; 统计学习匹配模块,用于对该超链信息抓取模块抓取的超链信息进行统计学习匹配, 对该超链信息抓取模块从每层网页获取的超链信息中的锚文本和超链接分别进行切分,计 算锚文本与超链接的切分结果之间的相似度,根据相似度获得锚文本与超链接的切分结果 的匹配度。
[0012] 进一步地,该超链信息抓取模块包括: 首页抓取模块,用于抓取网站首页下面的所有超链; 超链接抓取模块,对首页或者上一层抓取下来的每一个超链接,抓取该超链接下面所 有的超链,对每一个超链,记录超链的前链信息和它本身的信息。
[0013] 进一步地,该统计学习匹配模块包括: 锚文本切分模块,用于对每一个锚文本进行中文切词,记作W数组,其中的子项记为w; 超链接切分模块,用于将每一行的超链接按照一定的分隔符切分,记作U数组,其中的 子项记为u; 向量构成模块,将抓取下来的所有数据的行数记作N,对W中每一项和U中每一项,都表 示成一个N维的向量; 相似度计算模块,用于计算每一行数据中,U中每一个u到对应的W中每一个w的相似 度,根据相似度获得锚文本与超链接的切分结果的匹配度。
[0014] 与现有技术相比,本发明一种基于超链分析的页面语义信息提取方法及系统,其 通过爬虫按照一定层次爬取页面的超链,以很小的成本和时间来实现对网站层次数据信 息的获取,同时通过利用网页语义信息和url模板一一对应的算法来实现对网站信息的理 解,从而实现给定一个url就能知道该url所代表的页面信息和层次信息的目的。
[0015]
【附图说明】
[0016] 图1为本发明一种基于超链分析的页面语义信息提取方法的步骤流程图; 图2为本发明一种基于超链分析的页面语义信息提取系统的系统架构图。
[0017]
【具体实施方式】
[0018] 以下通过特定的具体实例并结合【附图说明】本发明的实施方式,本领域技术人员可 由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同 的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离 本发明的精神下进行各种修饰与变更。
[0019] 在本发明中,考虑到垂直行业网站往往是按照一定的层次结构去组织他们的网 站,例如,一个游戏网站往往会按照游戏大类组织第一层(例如单机游戏,电视游戏,网络游 戏,手机游戏等),再按照具体游戏类型(例如角色扮演,第一人称射击,体育竞技等)组织第 二层等等。同时,为了方便浏览,在各个层次之间网站会通过超链的方式帮助用户进行导 航。
[0020] 因此,可以仅仅抓取部分页面和他们的超链,即可知道该网站的大部分页面信息。 注意,在本发明中,如果不特别说明,超链指超链对应的文本和链接,本发明利用anchor(锚 文本)表示超链的文本信息,用url表示超链对应的链接。
[0021] 图1为本发明一种基于超链分析的页面语义信息提取方法的步骤流程图。如图1 所示,本发明一种基于超链分析的页面语义信息提取方法,包括如下步骤: 步骤101,从某一网站的首页开始,逐层抓取当前层下面的所有超链信息。
[0022] 具体地说,步骤101进一步包括如下步骤: 1) 首先从该网站的首页开始,抓取首页下面的所有超链,对每一个超链记录成如下形 式: 首页Tab首页UrlTabAnchorTabUrl。(其中,Tab是分割符号) 2) 对首页或者上一层抓取下来的每一个url,抓取该url下面所有的超链。对每一个 超链,记录超链的前链信息和它本身的信息,记录如下: 前链AnchorTab前链UrlTabAnchorTabUrl 3) 持续步骤2)这样的抓取到一定层次(往往5层左右即可,但不以此为限),这样就得 到大量的Anchor和Url的对应关系信息。
[0023] 步骤102,对步骤101的结果进行统计学习匹配,对每层获取的超链信息中的 Anchor(锚文本)和Url(超链接)分别进行切分,计算锚文本与超链接的切分结果之间的 相似度,根据相似度获得锚文本与超链接的切分结果的匹配度。
[0024] 具体地,步骤102进一步包括如下步骤: 1)对每一个anchor进行中文切词。记作W数组,其中的子项记为W。
[0025] 2)将每一行的url按照一定的分隔符切分,记作U数组,其中的 子项记为u。这样对于抓取下来的数据中的每一行,都有W和U的对应。
[0026] 3)将抓取下来的所有数据的行数记作N,对W中每一项和U中每一项,.都可以表 示成一个N维的向量,向量赋值方法如下: 如果W中的w在第m行出现,则w向量第m位为1,向量其余位都为0。
[0027] 4)计算每一行数据中,U中每一个u到对应的W中每一个w的cosine(余弦)距 离(称之为相似度),cosine距离公式如下: 在二维空间中向量A(xl,yl)与向量B(x2,y2)的夹角余弦公式:
根据上面的二维空间扩展到η维空间,可以得到两个η维样本点w(xll,xl2,…,xln)和11(121,122,*",12]1)的夹角余弦
5)对每一个u,如果它在N行中的Μ行出现,那么需要对它对应的每一个w的值进行加 权处理,处理方法如下:
其中,count(w,u)是w,u共同出现的次数。
[0028] 图2为本发明一种基于超链分析的页面语义信息提取系统的系统架构图。如图2 所示,本发明一种基于超链分析的页面语义信息提取系统,包括:超链信息抓取模块20以 及统计学习匹配模块21。
[0029] 超链信息抓取模块20用于从网站首页开始,逐层抓取当前层下的所有超链信息。 超链信息抓取模块20包括首页抓取模块201以及超链接抓取模块202,首页抓取模块201 用于抓取网站首页下面的所有超链,对每一个超链记录成如下形式: 首页Tab首页UrlTabAnchorTabUrl。(其中,Tab是分割符号) 超链接抓取模块202对首页或者上一层抓取下来的每一个url,抓取该url下面所有的 超链。对每一个超链,记录超链的前链信息和它本身的信息,记录如下: 前链AnchorTab前链UrlTabAnchorTabUrl 当超链接抓取模块202抓取到一定层次(往往5层左右即可,但不以此为限),就得到大 量的Anchor和Url的对应关系信息。
[0030] 统计学习匹配模块21用于对超链信息抓取模块20抓取的超链信息进行统计学习 匹配,对超链信息抓取模块20从每层网页获取的超链信息中的Anchor(锚文本)和Url(超 链接)分别进行切分,计算锚文本与超链接的切分结果之间的相似度,根据相似度获得锚文 本与超链接的切分结果的匹配度。
[0031] 具体地,统计学习匹配模块21包括:锚文本切分模块210、超链接切分模块211、向 量构成模块212以及相似度计算模块213,其中,锚文本切分模块210用于对每一个anchor 进行中文切词,记作W数组,其中的子项记为w;超链接切分模块211用于将每一行的url按 照一定的分隔符切分,记作U数组,其中的子项记为u,这样对于抓取下来 的数据中的每一行,都有W和U的对应;向量构成模块212将抓取下来的所有数据的行数记 作N,对W中每一项和U中每一项,都可以表不成一个N维的向量,向量赋值方法如下: 如果W中的w在第m行出现,则w向量第m位为1,向量其余位都为0。
[0032] 相似度计算模块213用于计算每一行数据中,U中每一个u到对应的W中每一个 w的cosine(余弦)距离(称之为相似度),根据相似度获得锚文本与超链接的切分结果的匹 配度。该cosine距离公式如下: 在二维空间中向量A(xl,yl)与向量B(x2,y2)的夹角余弦公式:
根据上面的二维空间扩展到η维空间,可以得到两个η维样本点w(xll,xl2, ···,xln)和11(121,122,*",12]1)的夹角余弦
较佳的,相似度计算模块213,对每一个u,如果它在N行中的Μ行出现,那么需要对它 对应的每一个w的值进行加权处理,方法为
其中,count(w,u)是w,u共同出现的次数。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1