基于超链分析的页面语义信息提取方法及系统的制作方法

文档序号：9489453阅读：319来源：国知局

基于超链分析的页面语义信息提取方法及系统的制作方法
【技术领域】
[0001]本发明关于一种页面语义信息提取方法及系统，特别是涉及一种基于超链分析的页面语义信息提取方法及系统。
【背景技术】
[0002] 目前，当需要分析一个垂直行业网站的url(UniformResoureLocator，统一资源定位器）和页面语义的对应关系的时候，往往需要爬虫去抓取该站点下面的所有页面，这样往往需要耗费大量的时间和资源，同时有被网站封禁的风险。

【发明内容】

[0003] 为克服上述现有技术存在的不足，本发明之目的在于提供一种基于超链分析的页面语义信息提取方法及系统，其通过爬虫按照一定层次爬取页面的超链，以很小的成本和时间来实现对网站层次数据信息的获取，同时通过利用网页语义信息和url模板一一对应的算法来实现对网站信息的理解，从而实现给定一个url就能知道该url所代表的页面信息和层次信息的目的。
[0004] 为达上述及其它目的，本发明提出一种基于超链分析的页面语义信息提取方法，包括如下步骤：步骤一，从某一网站的首页开始，逐层抓取当前层下面的所有超链信息；步骤二，对步骤一的抓取结果进行统计学习匹配，对每层获取的超链信息中的锚文本和超链接分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度。
[0005]进一步地，步骤一进一步包括：步骤1. 1，从该网站的首页开始，抓取首页下面的所有超链；步骤1. 2,对首页或者上一层抓取下来的每一个超链接，抓取该超链接下面所有的超链，对每一个超链，记录超链的前链信息和它本身的信息；步骤1. 3,持续步骤1. 2抓取到某一层次，以获得大量的锚文本和超链接的对应关系信息。
[0006] 进一步地，步骤二进一步包括：步骤2. 1，对每一个锚文本进行中文切词，记作W数组，其中的子项记为w; 步骤2. 2,将每一行的超链接按照一定的分隔符切分，记作U数组，其中的子项记住u; 步骤2. 3,将抓取下来的所有数据的行数记作N，对W中每一项和U中每一项，都表示成一个N维的向量，并进行赋值；步骤2. 4,计算每一行数据中，U中每一个u到对应的W中每一个w的余弦距离，获得相似度。
[0007]进一步地，于步骤2. 4之后，还包括：步骤2. 5,对每一个u，如果它在N行中的Μ行出现，则需对它对应的每一个w的值进行加权处理。
[0008] 进一步地，于步骤2. 3中，向量赋值方法如下：如果W中的w在第m行出现，则w向量第m位为1，向量其余位都为0。
[0009] 进一步地，两个η维样本点w(xll,xl2,…，xln)和u(x21,x22,…，x2n)的夹角余弦为：
其中，count(w，u)是w，u共同出现的次数。
[0011] 为达到上述目的，本发明还提供一种基于超链分析的页面语义信息提取系统，包括：超链信息抓取模块，用于从网站首页开始，逐层抓取当前层下的所有超链信息；统计学习匹配模块，用于对该超链信息抓取模块抓取的超链信息进行统计学习匹配，对该超链信息抓取模块从每层网页获取的超链信息中的锚文本和超链接分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度。
[0012] 进一步地，该超链信息抓取模块包括：首页抓取模块，用于抓取网站首页下面的所有超链；超链接抓取模块，对首页或者上一层抓取下来的每一个超链接，抓取该超链接下面所有的超链，对每一个超链，记录超链的前链信息和它本身的信息。
[0013] 进一步地，该统计学习匹配模块包括：锚文本切分模块，用于对每一个锚文本进行中文切词，记作W数组，其中的子项记为w; 超链接切分模块，用于将每一行的超链接按照一定的分隔符切分，记作U数组，其中的子项记为u; 向量构成模块，将抓取下来的所有数据的行数记作N，对W中每一项和U中每一项，都表示成一个N维的向量；相似度计算模块，用于计算每一行数据中，U中每一个u到对应的W中每一个w的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度。
[0014] 与现有技术相比，本发明一种基于超链分析的页面语义信息提取方法及系统，其通过爬虫按照一定层次爬取页面的超链，以很小的成本和时间来实现对网站层次数据信息的获取，同时通过利用网页语义信息和url模板一一对应的算法来实现对网站信息的理解，从而实现给定一个url就能知道该url所代表的页面信息和层次信息的目的。
[0015]
【附图说明】
[0016] 图1为本发明一种基于超链分析的页面语义信息提取方法的步骤流程图；图2为本发明一种基于超链分析的页面语义信息提取系统的系统架构图。
[0017]
【具体实施方式】
[0018] 以下通过特定的具体实例并结合【附图说明】本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。
[0019] 在本发明中，考虑到垂直行业网站往往是按照一定的层次结构去组织他们的网站，例如，一个游戏网站往往会按照游戏大类组织第一层(例如单机游戏，电视游戏，网络游戏，手机游戏等)，再按照具体游戏类型(例如角色扮演，第一人称射击，体育竞技等）组织第二层等等。同时，为了方便浏览，在各个层次之间网站会通过超链的方式帮助用户进行导航。
[0020] 因此，可以仅仅抓取部分页面和他们的超链，即可知道该网站的大部分页面信息。注意，在本发明中，如果不特别说明，超链指超链对应的文本和链接，本发明利用anchor(锚文本）表示超链的文本信息，用url表示超链对应的链接。
[0021] 图1为本发明一种基于超链分析的页面语义信息提取方法的步骤流程图。如图1 所示，本发明一种基于超链分析的页面语义信息提取方法，包括如下步骤：步骤101，从某一网站的首页开始，逐层抓取当前层下面的所有超链信息。
[0022] 具体地说，步骤101进一步包括如下步骤： 1) 首先从该网站的首页开始，抓取首页下面的所有超链，对每一个超链记录成如下形式：首页Tab首页UrlTabAnchorTabUrl。（其中，Tab是分割符号） 2) 对首页或者上一层抓取下来的每一个url，抓取该url下面所有的超链。对每一个超链，记录超链的前链信息和它本身的信息，记录如下：前链AnchorTab前链UrlTabAnchorTabUrl 3) 持续步骤2)这样的抓取到一定层次(往往5层左右即可，但不以此为限)，这样就得到大量的Anchor和Url的对应关系信息。
[0023] 步骤102,对步骤101的结果进行统计学习匹配，对每层获取的超链信息中的 Anchor(锚文本）和Url(超链接）分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度。
[0024] 具体地，步骤102进一步包括如下步骤： 1)对每一个anchor进行中文切词。记作W数组，其中的子项记为W。
[0025] 2)将每一行的url按照一定的分隔符切分，记作U数组，其中的子项记为u。这样对于抓取下来的数据中的每一行，都有W和U的对应。
[0026] 3)将抓取下来的所有数据的行数记作N，对W中每一项和U中每一项，.都可以表示成一个N维的向量，向量赋值方法如下：如果W中的w在第m行出现，则w向量第m位为1，向量其余位都为0。
[0027] 4)计算每一行数据中，U中每一个u到对应的W中每一个w的cosine(余弦）距离(称之为相似度)，cosine距离公式如下：在二维空间中向量A(xl,yl)与向量B(x2,y2)的夹角余弦公式：
根据上面的二维空间扩展到η维空间，可以得到两个η维样本点w(xll,xl2,…，xln)和11(121，122，*"，12]1)的夹角余弦
5)对每一个u，如果它在N行中的Μ行出现，那么需要对它对应的每一个w的值进行加权处理，处理方法如下：
其中，count(w，u)是w，u共同出现的次数。
[0028] 图2为本发明一种基于超链分析的页面语义信息提取系统的系统架构图。如图2 所示，本发明一种基于超链分析的页面语义信息提取系统，包括：超链信息抓取模块20以及统计学习匹配模块21。
[0029] 超链信息抓取模块20用于从网站首页开始，逐层抓取当前层下的所有超链信息。超链信息抓取模块20包括首页抓取模块201以及超链接抓取模块202,首页抓取模块201 用于抓取网站首页下面的所有超链，对每一个超链记录成如下形式：首页Tab首页UrlTabAnchorTabUrl。（其中，Tab是分割符号）超链接抓取模块202对首页或者上一层抓取下来的每一个url，抓取该url下面所有的超链。对每一个超链，记录超链的前链信息和它本身的信息，记录如下：前链AnchorTab前链UrlTabAnchorTabUrl 当超链接抓取模块202抓取到一定层次(往往5层左右即可，但不以此为限)，就得到大量的Anchor和Url的对应关系信息。
[0030] 统计学习匹配模块21用于对超链信息抓取模块20抓取的超链信息进行统计学习匹配，对超链信息抓取模块20从每层网页获取的超链信息中的Anchor(锚文本)和Url(超链接）分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度。
[0031] 具体地，统计学习匹配模块21包括：锚文本切分模块210、超链接切分模块211、向量构成模块212以及相似度计算模块213,其中，锚文本切分模块210用于对每一个anchor 进行中文切词，记作W数组，其中的子项记为w;超链接切分模块211用于将每一行的url按照一定的分隔符切分，记作U数组，其中的子项记为u，这样对于抓取下来的数据中的每一行，都有W和U的对应；向量构成模块212将抓取下来的所有数据的行数记作N，对W中每一项和U中每一项，都可以表不成一个N维的向量，向量赋值方法如下：如果W中的w在第m行出现，则w向量第m位为1，向量其余位都为0。
[0032] 相似度计算模块213用于计算每一行数据中，U中每一个u到对应的W中每一个 w的cosine(余弦)距离(称之为相似度)，根据相似度获得锚文本与超链接的切分结果的匹配度。该cosine距离公式如下：在二维空间中向量A(xl,yl)与向量B(x2,y2)的夹角余弦公式：
根据上面的二维空间扩展到η维空间，可以得到两个η维样本点w(xll,xl2, ···，xln)和11(121，122，*"，12]1)的夹角余弦
较佳的，相似度计算模块213,对每一个u，如果它在N行中的Μ行出现，那么需要对它对应的每一个w的值进行加权处理，方法为
其中，count(w，u)是w，u共同出现的次数。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤奇峰;吴军;
技术所有人：晶赞广告（上海）有限公司;
我是此专利的发明人

上一篇：基于互联网的事件发生时间采集方法
上一篇：一种独占文件的获取方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。