一种划分网页语义模块的方法

文档序号:6548578阅读:188来源:国知局
一种划分网页语义模块的方法
【专利摘要】本发明公开了一种划分网页语义模块的方法,在划分语义模块时,估算所应达到的最深节点,由该层节点自下而上,根据相似度计算逐层推算出语义模块的顶层节点集合。本发明漏删和误删率较低;处理速度快,不但不影响网页显示速度,有些情况下还可以提高网页显示速度;所需系统资源少,可广泛应用于各种系统包括对硬件成本很敏感的移动设备和路由器等平台。
【专利说明】一种划分网页语义模块的方法
【技术领域】
[0001]本发明涉及一种划分网页语义模块的方法,通过计算权重的方式确定敏感词所在上级节点,自下而上通过相似性等方法迭代扩展节点集合,实现网页语义模块的划分,从而屏蔽敏感信息。
【背景技术】
[0002]目前,互联网是的广告和不良信息越来越多,渗透到绝大部分网站,对成人来说尚能接受,但对于未成年却有极大的负面作用,有必要进行屏蔽。
[0003]目前的不良信息过滤软件主要针是对整个网页或网站,通过检索不良网站的URL数据库辨认要访问的url是否允许访问以及检测网页中是否含有不良的词语或图片,对网页进行屏蔽,代表软件有IE的“内容审查程序”、“绿坝-花季护航”、“展翅鸟家长控制软件”(原名“网络爸爸绿色上网管家”等专业的不良信息过滤软件都采用这种的方法。然而不良信息以各种形式存在,如游戏广告,通常以动画或图片的形式嵌入在普通网页中,很难识别。一些负面的新闻或桃色新闻经常混杂在各大门户网站的普通新闻中,一些大型论坛如天涯社区中也有大量的情色帖子,甚至百度贴吧中也有很多色情信息,而这些网站是主要的新闻和知识的来源(公开课、问题解答等),对整个网站或网页进行屏蔽的方法用在这些网站上就会得不偿失了,需要外科手术式的方法剔除不良信息,否则会造成因噎废食的后果。
[0004]外科手术式的方法在广告屏蔽软件中被普遍采用。以“AdMuncher”、“ADSafe”、"ADBlock plus”、“保护伞”为代表的广告屏蔽软件通过预先制定的规则识别网页中的广告,对其进行屏蔽,效果良好。但是它们无法被用来过滤不良信息,原因是目前没有制订针对不良信息的过滤规则。广告的位置特征(弹出窗口、在网页左右侧)、URL特征(百度网盟推广、谷歌Adwords推广)都比较明显,而不良信息的位置、ulr特征都不明显,比如门户网站里随时可能有强奸、露点的新闻或新闻链接,论坛里随时随处都可能有情色的主帖或回帖,人工对各种网页进行分析然后手动制订规则的工作量极大,ADBlock中国区用户用来过滤广告的规则就达到了 4万多条,针对不良信息的过滤规则肯定要远超过这个数目了,而且预定义规则对新生网页的适应性比较差。
[0005]色情网站很容易识别和屏蔽,难的是对混杂在普通网站中的不良信息,因此,理想的不良信息过滤方法应能够定位自然语言语义模块所在的dom树节点范围,从而能够单独易繼包含不良信息的节点,而不影响其他信息的展示。
[0006]对网页内模块进行语义分析的方法目前主要有以下几种:
[0007]I)采用统计学方法对一定数量的结构相似的网页进行分析以生成网页模板的方法。
[0008]2)基于dom树节点间相似度的分块方法。
[0009]3)基于视觉特征的分块方法(VIPS及衍生算法)。
[0010]4)基于html标签语义的分块方法。[0011]由于单个网页节点所包含的文本一般比较少,经常只有一两个句子,用统计方法进行语义分析的准确率比较低,通常需要多个相似网页的辅助来提供准确率,而过滤软件运行在用户端,要处理的网页存在不确定性,没有相似网页可供分析,因此不适宜采用此类技术。
[0012]不良文本信息和正常文本信息在视觉上也没有明确的界限,不同网站的网页结构和节点深度差异很大,尤其是位于网页右侧、下侧的不健康的广告和色情信息的节点结构和深度与主题差异很大,采用基于dom树节点间相似度或基于视觉特征的分块方法都存在无法准确确定语义模块的位置一语义模块一般由一个或者多个dom树节点组成,而文本节点一般位于所在dom树节点的最底层,要根据文本所在节点位置信息判断整个语义模块的节点集合,就相当于要根据一个点的位置确定其所在长方体的位置和大小。如必须使用这两种方法,则前者需要预设最大树节点深度,后者需要设定F>DOC(Permitted degree ofcoherence)的值,等于需要对待分析的网页特征有一定了解。因此将这两种方法用在未知dom树特征的网页上就会有较大概率产生语义模块划分过大或过小的问题。有时这两类算法会同时使用,但也无法解决这个问题。同时VISP类依赖视觉特征的算法需要解析css和下载外部css文件,时间复杂度较高,影响用户体验。
[0013]基于html标签语义的方法一般作为其他方法辅助方法使用,因为仅有html5中新增的〈article〉、〈aside〉标签可以明确标识语义模块,而截至目前大部分网页并未使用这两个标签。同样的,此方法也不能确定语义模块的大小粒度。
[0014]总之,将已 有的方法用于不良信息过滤面临着无法自动确定语义模块的分割到哪一层的问题。

【发明内容】

[0015]发明目的:针对现有技术中存在的问题与不足,本发明提供一种划分网页语义模块的方法,在划分语义模块时,估算所应达到的最深节点,由该层节点自下而上,根据相似度计算逐层推算出语义模块的顶层节点集合。
[0016]技术方案:一种划分网页语义模块的方法,该方法工作原理基于这样两条规律:
[0017]规律一:每个网页的内容都是不同的,在语义上都是独立的,而每个网页对应一个URL,因此,每个URL都代表一个独立的语义单元。
[0018]规律二:网页上的每个语义模块都会包含一个或多个超链接。如果一个语义模块是完整的(新闻、新闻评论、论坛主帖、论坛回帖),则一般会有包含作者信息的超链接;如果一个语义模块不完整(广告、其他论坛的推广链接、相关新闻标题、相关主题标题),则必然会包含指向完整语义网页的超链接。
[0019]基于以上规律,可以假定网页上每个语义模块单元都包含一条能在当前网页内代表这个语义模块的超链接,则每个语义模块必包含具有如下两个特征的节点:
[0020]1.包含至少一条有效的超链接的节点,记为Nu ;
[0021]2.敏感词所在的节点,记为Nw ;或者敏感词的上级节点,记为Nt ;
[0022]并且:
[0023]I) Nu和Nt相同或者为兄弟节点;
[0024]2)如Nt ! = Nu,则Nt不含有效的超链接;[0025]3)如Nt = = Nu,则Nu为dom树根节点或者至少有一个兄弟节点也包含有效的超链接;
[0026]4)如Nt = = Nu,则Nu必须是所有满足以上条件(1)_3))的节点中最深层的节点;确定Nt节点的位置,将Nt节点在dom树所处的层次作为语义分割的最底层,由此层起自下而上的通过相似度和权重计算识别语义模块。
[0027]进一步地,无效的超链接指左右两侧都是文本的<a>节点。有效的超链接为排除无效的超链接之外的各种超链接。以包含有效超链接的子节点数作为节点的权重值,通过计算权重来确定Nt的位置。
[0028]进一步地,通过结合相似度计算和节点语义特征确定语义模块最大结合;语义模块所包含的子树可能多于一个,所有子树的父节点是相同的,并且相邻,记每个子树的最高顶点的集合为Tc,在确定Nt后设Tc = {Nt},记不在Tc中的Nt的兄弟节点的集合为Td,按照以下步骤迭代地扩展Tc的成员:
[0029]I)如Tc中只有一个节点(即Nt),则计算其与相邻节点(记为Ns)的相似度,相似度超过阈值则判定Tc为完整的语义模块,停止扩展;相似度(Sim)计算公式如下:
[0030]
【权利要求】
1.一种划分网页语义模块的方法,其特征在于: 假定网页上每个语义模块单元都包含一条能在当前网页内代表这个语义模块的超链接,则每个语义模块必包含具有如下两个特征的节点: a.包含至少一条有效的超链接的节点,记为Nu; b.敏感词所在的节点,记为Nw;或者敏感词的上级节点,记为Nt ; 并且: 1)Nu和Nt相同或者为兄弟节点; 2)如Nt! = Nu,则Nt不含有效的超链接; 3)如Nt= = Nu,则Nu为dom树根节点或者至少有一个兄弟节点也包含有效的超链接; 4)如Nt== Nu,则Nu必须是所有满足以上条件的节点中最深层的节点; 确定Nt节点的位置,将Nt节点在dom树所处的层次作为语义分割的最底层,由此层起自下而上的通过相似度和权重计算识别语义模块。
2.如权利要求1所述的划分网页语义模块的方法,其特征在于:该方法基于如下两条规律: 规律一:每个网页的内容都是不同的,在语义上都是独立的,而每个网页对应一个URL,因此,每个URL都代表一个独立的语义单元; 规律二:网页上的每个语义模块都会包含一个或多个超链接;如果一个语义模块是完整的,则会有包含作者信息的超链接;如果一个语义模块不完整,则必然会包含指向完整语义网页的超链接。
3.如权利要求1或2所述的划分网页语义模块的方法,其特征在于:无效的超链接指左右两侧都是文本的<a>节点;有效的超链接为排除无效的超链接之外的各种超链接。
4.如权利要求3所述的划分网页语义模块的方法,其特征在于:以包含有效超链接的子节点数作为节点的权重值,通过计算权重来确定Nt的位置。
5.如权利要求1所述的划分网页语义模块的方法,其特征在于:通过结合相似度计算和节点语义特征确定语义模块最大结合; 语义模块所包含的子树可能多于一个,所有子树的父节点是相同的,并且相邻,记每个子树的最高顶点的集合为Tc,在确定Nt后设Tc = {Nt},记不在Tc中的Nt的兄弟节点的集合为Td,按照以下步骤迭代地扩展Tc的成员: I).如Tc中只有一个节点(即Nt),则计算其与相邻节点(记为Ns)的相似度,相似度超过阈值则判定Tc为完整的语义模块,停止扩展;相似度(Sim)计算公式如下:
【文档编号】G06F17/30GK103984770SQ201410243493
【公开日】2014年8月13日 申请日期:2014年6月3日 优先权日:2014年6月3日
【发明者】袁运来 申请人:袁运来
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1