一种基于视觉特征提取的网页传感信息块判决方法与流程

文档序号:12598556阅读:来源:国知局

技术特征:

1.一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:

步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;

步骤2:自适应传感粒度的网页分割;

步骤3:分割后网页数据块的视觉特征提取;

步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。

2.根据权利要求1所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤1的网页预处理过程包括:

提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。

3.根据权利要求2所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;

对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;

将所有经过父子留存判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点数量大于一时,只考虑对同层后代节点间的相似性进行分析,当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。

4.根据权利要求3所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤3的分割后网页数据块的视觉特征提取,是针对截图内发生变化的像素点,设置网页数据块的视觉特征,包括变化数量、变化幅度和位置分布。

5.根据权利要求4所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤4的传感信息块的判断过程为:利用SVM分类器,将步骤3中获取的视觉特征的特征向量输入训练好的分类器,即得到判决结果;

依据判决需求,可以分别选择二分类器和多分类器,二分类器判断该数据库是否为传感信息块,多分类器进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线。

6.根据权利要求3-5中任意一项所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:所述步骤2,对父子节点对的取舍判断过程中,子节点的传感特征包含情况有两个判断依据:

1)标签名称;

2)依据关键词匹配方法,对标签的正文内容进行提取分析。

7.根据权利要求5所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:以径向基函数作为SVM分类器的核函数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1