一种基于视觉特征提取的网页传感信息块判决方法与流程

文档序号:12598556阅读:414来源:国知局
一种基于视觉特征提取的网页传感信息块判决方法与流程

当前,物联网技术正在蓬勃发展,越来越多的传感器开始进入人们的日常生活。面对数以亿计的物联网数据,如何正确搜索以期应用已经成为一个重要的研究课题。当前,大量传感器数据仍然选择以上传至因特网的方式提供给用户,因此,正确识别出包含传感器数据信息的网页内容,将成为物联网搜索工作的一项重要前提。

目前,因特网页采用了视频、图片、表格和图例等表现形式来展现传感器的数据信息。对一张未知网页而言,我们将以何种手段来识别出网页中传感器信息的存在,并准确获取所包含传感信息的相关情况,例如传感信息的类型,位置等等,这将为评价网页的传感信息量提供重要依据。传感信息自动识别准确率的保证,也将大大减轻人工判断的工作压力,可以更加有效地实现网页传感信息量的计算,对于基于网页进行的物联网传感信息搜索具有重要意义。



技术实现要素:

为了解决上述的研究缺口,本发明提供一种基于视觉特征提取的网页传感信息块判决方法,目的在于依据网页中的DOM树结构以及视觉特征来提取网页数据块的相关特征,对数据块是否包含传感信息进行判断。

本发明的目的是这样实现的:

(1)某些非传感信息块也存在视觉变化的情况,例如某些广告信息,滚动信息等等,但他们的变化往往是已知地,在有限的几种信息之中来回播放,而传感信息往往实时采集上传,一切内容都以当前实际情况为准,因此是未知的。据此,选择一段合适长度的时间内截取多张网页图片,综合分析不同截图之间的变化情况,可以增加判断的准确性。

(2)根据不同网页数据块的截图变化信息,可以对数据的传感信息包含情况进行一定分析。通常,根据传感信息块的类型不同,往往具有不同的变化特性,例如: 由于光照等环境因素的影响,网络摄像头在一段时间内采集的两张图像往往所有像素点都会发生变化,而以表格形式表示的温度,湿度环境信息的数据内容,则会在固定位置的像素点发生明显规律性的变化。提取网页数据块的视觉信息,包括像素点变化值的大小,变化像素点的数量,位置等等,都将为传感信息的判断提供辅助依据。

(3)传感信息块通常在网页中以图表等特定形式出现,合理设计网页分割粒度,可以有效实现传感信息块的检测,同时为未来进行传感数据的提取提供更精准的输入条件。依据html标签类型,不同标签对之间的相对深度信息和视觉映射情况三个条件,可以在网页分割过程中有效适应传感信息块的分割粒度,提高分割的精度和有效性。

本发明的具体技术方案如下:

一种基于视觉特征提取的网页传感信息块判决方法,先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:

步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;

步骤2:自适应传感粒度的网页分割;

步骤3:分割后网页数据块的视觉特征提取;

步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。

所述步骤1的网页预处理过程包括:

提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。

所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;

对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;

将所有经过父子留存判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。

所述步骤3的分割后网页数据块的视觉特征提取,是针对截图内发生变化的像素点,设置网页数据块的视觉特征,包括变化数量、变化幅度和位置分布。

所述步骤4的传感信息块的判断过程为:利用SVM分类器,将步骤3中获取的视觉特征的特征向量输入训练好的分类器,即得到判决结果;

依据判决需求,可以分别选择二分类器和多分类器,二分类器判断该数据库是否为传感信息块,多分类器进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线。

所述步骤2,对父子节点对的取舍判断过程中,子节点的传感特征包含情况有两个判断依据:

1)标签名称;

2)依据关键词匹配方法,对标签的正文内容进行提取分析。

以径向基函数作为SVM分类器的核函数。

本发明的优势在于:

采用由html标签对反映射DOM树内结构信息和网页视觉信息结合的方法,自适应控制网页分割算法的分割粒度,使得分割后的数据块更有效接近传感信息块的真实情况。同时,分析预定时间轴上不同时间点采集网页图片间的变化,提取变化发生像素点的视觉信息,包括数量,变化幅度以及位置分布等,利用分类器有效实现传感信息块的判决。

附图说明

图1是本发明的总框图。

图2是本发明中网页截图存取时间分布图。

图3是本发明中网页分割算法父子节点对取舍流程图。

图4是本发明中网页分割算法直系节点对取舍流程图。

图5是本发明中网页分割算法说明示意图。

图6是本发明中视觉特征项细节图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述。

本判决方法的实现过程如图1所示,对待判决的网页完成预处理后,根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决。总的来说,本发明的主要实现方法包括以下几部分内容:

步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合。

步骤2:自适应传感粒度的网页分割。

步骤3:分割后网页数据块的视觉特征提取。

步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。

具体实施方案包括:

1、网页预处理

设计网页截图提取的时间点如图2所示,截取10张图片,大致提取了2天内不同时间间隔内的网页截图数据。提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,主要包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。

2、自适应传感粒度的网页分割

自适应传感粒度的网页分割算法主要分为两个步骤:父子节点对的取舍判断和第一步后留下节点中直系节点对之间的取舍判断。

对父子节点而言,取舍判断的流程如图3所示。首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域,子节点的传感特征包含情况以及视觉区域大小几个点作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点间均具有较高相似度,则选择保留子节点,否则舍弃子节点。

其中,节点的传感特征的包含情况目前有两个判断依据:

3)标签名称;

4)依据关键词匹配方法,对标签的正文内容进行提取分析。

将所有经过父子留存判断后保留的节点再次进行结构分析,对留存的直系节点对而言,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断的流程如图4所示。由于已经经过一次判断,因此有些判断过程在此轮可以省略。与父子留存判断过程类似,判断过程将根据后代节点的数量分为两类展开。当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点数量大于一时,只考虑对同层后代节点间的相似性进行分析,保留满足一定相似度的后代节点群。

以图5为例,说明整个网页分割算法的实现过程。对一个如图所示的网页标签结构而言,首先对所有父子节点对的取舍进行分析,如图包含了AB,BD,AC,CE,EF,F(GHI)共6对节点,分别依据视觉情况和传感特征包含情况进行判断后,假定依次选择留下B,D,C,E,E,(GHI),那么最终此轮余下的节点集合为{D,E,(GHI)}。因此进行直系节点对判决时,需要判断的对象为E(GHI),由于GHI间彼此相似度足够大,舍弃节点E后,网页分割输出的标签结果即为集合{D,(GHI)}。

3、分割后网页数据块的视觉特征提取

如图6所示,针对截图内发生变化的像素点,设计网页数据块的视觉特征主要包括三大部分:变化数量、变化幅度和位置分布。其中,不同部分所对应的特征提取内容又分别为箭头对应框内所示。

为了提高分析效率,仅仅分析时间点连续的截图对,依据本设计中预存取的10张网页截图,每个网页数据块将存在9对可供分析的数据块截图对。以集合I和集合U分别表示9组截图对中变化像素点的交集和并集。

变化数量的提取内容包括数据块截图总计像素点数量,集合I和集合U的大小,9组截图对各自变化像素数量分别除以集合I和集合U的总大小,计算两组变化数值的平均值和方差。

变化幅度的提取内容包括集合I和集合U中每一个像素点三通道变化值的平均值和方差。

位置分布的提取内容包括将数据块截图以九宫格形式划分区域,计算集合U中的像素点在九个分区中的分布密度,将位置分布情况以九个分区的密度值进行表征。

提取后,每个网页数据块包含28个视觉特征值,因此,将每个待判决的网页数据块以28维特征向量的形式保存,等待最后判决。

4、传感信息块判决

利用SVM分类器,将第三步中获取的特征向量输入训练好的分类器,即可得到判决结果。依据判决需求,可以分别选择二分类器和多分类器,前者可以判断该数据库是否为传感信息块,而后者则可以进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线等等。经实验,选择径向基函数作为SVM分类器的核函数,可达到较好的分类效果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1