一种基于传感信息量的网页内容评价方法与流程

文档序号:12598507阅读:302来源:国知局
本发明属于物联网信息搜索领域,具体涉及一种基于传感信息量的网页内容评价方法。
背景技术
:随着物联网技术的普及与发展,传感器的数量日益增长,面对其源源不断产生的海量数据,物联网搜索技术的研究已成为当前亟待解决的热点问题。与传统互联网中的数据相比,传感器所产生的数据兼具内容、时间和空间三维属性。与此同时,出于对隐私安全和传输负荷等问题的考虑,目前大量传感器采用了将数据传输至互联网,以网页的形式来展示数据内容,供用户自由访问。网页通过视频、图片、表格和曲线等多种方式来向用户展示传感器所采集的数据内容,那么,如何评价网页所包含的传感数据量的大小,对网页传感信息搜索的研究而言,具有极高的价值。目前网页评价研究的相关工作,大都依靠视觉特性、链接内容等作为参照条件,对网页的复杂度,可靠性等指标进行考察,而针对网页中传感信息的分析内容成果尚少,而简单的依据视觉特性和链接等网页内容进行分析,又不具代表性和针对性。技术实现要素:针对
背景技术
存在的问题,本发明提供一种基于传感信息量的网页评价方法,目的在于依据网页中的传感信息量,为物联网搜索中的网页传感信息搜索技术提供数据支撑。本发明的目的是这样实现的:(1)传感数据与其他数据块内容相比,多出时间和空间维度的属性。对网页传感信息块的判断将从这两个条件入手,对于同时具有时间变化特性,和空间描述特性的网页内容,称之为传感信息。(2)由于数据空间信息量的大小不可表述,因此,对空间描述特性的分析仅用于协助判断网页数据块是否为传感信息块。而从时间变化特性的角度分析,为网页数据块定义时间信息量的概念,一般而言,时效性内的传感信息块,其时间信息量大于0。同时,从用户体验的角度出发,为每一个网页数据块定义视觉信息量的概念。对每一个网页数据块而言,其传感信息量表征为时间信息量和视觉信息量的乘积。而对每一个网页而言,其传感信息量表征为所有传感信息块的传感信息量之和。(3)根据研究发现,用户对网页不同区域的内容往往呈现出不同的视觉关注度。根据用户视觉关注度的差异,针对网页中的不同数据内容的分布情况,提出了位置权重的视觉评价方法。以左上角至右下角的连接线为分界,网页数据块的位置越接近分界线,用户关注度越高,数据块的位置权重也越高大同时,随着时间推移,用户对内容的关注点呈现自左上角至中间逐渐分散开的特点,因此,位置权重与数据块到网页左上顶点距离成反比。(4)针对网页不同数据块的视觉区域大小,结合位置权重的概念,定义了有效面积来表征每一个网页数据块的视觉信息量,视觉信息量分别与网页数据块的面积和位置权重成正比。(5)传感器数据具有时间属性,显然,实时性越高的数据越具有查询价值。考虑网页数据块的更新频率,频率高的传感数据块具有更大的时间信息量。本发明采用如下技术方案实现:一种基于传感信息量的网页内容评价方法,包括以下步骤:步骤1:统计网页中所有传感信息块的数量;步骤2:依次计算传感信息块的视觉信息量;步骤3:利用语义判别与差值图片结合分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量;步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。所述步骤1统计网页中所有传感信息块的数量具体过程如下:网页经过分割,得到不同数据块内容,经过对网页内容的语义和更新情况分析,判断分割后的数据块是否包含传感信息,定义包含传感信息的数据块为传感数据块,统计所有传感信息块的数量;令Φ表示网页中所有传感信息块的集合。所述步骤2,计算传感信息块的视觉信息量过程如下:以ABCD代表整个网页,EFGH代表网页中的传感信息块bi,O与O’分别代表网页和信息块bi的质心,r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角;那么,网页信息块bi的位置权重为:λpos=rrbi·cosαbi---(1)]]>以有效面积来表征网页的视觉信息量,因此,网页的有效面积为:Sibiv=λpos·SbiSp---(2)]]>其中,表示信息块bi的面积,Sp表示网页的整体面积。所述步骤3,计算传感信息块的时间信息量过程如下:首先对获取的传感信息块的网页源代码进行预处理,得到正文内容;通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息;依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反之,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率;设传感信息块bi的更新时间间隔为取最先出现的两幅非零差值图像出现时刻t1,t2,则Δtbi=t2-t1---(3)]]>因此,计算传感信息块bi的时间信息量为:Sibit=log2TΔtbi---(4).]]>所述步骤3中,设置T=86400s,表示一天的时长,表示一天内的更新次数,定义传感信息块的更新时间间隔为因此有:Sibit≥0ifT′≤Δtbi≤TSibit<0ifΔtbi>T---(5).]]>所述步骤4中,计算网页的整体信息量过程如下:对网页中的每一个传感信息块bi,定义其传感信息量为:Sibi=Sibiv·Sibit---(6)]]>因此,对一个完整的网页而言,网页的传感信息量为:SI=Σbi∈ΦSibi---(7).]]>与现有技术相比,本发明的优势在于:第一次针对网页中的传感信息的包含情况,为网页给出一种评价方法;从传感信息的维度特性入手,结合对用户视觉感知特性的考虑,提出了用传感信息量来度量网页中所表征传感信息的情况;传统的网页评价手段往往采用人为打分或星级评价,本方法将网页信息的各项指标量化,通过计算给出评价结果。通过本发明所设计的评价指数,能够有效地将包含不同数量,不同类型,不同视觉强度以及不同实时性程度的传感信息的网页区分开来,未来可以为物联网中感知信息搜索结果的网页排名提供参考依据。附图说明图1是两张网页传感信息块示意说明图,其中,图1(a)是混合类传感信息网页信息块示意图,图1(b)是单一图表类传感信息网页信息块示意图;图2是本发明中视觉信息参数的空间示意图;图3是本发明中网页更新频率的计算流程图;图4是本发明中差值图像计算更新频率的时间分析图。具体实施方式为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述。图2矩形ABCD代表整个网页,EFGH代表已识别出的传感信息块。本发明的主要评价方法包括以下几部分内容:步骤1:统计网页中所有传感信息块的数量。步骤2:依次计算传感信息块的视觉信息量。步骤3:利用语义判别或差值图片分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量。步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。具体实施方案包括:1、统计网页中所有传感信息块的数量如图1a、图1b中所示,网页经过分割,分别得到了以粗线条矩形框内所示的不同数据块内容,经过对网页内容的语义和更新情况分析,可以判断图中所示两个网页都包含传感信息,且传感信息块分别如图中标记指出,图1a的四个数据块中,有两个传感数据块,分别展示了摄像头和温度传感器所采集的Toronto某地区的视频信息和温度信息结果;图1b来自站点thingspeak.com,图中标出的四个传感信息块分别展示的是由用户自主注册上传的某地土壤监测情况,包括土壤所含的石膏厚度,系统电压以及温度的信息。令Φ表示网页中所有传感信息块的集合。2、信息块视觉信息量的计算如图2所示,以ABCD代表整个网页,EFGH代表网页中的某个信息块bi。O与O’分别代表网页和信息块bi的质心。r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角。那么,网页信息块bi的位置权重为:λpos=rrbi·cosαbi---(1)]]>以的有效面积来表征网页的视觉信息量,那么,网页的有效面积为:Sibiv=λpos·SbiSp---(2)]]>其中,表示信息块bi的面积,而Sp表示网页的整体面积。3、获取传感信息块的时间信息量如图3所示,更新频率的抽取流程中,将语义分析与差值图像分析的方法相结合,提高频率抽取的准确率和效率。首先对获取的网页源代码进行预处理,得到正文内容。通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息。依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反正,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率。如图4所示,设数据块bi的更新时间间隔为由于网页截取开始的时候可能发生在任意时刻点,因此,取最先出现的两幅非零差值图像出现时刻t1,t2,则Δtbi=t2-t1---(3)]]>因此,可以计算传感信息块bi的时间信息量为:Sibit=log2TΔtbi---(4)]]>由于大部分网页中信息块在一天之内更新多次,且对大部分传感器信息而言,当天采集的数据内容更为有效,因此,定义数据的时效性最多为一天。默认设置T=86400s,表示一天的时长,因而表示一天内的更新次数。又由于对视频类传感器数据而言,当前常用的流媒体传输协议使用的帧速率通常在20~30fbps的范围内。因此我们定义视频类传感信息块的更新时间间隔为由此,我们有Sibit≥0ifT′≤Δtbi≤TSibit<0ifΔtbi>T---(5)]]>4、计算网页的传感信息量对网页中的每一个传感信息块bi,定义其传感信息量为:Sibi=Sibiv·Sibit---(6)]]>因此,对一个完整的网页而言,网页的传感信息量为:SI=Σbi∈ΦSibi---(7).]]>当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1