网页视觉质量的自动评价方法及其系统的制作方法

文档序号:6585356阅读:107来源:国知局
专利名称:网页视觉质量的自动评价方法及其系统的制作方法
技术领域
本发明涉及计算机应用技术领域,特别涉及一种网页视觉质量的评价方法及其系统。
背景技术
互联网网页不仅包含了人们所需要的各种信息,同时还是互联网的用户接口 (User Interface, UI)。随着互联网在人们生活中扮演着越来越重要的作用,设计更具有 视觉吸引力的网页已经成为不容忽视的需求。很多领域的学者已经开始研究网页的美感度 (也即网页视觉质量)对用户访问的影响。已有研究指出,视觉质量高的网页能够增强用 户在使用基于网页的程序时候的体验。心理学实验也证明了视觉质量高的网页能够增加网 页的可用性与访问性。因此在人机交互(Human Computerlnteraction,HCI)和网页设计领 域,在网页视觉质量评价上已有很多的工作。但是由于这些领域的研究人员通常在恥b信 息处理、视觉信息处理、模型学习方面比较欠缺,所设计的评价模型不适用于对大规模网页 的自动评价。

发明内容
( — )要解决的技术问题 有鉴于此,本发明的主要目的是提供一种自动的网页视觉质量评价方法及系统。
( 二 )技术方案 为达到上述目的,本发明提供了一种网页视觉质量的评价方法,其特征在于,该方 法包括 步骤1 :首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉质量 高的网页或者视觉质量低的网页,人工标记为视觉质量高的样本组成正类样本集,人工标 记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;收集的网页及其标记,构 成了训练集; 步骤2 :利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;
步骤3 :将每一幅网页转换成一副图像,提取每幅网页四个方面的特征布局视觉 特征、文本视觉特征、传统视觉特征以及视觉复杂度特征; 步骤4:利用得到的每幅网页的特征对支持向量机分类器进行训练,得到分类器 参数,并对新网页样本进行评价,判定其是否为高于质量阈值的网页。 其中,所述建立训练集收集网页样本是收集尽可能多的网页样本,并多个用户对 每个样本进行视觉质量评判,获得每个样本的多个视觉质量评判结果并对多个视觉质量评 判结果进行平均计算,计算得到的平均值高于视觉质量阈值的网页样本标记为正类样本, 低于视觉质量阈值的网页样本标记为负类样本。
其中,所述的网页分割方法包括基于视觉的网页分割算法、基于DOM树的网页分
割算法。
其中,提取网页的布局块与文本块是利用网页分割算法来把网页划分成多个矩形块,这些矩形块称为布局块;包含文本字符个数超过阈值的布局块作为网页的文本块。
其中,所述的布局视觉特征包括网页的整体长宽比、网页的整体长宽和、提取的布局块的个数。 其中,所述的文本视觉特征包括网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符与网页文本块面积的比例。 其中,所述的传统视觉特征包括网页的色调表示为Hue (Page),网页的饱和度表示为Saturation(Page),网页的明亮度表示为Brightness (Page)和网页的彩色度表示为Colorfulness,传统视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式 /^(Pflge) = J] S //(/,力/ (TV. M)
'.=i y=iSa加加'o'《Page) = Z Z邓,J.) / (_/V - ) ^/g似"e^(i^ge) = Z Z 7(,, /) / (A^'
' =1 j.=l Colorfulness = a rgyb+0. 3 P rgyb 其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的a,b和Prgyb分别表示方差彩色因子和平均彩色因子,其计算公式为 a,"[。rg]2+ ]2 = "]2+[ ]2 rg(i, j) = R(i, j)-G(i, j) yb(i,j) = 0.5(R(i,j)+G(i,j))-B(i,j)其中。禾P y分别表示所有图像像素点的rg和yb值的方差和均值;R(i, j) , G(i, j),和B(i, j),表示图像(i, j)的像素点在颜色空间RGB的R,G和B值。 其中,所述的视觉复杂度特征是指网页转化为图像后的图像存储空间大小。
其中,采用支持向量机分类算法对网页进行分类,判定其是否高于视觉质量阈值的网页。 为达到上述目的,本发明提供了一种自动的网页视觉质量评价系统,该系统包括 网页预处理模块,用于对网页进行分割,并把网页转化为一副图像;
网页结构分析模块与网页预处理模块连接,用于提取网页的布局块以及文本块;
网页布局视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页布局块,用于提取反应网页布局的视觉特征;
5
网页文本视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页文本块,用于提取反应网页文本的一些视觉特征; 网页传统视觉特征提取模块,与网页预处理模块和网页结构分析模块连接,接受网页预处理模块网页转换后的图像以及接受网页结构分析模块的提取的网页布局块,用于提取网页颜色上的一些传统视觉特征; 网页视觉复杂度特征提取模块与网页预处理模块连接,接受网页预处理模块的网页转换后的图像,用于提取网页的视觉复杂度特征; 分类模块,用于接收网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传统视觉特征提取模块以及和网页视觉复杂度特征提取模块提取的网页特征,利用训练集对支持向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试网页分类,并输出网页的分类结果。 其中,所述网页结构分析模块包括网页布局块提取单元接收网页预处理模块的
网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点对应的矩阵块作
为网页的布局块;网页文本块提取单元接收网页预处理模块的网页分割单元的分割后生成
的网页视觉块树,网页视觉块树的所有叶节点中,包含了文本字符个数大于等于给定阈值
的叶节点对应的矩阵块作为网页的文本块。(三)有益效果 从上述技术方案可以看出,本发明具有以下优点 1 、本发明提供的这种网页视觉质量的评价方法,从四个方面来提取网页的视觉特征布局视觉特征、文本视觉特征、颜色纹理特征以及视觉复杂度特征,四方面特征较为完整的描述了一副网页的四种内容结构、文本、图像以及背景。每一方面特征可以单独进行更改和扩展,使得如果今后出现了更为快速鲁棒的特征提取,可以轻而易举地添加到本系统中,从而进一步提升系统的性能。 2、本系统的特征提取和分类器处理过程完全是自动的,不需要人工干预,因此能够非常容易的嵌入到目前的各类基于Web的应用程序当中,具有广泛的应用前景。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性


图la为本发明的网页的布局块; 图lb为本发明的网页的文本块; 图2a为两幅网页; 图2b为上面两幅网页对应的分割产生的树形结构图。 图3为本发明提供的网页视觉质量评价方法的流程图; 图4为本发明提供系统模块构成图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的执行环境采用一台具有3. 0G赫兹中央处理器和2G字节内存的奔腾4计算机并用0++语言编制了网页视觉质量评价方法的算法程序,实现了本发明自动的网页视觉质量评价系统,还可以采用其他的执行环境,在此不再赘述。
本发明的系统由以下七个模块组构成,如图4所示 —、网页预处理模块l,该模块为一独立模块,包括网页分割单元11和转化为图像
单元12。网页预处理模块l,用于对网页进行分割,并把网页转化为一副图像; 二、网页结构分析模块2,该模块为一独立模块,网页结构分析模块2与网页预处
理模块1连接,该模块的主要功能是依据网页分割的结果,提取网页的布局块(如图la示
出)和文本块(如图lb示出),图la中的粗线矩形框代表了网页的布局块,图lb中的细线
矩形框代表了网页的文本块。 三、网页布局视觉特征提取模块3与网页结构分析模块2的网页布局块提取单元21连接,用于接收网页结构分析模块提取的网页布局块,该模块的主要功能是根据提取的网页布局块,提取网页的布局视觉特征。 四、网页文本视觉提取模块4与网页结构分析模块2的网页文本块提取单元22连接,接受网页结构分析模块2提取的网页文本块,用于提取反应网页文本的一些视觉特征;该网页文本视觉提取模块4的主要功能是对得到的网页文本块进行特征提取,以反映网页文本对用户视觉感知的影响。 五、网页传统视觉特征提取模块5与网页预处理模块1的图像单元12以及网页结构分析模块2的网页布局块提取21单元连接,用于接收网页结构分析模块2提取的网页的布局块,以及接受网页预处理模块1网页转换后的图像,用于提取网页颜色上的一些传统视觉特征;具体来说,就是提取每个网页的整体色调(Hue),饱和度(Saturation),明亮度(Brightness),以及彩色度(Colorfulness)。 六、网页视觉复杂度特征提取模块6与网页预处理模块1的图像单元12连接,接
受网页预处理模块1的网页转换后的图像,用于提取网页的视觉复杂度特征;获取网页转
换得到的网页图像,获取网页图像的存储空间大小来作为网页的视觉复杂度特征。 七、分类模块与网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传
统视觉特征提取模块以及网页视觉复杂度特征提取模块连接,用以接收上述这四个特征提
取模块的提取的四方面特征,利用支持向量机对特征进行分类,并给出网页最终是属于正
类(视觉质量高的网页)还是负类(视觉质量低的网页)。 所述网页结构分析模块2包括网页布局块提取单元21和网页文本块提取单元22,其中网页布局块提取单元21接收网页预处理模块的网页分割单元输出的网页块树提取网页块的叶节点对应的矩阵块,网页文本块提取单元22接受接收网页预处理模块的网页分割单元11输出的网页块树,提取含有文本字符个数大于等于给定阈值(阈值的范围为30-100个数, 一般选取50个数)的叶节点对应的矩阵块作为网页的文本块。
下面结合图3,详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。
步骤301 :首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉质量高的网页或者视觉质量低的网页,人工标记为视觉质量高的样本组成正类样本集,人工标记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;收集的网页及其人工标记,构成了训练集;此步骤应尽可能多地收集多的网页样本,使所建立的训练集具有广泛人工对每个样本的视觉质量标记上,尽可能请多个用户对每个样本进行视觉质量评判,评判的结果是给出每个样本的视觉质量分数,分数在一个事先设定的区间类,用户给的分值越高表示视觉质量越好,获得每个样本的多个视觉质量评判结果后,对多个视觉质量评判结果进行平均计算,计算得到的平均值高于视觉质量阈值(阈值定为打分区间的中值)的网页样本标记为正类样本,低于视觉质量阈值的网页样本标记为负类样本。 假定网页的视觉质量的打分区间为
,分值越高越好,视觉质量阈值选取为视觉质量打分区间的中值,也即为5分;假定有四个用户对某一个样本的打分分别为1分,2分,3分,6分,其平均分值为3分,小于5分,那么该样本标记为负类样本。假定打分分别为5分,10分,7分,8分,其平均分值为7. 5分,大于5分,那么该样本标记为正类样本。
步骤302 :在训练集网页上对每幅网页进行分割,提取网页布局块与文本块,以作为进一步特征提取的输入; 网页的分割方法可以有很多选择,如基于视觉的网页分割算法(VIPS),基于文档树(D0M)的网页分割算法等。图2a,图2b分别给出了网页,以及根据该网页源码利用基于视觉的网页分割算法(Vision-based Page Segmentation,VIPS)后产生的相应的网页视觉块树的结构的示意图。网页视觉块树的叶节点对应的矩形作为网页的布局块,网页视觉块树的叶节点中含有文本字符个数大于等于给定阈值的叶节点对应的矩阵块作为网页的文本块; 步骤303 :将网页转换为图像,根据提取的布局块和文本块,分别提取网页布局视
觉特征,网页文本视觉特征,网页传统视觉特征以及网页视觉复杂度特征; 网页布局视觉特征包括网页的整体长宽比、网页的整体长宽和、提取的布局块的
个数; 网页文本视觉特征包括网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符个数与网页文本块总面积的比例; 网页传统视觉特征包括网页的色调表示为Hue,饱和度表示为Saturation,明亮度表示为Brightness和网页的彩色度表示为(Colorfulness),传统视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV(Hue-Saturation-Value)和颜色空间RGB (Red-Green-Blue)对该图像进行表示,然后采用以下公式 胸( e) = Z J]邵,/) / - AO
'.=1 >1>StoM7'ado"(Page) = X! Z S(/, /) / (TV.
' =l j=l 5/'/g/7加ew(Page) =J] 力/
' =1 J=l Colorfulness = a rgyb+0. 3 P rgyb 其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜
8色空间HSV的V值;彩色度计算公式中的a ,b和|3 wb分别表示方差彩色因子和平均彩色因子,其计算公式为 /3,.,V[ ]2 ]2 rg(i, j) = R(i, j)-G(i, j) yb (i , j) = 0. 5 (R (i , j) +G (i , j)) _B (i , j) 其中o禾P 分别表示所有图像像素点的rg和yb值的方差和均值; R(i, j) , G(i, j),和B(i, j),表示图像(i, j)的像素点在颜色空间RGB的R, G和B值。 网页视觉复杂度特征是指网页转化的图像对应的图像存储空间的大小。 步骤304 :将得到的特征向量集分为训练集和测试集两部分,利用训练集对支持
向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试集
分类,并输出分类结果,并对新网页样本进行预测。 以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
一种网页视觉质量的评价方法,其特征在于,该方法包括步骤1首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉质量高的网页或者视觉质量低的网页,人工标记为视觉质量高的样本组成正类样本集,人工标记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;收集的网页及其标记,构成了训练集;步骤2利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;步骤3将每一幅网页转换成一副图像,提取每幅网页四个方面的特征布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;步骤4利用得到的每幅网页的特征对支持向量机分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于质量阈值的网页。
2. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述建立训练集收 集网页样本是收集尽可能多的网页样本,并多个用户对每个样本进行视觉质量评判,获得 每个样本的多个视觉质量评判结果并对多个视觉质量评判结果进行平均计算,计算得到的 平均值高于视觉质量阈值的网页样本标记为正类样本,低于视觉质量阈值的网页样本标记 为负类样本。
3. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述的网页分割方 法包括基于视觉的网页分割算法或基于DOM树的网页分割算法。
4. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,其特征在于,提取网 页的布局块与文本块是利用网页分割算法来把网页划分成多个矩形块,这些矩形块称为布 局块;包含文本字符个数超过阈值的布局块作为网页的文本块。
5. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述的布局视觉特 征包括网页的整体长宽比、网页的整体长宽和、提取的布局块的个数。
6. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述的文本视觉特 征包括网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符与网页文本 块面积的比例。
7. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述的传统视觉特征包括网页的色调表示为Hue (Page),网页的饱和度表示为Saturation (Page),网页的明亮度表示为Brightness (Page)和网页的彩色度表示为Colorfulness,传统视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式<formula>formula see original document page 2</formula>其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i, j)的像素点在颜色空间HSV的S值;V(i, j)为位于图像(i, j)的像素点在颜色空间HSV的V值;彩色度计算公式中的a,b和Prgyb分别表示方差彩色因子和平均彩色因子,其计算公式为rg(i, j) = R(i, j)-G(i, j)yb(i, j) = 0.5(R(i, j)+G(i, j))-B(i, j)其中o和分别表示所有图像像素点的rg和yb值的方差和均值;R(i, j) , G(i, j),和B(i, j),表示图像(i, j)的像素点在颜色空间RGB的R, G和B值。
8. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,所述的视觉复杂度特征是指网页转化为图像后的图像存储空间大小。
9. 根据权利要求1所述的网页视觉质量的评价方法,其特征在于,采用支持向量机分类算法对网页进行分类,判定其是否高于视觉质量阈值的网页。
10. —种网页视觉质量的评价系统,其特征在于,该系统包括网页预处理模块,用于对网页进行分割,并把网页转化为一副图像;网页结构分析模块与网页预处理模块连接,用于提取网页的布局块以及文本块;网页布局视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页布局块,用于提取反应网页布局的视觉特征;网页文本视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页文本块,用于提取反应网页文本的一些视觉特征;网页传统视觉特征提取模块与网页结构分析模块和网页预处理模块连接,接受网页结构分析模块的网页的布局块以及接受网页预处理模块网页转换后的图像,用于提取网页颜色上的一些传统视觉特征;网页视觉复杂度特征提取模块与网页预处理模块连接,接受网页预处理模块的网页转换后的图像,用于提取网页的视觉复杂度特征;分类模块,用于接收网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传统视觉特征提取模块以及和网页视觉复杂度特征提取模块提取的网页特征,利用训练集对支持向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试网页分类,并输出网页的分类结果。
11. 根据权利要求io所述的网页视觉质量的评价系统,其特征在于,所述网页结构分析模块包括网页布局块提取单元和网页文本块提取单元,其中网页布局块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点对应的矩阵块作为网页的布局块;网页文本块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点中,包含了文本字符个数大于等于给定阈值的叶节点对应的矩阵块作为网页的文本块。
全文摘要
本发明公开一种网页视觉质量的自动评价方法及其系统,包括收集网页样本,每个样本通过人工来进行标记其为视觉质量高的网页样本还是视觉质量低的网页样本,以此建立训练集,利用网页分割算法来对每幅网页进行分割并提取网页布局块与文本块,把每一幅网页转换成一副图像,结合提取的网页布局块和文本块来提取每一幅网页四方面的特征布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;利用得到的网页特征对支持向量机分类器进行训练,得到分类器参数,并对新网页进行评价,判定其视觉质量的高低。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性能。
文档编号G06F17/30GK101777060SQ200910243729
公开日2010年7月14日 申请日期2009年12月23日 优先权日2009年12月23日
发明者吴偶, 李兵, 胡卫明, 陈云飞 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1