用于使用链接和页面的布局分析来识别图像相关度的方法和系统的制作方法

文档序号:6624993阅读:149来源:国知局
专利名称:用于使用链接和页面的布局分析来识别图像相关度的方法和系统的制作方法
技术领域
所描述的技术总体上涉及分析网页,具体的说,涉及网页图像的相关度。
背景技术
诸如Google和Overture的许多搜索引擎服务提供搜索经由因特网可访问的信息。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,例如网页。在用户提交包括搜索项的搜索请求之后,搜索引擎服务识别可能与那些搜索项相关的网页。为了快速识别相关网页,搜索引擎服务会保持关键字到网页的映射。通过“爬行和索引”该网络(即,万维网)可以产生该映射,以识别每个网页的关键字。为了爬行网络,搜索引擎服务会使用根网页列表以识别可通过那些根网页访问的所有网页。可以使用各种已知的信息检索技术识别所有特定网页的关键字,诸如识别标题字、网页元数据中提供的字、高亮的字、等等。然后,搜索引擎服务根据每个匹配的紧密度,网页的普及性(例如,Google的页面排列)等排列搜索结果的网页。搜索引擎服务也会产生相关分数以表明网页信息与搜索请求的相关程度。然后,搜索引擎服务以基于其排列的顺序向用户显示指向那些网页的链接。
虽然许多网页是面向图像的,因为它们会包含许多图像,但是常规搜索引擎服务一般只根据网页的文本内容搜索。然而,已进行许多尝试以支持基于图像的网页搜索。例如,正浏览网页的用户可能希望识别包含与该网页上图像相关图像的其它网页。基于图像的搜索技术一般是基于内容或基于链接的,并另外使用围绕文本以帮助分析图像。基于内容的技术使用低层视觉信息以便图像索引。因为基于内容的搜索技术是非常昂贵的,所以它们不适用于网络上的图像搜索。基于链接的搜索技术一般假设在相同网页的图像可能是相关的,并且在网页上的、由相同网页彼此链接的图像是相关的。不幸的是,这些假设在许多情况下是不正确的,主要因为单个网页会包含涉及许多不同主题的内容。例如,新闻网站的网页会包含涉及国际政治事件的内容以及涉及国家体育事件的内容。在这种情况下,涉及国家体育事件的体育团体的图片不可能与由涉及国际政治事件的内容链接的网页相关。
因此,我们希望有一种不象常规的基于内容的搜索技术那样昂贵的基于图像的搜索技术,不同于常规的基于链接的搜索技术,它能解释在单个网页上出现的不同主题。
概述提供一种系统,用于根据链接和网页布局分析确定页面图像的相关度。链接分析系统通过首先识别页面内的块,并然后分析块对页面、页面对块、和图像对块的重要性,来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像与所有其他图像的相关程度。因为一幅图像与另一幅图像的相关度是基于块级重要性,而不是页面级重要性,块是比页面更小的单元,该相关度是比常规基于链接的搜索技术更正确的相关度表示。
附图的简要说明附

图1是表示网页的样本集合中块、图像、和链接的框图。
附图2是表示在一个实施例中,链接分析系统的组件的框图。
附图3是表示在一个实施例中,产生图像对图像矩阵组件的处理流程图。
附图4是表示在一个实施例中,产生块对页面矩阵组件的处理流程图。
附图5是表示在一个实施例中,产生页面对块的矩阵组件的处理流程图。
附图6是表示在一个实施例中,产生块对图像的矩阵组件的处理流程图。
详细描述提供一种用于根据链接和页面布局分析确定网页图像的相关度的系统和方法。在一个实施例中,链接分析系统通过首先识别网页内的块,并然后分析块对网页、网页到块、和图像对块的重要性来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像对其他每幅图像的相关程度。网页的块表示看起来涉及相似主题的网页区域。例如,涉及国际政治事件的新闻文章会表示一个块,以及涉及国家体育事件的新闻文章会表示另一个块。块对页面的重要性会表明用户在浏览网页时注意该块的概率。页面对块的重要性会表明用户从块选择指向该页面的链接的概率。图像对块的重要性会表明用户在浏览块时注意该图像的概率。在计算这些成对的页面和块以及成对的图像和块的重要性的数字指标之后,链接分析系统通过结合计算的块对页面的重要性、计算的页面对块的重要性、以及计算的图像对块的重要性来产生每幅图像与每幅其他图像的相关度的指标。因为一幅图像与另一幅图像的相关度是基于块级别的重要性而不是页面级别的重要性,因而该相关度是比常规的基于链接的搜索引擎更准确的相关度表示。
链接分析系统也会使用图像的相关度以产生图像的排列。排列可以是基于开始浏览任意图像的用户在图像之间任意次地转变之后将转变到另一幅图像的概率。链接分析系统也会根据图像的相关度产生图像的矢量表示,并将群群集算法应用于矢量表示以识别相关图像群。
附图1表示在网页的样本集合中块、图像和链接的框图。该网页集合包括网页1-4。网页中的块用矩形表示,块内的图像用圆表示,以及块内的链接用从块指向链接到的网页的箭头来表示。网页1包含块1,块1包含图像1和2以及链接1和2。网页2包含块2和块3,块2包含图像3和链接3,块3包含图像4和链接4。网页3包含块4和块5,块4包含图像5以及链接5和6,块5包含图像6和链接7。网页4包含块5,块5包含图像7、8、9和10以及链接8。因为链接分析系统是基于块上的而不是整个网页的图像相关度,因而一幅图像到其他图像的相关度有可能是基于更准确的图像主题的表示。例如,网页2包含块2和块3,它们会分别指向不同的主题,诸如国际政治事件和国内体育事件。链接分析系统可以识别到,由于包括图像4的块3具有到网页4的链接4,因而图像4与网页4的图像比起网页3的图像联系更为紧密。例如,网页4比网页3更有可能是涉及体育的,因为块3包含到网页4的链接,而不是到网页3的。同样,图像4比对网页3的图像5和6更有可能涉及图像7、8、9和10。不是基于块级别的分析的技术会识别图像4是同等地涉及网页3和网页4的,因为这些技术并不区分网页2上的块3和块2。
在一个实施例中,链接分析系统为每个块和页面的结合计算页面对块的重要性,作为选择该块链接的用户将选择到该页面链接的概率。如果块没有到页面的链接,那么概率为0。如果块有到页面的链接,那么链接分析系统会假设用户以相等的概率选择该块的每一个链接。块到页面的概率矩阵由以下公式定义
其中Zij表示选择块i链接的用户将选择到页面j的链接的概率,si是块i内的链接数。附图1的网页的块到页面矩阵Z如表1所示。表1的行表示块,以及列表示页面。在该示例中,选择块4链接的用户将选择到网页2的链接的概率为.5。
表1

在一个实施例中,链接分析系统为每个页面和块的结合计算块对页面的重要性,作为该块成为页面中最重要块的概率。没有包含在页面中的块成为该页面中最重要块的概率为0。链接分析系统会假设包含在页面上的每个块成为最重要的块是具有同等概率的。由以下公式定义页面到块概率矩阵

其中,Xij表示块j是页面i最重要块的概率,以及si是页面i上的块数。
在一个实施例中,链接分析系统根据块的位置、大小、字体、颜色和其他物理属性计算块是页面中最重要块的概率。例如,位于页面中间的大块会比位于页面左下角的小块更重要。于2004年4月29日申请的美国专利申请号为_____,名为“Method and System for Calculating Importace of Block Within aDisplay Page”描述了用于计算块的重要性和块的相干相关程度的技术,在这里并入其全文以供参考。页面到块的矩阵X更普遍的表示为

其中,fpi是表示块j是页面i最重要块的概率的函数。在一个实施例中,函数fpi定义为当显示页面i时由从屏幕中心到块中心的距离划分的块j的大小。函数f定义如下

其中α是确保块的函数值之和为1的标准化因子。函数f可以认为是用户浏览页面i时关注于块j的概率。附图1的网页的页面到块矩阵X如表2所示。表2的行表示页面,而列表示块。在该示例中,块4是网页3的最重要块的概率是.8。
表2

在一个示例中,链接分析系统为每个块和网页组合计算图像对块的重要性作为图像成为块的最重要图像的概率。如果块不包含某一图像,那么该图像成为块的最重要图像的概率为0。链接分析系统会假设块的每幅图像是最重要的概率相同。链接分析系统能使用其他图像对块重要性方法,例如根据图像的相对大小,图像在块内的位置等。块到图像的概率矩阵由下列等式定义

其中Yij表示图像j是块i的最重要图像的概率,而si是块i中图像数目。附图1的网页的块到矩阵Y如表3所示。表3的行表示块,而列表示图像。在该示例中,图像2是块1的最重要图像的概率是.5。
表3

在一个实施例中,链接分析系统为每对排列的页面计算一个页面对另一个页面的重要性,作为正浏览该对的第一页面的用户将选择指向该对的第二页面的概率。链接分析系统,通过将第一页面的每个块,都用该块成为第一页面最重要块的概率乘以第二页面是对该块最重要网页并将乘积求和,以此来计算每一对的概率。因此,一个页面对另一个页面的重要性在于用户会愿意选择页面最重要块内的链接。这些页面到页面的概率矩阵由以下表示WP=XZ (6)其中WP表示网页到网页矩阵。W的概率可以另外表示为Prob(β|α)=∑b∈aProb(β|b)Prob(b|α) (7)其中α表示该对的第一页面,而β表示该对的第二页面。附图1的网页的页面到页面矩阵WP如表4所示。在该示例中,正浏览页面3的用户将转换到网页2的概率为.4。
表4

链接分析系统为每对排序的块计算一个块对另一个块的重要性作为正在浏览该对的第一块的用户将选择指向包含该对第二块的网页的链接并发现第二块是该页面最重要的概率。链接分析系统通过用选择第一块的链接的用户将选择用于包含第二块的页面的链接的概率乘以第二块成为该页面最重要的块的概率并将乘积求和,来为每一对计算其概率。因此,一个块对另一块的重要性表示正浏览第一块的用户将选择指向包含第二块的页面的链接并关注于第二块。这些块到块的概率矩阵由以下表示WB=ZX(8)其中WB表示块到块矩阵。W的概率可以另外表示为WB(a,b)=prob(b|a)=∑γ∈PProb(γ|α)Prob(b|γ)=Prob(β|α)Prob(b|β) (9)
=Z(α,β)X(β,b),a,b∈B对于附图1的网页的块到块矩阵WB如表5所示。在该示例中,正浏览块4的用户跳到网页2并将注意力关注于块3的概率是.25。
表5

在一个实施例中,在块到块矩阵的链接分析系统因子概率表示相同网页上的两个块是相关的。修正的块到块矩阵如下所示WB=(1-t)ZX+tDU (10)其中D是对角矩阵Dij=∑jUij,U是相干相干矩阵,以及t是权因子。矩阵U的定义如下

其中DOC是包含块i和块j的最小块的相干度。权因子t一般会设置为小值(例如,小于.1),因为在大多数情况下,在同一网页上的不同块涉及不同的主题。
链接分析系统为每对图像计算该对的第一幅图像与该对的第二幅图像相关的概率。链接分析系统通过对于结合包含第一幅图像的每个块对包含第二幅图像的每个块的概率的块到块概率进行求和来计算概率。这些概率的图像到图像矩阵如下所示WI=YTWBY (12)其中WI表示图像到图像矩阵。附图1的网页的图像到图像矩阵WI如表6所示。在该示例中,正浏览块10的用户将接着浏览网页3并关注于块5的概率是.05。
表6

在一个实施例中,链接分析系统将图像到图像矩阵因子乘以同一页面上的两个块是相关的概率。修正的图像到图像矩阵如下所示WI=tDYTY+(1-t)YTWBY (13)其中t是权因子,而D是表示如下的对角矩阵Dii=Ej(YTY)ij(14)权因子t会设置为大值(例如,.7-.9),因为同一块中的两幅图像可能是相关的。
在一个实施例中,链接分析系统产生来自图像到图像矩阵的、表示每幅图像的矢量。链接分析系统使用最小平方方法产生矢量,其中由图像到图像矩阵表明一对图像之间的相似性的因子。链接分析系统最初将图像到图像矩阵转换为相似矩阵,如下所示S=(WI+WIT)/2---(15)]]>其中S表示相似矩阵。如果yi是表示图像i的矢量,那么图像矢量的最佳集合是使用下列目标函数获得的y=(y1,…ym)miny∑i,j(yi-yj)2Si,j---(16)]]>如果D是对角矩阵,Dii是相似矩阵S的第i行的值之和,那么最小化问题化简为如下
minyTy=1yTLy---(17)]]>其中L等于D-S。由最小特征值方法给出解决一般特征值问题的解Ly=λy (18)如果(y0,λ0),(y1,λ0),……,(ym-1,λm-1)是等式16的解,并且λ0<λ1<……<λm-1,那么λ0=0并且y0=(1,1,……,1)。链接分析系统选择特征向量I到K表示k维欧几里得空间的图像。一幅图像的矢量如下所示imagej←(yI(j),…yk(j)) (19)其中yi(j)表示yi的第j个单元。
链接分析系统通过用向量表示每幅图像来识别相关图像群,以使图像矢量之间的距离表示它们的语义相似性。可以将不同的群集算法应用于图像矢量以识别语义相关的图像群。这些群集算法会包括光谱图表理论的Fiedler矢量,k-手段群集,等等。
图像群集可以用于支持浏览。例如,当浏览网页时,用户可以选择一幅图像并请求看相关图像。然后,可以显示包含与所选择的图像群集在一起的图像的网页作为请求结果。在一个实施例中,可以以基于在每幅图像的图像矢量和所选择图像的图像矢量之间的距离的顺序来表示网页。
图像群集也可以用于提供语义相关的图像的多维显示。可以为网页集的图像产生图像矢量。一旦识别群,系统能根据不同的特征向量在表示群的二维网格上的每个群的指示。
链接分析系统能根据图像到图像矩阵来排列图像。图像到图像矩阵表示从图像转换到图像的概率。用户将可能随机转换到一幅图像。为解释这个,链接分析系统产生概率转换矩阵,该矩阵将该随机性乘入到图像到图像矩阵如下P=εW+(1-ε)U (20)其中P是概率转换矩阵,ε是权因子(例如,0.1~0.2),以及U是统一转换概率的转换矩阵(对于所有的i,j,Uij=1/m)。由于U的引入,因而连接图表并存在图表的随机移动的静态分布。图表排列如下所示PTπ=π (21)其中,π是表示图像排列的特征值为1的PT的特征向量,其中特征值表示图像排列。π=(π1,π1,…,πm)表示静态概率分布,而πi表示图像i的排列。
附图2是描述在一个实施例中链接分析系统的组件的框图。链接分析系统200包括网页存储装置201、计算图像排列组件202、识别图像群组件203、以及产生图像到图像矩阵组件211。产生图像到图像矩阵组件211使用识别块组件212、产生块到页面矩阵组件213、产生页面到块矩阵组件214、以及产生块到图像矩阵组件215,以产生表明图像到图像相关度的矩阵。网页存储器包含网页的集合。计算图像排列组件使用产生图像到图像组件以计算图像的相关度然后使用那些相关度的计算来排列图像。识别图像群组件使用产生图像到图像矩阵组件以计算图像的相关度,根据矩阵产生图像的矢量表示,并使用产生的矢量来识别图像群。虽然在附图2中未示出,链接分析系统也可以包括用于计算网页而不是图像的排列单元的组件。例如,链接分析系统会将等式20和21的排列应用到块到块矩阵以排列块,并应用到页面到页面矩阵以排列页面自身。
链接分析系统在其上实施的计算设备包括中央处理单元、存储器、输入设备(例如,键盘或指示设备)、输出设备(例如,显示设备),以及存储设备(例如,硬盘驱动器)。存储器和存储设备是可以包含实施链接分析系统的指令的计算机可读介质。此外,数据结构和信息结构可以经由数据传输介质存储或传输,诸如在通信链接上的信号。能使用各种通信链接,例如,因特网、局域网、广域网或点对点拨号连接。
附图2描述其中可以实施链接分析系统的合适操作环境的示例。操作环境仅是合适操作环境的一个示例,而不是用于限制链接分析系统的用途或功能的范围。其它适合使用的、已知计算机系统、环境和配置包括个人计算机,服务器计算机,手持或台式计算机设备,多处理器系统,基于微处理器的系统,可编程用户电子设备,网络PC,微计算机,大型计算机,包括任何上述系统或设备的分布式计算环境,等等。
可以在计算机可执行指令的一般环境下描述链接分析系统,所述指令诸如由一个或多个计算机或其它设备执行的程序模块。一般而言,程序模块包括执行特定任务或实施特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。通常,可以根据各种实施例的需要来结合或分配程序模块的功能。
附图3是描述在一个实施例中产生图像到图像的矩阵组件处理的流程图。在块301,组件识别存储在网页存储装置中的网页内的块。在块302,组件调用产生块到页面矩阵组件。在块303,组件调用产生页面到块矩阵组件。在块304,组件调用产生块到图像矩阵组件。在块305,组件产生块到块矩阵。在块306,组件产生图像到图像矩阵然后结束。
附图4是描述在一个实施例中产生块到页面的矩阵组件处理的流程图。在块401-408,组件循环选择每个网页,每个网页内的每个块,以及每个块内的每个链接,并设置由该链接链接到块的页面的重要性。在块401,组件选择下一个页面。在决定块402,如果所有页面都已经选择过了,那么组件返回到块到页面矩阵,否则组件继续块403。在块403,组件选择选中页面的下一个块。在决定块404,如果选定页面的所有块都已选择过了,那么组件循环到块401以选择下一个页面,否则组件继续块405。在块405,组件计算选中块内的链接数。在块406,组件选择选中块的下一个链接的链接到页面。在决定块407,如果选定块的所有链接到页面都已经选择过了,那么组件循环到块403以选择下一个块,否则组件继续块408。在块408,组件设置链接到页面到块的重要性然后循环到块406以选择选中块的下一个链接的链接到页面。
附图5是描述在一个实施例中产生页面到块矩阵组件处理的流程图。在块501-506,组件循环选择每个页面和每个页面内的每个块并设置块到所选择页面的重要性。在块501,组件选择网页存储装置的下一个页面。在决定块502,如果所有页面都已选择过了,那么组件返回到页面到块的矩阵,否则组件继续块503。在块503,组件选择所选定页面的下一个块。在决定块504,如果选中页面的所有块都已经选择过了,那么组件循环到块501以选择下一个页面,否则组件继续块505。在块505,组件计算选中块到选中页面的重要性。在块506,组件设置选中块到选中页面的重要性并然后循环到块503以选择选中页面的下一个块。
附图6是描述在一个实施例中,产生块到图像矩阵组件处理的流程图。在块601-607中,组件循环选择每个页面,每个页面内的每个块,以及每个块内的每幅图像,并设置图像到选定块的重要性。在块601,组件选择网页存储装置的下一个页面。在决定块602,如果所有页面都已选择过了,那么组件返回块到图像矩阵,否则组件继续块603。在块603,组件选择选中页面的下一个块。在决定块604,如果选定页面的所有的块都已经选择过了,那么组件循环到块601以选择下一个页面,否则组件继续到块605。在块605,组件计算选中块的图像数。在块606,组件选择选中块的下一个图像。在决定块607,如果选定块的所有的图像都已经选择过了,那么组件循环到块603已选择下一个块,否则组件继续块608。在块608,组件设置选中图像到选中块的重要性然后循环到块606以选择选中块的下一个图像。
熟知本领域的人士将理解,虽然这里为了便于解释已描述链接分析系统的具体实施例,但是可在不背离本发明精神和范围的情况下作出各种改变。因此,除了所附权利要求之外不能用于限制本发明。
权利要求
1.一种用于在计算机系统中确定页面的块内图像之间相关度的方法,该方法包括计算块对页面的重要性指标;计算页面对块的重要性指标;计算图像对块的重要性指标;以及通过结合块对页面的重要性指标、页面对块的重要性指标,以及图像对块的重要性指标,来计算一幅图像对另一幅图像的图像对图像的相关度指标。
2.如权利要求1所述的方法,其中页面对块的重要性指标是用户将从每个块选择指向每个其它页面的链接的概率。
3.如权利要求1所述的方法,其中块对页面的重要性指标是用户将关注于页面的每个块的概率。
4.如权利要求1所述的方法,其中图像对块的重要性指标是用户将关注于每个块的每幅图像的概率。
5.如权利要求1所述的方法,其中页面对块的重要性指标是用户将从每个块选择指向每个其它页面的链接的概率,块对页面的重要性指标是用户将关注于页面的每个块的概率,以及图像对块的重要性指标是用户将关注于每个块的每幅图像的概率。
6.如权利要求1所述的方法,包括根据图像对图像的指标计算图像的排列。
7.如权利要求6所述的方法,其中所计算的排列是基于开始于任意图像的用户在图像间进行任意多数量的转移之后转移到另一幅图像的概率。
8.如权利要求1所述的方法,其中如下计算图像对图像指标WI=YTWBY其中,WI是图像对图像的指标的矩阵,Y是图像对块的指标的矩阵,以及WB=ZX其中,WB是块对块的指标的矩阵,Z是页面对块的重要性指标的矩阵,以及X是块对页面的重要性指标的矩阵。
9.如权利要求1所述的方法,包括根据图像对图像的指标产生每幅图像的矢量表示;以及根据它们的矢量表示来识别图像群,其中群中图像是相关的。
10.一种用于在计算机系统中确定页面中块之间的相关度的方法,该方法包括计算页面对块的重要性指标;计算块对页面的重要性指标;以及通过结合块对页面的重要性指标和页面对块的重要性指标,来计算一个块到另一个块的块到块的相关度指标。
11.如权利要求10所述的方法,其中页面对块的重要性指标是用户将从每个块选择指向每个其它网页的链接的概率。
12.如权利要求10所述的方法,其中块对页面的重要性指标是用户将关注于页面内每个块的概率。
13.如权利要求10所述的方法,其中页面对块的重要性指标是用户将从每个块选择将指向每个其它网页的链接的概率,以及块对页面的重要性指标是用户将关注于页面每个块的概率。
14.如权利要求10所述的方法,包括根据块到块指标计算块的排列。
15.如权利要求14所述的方法,其中所计算的排列是基于开始于任意块的用户在图像间进行任意多数量的转移之后转移到另一幅图像的概率。
16.如权利要求10所述的方法,其中如下计算块到块的指标WB=ZX其中X是块对页面的重要性指标的矩阵,以及Z是页面对块的重要性指标的矩阵。
17.一种用于在计算机系统中确定具有块的页面之间相关度的方法,该方法包括计算页面对块的重要性指标;计算块对页面的重要性指标;以及通过结合块对页面的指标和页面对块的指标,来计算一个页面对另一个页面的页面到页面的相关度指标。
18.如权利要求17所述的方法,其中页面对块的重要性指标是用户将从每个块选择指向每个其它网页的链接的概率。
19.如权利要求17所述的方法,其中块对页面的重要性指标是用户将关注于页面每个块的概率。
20.如权利要求17所述的方法,其中块对页面的重要性指标是用户将关注于页面每个块的概率,以及页面对块的重要性指标是用户将从每个块选择指向每个其它网页的链接的概率。
21.如权利要求17所述的方法,包括根据页面到页面指标计算页面的排列。
22.如权利要求21所述的方法,其中所计算的排列是基于开始于任意页面的用户在图像间进行任意多数量的转移之后转移到另一幅图像的概率。
23.如权利要求17所述的方法,其中如下计算页面到页面的指标WP=WZ其中,WP是页面到页面的指标的矩阵,X是块对页面的重要性指标的矩阵,以及Z是页面对块的重要性指标的矩阵。
24.一种用于在计算机系统中识别在具有链接的页面上的相关图像的方法,每个链接从包含图像的页面上的块指向具有包含另一幅图像的另一个块的页面,该方法包括对于每幅图像,对每一其他图像计算如果用户正在浏览该图像那么用户将选择从包含该图像的页面上的块指向具有包含该其他图像的块的另一页面的链接的概率;对于每幅图像,根据计算的概率,产生该图像的矢量表示;以及根据图像的矢量表示来识别图像群,其中群中的图像是相关的。
25.如权利要求24所述的方法,其中产生矢量表示包括选择最小化目标函数的矢量表示。
26.如权利要求26所述的方法,其中目标函数是每对图像的矢量表示之间距离的平方和乘以来自所计算的概率的该图像对的相似性。
27.如权利要求24所述的方法,其中计算概率包括计算表明用户将从每个块选择指向每个其它页面的链接的概率的概率,表明用户将关注于该页面的每个块的概率的概率,以及表明用户将关注于每个块的每个图像的概率的概率。
28.一种计算机可读介质,包含用于控制计算机系统确定页面单元之间的相关度的指令,该方法包括计算第一单元对第二单元的重要性指标;计算第二单元对第一单元的重要性指标;以及通过结合第一单元对第二单元的重要性指标以及第二单元对第一单元的重要性指标,来计算第一单元对另一个第一单元的相关度指标。
29.如权利要求28的计算机可读介质,其中第一单元是页面而第二单元是页面的块。
30.如权利要求28的计算机可读介质,其中第一单元是页面的块而第二单元是页面。
31.如权利要求28的计算机可读介质,其中第一单元是页面的块的图像而第二单元是块。
32.如权利要求28的计算机可读介质,其中重要性指标是概率。
33.一种用于确定页面的块内图像之间相关度的计算机系统,包括页面对块的重要性指标;块对页面的重要性指标;图像对块的重要性指标;以及用于通过结合块对页面的重要性指标、页面对块的重要性指标、以及图像对块的指标,来计算一幅图像到另一幅图像的图像对图像的相关度指标的装置。
34.如权利要求33的计算机系统包括用于将页面对块的重要性指标计算为用户将从每个块选择指向每个其它页面的概率的装置。
35.如权利要求33的计算机系统包括用于将块对页面的重要性指标计算为用户将关注于页面的每个块的概率的装置。
36.如权利要求33的计算机系统包括用于将图像对块的重要性指标计算为用户将关注于每个块的每个图像的装置。
37.如权利要求33的计算机系统包括用于根据图像对图像的指标来计算图像排列的装置。
38.如权利要求37的计算机系统,其中所计算的排列是基于开始于任意图像的用户在图像间进行任意多数量的转移之后转移到另一幅图像的概率。
39.如权利要求33的计算机系统包括用于根据图像对图像的指标来产生每幅图像的矢量表示的装置;以及用于根据图像的矢量表示来识别图像群的装置,其中群中的图像是相关的。
全文摘要
一种用于根据链接和页面布局分析来确定页面图像相关度的方法和系统。链接分析系统通过首先识别网页内的块,然后分析块对网页、网页对块、以及图像对块的重要性,来确定图像之间的相关度。根据该分析,链接分析系统确定每幅图像与其它各幅图像的相关度。链接分析系统也可以使用图像的相关度产生图像的排列。链接分析系统也可以根据图像的相关度产生图像的矢量表示,并将群集算法应用于矢量表示以识别相关图像群。
文档编号G06F17/30GK1694102SQ20051007922
公开日2005年11月9日 申请日期2005年4月29日 优先权日2004年4月29日
发明者蔡登 , 文继荣, 马维英, X·何 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1