一种用于获取页面相似度的方法与设备与流程

文档序号:14302700阅读:183来源:国知局
一种用于获取页面相似度的方法与设备与流程

本发明涉及计算机技术领域,尤其涉及一种获取页面相似度的技术。



背景技术:

在现有技术中一般基于网页关键词对网页进行相似度判定,例如可通过对网页进行解析以提取网页关键词,随后查询包含全部或大部分该网页关键词的其他网页,接着计算该两个网页的关键词重叠度以确定其页面相似度。现有技术的缺陷在于由于没有考虑到不同页面块在整个页面中的不同权重,当相互比较的两个页面中一个页面包含例如留言块时,该两个页面的关键词重叠度可能不高,但该两个页面的其他页面块的内容可能相似,因此会造成较高的误判率,从而导致对页面相似度的判断准确性较低,进一步会降低过滤重复网页的准确性。

因此,如何实现有效地获取页面相似度,成为目前亟待解决的问题之一。



技术实现要素:

本发明的目的是提供一种用于获取页面相似度的方法与设备。

根据本发明的一个方面,提供了一种计算机实现的用于获取页面相似度的方法,该方法包括以下步骤:

a确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;

b根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。

根据本发明的另一方面,还提供了一种用于获取页面相似度的设备,该设备包括:

第一相似度确定装置,用于确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;

第二相似度确定装置,用于根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。

与现有技术相比,本发明中首先确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度,接着根据两个页面中各个页面块的权重及其块相似度,加权确定该两个页面的页面相似度,从而将页面块的权重引入页面相似度判定标准中,通过对不同页面块的准确赋权,体现出不同页面块的价值差异,从而获得更为准确的页面相似度判定结果,进一步为保证较高的过滤重复网页准确性提供了保证。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本发明一个方面的用于获取页面相似度的设备示意图;

图2示出根据本发明一个优选实施例的用于获取页面相似度的设备示意图;

图3示出根据本发明另一优选实施例的用于获取页面相似度的设备示意图;

图4示出根据本发明又一优选实施例的用于获取页面相似度的设备示意图;

图5示出根据本发明另一个方面的用于获取页面相似度的方法流程图;

图6示出根据本发明一个优选实施例的用于获取页面相似度的方法流程图;

图7示出根据本发明另一优选实施例的用于获取页面相似度的方法流程图;

图8示出根据本发明又一优选实施例的用于获取页面相似度的方法流程图;

图9示出根据本发明一个方面的用于获取页面相似度的示例图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于获取页面相似度的设备示意图。其中,获取设备1包括第一相似度确定装置111和第二相似度确定装置112。

在此,获取设备1是网络设备,其中,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

以下参照图1来对获取设备1获取页面相似度的过程进行详细描述:

具体地,第一相似度确定装置111确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度。

在此,所述页面块意指页面中显示的特定内容块,其包括但不限于以下至少任一项:

1)标题块;

2)正文块;

3)图片块;其包括图片标题、图片摘要等信息。

4)超文本链接块;

5)广告块。

本领域技术人员应能理解上述页面块仅为举例,其他现有的或今后可能出现的页面块如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在此,所述确定块相似度的方式包括但不限于以下任一方式:

-确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的对应关系;当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块一一对应时,则确定该一个页面中与该另一页面中对应的页面块的块相似度;该方式的具体实施例将在后续予以详细阐述。

-当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块不一一对应时,则将该一个页面中类型相同的页面块及该另一页面中类型相同的页面块分别进行合并,以使得该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块相对应;根据该两个页面中合并后的相对应的页面块,以确定该一个页面中与该另一页面中相对应的页面块的块相似度;该方式的具体实施例将在后续予以详细阐述。

-当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块不一一对应,且不对应的页面块的类型不相同时,则根据不对应的页面块的类型,在预定的质量指数列表中进行匹配查询,确定所述不对应的页面块的质量指数;根据该(等)不对应的页面块的质量指数,基于预定判断规则,判断是否保留该(等)不对应的页面块的权重;该方式的具体实施例将在后续予以详细阐述。

在一示例中,第一相似度确定装置111确定页面A中的标题块 a1和正文块a2与页面B中的标题块b1和正文块b2分别一一对应(如图9所示),则第一相似度确定装置111提取页面A中标题块a1的文本内容,并通过语义分析的方式,获取该文本内容中的最长字符串,接着将该最长字符串在页面B中标题块b1的文本内容中进行字符串匹配,以确定标题块b1的文本内容中是否包括该标题块a1中的最长字符串;然后,第一相似度确定装置111根据预定的相似度确定规则来确定两个页面的标题块之间的相似度,预定的相似度确定规则可基于标题块b1包含标题块a1中最长字符串的数量的比例来确定该相似度,如下式所示:

标题块相似度=(标题块b1包含标题块a1中最长字符串的数量) /(标题块a1的最长字符串的数量)

例如:

-若包括该最长字符串,则确定页面A中的标题块a1与页面B 中标题块b1之间的标题块相似度为1;

-若不包括该最长字符串,则确定页面A中的标题块a1与页面 B中标题块b1之间的标题块相似度为0;

随后,第一相似度确定装置111提取页面A中正文块a2的文本内容,并通过语义分析等方式,获取该文本内容中的预定数量的最长字符串,如3个最长字符串,接着将该等最长字符串在页面B中正文块b2的文本内容中进行字符串匹配,以确定正文块b2的文本内容中是否包括该正文块a2中的该3个最长字符串;然后,第一相似度确定装置,基于预定的相似度确定规则来确定两个页面的正文块的相似度,预定的相似度确定规则可基于正文块b2包含正文块a2中最长字符串的数量的比例来确定该相似度,如下式所示:

正文块相似度=(正文块b2包含正文块a2中最长字符串的数量) /(正文块a2的最长字符串的数量)

例如:

-若包括该三个最长字符串,则确定页面A中的正文块a2与页面B中正文块b2之间的正文块相似度为1;

-若不包括任一最长字符串,则确定该两个页面之间的正文块相似度为0;

-若包括该三个最长字符串中的两个最长字符串,则确定该两个页面之间的正文块相似度为0.7。

在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。

本领域技术人员应能理解上述确定块相似度的方式及预定相似度确定规则仅为举例,其他现有的或今后可能出现的确定块相似度的方式及预定相似度确定规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

接着,第二相似度确定装置112根据两个页面中各个页面块的权重及该等块相似度,加权确定该两个页面的页面相似度。

在此,获取所述页面块的权重的方式包括但不限于:

-根据页面块的类型,在预定权重查询表中进行匹配查询,以确定所述页面块的权重;其中,所述页面块的类型意指页面块在页面中的功能分类,例如,正文块的类型为正文,图片块的类型为图片;在此,所述预定权重查询表中包括但不限于页面块类型及其所对应的预定页面块的权重,其位于关系数据库、Key-Value存储系统、文件系统等。

本领域技术人员应能理解上述确定页面块的权重的方式仅为举例,其他现有的或今后可能出现的确定页面块的权重的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在一示例中,当页面A中包括标题块a1、正文块a2和图片块a3,页面B中包括标题块b1、正文块b2和图片块b3,且该两个页面中对应的标题块的块相似度为0,正文块的块相似度为0.7,图片块的块相似度为1时;首先,第二相似度确定装置112在预定权重查询表中进行匹配查询,以获得标题类型的页面块的权重为0.2、正文类型的页面块的权重为0.5、图片类型的页面块的权重为0.3,接着,第二相似度确定装置112将该等页面块的权重及对应块相似度进行加权计算,以获得页面相似度为0.65(=0.5*0.7+0.3*1+0.2*0)。

本领域技术人员应能理解上述确定页面相似度的方式仅为举例,其他现有的或今后可能出现的确定页面相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

优选地,第一相似度获取装置111和第二相似度确定装置112之间是持续不断地工作。具体地,第一相似度获取装置111持续地确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;接着,第二相似度确定装置112也持续地根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。在此,本领域技术人员应理解“持续”是指各装置不断进行上述块相似度的确定及页面相似度的确定,直至满足预定停止条件,例如第一相似度获取装置111在较长时间内停止确定块相似度。

图2示出根据本发明一个优选实施例的用于获取页面相似度的设备示意图。其中,第一相似度获取装置211包括对应关系确定单元2111 和第三相似度确定单元2112。

在此,图2中所示装置212的功能与前面参照图1所描述的装置 112的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

其中,对应关系确定单元2111确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的块对应关系;第三相似度确定单元 2112根据对应关系确定单元2111确定的块对应关系,对该一个页面与该另一个页面的对应的页面块进行比较,以确定块相似度。

具体地,对应关系确定单元2111分别对两个页面的标记语言文件进行解析,例如根据预定的标注信息进行字符串匹配,以确定该等标记语言文件中标注信息指向的页面块,即该等页面中的页面块;接着,对应关系确定单元2111根据该两个页面中的页面块,确定该两个页面中各个页面块的对应关系。

在此,所述标注信息在所述标记语言文件中的存储方式可为标记语言文件中的注释、标记语言文件中的定制标签、标记语言文件中的标签属性等。

在此,所述标记语言文件包括但不限于以下任一项:

1)HTML(超文本标记语言)文件;

2)XML(可扩展标记语言)文件;

3)XHTML(可扩展超文本标记语言)文件。

随后,当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块一一对应时,则第三相似度确定单元2112根据该一一对应关系,对该一个页面与该另一个页面的对应的页面块进行比较,以确定块相似度。

在此,所述确定块相似度的方式包括但不限于至少任一项:

1)当两个页面中的各个页面块完全一一对应时,则可针对每对页面块进行比较,以确定该每对页面块的块相似度;

2)当两个页面的各个页面块只有部分一一对应,则可将不对应页面块的块相似度确定为零。

在一示例中,对应关系确定单元2111分别对页面A和页面B的 HTML文件根据预定的HTML标签属性进行字符串匹配,以确定页面A中包括标题块a1、正文块a2和图片块a3,页面B中包括标题块 b1、正文块b2和图片块b3,则对应关系确定单元2111可确定页面A 中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2 与页面B中的正文块b2对应,页面A中的图片块a3与页面B中的图片块b3对应,即页面A中页面块与页面B中页面块完全一一对应;则第三相似度确定单元2112提取每对页面块中的文本内容,通过例如最长字符串匹配等方式,基于预定的相似度确定规则,确定每对页面块的块相似度。

在另一示例中,页面A中包括标题块a1、正文块a2和广告块a3,页面B中包括标题块b1、正文块b2和图片块b3,则对应关系确定单元2111可确定页面A中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2与页面B中的正文块b2对应,但页面A中的广告块a3在页面B中没有对应的页面块,且页面B中的图片块b3 在页面A中没有对应的页面块;则第三相似度确定单元2112确定该两个页面的广告块相似度和图片块相似度为零,同时提取相互对应的两对页面块中的文本内容,通过例如最长字符串匹配等方式,基于预定的相似度确定规则,确定该两对页面块的块相似度。

本领域技术人员应能理解上述确定块对应关系的方式和/或确定块相似度的方式仅为举例,其他现有的或今后可能出现的确定块对应关系的方式和/或确定块相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

图3示出根据本发明另一优选实施例的用于获取页面相似度的设备示意图。其中,第三相似度确定单元3112包括合并单元31121和第四相似度确定单元31122。

在此,图3中所示装置3111和312的功能与前面参照图2所描述的装置2111和212的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

具体地,当对应关系确定单元3111确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块不一一对应时,合并单元31121 将一个页面中类型相同的页面块及另一页面中类型相同的页面块分别进行合并,以使得该一个页面中的一个或多个页面块与另一页面中的一个或多个页面块相对应;第四相似度确定单元31122根据两个页面中合并后的一一对应的页面块,以确定该一个页面中与该另一页面中相对应的页面块的块相似度。

在一示例中,当页面A中包括正本块a1、a2、a3和图片块a4,页面B中包含正文块b1和图片块b2时,页面A中的正文块a1、a2、a3与页面B中包含正文块b1不一一对应,且其页面块的类型均为正文块;则合并单元31121提取页面A中的正文块a1、a2、a3的文本信息,将该等文本信息进行合并,并将合并后的文本信息作为正文块 a1’,以使得页面A中的正文块a1’与页面B中的正文块b1相互对应;接着,第四相似度确定单元31122根据两个页面中两对对应页面块,即页面A中的正文块a1’对应于页面B中的正文块b1及页面A中的图片块a4对应于页面B中的图片块b2,以确定该两对页面块的块相似度。

本领域技术人员应能理解上述合并页面块的方式和/或确定块相似度的方式仅为举例,其他现有的或今后可能出现的合并页面块的方式和/或确定块相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在一优选实施例中(参照图2),当所述一个页面中的一个或多个页面块与所述另一页面中的一个或多个页面块不一一对应,且所述不对应的页面块的类型不相同时,第三相似度确定单元2112单元根据不对应的页面块的类型,基于预定判断规则,判断是否保留该等不对应的页面块的权重;其中,第二相似度确定装置212根据该两个页面中保留的页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。

以下参照图2对该另一优选实施例进行详细描述,其中,对应关系确定单元2111确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的块对应关系;其具体过程与前述参照图2所描述的实施例中对应关系确定单元2111所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。

在此,所述基于预定判断规则判断是否保留不对应的页面块的权重的情形包括但不限于以下任一项:

1)根据不对应的页面块的类型,在权重保留列表中进行匹配查询,以判断是否保留不对应的页面块的权重;在此,所述权重保留列表中包括页面块的类型及其是否保留该类型页面块的权重的判断信息,其可位于关系数据库、Key-Value存储系统、文件系统等。

2)根据不对应的页面块的类型,来确定该等页面块的质量信息;进而基于预定判断规则判断是否保留不对应的页面块的权重;该方式的具体实施例将在后续予以详细阐述。

在一示例中,页面A中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2与页面B中的正文块b2对应,页面A中的广告块a3在页面B中没有对应的页面块,其类型为广告,且页面 B中的图片块b3在页面A中没有对应的页面块,其类型为图片;第三相似度确定单元2112根据该两个页面块的类型,在权重保留列表中进行匹配查询,以获得不保留广告块的权重、但需保留图片块b3 的权重的判断信息,并可确定该两个页面的图片块相似度为0;同时,第三相似度确定单元2112对标题块a1与标题块b1、正文块a2与正文块b2分别进行比较,以确定标题块相似度为0.7、正文块相似度为0.5;第二相似度确定装置212在预定权重查询表中进行匹配查询,以获得标题块的权重为0.2、正文块的权重为0.5、图片块的权重为0.2、广告块的权重为0.1,根据第三相似度确定单元2112的判断信息,加权获得页面相似度为0.39(=0.5*0.5+0.2*0.7+0.2*0)。

本领域技术人员应能理解上述判断是否保留权重的方式和/或确定页面相似度的方式仅为举例,其他现有的或今后可能出现的判断是否保留权重的方式和/或确定页面相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

优选地,当一个页面中的一个或多个页面块与另一页面中的一个或多个页面块不一一对应时,可将两个页面中类型相同的页面块进行合并,以使得该两个页面中的页面块相对应;同时根据该两个页面中仍然不对应的页面块的类型,基于预定判断规则,判断是否保留该(等) 不对应的页面块的权重;随后,根据该两个页面中保留的页面块的权重及块相似度,加权确定该两个页面的页面相似度。

更优选地(参照图2),获取设备1还包括质量信息确定装置(未示出)。

其中,质量信息确定装置根据不对应的页面块的类型,来确定该等页面块的质量信息;其中,基于预定判断规则判断是否保留不对应的页面块的权重的步骤包括:

-当判断不对应的页面块的质量指数大于预定质量指数阈值,则保留该(等)不对应的页面块的权重,以用于确定两个页面的页面相似度;

-当判断不对应的页面块质量指数小于预定质量指数阈值,则不保留该(等)不对应的页面块的权重。

在一示例中,不对应的页面块的类型为广告块和留言块,质量信息确定装置根据该两个页面块的类型,在质量指数表中进行匹配查询,以确定广告块的质量指数为2、且留言块的质量指数为1;第三相似度确定单元2112判断广告块的质量指数2大于预定质量指数阈值范围最小值1.5,且判断留言块的质量指数1小于预定质量指数阈值范围最小值1.5,则确定保留广告块的权重且不保留留言块的权重;在此,所述质量指数表中包括页面块类型及其所对应的质量指数;其可位于关系数据库、Key-Value存储系统、文件系统等。

本领域技术人员应能理解上述确定页面块的质量信息的方式和/ 或判断是否保留页面块的权重的方式仅为举例,其他现有的或今后可能出现的确定页面块的质量信息的方式和/或判断是否保留页面块的权重的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

图4示出根据本发明又一优选实施例的用于获取页面相似度的设备示意图。其中,第二相似度确定装置412包括权重确定单元4121和第五相似度确定单元4122。

在此,图4中所示装置411的功能与前面参照图1所描述的装置111 的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

权重确定单元4121根据各个页面块的相关信息,基于预定权重规则,确定该各个页面块的权重;第五相似度确定单元4122根据该各个页面块的权重及第一相似度确定装置411确定的块相似度,加权确定两个页面的页面相似度。

在此,所述页面块相关信息包括但不限于以下至少任一项:

1)页面块类型;例如,正文类型、图片类型、广告类型等;

2)页面块在所属页面中的位置信息;

a)当页面块位于页面中的视觉中心位置时,则可确定该页面块的权重高;

b)当页面块位于页面中的非视觉中心位置时,如位于页面左右侧、页面底部,则可确定该页面块的权重低;

3)页面块在所属页面中的面积比例;

a)当页面块在页面中的所占面积比例大于预定面积比例阈值,则可确定该页面块的权重高;

b)当页面块在页面中的所占面积比例小于预定面积比例阈值,则确定该页面块的权重低。

本领域技术人员应能理解上述页面块相关信息仅为举例,其他现有的或今后可能出现的页面块相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

其中,基于预定权重规则获取所述各个页面块的权重的方式包括:

-根据所述页面块的相关信息,在预定权重查询表中进行匹配查询,以确定所述页面块的权重;在此,所述预定权重查询表中包括页面块相关信息及其所对应的页面块的权重,其位于关系数据库、Key-Value存储系统、文件系统等。

在一示例中,页面A中包括正文块a1,其位于页面的中心位置且其面积占页面总面积的50%;图片块a2,其位于页面的上方位置且其面积占页面总面积的30%;广告块a3,其位于页面的底部且其面积占页面总面积的20%;页面B中包括正文块b1,其位于页面的中心位置且其面积占页面总面积的70%;图片块b2,其位于页面的下方位置且其面积占页面总面积的30%;广告块a3,其位于页面的右侧且其面积占页面总面积的20%;则权重确定单元4121根据各个页面块的位置信息与面积信息,在预定权重查询表中进行匹配查询,以确定页面A中正文块的权重为0.5、图片块的权重为0.4且广告块的权重为0.1,确定页面B中正文块的权重为0.8、图片块的权重为0.1且广告块的权重为0.1;第五相似度确定单元4122根据该各个页面块的权重及第一相似度确定装置411 确定的正文块相似度为0.6、图片块相似度为1、广告块的相似度为0,加权确定两个页面的页面相似度为0.64

图5示出根据本发明一个方面的用于获取页面相似度的方法流程图。

在此,获取设备1是网络设备,其中,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

以下参照图5来对获取设备1获取页面相似度的过程进行详细描述:

具体地,在步骤S501中,获取设备1确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度。

在此,所述页面块意指页面中显示的特定内容块,其包括但不限于以下至少任一项:

1)标题块;

2)正文块;

3)图片块;其包括图片标题、图片摘要等信息。

4)超文本链接块;

5)广告块。

本领域技术人员应能理解上述页面块仅为举例,其他现有的或今后可能出现的页面块如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在此,所述确定块相似度的方式包括但不限于以下任一方式:

-确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的对应关系;当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块一一对应时,则确定该一个页面中与该另一页面中对应的页面块的块相似度;该方式的具体实施例将在后续予以详细阐述。

-当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块不一一对应时,则将该一个页面中类型相同的页面块及该另一页面中类型相同的页面块分别进行合并,以使得该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块相对应;根据该两个页面中合并后的相对应的页面块,以确定该一个页面中与该另一页面中相对应的页面块的块相似度;该方式的具体实施例将在后续予以详细阐述。

-当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块不一一对应,且不对应的页面块的类型不相同时,则根据不对应的页面块的类型,在预定的质量指数列表中进行匹配查询,确定所述不对应的页面块的质量指数;根据该(等)不对应的页面块的质量指数,基于预定判断规则,判断是否保留该(等)不对应的页面块的权重;该方式的具体实施例将在后续予以详细阐述。

在一示例中,在步骤S501中,获取设备1确定页面A中的标题块a1和正文块a2与页面B中的标题块b1和正文块b2分别一一对应 (如图9所示),则获取设备1提取页面A中标题块a1的文本内容,并通过语义分析的方式,获取该文本内容中的最长字符串,接着将该最长字符串在页面B中标题块b1的文本内容中进行字符串匹配,以确定标题块b1的文本内容中是否包括该标题块a1中的最长字符串;然后,获取设备1根据预定的相似度确定规则来确定两个页面的标题块之间的相似度,预定的相似度确定规则可基于标题块b1包含标题块a1中最长字符串的数量的比例来确定该相似度,如下式所示:

标题块相似度=(标题块b1包含标题块a1中最长字符串的数量) /(标题块a1的最长字符串的数量)

例如:

-若包括该最长字符串,则确定页面A中的标题块a1与页面B 中标题块b1之间的标题块相似度为1;

-若不包括该最长字符串,则确定页面A中的标题块a1与页面 B中标题块b1之间的标题块相似度为0;

随后,获取设备1提取页面A中正文块a2的文本内容,并通过语义分析等方式,获取该文本内容中的预定数量的最长字符串,如3 个最长字符串,接着将该等最长字符串在页面B中正文块b2的文本内容中进行字符串匹配,以确定正文块b2的文本内容中是否包括该正文块a2中的该3个最长字符串;然后,获取设备1基于预定的相似度确定规则来确定两个页面的正文块的相似度,预定的相似度确定规则可基于正文块b2包含正文块a2中最长字符串的数量的比例来确定该相似度,如下式所示:

正文块相似度=(正文块b2包含正文块a2中最长字符串的数量) /(正文块a2的最长字符串的数量)

例如:

-若包括该三个最长字符串,则确定页面A中的正文块a2与页面B中正文块b2之间的正文块相似度为1;

-若不包括任一最长字符串,则确定该两个页面之间的正文块相似度为0;

-若包括该三个最长字符串中的两个最长字符串,则确定该两个页面之间的正文块相似度为0.7。

在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。

本领域技术人员应能理解上述确定块相似度的方式及预定相似度确定规则仅为举例,其他现有的或今后可能出现的确定块相似度的方式及预定相似度确定规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

接着,在步骤S502中,获取设备1根据两个页面中各个页面块的权重及该等块相似度,加权确定该两个页面的页面相似度。

在此,获取所述页面块的权重的方式包括但不限于:

-根据页面块的类型,在预定权重查询表中进行匹配查询,以确定所述页面块的权重;其中,所述页面块的类型意指页面块在页面中的功能分类,例如,正文块的类型为正文,图片块的类型为图片;在此,所述预定权重查询表中包括但不限于页面块类型及其所对应的预定页面块的权重,其位于关系数据库、Key-Value存储系统、文件系统等。

本领域技术人员应能理解上述确定页面块的权重的方式仅为举例,其他现有的或今后可能出现的确定页面块的权重的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在一示例中,当页面A中包括标题块a1、正文块a2和图片块a3,页面B中包括标题块b1、正文块b2和图片块b3,且该两个页面中对应的标题块的块相似度为0,正文块的块相似度为0.7,图片块的块相似度为1时;首先,在步骤S502中,获取设备1在预定权重查询表中进行匹配查询,以获得标题类型的页面块的权重为0.2、正文类型的页面块的权重为0.5、图片类型的页面块的权重为0.3,接着,在步骤S502 中,获取设备1将该等页面块的权重及对应块相似度进行加权计算,以获得页面相似度为0.65(=0.5*0.7+0.3*1+0.2*0)。

本领域技术人员应能理解上述确定页面相似度的方式仅为举例,其他现有的或今后可能出现的确定页面相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

优选地,获取设备1在步骤S501中和在步骤S502中是持续不断地工作。具体地,在步骤S501中,获取设备1持续地确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;接着,在步骤S502中,获取设备1也持续地根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。在此,本领域技术人员应理解“持续”是指获取设备1在各步骤中不断进行上述块相似度的确定及页面相似度的确定,直至满足预定停止条件,例如获取设备1在较长时间内停止确定块相似度。

图6示出根据本发明一个优选实施例的用于获取页面相似度的方法流程图。其中,该过程中步骤S601包括步骤S6011和步骤S6012。

在此,图6中所示获取设备1在步骤S602中的功能与前面参照图5所描述的获取设备1在步骤S502中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

其中,在步骤S6011中,获取设备1确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的块对应关系;在步骤 S6012中,获取设备1根据其在步骤S6011中确定的块对应关系,对该一个页面与该另一个页面的对应的页面块进行比较,以确定块相似度。

具体地,在步骤S6011中,获取设备1分别对两个页面的标记语言文件进行解析,例如根据预定的标注信息进行字符串匹配,以确定该等标记语言文件中标注信息指向的页面块,即该等页面中的页面块;接着,获取设备1根据该两个页面中的页面块,确定该两个页面中各个页面块的对应关系。

在此,所述标注信息在所述标记语言文件中的存储方式可为标记语言文件中的注释、标记语言文件中的定制标签、标记语言文件中的标签属性等。

在此,所述标记语言文件包括但不限于以下任一项:

1)HTML(超文本标记语言)文件;

2)XML(可扩展标记语言)文件;

3)XHTML(可扩展超文本标记语言)文件。

随后,当该一个页面中的一个或多个页面块与该另一页面中的一个或多个页面块一一对应时,则在步骤S6012中,获取设备1根据该一一对应关系,对该一个页面与该另一个页面的对应的页面块进行比较,以确定块相似度。

在此,所述确定块相似度的方式包括但不限于至少任一项:

1)当两个页面中的各个页面块完全一一对应时,则可针对每对页面块进行比较,以确定该每对页面块的块相似度;

2)当两个页面的各个页面块只有部分一一对应,则可将不对应页面块的块相似度确定为零。

在一示例中,在步骤S6011中,获取设备1分别对页面A和页面 B的HTML文件根据预定的HTML标签属性进行字符串匹配,以确定页面A中包括标题块a1、正文块a2和图片块a3,页面B中包括标题块b1、正文块b2和图片块b3,则获取设备1可确定页面A中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2与页面 B中的正文块b2对应,页面A中的图片块a3与页面B中的图片块 b3对应,即页面A中页面块与页面B中页面块完全一一对应;则在步骤S6012中,获取设备1提取每对页面块中的文本内容,通过例如最长字符串匹配等方式,基于预定的相似度确定规则,确定每对页面块的块相似度。

在另一示例中,页面A中包括标题块a1、正文块a2和广告块a3,页面B中包括标题块b1、正文块b2和图片块b3,则在步骤S6011中,获取设备1可确定页面A中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2与页面B中的正文块b2对应,但页面A中的广告块a3在页面B中没有对应的页面块,且页面B中的图片块b3 在页面A中没有对应的页面块;则在步骤S6012中,获取设备1确定该两个页面的广告块相似度和图片块相似度为零,同时提取相互对应的两对页面块中的文本内容,通过例如最长字符串匹配等方式,基于预定的相似度确定规则,确定该两对页面块的块相似度。

本领域技术人员应能理解上述确定块对应关系的方式和/或确定块相似度的方式仅为举例,其他现有的或今后可能出现的确定块对应关系的方式和/或确定块相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

图7示出根据本发明另一优选实施例的用于获取页面相似度的方法流程图。其中,该过程中步骤S7012包括步骤S70121和步骤S70122。

在此,图7中所示获取设备1在步骤S7011和步骤S702中的功能与前面参照图6所描述的获取设备1在步骤S6011和步骤S602中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

具体地,当在步骤S7011中,获取设备1确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块不一一对应时,在步骤 S70121中,获取设备1将一个页面中类型相同的页面块及另一页面中类型相同的页面块分别进行合并,以使得该一个页面中的一个或多个页面块与另一页面中的一个或多个页面块相对应;在步骤S70122中,获取设备1根据两个页面中合并后的一一对应的页面块,以确定该一个页面中与该另一页面中相对应的页面块的块相似度。

在一示例中,当页面A中包括正本块a1、a2、a3和图片块a4,页面B中包含正文块b1和图片块b2时,页面A中的正文块a1、a2、 a3与页面B中包含正文块b1不一一对应,且其页面块的类型均为正文块;则在步骤S70121中,获取设备1提取页面A中的正文块a1、 a2、a3的文本信息,将该等文本信息进行合并,并将合并后的文本信息作为正文块a1’,以使得页面A中的正文块a1’与页面B中的正文块b1相互对应;接着,在步骤S70122中,获取设备1根据两个页面中两对对应页面块,即页面A中的正文块a1’对应于页面B中的正文块 b1及页面A中的图片块a4对应于页面B中的图片块b2,以确定该两对页面块的块相似度。

本领域技术人员应能理解上述合并页面块的方式和/或确定块相似度的方式仅为举例,其他现有的或今后可能出现的合并页面块的方式和/或确定块相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

在一优选实施例中(参照图6),当所述一个页面中的一个或多个页面块与所述另一页面中的一个或多个页面块不一一对应,且所述不对应的页面块的类型不相同时,在步骤S6012中,获取设备1根据不对应的页面块的类型,基于预定判断规则,判断是否保留该等不对应的页面块的权重;其中,在步骤S602中,获取设备1根据该两个页面中保留的页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。

以下参照图6对该另一优选实施例进行详细描述,其中,在步骤 S6011中,获取设备1确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块的块对应关系;其具体过程与前述参照图6所描述的实施例中获取设备1在步骤S6011中所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。

在此,所述基于预定判断规则判断是否保留不对应的页面块的权重的情形包括但不限于以下任一项:

1)根据不对应的页面块的类型,在权重保留列表中进行匹配查询,以判断是否保留不对应的页面块的权重;在此,所述权重保留列表中包括页面块的类型及其是否保留该类型页面块的权重的判断信息,其可位于关系数据库、Key-Value存储系统、文件系统等。

2)根据不对应的页面块的类型,来确定该等页面块的质量信息;进而基于预定判断规则判断是否保留不对应的页面块的权重;该方式的具体实施例将在后续予以详细阐述。

在一示例中,页面A中的标题块a1与页面B中的标题块b1对应,页面A中的正文块a2与页面B中的正文块b2对应,页面A中的广告块a3在页面B中没有对应的页面块,其类型为广告,且页面 B中的图片块b3在页面A中没有对应的页面块,其类型为图片;在步骤S6012中,获取设备1根据该两个页面块的类型,在权重保留列表中进行匹配查询,以获得不保留广告块的权重、但需保留图片块b3 的权重的判断信息,并可确定该两个页面的图片块相似度为0;同时,在步骤S6012中,获取设备1对标题块a1与标题块b1、正文块a2 与正文块b2分别进行比较,以确定标题块相似度为0.7、正文块相似度为0.5;在步骤S602中,获取设备1在预定权重查询表中进行匹配查询,以获得标题块的权重为0.2、正文块的权重为0.5、图片块的权重为0.2、广告块的权重为0.1,根据获取设备1确定的判断信息,加权获得页面相似度为0.39(=0.5*0.5+0.2*0.7+0.2*0)。

本领域技术人员应能理解上述判断是否保留权重的方式和/或确定页面相似度的方式仅为举例,其他现有的或今后可能出现的判断是否保留权重的方式和/或确定页面相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

优选地,当一个页面中的一个或多个页面块与另一页面中的一个或多个页面块不一一对应时,可将两个页面中类型相同的页面块进行合并,以使得该两个页面中的页面块相对应;同时根据该两个页面中仍然不对应的页面块的类型,基于预定判断规则,判断是否保留该(等) 不对应的页面块的权重;随后,根据该两个页面中保留的页面块的权重及块相似度,加权确定该两个页面的页面相似度。

更优选地(参照图6),获取设备1还包括步骤S603(未示出)。

其中,在步骤S603中,获取设备1根据不对应的页面块的类型,来确定该等页面块的质量信息;其中,基于预定判断规则判断是否保留不对应的页面块的权重的步骤包括:

-当判断不对应的页面块的质量指数大于预定质量指数阈值,则保留该(等)不对应的页面块的权重,以用于确定两个页面的页面相似度;

-当判断不对应的页面块质量指数小于预定质量指数阈值,则不保留该(等)不对应的页面块的权重。

在一示例中,不对应的页面块的类型为广告块和留言块,在步骤 S603中,获取设备1根据该两个页面块的类型,在质量指数表中进行匹配查询,以确定广告块的质量指数为2、且留言块的质量指数为 1;在步骤S6012中,获取设备1判断广告块的质量指数2大于预定质量指数阈值范围最小值1.5,且判断留言块的质量指数1小于预定质量指数阈值范围最小值1.5,则确定保留广告块的权重且不保留留言块的权重;在此,所述质量指数表中包括页面块类型及其所对应的质量指数;其可位于关系数据库、Key-Value存储系统、文件系统等。

本领域技术人员应能理解上述确定页面块的质量信息的方式和/ 或判断是否保留页面块的权重的方式仅为举例,其他现有的或今后可能出现的确定页面块的质量信息的方式和/或判断是否保留页面块的权重的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

图8示出根据本发明又一优选实施例的用于获取页面相似度的方法流程图。其中,该过程中步骤S802包括步骤S8021和步骤S8022。

在此,图8中所示获取设备1在步骤S801中的功能与前面参照图5 所描述的获取设备1在步骤S501中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。

在步骤S8021,获取设备1中根据各个页面块的相关信息,基于预定权重规则,确定该各个页面块的权重;在步骤S8022,获取设备1根据该各个页面块的权重及其在步骤S801中确定的块相似度,加权确定两个页面的页面相似度。

在此,所述页面块相关信息包括但不限于以下至少任一项:

1)页面块类型;例如,正文类型、图片类型、广告类型等;

2)页面块在所属页面中的位置信息;

a)当页面块位于页面中的视觉中心位置时,则可确定该页面块的权重高;

b)当页面块位于页面中的非视觉中心位置时,如位于页面左右侧、页面底部,则可确定该页面块的权重低;

3)页面块在所属页面中的面积比例;

a)当页面块在页面中的所占面积比例大于预定面积比例阈值,则可确定该页面块的权重高;

b)当页面块在页面中的所占面积比例小于预定面积比例阈值,则确定该页面块的权重低。

本领域技术人员应能理解上述页面块相关信息仅为举例,其他现有的或今后可能出现的页面块相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

其中,基于预定权重规则获取所述各个页面块的权重的方式包括:

-根据所述页面块的相关信息,在预定权重查询表中进行匹配查询,以确定所述页面块的权重;在此,所述预定权重查询表中包括页面块相关信息及其所对应的页面块的权重,其位于关系数据库、Key-Value存储系统、文件系统等。

在一示例中,页面A中包括正文块a1,其位于页面的中心位置且其面积占页面总面积的50%;图片块a2,其位于页面的上方位置且其面积占页面总面积的30%;广告块a3,其位于页面的底部且其面积占页面总面积的20%;页面B中包括正文块b1,其位于页面的中心位置且其面积占页面总面积的70%;图片块b2,其位于页面的下方位置且其面积占页面总面积的30%;广告块a3,其位于页面的右侧且其面积占页面总面积的20%;则在步骤S8021,获取设备1根据各个页面块的位置信息与面积信息,在预定权重查询表中进行匹配查询,以确定页面A中正文块的权重为0.5、图片块的权重为0.4且广告块的权重为0.1,确定页面B 中正文块的权重为0.8、图片块的权重为0.1且广告块的权重为0.1;在步骤S8022,获取设备1根据该各个页面块的权重及其在步骤S801中确定的正文块相似度为0.6、图片块相似度为1、广告块的相似度为0,加权确定两个页面的页面相似度为0.64

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1