网页的处理方法及装置的制造方法

文档序号:9432553阅读:466来源:国知局
网页的处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域,具体而言,涉及一种网页的处理方法及装置。
【背景技术】
[0002] 相关技术中的中间件定制平台通常需要将个人计算机(PC)页面进行转码,然而 在不同网页之间如果具备较高的相似度的情况下,郝么就可W采用一套编码规则进行转 码,而不需要分别针对每一种网页各定制一套转码规则。但是,如何识别不同网页之间的相 似度是亟待解决的技术问题。如果能够解决上述问题,郝么在转码实现过程中将会有效地 提高覆盖率、工作效率W及有效地降低后期的维护成本。目前,通过采用的解决方案主要分 为W下两种方式:
[0003] 方式一、需要采用人工查询的方式在不同的页面之间挑选出共有的关键字,然后 再进一步判断页面是否包含对应的关键字从而认定两个页面是否相似,此种方式的缺陷在 于:由于需要依赖人工操作,因此误差较大,准确率较低。
[0004] 方式二、通过采用分词的方法判断两个页面是否相似,但是,此种方式的缺陷在 于对于"结构型"网页(即包含大量链接的页面)而言,其基本没有正文内容,因此无法通 过采用分词的方法来确定不同页面的相似度。
[0005] 综上所述,相关技术中缺乏一种辨别不同"结构型"网页之间的相似度的技术方 案。

【发明内容】

[0006] 本发明提供了一种网页的处理方法及装置,W至少解决相关技术中缺乏一种辨别 不同"结构型"网页之间的相似度的技术方案的问题。
[0007] 根据本发明的一个方面,提供了一种网页的处理方法。
[0008] 根据本发明实施例的网页的处理方法包括:获取第一网页文件和第二网页文件; 将第一网页文件转换并编码成第一字符串W及将第二网页文件转换并编码成第二字符串; 计算第一字符串与第二字符串的编辑距离,其中,在计算编辑距离的过程中包括:字符交 换操作,字符交换操作是在第一字符串中两个相邻字符与第二字符串中两个相邻字符的内 容相同但字符的排列顺序相反的情况下,将其中一个字符串的相关两个相邻字符的位置互 换,W使第一字符串中相关的两个相邻字符与第二字符串中相关的两个相邻字符完全相 同;根据编辑距离获取第一网页文件与第二网页文件的相似度。
[0009] 优选地,计算第一字符串与第二字符串的编辑距离包括:在第一字符串和第二字 符串中选取任意一个字符串作为参考字符串;将未被选作参考字符串的另一个字符串与 参考字符串进行比对,确定将另一个字符串变换成与参考字符串完全一致需要执行N步操 作,其中,N为正整数;计算N步操作中与每步操作对应的编辑距离的总和,得到第一字符串 与第二字符串的编辑距离;其中,第M步操作为字符交换操作且第1至M-1步操作不包括字 符交换操作,与第M步操作对应的编辑距离为前M-1步操作的编辑距离总和加1,M为正整 数且KM《N。
[0010] 优选地,按照W下公式计算与每步操作对应的编辑距离;dist(i,j) ==min{dis j)+l,dist(i, dist(i-l,j-l)+f(i,j),dist(i-2,j-2)+l};其中,min函数为 求取最小值函数,i为第一字符串的长度,i为正整数且i大于1,j为第二字符串的长度,j为正整数且j大于l,dist(i,j)为长度为i的所述第一字符串与长度为j的所述第一字 符串的编辑距离,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ;并且当第一字符串的第 i个字符与第二字符串的第j个字符不同时,f(i,j) = 1,当第一字符串的第i个字符与第 二字符串的第j个字符相同时,f(i,j) = 0。
[0011] 优选地,根据编辑距离获取相似度包括;计算第一字符串的长度和第二字符串的 长度的平均值;计算平均值与编辑距离的差值;采用差值与平均值相除,求取相似度。
[0012] 优选地,将第一网页文件转换并编码成第一字符串W及将第二网页文件转换并编 码成第二字符串包括:分别删除第一网页文件和第二网页文件的空白字符,并将第一网页 文件转换为第H字符串W及将第二网页文件转换为第四字符串;按照预设编码格式将第H 字符串编码成第一字符串W及将第四字符串编码成第二字符串。
[0013] 优选地,在根据编辑距离获取第一网页文件与第二网页文件的相似度之后,还包 括;当相似度大于或者等于预设阔值时,选择相同的转码规则对第一网页文件与第二网页 文件进行页面转码。
[0014] 根据本发明的另一方面,提供了一种网页的处理装置。
[0015] 根据本发明实施例的网页的处理装置包括;第一获取模块,用于获取第一网页文 件和第二网页文件;编码转换模块,用于将第一网页文件转换并编码成第一字符串W及将 第二网页文件转换并编码成第二字符串;计算模块,用于计算第一字符串与第二字符串的 编辑距离,其中,在计算编辑距离的过程中包括;字符交换操作,字符交换操作是在查找到 第一字符串中两个相邻字符与第二字符串中两个相邻字符的内容相同但字符的排列顺序 相反的情况下,将其中一个字符串的相关两个相邻字符的位置互换,W使第一字符串中相 关的两个相邻字符与第二字符串中相关的两个相邻字符完全相同;第二获取模块,用于根 据编辑距离获取第一网页文件与第二网页文件的相似度。
[0016] 优选地,计算模块包括:选取单元,用于在第一字符串和第二字符串中选取任意一 个字符串作为参考字符串;比对单元,用于将未被选作参考字符串的另一个字符串与参考 字符串进行比对,确定将另一个字符串变换成与参考字符串完全一致需要执行N步操作, 其中,N为正整数;计算单元,用于计算N步操作中分别与每步操作对应的编辑距离的总和, 得到第一字符串与第二字符串的编辑距离,其中,第M步操作为字符交换操作且第1至M-1 步操不包括字符交换操作,与第M步操作对应的编辑距离为前M-1步操作的编辑距离总和 加1,M为正整数且KM《N。
[0017] 优选地,计算模块,用于按照W下公式计算与每步操作对应的编辑距离: dist(i,j) = =min(dist(i_l,j)+1,dist(i,j_l)+1,dist(i_l,j_l)+f(i,j),dist(i_2, j-2)+l};其中,min函数为求取最小值函数,i为第一字符串的长度,i为正整数且i大于1, j为第二字符串的长度,j为正整数且j大于1,dist(i,j)为长度为i的所述第一字符串与 长度为j的所述第一字符串的编辑距离,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ; 并且当第一字符串的第i个字符与第二字符串的第j个字符不同时,f(i,j) = 1,当第一字 符串的第i个字符与第二字符串的第j个字符相同时,f(i,j) = 0。
[0018] 优选地,第二获取模块包括;第一计算单元,用于计算第一字符串的长度和第二字 符串的长度的平均值;第二计算单元,用于计算平均值与编辑距离的差值;第H计算单元, 用于采用差值与平均值相除,求取相似度。
[0019] 优选地,编码转换模块包括:转换单元,用于分别删除第一网页文件和第二网页文 件的空白字符,并将第一网页文件转换为第H字符串W及将第二网页文件转换为第四字符 串;编码单元,用于按照预设编码格式将第H字符串编码成第一字符串W及将第四字符串 编码成第二字符串。
[0020] 通过本发明实施例,获取第一网页文件和第二网页文件;将第一网页文件转换并 编码成第一字符串W及将第二网页文件转换并编码成第二字符串;计算第一字符串与第二 字符串的编辑距离,其中,在计算编辑距离的过程中包括:字符交换操作,字符交换操作是 在第一字符串中两个相邻字符与第二字符串中两个相邻字符的内容相同但字符的排列顺 序相反的情况下,将其中一个字符串的相关两个相邻字符的位置互换,W使第一字符串中 相关的两个相邻字符与第二字符串中相关的两个相邻字符完全相同;根据编辑距离获取第 一网页文件与第二网页文件的相似度,解决了相关技术中缺乏一种辨别不同"结构型"网页 之间的相似度的技术方案的问题,进而无需人工参与,比较于相关技术中所采用的人工分 辨方式,其识别效率和识别准确率均明显提高;比较与相关技术中的分词方式,不仅能够提 高识别效率,而且还可W识别出分词方式无法辨别的结构型相似网页。
【附图说明】
[0021] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0022] 图1是根据本发明实施例的网页的处理方法的流程图;
[0023] 图2是根据本发明优选实施例的网页的处理方法的流程图;
[0024] 图3是根据本发明实施例的网页的处理装置的结构框图;
[00巧]图4是根据本发明优选实施例的网页的处理装置的结构框图。
【具体实施方式】
[0026] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可W相互组合。
[0027] 图1是根据本发明实施例的网页的处理方法的流程图。如图1所示,该方法可W 包括W下处理步骤:
[0028] 步骤S102 ;获取第一网页文件和第二网页文件;
[0029] 步骤S104 ;将第一网页文件转换并编码成第一字符串W及将第二网页文件转换 并编码成第二字符串;
[0030] 步骤S106;计算第一字符串与第二字符串的编辑距离,其中,在计算编辑距离的 过程中包括:字符交换操作,字符交换操作是在第一字符串中两个相邻字符与第二字符串 中两个相邻字符的内容相同但字符的排列顺序相反的情况下,将其中一个字符串的相关两 个相邻字符的位置互换,W使第一字符串中相关的两个相邻字符与第二字符串中相关的两 个相邻字符完全相同;
[0031] 例如;第
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1