网页的处理方法及装置的制造方法_2

文档序号:9432553阅读:来源:国知局
一字符串为ABCD,第二字符串为ABDC,可W从ABCD和ABDC两个字符串 中任意选取其中一个字符串作为参考字符串。假设将ABCD作为参考字符串,郝么就可W 将ABDC与ABCD进行比较,在实际比较的过程中可W仅采用单个字符作为比较单位,也可W 采用两个字符作为比较单位。此处假设采用单个字符作为比较单位,可W发现前两个字符 "AB"完全相同,但是在进行第H个字符W及第四个字符的比较过程中,如果采用相关技术 所提供的计算编辑距离的方式,仅会将第二字符串ABDC中的第H个字符"D"替换为"C",再 继续将第四个字符"C"替换为"D",即在计算编辑距离的过程中包括两次替换操作。而采用 本发明实施例所提供的技术方案,由于第一字符串中的"CD"与第二字符串中的"DC"是字 符内容相同但字符排列顺序完全相反的两个字符,为此,不再将从"DC"变为"CD"当成两步 字符替换操作,而是仅作为一步字符交换操作。
[0032] 步骤S108 ;根据编辑距离获取第一网页文件与第二网页文件的相似度。
[0033] 相关技术中,缺乏一种辨别不同"结构型"网页之间的相似度的技术方案。采用如 图1所示的方法,首先将待比较的第一网页文件和第二网页文件的内容转换并编码成两个 字符串,然后通过计算两个字符串的编辑距离即可判断两个不同网页之间的相似度。而在 计算编辑距离的过程中不仅仅包括针对页面的部分源代码进行简单的增加、删除或修改操 作,还包括两个相邻字符的交换操作,最终可W将上述差别转化为最终的相似度,差别较小 即对相似度的影响较小,而差别较大则对相似度的影响较大。由此解决了相关技术中缺乏 一种辨别不同"结构型"网页之间的相似度的技术方案的问题,进而无需人工参与,比较于 相关技术中所采用的人工分辨方式,其识别效率和识别准确率均明显提高;比较与相关技 术中的分词方式,不仅能够提高识别效率,而且还可W识别出分词方式无法辨别的结构型 相似网页。
[0034] 需要说明的是,不能仅因为两个字符串不相等即认定送两个网页文件是完全不相 似的。
[0035] 获取第一网页文件与第二网页文件的相似度之后,还可W利用相似度进行其他网 页处理,包括但不限于W下处理:
[0036] 1、在根据编辑距离获取第一网页文件与第二网页文件的相似度之后,还可W将上 述相似度与预设阔值进行比较,如果送两个网页文件的相似度大于该预设阔值,郝么就可 W对第一网页文件和第二网页文件采用同一套编码规则进行转码处理,而不再需要分别针 对第一网页文件和第二网页文件各定制一套转码规则。其中,预设阔值可根据实际需求进 行灵活设置。
[0037] 2、在获取第一网页文件与第二网页文件的相似度后,还用于在服务器预读网页并 进行缓存时,对于相似度满足条件,而确定送两个网页为同一网页时,可W只缓存一个网页 的内容,从而节省缓存空间。
[0038] 优选地,在步骤S106中,计算第一字符串与第二字符串的编辑距离可W包括W下 操作:
[0039] 步骤S1 ;在第一字符串和第二字符串中选取任意一个字符串作为参考字符串;
[0040] 步骤S2 ;将未被选作参考字符串的另一个字符串与参考字符串进行比对,确定将 另一个字符串变换成与参考字符串完全一致需要执行N步操作,其中,N为正整数;
[0041] 假设第一字符串为ABCD,第二字符串为邸DC,并选取第一字符串ABCD作为参考字 符串,将第二字符串邸DC与ABCD进行比较。再假设采用单个字符作为比较单位对两个字 符串进行逐个字符的比对:
[004引(1)将邸DC的第一个字符E与ABCD中的第一个字符A进行比较,发现两者不同需 要执行一步替换操作;
[004引似将邸DC的第二个字符B与ABCD中的第二个字符B进行比较,发现两者相同无 需进行任何操作;
[0044] (3)将邸DC的第H个字符D与ABCD中的第H个字符C进行比较,发现两者不同需 要执行一步替换操作;
[004引(4)将邸DC的第四个字符C与ABCD中的第四个字符D进行比较,发现两者虽然不 同,但是C与前一个字符组成的"DC"与ABCD中的"CD"是字符内容相同但字符顺序完全相 反的两个相邻字符,为此只需要执行一步字符交换操作,而不再连续执行两步字符替换操 作。
[0046] 最终,可W通过统计方式确定将邸DC变成ABCD需要执行两步操作。
[0047] 步骤S3 ;计算N步操作中与每步操作对应的编辑距离的总和,得到第一字符串与 第二字符串的编辑距离;其中,第M步操作为字符交换操作且第1至M-1步操作不包括字符 交换操作,与第M步操作对应的编辑距离为前M-1步操作的编辑距离总和加1,M为正整数 且KM《N。
[0048] 优选地,在步骤S3中,可W按照W下公式计算与每步操作对应的编辑距离:
[0049]dist(i,j) = =min{dist(i-1,j) +1,dist(i,j-1) +1,dist(i-1,j-1)+f(i,j),di st(i-2,j-2)+1};
[0050] 其中,min函数为求取最小值函数,i为第一字符串的长度,i为正整数且i大于1, j为第二字符串的长度,j为正整数且j大于1,dist(i,j)为长度为i的所述第一字符串与 长度为j的所述第一字符串的编辑距离,dist(0,j) =j,dist(i, 0) =i,dist(0, 0) = 0 ; 并且当第一字符串的第i个字符与第二字符串的第j个字符不同时,f(i,j) = 1,当第一字 符串的第i个字符与第二字符串的第j个字符相同时,f(i,j) = 0。
[005。 需要说明的是,dist(i-l,如+1表示执行字符删除操作的编辑距离,dist(i,j-1)+1表示执行字符插入操作的编辑距离,dist(i-1,j-1)+f(i,j)表示执行字符 替换操作的编辑距离,dist(i-2,j-2)+1表示执行字符交换操作的编辑距离。
[0052] 在计算单行字符串的编辑距离的过程中,因为相关技术中计算出的两个字符串之 间的编辑距离等于使其中一个字符串变成另外一个字符串而执行的插入、删除、和/或替 换的最少次数,然而相关技术中计算编辑距离的方式却忽略了一种字符交换操作,即第一 个字符串的两个特定字符与第二个字符串的两个特定字符的位置恰好是相反的。按照相关 技术中所采用的计算方式会认定差别是2,而采用本发明优选实施例所提供的计算方式则 会认定差别为1(例如:"ab"与"ba"字符串的差别按照相关技术中所采用的计算方式会认 定编辑距离是2,而采用本发明优选实施例所提供的计算方式则会认定编辑距离是1,由此 降低了差别,其原因在于:实际网页上往往会存在一些内容仅仅是通过一步操作,即对位置 进行了互换)。
[0053] 在优选实施例中,计算两个字符串的编辑距离需要使用"动态规划算法",该算法 主要用于求解包含重叠子问题的最优化问题的方法,其基本思想是将原问题分解为若干个 相似的子问题,并在求解的过程中通过子问题的解进而求出原问题的解。
[0054] 采用上述算法求解编辑距离的过程如下:
[005引 (1)定义函数dist(i,j),其表示长度为i的字符串与长度为j的字符串之间的编 辑距离;
[0056] 似初始化disUOJ) =j(即如果字符串1子串的长度为0,郝么字符串2子串 存在多少个字符,就需要进行多少次增加操作;同理,dist(i,0) =U;
[0057] (3)通过W上分析我们可W得到如下的状态转移方程:
[0058]如果i= = 0 且j= = 0,则dist(i,j) = 0 ;
[0059]如果i= = 0 且j〉0,则dist(i, _]?) =j;
[0060]如果i〉0 且j = = 0,则dist(i, _]?) =i;
[0061] 如果 0<i《1 且 0<j《1,郝么dist(i,j) ==min{dist(i-l,j)+l,dist(i,j-1) +1,dist(i-l,j-l)+f(i,j)};
[006引如果i〉l且j〉l时,此时可能会出现"交换字符位置"的操作,故dist(i,如==min{dist(i~l,j) +1,dist(i,j-1) +1,dist(i~l,j-1)+f(i,j),dist(i-2,j-2) +1};
[0063] 其中,当字符串1的第i个字符不等于字符串2的第j个字符时,则f(i,j)=1 ; 否贝lj,f(i,j) =0;
[0064] 上述min函数表明是取最小值函数。
[0065] 优选地,在步骤S108中,根据编辑距离获取相似度可W包括W下操作:
[0066] 步骤S4;计算第一字符串的长度和第二字符串的长度的平均值;
[0067] 步骤S5;计算平均值与编辑距离的差值;
[0068] 步骤S6;采用差值与平均值相除,求取相似度。
[0069]即上述两个网页的相似度=(两个字符串长度的平均值-编辑距离)/两个字符 串长度的平均值。
[0070] 优选地,在步骤S104中,将第一网页文件转换并编码成第一字符串W及将第二网 页文件转换并编码成第二字符串可W包括W下步骤:
[0071] 步骤S7 ;分别删除第一网页文件和第二网页文件的空白字符(包括;换行、TAB、空 格等),并将第一网页文件转换为第H字符串W及将第二网页文件转换为第四字符串;
[0072] 步骤S8;按照预设编码格式将第H字符串编码成第一字符串W及将第四字符串 编码成第二字符串。
[0073] 在获取网页文件的过程中,可W根据服务器端记录的用户访问日志将全部相关 网页的U化采集到本地,再从本地读取与其中一个被选取的网页对应的超文本标记语言 (HTML)文件,并W此HTML文件作为标准文
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1