相同或相似文件的过滤方法

文档序号:6467239阅读:171来源:国知局
专利名称:相同或相似文件的过滤方法
技术领域
本发明涉及一种文件的过滤方法,特别是涉及一种利用电脑在多篇文件中过滤相
同或相似文件并予以做群集分类的方法。
背景技术
电脑及因特网的快速发展,使得待处理的信息量迅速的爆增,使用者经常利用
电脑在庞大的文件档案或是因特网的中寻找需要的数据或信息;因特网中的搜寻引擎
(searching engine)就是一种帮助网络使用者在庞大的因特网中快速搜寻数据的工具。 —般而言,搜寻引擎会把符合检索关键词的搜寻结果全部呈现给使用者,即使是
内容相同的网页也会全部呈现,并不作任何的过滤处理,虽然有少部份的搜寻引擎会搜寻
的结果进行过滤,但是近似高的网页仍然很容易一再地重复出现,对使用者而言,将会把时
间浪费在阅读重复的内容,并且降低了数据搜寻的便利性。 在已公开的中国发明专利CN10109348提出了一种《网页重复内容过滤方法》,包括文件服务器、网页内容提取服务器、网页过滤服务器、爬虫服务器,其中利用爬虫服务器抓取网页的数据再交由网页内容提取服务器分析,将内容提取出来并使用哈希算法(HashAlgorithm)生成哈希码(Hash Code),然后把哈希码和内容、抓取的时间等信息一起存入文件服务器,而网页过滤服务器分析内容服务器中的信息,对每个由步骤b中获得的哈希码出现冲突的网站中出现冲突的数量,对冲突的数量和该网站的网页数量设定一个阀值,如果一个网站的冲突的数量和该网站的网页数量高于该阀值,则直接通知爬虫服务器,禁止该网站,并过滤掉该网页的所有内容,如果低于该阀值而且抓取的时间较早,则提高该网页的重要性,否则降低该网页的重要性或过滤掉。

发明内容
本发明的目的的一是提出一种在多篇文件的中找出文件内容彼此相同或是近似程度高的文件并予以做群集分类的方法。 本发明的另一目的是在找出彼此相同或是近似程度高的文件之后,将多篇相同文
件中的任一篇显示于搜寻的结果中,而不显示其余被标记为相同或近似的文件。 为达上述目的,本发明一种相同或相似文件的过滤方法,利用电子设备实施下列
步骤,其可于多篇文件中找出文件内容彼此相同或是近似程度高的文件并予以做群集分
类,该方法包括 (a)读取多篇待过滤的文件; (b)将多篇待过滤的文件的数据结构进行转换,并合并储存为预设的数据结构文件; (c)设定一低门坎值,表示连续字符长度的最小长度;
(d)设定一高门坎值,表示连续字符长度; (e)搜寻该数据结构文件中连续字符长度达到该低门坎值的所有字符串节点(node I),该字符串节点内储存有所出现的文件的文件编号(FID); (f)将每一个被找出的该字符串节点(node I)内储存的该文件编号记录为一字 符串群(G);及 (g)对该字符串群(G)中的全部文件编号(FID)所指向的文件设为第一类文件,以 该字符串节点(node I)内所储存的字符串内容为前缀去寻找连续字符长度大于或等于该 高门坎值的字符串节点(node Il),若存在此字符串节点,将此连续字符长度大于或等于高 门坎值的字符串节点所储存的字符串群(Gl)皆标示为彼此相同或是近似程度高的文件。
所述过滤方法还包括下列步骤 (h)在该第一类文件构成的群集中寻找一第二类文件,该第二类文件是第一类文 件中连续字符长度尚未达到该高门坎值的文件所组成的群集;
(i)设定一比率门坎值;及 (j)在该第二类文件的群集中寻找相同的连续字符长度占有文件内容总字符长度 的比率达到该比率门坎值的文件,将该些被找出的文件设为内容彼此相同或是近似程度高 的文件。 该步骤(a)之前还包括有一个先将该多篇待过滤的文件内容进行自动摘要处理, 产生摘要文件的步骤。 还包括有一个将该多篇待过滤的文件内容进行同义字处理的步骤。 所述过滤方法还包括将该多篇摘要文件的内容进行同义字处理的步骤。 所述过滤方法还包括有一个将该多篇待过滤的文件内容进行去除标点符号处理
的步骤。 在找出彼此相同或是近似程度高的文件之后,还包括有一个将该多篇相同文件中
的任一篇显示于搜寻的结果中,而不显示其余被标记为相同或近似的文件的步骤。 该文件为网页、文本文件、数据库内容和以其它方式储存的形态的数据的其中一种。 该数据结构文件为pat tree数据结构或字符树数据结构。 本发明还公开了一种相同或相似文件的过滤方法,利用电子设备实施下列步骤, 其可于多篇文件中找出文件内容彼此相同或是近似程度高的文件并予以做群集分类,该方 法包括 (al)将该多篇待过滤的文件内容进行自动摘要处理,产生摘要文件;
(a)读取多篇该摘要文件; (b)将多篇该摘要文件以帕特树数据结构储存为帕特树数据结构文件;
(c)设定一低门坎值,表示连续字符长度的最小长度;
(d)设定一高门坎值,表示连续字符长度; (e)搜寻该PT文件中连续字符长度达到该低门坎值的所有字符串节点(node I);
(f)将每一个被找出的该字符串节点(node I)内储存的该文件编号(FID)记录为 一字符串群(G);及 (g)对该字符串群(G)中的全部文件编号(FID)所指向的文件设为第一类文件, 在这些第一类文件的群集中两两作比对,在这些第一类文件的群集中寻找连续字符内容相 同,以及相同的连续字符长度达到该高门坎值的文件,将该些被找出的文件标示为彼此相同或是近似程度高的文件。
所述过滤方法还包括下列步骤 (h)在该第一类文件的群集中寻找一第二类文件,该第二类文件是连续字符内容 相同,以及相同的连续字符长度尚未达到该高门坎值的文件所组成的群集;
(i)设定一比率门坎值;及 (j)在该第二类文件的群集中寻找相同的连续字符长度占有文件内容总字符长度 的比率达到该比率门坎值的文件,将这些被找出的文件设为内容彼此相同或是近似程度高 的文件。 所述过滤方法还包括将该多篇待过滤的文件内容进行同义字处理的步骤。 所述过滤方法还包括有一个将该多篇摘要文件的内容进行去除标点符号处理的步骤。 在找出彼此相同或是近似程度高的文件或网页之后,还包括有一个将该多篇相同 文件中的任一篇显示于搜寻的结果中,而不显示其余被标记为相同或近似的文件的步骤。
该文件为网页、文本文件、数据库内容和以其它方式储存的形态的数据的其中一 种。 该数据结构文件为帕特树数据结构或字符树数据结构。 本发明的技术方案可以获致的功效包括可以对文件内容相同或是近似程度高的
文件进行过滤,进而解决相同或近似文件大量重复的问题,特别适合用于对大量文件的检
索结果的过滤,也可以应用在对网页搜寻引擎的搜寻结果的过滤,用以将内容相同或是近
似程度高的网页过滤,以减少网页搜寻结果大量重复的问题。 有关本发明的技术内容及其较实施例,配合附图详细说明如下。


图l为本发明的一 图2为本发明的另 图3为本发明的另 图4为本发明的另 图5为本发明的另 图6为本发明的另 图7为本发明的另 其中,附图标记 ll字符串节点
较佳实施例的步骤流程图; 种较佳实施例的步骤流程图; 种较佳实施例的步骤流程图; 种较佳实施例的步骤流程图; 种较佳实施例的步骤流程图; 种较佳实施例的步骤流程图; 种较佳实施例的步骤流程图。
2字符串节点
具体实施例方式
本发明以下所公开的方法,可以通过一般的电子设备实施,例如电脑,该电脑包 含但不限于个人电脑(Personal Computer),笔记型电脑(Note BookComputer)禾卩服务器 (Server)电脑设备执行本发明以下所公开的方法来加以实现,凡是本领域的技术人员,在 了解本发明以下所公开的方法,应当能够据以实施。 依据本发明所公开的方法的较佳实施例之一,如图1所示包括下列的步骤
(a)读取多篇待过滤的文件; (b)将多篇待过滤的文件的数据结构进行转换,并合并储存为预设的数据结构文 件; (c)设定一低门坎值,表示连续字符长度的最小长度;
(d)设定一高门坎值,表示连续字符长度; (e)搜寻该数据结构文件中连续字符长度达到低门坎值的所有字符串节点 (nodel),该字符串节点内储存有所出现的文件的文件编号(File Identity, FID);
(f)将每一个被找出的字符串节点(node I)内储存的文件编号(FileIdentity, FID)记录为一字符串群(G); (g)对字符串群(G)中的全部文件编号(FID)所指向的文件设为第一类文件,以该 字符串节点(node I)内所储存的字符串内容为前缀去寻找连续字符长度大于或等于该高 门坎值的字符串节点(node Il),若存在此字符串节点,将此连续字符长度大于或等于高门 坎值的字符串节点所储存的字符串群(Gl)皆标示为彼此相同或是近似程度高的文件。
前述的方法可以应用于过滤网络搜寻引擎的搜寻结果,并且在找出彼此相同或是 近似程度高的文件(或网页)之后,将多篇相同文件中的任一份显示于搜寻的结果中,而不 显示其余被标记为相同或近似的文件(或网页)。 本发明所提出的方法适合用于对大量文件的检索结果的过滤,也可以应用在对网 页搜寻引擎的搜寻结果的过滤,用以将内容相同或是近似程度高的网页过滤,以减少网页 搜寻结果大量重复的问题,而这些待过滤的文件的数据结构可能都不相同,例如是以文字 (text),超文字标记语言(Hypertext MarkupLanguage file,HTML file),可延伸超文字标 示语言(extensible HyperTextMarkup Language, XHTML)等数据结构所记录的文件,所以 较佳的实施例是将多篇待过滤的文件的数据结构进行转换,并合并储存为预设的数据结构 文件,而数据结构文件的较佳实施例可以是pat tree数据结构文件或字符树数据结构文件 的其中一种,下文中有详细描述。 表1显示了一种基于pat tree (帕特树)数据结构所产生的pat tree数据结构 文件(下文简称PT文件),pat tree为一棵二元树(见图2),在pat tree中的每一个字 符串节点(node)都代表了一个由二进制代码所组成的二进制字符串(此字符字符串相对 应的二进制字符串),pat tree中的每一个字符串节点的数据格式都相同,每一个字符串节 点中所记录的数据包括"二进制字符串内容"、"检查位(CHECK BIT)"、和这个"二进制字符 串内容"所出现的文件的"文件编号";检查位代表此字符串节点与其子字符串节点的二进 制字符串在第几个位开始不同。
表1
7字符串内^^^\_1 917 25
个人电脑/节点o10101101 1101001110100100
人电脑/节点210100100 0100100010111001
电脑/节点410111001 0111000100000000
脑/节点610111000 0111000100000000
人脑/节点910100100 o讓ooo00000000
脑/节点610111000 0000000000000000 例如图2中字符串节点6其中记录了以下的信息 (1)字符串内容1011100000000000 ; (2) CHECK BIT :8 ; (3)文件编号D0C1, D0C2。 图3显示了字符树数据结构文件的一个例子,在字符树数据结构文件中的每一个 字符串节点(node)都代表了一个由连续字符所组成的字符串,每一个字符串节点的数据 格式都相同,每一个字符串节点中所记录的数据包括"字符串内容"、"连续字符的长度"、 和这个"字符串内容"所出现的文件的"文件编号";例如图3中字符串节点11其中记录了 以下的信息 (1)字符串内容"今年春天"; (2)连续字符的长度4 ; (3)文件编号AOl, A04, A07。
字符串节点12则记录了以下的信息 (1)字符串内容"今天天气很好"; (2)连续字符的长度6 ; (3)文件编号:AOl, A03, A06, A07, A09。 以过滤网络搜寻引擎的搜寻结果为例子,当搜寻到的多篇网页的中出现了内容完 全相同的句子,而且当内容完全相同的句子的连续字符长度愈长,就表示这些网页的内容 可能相同或是高度的近似;另一方面,若是内容完全相同的句子的连续字符长度占有整个 网页的总字符长度的比例愈高时,也表示这些网页的内容可能相同或是高度的近,依据此 一逻辑,前述的较佳实施例分别设有一低门坎值和一高门坎值,先在多篇网页中寻找连续 字符内容相同,以及相同的连续字符长度达到低门坎值的文件,这个步骤可以减少待比对 处理的网页的数量,有助于节省过滤的处理时间,然后再以高门坎值检验这些文件,在这些 文件中寻找连续字符内容相同,以及相同的连续字符长度达到高门坎值的文件,将这些文 件标示为彼此相同或是近似程度高的文件。 在图4所公开的本发明的另一较佳实施例中,是在前述图1的步骤中增加下列步 骤 (h)在第一类文件的群集中寻找第二类文件,而所称的第二类文件是指连续字符
8内容相同,以及相同的连续字符长度尚未达到高门坎值的文件所组成的群集;
(i)设定一比率门坎值; (j)在第二类文件的群集中寻找相同的连续字符长度占了原有文件内容总字符长 度的比率达到比率门坎值的文件,将这些被找出的文件设为内容彼此相同或是近似程度高 的文件。 例如有两篇文件A01和A04,文件A01的内容的总字符长度为40,文件A04的内 容的总字符长度为60,文件A01和A04的相同的连续字符长度为14,比率门坎值设为1/5, 其中文件A01的相同的连续字符长度占原有文件内容总字符长度的比率是14/4001/5), 文件A04的相同的连续字符长度占原有文件内容总字符长度的比率是14/60 ( > 1/5),所以 依据前述的较佳实施例的步骤,就会将文件A01和文件A04设为内容彼此相同或是近似程 度高的文件。 图5公开了本发明的另一较佳实施例,主是要在图1的步骤(a)之前先将多篇待 过滤的文件内容进行自动摘要处理产生摘要文件(al),再将此具有代表性的摘要文件以 pat tree数据结构储存为PT文件,有助于縮短待过滤文件的处理时间。
依据本发明的另一较佳实施例,还包括了对待过滤的文件或是经过自动摘要处理 步骤生成的摘要文件先进行同义字处理,图6所示的实施例是以图5的摘要文件为例作说 明,其中的步骤(a2)是对摘要文件内容进行同义字处理,使文件内容的同义字能有相同的 字符长度,将有助于提高过滤相同或相似文件的正确性;例如将简体字的待过滤文件中 的"计算器"以及繁体字中文的待过滤文件中的"电脑"全部改为繁体字的"电脑",就可以 避免同义字/词的长度不一致的问题。 本发明的另一较佳实施还包括对待过滤的文件或是经过自动摘要处理步骤生成 的摘要文件进行去除标点符号的处理,图7所示的实施例是以图6摘要文件为例作说明,其 中的步骤(a3)是对多篇待过滤的摘要文件内容进行去除标点符号的处理,可让本发明的 方法的处理结果更正确,亦可加快执行速度。 前述几种较佳实施例中的步骤(a2)、 (a3)也可以互相任意的搭配组合地运用,这 种变化凡本领域的技术人员,在了解本发明的上述实施例说明之后,应该可以充分了解其 变化并且据以实施。
权利要求
一种相同或相似文件的过滤方法,利用电子设备实施下列步骤,其可于多篇文件中找出文件内容彼此相同或是近似程度高的文件并予以做群集分类,其特征在于,该方法包括(a)读取多篇待过滤的文件;(b)将多篇待过滤的文件的数据结构进行转换,并合并储存为预设的数据结构文件;(c)设定一低门坎值,表示连续字符长度的最小长度;(d)设定一高门坎值,表示连续字符长度;(e)搜寻该数据结构文件中连续字符长度达到该低门坎值的所有字符串节点(node I),该字符串节点内储存有所出现的文件的文件编号(FID);(f)将每一个被找出的该字符串节点(node I)内储存的该文件编号记录为一字符串群(G);及(g)对该字符串群(G)中的全部文件编号(FID)所指向的文件设为第一类文件,以该字符串节点(node I)内所储存的字符串内容为前缀去寻找连续字符长度大于或等于该高门坎值的字符串节点(node I1),若存在此字符串节点,将此连续字符长度大于或等于高门坎值的字符串节点所储存的字符串群(G1)皆标示为彼此相同或是近似程度高的文件。
2. 如权利要求1所述的相同或相似文件的过滤方法,其特征在于,还包括下列步骤(h) 在该第一类文件构成的群集中寻找一第二类文件,该第二类文件是第一类文件中 连续字符长度尚未达到该高门坎值的文件所组成的群集;(i) 设定一比率门坎值;及(j)在该第二类文件的群集中寻找相同的连续字符长度占有文件内容总字符长度的比 率达到该比率门坎值的文件,将该些被找出的文件设为内容彼此相同或是近似程度高的文 件。
3. 如权利要求l所述的相同或相似文件的过滤方法,其特征在于,该步骤(a)之前还包 括有一个先将该多篇待过滤的文件内容进行自动摘要处理,产生摘要文件的步骤。
4. 如权利要求1所述的相同或相似文件的过滤方法,其特征在于,还包括有一个将该 多篇待过滤的文件内容进行同义字处理的步骤。
5. 如权利要求3所述的相同或相似文件的过滤方法,其特征在于,还包括有一个将该 多篇摘要文件的内容进行同义字处理的步骤。
6. 如权利要求1或3或4或5所述的相同或相似文件的过滤方法,其特征在于,还包括 有一个将该多篇待过滤的文件内容进行去除标点符号处理的步骤。
7. 如权利要求1所述的相同或相似文件的过滤方法,其特征在于,在找出彼此相同或 是近似程度高的文件之后,还包括有一个将该多篇相同文件中的任一篇显示于搜寻的结果 中,而不显示其余被标记为相同或近似的文件的步骤。
8. 如权利要求1所述相同或相似文件的过滤方法,其特征在于,该文件为网页、文本文 件、数据库内容和以其它方式储存的形态的数据的其中一种。
9. 如权利要求1所述相同或相似文件的过滤方法,其特征在于,该数据结构文件为帕 特树数据结构或字符树数据结构。
10. —种相同或相似文件的过滤方法,利用电子设备实施下列步骤,其可于多篇文件中 找出文件内容彼此相同或是近似程度高的文件并予以做群集分类,其特征在于,该方法包括(al)将该多篇待过滤的文件内容进行自动摘要处理,产生摘要文件;(a) 读取多篇该摘要文件;(b) 将多篇该摘要文件以帕特树数据结构储存为帕特树数据结构文件;(c) 设定一低门坎值,表示连续字符长度的最小长度;(d) 设定一高门坎值,表示连续字符长度;(e) 搜寻该PT文件中连续字符长度达到该低门坎值的所有字符串节点(node I);(f) 将每一个被找出的该字符串节点(node I)内储存的该文件编号(FID)记录为一字 符串群(G);及(g) 对该字符串群(G)中的全部文件编号(FID)所指向的文件设为第一类文件,在这些 第一类文件的群集中两两作比对,在这些第一类文件的群集中寻找连续字符内容相同,以 及相同的连续字符长度达到该高门坎值的文件,将该些被找出的文件标示为彼此相同或是 近似程度高的文件。
11. 如权利要求10所述的相同或相似文件的过滤方法,其特征在于,还包括下列步骤(h) 在该第一类文件的群集中寻找一第二类文件,该第二类文件是连续字符内容相同, 以及相同的连续字符长度尚未达到该高门坎值的文件所组成的群集;(i) 设定一比率门坎值;及(j)在该第二类文件的群集中寻找相同的连续字符长度占有文件内容总字符长度的比 率达到该比率门坎值的文件,将这些被找出的文件设为内容彼此相同或是近似程度高的文 件。
12. 如权利要求IO所述的相同或相似文件的过滤方法,其特征在于,还包括有一个将 该多篇待过滤的文件内容进行同义字处理的步骤。
13. 如权利要求10或12所述的相同或相似文件的过滤方法,其特征在于,还包括有一 个将该多篇摘要文件的内容进行去除标点符号处理的步骤。
14. 如权利要求10所述的相同或相似文件的过滤方法,其特征在于,在找出彼此相同 或是近似程度高的文件或网页之后,还包括有一个将该多篇相同文件中的任一篇显示于搜 寻的结果中,而不显示其余被标记为相同或近似的文件的步骤。
15. 如权利要求10所述的相同或相似文件的过滤方法,其特征在于,该文件为网页、文本文件、数据库内容和以其它方式储存的形态的数据的其中一种。
16. 如权利要求IO所述的相同或相似文件的过滤方法,其特征在于,该数据结构文件为帕特树数据结构或字符树数据结构。
全文摘要
本发明公开了一种相同或相似文件的过滤方法,包括将多篇待过滤的文件以pat tree数据结构储存为pat tree数据结构文件(PT文件),搜寻PT文件中连续字符长度达一低门坎值的所有字符串节点和这些字符串节点所属的所有文件,在这些文件中寻找连续字符内容相同,且相同的连续字符长度达到一高门坎值的文件;搜寻PT文件中连续字符长度达一低门坎值的所有字符串节点和这些字符串节点所属的所有文件,在这些文件中寻找连续字符内容相同,且相同的连续字符长度占原有文件内容总长度的比率达到一比率门坎值的文件,将这些文件标示为内容彼此相同或近似程度高的文件。可以对文件内容相同或是近似程度高的文件进行过滤,解决相同或近似文件大量重复的问题。
文档编号G06F17/30GK101714147SQ20081016823
公开日2010年5月26日 申请日期2008年10月6日 优先权日2008年10月6日
发明者卓训学, 蔡弘扬 申请人:易搜比控股公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1