一种基于停用词的相似文档查询方法

文档序号:6381417阅读:257来源:国知局
专利名称:一种基于停用词的相似文档查询方法
技术领域
本发明涉及对电子化文档与文档之间相似度的查询方法,具体涉及一种利用中文停顿词比较文档相似度的方法,属于计算机语言处理及信息检索技术领域。
背景技术
随着互联网技术的普及和应用,电子化文档的使用量越来越大。电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时,也带来一些额外的问题和麻烦。 如电子化文档比较容易复制,也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大,这类抄袭的人工判断越来越困难。因此,非常有必要利用现代化信息技术来改进人们对文档相似度判断的方法,从而提高人们处理日益增长的海量电子化文档的能力。
在过去几十年内,人们对于自然语言处理的理论和技术都有了比较大的提高,电子文档是文本电子化的产物,而文本正是人类自然语言描述的产物。利用自然语言的处理方法来改变过去对文档逐字、逐词进行比较的方法将有效提高文档比对的效率和效果。
文档相似性是文本信息处理领域的核心问题,很多的文本应用包括文档聚类、 文档检索、文档过滤等,都密切依赖于文档形似性的精确度量。在自然语言处理领域, 人们总结了一些通用的方法和规则,如=N-Gram分词方法(具体可参考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,,,Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指纹对比(具体可参考 2. A. Z. Broder, “On the resemblance and containment of documents,,,Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而这些方法大多数据源于西方的西文文字处理,对于中文等东亚语种的特殊性没有专门的应对。中文及东亚文字有典型的断词问题,这些问题在西方语种中是以单词,即单字的形式出现,在表达上以空格分开。因此,西方文字天然不用分词,而中文语言的处理恰恰相反,在进行结构化处理的时候,需要“分词”的问题,也要考虑由此带来的 “分词歧义”问题。所以,在文档相似度比对方面,有必要充分考虑中文处理的特殊性。发明内容
针对现有文献相似度比较方法,本发明提出利用非精确、集合运算比对的算法来提高比对工作效率,利用中文“停用词”(Stop Word)来实现提高中文文档对比效果的比对方法。
本发明的技术方案提出了一种基于停用词的相似文档查询方法,其步骤包括
I)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;所述两文档,其一为待查文档,另一取自一个或多个数据源;或两文档为从一个或多个数据源中提取的两文档,
2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;
3)在所述词汇流中按照书写习惯提取得到停用词;
4)将所述停用词后面的正常语义词和该停用词组合成分段信息指纹;
5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入信息指纹库中进行比对;
6)对所述信息指纹库中指纹标识相似度进行计算,得到所述两个文档的相似度值;
7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。
所述分段信息指纹通过唯一记数器记录。
所述停用词中按照书写习惯由左到右进行提取同时去掉连续的重复词。
所述正常语义词选用至少一个以上。
所述正常语义词选用2个。
所述信息指纹库通过用户计算机保存至本地或上传到远端服务器。
所述停用词通过连续提取得到。
所述字符信息包括中文标点、符号乱码。
所述指纹库中指纹标识相似度通过jaccard相似性算法计算。
所述指纹库中指纹标识相似度通过Euclidean Distances或Cosine Distance方法计算。
本发明的有益效果
本发明的优点在于,使用了“中文停用词”+多个“后续词”的方法,符合中文语境, 尤其对于一些有一定写作习惯的文章而言,具备更好的比较效果。该方法用于提高中文文档相似度比对的效果和比对的效率,提高人们利用计算机处理相似文档的能力,使人们可以更高效率的在海量文档中找出抄袭或引用原文的文档。


图I是本发明基于停用词的相似文档查询方法的流程图2是本发明基于停用词的相似文档查询方法Jaccard相似算法示意图3是本发明基于停用词的相似文档查询方法一实施例中Jaccard相似算法具体示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本分买那个实施例中的技术方案进行清除、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图I所示,本方法分成以下几个工作步骤
I.将中文电子文档格式归一化。归一化是指将一个文档中所有字符(字符 (Character)是各种文字和符号的总称)去除所有非文字字符和标点之外格式的纯字符信
举例
归一化前中国啊,_ ¥%......&*我的祖国!
归一化后中国啊我的祖国
2.根据分词词典,对中文电子文档进行分词操作,将中文电子文档转化成相关的词汇流。
举例
分词前中国啊我的祖国
分词后中国+啊+我+的+祖国
3.从左到右根据停用词词典,找出词汇流中的“停用词”。(此处强调必须由左到右,以通过书写习惯提取信息指纹,并且去掉连续的重复词)
过滤前中国+啊+我+的+祖国
过滤后中国+啊+我+的+祖国(其中“啊”和“的”是停用词)
4.每找到一个停用词,将停用词后面的2个正常语义词(可配置成其它参数),和这个停用词一起组合形成一个分段“信息指纹”。
在上例中,文本经过抽取后,形成的两个信息指纹包括
“啊+我+的”和“的+祖国”
5.将该文档的所有分段“电子信息指纹”信息汇总,形成该文档的“电子信息指纹” 标识,并放入信息指纹库中进行比对。
除此之外,考虑到被比对文档的长度问题,本方法只使用唯一记数器记录分段信息指纹,在少量牺牲精度的情况下,可以减少计算机内存的使用,大大提高比对速度。
如图2所示是本发明比较文档相似度的方法Jaccard相似算法示意图Jaccard指数& = c/ (a+b-c),a、b为两个文本的指纹数,c为两文本共有的指纹数。
除了 Jaccard相似度判断方法之外,还可以采用Euclidean Distances、Cosine Distance等方法。(具体可参见Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,,’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X
如图3所示是本发明比较文档相似度的方法一实施例中Jaccard相似算法具体示意图。
以下步骤应用本方法,对两个具体的两个实例进行相似度对比
被比较文本如下
原文本I (不包含引号)“中国啊,我的母亲!母亲啊,你多么伟大! ”
原文本2 (不包含引号)“母亲啊,我的母亲啊,你多么善良! ”
I.如何设置信息指纹段(停用词为“啊”、“的”、“多么”)
原文本I:中国+啊+我+的+母亲+啊+你+多么+伟大
原文本2 :母未+啊+我+的+母未+啊+你+多么+善良
2.提取信息指纹
原文本I 啊+我+的”、“的+母亲+啊”、“啊+你+多么”、“多么+伟大”
(共4个指纹)
原文本2 啊+我+的”、“的+母亲+啊”、“+啊+你+多么”、“多么+善良”
(共4个指纹)5
3.通过以上的信息指纹比对,发现共有三个指纹相同(“啊+我+的”、“的+母亲+ 啊”、“+啊+你+多么”),全集指纹数量为4+4-3=5,因此相似度为
3/(4+4-3)=3/5=60%
即文本I和文本2的相似度为60%
本申请基于停用词的相似文档查询方法能够运用于文档的检索、文档聚类、文档过滤等多个领域。
以文档检索为例,用户可首先在研究生论文库或者其他发表的论文库中找出多个待查询的文档,逐个与用户需要查询比对的论文进行对比方法如下1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息,比如中文标点、符号乱码;2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;3)在所述词汇流中按照书写习惯由左到右进行提取同时去掉连续的重复词,提取得到停用词;4)将所述停用词后面的2个正常语义词和该停用词组合成分段信息指纹并用唯一记数器记录;5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入本地或者远端的信息指纹库中进行比对;6)对所述信息指纹库中指纹标识相似度进行计算,在进行相似度计算时是可以通过jaccarcUEuclidean Distances或Cosine Distance方法计算得到所述两个文档的相似度值;7)将相似度值大于设定为60%的两文档作为相似文档,输出用户检索的所有或部分相似文档。用户对文档进行评价时,如论文的相似度大于60% (用户可自行设定)可被认为是抄袭,若不大于60%则认为是没有抄袭。
权利要求
1.一种基于停用词的相似文档查询方法,其步骤包括1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;所述两文档,其一为待查文档,另一取自一个或多个数据源;或两文档为从一个或多个数据源中提取的两文档,2)根据分词词典对所述两个文档进行分词操作,将该些文档转化成词汇流;3)在所述词汇流中按照书写习惯提取得到停用词;4)将所述停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对所述信息指纹库中指纹标识相似度进行计算,得到所述两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。
2.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述分段信息指纹通过唯一记数器记录。
3.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述停用词中按照书写习惯由左到右进行提取同时去掉连续的重复词。
4.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述正常语义词选用至少一个以上。
5.如权利要求I或4所述的基于停用词的相似文档查询方法,其特征在于,所述正常语义词选用2个。
6.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述信息指纹库通过用户计算机保存至本地或上传到远端服务器。
7.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述停用词通过连续提取得到。
8.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述字符信息包括中文标点、符号乱码。
9.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述指纹库中指纹标识相似度通过jaccard相似性算法计算。
10.如权利要求I所述的基于停用词的相似文档查询方法,其特征在于,所述指纹库中指纹标识相似度通过Euclidean Distances或Cosine Distance方法计算。
全文摘要
本发明涉及基于停用词的相似文档查询方法,步骤为1)将待查询的两文档进行归一化处理,去除文档中所有非中文字字符信息;2)根据分词词典对两个文档进行分词操作,将该些文档转化成词汇流;3)在词汇流中按照书写习惯提取得到停用词;4)将停用词后面的正常语义词和该停用词组合成分段信息指纹;5)把分段信息指纹分别汇总形成两个文档的中指纹标识,并放入信息指纹库中进行比对;6)对信息指纹库中指纹标识相似度进行计算,得到两个文档的相似度值;7)将相似度值大于设定阈值的两文档作为相似文档,按照设定方式输出所有或部分相似文档。本发明使用“中文停用词”+多个“后续词”的方法,符合中文语境,具备更好比较效果。
文档编号G06F17/30GK102937994SQ201210461090
公开日2013年2月20日 申请日期2012年11月15日 优先权日2012年11月15日
发明者林述民 申请人:北京锐安科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1