文档相似性评价系统、文档相似性评价方法以及计算机程序的制作方法

文档序号:6383701阅读:204来源:国知局
专利名称:文档相似性评价系统、文档相似性评价方法以及计算机程序的制作方法
技术领域
本发明涉及评价文档之间相似性的信息处理技术领域。
背景技术
评价不同文档之间相似性的方法广泛用于评价科学论文之间的相似性或者检测公司文档之间的相似性。专利文档I至3公开了文档相似性确定系统。在专利文档I至2中公开的文档相似性确定系统中,首先针对每一页分离整个文档,或者在出现特定字符串的每个位置处分割整个文档(在下文中,一个分离出(或分割出)的单元被称作“片段”),并且针对每个片段计算特性值。按照文档中从第一个片段到最后一个片段的顺序,通过比较片段的特性值,基于特性值彼此相同的片段的个数来确定不同文档之间的相似性。作为确定的结果,当特性值彼此相同的片段的个数较多时,文档之间的相似性较高,相反,当特性值彼此相同的片段的个数较少时,文档之间的相似性较低。在专利文档3中公开的文档相似性确定系统中,从句子中分离文档中存在的图和等式,针对分离出的图和等式的布置来定义密集程度,并且将密集程度用作确定相似性的指数。[专利文档]
[专利文档I]日本专利申请特开N0.2008-257444[专利文档2]日本专利申请特开N0.2010-256951[专利文档3]国际公开 N0.WO 2009/048149[本发明的简要概述][本发明要解决的问题]上述专利文档中描述的文档相似性确定系统可以评价整个文档之间的相似性。然而,这些文档相似性确定系统不能评价具有高相似性的部分是集中在特定段落中还是分散在整个文档中。

发明内容
考虑到上述问题提出本发明。本发明的主要目的是提供一种针对至少两类文档之间的相似性确定具有高相似性的部分的文档相似性评价系统或类似系统。为了实现上述目的,根据本发明的文档相似性评价系统的特征在于具有以下配置。S卩,根据本发明的文档相似性评价系统的特征在于包括:片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC) /G (NCC) XNS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)作为本发明的另一方面,根据本发明的文档相似性评价方法的特征在于包括:在第一片段串和第二片段串二者中寻找公共片段;对找到的所述公共片段的个数进行计数;识别出现所述公共片段的出现范围;计算第一和,所述第一和是所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;并且使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC) /G (NCC) XNS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)此外,该目的还可以通过使用计算机程序以及存储了所述计算机程序的计算机可读存储介质来实现,所述计算机程序使计算机实现具有上述配置的文档相似性评价系统和对应方法。通过使用本发明,可以针对至少两类文档之间的相似性来确定具有高相似性的部分。


结合附图,通过以下详细描述,本发明的示例性特征和优点将变得显而易见,在附图中:图1是示出了根据本发明第一示例性实施例的文档相似性评价系统的配置的框图,图2是示出了根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图,图3是示意性示出了可以实现根据示例性实施例的文档相似性评价系统的计算机处理装置的硬件配置的图,图4是示出了用于说明根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的示例的图,以及图5是示出了字符个数表的示例的图,在字符个数表中,片段与片段中包括的字符个数相关联。
具体实施例方式接着,参照附图详细描述本发明的示例性实施例。在以下说明中,片段是例如通过针对每一页分离整个文档或者在出现特定字符串的每个位置处分割整个文档或者通过以特定长度分割整个文档而获得的一个分离出或分割出的单元。特性值是通过将诸如散列值、CRC(循环冗余校验)值、和校验值等特定字符串转换成数字值而获得的值。已知并广泛使用用于将文档分离成片段的方法以及用于计算特性值的各种方法。因此,在本示例性实施例中省略了对这些方法的说明。将文档分离成片段的方法和用于计算特性值的方法不限于本示例性实施例中作为示例描述的方法。<第一示例性实施例>图1是示出了根据本发明第一示例性实施例的文档相似性评价系统的配置的框图。参照图1,根据示例性实施例的文档相似性评价系统101包括片段搜索单元102和相似性指数计算单元103。以下描述计算文档A与文档B之间的相似性的情况。片段搜索单元102接收串
1(在下文中,被称作“片段串I”)和串2(在下文中,被称作“片段串2”)作为输入,串I表示与文档A有关的片段的特性值序列,串2表示与文档B有关的片段的特性值序列。片段搜索单元102按照作为评价目标的文档中从第一个片段到最后一个片段或者从最后一个片段到第一片段的顺序,通过执行片段串I与片段串2之间的比较来在片段串I和片段串
2二者中寻找公共片段。接着,片段搜索单元102对找到的公共片段的个数进行计数(下文中,描述为NS),并且识别片段串2中公共片段的第一个位置和公共片段的最后一个位置(下文中,包括了在第一个位置与最后一个位置之间存在的所有片段在内的范围被称作“出现范围”)。接着,相似性指数计算单元103接收作为输入接收到的片段串2、上述出现范围以及输入的字符个数表(字符个数信息)。在作为字符个数信息的字符个数表中,将存在于片段串I或片段串2中的片段与在相应片段中存在的字符的个数相关联,并且至少存储这些信息(图5)。例如,在图5中示出的字符个数表中,由于句子Al包括12个字符,因此“Al”与“12”相关联,并且存储该信息。相似性指数计算单元103针对片段搜索单元102识别出的出现范围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算字符个数和(下文中,描述为“NCC”)。此外,相似性指数计算单元103针对作为识别为公共片段的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算字符个数和(下文中,描述为“NTC”)。接着,相似性指数计算单元103使用以下等式计算相似性指数。相似性指数=F(NTC) /G (NCC) X NS (等式 I)这里,函数F和函数G是将特定整数值与正实数值相关联的单调增函数。在说明上述文档相似性评价系统的配置时,根据示例性实施例的文档相似性评价系统针对片段串2识别出现范围。但是,根据该示例性实施例的文档相似性评价系统可以针对片段串I识别出现范围。图2是示出了根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图。接着,参照图1和图2描述根据示例性实施例的文档相似性评价系统的操作。片段搜索单元102接收表示文档A的片段串I和表示文档B的片段串2作为输入。片段搜索单元102按照片段串中从第一个片段到最后一个片段的顺序,在片段串I和片段串2 二者中寻找公共片段(步骤S201)。接着,片段搜索单元102对在步骤S201中找到的公共片段的个数进行计数(步骤S202),并且识别片段串2中的出现范围(步骤S203)。接着,相似性指数计算单元103接收输入的片段串2、上述出现范围、和输入的字符个数表。相似性指数计算单元103针对片段搜索单元102识别出的出现范围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算作为字符个数和的NCC。接着,相似性指数计算单元103针对识别为公共片段的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算作为字符个数和的NTC (步骤S204)。接着,相似性指数计算单元103使用等式I计算相似性指数(步骤S205)。在上述对处理步骤的说明中,根据示例性实施例的文档相似性评价系统针对片段串2识别出现范围。然而,根据该示例性实施例的文档相似性评价系统可以针对片段串I识别出现范围。专利文档I中公开的文档相似性确定系统采用NS作为相似性指数。另一方面,根据示例性实施例的文档相似性评价系统采用通过用NS乘以函数F(NTC)与函数G(NCC)的比值而获得的值。这里,函数F和函数G都是将特定整数值与正实数值相关联的单调增函数。因此,当公共片段密集出现时,F(NTC)/G(NCC)的值较大,相反,当公共片段分散时,F(NTC)/G(NCC)的值较小。甚至在通过专利文档I中公开的文档相似性确定系统计算出相同值的相似性指数的情况下,如果使用根据示例性实施例的文档相似性确定系统,也会存在根据公共片段的集中程度和分散程度而计算出不同值的相似性指数的高概率。图4是示出了用于说明根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的示例的图。接着,参照图1、图2和图4描述根据示例性实施例的文档相似性评价系统的操作。如图4所示,文档A、文档BI和文档B2由表示片段的句子组成,例如,句子Al、句子A2、句子A3、句子B21、和句子B22。在下文中,通过省略词语“句子”将句子Al、句子A2等描述为“A1”、“A2”等。即,文档A由包括Α1、Α2和A3的片段串组成。文档BI由包括Al和Α2的片段串组成,文档Β2由包括Α1、Β21、Α2、Β22和A3的片段串组成。这里,为了便于说明,假定所有片段Al、Α2、A3、Β21和Β22包括相同个数字符,并且字符个数为N。相似性指数计算单元103的函数F和函数G输出输入值而不改变该输入值。下面描述在输入表示文档A和文档BI的片段串的情况下的操作。片段搜索单元102在表示文档A的片段串和表示文档BI的片段串二者中寻找公共片段(步骤S201),并且发现片段Al和Α2是这两个文档中的公共片段。接着,片段搜索单元102对公共片段的个数进行计数(步骤S202),并且发现公共片段的个数为2。接着,片段搜索单元102识别表示文档BI的片段串中的出现范围(步骤S203),并且识别出所述出现范围包括片段Al和Α2。相似性指数计算单元103针对片段搜索单元102所识别的出现范围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字符个数, 并且计算出现范围中包括的每个片段的字符个数和。在这种情况下,NCC是2XN。接着,相似性指数计算单元103针对识别为公共片段的每个片段从输入的字符个数表中读取与片段相关联的字符个数,并且计算作为字符个数和的NTC(步骤S204)。在这种情况下,NTC是2XN。相似性指数计算单元103使用上述等式I计算指数,并且获得2( = 2N/2NX2)作为指数。接着,对输入表示文档A的片段串和表示文档B2的片段串的情况下的操作进行描述。片段搜索单元102在表示文档A的片段串和表示文档B2的片段串二者中寻找公共片段(步骤S201),并且发现片段Al、A2和A3是这两个文档中的公共片段。接着,片段搜索单元102对公共片段的个数进行计数(步骤S202),并发现公共片段个数是3。接着,片段搜索单元102识别表示文档B2的片段串中的出现范围(步骤S203),并且识别出所述出现范围包括片段A1、B21、A2、B22和A3。相似性指数计算单元103针对片段搜索单元102所识别的出现范围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算出现范围中包括的每个片段的字符个数和。在这种情况下,NCC是5XN。接着,相似性指数计算单元103针对作为公共片段识别的每个片段,从输入的字符个数表中读取与片段相关联的字符个数,并且计算作为字符个数和的NTC(步骤S204)。在这种情况下,NTC是3XN。相似性指数计算单元103使用上述等式I计算指数,并且获得1.8( = 3N/5NX3)作为指数。根据示例性实施例的文档相似性评价系统针对文档A和文档BI所计算的相似性指数是2,针对文档A和文档B2所计算的相似性指数是108。相应地,根据示例性实施例的系统通过比较两个计算的相似性指数确定文档BI与文档A相似。然而,当使用专利文档I中公开的文档相似性确定系统时,针对文档A和文档BI获得相似性指数2,针对文档A和文档B2获得相似性指数3。相应地,专利文档I中公开的文档相似性确定系统基于计算的相似性指数来确定文档B2与文档A相似。在图4中,清楚的是,与文档BI相比,公共片段分散在文档B2中。因此,根据本发明的系统所计算的值小于专利文档I公开 的文档相似性确定系统所计算的值。因此。根据本示例性实施例的文档相似性评价系统可以提供这样的指数:通过该指数,可以在评价中涉及文档中具有高相似性的部分的集中和分散程度。在上述说明中,为了简化说明,假定所有片段Al、A2、A3、B21和B22包括相同个数的字符。然而,即使当使用每个片段中包括的字符个数彼此不同的系统配置(处理配置)时,也可以保持本示例性所获得的效果。类似地,在上述说明中,假定相似性指数计算单元103的函数F和函数G输出输入值而不改变所述输入值。然而,只要函数F和函数G是将特定整数值与正实数值相关联的单调增函数,顺序关系就不可逆。因此保持了本示例性实施例所获得的效果。S卩,通过本示例性实施例,可以提供可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。<第二示例性实施例>接着,描述基于上述第一示例性实施例的第二示例性实施例。在以下描述中,说明集中于本示例性实施例的特性部分,并且省略了对与上述第一示例性实施例的配置相同的配置的说明。参照图1描述根据第二示例性实施例的文档相似性评价系统。在片段搜索单元102计算NCC和NTC之后,相似性指数计算单元103使用以下等式2针对输入的片段串I和2计算相似性指数。相似性指数=H(NTC/NCC)XNS (等式 2)这里,函数H是将特定实数值与正实数值相关联的单调增函数。根据示例性实施例的文档相似性评价系统采用通过将NS乘以H(NTC/NCC)而获得的相似性指数。函数H是将特定实数值与正实数值相关联的单调增函数。因此,当公共片段集中时,H(NTC/NCC)的值较大,相反,当公共片段分散时,H(NTC/NCC)的值较小。因此,甚至在通过专利文档I中公开的文档相似性确定系统计算出相同值的相似性指数的情况下,如果使用根据示例性实施例的文档相似性评价系统,也会存在根据公共片段的集中和分散程度计算出不同值的相似性指数的高概率。即,通过该示例性实施例,提供了可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。<第三示例性实施例>接着,描述基于上述第一示例性实施例的第三示例性实施例。在以下描述中,说明集中于本示例性实施例的特性部分,并且省略了对与上述第一示例性实施例的配置相同的配置的说明。参照图1描述根据第三示例性实施例的文档相似性评价系统。在片段搜索单元102计算NCC和NTC之后,相似性指数计算单元103使用以下等式3针对输入的片段串I和2计算相似性指数。相似性指 数=NTC/NCCXNS(等式3)根据示例性实施例的文档相似性评价系统采用通过将NS乘以NTC与NCC的比值而获得的相似性指数。当公共片段集中时,NTC/NCC的值较大,相反,当公共片段分散时,NTC/NCC的值较小。因此,甚至在通过专利文档I中公开的文档相似性确定系统计算出相同值的相似性指数的情况下,如果使用根据示例性实施例的文档相似性评价系统,则存在根据公共片段的集中和分散程度计算出不同值的相似性指数的高概率。S卩,通过该示例性实施例,提供了可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。(硬件配置的示例)接着,描述硬件资源配置的示例,其中,使用一个计算机处理装置(信息处理设备或计算机)来实现在上述每个示例性实施例中描述的文档相似性评价系统。然而,可以在物理上或功能上使用至少两个计算机处理装置来实现文档相似性评价系统。此外,可以将文档相似性评价系统实现为专用设备。图3是示意性示出了计算机处理设备的配置的图,通过该计算机处理设备可以实现根据本发明第一至第三示例性实施例的文档相似性评价系统。计算机处理装置306包括CPU(中央处理单元)301、存储器302、磁盘303、输出设备304和输入设备305。即,CPU 301在执行程序时将磁盘303中存储的软件程序(计算机程序:下文中,简单称作程序)拷贝到存储器302中,并且执行算术处理。CPU 301从存储器302中读取执行程序所需的数据。当需要显示时,CPU 301显示输出设备304中的输出结果。当从外部输入程序时,CPU301从输入设备305中读取程序。CPU 301对存储器302中的文档相似性评价系统进行解译,并且执行程序。CPU 301根据流程图(图2)以及在上述每个示例性实施例中引述的等式顺序地执行处理。在这样的情况下,考虑到本发明包括计算机程序编译的代码或存储该代码的计算机可读存储介质。提供在前的实施例描述来使得本领域技术人员能够实现和使用本发明。此外,对这些示例性实施例的各种修改对于本领域技术人员是显而易见的,并且可以将本文定义的一般原理和特定示例应用于其他实施例,而无需使用创造性能力。因此,本发明不应限制于本文描述的示例性实施例,而是应当符合权利要求和等同物的限制所限定的最宽范围。此外,应当注意本发明人的意图在于即使在审查期间修改权利要求的情况下也能够保持要求保护的本发明的所有等同物。
权利要求
1.一种文档相似性评价系统,包括: 片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数: 相似性指数=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。
2.根据权利要求1所述的文档相似性评价系统,其中,所述相似性指数计算单元基于字符个数信息来计算所述第一和以及所述第二和,在所述字符个数信息中,所述出现范围中包括的每个片段与所述每个片段中包括的字符个数相关联。
3.根据权利要求1所述的文档相似性评价系统,其中,所述相似性指数计算单元使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的所述相似性指数: 相似性指数=H(NTC/NCC) XNS, 其中,在上述等式中,NTC是所述 第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数H是将特定整数值与正实数值相关联的单调增函数。
4.根据权利要求1所述的文档相似性评价系统,其中,所述相似性指数计算单元使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的所述相似性指数: 相似性指数=NTC/NCCXNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的个数。
5.一种文档相似性评价方法,所述文档相似性评价方法计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数,该方法包括: 在所述第一片段串和所述第二片段串二者中寻找公共片段; 对找到的所述公共片段的个数进行计数; 识别出现所述公共片段的出现范围; 计算第一和,所述第一和是所述出现范围中包括的每个片段的字符个数和; 计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;并且 使用以下等式计算所述相似性指数: 相似性指数=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。
6.根据权利要求5所述的文档相似性评价方法,其中,使用以下等式执行对所述相似性加以指示的所述相似性指数的计算: 相似性指数=H(NTC/NCC) XNS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数H是将特定整数值与正实数值相关联的单调增函数。
7.根据权利要求5所述的文档相似性评价方法,其中,使用以下等式执行对所述相似性加以指示的所述相似性指数的计算: 相似性指数=NTC/NCCXNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的个数。
8.一种非暂时性计算机 可读存储介质,所述非暂时性计算机可读存储介质存储使计算机实现以下功能的计算机程序: 片段搜索功能,所述片段搜索功能在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及 相似性指数计算功能,所述相似性指数计算功能:计算第一和,所述第一和是在所述片段搜索功能中识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数: 相似性指数=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。
9.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述相似性指数计算功能使用以下等式计算所述相似性指数: 相似性指数=H(NTC/NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数H是将特定整数值与正实数值相关联的单调增函数。
10.根据权利要求8所述的非暂时性计算机可读存储介质,其中,所述相似性指数计算功能使用以下等式计算所述相似性指数: 相似性指数=NTC/NCCXNS 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的个数。
全文摘要
一种能够评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统或类似系统,包括片段搜索单元,在第一片段串和第二片段串二者中寻找公共片段,对找到的公共片段的个数进行计数,并识别出现所述公共片段的出现范围;以及相似性指数计算单元,执行计算第一和,即片段搜索单元识别出的出现范围中包括的每个片段的字符个数和;计算第二和,即是被识别为公共片段的每个片段的字符个数和;并且使用以下等式计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数相似性指数=F(NTC)/G(NCC)×NS(其中,NTC是第一和,NCC是第二和,NS是公共片段的个数,函数F和函数G是将特定整数值与正实数值相关联的单调增函数)。
文档编号G06F17/30GK103218388SQ201210528898
公开日2013年7月24日 申请日期2012年12月10日 优先权日2012年1月19日
发明者周文琦 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1