确定文档之间的相似度的方法和设备的制作方法

文档序号:6422978阅读:158来源:国知局
专利名称:确定文档之间的相似度的方法和设备的制作方法
技术领域
本发明涉及用于确定多个文档之间的相似度的方法、设备和计算机程序。
背景技术
现在,演示文档的创建逐步增加。经常在一个或多个现有文档的基础上创建新的演示文档。在这种环境中,当机密文档被泄露时,公司会担心丧失信誉度,并且由于丧失信誉度而导致的财务损失风险也将增加。很难断绝有问题文档的泄露并且很难确定该演示文档的创建基础。对于只包括文本的文档,其比较方法是公知的。但是,由于演示文档中混合了对象、文本以及图形和图像等非文本信息,所以很难进行比较。在专利文献1中,每个图形的面积用作比较确定的基础。具体地说,在比较两个页面时,通过将一个页面上对象之间的面积比与另一页面上对象之间的面积比相比较来确定页面之间的相似度。但是,在专利文献1的方法中,当对象之间的面积比不同时,则确定不存在相似度。因此,这种确定明显不同于人类执行的相似度确定。而且,在专利文献1中, 仅使用图像信息而未考虑文本信息。总之,专利文献1中的方法可以被认为是一种在生成完整页面的缩放副本时有效的相似度确定方法。在非专利文献1中,采用了一种方法,其中当获得了图像之间的相似度时,矢量图像被转换为图形表示,并且图像之间的相似度被计算为图形之间的相似度。但是,在计算诸如演示文档之类的包括图形的文档之间的相似度时,通过非专利文献1中的方法无法获得足够的准确性。这是因为演示文档包括文本数据以及图形数据,并且文本数据显著影响文档的特性。此外,在非专利文献1的方法中,当在完全不同的文档中使用相同图像对象(例如,跨各文档频繁使用的公司标识或剪贴画)时,这些文档将被错误地检测为是相似文档。非专利文献2披露了一种基于随机游动的图挖掘方法。非专利文献2未描述使用对象之间的面积比获取文本之间的相似度或文档之间的相似度的方法。引用列表专利文献[PTL 1]日本未审查的申请公开No. 2007-164648非专利文献[NPL IjAnoop M. Namboodiri,Anil K. Jain,"Retrieval of on-line Hand-Drawn Sketches(检索在线手绘草图,icpr,Vol 2,第642-645页,第17届国际模式识别大会 (ICPR' 04)-卷 2,2004) ”[NPL 2]Kashima H. , Tsuda K.禾口 Inokuchi A.的“Marginalized kernels between labeled graphs (标记图之间的边际核函数,ICML,‘ 03 第20届国际机器学习大会会议记录,AAAI Press, 2003,321-328) ”

发明内容
技术问题
鉴于上述情况,本发明的目标是提供一种用于检测其中混合了文本信息和非文本信息的文档之间的相似度的技术、一种用于在考虑每个对象的重要度的情况下检测文档之间的相似度的技术,以及一种用于以非常符合人类在一瞥之下确定文档之间相似度的方式执行文档之间的相似度确定的技术。解决方案为了解决上述问题,本发明提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的方法。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述方法包括以下步骤将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图,以及通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度。在这种情况下,每个对象的重要度可以是所述对象的面积与所有对象的总面积的比(面积比)。此外,转换为有向图的步骤可包括以下步骤将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。在这种情况下,所述节点所拥有的特征可包括文本、图像或图形属性。此外,指示所述位置关系的信息可包括上方、下方、左侧或右侧。此外,可通过图挖掘来执行计算有向图之间的相似度的步骤。此外,可使用以下项执行通过图挖掘计算相似度的步骤运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,ν')之间的相似度的核函数,以及指示一对边(e,e')之间的相似度的核函数。在这种情况下,可通过基于随机游动的图挖掘来执行通过图挖掘计算相似度的步骤,并且假设转换后的有向图为G和G',当使用以下项计算指示有向图G和G'之间的相似度的核函数K(G,G')时ps (i)随机游动从节点i开始的概率,pt (j I i)发生从节点i转移到节点j的转移概率,pq(i)随机游动在节点i结束的概率,K(ν, ν')指示所述一对节点(ν,ν')之间的相似度的核函数,以及K(e,e')指示所述一对边(e,e‘)之间的相似度的核函数,ps (i)或pt(j|i)的值可随每个对象的面积与所有对象的总面积的比(面积比) 而成比例地增大。此外,作为另一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的系统。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述系统包括用于将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图的装置,以及用于通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度的装置。此外,作为另一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机程序。所述计算机程序使计算机执行上述每种方法中的步骤。此外,作为另一方面,提供了存储上述计算机程序以便所述计算机程序可以由计算机读取的记录介质。本发明的有益效果使用本发明能够检测其中混合了文本信息和非文本信息的文档之间的相似度,并且在考虑每个对象的重要度的情况下检测文档之间的相似度。在本发明中,对象的面积越大,比较该对象的频率也越高。因此,对象越大,该对象对相似度计算的贡献也越大。在此布置中,可使计算机以非常符合人类在一瞥之下确定文档之间相似度的方式执行确定。


图1示出了本发明的过程的概述;
图2示出了将文档数据段转换为标记有向图的流程的更详细的流程图
图3示出了节点和边的示意性特征;
图4示出了在将演示图用作文档数据的情况下到有向图的示意性转换
图5示出了节点的特征的内部数据结构;
图6示出了边的标记的数据结构;
图7是本发明的文档相似度确定系统的方块图8是本发明的文档相似度确定系统的详细流程图9是比较页面相似度的过程的更详细的流程图10是本发明的文档数据相似度确定系统的示意性硬件方块图;以及
图11是示出更实际的比较方法的图。
具体实施例方式图1示出了本发明的过程的概述。在步骤110,将每个都包括对象的文档数据段转换为标记有向图(labeled directed graph)。此时,将每个对象转换为节点并计算所述对象的特征。然后,通过边连接所述节点。要被连接的节点之间的地理位置关系被用作分配给对应边的标记。然后,在步骤120,使用获取有向图之间的相似度的函数计算所述文档数据段之间的相似度。此时,除了每个节点的特征和边的位置关系以外,还使用每个对象的重要度执行计算。在本发明中,对象的面积被视为对象的重要度。备选地,可以在不偏离本发明本质的情况下使用其他指标,例如,与特殊形状成比例的信息或使用数字水印技术嵌入的重要度。在本发明的一个实施例中,在节点和边的相似度计算中,将对象的面积与所有对象的总面积的比(面积比)用作对象的重要度。图2示出了将文档数据段转换为标记有向图的步骤110的更详细的流程图。在步骤210,将文档数据中的每个对象首先转换为节点。此时,对象的属性被设为节点的特征。 然后,在步骤220,通过边连接各节点。将要连接的节点之间的位置关系分配给对应的边作为标记。图3示出了对象的涉及节点和边的属性。在将文档数据转换为标记有向图时,节点所拥有的特征主要包括文本、位像和图形属性。文本的内容包括字符串。位像包括作者的用户ID和面积。图形属性包括前景颜色、背景颜色、线型、宽度、高度、形状以及面积。边所拥有的特征包括方向和标记。方向包含指示方向从哪个节点延伸到哪个节点的信息。标记包含地理位置信息。
图4示出了在将演示图用作文档数据的情况下到有向图的示意性转换。在两个图中,上图示出了原始图,下图示出了原始图转换而成的有向图。符号vl、v2、v3、v4、v5和v6 均表示一个节点。原始图中的符号Vl、v2、v3、v4、v5和v6是为了清晰地表达与图的对应, 实际图中没有这些符号。在有向图中,节点中的E指示原始对象的形状为椭圆,节点中的R 指示原始对象的形状为矩形,并且节点中的B指示原始对象为位形。另外,边的标记A、 B、L和R分别表示上方、下方、左侧和右侧。例如,在节点vl与v2之间的关系中,对应的标记指示节点v2位于节点Vl右侧的位置关系。另外,每个节点都具有特征。例如,在节点v3 中,文本为“风险”,线条颜色为黑色,填充色为浅绿色。节点v6具有对位图唯一的标识符并且 UID 为 A593F7。图5示出了节点的特征的内部数据结构。此数据结构存储在存储器中。在图5中, 示出了节点v3。应该理解,针对每个节点号存储了特征名以及值。在图5中,对应对象的形状为椭圆。例如,对于节点v6,对应对象的形状为B,唯一 ID包含在特征名中,并且A593F7 包含在值中。图5仅示出了一个实例,并且取决于对象类型,可以适当地考虑使用多种特征类型。图6示出了边的标记的数据结构。此数据结构也存储在存储器中。在图6中,示出了节点v4与v5之间的边。边包括以下特征方向和标记。方向包括指示方向从哪个节点延伸到哪个节点的“自”和“至”,在“自”和“至”中将节点号设为值。在标记中设置地理位置信息值“上方”、“下方”、“左侧”和“右侧”之一。地理位置信息指示相对于对应边起点处的节点,所述边的终点处的节点的位置。由于节点v5位于节点v4下方,因此在对应值中设置“下方”。另外,由于节点v4位于节点v5上方,因此在对应值中设置“上方”。实施例披露了通过核方法实现的采用图挖掘的相似度确定方法作为实施例。图挖掘可以计算可由诸如分子结构之类的图形表示的数据的相似度,并且用于例如根据获取的相似度查找具有特定属性的物质。由于图挖掘方法是公知的,因此将省略具体的方法。例如,非专利文献2中提出了一种方法,其中结合了图挖掘方法以外的随机游动和核方法。因此,现在将其中定义了适合确定文档数据相似度的核函数并将其用于相似度确定的实例示为本发明的实施例。图挖掘概述在基于随机游动的图挖掘中,两个标记有向图G和G'之间的核函数K(G,G')表示为[E1]
权利要求
1.一种支持确定两个文档数据段之间的相似度的计算机可执行的方法,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述方法包括以下步骤将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图;以及使用每个对象的重要度计算转换后的有向图之间的相似度。
2.如权利要求1中所述的方法,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
3.如权利要求1中所述的方法,其中转换为有向图的步骤包括以下步骤将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。
4.如权利要求3中所述的方法,其中所述节点所拥有的特征包括文本、图像或图形属性。
5.如权利要求3中所述的方法,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
6.如权利要求1中所述的方法,其中通过图挖掘来执行计算有向图之间的相似度的步马聚ο
7.如权利要求6中所述的方法,其中使用以下项执行通过图挖掘计算相似度的步骤 运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i 结束的概率、指示一对节点(v,ν')之间的相似度的核函数,以及指示一对边(e,e')之间的相似度的核函数。
8.如权利要求7中所述的方法,其中通过基于随机游动的图挖掘来执行通过图挖掘计算相似度的步骤,并且假设转换后的有向图为G和G',当使用以下项计算指示有向图G和 G'之间的相似度的核函数K(G,G')时ps (i)随机游动从节点i开始的概率,Pt (j I i)发生从节点i转移到节点j的转移概率,pq(i)随机游动在节点i结束的概率,K(ν, ν')指示所述一对节点(ν,ν')之间的相似度的核函数,以及 K(e,e')指示所述一对边(e,e')之间的相似度的核函数, ps (i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
9.一种支持确定两个文档数据段之间的相似度的计算机可执行的系统,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述系统包括用于将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图的装置;以及用于通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度的直ο
10.如权利要求9中所述的系统,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
11.如权利要求9中所述的系统,其中用于转换为有向图的装置包括用于将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征的装置,以及用于通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息的装置。
12.如权利要求11中所述的系统,其中所述节点所拥有的特征包括文本、图像或图形属性。
13.如权利要求11中所述的系统,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
14.如权利要求9中所述的系统,其中通过图挖掘来执行有向图之间的相似度的计算。
15.如权利要求14中所述的系统,其中使用以下项执行通过图挖掘计算所述相似度 运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i 结束的概率、指示一对节点(v,ν')之间的相似度的核函数,以及指示一对边(e,e')之间的相似度的核函数。
16.如权利要求15中所述的系统,其中通过基于随机游动的图挖掘来执行通过图挖掘计算所述相似度,并且假设转换后的有向图为G和G',当使用以下项计算指示有向图G和 G'之间的相似度的核函数K(G,G')时ps (i)随机游动从节点i开始的概率,Pt (j I i)发生从节点i转移到节点j的转移概率,pq(i)随机游动在节点i结束的概率,K(ν, ν')指示所述一对节点(ν,ν')之间的相似度的核函数,以及 K(e,e')指示所述一对边(e,e')之间的相似度的核函数, ps (i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
全文摘要
本发明涉及一种确定文档之间的相似度的方法和设备。本发明的目标是提供一种检测其中混合了文本信息和非文本信息的文档之间的相似度的技术。为了实现上述目标,作为第一方面,提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的方法。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述方法包括以下步骤将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图;以及通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度。
文档编号G06F17/30GK102236693SQ20111010350
公开日2011年11月9日 申请日期2011年4月25日 优先权日2010年4月28日
发明者三品拓也, 吉滨佐知子 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1