文件分类辅助设备、方法及程序的制作方法_3

文档序号:8303464阅读:来源:国知局
[0084]{0121, O, O, O, O, 0123, O, O, 0}
[0085]类似地,假设在文件B中,图形Λ,Λ和□分别出现在左上位置,右中位置和左下位置,文件B的图形特征向量被表达为
[0086]{0123,O, O, O, O, 0123,0122,O, 0}
[0087]FigSim(Α,B)代表由出现在文件A和B中的图形特征向量所定义的相似程度。假设FigSim(A,B)例如代表特征向量的余弦相似度,它被表达为
[0088]FigSim(A, B) = (0121 X 0123+0+0+0+0+0123 X 0123+0 X 0122+0+0) / (01212+01232)1/2X (01232+01232+01222)1/2= 30012/(17254X212.47) = 0.82
[0089]因此,通过FigSim计算的相似程度等于0.82。
[0090]类似地,TermSim(A,B)代表文件A和B中出现的在字符串特征的字特征向量之间定义的相似程度。TermSim(A,B)代表文件之间的相似程度,使用文件中出现的字、复合字或者字符串n-gram作为特征向量。更具体地说,将描述例如文件A和B之间的TermSim(A,B)。这里,假设形态分析被应用到文件A的文本,并且“会议笔记”、“专利研宄”、“投影”和“想法”被提取作为名词(复合字)(即,从文件A中提取出的名词=“会议笔记”、“专利研宄”、“投影”和“想法”)。类似地,假设“报告”、“投影”、“交付日期”和“进程管理”从文件B中被提取(即,从文件B中提取出的名词=“报告”、“投影”、“交付日期”和“进程管理”)。
[0091]这些出现的文字能够被排列成字呈现列表,如下:
[0092]字呈现列表={交付日期、报告、会议笔记、专利研宄、想法、投影、进程管理}
[0093]如果根据列表的内容,这些字在每个文件中是否出现通过向量“O”(代表字没有出现)或“I”(代表字出现)来被表达,字特征向量能够被表达如下:
[0094]文件A的字特征向量={0,0,1,1,1,1,0}
[0095]文件B的字特征向量={1,1,0,0,0,1,1}
[0096]使用这些字特征向量,文件之间的相似程度能够例如使用余弦相似度cos (A,B)=A.b/|a| |b| ( “.”代表向量内积,并且11代表绝对值)来被表达。
[0097]在上述实例中,下面的TermSim(A,B)被获得:
[0098]TermSim(A, B) = (0+0+0+0+0+1+0)/(( V 4) X ( V 4)) = I/(2X2) =1/4 = 0.25
[0099]在这种情况下,相似程度通过落在范围O到I之间的值被表达。因为值“I”指示最相似(相同),所以可以理解上述的文件彼此并非如此相似。
[0100]此外,LayoutSim(A,B)是在文件A和B中出现的逻辑元素特征向量之间定义的相似程度。这个相似程度是当文件中的逻辑元素的出现被表达为DOM表达式(树结构)时所做出的计算的结果,树结构之间的相似程度是例如考虑到编辑距离而被计算。
[0101]尽管这种对于字特征向量的一般定义不是用于结构间的相似程度而被建立,但是作为实例,做出以下叙述的定义。如在字特征向量中,文件的属性被限定。
[0102]这里,假设存在以下的属性类型:
[0103]结构信息的定义列表={标题、子标题、正文文本、段落、详细条目、注释、单元格}
[0104]假设在文件A中,“标题”和“子标题”可以例如通过与一行中的字体大小、字符串位置、文本长度相关联的预先定义的规则匹配被检测。同样假设在文件B中,作为表格说明的“详细条目”和“单元格”,以及“子标题”能够从垂直邻近于“子标题”的行的缩进位置中或者从字/字符串出现的一致性程度中被检测。在这种情况下,文件A和b能够被表达如下:
[0105]文件A的逻辑元素特征向量={1,1,0,0,0,0,0,0}
[0106]文件B的逻辑元素特征向量={0,1,0,0,1,0,0,1}
[0107]对于这些向量,由上述的余弦相似程度所限定的相似程度能够被计算。更具体地说,文件A和B之间的相似程度能够被计算为:
[0108]LayoutSim(A, Β) = A.B/| A | | B | = (0+1+0+0+0+0+0+0)/ V 2X V 3 = I/ V 6=0.4082...=大约 0.4。
[0109]对于每个结构信息项目,没有必要用同样的权重来处理相应的逻辑元素(标题、子标题、段落)。举例来说,用于例如标题或子标题的权重可以偏向更大的值。此外,包括在逻辑元素中的文本字符串之间的一致性的程度可以被考虑来代替检测是否存在相同的逻辑元素。
[0110]考虑到上述,假设整个页面之间的相似程度被定义为通过将适当的系数应用到初始的相似程度所获得的相似程度的组合。在这个实例中,到目前为止所描述的相似程度被总计。系数被提供给用于不同的特征量的各个相似度权重。对于系数,通过实验获得的初始的固定值可以被设定。
[0111]可选地,系数可以根据由用户所累积的文件数据特征的偏移量而被偏移。假设系数α,β和γ分别被设定为1/3,1/3,1/3的默认值,目前所计算的值被带入下面的等式:
[0112]DocSim(Α, B) = a.FigSim(A, B) + β.TermSim(A, Β) + γ.LayoutSim(A, B)
[0113]这时,以下的值能够被获得:
[0114]DocSim (A, B) = a.0.82+β.0.25+γ.0.4 = 1/3X0.82+1/3X0.25+1/3X0.4=0.49
[0115]类似地,任意两个累积的文件的相似程度能够被计算。关于权重,用户可以准备可调节的调节手段。
[0116]如上所述,图形特征向量、字特征向量和逻辑元素特征向量的组合对应于文件向量。通过总计使具有各自的相似程度的图形特征向量、字特征向量和逻辑元素特征向量加权所获得的值,两个文件之间的相似程度被计算。
[0117]然后参照图10,将描述调节手段的具体实例。更具体地说,将描述用于调节相似度权重的界面的实例。图10显示了候选呈现/选择单元201的显示实例。
[0118]这里,假设考虑到之后阶段中进行的处理的结果,在某个时间点的分类结果被映射在由如左上部分所示的两个轴所定义的二维平面上,并且用户能够调整X和Y轴的滑块。如稍后将描述的,X和Y轴指示多个元素的的线性耦合,并且用户能够通过调整滑块来改变用于耦合的权重,从而改变代表文件之间的相似程度的平面上的文件(缩略图)之间的距离,或者文件组之间的距离。例如,X轴指示β/α,并且Y轴指示γ/α。
[0119]当用户通过移动滑块已经改变权重时,利用例如某两个文件被分类成一个组或者被分类成不同组的事实,能够判定所改变的权重的有效性。
[0120]因此,通过用户使用滑块而更新的权重能够被反映在由用于计算文件之间的相似程度的系统所使用的每个元素的权重中。
[0121]然后参照图11,将描述候选计算单元105的操作实例。
[0122]首先,每个群集信息被读入(步骤S1101)。也就是,每个群集的代表向量被读入。
[0123]每个群集的加权中心(对应于代表向量)受到主成分分析(PCA),从而设定第一主要成分和第二主要成分(对应于X和Y轴)(步骤SI 102)。
[0124]根据对应于X和Y轴的属性的权重,候选被排序以判定最高排名的候选(步骤S1103)ο
[0125]计算结果作为分类规则被存储在分类规则存储器106中(步骤SI 104)。
[0126]参照图12,将描述进行将候选呈现给用户的操作的实例,即,候选呈现/选择单元201的操作实例。
[0127]首先,每个群集信息被读入(步骤S1101)。
[0128]每个群集的加权中心(对应于代表向量)受到PCA,从而使用第一主要成分和第二主要成分来进行二维显示(步骤S1202)。
[0129]基于用于提供X和Y轴的二维显示属性的权重,呈现的候选被排序(步骤S1203)。
[0130]随后,根据排序结果,候选呈现/选择单元201的选择菜单成分被重新排列并被呈现给用户(步骤S1204)。
[0131]如果用户根据呈现结果完成了每个规则的选择/判定操作,那么选择结果被存储作为分类规则(步骤S1205)。如果用户没有完成操作,菜单呈现和选择操作被重复。
[0132]现在参照图13,将描述在候选呈现/选择单元201中的分类候选呈现显示的实例。
[0133]在这个实施例中,目的是通过用户的定制IF-THEN格式规则来构建用户希望的具体的分类规则。
[0134]用户能够从多个条件中选择候选或者定义条件。此外,用户能够通过指定每个条件应当与所有条件一致(AND)或者与任一个条件一致(OR)来组合条件。
[0135]每个条件使用由用户输入的任意字符串,例如“区域指定”、“情况指定”或者“具体实例(具体属性)”被定义。假设由“区域指定”指示的范围能够被约束条件所限制,约束条件例如是范围被包括在指定区域中的条件、范围被排除在指定区域外的条件、或者范围必须与指定区域一致的条件。在“区域指定”中,文件属性,例如在页面的主体内/外,在文本内,页面的上/中/下部分,以及标题、子标题、图形内、表格内,能够被定义为图
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1