文件分类辅助设备、方法及程序的制作方法

文档序号:8303464阅读:264来源:国知局
文件分类辅助设备、方法及程序的制作方法
【专利说明】文件分类辅助设备、方法及程序
[0001]相关申请的交叉引用
[0002]本申请基于并要求2012年9月25日提交的在先日本专利申请第2012-210988号的优先权,其全部内容通过引用结合在本文中。
技术领域
[0003]实施例涉及一种与手写文件相关的文件分类辅助设备、方法及程序。
【背景技术】
[0004]平板类型的终端近来得到广泛的使用。根据这种情况,作为输入装置的笔输入装置引起了注意。一旦这样的环境被提供,用户能够很容易地使用输入装置,即通过模拟用户熟悉的纸张和笔所获得的直观的装置,随时创建文件。然而,与传统的文本数据不同,不容易搜索这样创建的文件或者不容易通过例如复制或粘贴来重复使用这样创建的文件。
[0005]特别地,因为信息被存储作为手写数据(笔划数据),所以例如在文本文件的情况下被利用的全文搜索不能被使用。此外,即使应用了笔划识别技术,文本识别中很可能存在错误,这使得难以正确地检测用户想要处理的文件。
[0006]为了在上述情况下实现文件分类,已经提出了在输入到平板的手写文件中检测表示笔划方向和长度的笔划数据,和/或笔划是否包括曲线,从而分配、利用模糊类比,从预先登记的关键词数据中选择相应的关键词(例如“使用图形作为主要成分的文件”和“作者是个孩子”)。这使得文件分类能够基于文件特点被实现,而不需要来自笔划的字符识别结果。然而,在根据预先限定的笔划长度和方向的图案、存在/不存在曲线等来进行判定的上述的这种方法中,在这种方法被设计时所假设的用户的自由格式的变化不能够被代替。此夕卜,在这个方法中,难以重新设定或增加满足用户需要的具体的分类类别。
[0007]另一方面,当尝试使用来自笔划的手写字符识别结果时,如果采用了简单的聚类方法,因为原始数据包含了识别错误文本,对于用户来说,存在有每个群集(cluster)的代表术语可能难以理解的情况。进一步地,当采用一般的聚类方法时,因为初期不存在大量文件,所以例如在使用的初期,分类的精确性不能够被确定。
[0008]引用列表
[0009]专利文献
[0010]专利文献1:JP_A H09-319764
【附图说明】
[0011]图1是图解根据实施例的文件分类辅助设备的框图。
[0012]图2是图解根据另一个实施例的文件分类辅助设备的框图,其中图1中所示的候选计算单元被候选呈现/选择单元所代替;
[0013]图3是图解当规则被构建时,由图2的文件分类辅助设备所进行的操作的实例的流程图;
[0014]图4是图解当进行文件分类时,由实施例的每个文件分类辅助设备所进行的操作的实例的流程图;
[0015]图5是图解由图1和2中所示的图形特征提取单元所进行的操作的实例的流程图;
[0016]图6是图解由图1和2中所示的文件特征量提取/转换单元所进行的操作的实例的流程图;
[0017]图7是图解由图1和2中所示的相似度检测单元所进行的操作的实例的流程图;
[0018]图8是图解文件之间的相似度的定义的实例的视图;
[0019]图9是图解图形特征之间的相似度的定义的实例的视图;
[0020]图10是图解相似度权重调整用户界面的实例的视图;
[0021]图11是图解由图1的候选计算单元所进行的操作的实例的流程图;
[0022]图12是图解由图2的候选呈现/选择单元所进行的操作的流程图;
[0023]图13是图解用于在图2的候选呈现/选择单元中呈现分类候选的呈现屏幕的实例的视图;以及
[0024]图14是图解由图1的分类评估单元所进行的操作的实例的流程图。
【具体实施方式】
[0025]将参考附图详细地描述根据实施例的文件分类辅助设备、方法和程序。在实施例中,同样的参考数字表示同样的元件,并且重复的描述将被避免。
[0026]已经考虑到上述的情况,逐步阐明了实施例,并且目的在于提供用于手写文件的辅助自动分类的文件分类辅助设备、方法和程序。
[0027]总的来说,根据一个实施例,文件分类辅助设备包括文件输入单元,提取单元,特征量计算器,设置单元,计算器和存储器。文件输入单元输入包括笔划信息的文件。提取单元从笔划信息中提取图形信息、注释信息和文本信息中的至少一个。特征量计算器从提取出的信息中计算特征量,该特征量能够实现文件之间的相似度的比较。设置单元设置包括代表向量的群集,代表向量指示群集的特征并且各自包括特征量,并且设置单元检测每一个文件所属于的一个群集。计算器按照分类规则,计算包括在代表向量中并且使代表向量特征化的至少一个特征量。存储器存储分类规则。
[0028]首先参考图1,将描述根据实施例的文件分类辅助设备。
[0029]实施例的文件分类辅助设备包括文件输入单元101、图形特征提取单元102、文件特征量提取/转换单元103、相似度检测单元104、候选计算单元105、分类规则存储器106和分类评估单元107。文件分类辅助设备被用于(I)构建规则,并且(2)输入新的文件以分类该文件。当进行构建(I)时,文件输入单元101、图形特征提取单元102、文件特征量提取/转换单元103、相似度检测单元104、候选计算单元105和分类规则存储器106被使用。当(2)输入新的文件以分类该文件时,文件输入单元101、图形特征提取单元102、文件特征量提取/转换单元103、分类规则存储器106和分类评估单元107被使用。存在有(3)候选被呈现给用户用于规则构建以代替规则构建(I)的情况。稍后将参照图2来描述。
[0030]文件输入单元101输入手写文件。在上述的情况(I)或(3)中,文件输入单元101输入包括积累用于学习的大量的手写文件的手写文件集合(例如,用户创建的文件的集合)。在上述情况(2)中,文件输入单元101输入要被分类的新的文件。在本说明书中,新的文件不是文本文件,而是手写数据(笔划数据)的集合,即笔划信息。
[0031]图形特征提取单元102被用于情况(I)至(3)中的任意一种。图形特征提取单元102从文件输入单元101输入的文件中提取图形特征量或者字符识别结果。字符识别结果包括注释信息和文本字符串。举例来说,注释信息与例如双划线以及框(enclosure)的注释符号相关联。图形特征提取单元102使得提取出的图形特征量和字符识别结果对应于文件(或者文件中的相应页面)。图形特征提取单元102检测是否每个文件都包含图形或表格,并且提取各种注释符号(例如双划线和框)、字符串、字等等。
[0032]文件特征量提取/转换单元103被用于上述的情况⑴至(3)中的任意一种,以便基于由图形特征提取单元102提取出的信息,计算能够实现文件的相似程度之间的比较的特征量。文件特征量提取/转换单元103将至此的提取结果转换成可比较的特征量。例如,文件特征量提取/转换单元103从每个文本区域提取逻辑元素(例如与每个文件的布局相关联的元素),并且将图形特征提取单元102从字符识别结果提取出的文件特征量,以及图形特征提取单元102提取出的文件特征量,转换成能够很容易地被互相比较的特征量。文件特征量提取/转换单元103进行向例如文件向量的转换。
[0033]相似度检测单元104只在上述情况⑴或(3)中起作用,以便基于对应于大量文件并且通过文件特征量提取/转换单元103的转换而获得的多个特征量,计算文件的相似程度。相似度检测单元104使用至此所提取出的所有的特征量来计算相似程度。
[0034]候选计算单元105只在上述情况(I)中起作用,以便从分组结果中,计算最高排名的分类候选,分组结果是基于由相似度检测单元104获得的相似程度。候选计算单元105将最高排名的候选判定为分类规则的元素,并且将它们存储在分类规则存储器106中。分类规则指示所选择的候选之间的关系。例如,分类规则指示特征量和相应的可比较的数值之间的关系。
[0035]在情况(I)或(3)中,分类规则存储器106将分类条件的组合存储为分类规则。在情况(2)中,分类评估单元107参考分类规则存储器106。
[0036]分类评估单元107只在情况(2)时起作用,以便将转换后的特征量和存储在分类规则存储器107中的分类规则进行比较。根据比较的结果,分类评估单元107将每个新文件分类成预定的类别。
[0037]现在参照图2,将描述图1中所示的文件分类辅助设备的候选计算单元105被候选呈现/选择单元201所代替的实例的情况。图2是图解候选被呈现给用户以构建规则的情况(3)而不是情况(I)的框图。
[0038]候选呈现/选择单元201呈现从基于由相似度检测单元104获得的相似程度进行的分组的结果所判定的分类候选。参照所呈现的分类候选,用户确定分类规则并且候选呈现/选择单元201将确定的分类规则存储在分类规则存储器106中。
[0039]然后参照图3,将描述在进行候选呈现以用于规则构建的情况(3)中由文件分类辅助设备进行的操作的实例。
[0040]首先,文件输入单元101输入手写文件集合。图形特征提取单元102从每个文件中提取图形特征量、注释信息和文本字符串(步骤S301)。
[0041]文件特征量提取/转换单元103从所述每个文件的每个文本区域中提取逻辑元素,并且将每个提取结果转换成特征量(步骤S302)。
[0042]相似度检测单元104计算所有文件之间的相似度(更具体的说,相似程度)(步骤S303)ο
[0043]根据所计算出的相似程
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1