手写文件检索装置、方法以及记录介质的制作方法

文档序号:6488956阅读:130来源:国知局
手写文件检索装置、方法以及记录介质的制作方法
【专利摘要】本发明的实施形态关于手写文件检索装置、方法以及记录介质。提供即使作为检索对象的笔画数增加,也可以防止处理时间和存储量增加的手写文件检索装置、方法以及记录介质。根据实施形态,具备获取部、分类部、特征提取部、检索部。获取部获取包含笔迹数据的手写文件。分类部将所述手写文件分类为多个区域。特征提取部根据所述分类结果,提取显示所述区域的特征的特征量。检索部根据所述特征量执行检索。
【专利说明】手写文件检索装置、方法以及记录介质
[0001]本申请以日本专利申请2012-121305 (申请日:2012/5/28)为基础,从该申请享受优先利益。本申请通过参照该申请,包含该申请的全部内容。
【技术领域】
[0002]本发明的实施形态关于手写文件检索装置、方法以及记录介质。
【背景技术】
[0003]已知有从数据库中检索与用户输入或指定的手写查询对象(夕二 U —)相似或匹配的手写文件的文件检索装置。

【发明内容】

[0004]本发明要解决的课题是提供即使作为检索对象的笔画数增加,也可以防止处理时间和存储量增加的手写文件检索装置、方法以及记录介质。
[0005]根据实施形态,具备获取部、分类部、特征提取部、检索部。获取部获取包含笔迹数据得手写文件。分类部将上述手写文件分类为多个区域。特征提取部根据上述分类结果,提取表示上述区域特征的特征量。检索部根据所述特征量执行检索。
[0006]根据上述构成的装置,即使作为检索对象的笔画数增加,也可以防止处理时间和存储量增加。
【专利附图】

【附图说明】
[0007]图1是显示本实施形态涉及的手写文件检索装置的构成例的图。
[0008]图2是显示本实施形态涉及的手写文件检索装置的处理例的流程图。
[0009]图3是显示墨迹数据的格式一例的图。
[0010]图4是用于说明笔画数据输入的图。
[0011]图5是用于说明笔画数据分类的图。
[0012]图6是用于说明笔画数据分类的图。
[0013]图7是用于说明笔画数据分类的图。
[0014]图8是显示分类部一例的图。
[0015]图9是用于说明分类例的图。
[0016]图10是用于说明分类例的图。
[0017]图11是显示检索结果显示的一例的图。
[0018]图12是用于说明各种输入方法的图。
[0019]图13是用于说明硬件构成例的图。
[0020]图14是用于说明有网络的构成例的图。
【具体实施方式】[0021]以下参照附图详细说明本发明的实施形态涉及的手写文件检索装置。另外,以下的实施形态中,对于赋予了相同编号的部分执行同样动作,省略重复说明。
[0022]本实施形态中,从预先书写的(例如大量的)手写文件中,以用户手写的(含笔迹数据)手写文件列作为查询对象,执行检索。用户指定文件的方法可使用任意方法。例如,可以通过用户实际手写文件而指定查询对象。也可通过将预先准备的笔画列模板配置于布局上而由用户书写文件。也可以由用户从已有的手写文件中选择用作查询对象的文件。也可以是它们的组合。
[0023]此外,本实施形态中,查询对象与手写文件的相似度判定使用手写文件的布局。另夕卜,笔画指的是手写输入的笔画,表示笔等从接触输入面到离开为止的轨迹。
[0024]此外,本实施形态中,将含有与查询对象相似或匹配的布局的手写文件作为检索
结果呈示。
[0025]图1显示的是本实施形态的手写文件检索装置的构成例。如图1所示,本实施形态的手写文件检索装置,具备获取部1、分类部2、特征提取部5、检索部7、结果显示部8、墨迹数据数据库(墨迹数据DB) 11、特征量数据库(特征量DB) 12。
[0026]墨迹数据DBll存储将笔画以文件为单位汇总的墨迹数据。
[0027]特征量DB12存储基于该文件分类为多个区域的结果的特征量。此处,此处,区域指的是例如,图形区域、表区域、文字区域、行区块、文字区块等,详细后述。
[0028]获取部I用于获取用作查询对象的手写字符串。
[0029]此处,主要说明获取用户书写的笔画的情况。另外,该手写输入的方法可使用在触摸屏上用笔输入的方法、在触摸屏上用手指输入的方法、在触摸板上用手指输入的方法、操作鼠标输入的方法、用电子笔的方法等各种方法。
[0030]用户书写的笔画组(墨迹数据),例如,在用户结束书写文件时或保存时等作为墨迹数据DBll被存储。墨迹数据是用于以文件为单位等存储笔画组的数据构造。
[0031]分类部2将手写文件(墨迹数据)分类为多个区域,提取分类信息,执行分类处理。分类信息详细后述,但它是从手写文件得到的可以指定各个区域的信息。
[0032]特征提取部5从分类部2得到的分类信息中提取记述有该文件的(关于多个区域的)特征的特征量。
[0033]检索部7使用提取的特征量算出文件间的相似度,检索相似的文件。
[0034]结果显不部8不出检索结果。
[0035]图2显示本实施形态的手写文件检索装置的处理的一例。
[0036]步骤SI中,获取部I获取用作查询对象的手写文件(手写笔画列)。
[0037]步骤S2中,分类部2对于该获取的手写文件提取分类信息(执行分类处理)。
[0038]步骤S3中,特征提取部5基于该分类处理的结果,对于该获取的手写文件执行特征提取处理。
[0039]步骤S4中,检索部7根据特征提取部5得到的特征量,执行检索。
[0040]步骤S5中,结果显示部8显示检索部7得到的检索结果。
[0041]接着,参照图3说明墨迹数据的数据构造以及笔画数据的数据构造。
[0042]通常,在规定的时点(例如一定周期),笔画轨迹上的点会被抽样。因此,笔画表现为抽样点的系列。[0043]图3 (b)的例中,I个笔画(B卩,I笔)的笔画构造表现为笔移动的平面上的坐标值的集合(点构造),具体来说,I个笔画是含有:显示形成该笔画的点的个数的“点总数”、“开始时刻”、“外接图形”、与点总数相当的个数的“点构造”的排列的构造体。此处,开始时刻表示该笔画中笔接触到输入面开始书写的时刻。外接图形表示文件平面上对于该笔画轨迹的外接图形(优选为文件平面上内包该笔画的最小面积的矩形)。
[0044]点的构造可依存于输入设备得到。图3 (C)的例中,I点的构造是具有该抽样点的坐标值X、y、笔压以及距初期点(例如上述的“开始时刻”)的时间差这4个值的构造体。
[0045]另外,坐标为文件平面的坐标系,可通过左上角为原点、越往右下角值越大的正值来表现。
[0046]此外,输入设备无法获取笔压或者即使可以获取笔压但之后的处理不使用笔压时,可以省去图3 (c)的笔压或在笔压处标记显示无效的数据。
[0047]另外,图3 (b)、(c)的例中,可在笔画构造的各个点构造区域记载坐标值x,y等的实际数据,或者也可将笔画构造的数据与点构造的数据分别管理,在笔画构造中各个点构造的区域记载对应的点构造的链接信息。
[0048]图4显示的是获取的笔画例。此处,以笔画内的样本点的抽样周期固定的情况为例进行说明。图4 (a)显示抽样出的点的坐标,图4 (b)将时间连续的点构造线性插补并显示。抽样点的坐标间隔不同是由于笔速的差异。抽样点数可因各个笔画而异。
[0049]图3 (a)的例中,墨迹数据的数据构造,是包含有显示该文件全部区域所含笔画构造个数的“笔画总数”、与笔画总数相当的个数的“笔画构造”的排列的构造体。
[0050]另外,图3 (a)、(b)的例中,墨迹数据构造中的各个笔画构造的区域,既可以记载图3 (b)的数据,或者也可以将墨迹数据构造的数据与图3 (b)的笔画的数据构造分别管理,在墨迹数据构造中的各个笔画的数据构造区域记载对于对应的图3 (b)的数据的链接信息。
[0051]用户使用输入设备书写的笔画数据,通过例如图3所示的墨迹数据构造在存储器上展开。墨迹数据例如作为文件保存等情况下,作为墨迹数据DBll存储。
[0052]另外,存储多个文件时,可将用于识别这些文件的文件ID与各墨迹数据对应保存。此外,为了识别各个笔画,也可对各笔画构造付与笔画ID。
[0053]接着,说明分类部2。
[0054]分类部2,是对于存储的一个手写文件(墨迹数据),根据文件平面上的笔画位置关系和属性分类为多个区域,执行分类处理。
[0055]此处,参照图5?图7说明分类的为多个区域的例子。
[0056]例如,手写文件首先分类为文字区域、文字区域以外的区域。优选如图5所示,手写文件大体分类为3个区域,即,“文字区域”、“图形区域”、“表区域”的单位。
[0057]各个“文字区域”的内包区域还可分类为多个区域。例如,如图5所示,“文字区域”可分类为“段落区块”,“段落区块”可分类为“行区块”。此外,也可如图6所示,“行区块”可分类为“单词区块”,“单词区块”可分类为“文字区块”。此外,还可如图7所示,“文字区块”可分类为有“部首区块”。这些全部使用时,存在8种区域,也可仅从中适当选择一部分使用。
[0058]接着,参照图8说明分类处理的例子。图8是分类部2的内部功能区块或内部处理的构成例。
[0059]首先,将手写文件分类为文字区域、图形区域、表区域的单位(区域分类部或区域分类处理21)。
[0060]例如,为了判定各笔画属于文字、图形、表中的哪一个,可以使用预先已学习的识别器,算出笔画的似然性,为了结合文件平面上的空间距离和连续性,以马尔可夫随机场(Markov random field ;MRF)表现,通过推定分离最佳区域,将区域分割为文字区域、图形区域、表区域(例如,参照 “X.-D.Zhou, C.-L.Liu, S.0uiniou, E.Anquetil, "Text/Non-textInk Stroke Classification in Japanese Handwriting Based on Markov RandomFields〃ICDAR’ 07Proceedings of the Ninth International Conference on DocumentAnalysis and Recognition, vol.1, pp 377-381,2007,,)。
[0061]另外,文字区域、图形区域、表区域的分类不限于上述方法。
[0062]将手写文件分类为文字区域、图形区域、表区域后,对于文字区域,分类为更详细的区域。
[0063]首先,本实施形态中,分类行区块的区域(行区块分类部或行区块分类处理22)。
[0064]各笔画数据中,由于含有书写时间信息,例如,关于按书写顺序排序的笔画列,连续笔画的外接矩形间的距离不足阈值的话,可判定为属于同一行区块,在阈值以上的话,可判定为属于不同行区块。
[0065]
【权利要求】
1.一种手写文件检索装置,其特征在于,具备: 获取包含笔迹数据的手写文件的获取部; 将所述手写文件分类为多个区域的分类部; 根据所述分类结果,提取示出所述区域的特征的特征量的特征提取部;以及 根据所述特征量执行检索的检索部。
2.根据权利要求1所述的手写文件检索装置,其特征在于,所述分类部将所述手写文件分类为文字区域和文字区域以外的区域。
3.根据权利要求1所述的手写文件检索装置,其特征在于,所述分类部将所述手写文件分类为文字区域、图形区域和表区域。
4.根据权利要求2或3所述的手写文件检索装置,其特征在于,所述分类部进一步将所述文字区域分类为段落区块、行区块、单词区块、文字区块以及部首区块这些阶层中的一部分或全部。
5.根据权利要求2?4中任意一项所述的手写文件检索装置,其特征在于,所述特征量包含表示所述区域种类的区域标签与该区域数据的组合。
6.根据权利要求1所述的手写文件检索装置,其特征在于,所述获取部以笔画为单位获取手与字符串。
7.根据权利要求1所述的手写文件检索装置,其特征在于,所述获取部从预先存储的手写字符串中获取含有用户指定的字符串的文件。
8.根据权利要求1所述的手写文件检索装置,其特征在于,所述检索部检索与对应各个所述区域预先准备的模板组相似的手写文件。
9.根据权利要求1?8中任意一项所述的手写文件检索装置,其特征在于,还含有显示所述检索部的检索结果的显示部。
10.一种手写文件检索方法,其是手写文件检索装置的手写文件检索方法,其特征在于,含有: 获取包含笔迹数据的手写文件的步骤; 将所述手写文件分类为多个区域的步骤; 根据所述分类结果,提取示出所述区域的特征的特征量的步骤;以及 根据所述特征量执行检索的步骤。
11.一种存储介质,其特征在于,存储有令计算机发挥以下部件的功能的程序:获取包含笔迹数据的手写文件的获取部; 将所述手写文件分类为多个区域的分类部; 根据所述分类结果,提取示出所述区域的特征的特征量的特征提取部;以及 根据所述特征量执行检索的检索部。
【文档编号】G06F17/30GK103455527SQ201210348155
【公开日】2013年12月18日 申请日期:2012年9月18日 优先权日:2012年5月28日
【发明者】柴田智行, 登内洋次郎, 井本和范, 山内康晋 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1