手写文字检索装置、方法以及记录介质的制作方法

文档序号:6488958阅读:139来源:国知局
手写文字检索装置、方法以及记录介质的制作方法
【专利摘要】本发明的实施方式关于手写文字检索装置、方法以及记录介质。提供可以更准确实现手写文字检索的手写文字检索装置、方法以及记录介质。根据实施方式,具备获取部、特征提取部、合并部、特征量付与部、检索部。获取部以笔画为单位获取手写文字列。特征提取部从所述手写文字列获取每个所述笔画固有的第1特征量。合并部将所述笔画合并到多个集合。特征量付与部向每个所述笔画付与基于所述合并结果的第2特征量。检索部根据所述第1特征量以及所述第2特征量执行检索。
【专利说明】手写文字检索装置、方法以及记录介质
[0001]本申请以日本专利申请2012-121304 (申请日:2012/5/28)为基础,从该申请享受优先利益。本申请通过参照该申请,包含该申请的全部内容。
【技术领域】
[0002]本发明的实施方式关于手写文字检索装置、方法以及程序。
【背景技术】
[0003]从数据库检索与用户输入或指定的手写查询对象(query)相似或匹配的手写文件的文件检索装置是为人所知的。

【发明内容】

[0004]本发明要解决的课题是提供可以更准确实现手写文字检索的手写文字检索装置、方法以及记录介质。
[0005]根据实施方式,具备获取部、特征提取部、合并部、特征量付与部、检索部。获取部以笔画为单位获取手写文字列。特征提取部从所述手写文字列获取每个所述笔画固有的第I特征量。合并部将所述笔画合并到多个集合。特征量付与部向每个所述笔画付与基于所述合并结果的第2特征量。检索部根据所述第I特征量以及所述第2特征量执行检索。
[0006]根据上述结构的装置,可以进行更准确的手写文字检索。
【专利附图】

【附图说明】
[0007]图1是显示本实施方式涉及的手写文字检索装置的构成例的图。
[0008]图2是显示本实施方式涉及的手写文字检索装置的处理例的流程图。
[0009]图3是显示墨迹数据的格式一例的图。
[0010]图4是用于说明笔画数据输入的图。
[0011]图5是用于说明笔画数据采样的图。
[0012]图6是用于说明特征量数据库的图。
[0013]图7是用于说明笔画数据合并的图。
[0014]图8是用于说明笔画数据合并的图。
[0015]图9是用于说明笔画数据合并的图。
[0016]图10是显示合并部一例的图。
[0017]图11是用于说明使用了区域特征量的检索的图。
[0018]图12是用于说明使用了区域特征量的检索的图。
[0019]图13是显示检索结果显示的一例的图。
[0020]图14是用于说明硬件构成例的图。
[0021]图15是用于说明配合网络的构成例的图。【具体实施方式】
[0022]以下参照附图详细说明本发明的实施方式涉及的手写文字检索装置。另外,以下的实施方式中,赋予了相同编号的部分执行同样动作,省略重复说明。
[0023]本实施方式中,从预先书写的(例如大量的)手写文件中,以用户手写的手写文字列作为查询对象,执行检索。本实施方式中主要以文字列为例进行说明,但查询对象也可以是用户绘制的线和标记。此外,用户指定手写文字列的方法可使用任意方法。例如,可以通过用户实际手写文字列而指定查询对象。也可以由用户从已有的手写文件中选择用作查询对象的部分。也可以由用户从查询对象用模板中选出查询对象。也可以是它们的组合。
[0024]此外,本实施方式中,对于查询对象与手写文字列的相似度判定,除了笔画单体固有的特征量,还使用基于笔画组集合的特征量。另外,笔画指的是手写输入的笔画,表示笔等从接触输入面到离开为止的轨迹。
[0025]此外,本实施方式中,将含有与查询对象相似或匹配的手写文字列的手写文件作为检索结果进行呈示。
[0026]图1显示的是本实施方式的手写文字检索装置的构成例。如图1所示,本实施方式的手写文字检索装置,具备获取部1、合并部2、合并信息付与部3、特征提取部5、检索部
7、结果显示部8、墨迹数据数据库(墨迹数据DB) 11、特征量数据库(特征量DB) 12。
[0027]墨迹数据DBll存储将笔画以文件为单位合并的墨迹数据。
[0028]特征量DB12记录各个笔画单体固有的特征量(第I特征量)以及基于各个笔画所属集合的特征量(第2特征量)。此处,集合为由I个笔画或多个笔画(以下称为笔画组)所形成。
[0029]获取部I用于获取用作查询对象的手写文字列。
[0030]此处,主要说明获取用户书写的笔画的情况。另外,该手写输入的方法可使用在触摸屏上用笔输入的方法、在触摸屏上用手指输入的方法、在触摸板上用手指输入的方法、操作鼠标输入的方法、用电子笔的方法等各种方法。
[0031]用户书写的笔画组,例如,在用户结束书写文件时或保存时等,作为墨迹数据DBll被存储。墨迹数据是用于以文件为单位等存储笔画组的数据构造。
[0032]特征提取部5从各笔画提取记述有(该笔画单体固有的)特征的特征量(第I特征量)。
[0033]合并部2对于墨迹数据,将笔画合并到多个集合,提取合并信息。合并信息是显示各个笔画所属的I个或多个集合的信息。例如,对于各集合,合并信息含有显示合并结果种类的分类标签与该集合所处位置的区域数据。区域数据以指定对角的矩形和旋转角表现。
[0034]合并信息付与部3向各笔画的特征量(第I特征量)付与合并部2得到的集合信息(第2特征量)。
[0035]检索部7使用记录为作为查询对象的由多个笔画构成的文字列的特征量,检索相似的文字列。
[0036]结果显不部8呈不检索结果。
[0037]图2显示的是本实施方式的手写文字检索装置的处理的一例。
[0038]步骤SI中,获取部I获取用作查询对象的手写文件或文字列(手写笔画列)。
[0039]步骤S2中,合并部2对于该获取的墨迹数据提取合并信息(执行合并处理)。[0040]步骤S3中,特征提取部5对于该获取的墨迹数据执行特征提取处理。
[0041]步骤S4中,合并信息付与部3根据合并部2的合并处理结果,对该获取的墨迹数据执行合并信息付与处理。
[0042]步骤S5中,检索部7根据特征提取部5得到的第I特征量以及合并信息付与部3得到的第2特征量,执行检索。
[0043]步骤S6中,结果显示部8显示检索部7得到的检索结果。
[0044]另外,上述处理中,步骤S3可在步骤SI与步骤S5间的任意时点执行。同样的,步骤S2、S4 (但是,步骤S4应在步骤S2后执行)可在步骤SI与步骤S5间的任意时点执行。此外,步骤S3也可与步骤S2、S4并列处理。另外,步骤S3可与步骤SI同时执行。
[0045]接着,参照图3说明墨迹的数据构造以及笔画数据的数据构造。
[0046]通常,在规定的时点(例如一定周期),笔画轨迹上的点会被采样。因此,笔画表现为采样点的系列。
[0047]图3 (b)的例中,I个笔画(B卩,I笔)的笔画构造表现为笔移动的平面上的坐标值的集合(点构造),具体来说,I个笔画的笔画构造是含有:显示形成该笔画的点的个数的“点总数”、“开始时刻”、“外接图形”、与点总数相当的个数的“点构造”的排列的构造体。此处,开始时刻表示该笔画中笔接触到输入面开始书写的时刻。外接图形表示文件平面上对于该笔画轨迹的外接图形(优选为文件平面上内包该笔画的最小面积的矩形)。
[0048]点的构造可依存于输入设备得到。图3 (C)的例中,I点的构造是具有该采样点的坐标值X、y、笔压以及距初期点(例如上述的“开始时刻”)的时间差这4个值的构造体。
[0049]另外,坐标为文件平面的坐标系,可通过左上角为原点、越往右下角值越大的正值来表现。
[0050]此外,输入设备无法获取笔压或者即使可以获取笔压但之后的处理不使用笔压时,可以省去图3 (c)的笔压或在笔压处标记显示无效的数据。
[0051]另外,图3 (b)、(c)的例中,可在笔画构造的各个点构造区域记载坐标值x,y等的实际数据,或者也可将笔画构造的数据与点构造的数据分别管理,在笔画构造中各个点构造的区域记载对应的点构造的链接信息。
[0052]图4显示的是获取的笔画例。此处,以笔画内的样本点的采样周期固定的情况为例进行说明。图4 (a)显示采样出的点的坐标,图4 (b)将时间连续的点构造线性插补并显示。采样点的坐标间隔不同是由于笔速的差异。采样点数可因各个笔画而异。
[0053]图3 (a)的例中,墨迹的数据构造,是包含有显示该文件全部区域所含笔画构造个数的“笔画总数”、与笔画总数相当的个数的“笔画构造”的排列的构造体。
[0054]另外,图3 (a)、(b)的例中,墨迹构造中的各个笔画构造的区域,既可以记载图3(b)的数据,或者也可以将墨迹构造的数据与图3 (b)的笔画的数据构造分别管理,在墨迹构造中的各个笔画的数据构造区域记载对应的图3 (b)的数据的链接信息。
[0055]用户使用输入设备书写的笔画数据,通过例如图3所示的墨迹构造在存储器上展开。墨迹例如作为文件保存等情况下,作为墨迹DBll存储。
[0056]另外,存储多个文件时,可将用于识别这些文件的文件ID与各墨迹对应保存。此夕卜,为了识别各个笔画,也可对各笔画构造付与笔画ID。
[0057]接着,说明特征提取部5。[0058]特征提取部5从各个笔画提取各笔画单体各自固有的特征量(第I特征量)。此处,由于可以仅通过笔画单体的信息进行处理,因此输入笔画数据后,可与追加到墨迹数据的数据构造并行进行特征提取。但是,也可在墨迹数据获取结束后,汇总进行第I特征量的提取。
[0059]但是,由于笔画数据记录为采样坐标值的集合,即使例如书写同一形状,由于笔速而得到的坐标值不同,因此优选通过对于固定数的样本点再度采样的重采样,令笔速标准化。
[0060]例如,此处的重采样处理,指的是对笔画长度以固定数N的采样点按一定间隔再采样,根据最初的采样点附近的2点通过线性插值算出坐标值。此处,以N=128进行重采样。图5的(a)与(b )各自例示重采样前后的数据。
[0061]作为笔画单体固有的特征量,可利用各种特征量。
[0062]以下说明此种特征量的一例。
[0063]首先,对于诸如图5 (b)的重采样后的笔画数据,根据以外接矩形的长边为I边长度的正方形,设定笔画组的区域(笔画区域)。此时,外接矩形的中心位于笔画区域的中央。笔画区域的中央指的是例如多个点的坐标的平均位置。然后,将笔画区域按X方向和I方向各自均等分割为S个,求得S2个的局部区域。此处,S为分割数的参数,为奇数较为理想。此处,作为具体例子,S=7 (此时,图5 (b)的区域纵横各分割为7份)。
[0064]接着,就所有重采样的坐标值求得梯度方向direction⑴。
【权利要求】
1.一种手写文字检索装置,其特征在于,包括: 以笔画为单位获取手写文字列的获取部; 从所述手写文字列获取每个所述笔画固有的第I特征量的特征提取部; 将所述笔画合并到多个集合的合并部; 向每个所述笔画付与基于所述合并结果的第2特征量的特征量付与部; 根据所述第I特征量以及所述第2特征量执行检索的检索部。
2.根据权利要求1所述的手写文字检索装置,其特征在于,所述合并部将所述手写文字列合并到文字区域、段落区块、行区块、单词区块、文字区块以及部首区块这些阶层中的一部分或全部。
3.根据权利要求1或2所述的手写文字检索装置,其特征在于,所述合并部将所述手写文字列至少分类为文字区 域和文字区域以外的区域。
4.根据权利要求2或3所述的手写文字检索装置,其特征在于,所述第2特征量是对于各个所述笔画所属的I个或多个集合分别表示该集合所包含的全部笔画总数的特征量矢量。
5.根据权利要求2或3所述的手写文字检索装置,其特征在于,所述第2特征量是对于各个所述笔画所属的I个或多个所述集合分别表示通过对该集合所包含的全部笔画采用与算出所述第I特征量的方法相同的方法而得到的特征量的特征量矢量。
6.根据权利要求1所述的手写文字检索装置,其特征在于,所述获取部在线以笔画为单位获取手写文字列。
7.根据权利要求1所述的手写文字检索装置,其特征在于,所述获取部从预先存储的手写文字列中获取用户指定的手写文字列。
8.根据权利要求1所述的手写文字检索装置,其特征在于,所述获取部获取使用了对应各个所述构造预先准备的笔画列的模板组而形成的手写文字列。
9.根据权利要求广8中任意一项所述的手写文字检索装置,其特征在于,还含有显示所述检索部的检索结果的显示部。
10.根据权利要求-9中任意一项所述的手写文字检索装置,其特征在于,所述检索部检索含有与获取的所述手写文字相似的笔画列的手写文件。
11.根据权利要求10所述的手写文字检索装置,其特征在于,在显示检索结果时,显示含有所述笔画列的手写文件,且强调显示所述笔画列。
12.—种手写文字检索方法,其是手写文件检索装置的手写文字检索方法,其特征在于,包括: 以笔画为单位获取手写文字列的步骤; 从所述手写文字列提取每个所述笔画固有的第I特征量的步骤; 将所述笔画合并到多个集合的步骤; 向每个所述笔画付与基于所述合并结果的第2特征量的步骤; 根据所述第I特征量以及所述第2特征量执行检索的步骤。
13.—种记录介质,其特征在于,记录有令计算机执行以下部件的功能的程序: 以笔画为单位获取手写文字列的获取部; 从所述手写文字列获取每个所述笔画固有的第I特征量的特征提取部;将所述笔画合并到多个构造的合并部;向每个所述笔画付与基于所述合并结果的第2特征量的特征量付与部;根据所述第 I特征量以及所述第2特征量执行检索的检索部。
【文档编号】G06F17/30GK103455528SQ201210348219
【公开日】2013年12月18日 申请日期:2012年9月18日 优先权日:2012年5月28日
【发明者】柴田智行, 登内洋次郎, 井本和范, 山内康晋 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1