手写字符识别方法和系统的制作方法_2

文档序号：8361883阅读：来源：国知局

字符的不完整笔画标准字符的不完整笔画模板，其中所述至少一个标准字符的不完整笔画模板所对应的不完整笔画标准字符不构成任何其他标准字符的部分或全部。
[0033] 根据本发明实施例，对于诸如中文、日文或韩文的字符，通过一系列"笔画/部首索引号"来表示每个字符，并且记录每个字符的"独有索引（笔画/部首）"，作为用于表示该字符的独有笔画或者部首。然后，根据所述"独有索引"来产生字符的不完整笔画模板。这样，当用户输入一个字符的一个或多个笔画时，执行所输入笔画与不完整笔画模板之间的模板匹配，就可以精确地获得识别结果。
[0034] 与现有技术不同，根据本发明的手写字符识别方法和系统基于字符的"独有索引" 而给出预测候选，因此，每个字符的预测候选不会与其他字符混淆。而且，可以在用户输入了字符的一个或多个笔画之后就识别该字符。这样，节省了工作负担并改善了输入效率。
【附图说明】
[0035] 通过下面结合【附图说明】本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中：
[0036] 图1是示出了根据本发明实施例的手写字符识别系统的示意框图。
[0037] 图2示出了根据本发明实施例的不完整笔画模板产生方法的流程图。
[0038] 图3示出了根据本发明实施例的基本笔画和部首的示例。
[0039] 图4示出了根据本发明实施例的"笔画索引表"的一部分；
[0040] 图5示出了根据本发明实施例的字符笔画信息排序表的示例；
[0041] 图6示出了图5所示的字符笔画信息排序表中相同的索引号和独有索引号；
[0042] 图7示出了"鞭"的完整笔画字符的训练样本；
[0043] 图8示出了从图7所示的"鞭"的完整笔画模板中得到的"鞭"的不完整笔画模板的训练样本；
[0044] 图9示出了根据本发明实施例的手写字符识别方法的流程图；
[0045] 图10示出了根据本发明实施例的手写字符识别方法的运行结果的一个示例，图 10(a)示出了用户输入的手写轨迹，图10(b)示出了与手写轨迹高度匹配的不完整笔画模板，图10 (C)示出了在手写轨迹的背景中输出了所识别的字符；
[0046] 图11示出了根据本发明实施例的"恶"字的不完整笔画模板和完整笔画模板的示例；以及
[0047] 图12示出了根据本发明实施例的构造中间字符的示例；以及图13示出了一个示意的笔画样本。
【具体实施方式】
[0048] 以下参照附图，对本发明的示例实施例进行详细描述。在以下描述中，一些具体实施例仅用于描述目的，而不应该理解为对本发明有任何限制，而只是本发明的示例。在可能导致对本发明的理解造成混淆时，将省略常规结构或构造。
[0049] 图1是示出了根据本发明实施例的手写字符识别系统100的示意框图。该系统 100包括4个单元：手写输入单元110、模板存储库120、模板匹配单元130以及输出单元 140。各个单元的功能描述如下。
[0050] ?手写输入单元110 :该单元用于接收来自用户的手写输入数据。例如，当用户在触屏电子设备上进行手写输入时，该单元可以是识别用户手指与触摸板的接触的传感器。当用户利用诸如红外光等在电子设备上进行输入时，该单元可以是红外感应器。
[0051] ?樽板存储库120 :该单元用于存储每个标准字符的匹配樽板。根据本发明的实施例，模板存储库中存储有标准字符的完整笔画模板和不完整笔画模板。首先定义每个标准字符的不完整笔画标准字符。一些复杂的标准字符可能具有多个不完整笔画标准字符。但是，一个标准字符的不完整笔画标准字符不会构成任何其他标准字符的部分或全部。然后，对每个标准字符的不完整笔画标准字符和完整笔画标准字符进行训练，得到每个标准字符的完整笔画模板和不完整笔画模板。稍后将结合图2对不完整笔画模板的产生方法进行详细描述。
[0052] ?樽板兀配单元130 :该单元通过将手写输入数据与不完整笔画模板和/或完整笔画单元进行匹配，以确定匹配模板的匹配度。
[0053] ?输出单元140 :该单元向用户输出识别结果。根据一个实施例，该单元可输出与匹配度最高的模板相对应的标准字符。可选地，该单元还执行所有匹配结果的优化，并根据预定规则对候选进行排序。例如，对于诸如移动电话之类的显示屏幕大小受限的电子设备，输出单元140仅输出匹配度最高的前十个匹配结果。在一个实施例中，输出可以是例如按照匹配度排序的。
[0054] 图1还示出了该系统还可包括预处理单元150。
[0055] ?预处理单元150 :该单元用于对手写输入数据进行平滑、线性归一化和/或非线性归一化等处理。该单元的目的是使得手写输入数据更加平滑，以利于在模板匹配单元130 中进行匹配。
[0056] 本发明的关键技术在于不完整笔画模板的定义。对于诸如中文、日文和韩文等的字符（即，汉字、日文字等），每个字符由笔画和/或部首组成。不同的字符可能包括相同的笔画和部首。但是，每个字符必然包含与其他字符不同的独有笔画或部首序列。根据本发明的实施例，利用这独有笔画和部首来定义每个字符的不完整笔画模板。也即，构造字符的不完整笔画模板，该不完整笔画模板所对应的不完整笔画字符包括该独有笔画/部首序列，使得该不完整笔画字符不构成任何其他字符的部分或全部，即与其他字符相区分。
[0057] 以GB2312字符集中的汉字作为示例。图2示出了根据本发明实施例的不完整笔画模板产生方法200的流程图。
[0058] 首先，在步骤S210,定义基本笔画和部首，如图3所示。
[0059] 根据统一代码（Unicode)所定义，存在总共36个基本笔画。丢弃一些笔画，最终保留26个基本笔画，如图3中的部分A所示。图3B部分中的笔画/部首是由用户定义的，图3C部分中的笔画/部首是GB2312中的基本部首。图3总共示出了 152个部首，这些部首在本发明实施例中示意为汉字GB2312所定义的基本笔画/部首。当然，可应用于本申请的部首并不局限于图3所示，而是可以根据需要使用其他部首的集合。例如，针对汉字和韩文或日文，所需的部首不同。
[0060] 为了进行索引，在步骤S220,针对定义的基本笔画和部首，定义"笔画索引表"，给基本笔画和部首中的每个笔画/部首分配一个索引号。图4示出了该"笔画索引表"的一部分。在针对每个基本笔画和部首进行索引之后，每个字符可以由与该字符的每个笔画/ 部首相对应的索引号按照笔画顺序组合得到的一系列索引号表示。
[0061] 然后，在步骤S230中，用与字符的每个笔画/部首相对应的索引号、按照该字符的笔画顺序组合得到的索引号序列来表示每个字符，并对每个字符的索引号进行排序，可以获得字符的笔画信息。因此，定义了对每个字符的笔画信息进行排序的表。图5示意地示出了该表的一部分。
[0062] 然后，在步骤S240中，找到每个字符的独有笔画/部首，获得"独有索引号序列"。也即，首先识别每个字符与其他字符不同的索引号。图6示出了

完整全部详细技术资料下载

当前第2页1 2 3 4