手写识别方法及系统的制作方法

文档序号:6607394阅读:221来源:国知局
专利名称:手写识别方法及系统的制作方法
手写识别方法及系统
技术领域
本发明涉及手写识别技术,特别是涉及一种手写识别方法及系统。背景技术
传统的词组手写识别分为单字输入识别和词组连续输入识别。单字输入识别是指用手指或触笔书写一个完整的文字轨迹后,停顿一定的时间间隔,若该时间间隔超时,则书写完成,接着进行轨迹识别,在选择正确的识别候选结果后,再继续进行后续的书写。该单字输入识别可以应用于全屏手写或指定区域内的书写。例如,若用户想输入词组“我们”,则用户先书写“我”这个字的轨迹后,停顿一定的时间间隔,对“我”进行识别后,再继续书写 “们”,如此反复。直至结束。词组连续输入识别则是通过手指或触笔连续书写一个词组,中间不做大的停顿, 直至输入完毕后其停顿时间超时,结束输入。例如,若用户想输入“我们”其输入过程要求用户不可以把要书写的词组重叠起来,所以词组的连续输入要求屏幕中的输入区域比较大, 易受到屏幕大小的限制。

发明内容基于此,有必要提供一种可识别相互叠加的笔画的手写识别方法。一种手写识别方法,包括如下步骤建立字库,并对所述字库中的词组和组成所述词组的单字分别提取词组比对特征集和单字比对特征集;接收笔迹数据;接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据。优选地,所述词组比对特征集包括预设个数的词组比对特征值,所述单字比对特征集包括了与所述词组比对特征值个数相同的单字比对特征值。优选地,所述接收笔迹数据的步骤是采集、存储并显示笔迹数据;在所述笔迹数据的接收停顿时,建立分隔标志,计时得到停顿时间并判断是否超时,若所述停顿时间超时,则结束所述笔迹数据接收,反之,则继续采集笔迹数据。优选地,所述接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据的步骤是根据所述分隔标志,对笔迹数据进行预设次数的试切分,得到预设次数的试切分中小于预设识别阈值的综合识别距离;将所述综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离;根据所述综合识别距离,显示与所述综合识别距离相对应的候选词组。优选地,所述试切分的步骤具体是根据所述分隔标志的建立时间,选取切分点, 对叠加的笔迹数据进行切分得到组成用户输入的词组的每一单字的笔迹数据;对每一单字的笔迹数据和词组的笔迹数据分别提取单字识别特征集和词组识别特征集,并将每一单字识别特征集与所述字库词组中所有单字比对特征集逐一比对得到所述字库中单字与单字最相似的最小识别距离,将所述词组识别特征集与所述字库中每一词组比对特征集比对,得到字库中词组与词组最相似的最小识别距离,根据所述单字的最小识别距离和词组的最小识别距离计算得到综合识别距离。优选地,所述词组识别特征集包括了与所述词组比对特征值个数相同并一一对应的词组识别特征值,所述单字识别特征集包括了与所述单字比对特征值个数相同并相对应的单字识别特征值。此外,还有必要提供一种可识别相互叠加的笔画的手写识别系统。一种手写识别系统,至少包括特征提取装置,用于建立字库,并对所述字库中的词组和组成该词组的单字分别提取词组比对特征集和单字比对特征集;接收装置,用于接收笔迹数据;识别装置,接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据。优选地,所述特征提取装置所提取的词组比对特征集包括预设个数的词组比对特征值,所述单字比对特征集包括了与所述词组比对特征值个数相同的单字比对特征值。优选地,所述接收装置包括输入模块,用于采集、存储并显示所述笔迹数据;处理模块,用于在笔迹数据的接收停顿时,建立分隔标志,计时得到停顿时间并判断是否超时,若停顿时间超时,则笔迹数据接收完毕,反之则继续采集笔迹数据。优选地,所述识别装置包括切分模块,用于根据所述分隔标志,对所述笔迹数据进行预设次数的试切分,得到用户所输入词组的单字;比对模块,用于分别提取词组以及组成该词组的单字的识别特征集,并与字库中的词组比对特征集及组成该词组的单字的单字比对特征集比对,分别得到与字库中词组与最相似的词组最小识别距离和与字库中单字最相似的单字最小识别距离,并根据所述词组最小识别距离和单字最小识别距离得到小于预设识别阈值的综合识别距离;排序模块,用于将所述综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离;显示模块,用于取与所述综合识别距离相对应的词组作为候选结果并显示。优选地,所述切分模块根据在所述停顿时间中建立的分隔标志的建立时间,选取切分点,对叠加的笔迹数据进行切分得到每一单字的笔迹数据。优选地,所述比对模块所提取的词组识别特征集包括了与所述词组比对特征值个数相同并一一对应的词组识别特征值,所述单字识别特征集包括了与所述单字比对特征值个数相同并相对应的单字识别特征值。上述手写识别方法及系统通过对用户手写输入的笔迹数据中叠加的笔迹数据进行切分,并与字库中单字和词组的比对特征集一一比对,以识别用户所输入的词组,实现了笔画相互叠加的词组的识别,从而使得手写输入不再受到屏幕大小的限制,连续叠加书写, 提高了用户手写的输入效率。上述手写识别方法及系统通过对输入的词组提取多个识别特征值,对字库中的词组提取多个比对特征值,从多方面获取词组的特征,并与字库中的词组进行比对,有效地提高了手写识别的准确性以及识别速度。

图1为一实施例中手写识别方法的流程图;图2为一实施例中接收笔迹数据的流程图3为一实施例中切分并识别笔迹数据的流程图;图4为一实施例中手写识别系统的结构图;图5为一实施例中接收装置的详细模块图;图6为一实施例中识别装置的详细模块图;图7为一实施例中叠加输入词组的屏幕示意图;图8为一实施例中识别结果的屏幕示意图。
具体实施方式图1示出了本发明中手写识别的方法流程,包括如下步骤在步骤SlO中,建立字库,并对字库中的词组和组成该词组的单字分别提取词组比对特征集和单字比对特征集。一实施例中,在手写识别的初始过程中,根据需要,导入词组和组成词组的单字,建立字库,并对该字库中的词组一一提取词组比对特征集,对组成该词组的单字一一提取单字比对特征集,从而方便在后续的识别过程中不再需要重新建立字库,而通过字库中的词组比对特征集和单字比对特征集中记录的词组比对特征值和单字比对特征值来识别笔迹数据,还原用户输入的所有文字,有效地提高了手写识别的速度。词组比对特征集包括了预设个数的词组比对特征值,多个词组比对特征值分别记录了相对应词组中的不同特征。单字比对特征集包括了与该词组比对特征值个数相同的单字比对特征值,多个单字比对特征值分别记录了相对应单字中的不同特征。在步骤S20中,接收笔迹数据。一实施方式中,接收用户所输入的笔迹数据,以便于对笔迹数据进行进一步的处理。如图2所示,一实施例中,步骤S20的具体过程是在步骤S202中,采集、存储并显示笔迹数据。一实施例中,采集用户所输入的笔迹数据,存储并向用户展示手写的文字轨迹,该文字轨迹是笔画相互叠加的词组。在步骤S204中,在笔迹数据的接收停顿时,建立分隔标志,计时得到停顿时间并判断是否超时,若停顿时间超时,则结束笔迹数据的接收,反之,则返回步骤S202。一实施例中,用户手写输入词组,在一笔画书写完毕时,产生抬笔的动作,因此输入的笔画之间会产生停顿,此时建立分隔标志,并开始计时,在下一笔画开始输入时停止计时,得到停顿时间, 并通过该停顿时间获知是否已经超时,若停顿时间没有超时,则返回步骤S202中继续采集数据。通过分隔标志及停顿时间,可以获知每一笔画所输入的时间先后顺序。在步骤S30中,接收完毕时,根据词组比对特征集以及该词组中每一单字的单字比对特征集,切分并识别笔迹数据。一实施例中,用户的一次手写输入完毕后,切分该词组的手写轨迹,以还原组成该词组的每一个单字,并分别对该词组中的每一单字及词组分别提取单字识别特征集和词组识别特征集。词组识别特征集包括了与词组比对特征值个数相同并一一对应的词组识别特征值,即每一词组识别特征值与字库中词组的词组比对特征值相对应,以便于进行比较,而得到识别结果。词组中每一单字的单字识别特征集包括了与单字比对特征值个数相同并相对应的单字识别特征值,即每一单字识别特征值与单字比对特征值相对应。如图3所示,一实施例中,步骤S30的具体过程是在步骤S301中,根据分隔标志,对笔迹数据进行预设次数的试切分,得到预设次
6数的试切分中小于预设识别阈值的综合识别距离。一实施例中,试切分的步骤具体是首先,根据分隔标志的建立时间,选取切分点,对叠加的笔迹数据进行切分得到组成用户输入词组的每一单字的笔迹数据;然后,对每一单字的笔迹数据和词组的笔迹数据分别提取单字识别特征集和词组识别特征集,并将每一单字识别特征集与字库词组中所有单字比对特征集逐一比对得到字库中单字与该单字最相似的单字最小识别距离,将词组识别特征集与字库中每一词组比对特征集比对得到字库中词组与该词组最相似的词组最小识别距离,根据所有单字最小识别距离和词组最小识别距离综合考虑,计算得到综合识别距离。具体地, 对手写笔迹叠加的词组手写识别而言,通过每一单字的最小识别距离和词组最小识别距离来综合考虑手写输入的词组与字库中的词组的相似程度,以便于在本次预切分中找到最相似的候选词组。在步骤S302中,将综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离。一实施例中,综合识别距离越小,则该综合识别距离所对应的词组与用户手写输入的词组越相似。在步骤S303中,根据综合识别距离,显示与该综合识别距离相对应的候选词组。 一实施例中,根据按由小到大的顺序所取得的综合识别距离,在字库中获取与该综合识别距离相对应的候选词组,并显示,以供用户选择。图4示出了一实施例中手写识别系统的详细结构,该实施例中,手写识别系统包括特征提取装置10、接收装置20以及识别装置30,其中特征提取装置10,用于建立字库,并对字库中的词组和组成该词组的单字分别提取词组比对特征集和单字比对特征集。一实施例中,该特征提取装置10根据需要,在进行用户的手写识别之前导入词组和组成该词组的单字,建立手写识别系统中的字库,并对该字库中的词组一一提取词组比对特征集,对组成该词组的单字一一提取单字比对特征集, 从而方便在后续的识别过程中通过词组比对特征集和单字比对特征集中记录的词组比对特征值和单字比对特征值来识别笔迹数据,还原用户输入的所有文字,而不需要再次从外部导入词组和组成该词组的单字。如前所述,词组比对特征集和单字比对特征集分别包括了个数相同的多个词组比对特征值和多个单字比对特征值。 接收装置20,用于接收笔迹数据。识别装置30,用于接收完毕时,根据词组比对特征集以及该词组中每一单字的单字比对特征集,切分并识别笔迹数据。一实施方式中,用户的一次手写输入完毕以后,识别装置30接收完毕时,根据词组比对特征集以及该词组中每一单字的单字比对特征集,切分并识别笔迹数据。如前所述,词组识别特征集包括了与词组比对特征值个数相同并一一对应的词组识别特征值。词组中每一单字的单字识别特征集包括了与单字比对特征值个数相同并相对应的单字识别特征值。图5示出了一实施例中接收装置的详细模块,该实施例中,接收装置20包括输入模块202及处理模块204,其中输入模块202,用于采集、存储并显示笔迹数据。一实施例中,输入模块202采集用户输入的笔迹数据,存储并显示于屏幕上。处理模块204,用于在笔迹数据的接收停顿时,建立分隔标志,并计时得到停顿时间,若停顿时间超时,则笔迹数据接收完毕,反之,则继续采集笔迹数据。一实施例中,随着每一笔画的完成,在书写下一笔画之前,用户会产生抬起的动作,产生停顿,此时处理模块 204建立分隔标志,并开始计时,从而得到停顿时间。处理模块204通过分隔标志得到属于同一笔画的笔迹数据,并通过相关联的停顿时间获知时间先后顺序,以便于手写文字的还原。处理模块204对停顿时间进行判断是否超时,若停顿时间已超时,则输入结束,反之,则继续采集笔迹数据。图6示出了一实施例中识别装置的详细模块,该实施例中,识别装置30包括切分模块301、比对模块302、排序模块303以及显示模块304,其中切分模块301,用于根据分隔标志,对笔迹数据进行预设次数的试切分,得到组成用户所输入词组的单字。具体地,切分模块根据在书写停顿时建立的分隔标志的建立时间, 选取切分点,对叠加的笔迹数据进行切分得到每一单字的笔迹数据。比对模块302,用于分别提取词组以及组成该词组的单字的识别特征集,并与字库中的词组比对特征集及组成该词组的单字的单字比对特征集比对,分别得到与字库中词组与最相似的词组最小识别距离和与字库中单字最相似的单字最小识别距离,并所述词组最小识别距离和单字最小识别距离得到小于预设识别阈值的综合识别距离。一实施例中,比对模块302对每一词组以及组成该词组的单字分别提取识别特征集,并将每一单字的识别特征集与字库词组中所有单字的比对特征集逐一比对得到相应的与字库中单字最相似的单字最小识别距离,将词组的识别特征集与字库中词组的比对特征集比对得到相应的与字库中词组与最相似词组最小识别距离,根据所有单字最小识别距离和词组最小识别距离得到综合识别距离,该综合识别距离必须小于预设识别阈值,若某一次的试切分中,综合识别距离大于预设识别阈值,则该次试切分不理想,排除该次切分。该综合识别距离的计算方式可以是对所有单字最小识别距离和词组最小识别距离进行加权平均,但并不仅限于此。如前所述,比对模块302通过每一单字最小识别距离和词组最小识别距离来综合考虑手写输入的词组与字库中的词组的相似程度,以便在预切分中得到最相似的候选词组。排序模块303,用于将综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离。一实施例中,综合识别距离的大小表现了该综合识别距离所对应的词组与用户所手写输入的词组的相似程度,综合识别距离越小,则越相似。显示模块304,用于取与综合识别距离相对应的词组作为候选结果并显示。该候选结果为与用户手写输入的词组最相似的词组,用户可以通过对显示于屏幕中的候选结果的选择得到正确的输入结果。下面结合一个详细的实施例来阐述手写识别方法及系统的应用过程,该实施例中,如图7、8所示,在手写屏幕中,用户叠加地输入词组“我们”,接收装置20的输入模块202 接收笔迹数据,存储并显示于屏幕上。在输入过程中,每一笔画完成后,在书写下一笔画之前,用户会产生抬起的动作,产生了停顿,此时处理模块204建立分隔标志,并开始计时,从而得到停顿时间,并判断该停顿时间是否超时,若停顿时间已超时,则手写输入结束,反之, 则继续采集笔迹数据。在笔迹数据接收完毕时,切分该笔迹数据,即根据分隔标志,选取切分点,对笔迹数据进行预设次数的试切分。对每次试切分得到的单字提取单字识别特征集, 对词组“我们”提取词组识别特征集,并与字词中的词组比对特征集及组成该词组的单字比对特征集比对,得到综合识别距离。若该综合识别距离小于预设识别阈值,则该次试切分为理想的切分,反之,则该次试切分不理想,排除该次切分。排序模块303将综合识别距离排序,并按照从小到大的顺序取得一定数量的综合识别距离,从而获取与该综合识别距离相对应的词组作为候选结果并显示于屏幕中,此时,用户在屏幕中选择最佳的候选结果。上述手写识别方法及系统通过对用户手写输入的笔迹数据中叠加的笔迹数据进行切分,并与字库中单字和词组的比对特征集一一比对,以识别用户所输入的词组,实现了笔画相互叠加的词组的识别,从而使得手写输入不再受到屏幕大小的限制,连续叠加书写, 提高了用户手写的输入效率。上述手写识别方法及系统通过对输入的词组提取多个识别特征值,对字库中的词组提取多个比对特征值,从多方面获取词组的特征,并与字库中的词组进行比对,有效地提高了手写识别的准确性以及识别速度。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.一种手写识别方法,包括如下步骤建立字库,并对所述字库中的词组和组成所述词组的单字分别提取词组比对特征集和单字比对特征集;接收笔迹数据;接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集, 切分并识别所述笔迹数据。
2.根据权利要求1所述的手写识别方法,其特征在于,所述词组比对特征集包括预设个数的词组比对特征值,所述单字比对特征集包括了与所述词组比对特征值个数相同的单字比对特征值。
3.根据权利要求1所述的手写识别方法,其特征在于,所述接收笔迹数据的步骤是采集、存储并显示笔迹数据;在所述笔迹数据的接收停顿时,建立分隔标志,计时得到停顿时间并判断是否超时,若所述停顿时间超时,则结束所述笔迹数据接收,反之,则继续采集笔迹数据。
4.根据权利要求3所述的手写识别方法,其特征在于,所述接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据的步骤是根据所述分隔标志,对笔迹数据进行预设次数的试切分,得到预设次数的试切分中小于预设识别阈值的综合识别距离;将所述综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离;根据所述综合识别距离,显示与所述综合识别距离相对应的候选词组。
5.根据权利要求4所述的手写识别方法,其特征在于,所述试切分的步骤具体是根据所述分隔标志的建立时间,选取切分点,对叠加的笔迹数据进行切分得到组成用户输入的词组的每一单字的笔迹数据;对每一单字的笔迹数据和词组的笔迹数据分别提取单字识别特征集和词组识别特征集,并将每一单字识别特征集与所述字库词组中所有单字比对特征集逐一比对得到单字最小识别距离,将所述词组识别特征集与所述字库中每一词组比对特征集比对,得到词组最小识别距离,根据所述单字的最小识别距离和词组的最小识别距离计算得到综合识别距1 O
6.根据权利要求5所述的手写识别方法,其特征在于,所述词组识别特征集包括了与所述词组比对特征值个数相同并一一对应的词组识别特征值,所述单字识别特征集包括了与所述单字比对特征值个数相同并相对应的单字识别特征值。
7.一种手写识别系统,其特征在于,至少包括特征提取装置,用于建立字库,并对所述字库中的词组和组成该词组的单字分别提取词组比对特征集和单字比对特征集;接收装置,用于接收笔迹数据;识别装置,接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据。
8.根据权利要求7所述的手写识别系统,其特征在于,所述特征提取装置所提取的词组比对特征集包括预设个数的词组比对特征值,所述单字比对特征集包括了与所述词组比对特征值个数相同的单字比对特征值。
9.根据权利要求7所述的手写识别系统,其特征在于,所述接收装置包括输入模块,用于采集、存储并显示所述笔迹数据;处理模块,用于在笔迹数据的接收停顿时,建立分隔标志,计时得到停顿时间并判断是否超时,若停顿时间超时,则笔迹数据接收完毕,反之则继续采集笔迹数据。
10.根据权利要求9所述的手写识别系统,其特征在于,所述识别装置包括切分模块,用于根据所述分隔标志,对所述笔迹数据进行预设次数的试切分,得到用户所输入词组的单字;比对模块,用于分别提取词组以及组成该词组的单字的识别特征集,并与字库中的词组比对特征集及组成该词组的单字的单字比对特征集比对,分别得到词组最小识别距离和单字最小识别距离,并根据所述词组最小识别距离和单字最小识别距离得到小于预设识别阈值的综合识别距离;排序模块,用于将所述综合识别距离排序,按从小到大的顺序取预设数量的综合识别距离;显示模块,用于取与所述综合识别距离相对应的词组作为候选结果并显示。
11.根据权利要求10所述的手写识别系统,其特征在于,所述切分模块根据在所述停顿时间中建立的分隔标志的建立时间,选取切分点,对叠加的笔迹数据进行切分得到每一单字的笔迹数据。
12.根据权利要求10所述的手写识别系统,其特征在于,所述比对模块所提取的词组识别特征集包括了与所述词组比对特征值个数相同并一一对应的词组识别特征值,所述单字识别特征集包括了与所述单字比对特征值个数相同并相对应的单字识别特征值。
全文摘要
一种手写识别方法,包括如下步骤建立字库,并对所述字库中的词组和组成所述词组的单字分别提取词组比对特征集和单字比对特征集;接收笔迹数据;接收完毕时,根据所述词组比对特征集以及所述词组中每一单字的单字比对特征集,切分并识别所述笔迹数据。上述手写识别方法通过对用户手写输入的笔迹数据中叠加的笔迹数据进行切分,并与字库中单字和词组的比对特征集一一比对,以识别用户所输入的词组,实现了笔画相互叠加的词组的识别,从而使得手写输入不再受到屏幕大小的限制,连续叠加书写,提高了用户手写的输入效率。
文档编号G06K9/62GK102375989SQ20101024794
公开日2012年3月14日 申请日期2010年8月6日 优先权日2010年8月6日
发明者张靖, 陈波 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1