建立适用于识别手写东亚字符的hmm拓扑结构的方法及系统的制作方法

文档序号:6574376阅读:214来源:国知局
专利名称:建立适用于识别手写东亚字符的hmm拓扑结构的方法及系统的制作方法
技术领域
本发明涉及手写字符识别技术,更具体地说,涉及手写东亚字符的识 别技术。
背景技术
手写输入识别一直是计算机应用技术中的一个重要的研究方向。与静 态的图像或者文字识别不同的是,在线手写输入识别是一个时间随机过程, 而不是一个静态的对象。因此,在在线手写识别领域,隐性马尔可夫(HMM) 模型经常被使用。首先简单介绍一下HMM模型,HMM模型即隐性马尔可夫模型,是马 尔可夫模型的一种。马尔可夫模型可以用来预测未来某一事件出现某种状 态的概率,而这种概率将仅仅基于该事件当前的状态。马尔可夫模型表现 为一个有限状态自动机,状态之间可以互相转换,并且,每一次将从一个 状态转换到下一个状态(可能是其他的状态,也可能是该状态本身)。马尔可夫模型可以分为两种, 一种称之为显性马尔可夫模型,在显性 马尔可夫模型中,状态之间的转换顺序是已知的。另一种称为隐性马尔可夫模型(HMM),其中状态之间的转换顺序是 未知的,所知道的仅仅是状态之间的转移概率。因此,HMM模型可以被定 义为具有如下的特征1 )是一个有限状态自动机,状态之间可以互相转换,并且,每一次将 从一个状态转换到下一个状态(可能是其他的状态,也可能是该状态本身);2)状态之间的转移由 一组转移概率决定, 一组观测事件(观测序列) 的出现概率由与状态相关的转移概率决定。比如,举一个例子说明HMM模型。有一台饮料售货机,提供两种饮 料,分别是可乐和茶。这个饮料售货机会具有两种状态,"偏好可乐"的 状态和"偏好茶"的状态,当投入一枚硬币购买饮料时,售货机会根据其所处的状态决定所售出的饮料,即,处于"偏好可乐,,的状态时将出售可 乐,而处于"偏好茶"的状态时将出售茶。该售货机会在每次出售之后在两种状态之间进行转换,转换的概率如下处于"偏好可乐"状态时,转换到"偏好茶"状态的概率是30。/。,保 持在"偏好可乐"状态的概率是70%;出于"偏好茶"的状态时,转换到"偏好可乐"状态的概率是50%, 保持在"偏好茶"状态的概率也是50%。对于上述的饮料售货机,如果希望确定某一种特定的出售饮料序列的 概率,可以为上述的饮料售货机建立HMM模型。该模型可参考图1b所示, 其中包括两个状态"偏好可乐"状态和"偏好茶"状态,根据上面列出 的状态转换概率,确定转态每一条转移路径的概率,如图1b所示。当需要 确定某一个特定的出售序列时,可以通过计算所有会出现上述结果的路径 的概率,并将它们求和,就能够获得这一种特定出售序列的出现概率。HMM拓朴结构正是反映了在HMM模型中各个状态之间的转移顺序连 接关系。HMM模型以及HMM拓朴结构的应用涉及三类主要的问题1) 当给出一个HMM模型时,确定某一种特定的"观测事件"(对应 一个状态转移顺序)出现的概率。2) 当给出一个HMM模型和一个特定的"观测事件"时,选择一个状 态转移顺序,该状态转移顺序能最好地描述该特定的"观测事件"。3) 当给出一个特定的"观测事件,,时以及一组可能的HMM模型空间, 确定最佳的HMM模型来描述该"观测事件"。HMM模型的上述特点使得它在解决下列的问题时尤其有用潜在的事 件的出现概率会影响观测事件。 一个典型的应用是在识别领域,尤其是语 言识别,包括语音识别技术和手写识别技术。HMM模型是一种可训练的模 型,通过大量的数据训练,能够获得一组最适合于表示"观测事件"的HMM 模型参数,之后,采用这个从数据训练中获得的HMM模型,就能确定另 外一个"观测事件"与该模型的匹配程度,根据匹配程度,就能确定一个 未知的"观测事件,,最可能属于哪一个模型。这样,就达到了识别的目的。目前,虽然已经开发了多种利用HMM模型的识别技术,但是它们大 多应用于西文,而对于东方文字,尤其是东亚地区使用的文字,诸如汉字, 却不能进行有效的识别。这主要是由于西文,例如英语和东亚字符,例如 汉字在字形结构上的差异所造成的。对于西文来说,每一个字都是由字母组成,而单个的字母结构简单, 通常都是一笔可以完成,不存在可变的笔划顺序的问题,同时,字母和字 母之间的相似程度相对较低,除了个别的字母之外,大多数字母具有自己 明显的特征。这些特点都给手写识别带来了许多的便利。因此,目前开发 的以西文为主要识别对象的HMM模型一般都具有左至右的HMM拓朴结 构,通过限定HMM拓朴结构的起始点和终止点基本就能够描述一般西文 字母的特点。但是东亚字符具有明显不同的特点,以汉字为例1) 笔划多,在手写过程中存在笔划顺序不同的问题;2) 结构复杂,使得字形变化较多,体现在手写方面,就是具有多种手 写风格;3) 存在笔划间连接的问题,由于汉字笔划多,结构复杂,再加上个人 的手写习惯,会导致笔划之间的连接存在很多的不确定性;4) 数据量大,汉字的每一个字都是一个独立的个体,而不是像英文那 样可以进一步度拆分成字母这样一个数量有限的单位,因此,对于汉字来 说,手写识别模型的数据量是十分巨大的。通过上面的分析,就可看到,由于东亚字符和西文在字形特点上存在 很多明显的差异,就导致了目前针对西文字符开发的HMM模型并不适用 于东亚字符,尤其是,目前的HMM模型不能有效地解决笔划顺序、书写 风格的问题,同时,对于东亚字符笔划之间的连接,也无法很好地提供解 决方案,因此,导致了目前在手写东亚字符识别方面,尚没有一种很好的 识别技术。发明内容本发明的目的旨在提供一种构建用于识别手写东亚字符的HMM拓朴结构的方法及系统,以针对手写东亚字符的特点对手写的东亚字符进行有 效的识别。根据本发明的一方面,针对手写东亚字符笔划多,笔划间的连接过度关系复杂的特点,设计一种建立适用于识别手写东亚字符的HMM拓朴结 构的方法,该设计在所建立的HMM拓朴结构中提供描述手写东亚字符持 续笔划的持续状态以及描述手写东亚字符笔划间转角的转角状态。通过引 入针对笔划间转角的转角状态,来使得整个HMM拓朴结构很好地反映手 写东亚字符的特点。在本发明的一个实现中,HMM拓朴结构是被设计成左向右HMM拓朴 结构,从一起始状态开始,至一终止状态结束;HMM拓朴结构中的持续状 态可以转移至下一状态或者自转移,而转角状态只能转移至下一状态,不 能自转移;并且,持续状态和转角状态依次交替存在。根据本发明的另一方面,针对手写东亚字符笔划顺序多样,书写风格 多样的特点。提供一种多路径HMM拓朴结构,该多路径HMM拓朴结构 中的每一条路径对应手写东亚字符的多种笔划顺序中的一个;或者多路径 HMM拓朴结构中的每一条路径对应手写东亚字符的多种手写风格中的一 个。通过将反映多种笔划顺序或者手写风格的路径集成到一个HMM拓朴 结构中,就能很好地解决手写东亚字符笔划顺序多样和手写风格多样的问 题。在本发明的一个实现中,多路径HMM拓朴结构中的每一条路径是左 向右HMM拓朴结构,从一起始状态开始,至一终止状态结束;在该多路 径HMM拓朴结构中同样提供描述手写东亚字符持续笔划的持续状态以及持续状态可以转移至下一状态或者自转移,转角状态只能转移至下一状态, 不能自转移;持续状态和转角状态也是依次交替存在;并且,其中所有路 径起始于同一入口状态,至同一出口状态结束。同时,本发明还对多路经 HMM拓朴结构中的路径进行合并处理,以控制路径的数量。根据本发明的另 一方面,针对手写东亚字符笔划之间连接过渡的不确 定性,即存在即可能是实笔,也可能是虛笔的部分,本发明同样提供了解决的方法,比如,在HMM拓朴结构中提供平行状态,对应手写东亚字符 中既可能是虚笔划,也可能是实笔划的部分。或者,对HMM拓朴结构应 用多空间概率分布(MSD),对应手写东亚字符中既可能是虛笔划,也可 能是实笔划的部分。根据本发明的另一方面,为了减少冗余的数据量,降低运算的复杂程 度,本发明还对HMM拓朴结构中的状态进行聚类,使HMM拓朴结构中 的至少一组状态共用参数,且对于一组共用参数的状态,在HMM拓朴结 构中只保存一套参数。本发明同样提供适合于手写东亚字符识别的HMM拓朴结构的实现方 法,该多路径HMM拓朴结构从手写东亚字符的训练数据中自动构建;根 据手写东亚字符的笔划顺序或者书写风格,应用一机器自学习的自动分类 方法对训练数据进行聚类,每一个类别的数据对应于一个书写顺序或一个 书写风格。根据一种实现方式,该HMM拓朴结构是根据手写东亚字符的训练数 据自动生成而不需要人工的干预,该训练数据包括手写东亚字符笔迹样本, 笔迹样本包括不同笔划顺序或者不同手写风格的笔迹样本;在构建HMM 拓朴结构的过程中,可包括如下几个阶段对于每一个笔迹样本,按弧长 将其分成数个分段,每一分段分别提取一特征;从而将分段特征顺序排列 组成整个笔迹样本的一个特征;对上述特征进行聚类,每一个聚类对应于 一种笔划顺序或者一种手写风格;基于每一个聚类的数据确定对应于每一 种笔划顺序或者每一种手写风格的HMM拓朴结构中的一路径的拓朴及初 始参数。在本发明的一个实现中,还建立对应于分段及特征的子序列方向直方 图向量,以帮助建立该HMM拓朴结构。在本发明的一个实现中,还对多路径HMM拓朴结构中的路径进行合 并,以控制路径的数量。由于手写东亚字符的数据量巨大,为了减小数据量,降低实现的复杂 度,在本发明的一个实现中,通过计算HMM拓朴结构中每两个状态之间 的状态相似度度量来确定是否进行聚类的操作。本发明同样提供能够实现上述的各个方面的系统,利用HMM模型来 对手写东亚字符进行识另'J 。本发明针对手写东亚字符的特点提供了一种建立适用于对手写东亚字符进行识别的HMM拓朴结构,充分考虑了手写东亚字符笔划多、笔划顺 序多样、结构复杂、书写风格多样、笔划间连接不确定的特点,通过在HMM 拓朴结构中引入转角状态、提供多路径、提供平行状态的手段来解决上述 的问题,并且,通过聚类和合并的操作来减小数据量,降低运算的复杂程 度。


本发明的上述的以及其他的特征,性质和优势将通过下面结合附图对 实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同 的特征,其中,图1 a是可实现本发明的适当的计算系统环境的一示例;图化示出了一 HMM模型的示例;图2a示出了手写东亚字符中的"转角";图2b示出了能体现手写东亚字符中转角特性的HMM拓朴结构;图2c示出了手写东亚字符中持续笔划与转角的区分规则;图3a示出了手写东亚字符的笔划顺序的多样性;图3b示出了手写东亚字符的手写风格的多样性;图4a示出了根据本发明的一实施例的多路径HMM拓朴结构的结构图;图4b示出了每一路径对应一种笔划顺序的多路径HMM拓朴结构的示例;图4c示出了每一路径对应一种手写风格的多路径HMM拓朴结构的示例;图5a示出了手写东亚字符书写过程中实笔划/虚笔划不确定性的情况; 图5b示出了根据本发明的一实施例的具有平行状态的HMM拓朴结构 的示意图;图5c示出了根据图5a所示的手写示例构建的具有平行状态的HMM 拓朴机构的示意图;图6a示出了对笔迹样本应用子序列方向直方图的一个实例; 图6b示出了对训练数据进行聚类操作的一个实例;图6C示出了采用双高斯混合模型实现平行状态的一个实例;图7示出了根据本发明的一实施例的利用HMM模型对手写东亚字符 进行识别的系统的结构图;图8示出了根据本发明的另一实施例的利用HMM模型对手写东亚字 符进行识别的系统的结构图。
具体实施方式
本发明针对手写东亚字符的特点笔划多、笔划顺序多样、结构复杂、 书写风格多样、笔划间连接不确定。提供了一种利用改进的HMM模型来 对手写东亚字符进行识别的方案,改进了 HMM拓朴结构的特点,通过在 HMM拓朴结构中加入转角状态、提供多路径、提供平行状态的手段来很好 地反映手写东亚字符的上述特点,并且,通过聚类和合并的操作来减小数 据量,降低运算的复杂程度。本发明的HMM拓朴结构是从训练数据中自 行生成,并不需要人工干预。需要说明的一点是,在下面所要描述的实施例中,是以汉字为例进行 说明的,但是本发明的范围不限于汉字,而是具有和汉字相似特征的所有 的东亚文字字符,包括日本汉字,日本的假名等等。适当的实现环境图1a说明了适当的计算系统环境100的一例,其中可以实现本发明。 计算系统环境100仅是适当的计算环境的 一例并且并非意图限制本发明的 使用范围或功能。计算环境100不应被解释为具有与示例性操作环境100 中所述的组件的任一或组合有关的从属性或要求。本领域的技术人员可以理解,计算机或其它客户机或服务器设备可以 作为部分计算机网络而采用,或者用于分布式计算环境中。在这点上,本 发明属于具有任意数量内存或存储单元的任意计算机系统,以及发生在任意数量存储单元或容量上的任意数量的应用程序和过程,它们可以与本发 明 一起使用。本发明可以应用于在网络环境或分布式计算环境中采用服务 器计算机和客户机计算机的环境。本发明还可以用于独立计算设备,具有 编程语言功能、以及与远程或本地服务一起产生、接收和发射信息的解译 和执行能力。本发明可以用多种其它通用或专用计算系统环境或配置来操作。可以 适合与本发明一起使用的公知计算系统、环境和/或配置的示例包括、但不 限于个人计算机、服务器计算机、手提或便携式设备、多处理器系统、 基于微处理器的系统、机顶盒、可编程用户电子设备、网络PC、小型计算 机、大型计算机、包括任一上述系统的分布式计算环境等等。本发明可以用计算机可执行指令的一般上下文来描述,譬如由计算机 执行的程序模块。 一般而言,程序模块包括例程、程序、对象、组件、数 据结构等,它们执行特定任务或实现特定的抽象数据类型。本发明还可以 实际用于分布式计算环境中,其中由通过通信网络或其它数据传输媒质连 接的远程处理设备来执行任务。在分布式计算环境中,程序模块及其它数 据可以位于本地和远程存储媒质中,包括内存存储设备。分布式计算通过 计算设备和系统间的直接交换便于共享计算机资源和服务。这些资源和服 务包括信息、高速緩存、及文件磁盘存储的交换。分布式计算利用网络连 接性,允许用户机发挥它们的集体功效来有利于整个公司。在这点上,多 种设备可以具有应用程序、对象或资源,它们可以利用本发明的技术。参考图1 a ,用于实现本发明的示例性系统包括形式为计算机110的通 用计算设备。计算机110的组件可以包括、但不限于处理单元120、系 统内存130、及把包括系统内存在内的各种系统组件耦合至处理单元120 的系统总线121。系统总线121可以是多种类型总线结构的任一种,包括 内存总线或内存控制器、外围设备总线、及使用任一多种总线结构的本地 总线。通过示例但非限制,这种结构包括工业标准结构(ISA)总线、微通道 结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准联盟(VESA)本地 总线、及外围组件互连(PCI)总线(也称为Mezzanine总线)。计算机110—般包括各种计算机可读媒质。计算机可读媒质可以是能由计算机11 0访问的任何可用媒质并包括易失性和非易失性的媒质、可移 动和不可移动媒质。通过示例但非限制,计算机可读媒质可以包括计算机 存储媒质和通信媒质。计算机存储媒质包括易失性和非易失性、可移动和 不可移动媒质,它们以用于存储诸如计算机可读指令、数据结构、程序模 块或其它数据这样的信息的任意方法或技术来实现。计算机存储媒质包括、但不限于RAM、 ROM、 EEPROM、闪存或其它存储技术、CDROM、数 字化通用光盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其 它磁性存储设备、或用于存储期望信息并能由计算机110访问的任意其它 媒质。通信媒质一般在诸如载波或其它传输机制这样的已调数据信号中包 含计算机可读指令、数据结构、程序模块或其它数据,并且包括任意信息 传递媒质。术语"已调数据信号"意指其一个或多个特性以对信号内信息 进行编码的方式被设置或改变的信号。通过示例但非限制,通信媒质包括 诸如有线网络或直接线连接这样的有线媒质、以及诸如声音、RF、红外这 样的无线媒质及其它无线媒质。上述的任意组合应该包含在计算机可读媒 质的范围内。系统内存130包括计算机存储媒质,其形式为易失性和/或非易失性内 存,譬如只读内存(ROM)131和随机存取内存(RAM)132。基本输入/输出 系统133(BIOS)—般存储在ROM 131内,它包含例如启动期间帮助在计 算机110内的组件间传输信息的基本例程。RAM 132—般包含数据和/或 程序模块,它们可以立即访问并且/或者当前由处理单元120在其上操作。 通过示例但非限制,图1a说明了操作系统134、应用程序135、其它程序 模块136和程序数据137。计算机110还可以包括其它可移动/不可移动、易失性/非易失性计算 机存储媒质。仅仅通过示例,图1说明了对不可移动、非易失性磁性媒质 进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁 盘驱动器151、以及对可移动、非易失性光盘156进行读写的光盘驱动器 155,譬如CD ROM或其它光学媒质。示例性操作环境中可用的其它可移 动/不可移动、易失性/非易失性计算存储媒质包括、但不限于磁带盒、闪 存卡、数字通用盘、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器141 一般通过如接口 140这样的不可移动存储器接口与系统总线121 相连,且磁盘驱动器151和光盘驱动器155—般用如接口 150这样的可移 动存储器接口与系统总线121相连。上面讨论并在图1a中说明的驱动器和它们的相关计算机存储媒质为 计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存 储。在图1中,例如,所述硬盘驱动器141存储操作系统144、应用程序 145、其它程序模块146和程序数据147。注意到这些组件或者可与操作 系统134、应用程序135、其它程序模块136和程序数据137相同,或者 与它们不同。这里为操作系统144、应用程序145、其它程序模块146和 程序数据147给出不同数字以说明它们至少是不同的副本。用户可以通过 诸如键盘162和指示设备161这样的输入设备把命令和信息输入到计算机 110中,输入设备通常称为鼠标、轨迹球或触板。其它输入设备(未示出) 可以包括麦克风、游戏杆、游戏板、卫星式转盘、扫描仪等等。这些和其 它输入设备经常通过与系统总线121耦合的用户输入接口 160与处理单元 120相连,但也可以用其它接口和总线结构连4妄,譬如并行端口、游戏端 口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过诸如 视频接口 190这样的接口与系统总线121相连。除了监视器191之外,计 算机还可以包括其它外部设备,如扬声器197和打印机196,它们可以通 过输出外设接口 190连接。计算机110可以工作在联网环境中,该环境使用与诸如远程计算机 180这样的 一 个或多个远程计算机之间的逻辑连接。远程计算机180可以 是个人计算机、服务器、路由器、网络PC、对等设备或其它公共网络节点, 并且一般包括上述与计算机110有关的许多或全部元件,尽管图1中仅说 明了内存存储设备181。图1a所述的逻辑连接包括局域网(LAN)171和广 域网(WAN)173,但可以还包括其它网络。这种联网环境在办公室、企业范 围计算机网络、企业内联网和互联网中是常见的。当用于LAN联网环境中时,计算机110通过网络接口或适配器170 与LAN171相连。当用于WAN联网环境中时,计算机110—般包括用于 在诸如互联网这样的WAN 173上建立通信的调制解调器172或其它装置。调制解调器172可以是内部或外部的,它可以通过用户输入接口 160或其 它适当机制与系统总线121相连。在网络化环境中,关于计算机110所述 的程序模块或其部分可以存储在远程内存存储设备中。通过示例但非限制, 图1a说明了驻留在内存设备181上的远程应用程序185。可以理解,所 示网络连接是示例性的,也可以使用在计算机间建立通信连接的其它装置。术i吾定义为了更简洁、清楚地描述本发明,在本文中,下列的术语特指如下的 含义,笔划书写时的运动轨迹。对于识别采样来说,在书写时,笔尖与接 触板接触时,就会留下"笔迹",不与接触板接触时,就不会留下"笔迹"。 但是,如果考虑书写时笔尖在空间的运动,则是一个连续的轨迹。在本发 明中,术语"笔划"将泛指这种运动的轨迹,无论其是否留下"笔迹"。实笔划实笔划指留下笔迹的笔划,即在书写时,笔尖与接触板接触 时的运动轨迹。虛笔划虛笔划指不留下笔迹的笔划,即在书写时,笔尖与不接触板 接触时的运动轨迹,虛笔划多用于体现实笔划之间的连接,需要说明的是, 本发明中,虚笔划主要体现笔尖的运动趋势和方向,对于虚笔划,并不一 定要求完全反映笔尖在这个阶段所经过的实际轨迹。持续笔划在一段时间中,方向基本不变的笔划。持续笔划可以是实 笔划,也可以是虛笔划,持续笔划反映的是连续在基本相同方向上的笔尖 运动。转角方向明显变化的笔划。转角是持续笔划之间的转换过程,转角 反映具有显著方向改变的笔尖运动。在笔划转换是会出现转角是手写东亚 字符的显著特征,本发明为此专门提供"转角"来更好地反映这个特征。笔迹笔迹是指手写东亚字符所留下的具体的痕迹。字根 一部分的笔划或者组合。概述尽管HMM模型已经被广泛地用于在线的手写字符的识别领域,但是 对于在线的手写东亚字符的识别,仍然具有两个主要方面的挑战手写东 亚字符的笔划顺序多样和书写风格多样。典型的用于手写字体识别的HMM 拓朴结构是左向右(left-to-right) HMM拓朴结构。在本发明中,涉及对 HMM拓朴结构的改进,主要包括在HMM拓朴结构中添加"转角状态",以反映手写东亚字符手写过 程笔划之间的"转角"。"转角状态"的自转移是受限制的,并且"转角 状态"与反映手写东亚字符手写过程中持续笔划的"持续状态"是交替出 现。在一个HMM中使用多条路径,以反映同一个手写东亚字符的不同的 笔划顺序以及书写风格。在构建这种HMM拓朴结构的过程中,本发明考虑了如下的问题首先,在一个HMM模型中,多少数量的路径是合适的。对于这个问 题,本发明提出了一种新的解决方案,采用子序列方向直方图向量 (Subsequence Direction Histogram Vector)来对从字符数据中得到的路 径进行聚类,已确定合适的路径数量。第二,在一个路径中,多少数量的状态是合适的。对于这个问题,本 发明利用手写东亚字符中的"转角"这一特性,利用曲率尺度空间中转角 的连接关系来确定一个路径中"转角状态"的数量,再利用"转角状态" 和"持续状态"是交替出现这一特征,确定路径中合适的状态数。第三,对于手写东亚字符中特有的笔划间连续的不确定性,本发明采 用了在HMM拓朴结构中设置平行状态(比如双高斯混合模型)的方法, 或者应用MSD的方法来加以解决。下面将分别就上述的问题详细地加以描述。适于识别手写东亚字符的HMM拓朴结构本发明主要针对手写东亚字符的识别技术,分析手写东亚字符的特点, 可以归结为以下几个主要方面1)笔划顺序多样,书写风格多样。正如上面所分析的,手写东亚字符的笔划多,并且字型结构复杂,导致了同一个字会出现多种笔划顺序,并 且,最终写完的字会呈现出多种字形或者字体,也就是所谓的手写风格。2)由于书写风格的多样性,同一个字的不同写法会出现如下两种典型 的区别2a)对局部连续笔划的不同的简化写法,导致不同的书写风格可 能具有不同的笔划数。2b)在实笔划之间的连接过程中,可以以实笔划相连,也可以以 虛笔划相连,而对于真正的东亚字符的使用者来说,无论以哪种笔划 相连,都被认可为正确的字符,这就个机器识别带来了难度。 手写东亚字符识别所要解决的第一个问题,即问题1 )笔划顺序多样、 手写风格多样。同一个汉字,不同的人的书写习惯决定了会出现多种笔划的顺序,虽 然按照规范汉字的标准,书写的笔划顺序是固定的,但是实际的统计表明, 大多数的汉字在实际的应用中存在数种书写顺序,并且,采用每一种书写 顺序的人群都占有相当的比例。作为手写识别这样面向大众的技术,必须 考虑这种情况。据一个例子,参考图3a所示,其中的"九,,字就有两种不 同的笔划顺序,其中,用虚线表示两个笔划之间的连接。同样,手写东亚字符的书写分格更是多种多样,例如,参考图3b所示, 同样的汉字"复",就可能出现很多种不同的书写风格。一种实现方式是为每一种笔划顺序、每一种手写风格都构建一个HMM 拓朴结构,这样做的数据量和运算复杂度比较大,并且,另一个问题是这 样方案将给实现和训练都带来一定的难度。为此,本发明提供一种多路径的HMM拓朴结构,对于相同的字符, 只提供一个HMM拓朴结构(HMM模型),使用其中的路径来表现不同的 笔划顺序或者是手写风格。参考图4a,图4a示出了根据本发明的一实施例,所提出的一种适用 于进行手写东亚字符识别的多路径HMM拓朴结构的结构图。参考图4a所 示,该多路径HMM拓朴结构对应于一个手写东亚字符;多路径HMM拓 朴结构中的每一条路径对应手写东亚字符的多种笔划顺序中的一个;或者多路径HMM拓朴结构中的每一条路径对应手写东亚字符的多种手写风格 中的一个。比如,参考图4b,根据图3a中所使出的汉字"九,,的两个手写示例 所构建的多路径HMM拓朴结构具有2条路径,其中的每一条对应"九,, 字的一种笔划顺序。参考图4c,根据图3b所示出的汉字"复"的多个手写示例,在构建 用于汉字"复,,的多路径HMM拓朴结构之后,聚类出两种具有典型特征 的手写风格(聚类的过程将在下面详细描述),这样,该多路径HMM拓 朴结构具有两条路径,其中的每一条对应一种手写风格的"复,,字。如上面所说的,由于书写风格的多样性所带来的问题,其中一个即是 2a)对局部连续笔划的不同的简化写法,导致不同的书写风格可能具有不 同的笔划数。每一条路径上的状态数是由这条路径所对应的书写风格的笔 划数确定的。东亚字符在相邻笔划间具有明显的方向转变特征,即"转角", 而持续笔划与转角是交替出现的。根据本发明,首先需要通过对某 一路径所对应的训练样本进行转角的 检测,统计出这种书写风格的典型笔划数,从而确定该条路径的状态数, 具体的步骤会在下面进行详细的描述。正是由于持续笔划和转角是交替出 现这 一 特点,可以利用曲率尺度空间(CSS )中的精细化算法 (coarse-to-fine algorithm )来实现一个路径中状态数量的确定。对于每一条具体路径而言,本发明还在路径中引入了 "转角状态"用 来描述转角处的短暂的笔划转变特征。在同一种书写风格所对应的一条路径上,持续笔划对应于"持续状态",转角对应于"转角状态",持续状 态与转角状态是交替出现的。由于笔划转角处的短时性,本发明将"转角状态"设为不自转,这种不自转的特性结合持续笔划特征与转角特征的差 异,可以明显改善训练样本的特征序列与路径状态之间的正确的对应关系。 再研究手写东亚字符的特征,可以发现,手写东亚字符在完成一个笔 划,开始下一个笔划之前,会出现一个显著的转向的过程,也就是上面所 说的"转角,,。参考图2a所示,图2a以一个十分简单的汉字"上,,的一 个手写示例为例。在图2a的示例中,"上"字的实笔划是3划,就是图2a中所显示的笔迹,虚笔划有2划,在图2a中用带箭头的虚线表示。这 样,在总共5个笔划(3个实笔划、2个虚笔划)之间,出现了 4个转角 202a-202d,在图中使用虛线框的圆團表示。于是,本发明提供了一种改进的HMM模型,利用这种HMM模型, 能很好地对东亚字符的转角进行建模。根据本发明,提供一种利用HMM模型识别手写东亚字符的方法,提 供对应于手写东亚字符的HMM拓朴结构;其中在HMM拓朴结构中提供描述手写东亚字符持续笔划的持续状态;以 及,在HMM拓朴结构中提供描述手写东亚字符笔划间转角的转角状态。上述的HMM拓朴结构被构建成左向右HMM拓朴结构,从一起始状 态开始,至一终止状态结束。HMM拓朴结构中的持续状态可以转移至下一 状态或者自转移,而转角状态只能转移至下一状态,不能自转移。持续状 态和转角状态依次交替存在。上述的这个改进的HMM拓朴结构符合手写东亚字符的特点,能很好 地反映手写东亚字符的特征。参考图2b,图2b示出了根据本发明的上述原理从图2a的"上"字笔 迹中构建的对应于"上"字的HMM拓朴结构。图2a所示的"上"字手写示例中的5个笔划,包括3个实笔划和2 个虛笔划分别对应图2b中的5个持续状态204a-204e,持续状态 204a-204e的每一个都可以自转移或者向下一个状态转移。继续参考图2b,图2a所示的4个转角202a-202d分别对应图2b中 的4个转角状态206a-206d,转角状态206a-206d不能自转移,只能转移 到下一状态。并且,转角状态206a-206d插入到持续状态204a-204e之间。在另一个实施例中,图2b所示的该HMM拓朴结构还可以起始于一个 起始状态,这个状态对应于起笔的时刻,并且,如果存在起始状态的话, 该起始状态是不能自转移的。同样,图2b所示的HMM拓朴结构的另一个实施例中也可以结束于终 止状态,终止状态代表收笔的时刻,如果使用终止状态的话,终止状态也 不能自转移的。这样,图2a所示的"上"的手写示例就被构建成了图2b所示的HMM 拓朴结构,该HMM拓朴结构符合下面的特征是左向右HMM拓朴结构, 从一起始状态开始,至一终止状态结束,HMM拓朴结构中的持续状态可以 转移至下一状态或者自转移,而转角状态只能转移至下一状态,不能自转 移,持续状态和转角状态依次交替存在。需要说明的是,在图2a所示的"上"字的手写示例中,根据本发明定 义的实笔划的数量与规范汉字写法中的笔划数量是相等的,但是,对于有 一些汉字或者汉字笔划来说,根据本发明所定义的笔划数量(包括实笔划 和虛笔划)与规范汉字写法中的笔划数量可能是不相等的。参考图2c所示 出的示例,"口,,字,根据规范汉字写法,共有3划,但是根据本发明的 定义,实笔划共有4划,虛笔划共有2划。主要的区别在于"1"这一笔, 在规范汉字中,这是一个笔划,而根据本发明的定义,"i"包含了2个 实笔划和1个转角。因此,根据本发明的定义,图2c所示的"口"字的手写示例包括实笔 划212a-212d,虚笔划214a和214b,以及转角216a-216e。排列的顺序 是实笔划212a、转角216a、虛笔划214a、转角216b、实笔划212b、 转角216c、实笔划212c、转角216d、虚笔划214b、转角216e、实笔划 212d。在本发明中,所说的笔划是按照上面的术语定义中所定义的笔划。 回到前面所提到的多路径的HMM拓朴结构,由于主要适用于手写东亚字符的识别,因此在每一条HMM路径中,仍然会提供上述的"转角"状态。回到图4a,在该多路径HMM拓朴结构中,由于每一个路径都是对应 于手写的东亚文字,因此这些路径中的每一条都具有如下的特点每一条路径是左向右HMM拓朴结构,从一起始状态开始,至一终止 状态结束;HMM拓朴结构包括描述手写东亚字符持续笔划的持续状态,以及描述 手写东亚字符笔划间转角的转角状态,其中持续状态可以转移至下一状态 或者自转移,转角状态只能转移至下一状态,不能自转移;持续状态和转角状态依次交替存在;对于整个多路径HMM拓朴结构来说,其中所有路径起始于同一入口 状态,至同一出口状态结束。在图4a中,每一个圓圈代表一个状态,带箭头的线段表示转移,其中, 指向自己的箭头表示自转移,具有状态自转移的状态是持续状态,不能自 转移的状态是转角状态。所有路径都开始于公共的入口状态,并结束于公 共的出口状态。需要说明的是,虽然在上面所示的示例中,多路径HMM拓朴结构中 的每一个路径都是符合前面所定义的特点的路径,并且,多路径HMM拓 朴结构中的路径被示为用来一致地对应多种笔划顺序或者手写风格。但是, 本领域的技术人员能够理解,本发明的范围决不限制与此,本发明中的多 路径HMM拓朴结构的宽泛的限定应该是至少有一条路径是左向右HMM拓朴结构,从一起始状态开始,至一 终止状态结束;对于整个多路径HMM拓朴结构来说,其中所有路径起始于同一入口 状态,至同一出口状态结束。并且,描述多种不同的笔划顺序和不同的手写风格的路径可以被放置 在同一个多路径HMM拓朴结构中,也就是说,在一个多路径HMM拓朴 结构中,可以由部分的路径对应不同的笔划顺序,而另一部分的路径对应 不同的手写风格。在一种情况中,由于手写东亚字符中"转角"特性的作用,至少有一 条路径包括描述手写东亚字符持续笔划的持续状态,以及描述手写东亚字 符笔划间转角的转角状态,其中持续状态可以转移至下一状态或者自转移, 转角状态只能转移至下一状态,不能自转移;持续状态和转角状态依次交 替存在。由于本发明的HMM拓朴结构是从训练数据中自行生成,而训练数据 中的样本可能存在很大的冗余性,或者其中可能记录了一些极低概率的偶然性数据,这样,就可能使得所得到的多路径HMM拓朴结构中,存在冗 余路径,或者只有少量手写数据覆盖的路径,这将使得模型数据量大量增加,增加整个HMM拓朴结构的复杂度。为此,本发明还需要对路径进行 合并处理,消除冗余的路径和基本不会使用到的路径。关于路径合并的具 体实现方法在下面会详细描述。还需要说明的一点是,对于本领域的技术 人员来说,完全可以通过已有的手段来在一个HMM拓朴结构中实现多路 径,因此,本发明在此处主要是提供一种新型的HMM拓朴结构以及实现 这种新型的HMM拓朴结构的多路径HMM模型,因此,本领域的技术人 员完全可以在阅读了本发明的说明书之后实现这里所述的多路径HMM模 型而不需要再做出任何的创造性劳动。现在,本发明的方法已经通过提供"转角"状态很好地解决了手写东 亚字符的笔划间连接问题,提供多路径的HMM拓朴结构解决了多种书写 顺序和多种书写风格的问题。最后一个需要解决的问题,也就是问题2b), 在实笔划之间的连接过程中,可以以实笔划相连,也可以以虚笔划相连, 而对于真正的东亚字符的使用者来说,无论以哪种笔划相连,都被认可为 正确的字符,这种书写可变性给机器识别带来了难度。举例说明,参考图 5a所示,对于"上"字来说,在写完"I",到下一笔"一"之间,可能 会出现两种连接方式,实笔划连接,例如图5a中所示的实笔划502,或者 虚笔划连接,例如图5a中所示的虛笔划504,当然,可能还有其他的连接 方式,比如部分的实笔划加上部分的虛笔划,此处,为了简明地进行说明, 暂时以两种情况为例进行说明。图5a所示的情况可以称之为"虛笔划/实笔划的不确定性,,。这也是 本发明所要解决的问题之一 。对于这种情况,本发明提供两种解决的方案。第一种方式,是在HMM拓朴结构中提供平行状态,对应手写东亚字 符中既可能是虛笔划,也可能是实笔划的部分。参考图5b所示,其示出了根据本发明的 一 实施例的 一 种具有平行状态 的HMM拓朴结构的结构图。其中,在状态506和508之间的状态510具 有一个平行的状态510b,状态506可以转移到状态510或者510b之中的 任何一个,状态510或者510b之中的任何一个也可以转移到状态508。需要说明的是,本发明所提出的平行状态的可以与之前所提出的具有持续状态和转角状态的HMM拓朴结构结合使用,比如,HMM拓朴结构中 的任何一个持续状态或者转角状态都可以具有平行的状态。上述的平行状态的概念也可以应用到多路径HMM拓朴结构中,即, 在多路径HMM拓朴结构的任何一条路径中,都可能有一个或者数个的状 态是具有平行状态的。图5c示出了根据图5a的手写示例所构建的具有平行状态的HMM拓 朴机构的示意图,其中只示出了平行状态的相关部分。其中,持续状态512 代表实笔划"I ",持续状态518代表实笔划"一"。对于图5a中所示 的可能为实笔划也可能为虚笔划的部分,在图5c所示的HMM拓朴结构中, 采用持续状态520代表图5a中的实笔划502,用持续状态520b代表图 5b中的虚笔划504。在图5c所示的实施例中,转角状态514和516同样 具有一个平行的转角状态514b和516b。转角状态是否具有一平行状态与 其所对应的转角在字迹中所处的位置有关,如果转角的位置更加接近可能 为实笔划也可能为虚笔划的部分,那么这个转角所对应的转角状态也会具 有一个平行状态,相应的,如果转角的位置远离可能为实笔划也可能为虚 笔划的部分,那么这个转角所对应的转移状态就没有平行状态。通常,在 例如图5c所示的情况的HMM拓朴结构中,转角状态514和516各自具 有一个平行状态514b和516b。在其他的实施例中,可能是516具有平行 的状态而514没有,或者514具有平行状态而516没有。当然,本发明也 不排除两个转角状态都没有平行状态的情况。提供平行状态的一种实现形式是采用双高斯混合模型(GMM),即利 用高斯函数的分布特性,使得实笔划和虚笔划分别对应不同的高斯函数的 峰值。第二种解决实笔划/虚笔划不确定性的方法是对HMM拓朴结构应用多 空间概率分布(MSD),对应手写东亚字符中既可能是虚笔划,也可能是 实笔划的部分。MSD是一种常用的算法,因此在本发明中不具体描述其详 细的原理,将MSD应用到HMM拓朴结构上,可以根据下述的方式来实现 对于每一个HMM拓朴结构,定义两个空间,分别对应实笔划和虛笔划。 通过MSD可以对不确定的部分分别在两个空间内进行多空间概率分布的计算,得到对应实笔划的第一度量值和对应虛笔划的第二度量值,通过对 于度量值的处理来解决实笔划/虛笔划不确定性的问题。这样,本发明有效地针对手写东亚字符的主要特点提供了 一种识别的 技术,能够很好地适应手写东亚字符的特征。但是,还面临的一个问题是 模型数据量的问题。就如上面所描述的,对于每一个手写东亚字符,会提供一个多路径的HMM拓朴结构,并且,每一条路径中,都会提供数个状 态来对应每一个笔划,在笔划之间还需要提供"转角"状态,对于存在实 笔划/虚笔划不确定性的部分,还需要提供平行状态或者应用MSD技术。 这些都将导致HMM模型的数据量非常庞大。为了有效地节省数据空间, 降低本发明的实现成本,还需要考虑数据压缩的问题。虽然东亚字符相互之间的相似性不是很明显,但是如果将东亚字符分 割成数个部分,这些局部的结构还是具有不少相似之处的。利用这个特点, 能够实现HMM拓朴结构中状态的聚类,从而减小数据量,降低HMM拓 朴结构的复杂度。根据本发明,在构建HMM拓朴结构之后还会对HMM拓朴拓朴结构 中的状态进行聚类,使HMM拓朴拓朴结构中的至少一组状态共用参数, 且对于一组共用参数的状态,在HMM拓朴结构中只保存一套参数。状态的聚类可能在同一路径上的状态之间进行,也可能在不同路径上 的状态之间进行,被认为是可以聚类的状态,HMM拓朴结构中将只为所有 这些状态保留一套参数。这样就可以有效地减少数据量,降低HMM拓朴结构的复杂度。适于识别手写东亚字符的HMM拓朴结构的实现方法 对于上面所介绍的HMM拓朴结构,可以按照下面所描述的方法来实现1)产生字根训练数据在进行HMM训练过程之前,需要对数据进行标记,对于东亚字符来 说,数据通常是采用字符而不是字根来进行标记。而对于本发明的识别方 法来说,建立的HMM拓朴结构中更需要利用的是由字根进行标记的数据。维特比(Viterbi)解码的一个附加效果就能提供笔迹样本和HMM状态之 间的对应关系。因此,借助维特比解码,就能够自动从字符数据中获得对 应于字根的笔迹数据,比如,参照对应字根的HMM模型中对应关系的分 界点,将笔迹样本进行分解。为了做上述的切分得到字根数据,首先要得到一个初步的HMM模型。 此模型虽然可能不一定能非常准确的识别手写字符,但能相对准确的得到 字根的分界点。该初步的HMM模型从单一路径开始构建,并逐渐地分割 出越来越多的路径直到路径数足够为止,路径数是否足够采用路径的收敛 度量来衡量。该方法的一个示例如下a) 初始化一具有单一路径的HMM (n-1);b) 对于HMM中已经存在的n条路径P1、 P2…Pn,计算它们的收敛 度量C(P1)、 C(P2)…C(Pn),并选择其中收敛度量C(Pj)最大的路径Pj;c) 如果C(Pj)《T, T为预定的收敛门限值,则说明对于目前的训练数 据来说,这个HMM拓朴结构中的路径数已经足够多,不必继续分割路径;d) 如果C(Pj)〉T,则将路径Pj复制,增加噪声后构建一条新的路径, 此时,HMM模型中具有了 n+1条路径;e) 在n+1条路径的基础上进行HMM模型的训练,直到无法再提高识 别精度为止;至此,已经获得了初步的多路径HMM模型,将字符数据作 字根对齐并切分,得到相对比较正确的字根数据。得到的字根数据将被后 面的步骤用于训练来得到识别手写字符的拓朴结构优化的HMM模型。2)最优路径数确定根据本法明,还提供一种统计特征来解决对最优路径数确定的问题, 该特征称之为"子序列方向直方图向量"。对于每一个笔迹样本,按弧长将其分成数个分段,每一分段分别提取 一特征。其中,这里所说的弧长是指所有笔划长度之和,就是所有的实笔 划加上所有的虚笔划的长度之和,分段的过程是基于这个求和之后的弧长。 其中的特征该分段的形状特征。因此,经过分段和提取特征的操作之后, 能够获取一个字迹样本在每一个分段上的一种形状特征。将每个分段上的 特征按顺序连接,从而得到该笔迹样本的一个特征。笔迹样本的每个分段上的形状特征可以实现为子序列方向直方图向 量。将笔迹样本的分段进一步划分成数个子段,每一个子段确定一量化的 方向特征,每一个量化的方向特征对应一预定角度范围的方向。每一个分 段上的形状特征为一子序列方向直方图,每一个笔迹样本的特征为一子序 列方向直方图向量。参考图6a所示,说明了子序列方向直方图的建立过程。首先,字迹样 本"王,,602被按照弧长分割成了数个分段,其中该弧长是实笔划和虚笔 划相连之后的总弧长604,在这些分段中,有一些只包括实笔划,比如分 段604a,有一些只包括虚笔划,比如分段604c,还有一些既有实笔划, 也有虛笔划,比如分段604b。以分段604b为例,其又可以被分割成数个 字分段,对于这些子分段,根据它们的方向(参考方向指针606)和笔划 密度得到了子序列方向直方图。比如,604b的虚笔划部分的一个分段605a 对应的子序列方向直方图为605b, 604b的实笔划部分的一个分段607a 对应的子序列方向直方图为607b。将所有子分段的子序列方向直方图组合 在一起,就能得到对应于每一个分段的子序列方向直方图,进一步将每一 个分段的子序列方向直方图组合,就能得到对应笔迹样本的子序列方向直 方图向量,比如图6a中的608。在获得了子序列方向直方图向量之后,就能容易地对上述特征进行聚 类,每一个聚类对应于一种笔划顺序或者一种手写风格。聚类的操作可以 通过诸如高斯混合模型(Guassian Mixture Model)来实现。最终,将获得m个聚类后的结果,m也是对应于一个手写东亚字符的 优化的路径数量。然后,基于每一个聚类的数据确定对应于每一种笔划顺 序或者每一种手写风格的HMM拓朴结构中的一路径的参数。参考图6b,图6b是进行训练数据自动分类,更确切地说是经过聚类 操作的实例。图6b中,从训练数据中总共提供了 9个样本数据。通过数据 自动分类,将它们聚类成2个典型的类,代表两个经过聚类处理之后的书 写风格的"复"字。3)最优状态数量的确定在确定了路径的数量之后,还需要确定路径中状态的数量,根据本发明,依然采用来自数据的机器自学习的方法来确定状态的数量。确定一个路径中的状态的数量时,采用的数据是来自上述的步骤2)中同一个类中 的笔迹样本。HMM中的状态反映的是笔迹样本的形态和变化,因此,状态 包括两类对于方向变化不明显(弯曲度不大)的部分,称之为"持续笔 划",对应HMM中的"持续状态";对于方向变化明显(弯曲度大)的 部分,就是"转角",对应于"转角状态"。 一个路径中状态的数量就是 "持续笔划"与"转角"的数量之和,也就是"持续状态"的数量与"转 角状态"的数量之和。逐渐精细化的曲率尺度空间算法(coarse-to-fine Curvature Scale Space )可被用于进行转角的检测,从而确定转角的数量, 同时,由于转角和持续笔划是交替出现的,又能从转角的数量推算出持续 笔划的数量,这样,状态的数量就能被确定。4) 状态连接设计如前面所述的"虛笔划/实笔划的不确定性"的问题,本发明提供两种 解决的方案。第一种方式,是在HMM拓朴结构中提供平行状态,对应手写东亚字 符中既可能是虚笔划,也可能是实笔划的部分。提供平行状态的一种实现 形式是采用双高斯混合模型(GMM),即利用高斯函数的分布特性,使得 实笔划和虛笔划分别对应不同的高斯函数的峰值,利用这样的双高斯混合 模型,就能够解决解决实笔划/虚笔划不确定性的问题。参考图6c,对于"木" 字,有连笔和不连笔两种写法,连笔的写法对应"实笔划"的情况,而不 连笔的写法对应"虚笔划"的情况,参考图6c,实笔划和虚笔划分别具有 各自的高斯函数分布,它们的峰值不同,因此将它们组合可以获得双高斯 混合模型,具有两个不同的峰值,从而实现平行状态。第二种方法,对HMM拓朴结构应用多空间概率分布(MSD),对应 手写东亚字符中既可能是虚笔划,也可能是实笔划的部分。5) 路径合并在上述的步骤完成之后,获得了初步的多路径的HMM拓朴结构,其 中包括了对应于训练数据中所有情况的路径,包括反映笔划顺序和手写风 格的路径,但是,由于训练数据中存在的冗余信息和极低概率的信息,需要对所获得的路径进行合并处理。路径的合并处理可以包括两个方面将 出现概率极低的路径去除;以及,将类似的路径进行合并。将出现概率极低的路径,也就是该路径所对应的训练数据中的数据量 较小,占训练数据总量的比例低去除,去除这些路径可以通过设置预定门 限的方法实现。而类似的路径合并的操作可以通过为路径计算相似度度量的方式来实 现,通过相似度度量来表示路径之间的相似程度,当两条路径足够相似时, 就把路径合并。比如,相似度度量可以用Kullback-Leibler差值来表示, Kullback-Leibler差值表示路径之间相似的程度。如果Kullback-Leibler差值低于一预定值,就表示两条路径足够相似,则可以把它们合并,合并操 作将对两条路径进行平衡化的处理,以得到 一条能够很好地反映原来两条 路径中的主要特点的路径。 6)状态聚类之后,还需要对HMM拓朴结构中状态进行聚类。如果将东亚字符分 割成数个部分,这些局部的结构还是具有不少相似之处的。利用这个特点, 能够实现HMM拓朴结构中状态的聚类,从而减小数据量,降低HMM拓 朴结构的复杂度。状态的聚类可能在同一路径上的状态之间进行,也可能 在不同路径上的状态之间进行,被认为是可以聚类的状态,HMM拓朴结构 中将只为所有属于同一个聚类的状态保留一套参数。根据本发明,聚类操作包括计算该HMM拓朴结构中每两个状态之 间的状态相似度度量,当状态相似度度量表示两个状态足够相似时,使该 两个状态共用参数;其中,当两个以上的状态相互之间的状态相似度度量 都足够相似时,使该这些状态都共用参数。在本发明的一个实现中,状态 相似度度量通过Kullback-Leibler差值表示,Kullback-Leibler差值低于一 预定值,则表示这两个状态足够相似。比如一个具体的聚类操作的过程被 显示如下初始化阶段设定所有状态的总数为M个,将第m个状态归类到第m个类中(1 《m《M);对于任意的两个状态m和n,计算它们之间的Kullback-Leibler差值,并表示为D ( m,n )。 聚类阶段寻找具有最小的Kullback-Leibler差值的一组状态(m',n'),可通过 下面的函凄t实J见(m',n') -argmin (m,n)。通过在Kullback-Leibler差值矩阵中将对应于m'和n'的行与列相加, 合并第m'和n'状态。将状态M的总数减1。循环操作如果M的数量大于一预定值,则重复上面的操作,否则完成合并操作。通过上面的步骤1)-5),就能从手写东亚字符的训练数据中自动构 建对应于手写东亚字符的多路径HMM拓朴结构,其中的每一条路径对应 手写东亚字符的多种笔划顺序中的一个,或者,其中的每一条路径对应手 写东亚字符的多种手写风格中的一个;在HMM拓朴结构中提供描述手写东亚字符持续笔划的持续状态,和 描述手写东亚字符笔划间转角的转角状态;其中,多路径HMM拓朴结构中的每一条路径是左向右HMM拓朴结 构,从一起始状态开始,至一终止状态结束;其中持续状态可以转移至下 一状态或者自转移,转角状态只能转移至下一状态,不能自转移;HMM拓 朴结构中持续状态和转角状态依次交替存在;以及其中所有路径起始于同 一入口状态,至同一出口状态结束。可能的硬件实现形式本发明可以通过软件的形式实现,比如通过一通用计算系统运行实现 本发明所述的方法的软件,就能实现本发明。本发明也可以以指令或者程 序的形式被实现,这些指令或者程序可以保存在一个存储介质上,当一计 算设备从存储介质上获取这些指令或者程序并执行之后,就能够实现本发 明。此外,本发明也可以使用硬件的形式实现,需要说明的是,对于本领域的技术人员来说,很显然在本发明所处的领域中,软硬件之间的转换是 具有多种形式的,即具有不同形式的硬件可以实现相同的功能,因此,本 发明下面所列举的可能的硬件实现形式是限定硬件的功能,而不限定其具 体实现形式,对于本领域的技术人员来说,根据这些功能实现各种形式的 功能是显而意见的。参考图7所示,本发明的一示例的利用HMM模型识别手写东亚字符 的系统700包括HMM拓朴结构构建装置702,构建对应于手写东亚字符的HMM拓朴 结构;持续状态设置装置704,在HMM拓朴结构中提供描述手写东亚字符 持续笔划的持续状态;转角状态设置装置706,在HMM拓朴结构中提供描述手写东亚字符 笔划间转角的转角状态。其中,HMM拓朴结构构建装置702构建的HMM拓朴结构是左向右 HMM拓朴结构,从一起始状态开始,至一终止状态结束;并且,HMM拓 朴结构中的持续状态可以转移至下一状态或者自转移,转角状态只能转移 至下一状态,不能自转移;持续状态和转角状态依次交替存在。在另一实施例中,该HMM拓朴结构构建装置702构建多路径HMM 拓朴结构,对应于手写东亚字符;其中的每一条路径对应手写东亚字符的多种笔划顺序中的一个;或者,其中的每一条路径对应手写东亚字符的多 种手写风格中的一个。其中,HMM拓朴结构构建装置702构建的多路径HMM拓朴结构中的 每一条路径是左向右HMM拓朴结构,从一起始状态开始,至一终止状态 结束;并且,其中持续状态可以转移至下一状态或者自转移,转角状态只 能转移至下一状态,不能自转移;HMM拓朴结构中持续状态和转角状态依 次交替存在;以及其中所有路径起始于同一入口状态,至同一出口状态结 束。一个实施例中,该系统700还包括平行状态提供装置708,在HMM 拓朴结构中提供平行状态,对应手写东亚字符中既可能是虛笔划,也可能是实笔划的部分。该平行状态提供装置708可以应用双高斯混合模型实现 平行状态。或者,包括多空间概率分布(MSD)处理装置710,对HMM拓朴结 构应用多空间概率分布,对应手写东亚字符中既可能是虛笔划,也可能是 实笔划的部分。需要说明的是,平行状态提供装置708和多空间概率分布处理装置 710是二选其一的。在一个实施例中,该系统700还包括状态聚类装置712,对HMM拓 朴结构中的状态进行聚类,使HMM拓朴结构中的至少一组状态共用参数, 且对于所述一组共用参数的状态,在HMM拓朴结构中只保存一套参数。需要说明的是,此处描述的利用HMM模型识别手写东亚字符的系统 700的各个装置可用于实现上面结合附图2-5所描述的方法,其中的各个 细节特征都对应,因此这里就不再重复地进行描述。图8示出了根据本发明的另一实施例的利用HMM模型识别手写东亚 字符的系统800的结构图,该系统800包括HMM拓朴结构构建装置802,构建对应于手写东亚字符的多路径 HMM拓朴结构,其中的每一条路径对应手写东亚字符的多种笔划顺序中的 一个,或者,其中的每一条路径对应手写东亚字符的多种手写风格中的一 个;持续状态设置装置804,在HMM拓朴结构中设置描述手写东亚字符 持续笔划的持续状态;转角状态设置装置806,在HMM拓朴结构中设置和描述手写东亚字 符笔划间转角的转角状态;其中,多路径HMM拓朴结构中的每一条路径是左向右HMM拓朴结 构,从一起始状态开始,至一终止状态结束;持续状态可以转移至下一状 态或者自转移,转角状态只能转移至下一状态,不能自转移;持续状态和 转角状态依次交替存在;并且所有路径起始于同一入口状态,至同一出口 状态结束;以及下列两个装置的其中之一平行状态提供装置808,在HMM拓朴结构中提供平行状态,对应手 写东亚字符中既可能是虛笔划,也可能是实笔划的部分;平行状态提供装 置808可以采用双高斯混合模型(GMM),即利用高斯函数的分布特性, 使得实笔划和虚笔划分别对应不同的高斯函数的峰值,利用这样的双高斯 混合模型,也能够解决解决实笔划/虚笔划不确定性的问题。多空间概率分布处理装置810,对HMM拓朴结构应用多空间概率分 布,对应手写东亚字符中既可能是虛笔划,也可能是实笔划的部分。根据图8所示的系统800,其中的HMM拓朴结构构建装置802从手 写东亚字符的训练数据中自动构建多路径HMM拓朴结构;以及该HMM拓 朴结构构建装置802根据手写东亚字符的笔划顺序或者书写风格,应用一 机器自学习的自动分类方法对训练数据进行分类。继续参考图8,该系统800采用的训练数据包括手写东亚字符笔迹样 本,笔迹样本包括不同笔划顺序或者不同手写风格的笔迹样本;该HMM 拓朴结构构建装置802包括,笔迹样本分段装置820,对于每一个笔迹样本,按弧长将其分成数个 分段;这里所说的弧长是指所有笔划长度之和,就是所有的实笔划加上所 有的虚笔划的长度之和,分段的过程是基于这个求和之后的弧长。特征提取装置822,对每一分段分别提取一特征;其中的特征该分段 的形状特征。因此,经过分段和提取特征的操作之后,能够获取一个字迹 样本在每一个分段上的一种形状特征。将每个分段上的特征按顺序连接, 从而得到该笔迹样本的一个特征。聚类装置824,对上述的特征进行聚类,每一个聚类对应于一种笔划 顺序或者一种手写风格;HMM拓朴结构构建装置802基于每一个聚类的数据确定对应于每一 种笔划顺序或者每一种手写风格的HMM拓朴结构中的一路径的参数。进 一步的,根据一实施例,HMM拓朴结构构建装置802还可包括子序列方 向直方图向量建立装置826,将上述的笔迹样本的每个分段上的形状特征 实现为子序列方向直方图向量。其中,笔迹样本分段装置对于每一个笔迹 样本,将实笔划和虚笔划相连,并将实笔划和虛笔划相连后的弧长分成数段;而特征为量化的方向,特征提取装置822使每一个特征对应一预定角 度范围的方向;该子序列方向直方图向量建立装置826建立对应于分段及特征的子序 列方向直方图向量,该子序列方向直方图向量建立装置826将笔迹样本的 分段进一步划分成数个子段,每一个子段确定一量化的方向特征,每一个 量化的方向特征对应一预定角度范围的方向。每一个分段上的形状特征为 一子序列方向直方图,每一个笔迹样本的特征为一子序列方向直方图向量。继续参考图8,在一实施例中,该系统800还包括路径合并装置814,对多路径HMM拓朴结构中的路径进行合并,以 控制路径的数量。该路径合并装置814判断路径所对应的训练数据的数据 量,删除对应的数据量小于一预定值的路径;计算多路径HMM拓朴结构 中每两个路径之间的路径相似度度量,当路径相似度度量表示两个状态足 够相似时,合并该两个路径,其中,当两个以上的路径的路径相似度度量 都足够相似时,合并这些路径。在一个实现中,该路径相似度度量用 Kullback-Leibler差值表示,当Kullback-Leibler差值低于一预定值时,表 示路径足够相似,可以合并这些路径。该系统800还可包括状态聚类装置812,对HMM拓朴结构中状态进 行聚类,使HMM拓朴结构中的至少一组状态共用参数,且对于一组共用 参数的状态,在HMM拓朴结构中只保存一套参数。状态聚类装置812计 算该HMM拓朴结构中每两个状态之间的状态相似度度量,当状态相似度 度量表示两个状态足够相似时,使该两个状态共用参数;其中,当两个以 上的状态相互之间的状态相似度度量都足够相似时,使该这些状态都共用 参数。并且状态聚类装置812状态通过Kullback-Leibler差值表示相似度 度量,当Kullback-Leibler差值低于一预定值时,表示这些状态足够相似, 可以合并这些状态。需要说明的是,此处利用HMM模型识别手写东亚字符的系统800的 各个装置可用于实现上面结合附图6所描述的方法,包括上面所描述的步 骤1 )-5)来构建多路径HMM拓朴结构,其中的各个细节特征都对应,因此这里就不再重复地进行描述。本发明针对手写东亚字符的特点提供了一种利用改进的HMM模型来 对手写东亚字符进行识别的方案,充分考虑了手写东亚字符笔划多、笔划 顺序多样、结构复杂、书写风格多样、笔划间连接不确定的特点,改进了 HMM拓朴结构的特点,通过在HMM拓朴结构中加入转角状态、提供多路 径、提供平行状态的手段来解决上述的问题,并且,通过聚类和合并的操 作来减小数据量,降低运算的复杂程度。上面结合本发明的 一 实施例对本发明进行了详细的描述,但是需要说 明的是,这并不是对于本发明的范围作出任何的限制,对于上面所说的实 施例的所作出的各种不需要创造性劳动的变化,修改,都应被视为是在本 发明的范围之内,对于本发明而言,应当扩展到符合权利要求所限定的发 明原理的最宽泛的范围。
权利要求
1. 一种建立适用于识别手写东亚字符的隐性马尔可夫(HMM)模型的方法,其特征在于,提供HMM拓扑结构,该HMM拓扑结构用于识别手写东亚字符;在HMM拓扑结构中提供持续状态,该持续状态用于描述手写东亚字符的持续笔划;在HMM拓扑结构中提供转角状态,该转角状态用于描述手写东亚字符的笔划间转角。
2. 如权利要求1所述的方法,其特征在于,所构建的HMM拓朴结构是左向右HMM拓朴结构,从一起始状态开 始,至一终止状态结束;所述HMM拓朴结构中的持续状态被设置为能够转移至下一状态或者 自转移,转角状态被设置为只能转移至下一状态,不能自转移;所述HMM拓朴结构中持续状态和转角状态被设置为依次交替存在。
3. 如权利要求1所述的方法,其特征在于,还包括 提供多路径HMM拓朴结构,对应于手写东亚字符;多路径HMM拓朴结构中的每一条路径被构建为手写东亚字符的多种 笔划顺序中的一个;或者多路径HMM拓朴结构中的每一条路径被构建为手写东亚字符的多种 手写风格中的一个。
4. 如权利要求3所述的方法,其特征在于,所述多路径HMM拓朴结构中的每一条路径是左向右HMM拓朴结构, 从一起始状态开始,至一终止状态结束;所述HMM拓朴结构包括持续状态和转角状态,其中持续状态可以转 移至下一状态或者自转移,转角状态只能转移至下一状态,不能自转移;所迷HMM拓朴结构中持续状态和转角状态依次交替存在;以及 其中所有路径起始于同一入口状态,至同一出口状态结束。
5. 如权利要求3所述的方法,其特征在于,还包括在HMM拓朴结构中提供平行状态,对应手写东亚字符中既可能是虛 笔划,也可能是实笔划的部分。
6. 如权利要求3所述的方法,其特征在于,还包括对HMM拓朴结构应用多空间概率分布(MSD),对应手写东亚字符 中既可能是虛笔划,也可能是实笔划的部分。
7. 如权利要求3所述的方法,其特征在于,还包括对HMM拓朴结构中的状态进行聚类,使所述HMM拓朴结构中的至 少一组状态共用参数,且对于所述一组共用参数的状态,在HMM拓朴结 构中只保存一套参数。
8. —种利用HMM模型识别手写东亚字符的方法,其特征在于, 提供对应于手写东亚字符的多路径HMM拓朴结构,其中的每一条路径对应手写东亚字符的多种笔划顺序中的一个,或者,其中的每一条路径 对应手写东亚字符的多种手写风格中的一个;在HMM拓朴结构中提供描述手写东亚字符持续笔划的持续状态,和 描述手写东亚字符笔划间转角的转角状态;其中,所述多路径HMM拓朴结构中的每一条路径是左向右HMM拓 朴结构,从一起始状态开始,至一终止状态结束;其中持续状态可以转移 至下一状态或者自转移,转角状态只能转移至下一状态,不能自转移;所 述HMM拓朴结构中持续状态和转角状态依次交替存在;以及其中所有路 径起始于同一入口状态,至同一出口状态结束;在HMM拓朴结构中提供平行状态,或者对HMM拓朴结构应用多空 间概率分布(MSD),对应手写东亚字符中既可能是虚笔划,也可能是实笔划的部分。
9.如权利要求8所述的方法,其特征在于,所述多路径HMM拓朴结构从手写东亚字符的训练数据中自动构建; 根据手写东亚字符的笔划顺序或者书写风格,应用 一机器自学习的自 动分类方法对所述训练数据进行分类。
10.如权利要求9所述的方法,其特征在于,所述训练数据包括手写东亚字符笔迹样本,所述笔迹样本包括不同笔 划顺序或者不同手写风格的笔迹样本;对于每一个笔迹样本,按弧长将其分成数个分段,每一分段分别提取 一特征,将每个分段上的特征按顺序连接,从而得到该笔迹样本的一个特 征;对上述特征进行聚类,每一个聚类对应于一种笔划顺序或者一种手写 风格;基于每一个聚类的数据确定对应于每一种笔划顺序或者每一种手写风 格的HMM拓朴结构中的一路径的拓朴和初始参数。
11.如权利要求10所述的方法,其特征在于,还包括建立对应于分段及特征的子序列方向直方图向量,其中,对于每一个笔迹样本,将实笔划和虛笔划相连,并将实笔划和 虛笔划相连后的弧长分成数段,每一个子段确定一量化的方向特征,每一个量化的方向特征对应一预 定角度范围的方向;每一个分段上的形状特征为一子序列方向直方图,每一个笔迹样本的 特征为一子序列方向直方图向量。
12.如权利要求9所述的方法,其特征在于,还包括 对多路径HMM拓朴结构中的路径进行合并,以控制路径的数量。
13. 如权利要求12所述的方法,其特征在于,所述路径合并包括 判断路径所对应的训练数据的数据量,删除对应的数据量小于一预定值的路径;计算多路径HMM拓朴结构中每两个路径之间的路径相似度度量,当 路径相似度度量表示两个路径足够相似时,合并该两个路径,其中,当两 个以上路径的路径相似度度量表示这些路径都足够相似时,合并这些路径。
14. 如权利要求13所述的方法,其特征在于,该路径相似度度量使 用Kullback-Leibler差值表示,当当Kullback-Leibler差值低于一预定值时,表示所述路径足够相似。
15. 如权利要求12所述的方法,其特征在于,还包括对HMM拓朴结构中状态进行聚类,使所述HMM拓朴结构中的至少 一组状态共用参数,且对于所述一组共用参数的状态,在HMM拓朴结构 中只保存一套参数。
16. 如权利要求15所述的方法,其特征在于,聚类多个HMM拓朴结 构中的状态包括计算该HMM拓朴结构中每两个状态之间的状态相似度度量,当状态 相似度度量表示两个状态足够相似时,使该两个状态共用参数;其中,当两个以上的状态相互之间的状态相似度度量都足够相似时, 使该这些状态都共用参数。
17. 如权利要求16所述的方法,其特征在于, 状态相似度度量通过Kullback-Leibler差值表示,当Kullback-Leibler差值低于一预定值时,表示所述状态足够相似。
18. —种建立适用于识别手写东亚字符的HMM模型的系统,其特征在于,包括HMM拓朴结构构建装置,构建对应于手写东亚字符的HMM拓朴结构; 持续状态设置装置,在HMM拓朴结构中提供描述手写东亚字符持续 笔划的持续状态;转角状态设置装置,在HMM拓朴结构中提供描述手写东亚字符笔划 间转角的转角状态。
19. 如权利要求18所述的系统,其特征在于,HMM拓朴结构构建装置构建的HMM拓朴结构是左向右HMM拓朴结构,从一起始状态开始,至一终止状态结束;并且,HMM拓朴结构中的持续状态被设置为能够转移至下一状态或者 自转移,转角状态被设置为只能转移至下一状态,不能自转移;所述HMM拓朴结构中持续状态和转角状态被设置为依次交替存在。
20. 如权利要求18所述的系统,其特征在于,HMM拓朴结构构建装置构建多路径HMM拓朴结构,对应于手写东亚 字符;其中的每一条路径对应手写东亚字符的多种笔划顺序中的一个;或 者,其中的每一条路径对应手写东亚字符的多种手写风格中的一个。
21. 如权利要求20所述的系统,其特征在于,HMM拓朴结构构建装置构建的多路径HMM拓朴结构中的每一条路径 是左向右HMM拓朴结构,从一起始状态开始,至一终止状态结束;并且,其中持续状态可以转移至下一状态或者自转移,转角状态只能 转移至下一状态,不能自转移;所述HMM拓朴结构中持续状态和转角状态依次交替存在;以及其中所有路径起始于同一入口状态,至同一出口状态结束。
22. 如权利要求20所述的系统,其特征在于,还包括 平行状态提供装置,在HMM拓朴结构中提供平行状态,对应手写东亚字符中既可能是虛笔划,也可能是实笔划的部分。
23. 如权利要求20所述的系统,其特征在于,还包括 多空间概率分布(MSD)处理装置,对HMM拓朴结构应用多空间概率分布,对应手写东亚字符中既可能是虛笔划,也可能是实笔划的部分。
24. 如权利要求20所述的系统,其特征在于,还包括 状态聚类装置,对HMM拓朴结构中的状态进行聚类,使所述HMM拓朴结构中的至少一组状态共用参数,且对于所述一组共用参数的状态, 在HMM拓朴结构中只保存一套参数。
25. —种利用HMM模型识别手写东亚字符的系统,其特征在于,包括HMM拓朴结构构建装置,构建对应于手写东亚字符的多路径HMM拓 朴结构,其中的每一条路径对应手写东亚字符的多种笔划顺序中的 一个,或者,其中的每一条路径对应手写东亚字符的多种手写风格中的一个;持续状态设置装置,在HMM拓朴结构中设置描述手写东亚字符持续 笔划的持续状态;转角状态设置装置,在HMM拓朴结构中设置和描述手写东亚字符笔 划间转角的转角状态;其中,所述多路径HMM拓朴结构中的每一条路径是左向右HMM拓 朴结构,从一起始状态开始,至一终止状态结束;持续状态可以转移至下 一状态或者自转移,转角状态只能转移至下一状态,不能自转移;持续状 态和转角状态依次交替存在;并且所有路径起始于同一入口状态,至同一 出口状态结束;以及下列两个装置的其中之一平行状态提供装置,在HMM拓朴结构中提供平行状态,对应手写东 亚字符中既可能是虛笔划,也可能是实笔划的部分;多空间概率分布处理装置,对HMM拓朴结构应用多空间概率分布,对应手写东亚字符中既可能是虛笔划,也可能是实笔划的部分。
26. 如权利要求25所述的系统,其特征在于,HMM拓朴结构构建装置从手写东亚字符的训练数据中自动构建多路 径HMM拓朴结构;以及该HMM拓朴结构构建装置根据手写东亚字符的笔划顺序或者书写风 格,应用 一机器自学习的自动分类方法对所述训练数据进行分类。
27. 如权利要求26所述的系统,其特征在于,所述训练数据包括手写东亚字符笔迹样本,所述笔迹样本包括不同笔 划顺序或者不同手写风格的笔迹样本;该HMM拓朴结构构建装置包括,笔迹样本分段装置,对于每一个笔迹样本,按弧长将其分成数个分段, 将每个分段上的特征按顺序连接,从而得到该笔迹样本的一个特征;特征提取装置,对每一分段分别提取一特征;聚类装置,对上述分段和特征进行聚类,每一个聚类对应于一种笔划 顺序或者一种手写风格;HMM拓朴结构构建装置基于每一个聚类的数据确定对应于每一种笔 划顺序或者每一种手写风格的HMM拓朴结构中的一路径的拓朴和初始参 数。
28. 如权利要求27所述的系统,其特征在于,还包括 子序列方向直方图向量建立装置,其中,笔迹样本分段装置对于每一个笔迹样本,将实笔划和虚笔划相 连,并将实笔划和虛笔划相连后的弧长分成数段;每一个子段确定一量化的方向特征,每一个量化的方向特征对应一预 定角度范围的方向;该子序列方向直方图向量建立装置建立每一个分段上的形状特征为一 子序列方向直方图,每一个笔迹样本的特征为一子序列方向直方图向量。
29. 如权利要求25所述的系统,其特征在于,还包括 路径合并装置,对多路径HMM拓朴结构中的路径进行合并,以控制路径的数量。
30. 如权利要求29所述的系统,其特征在于,该路径合并装置 判断路径所对应的训练数据的数据量,删除对应的数据量小于一预定值的路径;计算多路径HMM拓朴结构中每两个路径之间的路径相似度度量,当 路径相似度度量表示两个路径足够相似时,合并该两个路径,其中,当两 个以上路径的路径相似度度量表示这些路径都足够相似时,合并这些路径。
31. 如权利要求30所述的系统,其特征在于,该路径合并装置路径 用Kullback-Leibler差值表示相似度度量,当Kullback-Leibler差值低于一 预定值时,表示所述路径足够相似。
32. 如权利要求29所述的系统,其特征在于,还包括 状态聚类装置,对HMM拓朴结构中状态进行聚类,使所述HMM拓朴结构中的至少一组状态共用参数,且对于所述一组共用参数的状态,在 HMM拓朴结构中只保存一套参数。
33. 如权利要求32所述的系统,其特征在于,状态聚类装置计算该HMM拓朴结构中每两个状态之间的状态相似度 度量,当状态相似度度量表示两个状态足够相似时,使该两个状态共用参 数;其中,当两个以上的状态相互之间的状态相似度度量都足够相似时, 使该这些状态都共用参数。
34. 如权利要求33所述的系统,其特征在于, 状态聚类装置通过Kullback-Leibler差值表示状态相似度度量,当Kullback-Leibler差值低于一预定值时,表示所述状态足够相似。
全文摘要
本发明针对手写东亚字符的特点提供了一种适用于对手写东亚字符进行识别的HMM模型的拓扑结构的设计方案,以及建立此拓扑结构的HMM模型的方法,充分考虑了手写东亚字符笔划多、笔划顺序多样、结构复杂、书写风格多样、笔划间连接不确定的特点,通过在HMM拓扑结构中引入转角状态、提供多路径、提供平行状态的手段来解决上述的问题,并且,通过聚类和合并的操作来减小数据量,降低运算的复杂程度。
文档编号G06K9/00GK101256624SQ20071008528
公开日2008年9月3日 申请日期2007年2月28日 优先权日2007年2月28日
发明者鹏 刘, 吴义坚, 宋謌评, 明 常, 张冬梅, 坚 王, 宇 邹, 石 韩, 磊 马 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1