一种高效的手写样本收集的方法和装置的制作方法

文档序号:6335201阅读:218来源:国知局
专利名称:一种高效的手写样本收集的方法和装置的制作方法
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种高效的手写样本收集的方 法和装置。
背景技术
汉字字符具有以下特性1.经常使用的汉子仅占汉字字符集的很少部分,根据 国家权威语料统计汉字频度表显示,常用的3500个汉字的使用频率占到99.82%,其他汉 字仅占有0.18%,如图5所示。2.绝大部分汉字是合体字,由汉字的基础部件按照一定的规律组合而成,如左 右结构,上下结构,半包围结构,全包围结构等。在手写识别核心的研发当中,样本起着举足轻重的作用,样本库的好坏直接影 响着最后的识别核心识别效果。但是由于中文汉字非常多,按照国家标准GB2312-80收 录汉字6763个;国家标准GB18030-2000收录汉字27533个;国家标准GB18030-2005 收录汉字70244个。要采集这样一个大的字符集的手写样本,其工作量是非常巨大的, 采集人群要分布在不同的区域,不同的年龄段,不同的教育水平,也一个非常庞大和复 杂的系统工程。目前大部分的手写识别引擎的识别字符集主要集中在GB2312和繁体的5401个 字符,所以样本采集主要集中在这些字符上,工作量会小很多。一旦要开发如我公司的 逍遥笔这类大字符集(70244个汉字)的手写核心的时候,样本库的收集就是一个非常棘 手的问题。

发明内容
本发明的目的在于针对现有技术的不足而提供一种能够有效地提高手写样本采 集效率和样本多样性,从而降低样本采集成本的高效的手写样本收集的方法和装置。本发明的目的通过以下技术措施实现一种高效的手写样本收集的方法,包 括
A确定汉字的高频汉字集和确定汉字基础部件集; B对每个高频汉字和每个基础部件进行样本采样;
C首先确定低频汉字集,然后对低频汉字进行分解,标注低频汉字的分解信息; D按照采集的基础部件的样本组合低频汉字,得到低频汉字的样本集。其中,确定低频汉字集具体方法是除去步骤A中确定的高频汉字集中的高频汉 字,由剩下的使用频率低的汉字组成低频汉字集;
对低频汉字进行分解具体分解方法是在MxN的标注
平面下分解每个低频汉字并且标注每个基础部件的位置矩形;
标注低频汉字的分解信息具体方法是设低频汉字Z由《个基础部件组成,编号为I'的基础部件在Mx JV的标注平面的位置是净fUz彭,i, r表示在标注平面上横轴上 的位置坐标,L 6表示在标注平面上纵轴上的位置坐标,坐标flAG切构成一个位置矩 形。其中,按照采集的基础部件的样本组合低频汉字,得到低频汉字的样本集具 体方法为按照汉字分解的信息,组合采集的基础部件,将构成低频汉字的不同基础 部件分别线性映射到该低频汉字分解时标记的位置区域内,得到该低频汉字的所有组合
样本,设低频汉字z由 个基础部件构成,及3,......,Rm ,设构成低频汉字的基础部件中的一个基础部件采集的样本数为,则低频汉字2的组合样 本有先1*夫2*电3---**^种,随机抽取其中的I种样本作为低频汉字z的样本,
Y <* t * b*
A — "52 ft53 “ “ “ "'sm。其中,步骤B中的样本采样具体为高频汉字和基础部件进行采样,采样按照样 本使用时实际分布情况采样,样本使用时实际分布情况包括地域、年龄、学历和技术领 域因素。其中,步骤C前,还包括对高频汉字和基础部件采样的样本进行后期处理,去 除错误样本。其中,确定汉字的高频汉字集的具体方法是根据汉字使用频率,频率高的汉 字组成高频汉字集;
确定汉字基础部件集的具体方法是对汉字进行分解,汉字分解后对汉字进行分 析,确定汉字基础部件及基础部件数,对每个基础部件编号。一种高效的手写样本收集的装置,包括确定高频汉字集和汉字基础部件集装 置用于确定高频汉字集和汉字基础部件集;
采样装置,用于对每个高频汉字和每个基础部件进行采样;
分解低频汉字装置,首先确定低频汉字集,然后对低频汉字进行分解,标注低频汉 字的分解信息;
自动合成低频汉字手写样本装置用于按照采集的基础部件的样本组合低频汉字,得 到低频汉字的样本集。其中,确定高频汉字集和汉字基础部件集装置根据汉字使用频率,频率高的前 汉字确定为高频汉字;
同时确定高频汉字集和汉字基础部件集装置对汉字进行分解,并且分析,确定汉字 基础部件及基础部件数,并对每个基础部件编号;
分解低频汉字装置确定低频汉字集具体方法是除去确定高频汉字集和汉字基础部 件集装置中确定的高频汉字剩下的使用频率低的汉字为低频汉字;分解低频汉字装置对 低频汉字进行分解具体分解方法是在Mx JV的标注平面下分解每个低频汉字并且标注 每个基础部件的位置矩形;
分解低频汉字装置标注低频汉字的分解信息具体方法是设低频汉字由《个基础部件组成,编号为/的基础部件在Mxl的标注平面的位置是夺表示在 标注平面上横轴上的位置坐标,f表示在标注平面上纵轴上的位置坐标,坐标fl,t,r,切 构成一个位置矩形。其中,组合低频汉字,得到低频汉字的样本集具体方法是按照汉字分解的信 息,组合采集的基础部件,将构成低频汉字的不同基础部件分别线性映射到该低频汉字 分解时标记的位置区域内,得到该汉字的所有组合样本,设低频汉字由《个基础部件
W}&R:,R2,R3,......,Rm,设构成低频汉字2的基础部件中的一个基础部件&采
集的样本数为务@,则低频汉字z的组合样本有种,随机抽取
其中的I种样本作为低频汉字z的样本,X<ksl*ks2 *k:3 *k沉。其中,采样装置中用于对高频汉字和基础部件进行采样是按照样本使用时实际 分布情况采样,使用时实际分布情况包括地域、年龄、学历和技术领域因素,采样装置 还进一步对高频汉字和基础部件采样的样本进行后期处理,去除错误样本。本技术方案如下首先确定汉字的高频汉字集和确定汉字基础部件集,然后对 每个高频汉字和每个基础部件进行样本采样,进一步确定低频汉字集,对低频汉字进行 分解,标注低频汉字的分解信息,最后按照采集的基础部件的样本组合低频汉字,得到 低频汉字的样本集。本发明能够有效地提高手写样本采集效率和样本多样性,降低样本 采集成本,既可以用于联机手写样本采集,也可以用户于脱机手写样本采。


图1为本发明的实施1的流程图2为本发明的汉字基础部件的前25个及其编号和例字; 图3为本发明的低频汉字“ftg”的分解结果; 图4为本发明的低频汉字组合过程; 图5为本发明的汉字字符数覆盖率表; 图6为本发明的实施4的示意图。
具体实施例方式下面结合附图对本发明作进一步的说明。实施例1 一种高效的手写样本收集的方法,包括如下步骤如图1所示, 步骤101 确定汉字的高频汉字集和确定汉字基础部件集。具体方法是,根据搜狗实验室开源语料统计汉字的使用频率,来确定高频汉字 集,频率高的前3500个汉字组成高频汉字集。由笔画组成的具有组配汉字功能的构字单位称为汉字部件,最小的不能在分解 的部件称为基础部件,根据《信息处理用GB13000.1字符集汉字部件规范》,对其中 所有的汉字进行分析,统计归纳出所有的基础部件,并对基础部件进行编号,如图2所 示,《信息处理用GB13000.1字符集汉字部件规范》基础部件为560个。
由于汉字部件中有一部分是可以独立成字的成字部件,所以部分汉字部件字符 跟高频字符有重复,这里不做特殊处理,作为不同的字符对待。步骤102 对每个高频汉字和每个基础部件进行样本采样,具体就是按照步骤 101确定汉字的高频汉字集和汉字基础部件集对3500个高频汉字和560个基础部件进行人 工采样。步骤103:首先确定低频汉字集,除去步骤A中确定的高频汉字,剩下的使用频 率低的汉字为低频汉字,对低频汉字进行分解,标注低频汉字的分解信息,确定低频汉 字集,使用频率低的汉字为低频汉字,根据《GF 0014-2009现代常用字部件及部件名称 规范》汉字分解原则和规则,对低频汉字进行分解,除去101步骤中确定的高频汉字剩 下的使用频率低的汉字为低频汉字,对低频汉字进行分解,在255*255的标注平面下分 解每个低频汉字并且标注每个基础部件的位置矩形;确定低频汉字分解信息,设低频汉 字的分解信息为由《个基础部件组成,编号为〖的基础部件在255*255的标注平面的
位置是I、r表示在标注平面上横轴上的位置坐标,f、£)表示在标注平面上纵 轴上的位置坐标,坐标切构成一个位置矩形。这种分解每一个汉字只需要分解一 次,而且跟采集策略没有任何关系,可以完全独立。如图3所示,低频汉字“儲”在255*255的标注平面下分解时部件“〈〈〈” 的编号为 p = ■,/ = 82,f = 10,r = 248,厶=128 ’ 部件“山”的编'.; p = 10,
i= 86 J = 130, = 248』=250’图3中A表示部件“〈〈〈”,B表示部件“山”。步骤104:按照采集的基础部件的样本组合低频汉字,得到低频汉字的样本 集,组合低频汉字,得到低频汉字的样本集具体方法为按照汉字分解的信息,组合 采集的基础部件,将构成低频汉字的不同基础部件分别线性映射到该低频汉字分解时 标记的位置区域内,得到该汉字的所有组合样本,设低频汉字由m个基础部件构成
R”Ii2為,......,设构成低频汉字〗的基础部件中的一个基础部件&采集的
样本数为,则低频汉字z的组合样本有*先2*电3--*‘种,随机抽取其中
的X种样本作为低频汉字z的样本,x^ksi*ks2 *Ky ‘。还是以“優”为例,其编码为U344e,其中部件"i,,有30样本,“〈〈〈”有 29个样本,“山”有30个样本,按照排列组合方式,有30x29x30 = 26100种组合方 式,但实际不需要这么多的低频汉字的样本,所以从其中随机选择设定套数的组合作为 该汉字的样本就可以了,本实例从26100种组合方式中选择300种组合方式作为“fi” 的样本,如图4是“淄”的组合过程。整个低频汉字集中所有字符样本的合成过程由计算机自动完成,无需人工参 与,产生低频汉字字符样本比较丰富。实施例2,本实施例与实施例1不同之处在于,步骤102中对高频汉字和基础部 件进行人工采样,人工采样按照样本使用时实际分布情况采样,样本使用时实际分布情况包括地域、年龄、学历和样本分布的技术领域因素来确定。实施例3,本实施例与实施例1不同之处在于,步骤102之后,步骤103之前, 进一步对高频汉字和基础部件采样的样本进行后期处理,去除错误样本,选取相对正规 的方式撰写的手写样本。这里值得说明的是,对于高频汉字集可以根据搜狗实验室开源语料统计汉字的 使用频率来确定,也可以通过自己建立语料库获得汉字使用频率来确定高频汉字集,所 统计获得的汉字使用频率,取频率高的前3500个汉字为高频汉字,也可以取前3755个汉 字为高频汉字,这里高频汉字的数目可以根据实际汉字使用情况,根据不同时间,不同 地域,进行调整,标注平面可以是255*255,也可以是其他大小的平面可以根据实际情况 调整。根据《信息处理用GB13000.1字符集汉字部件规范》对所有汉字进行分析,统 计归纳出所有的基础部件,根据《GF 0014-2009现代常用字部件及部件名称规范》汉字 分解原则和规则对低频汉字进行分解,这里可以根据其他合适的《语言文字规范》来对 汉字进行分析,统计归纳出所有的基础部件,对低频汉字进行分解,因为《语言文字规 范》种类和版本有多种,这里不再赘述具体的标准名称。实施例4,如图6所示,一种高效的手写样本收集的装置,包括确定高频汉字 集和汉字基础部件集装置201,根据搜狗实验室开源语料统计汉字的使用频率,来确定高 频汉字集,频率高的前3500个汉字组成高频汉字集。由笔画组成的具有组配汉字功能的构字单位称为汉字部件,最小的不能在分解 的部件称为基础部件,根据《信息处理用GB13000.1字符集汉字部件规范》,对其中 所有的汉字进行分析,统计归纳出所有的基础部件,并对基础部件进行编号,如图2所 示,《信息处理用GB13000.1字符集汉字部件规范》基础部件为560个。由于汉字部件中有一部分是可以独立成字的成字部件,所以有可能跟高频字符 有重复,这里不做特殊处理,作为不同的字符对待。采样装置202,按照确定汉字的高频汉字集和汉字基础部件集装置所确定的高频 汉字集和汉字基础部件集,对3500个高频汉字和560个基础部件进行人工采样;
分解低频汉字装置203,首先确定低频汉字集,然后对低频汉字进行分解,标注低 频汉字的分解信息;使用频率低的汉字为低频汉字,根据《GF 0014-2009现代常用字部 件及部件名称规范》汉字分解原则和规则,除去确定高频汉字集和汉字基础部件集装置 中确定的高频汉字剩下的使用频率低的汉字为低频汉字,分解低频汉字集装置在255*255 的标注平面下分解每个低频汉字,分解后标注低频汉字的分解信息,也就是标注组成该 低频汉字的每个基础部件的位置矩形;具体的低频汉字进行分解,标注低频汉字的分解 信息的方法是,确定低频汉字分解信息,设低频汉字Z由ra个基础部件组成,编号为-的基础部件在255*255的标注平面的位置是夺fltr,衫,r表示在标注平面上横轴上的
位置坐标,表示在标注平面上纵轴上的位置坐标,坐标切构成一个位置矩形; 这种分解每一个汉字只需要分解一次,而且跟采集策略没有任何关系,可以完全独立。如图3所示,低频汉字“fl”在255*255的标注平面下分解时部件“〈〈〈”
的编号为= , / = 82,^ = 10^ = 248,^ = 128 ’部件“山”的编号尸=70,
8/-86,f = 130,r-248,£'-250,图 3 中 A 表示部件 “〈〈〈,,,B 表示部件“山,,。自动合成低频汉字手写样本装置204用于组合低频汉字,其组合低频汉字具 体步骤为按照汉字分解的信息,组合采集的基础部件,将构成低频汉字的不同基础 部件分别线性映射到该低频汉字分解时标记的位置区域内,得到该汉字的所有组合样
本,设低频汉字 由个基础部件构成i^piipi^,......,Rm ,设构成低频汉字
z的基础部件中的一个基础部件&采集的样本数为,则低频汉字2的组合样 本有种,随机抽取其中的I种样本作为低频汉字z的样本,
y ^ lr 4 h- 4 lr 4 lr
^KS2 KS3'" Ksm ° 还是以“馏”为例,其编码为U344e,其中部件1,,有30样本,“〈〈〈”有 29个样本本,“山”有30个样本,按照排列组合方式,有30x29x30 = 26100种组合 方式,但是实际不需要这么多的低频样本,所以我们从其中随机选择设定套数的组合作 为该汉字的样本就可以了,本实例从26100种组合方式中选择300种组合方式作为“ffj ”的样本,如图4是“f〗”的组合过程。整个低频汉字集中所有字符样本的合成过程由计算机自动完成,无需人工参 与,产生低频汉字字符样本比较丰富。其中,采样装置202中,对高频汉字和基础部件进行人工采样时按照样本使用 时实际分布情况采样,实际分布情况考虑地域、年龄、学历和技术领域等因素。其中,采样装置202,还进一步对高频汉字和基础部件采样的样本进行后期处 理,去除错误样本。最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明 保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人 员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方 案的实质和范围。
9
权利要求
1.一种高效的手写样本收集的方法,其特征在于,包括 A确定汉字的高频汉字集和确定汉字基础部件集;B对每个高频汉字和每个基础部件进行样本采样;C首先确定低频汉字集,然后对低频汉字进行分解,标注低频汉字的分解信息; D按照采集的基础部件的样本组合低频汉字,得到低频汉字的样本集。
2.根据权利要求1所述的一种高效的手写样本收集的方法,其特征在于,确定低频汉 字集的具体方法是,除去步骤A中确定的高频汉字,剩下的使用频率低的汉字为低频汉 字;对低频汉字进行分解具体分解方法是在MxN的标注平面下分解每个低频汉字并且标注每个基础部件的位置矩形;标注低频汉字的分解信息具体方法是设低频汉字Z由m个基础部件组成,编号为歹的基础部件在Ai χ JV的标注平面的位置是L r表示在标注平面上横轴上 的位置坐标
3.根据权利要求2所述的一种高效的手写样本收集的方法,其特征在于,按照采集 的基础部件的样本组合低频汉字,得到低频汉字的样本集具体方法为按照汉字分解的 信息,组合采集的基础部件,将构成低频汉字的不同基础部件分别线性映射到该低频汉 字分解时标记的位置区域内,得到该低频汉字的所有组合样本,设低频汉字Z由m个基础部件构成
4.根据权利要求3所述的一种高效的手写样本收集的方法,其特征在于,步骤B中的 样本采样具体为按照样本使用时实际分布情况采样,样本使用时实际分布情况包括地 域、年龄、学历和技术领域因素。
5.根据权利要求4所述的一种高效的手写样本收集的方法,其特征在于,步骤C前, 还包括对高频汉字和基础部件采样的样本进行后期处理,去除错误样本。
6.根据权利要求1-5任意一项所述的一种高效的手写样本收集的方法,其特征在于, 确定汉字的高频汉字集的具体方法是根据汉字使用频率,频率高的汉字组成高频汉字 集;确定汉字基础部件集的具体方法是对汉字进行分解,汉字分解后对汉字进行分 析,确定汉字基础部件及基础部件数,对每个基础部件编号。
7.—种高效的手写样本收集的装置,其特征在于,包括确定高频汉字集和汉字基础部件集装置,用于确定高频汉字集和汉字基础部件集; 采样装置,用于对每个高频汉字和每个基础部件进行采样;分解低频汉字装置,首先确定低频汉字集,然后对低频汉字进行分解,标注低频汉字的分解信息;自动合成低频汉字手写样本装置,用于按照采集的基础部件的样本组合低频汉字, 得到低频汉字的样本集。
8.根据权利要求7所述的一种高效的手写样本收集装置,其特征在于,确定高频汉字 集和汉字基础部件集装置根据汉字使用频率,频率高的前汉字确定为高频汉字;同时确定高频汉字集和汉字基础部件集装置对汉字进行分解,并且分析,确定汉字 基础部件及基础部件数,并对每个基础部件编号;分解低频汉字装置确定低频汉字集具体方法是除去确定高频汉字集和汉字基础部 件集装置中确定的高频汉字剩下的使用频率低的汉字为低频汉字;分解低频汉字装置对低频汉字进行分解具体分解方法是在M X JV的标注平面下分 解每个低频汉字并且标注每个基础部件的位置矩形;分解低频汉字装置标注低频汉字的分解信息具体方法是设低频汉字Z由《个基础 部件组成,编号为P的基础部件在JkiXi的标注平面的位置是Lr表示在 标注平面上横轴上的位置坐标, 、 表示在标注平面上纵轴上的位置坐标,坐标fl,i,r,匆 构成一个位置矩形。
9.根据权利要求8所述的一种高效的手写样本收集装置,其特征在于,组合低 频汉字,得到低频汉字的样本集具体方法是按照汉字分解的信息,组合采集的 基础部件,将构成低频汉字的不同基础部件分别线性映射到该低频汉字分解时标记 的位置区域内,得到该汉字的所有组合样本,设低频汉字Z由W个基础部件构成R11R2^R3,......,Rm,设构成低频汉字丨的基础部件中的一个基础部件&采集的样本数为Arsp,则每个低频汉字2的组合样本有Jtd *Jts2 =^Ab--IA3w种,随机抽取其中的I种样本作为低频汉字z的样本,X<ksl*ks2*k·。
10.根据权利要求7-9任意一项所述的一种高效的手写样本收集装置,其特征在于, 采样装置中用于对高频汉字和基础部件进行采样是按照样本使用时实际分布情况采样, 使用时实际分布情况包括地域、年龄、学历和技术领域因素,采样装置还进一步对高频 汉字和基础部件采样的样本进行后期处理,去除错误样本。
全文摘要
本发明涉及计算机数据处理技术领域,尤其涉及一种高效的手写样本收集的方法和装置,主要包括确定高频汉字和基础部件,采集高频汉字和基础部件样本,按照基础部件分解低频汉字,按照分解结果合成低频汉字样本四个部分。本发明能够有效地提高手写样本采集效率和样本多样性,降低样本采集成本,而且既可以用于联机手写样本采集,也可以用于脱机手写样本采集。
文档编号G06F17/20GK102023964SQ201010531668
公开日2011年4月20日 申请日期2010年11月4日 优先权日2010年11月4日
发明者朱军民, 邓超 申请人:广东开心信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1