字符处理方法和处理系统与流程

文档序号:12597322阅读:177来源:国知局
字符处理方法和处理系统与流程

本发明涉及文字字符处理技术领域,具体而言,涉及一种字符处理方法和一种字符处理系统。



背景技术:

中国是一个历史悠久的国家,历史文献是我们研究历史必不可少的一部分,随着计算机技术的不断发展,中文信息化处理的能力也越来越强,为了更好的研究和保存历史资源,我们必须要将现存的历史文献进行数字化。数字化的首要工作是对搜集和整理的所有字符进行制作并给其编码。搜集过程整理的成果基本都是图片,然后根据字符图片整理字符属性并制作字符,进而将制作的字符进行编码并统一形成字库,最后使用该字库来将相应文献实现数字化。

目前的常用处理方式是先按照图片一起制作字符并编码形成字库,然后将新版本字库和老版本字库中的所有字符的图形进行比对,重复字符去掉。这种处理方式不仅增加了字符制作的工作量,对于已有字形出现了重复工作,造成人力资源浪费的同时降低了字符制作的效率。

因此,如何快速的制作补字,并可以有效地针对补字字符进行去重工作,以大大地缩短补字周期,进而提高补字制作效率,成为亟待解决的技术问题。



技术实现要素:

本发明正是基于上述问题,提出了一种新的字符处理的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

有鉴于此,本发明的一方面提出了一种新的字符处理方法,包括:获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;获取补字字符的第二特征信息;将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;根据匹配结果获取补字参考字符集;根据所述补字字符与补字参考字符集确定是否进行补字处理。

在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

在上述技术方案中,优选地,根据所述匹配结果获取所述补字参考字符集,具体包括:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。

在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。

在该技术方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提 保障。

在上述技术方案中,优选地,根据所述匹配结果获取所述补字相似字符集,具体包括:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。

在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

在上述技术方案中,优选地,根据所述补字字符与所述补字参考字符集确定是否进行补字处理,具体包括:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。

在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

根据本发明的另一方面,还提出了一种字符处理系统,包括:第一获取单元,用于获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;第二获取单元,用于获取补字字符的第二特征信息;匹配单元, 用于将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;第三获取单元,用于根据匹配结果获取补字参考字符集;确定单元,用于根据所述补字字符与补字参考字符集确定是否进行补字处理。

在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第三获取单元具体用于:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。

在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。

在该技术方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。

在上述技术方案中,优选地,所述第三获取单元具体还用于:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所 述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。

在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

在上述技术方案中,优选地,所述确定单元具体用于:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则确定不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。

在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

通过本发明的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

附图说明

图1示出了根据本发明的实施例的字符处理方法的流程示意图;

图2示出了根据本发明的实施例的字符处理系统的示意框图;

图3示出了待补字字符的字形示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的字符处理方法的流程示意图。

如图1所示,根据本发明的实施例的字符处理方法,包括:步骤102,获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;步骤104,获取补字字符的第二特征信息;步骤106,将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;步骤108,根据匹配结果获取补字参考字符集;步骤110,根据所述补字字符与补字参考字符集确定是否进行补字处理。

在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

在上述技术方案中,优选地,所述步骤108具体包括:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。

在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。

在该技术方案中,第一特征信息和第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。

在上述技术方案中,优选地,根据所述匹配结果获取所述补字相似字符集,具体包括:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。

在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

在上述技术方案中,优选地,所述步骤110具体包括:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则不进行补字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。

在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

图2示出了根据本发明的实施例的字符处理系统的示意框图。

如图2所示,根据本发明的实施例的字符处理系统200,包括:第一获取单元202,用于获取基础字符库中的所有字符的第一特征信息,以形成特征信息库;第二获取单元204,用于获取补字字符的第二特征信息;匹配单元206,用于将所述第二特征信息与所述特征信息库中的所有所述第一特征信息进行匹配;第三获取单元208,用于根据匹配结果获取补字参考字符集;确定单元210,用于根据所述补字字符与补字参考字符集确定是否进行补字处理。

在该技术方案中,根据每一个汉字虽然都有差异,但是其组成汉字的子部件都具有相似性的这一特点建立特征信息库,其中基础字符库中所有字符的特征信息为第一特征信息,待补字字符的特征信息为第二特征信息。通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,根据匹配结果获取补字参考字符集,并根据待补字字符与补字参考字符集确定是否进行补字处理,其中,补字参考字符集可能包括一个或者多个字符,如此,可以有效的针对补字字符进行去重工作,同时可以利用获取的参考字符快速的制作补字,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第三获取单元208具体用于:根据所述匹配结果获取补字相似字符集;根据所述补字相似字符集获取所述补字参考字符集。

在该技术方案中,通过将获取的第二特征信息与获取的基础字符库中所有字符的第一特征信息进行匹配,从匹配结果中取补字相似字符集,进而获取补字参考字符集,从而确定是否进行补字,避免了对已出现字符重复工作,有效的缩短了补字周期,从而提高了补字制作效率。

在上述技术方案中,优选地,所述第一特征信息和所述第二特征信息包括:字符IDS属性以及根据所述IDS属性生成的字符笔顺信息;其中,所述字符IDS属性包括:字符结构信息和字符构成子部件信息。

在该技术方案中,第一特征信息和所述第二特征信息均至少包括但不限于:字符IDS(即表意文字描述序列)属性以及根据IDS属性生成的字符笔顺信息,其中,字符IDS属性至少包括但不限于:字符结构信息和字符构成子部件信息,如此,通过获取待补字字符和基础库中所有字符的特征信息,为提高补字制作效率以及实现字符的数字化管理提供了必要的前提保障。

在上述技术方案中,优选地,所述第三获取单元208具体还用于:在所述特征信息库中获取与所述补字字符的所述字符结构信息相同的字符,以形成第一相似字符集;在所述第一相似字符集中获取包含所述补字字符的所述字符构成子部件信息的字符,以形成第二相似字符集;判断所述第二相似字符集中是否存在与所述补字字符的所述笔顺信息相近的字符;当判定为是时,将所述第二相似字符集中的与所述补字字符的所述笔顺信息相近的字符确定为所述补字相似字符集;否则,将所述第二相似字符集确定为所述补字相似字符集。

在该技术方案中,首先通过对待补字字符的IDS属性及基础库中所有字符的IDS属性进行匹配,形成第二相似字符集,然后判断第二相似字符集中是否存在与补字字符的笔顺信息相近的字符,在判定第二相似字符集中存在与补字字符的笔顺信息相近的字符时,将笔顺信息相近的字符确认为补字相似字符集,否则,直接将第二相似字符集确认为补字相似字符集,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

在上述技术方案中,优选地,所述确定单元210具体用于:当判定所述补字参考字符集中存在与所述补字字符相同的字符时,则确定不进行补 字处理;否则,在所述补字参考字符集中确定目标字符以进行补字处理,以获取所述补字字符。

在该技术方案中,通过将补字字符与补字参考字符集中的字符进行比较,若发现与补字字符完全一致的参考字符,则可以省去制作补字的流程,若补字参考字符集中的参考字符与补字字符笔形相差较小,则可以进行补字制作,通过有效地利用与待补字字符相似字形的参考字符可以快速地制作补字,同时可以及时发现补字相似字符集中与补字字符完全一致的字符,避免了重复工作,进而节约了人力,降低了人工出现的错误率。

图3示出了待补字字符的字形示意图。

下面结合具体实施例对本发明的技术方案进行说明,具体包含以下步骤:

第一步,选定已有成品字库,作为基础库。整理基础库中所有字符特征信息,形成特征信息库。特征信息库的内容包括基础库中所有字符的IDS属性和笔顺信息。

IDS属性包括字符的结构信息和字符部件信息。字符结构信息共12个描述符号,分别是分别表示左右结构、上下结构、左中右结构、上中下结构、内包含、下包含、上包含、右包含、右下包含、左下包含等,比如,如图3所示的待补字字符的结构信息均为:左右结构。

笔顺信息是组成字符所有笔画的数字序列。笔顺信息符合汉字笔顺规则,将汉字的5种笔画(横、竖、撇、捺、折)分别用1,2,3,4,5来分别表示,其中提为横,亅为竖,丶为捺,竖提为折。

基础字符特征信息库数据示例如下表所示。

第二步,整理待补字字符(如图3所示)的特征信息,即补字IDS属性和笔顺信息。

待补字字符的特征信息数据示例如下表所示。

第三步:利用步骤一完成的特征信息库对步骤二整理的补字特征信息进行查找比对,形成补字相似字符集。

比对过程中,先比对特征信息中的IDS属性,找到相同结构的字符,形成相似字符集Ⅰ;然后从相似字符集Ⅰ中再比对查找包含补字字符部件的字符,将与补字字符子部件相同字符筛选出来,形成相似字符集Ⅱ;最后从字符集Ⅱ中,通过笔顺信息比对,将与补字字符相似笔顺信息的字符筛选出来,形成补字相似字符集。

第四步,通过步骤三形成的相似字符集,结合原始补字需求从中选取补字参考字符集,可能是一个或者多个字符。

第五步,结合步骤四挑选的补字参考字符集,利用字体开发工具(如Font lab),完成补字工作。

通过上述步骤,这样可以大大的缩短新字库检验周期,节约人力,降低了人工出现的错误率,提高了新字库质量,进而有效的提高了字库的开发效率。

以上结合附图详细说明了本发明的技术方案,本发明提出了一种新的字符处理的技术方案,可以利用从基础库中获取与待补字字符相似字形的参考字符快速的制作补字,同时有效的针对补字字符进行去重工作,这样可以大大的缩短补字周期,同时保证了补字字符与基础库字符笔形风格的一致性,节约人力,从而提高了补字制作效率。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1