一种文字域类型识别方法和文字域类型识别系统的制作方法

文档序号:9327462阅读:387来源:国知局
一种文字域类型识别方法和文字域类型识别系统的制作方法
【技术领域】
[0001]本发明涉及文字域识别领域,具体而言涉及一种文字域类型识别方法和文字域类型识别系统。
【背景技术】
[0002]当今社会,各种各样的文档和人们的工作生活是分不开的。一般较为常见的文档上有许多文字域,如身份证上会有姓名,出生日期等,或者合同上会有标题、条款和签名。在获取这些文字域的文字信息后,若有一种高效的方法可以将这些文字信息各属于哪一类文字域(姓名、出生日期、标题...)区分出来,便可以得到一些具体的用途。如可以反过来校验获取这些文字信息的OCR (Optical Character Recognit1n,光学字符识别)算法,或者将散乱的文字内容,通过文字域的识别,再次组合成一个个完整的证件。
[0003]经过调研发现,现在市面上具有类似功能的系统种类并不很多,并且其中绝大部分的识别方法都是很简陋的且难以推广的,比如针对身份证,就单纯的设置一些规则来识另IJ,出现了五十六个民族里面的字就判别为“民族”域,出现了百家姓就判别为“姓名”域,出现了数字就判别为“出生日期”域等。然而,这些识别方法是非常容易出错的,如对于“张家口 ”就很难将其正确识别为“地址”域,而会错误识别成为“姓名”域。此外,当文本信息有一些无规则的扰动(比如录入错误,或者是识别的过程出现问题)时,以上述方法将不再有效。

【发明内容】

[0004]针对现有技术的不足,本发明提出一种文字域类型识别方法和文字域类型识别系统,可以显著提升文字域类型识别的精确度和性能,同时具有速度快和相当的灵活性。
[0005]本发明的一个实施例提供一种文字域类型识别方法,其特征在于,所述方法包括:步骤SlOl:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域类型;以及步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。
[0006]示例性地,所述神经网络是长短期记忆人工神经网络LSTM。
[0007]示例性地,所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
[0008]示例性地,在所述步骤S102之后还包括步骤S103:读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。
[0009]示例性地,在步骤S102中,在确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
[0010]本发明的另一实施例提供一种文字域类型识别系统,其特征在于,所述系统包括:文字域识别模块,用于载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器;以及通过所述语言模型确定新输入的文字数据的文字域类型。
[0011]示例性地,所述神经网络是长短期记忆人工神经网络LSTM。
[0012]示例性地,所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
[0013]示例性地,所述系统还包括文字域修正模块,用于读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。
[0014]示例性地,在所述文字域识别模块确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
[0015]本发明的文字域识别方法,由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算,因而可以保证更高的文字域识别精确度和最优的文字域识别性能。本发明的文字域识别系统,同样具有上述优点。
【附图说明】
[0016]本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
[0017]附图中:
[0018]图1为本发明实施例一的文字域类型识别方法的一种流程图;以及
[0019]图2为本发明实施例二的文字域类型识别方法的一种流程图。
【具体实施方式】
[0020]在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
[0021]应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。在附图中,为了清楚,层和区的尺寸以及相对尺寸可能被夸大。自始至终相同附图标记表示相同的元件。
[0022]在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
[0023]为了彻底理解本发明,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
[0024]本发明的一个实施例提供一种文字域识别方法。该方法可以显著提高文字域识别的精确度以及文字域识别性能。
[0025]实施例一
[0026]下面,参照图1来具体描述本发明的一个实施例的一种文字域类型识别方法。其中,图1为本发明实施例一的文字域类型识别方法的一种流程图。
[0027]本发明实施例的作者分析方法,包括如下步骤:
[0028]步骤SlOl:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器。
[0029]示例性地,语言模型的训练可以包括如下步骤:语言模型学习模块读入大量带标注的文字信息数据,将其处理成为便于处理的编码格式;通过神经网络算法训练出一个相应的语言模型(即文字域分类器)并存储。语言模型的训练可以通过语言模型学习模块实现。
[0030]步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。示例性地,本步骤包括:文字域识别模块载入相应的训练好的语言模型;文字域识别模块将编码好的文字信息数据一批批的输入给语言模型,并在语言模型的输出端得到这些文字信息的分类结果(即文字域类型),返回输出给用户。示例性地,本步骤还可以包括:文字域识别模块在读入待分类的文字信息数据后,将其转换成为便于处理的编码格式,以便于所述语言模型的处理。
[0031 ] 示例性地,所述神经网络是长短期记忆人工神经网络LSTM (Long Short TermMemory)。
[0032]示例性地,所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
[0033]示例性地,在步骤SlOl中,文字域所属类型的属性是预先定义的。
[0034]本发明实施例的方法,由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算,因而可以保证更高的文字域识别精确度和最优的文字域识别性能。进一步地,由于引入了 LSTM神经网络,因而可以进一步保证更高的文字域识别精确度和最优的文字域识别性能。本方法优势不止在于一次学习完成之后的每一次识别的速度都很快,还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性,基于此训练出的语言模型便具有判别出相应文字域的能力。
[0035]该实施例给出了一个不含有文字域修正模块的基于语言模型的文本文字域识别系统的简易实施例。该实施例主要包括语言模型学习模块和文字域识别模块两部分。语言模型学习模块从指定数据文件中读入大量带文字域信息标注的文字数据,并通过LSTM训练学习出一个语言模型,保存在指定文件目录中。文字域识别模块则可以在读入一个语言模型之后,为一些文字信息提供相应的文字域分类(或者无法识别将其分类为“未知” ±或)。
[0036]实施例二
[0037]下面,参照图2来具体描述本发明的一个实施例的一种文字域类型识别方法。其中,图2为本发明实施例二的文字域类型识别方法的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1