一种文字域类型识别方法和文字域类型识别系统的制作方法_2

文档序号：9327462阅读：来源：国知局

流程图。
[0038]本发明实施例的文字域类型识别方法，包括如下步骤:步骤SlOl和S102与实施例一相同，在所述步骤S102之后还包括步骤S103:读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。示例性地，文字域修正模块读入被分好类的文字信息及其分类，将其处理成为便于处理的编码格式。示例性地，文字域修正模块载入相应的训练好的语言模型。示例性地，文字域修正模块将编码好的文字信息数据一批批输给语言模型，并在语言模型的输出端得到这些文字信息的每个字词，在当前分类结果下的置信程度，并根据一些参数决定是否修改与如何修改。示例性地，该步骤还包括将修改后的文字信息返回给用户。
[0039]该实施例给出了一个包含文字域修正模块的基于语言模型的文本文字域识别系统的完整实施例。该实施例在实施例一的基础上增加了文字域修正模块。该模块通过根据一个指定的语言模型，将输入的已经按照文字域分好类的文字信息中可能出现的错误(漏字、错字、多字等)排除。
[0040]本发明的另一实施例提供一种文字域类型识别系统，该文字域类型识别系统，其特征在于，所述系统包括:文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到；以及通过所述语言模型计算新输入的文字数据为特定类型的概率。其中，所述语言模块可以为通过语言模型学习模块训练得到。[0041 ] 示例性地，所述神经网络是长短期记忆人工神经网络LSTM。
[0042]示例性地，所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
[0043]示例性地，所述系统还包括文字域修正模块，用于读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。
[0044]示例性地，在所述文字域识别模块中，文字域所属类型的属性是预先定义的。
[0045]在本发明各实施例的文字域识别方法中，可以不包括语言模型的训练步骤，而采用预先训练好的语言模型。在本发明各实施例的文字域类型识别系统中，也可以不包括语言模型学习模块，而是采用预先训练好的语言模型。
[0046]综上所述，为了能够更好的进行文本文字域识别，本发明提供了一种基于语言模型的文本文字域识别与分类系统。该系统包括一个语言模型学习模块、一个文字域识别模块与一个文字域修正模块。语言模型学习模块针对大量的、已标注的某一类文本文字数据(如某一类合同，或身份证、房产证)，通过LSTM等算法的训练学习，得出一个该类型文本各文字域的语言模型并保存在硬盘中。文字域识别模块则载入一个指定的语言模型，在分析该语言模型后，对用户给出的散乱的每一条文字信息给出一个其文字域的判别，如姓名，性别或未知域等。文字域修正模块则根据文字域识别模块识别出的结果，对输入文字信息中可能出现的错误进行修正，如修正住址中的错别字和补全内容等。
[0047]在一个具体示例中，该文本文字域识别系统可以不包括文字域修正模块，而在文字域识别模块采用利用特定类型的文字数据基于神经网络事先训练好的语言模型。当然，在某些示例中，文字域修正模块也可以省略。
[0048]本系统优势不止在于一次学习完成之后的每一次识别的速度都很快，还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性，基于此训练出的语言模型便具有判别出相应文字域的能力。同时，本系统还具备有极高的精确度。针对身份证这一特定场景，在训练与测试数据有大量干扰(缺字漏字，多一些无意义的字，误识别或者误录入)的情况下，可以达到99%以上的判别准确率；而在训练与测试数据相对完整的情况下，准确率更是几乎可以做到100%。
[0049]在本系统的帮助下，许多之前的系统和算法的效率都可以得到一个极大提升。比如OCR自动识别录入身份证信息这一特定的应用场景就是其中之一。OCR系统先进行一次直接的文字识别，将得到的证照文字信息输入给本系统的文字域识别模块。然后文字识别模块分别给出这些文字信息分别属于哪个文字域。一方面，识别出的文字域可以提供给OCR系统作为文本框查找等算法的修正依据进行下一步的调整后得到一个更加准确的文字识别结果；另一方面，识别出的文字域结合文字域修正模块可以直接对OCR结果进行修改，得到一个置信度较高的识别结果反馈给用户。
[0050]本发明实施例的各个模块可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字域识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在存储载体上提供，或者以任何其他形式提供。
[0051]贯穿上述实施例，本发明基于语言模型生成和识别系统提供了一套高效、智能且具有重大参考意义的文本文字域识别方法。由于新技术与方法的引入，识别模块的精确度与可靠性都有极大的突破，能够更加准确的进行文字域类型识别。
[0052]本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。
【主权项】
1.一种文字域类型识别方法，其特征在于，所述方法包括: 步骤SlOl:载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；以及步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。2.如权利要求1所述的文字域类型识别方法，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。3.如权利要求1或2所述的文字域类型识别方法，其特征在于，所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。4.如权利要求1所述的文字域类型识别方法，其特征在于，在所述步骤S102之后还包括步骤S103:读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。5.如权利要求1所述的文字域类型识别方法，其特征在于，在步骤S102中，在确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。6.一种文字域类型识别系统，其特征在于，所述系统包括: 文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；以及通过所述语言模型确定新输入的文字数据的文字域类型。7.如权利要求6所述的文字域类型识别系统，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。8.如权利要求6或7所述的文字域类型识别系统，其特征在于，所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。9.如权利要求8所述的文字域类型识别系统，其特征在于，所述系统还包括文字域修正模块，用于读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。10.如权利要求6所述的文字域类型识别系统，其特征在于，在所述文字域识别模块确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。
【专利摘要】本发明提供了一种文字域类型识别方法和文字域类型识别系统。所述方法包括：步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；以及步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型。该方法可以更加精确地进行文字域类型识别，以提供最优的识别性能。该文字域类型识别系统同样具有上述优点。
【IPC分类】G06K9/72
【公开号】CN105046289
【申请号】CN201510484879
【发明人】朱睿, 张弛, 吴家楠, 周舒畅, 印奇
【申请人】北京旷视科技有限公司, 北京小孔科技有限公司
【公开日】2015年11月11日
【申请日】2015年8月7日

完整全部详细技术资料下载

当前第2页1 2