文本识别方法及装置与流程

文档序号：33385878发布日期：2023-03-08 08:10阅读：24来源：国知局

1.本技术涉及计算机技术领域的人工智能领域，特别涉及一种文本识别方法。本技术同时涉及一种文本识别装置、一种计算设备，以及一种计算机可读存储介质。

背景技术：

2.人工智能(artificial intelligence；ai)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。近年来，机器学习领域印象最深刻的进步出现在深度学习子领域(又称深度神经网络学习)。深度学习(deep learning)是指通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。深层学习利用简单计算单元(即“神经元”)组成多层网络。其中，每个单元将一组输入值组合以产生一个输出值，并将该值传递给下游其他神经元。深度学习中的神经网络都由若干隐藏层组成。自然语言处理(natural language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，对文本中的内容进行识别提取，是自然语言处理领域的一个重要分支，可以通过深度学习技术解决自然语言处理领域的各个技术问题。
3.随着计算机技术的发展，通过神经网络模型在处理文本的过程中已经越来越成熟，文本的格式多种多样，有的包括有表格、图片等多种元素，但是目前处理文本的过程通常情况下是将原始文本转换为纯文本，再将纯文本输入至神经网络模型中进行处理，在此情况下，纯文本无法完全表达原始文本想要表达的含义，神经网络模型在纯文本过程中会出现识别的文本结果与原始文本表达含义差距较大的情况。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种文本识别方法，以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种文本识别装置，一种计算设备，以及一种计算机可读存储介质。
5.根据本技术实施例的第一方面，提供了一种文本识别方法，包括：
6.接收待识别文本；
7.根据所述待识别文本获得待识别纯文本和待识别文本图片；
8.基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。
9.根据本技术实施例的第二方面，提供了一种文本识别装置，包括：
10.接收模块，被配置为接收待识别文本；
11.获取模块，被配置为根据所述待识别文本获得待识别纯文本和待识别文本图片；
12.生成模块，被配置为基于所述待识别纯文本和所述待识别文本图片生成所述待识
别文本对应的目标文本信息。
13.根据本技术实施例的第三方面，提供了一种计算设备，包括：
14.存储器和处理器；
15.所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述文本识别方法的步骤。
16.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述文本识别方法的步骤。
17.根据本技术实施例的第五方面，提供了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述文本识别方法的步骤。
18.本技术提供的文本识别方法，包括通过接收待识别文本；根据所述待识别文本获得待识别纯文本和待识别文本图片；基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。通过本技术提供的方法，在识别待识别文本的过程中，通过待识别纯文本获取待识别文本的文本信息，通过待识别文本图片获取待识别文本的文本结构信息，通过文本信息和文本结构信息生成待识别文本对应的目标文本信息，使得生成的目标文本信息更加准确。
附图说明
19.图1是本技术一实施例提供的一种文本识别方法的结构示意图；
20.图2是本技术一实施例提供的一种文本识别方法的流程图；
21.图3是本技术一实施例提供的文本识别模型的结构示意图；
22.图4是本技术一实施例提供的文本识别模型的训练方法流程图；
23.图5是本技术一实施例提供的一种应用于识别简历文本的文本识别方法的处理流程图；
24.图6是本技术一实施例提供的待识别简历的模板示意图；
25.图7是本技术一实施例提供的一种文本识别装置的结构示意图；
26.图8是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
27.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
28.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
29.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，
第二也可以被称为第一。
30.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
31.待识别文本：即需要进行文本识别的文本，如一篇文章、一篇新闻、一份简历等等。
32.待识别纯文本：待识别文本中文字部分，即对待识别文本清除格式化后，不包括表格、图片等内容的文字部分。
33.待识别文本图片：待识别文本转换成的图片。
34.目标文本信息：从待识别文本中提取的文本信息，目标文本信息中还包括从待识别文本中识别出的文本排布和/或文本样式。
35.自然语言处理是计算机科学与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，对文本中的内容进行识别提取，是自然语言处理领域的一个重要分支。随着技术的发展，文本的格式多种多样，有的包括表格、图片等多种元素，在目前处理文本的方式是将原始文本转换为纯文本，再输入至神经网络模型中进行文本识别，此时，原始文本中的表格信息、图片信息等内容就会丢失，使得文本识别的结果与原始文本相比有可能会有较大差距。
36.基于此，在本技术中，提供了一种文本识别方法。本技术同时涉及一种文本识别装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。
37.参见图1所示的本技术提供的文本识别方法的结构示意图，在获得待识别文本之后，对其做转换纯文本处理和转换为图片的处理，即将待识别文本转换为待识别纯文本，获得待识别纯文本；对待识别文本保留格式，转换为图片，获得待识别文本对应的待识别文本图片，再根据待识别纯文本和待识别文本图片相结合，从而获得待识别文本中的目标文本信息。通过文本和图片两个维度的输入，结合图片显示文本格式，结合文字来获得文本内容，丰富了文本识别的信息维度，提升了文本识别的准确率。
38.图2出了根据本技术一实施例提供的一种文本识别方法的流程图，具体包括以下步骤：
39.步骤202：接收待识别文本。
40.本技术实施例的核心在于对文本进行识别，针对于不同语言类型(如中文、英文、日文等)，本技术对文本进行识别的过程基本相同，下面实施例中以对中文文本进行识别的过程进行详细介绍。
41.待识别文本具体是指需要进行文本识别的文本，如一篇文章、一篇新闻、一份简历等等。在待识别文本中，可能只包括纯文本的内容，例如一篇文章中，仅有文字部分；也可能包括文本+图片的格式，例如一篇新闻中，除了文字部分，还会有新闻配图；也有可能包括文本+图片+表格的形式，例如一份简历中，包括有简历表格、简历照片和简历的文本内容等等。
42.接收待识别文本的方式可以是用户通过文本识别系统进行上传后，获得的待识别文本，也可以是通过用户的指令，从指定位置获取到待识别文本。例如用户通过文本识别系统的上传界面中将待识别文本上传至文本识别系统，运行文本识别系统的终端接收到该待识别文本；用户还可以通过发出文本获取指令给终端，文本获取指令中携带有文本存放地址，终端可以访问文本存放地址，从而获取到该待识别文本。
43.更具体的，在本技术提供的一具体实施方式中，接收待识别文本，包括；
44.接收待识别简历文本，其中，所述待识别简历文本中包括表格。
45.在本实施方式中，待识别文本具体可以为待识别简历文本，在待识别简历文本中包括有表格，具体的，可以是用户的个人信息，例如姓名、性别、年龄、电话等，也可以是用户的教育经历、工作经历等等，在待识别简历文本由表格形式体现。
46.在本技术提供的一具体实施方式中，以待识别文本为一份简历为例进行解释说明，用户使用电脑运行文本识别系统，在文本输入界面中选择该简历的存放地址，电脑根据该存放地址和简历的文件名获取该简历文本，该简历文本即为待识别文本。
47.步骤204：根据所述待识别文本获得待识别纯文本和待识别文本图片。
48.其中，待识别纯文本即为待识别文本中的文字内容部分，即对待识别文本进行格式化清除后获得的文字部分，不包括待识别文本中原有的表格、图片的内容。纯文本是没有任何文本修饰的，没有任何粗体、下划线、斜体、图形、符号或特殊字符等格式的文本。在纯文本中，会将所有的分页符、分节符、新行字符都转化为段落标记。具体的，可以通过文本文档格式打开待识别文本，即可获得待识别文本的待识别纯文本；还可以通过将待识别文本另存为纯文本格式；还可以通过相应的纯文本提取软件提取待识别文本中的待识别纯文本内容，在本技术中对此不做限定。
49.待识别文本图片具体是指将待识别文本直接转换成的图片，其保留有待识别文本中的所有格式信息，例如表格、图片等等，在实际应用中，可以直接将待识别文本转换为pdf格式，再将pdf格式的文本另存为图片格式；还可以将待识别文本通过图像转换软件直接转换为对应的待识别文本图片。在本技术中，对如何将待识别文本转换为待识别文本图片的具体形式不做限定。
50.为了便于理解，下面对如何获得待识别纯文本和待识别文本图片做进一步解释说明。具体的，根据所述待识别文本获得待识别纯文本和待识别文本图片，包括：
51.s2042、对所述待识别文本做文本提取，提取所述待识别文本中的待识别纯文本。
52.文本识别是指利用计算机自动识别字符的技术，是模型识别的一个重要领域，文本识别的方法可以是文字检测方法(text dtection)、文字识别(text recognition)、ocr识别(optical character recognition)等等，在本技术中，对文本识别的具体形式也不做限定。
53.通过文本识别技术处理待识别文本，即可提取待识别文本中的待识别纯文本。
54.更进一步的，对待识别文本进行文本识别的过程中，会识别出文本中的一些冗余信息，例如回车符、换行符等等，基于此，对所述待识别文本做文本提取，提取所述待识别文本中的待识别纯文本，包括：
55.对所述待识别文本做文本提取，提取所述待识别文本对应的初始待识别纯文本；
56.对所述初始待识别纯文本做数据清洗，获得待识别纯文本。
57.其中，初始待识别纯文本具体是指对待识别文本经过文本识别处理后，获得的文本，其中包括有换行符、回车符等无效字符，无效字符也会对后续的处理有一些影响，影响后续的文本识别的准确性，因此，还需要对初始待识别文本进行数据清洗，数据清洗的作用是为了能消除初始待识别文本中的无效字符，从而获得待识别纯文本。
58.其中，对所述初始待识别纯文本做数据清洗，获得待识别纯文本，包括：
59.获取无效字符集合；
60.在所述初始待识别纯文本中删除与所述无效字符集合中相同的无效字符，获得待识别纯文本。
61.具体的，可以预先建立一个无效字符集合，在数据清洗过程中，将初始待识别文本中的字符与无效字符集合进行比对，若比对成功，则可以将待识别文本中的字符删除。将初始待识别纯文本中的所有字符遍历一遍之后，即可将初始待识别文本中与无效字符集合中相同的字符作为无效字符清理，从而获得待识别纯文本。
62.s2044、对所述待识别文本做图片转换，将所述待识别文本转换为待识别文本图片。
63.在实际应用中，可以通过截图的形式，将待识别文本转换为对应的待识别文本图片；还可以先将待识别文本转换为pdf格式，再将pdf格式的文件另存为图片格式，即可将待识别文本进行图片转换，转换为对应的待识别文本图片；还可以通过将待识别文本输入至图片转换工具中，由第三方图片转换工具对待识别文本进行图片转换，从而将待识别文本转换为对应的待识别文本图片。
64.在待识别文本图片中会很好的记录有待识别文本中的文本结构，例如表格、图片、文本格式等信息。便于后续结合待识别纯文本进行相应的识别。
65.在本技术提供的一具体实施方式中，沿用上例，将简历文本输入至ocr识别系统中，经过ocr识别，可以识别获得简历文本对应的初始待识别纯文本，将初始待识别纯文本进行数据清洗获得待识别简历纯文本。将简历文本转换为pdf格式，再将pdf格式另存为图片格式，即可获得简历文本对应的待识别简历图片。
66.步骤206：基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。
67.在获得待识别纯文本和待识别文本图片后，即可基于两者对待识别文本进行识别，从而识别出待识别文本对应的目标文本信息，其中目标文本信息具体是指记录在待识别文本中的文本信息，即目标文本信息可以理解为从待识别文本中识别出的文本信息。
68.本技术提供的文本识别方法，结合了待识别纯文本和待识别文本图片，通过待识别纯文本理解文本的内容，通过待识别文本图片理解文本的格式，可以更好的识别出待识别文本的内容。
69.具体的，基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息，包括：
70.将所述待识别纯文本和所述待识别文本图片输入至文本识别模型进行文本识别；
71.获得所述文本识别模型输出的目标文本信息。
72.其中，文本识别模型具体是指预先训练好的，用于对待识别文本进行识别的人工智能模型，具体的，将待识别纯文本和待识别文本图片输入至文本识别模型中进行处理，文本识别模型即可输出待识别文本对应的目标文本信息。目标文本信息具体是指从待识别文本中识别出的文本内容，更进一步的，目标文本信息具体是指从待识别文本中识别出的带有文本排布和/或文本样式的文本内容，其中，文本排布可以包括换行、分段等内容，文本样式包括字体加粗、字体倾斜、字体下划线等。目标文本信息的文本排布可以与待识别文本图片中的文本排布相同，以避免文本识别过程中忽略文本排布而造成文本识别混乱，降低文本识别准确性的情况。
73.例如，当待识别文本为一份分栏的文本，且该文本中包括有每个段落的加粗字体小标题，则通过文本识别模型对待识别纯文本和待识别文本图片进行处理之后，不仅能提取出待识别文本中的文字内容，还可以包括文字内容的排布信息，以及文本中每个段落的加粗字体小标题。
74.在实际应用中，在对待识别文本进行文本识别的过程中，参考了待识别纯文本和待识别文本图片，既能保证文本识别的准确性，还能从待识别文本图片中获取文本的排布和/或文本样式，使得最终获得的目标文本信息内容更加丰富，更加贴近待识别文本。
75.进一步的，参见图3，图3示出了本技术一实施例提供的文本识别模型的结构示意图，如图3所示，所述文本识别模型包括嵌入层、融合层、编码器、解码器和输出层；
76.将所述待识别纯文本和所述待识别文本图片输入至文本识别模型进行文本识别，包括：
77.s2060、将所述待识别纯文本和所述待识别文本图片输入至所述嵌入层，获得待识别纯文本矩阵和待识别文本图片矩阵。
78.嵌入层的作用是将文本或图片转化为机器/计算机可以识别的特征向量。例如将文本中的词条长度表示为固定长度的向量，将图片的特征提取为固定长度的向量。便于机器/计算机对文本或图片进行处理。
79.在实际应用中，文本和图片的处理方式各不相同，基于此，所述嵌入层包括文本嵌入层和卷积嵌入层，其中，文本嵌入层用于对待识别纯文本进行嵌入化处理，卷积嵌入层用于对待识别文本图片进行嵌入化处理。
80.将所述待识别纯文本和所述待识别文本图片输入至所述嵌入层，获得待识别纯文本矩阵和待识别文本图片矩阵，包括：
81.将所述待识别纯文本输入至所述文本嵌入层，获得待识别纯文本矩阵；
82.将所述待识别文本图片输入至所述卷积嵌入层，获得待识别文本图片矩阵。
83.相应的，文本嵌入层即可理解为word embedding层，将待识别纯文本输入至该文本嵌入层，即可获得文本嵌入层输出的待识别纯文本矩阵。在实际应用中，需要对待识别纯文本进行分词处理，获得待识别纯文本对应的词单元集合，再将词单元集合输入至word embedding层中进行嵌入化处理，获得待识别纯文本矩阵。
84.对待识别纯文本进行分词处理，可以通过jieba工具，也可以通过分词模型对待识别纯文本进行分词处理，在本技术中对此不做限定。
85.卷积嵌入层用于对待识别文本图片进行嵌入化处理，即通过卷积嵌入层提取待识别文本图片的图片特征，在实际应用中，卷积嵌入层还可以通过transformer模型来实现。通过卷积嵌入层对输入的待识别文本图片进行卷积处理，从而获得待识别文本图片对应的待识别文本图片矩阵。需要注意的是，待识别文本图片矩阵的维度与待识别纯文本矩阵的维度相同。
86.在本技术提供的一具体实施方式中，沿用上例，通过上述步骤中可以获得简历文本的待识别简历纯文本和待识别简历图片，其中，简历纯文本有354个字，将待识别简历纯文本输入至文本嵌入层中，文本嵌入层将每个字转换为728维度的向量，从而获得一个354*728维的待识别纯文本矩阵。将待识别简历图片输入至卷积嵌入层，由卷积嵌入层对待识别简历图片进行特征提取，从而获得1*728维的待识别文本图片矩阵。
87.在实际应用中，文本嵌入层对待识别简历纯文本进行处理时，需要先对待识别简历纯文本进行分词处理，具体的，是将每个字做为一个独立的处理对象进行嵌入化处理，例如当待识别简历纯文本有10个字时，需要依次对每个字进行嵌入化处理，获得每个字对应的字向量，再将每个字向量按照待识别简历纯文本的顺序进行拼接，获得待识别简历纯文对应的待识别纯文本矩阵。
88.s2062、将所述待识别纯文本矩阵和所述待识别文本图片矩阵输入至所述融合层，获得文本拼接矩阵。
89.其中，融合层具体是指对待识别纯文本矩阵和待识别文本图片矩阵进行特征融合的网络层，在融合层中，可以对待识别纯文本矩阵和待识别文本图片矩阵进行融合处理，即将待识别纯文本矩阵和待识别文本图片矩阵进行拼接，在融合层中的拼接是指将待识别纯文本矩阵和待识别文本图片矩阵进行形式上的拼接，例如待识别纯文本矩阵为a*m维，待识别文本图片矩阵为b*m维，则通过融合层可以将两者进行拼接，获得(a+b)*m维的文本拼接矩阵，在实际应用中，可以将待识别纯文本矩阵拼接到待识别文本图片矩阵之后，也可以将待识别文本图片矩阵拼接到待识别纯文本矩阵之后，在本技术中，对此不做限定。
90.在本技术提供的一具体实施方式中，沿用上例，将354*728维的待识别纯文本矩阵和1*728维的待识别文本图片矩阵输入至融合层中进行融合处理，在融合层中将两者进行拼接，具体的，将1*728维的待识别文本图片矩阵拼接到354*728维的待识别纯文本矩阵之后，获得355*728维的文本拼接矩阵。
91.s2064、将所述文本拼接矩阵输入至所述编码器，获得文本编码矩阵。
92.在文本识别模型中，优选地使用端到端的模型，在端到端的模型中，包括有编码器和解码器，编码器和解码器顺次连接，文本拼接矩阵输入至编码器后做编码处理，获得文本编码矩阵，再将文本编码矩阵输入至解码器中做解码处理，获得文本解码矩阵。
93.具体的，所述编码器包括n个编码层，其中，n为大于等于2的正整数；
94.相应的，将所述文本拼接矩阵输入至所述编码器，获得文本编码矩阵，包括：
95.s51、将所述文本拼接矩阵输入至第1个编码层，得到所述第1个编码层输出的文本编码矩阵；
96.s52、将第t-1个编码层输出的文本编码矩阵输入至第t个编码层，得到第t个编码层输出的文本编码矩阵，其中2≤t≤n；
97.s53、将t自增1，判断t是否大于n，若是，则获得文本编码矩阵，若否，继续执行步骤s52。
98.在本技术提供的文本识别方法中，以文本识别模型是transformer模型为基础为例，则编码器可以是transformer模型的编码器，以编码器包括6个编码层为例，将文本拼接矩阵输入至第1个编码层做编码处理，获得第1个编码层输出的第1文本编码矩阵。
99.除去第1个编码层之外，从第t个编码层开始，其中2≤t≤n，接收上一个编码层输出的文本编码矩阵，在当前第t个编码层做编码处理，并获得第t个编码层输出的文本编码矩阵。
100.例如，第2个编码层接收第1个编码层输出的第1文本编码矩阵进行处理，输出第2文本编码矩阵；第3个编码层接收第2个编码层输出的第2文本编码矩阵进行处理，输出第3文本编码矩阵
……
，以此类推，直至第6个编码层处理完成输出第6个文本编码矩阵。
101.在获得第t个编码层输出的文本编码矩阵之后，要将t自增1，并判断t是否大于n，若执行自增操作之后的t大于n则说明已经执行完成最后一个编码层，则最后一个编码层输出的文本编码矩阵即为该编码器的文本编码矩阵，若执行自增操作之后的t小于或等于n，则继续执行s52步骤的操作。
102.需要注意的是，在实际应用中，还可以根据每个编码层输出的文本编码矩阵和预设的权重生成所述编码器输出的最终文本编码矩阵。
103.例如，在编码器中一共有6个编码层，第1个编码层的预设权重为0.1，第1文本编码矩阵为e1；第2个编码层的预设权重为0.1，第2文本编码矩阵为e2；第3个编码层的预设权重为0.1，第3文本编码矩阵为e3；第4个编码层的预设权重为0.2，第4文本编码矩阵为e4；第5个编码层的预设权重为0.2，第5文本编码矩阵为e5；第6个编码层的预设权重为0.3，第6文本编码矩阵为e6。则最终文本编码矩阵e＝0.1*e1+0.1*e2+0.1*e3+0.2*e4+0.2*e5+0.3*e6。
104.在每个编码层中，均包括有自注意力子层和前馈神经网络子层。
105.s2066、将所述文本编码矩阵输入至所述解码器，获得文本解码矩阵。
106.其中，解码器用于接收文本编码矩阵，并对文本编码矩阵进行解码处理，从而获得文本解码矩阵，具体的，所述解码器包括解码嵌入层和m个解码层，其中，m为大于等于2的正整数；
107.将所述文本编码矩阵输入至所述解码器，获得文本解码矩阵，包括：
108.s61、获取参考文本矩阵；
109.s62、将所述文本编码矩阵和所述参考文本矩阵输入至第1个解码层，得到所述第1个解码层输出的文本解码矩阵；
110.s63、将所述文本编码矩阵和第j-1个解码层输出的文本解码矩阵输入至第j个解码层，得到第j个解码层输出的文本解码矩阵，其中2≤j≤m；
111.s64、将j自增1，判断j是否大于m，若是，则获得文本解码矩阵，若否，继续执行步骤s63。
112.在实际应用中，解码器中还包括有一个解码嵌入层，解码嵌入层用于接收参考文本，并对参考文本做嵌入化处理，获得参考文本对应的参考文本矩阵。
113.在实际应用中，获取参考文本矩阵可以通过将参考文本输入至解码嵌入层中获得参考文本矩阵，通常情况下解码器是当前次的预测输出会作为下一次预测的参考文本，当解码器第一次预测输出时，参考文本可以是“cls”，其中，cls是能代表整个文本的语义特征向量，用于文本分类。
114.在此依然以transformer模型为例，transformer模型的解码器通常包括6个解码层，将编码器输出的文本编码矩阵和参考文本矩阵输入至第1个解码层中做解码处理，可以获得第1个解码层输出的第1文本解码矩阵。
115.从第j个解码层开始，其中2≤j≤m，将编码器输出的文本编码矩阵和上一个解码层(即第j-1个解码层)输出的文本解码矩阵输入至第j个解码层中做解码处理，获得第j个解码层输出的文本解码矩阵。
116.例如，第2个解码层接收第1个解码层输出的第1文本解码矩阵和编码器输出的文本编码矩阵，并输出第2个解码层输出的第2文本解码矩阵；第3个解码层接收第2个解码层
输出的第2文本解码矩阵和编码器输出的文本编码矩阵，并输出第3个解码层输出的第3文本解码矩阵
……
。
117.在获得第j个解码层输出的文本解码矩阵之后，将j自增1，判断j是否大于m，若j小于或等于m则说明还未执行完最后一个解码层，则继续执行步骤s63，若j大于m则说明已完成最后一个解码层了，则将最后一个解码层输出的文本解码矩阵作为所述解码器输出的文本解码矩阵。
118.在实际应用中，每个解码层均包括有自注意力子层、编码-解码注意力子层和前馈神经网络层。
119.以第4个解码层为例，第4个解码层接收的3个解码层输出的第3文本解码矩阵和编码器输出的文本编码矩阵，在自注意力子层中，对第3文本解码矩阵做自注意力处理，获得第4自注意力子矩阵，并将第4自注意力子矩阵和文本编码矩阵输入至编码-解码注意力子层中进行处理，获得第4编码解码注意力子矩阵，再将第4编码解码注意力子矩阵输入至前馈神经网络层处理，获得第4个解码层输出的第4文本解码矩阵
120.s2068、对所述文本解码矩阵做归一化处理，获得所述文本解码矩阵对应的目标文本信息。
121.将解码器输出的文本解码矩阵输入至输出层，在输出层中对文本解码矩阵做归一化处理，即可获得文本解码矩阵对应的目标文本信息，该目标文本信息即为文本识别模型最终的输出结果。
122.下面，对文本识别模型的训练过程做进一步解释说明，参见图4，图4示出了本技术一实施例提供的文本识别模型的训练方法流程图，包括：
123.步骤402：获取样本文本和所述样本文本对应的样本文本信息。
124.其中，样本文本具体是指需要进行文本识别的文本，在样本文本中可以携带有表格、图片等文本格式信息，样本文本信息具体是指从样本文本中进行文本识别后，获得的文本信息，样本文本信息即从样本文本中识别提取出来的信息，更进一步的，样本文本信息具体是指预先从样本文本中识别出的带有文本排布和/或文本样式的内容，其中，文本排布可以包括换行、分段等内容，文本样式包括字体加粗、字体倾斜、字体下划线等。优选的，样本文本可以是带有表格的简历文本，样本文本信息即为简历文本对应的样本简历信息。
125.步骤404：根据所述样本文本获得样本纯文本和样本文本图片。
126.提取样本文本中的样本纯文本，具体的，可以将样本文本转换为纯文本形式，即消除样本文本中的粗体、下划线、斜体、特殊字符等格式信息，从而获得样本文本对应的样本纯文本。
127.样本文本图片具体是指样本文本直接转换生成的图片，在样本文本图片中可以保留样本文本中的格式信息，如表格、粗体、特殊字符等等，具体的，可以先将样本文本转换为pdf格式，再将pdf格式的样本文本另存为图片格式，获得样本文本图片。
128.步骤406：将所述样本纯文本和所述样本文本图片输入至文本识别模型，获得预测文本信息。
129.此时的文本识别模型是还未训练完成的文本识别模型，需要用样本文本和样本文本对应的样本文本信息对其进行训练，具体的，是将样本文本对应的样本纯文本和样本文本图片输入至文本识别模型中，文本识别模型包括嵌入层、融合层、编码器、解码器和输出
层。
130.嵌入层中又包括文本嵌入层和卷积嵌入层，将样本纯文本输入至文本嵌入层，由文本嵌入层对样本纯文本做word embedding，获得样本纯文本矩阵；将样本文本图片输入至卷积嵌入层，由卷积嵌入层对样本文本图片做卷积处理，提取样本文本图片的特征信息，获得样本图片矩阵。
131.将样本纯文本矩阵和样本图片矩阵输入至融合层，在融合层中对样本纯文本矩阵和样本图片矩阵进行矩阵融合，获得样本文本拼接矩阵。
132.再将样本文本拼接矩阵输入至编码器做编码处理，经过编码器中的多个编码层的编码处理后，获得样本文本拼接矩阵对应的样本文本编码矩阵。
133.将样本文本编码矩阵输入至解码器做解码处理，经过解码器中的多个解码层的解码处理后，获得样本文本编码矩阵对应的样本文本解码矩阵。
134.再将样本文本解码矩阵输入至输出层，在输出层中做归一化处理，最终输出文本预测模型输出的预测文本信息。
135.步骤408：根据所述预测文本信息和所述样本文本信息计算模型损失值。
136.此时的文本识别模型还未训练好，输出的预测文本信息与样本文本信息之间还有一定的差距，因此，还需要通过预测文本信息和样本文本信息来联合训练模型，调整模型的参数，具体的，需要根据预测文本信息和样本文本信息计算模型损失值，计算模型损失值的损失函数在实际应用中可以是交叉熵损失函数、绝对值损失函数、平方损失函数、0-1损失函数等等，在本技术中，对损失函数的选择不做限定，以实际应用为准。
137.可选的，根据所述预测文本信息和所述样本文本信息计算模型损失值，包括：
138.将所述预测文本信息和所述样本文本信息输入至目标损失函数；
139.获得所述目标损失函数输出的模型损失值。
140.在实际应用中，需要根据实际应用场景，选取合适的目标损失函数，并将预测文本信息和样本文本信息输入至目标损失函数中进行计算，获得模型损失值，在本技术中，以交叉熵损失函数为例进行解释说明，交叉熵损失函数中最后一层权重的梯度不再跟激活函数的倒数相关，只跟输出值和真实值的差值呈正比，此时交叉熵损失函数的收敛较快，又因为反向传播是连乘的，因此整个权重矩阵的更新较快，交叉熵损失求导更简单，因此，在本技术中优选使用交叉熵损失函数。
141.交叉熵损失函数公式参见下述公式1：
[0142][0143]
其中，c表示损失值loss，x表示样本文本信息对应的向量表示，y表示预测文本信息对应的词id矩阵、a表示文本识别模型预测的词汇分布，n表示样本总数量。
[0144]
步骤410：根据所述模型损失值调整所述文本识别模型的模型参数，并继续训练所述文本识别模型直至达到训练停止条件。
[0145]
在计算损失值后，根据损失值反向传播调整文本识别模型的模型参数，具体的，是调整文本识别模型中编码器、解码器和输出层的参数，通常情况下，嵌入层和融合层的参数是固定的，可以不参与训练调参。更进一步的，调整参数可以是调整文本识别模型中的学习率参数、batch_size参数等等，并用下一批次样本数据继续训练该文本识别模型，直至达到
模型的训练停止条件。在实际应用中，训练停止条件，包括：
[0146]
所述模型损失值小于预设阈值；和/或
[0147]
所述翻译模型的训练轮次达到预设轮次。
[0148]
在本技术提供的一具体实施方式中，以通过模型损失值小于预设阈值来停止训练文本识别模型为例，预设阈值为0.3，则当计算得到的模型损失值小于0.3时，则认定文本识别模型训练完成。
[0149]
在本技术提供的另一具体实施方式中，以预设的训练轮次来停止训练文本识别模型为例，预设的训练轮次为10轮，当样本数据的训练轮次到达10轮后，则认定文本识别模型已经训练完成。
[0150]
在本技术提供的又一具体实施方式中，设置损失值预设阈值和预设训练轮次两个训练停止条件，同时监控模型损失值和训练轮次，当模型损失值与训练轮次中任意一项满足或两项均满足训练停止条件时，则认定文本识别模型已经训练完成。即当模型损失值小于损失值预设阈值或训练轮次达到预设训练轮次，或模型损失值小于损失值预设阈值且训练轮次达到预设训练轮次时，认定文本识别模型已经训练完成。
[0151]
本技术提供的文本识别方法，包括通过接收待识别文本；根据所述待识别文本获得待识别纯文本和待识别文本图片；基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。通过本技术提供的方法，在识别待识别文本的过程中，通过待识别纯文本获取待识别文本的文本信息，通过待识别文本图片获取待识别文本的文本结构信息，通过文本信息和文本结构信息生成待识别文本对应的目标文本信息，使得生成的目标文本信息更加准确。
[0152]
在对待识别文本进行识别的过程中，将待识别纯文本和待识别文本图片输入至文本识别模型中，通过文本识别模型进行处理，可以进一步提高文本识别效率，充分利用计算资源，节省人工消耗，提高效率。
[0153]
下述结合附图5以本技术提供的文本识别方法对简历文本的应用为例，对所述文本识别方法进行进一步说明。其中，图5示出了本技术一实施例提供的一种应用于识别简历文本的文本识别方法的处理流程图，具体包括以下步骤：
[0154]
步骤502：接收待识别简历文本。
[0155]
参见图6，图6示出了本技术实施例提供的待识别简历的模板示意图，在模板中会填入个人简历信息，在本实施例中，以接收到张三的简历为例进行解释说明。
[0156]
步骤504：对所述待识别简历文本进行识别，获得待识别简历纯文本。
[0157]
在本实施例中，对待识别简历文本进行文本识别，获得初始待识别简历纯文本，在初始待识别简历纯文本中包括有换行符、识别的乱码字符等信息，还需要对初始待识别简历纯文本进行数据清洗，从而获得待识别简历纯文本：“个人简历姓名张三性别男出生年月1999年4月民族汉政治面貌党员身高188学制四年学历本科户籍河北专业软件工程健康状况健康毕业院校a大学计算机学院家庭住址******联系电话185********电子邮件*********@qq.com教育背景2016.09-2020.07a大学计算机学院本科专业课程c++java数据结构汇编语言等社会实践2021.08-至今xxx科技有限公司运维工程师10001-15000元/月工作描述：1、主要负责运维相关工作。2、全面负责对运维相关工作。自我评价我毕业于a大学计算机学院，学习成绩优秀、认真负责，熟练使用相关计算机技能”。
[0158]
步骤506：对所述待识别简历文本进行图片转换，获得待识别简历图片。
[0159]
将待识别简历文本转换为pdf格式的文本，再将通过pdf转换工具，将pdf格式的待识别简历文本进行图片转换，将该待识别简历文本转换为待识别简历图片。
[0160]
步骤508：将待识别简历纯文本和待识别简历图片输入至文本识别模型的嵌入层，获得待识别简历纯文本矩阵和待识别简历图片矩阵。
[0161]
文本识别模型是预先训练好的，对纯文本和图片进行联合识别的人工智能模型，该模型包括嵌入层、融合层、编码器、解码器和输出层。
[0162]
将待识别简历纯文本中的每个字作为一个独立的词，连续的数字作为同一个词进行分词处理，获得待识别简历纯文本对应的分词集合，再将该分词集合输入至嵌入层中的文本嵌入层，获得待识别简历纯文本矩阵q1。
[0163]
将待识别简历图片输入至嵌入层中的卷积嵌入层，获得待识别简历图片矩阵q2。
[0164]
步骤510：将待识别简历纯文本矩阵和待识别简历图片矩阵输入至文本识别模型的融合层，获得简历拼接矩阵。
[0165]
将待识别简历纯文本矩阵q1和待识别简历图片矩阵q2输入至融合层中进行融合处理，具体的，根据待识别简历纯文本矩阵q1在前，待识别简历图片矩阵q2在后的顺序将q1和q2进行拼接，获得简历拼接矩阵q，其中，q1为321*728维的矩阵，q2为1*728维的矩阵，最终的简历拼接矩阵q为322*728维的矩阵。
[0166]
步骤512：将简历拼接矩阵输入至文本识别模型的编码器，获得简历编码矩阵。
[0167]
将简历拼接矩阵q输入至编码器做编码处理，获得简历编码矩阵e。
[0168]
步骤514：将简历编码矩阵输入至文本识别模型的解码器，获得简历解码矩阵。
[0169]
将简历编码矩阵e输入至解码器中做解码处理，获得简历解码矩阵d。
[0170]
步骤516：将简历解码矩阵输入至文本识别模型的输出层，获得简历信息。
[0171]
将简历解码矩阵d输入至输出层，经过输出层的归一化处理，获得对应的简历信息：
[0172]“姓名：张三；
[0173]
性别：男；
[0174]
出生年月：1999年4月；
[0175]
民族：汉；
[0176]
政治面貌：党员；
[0177]
身高：188；
[0178]
学制：四年；
[0179]
学历：本科；
[0180]
户籍：河北；
[0181]
专业：软件工程；
[0182]
健康状况：健康；
[0183]
毕业院校：a大学计算机学院；
[0184]
家庭住址：******；
[0185]
联系电话：185********；
[0186]
电子邮件：*********@qq.com；
[0187]
教育背景：2016.09-2020.07a大学计算机学院本科；
[0188]
专业课程：c++java数据结构汇编语言等；
[0189]
社会实践：2021.08-至今xxx科技有限公司运维工程师10001-15000元/月；
[0190]
工作描述：1、主要负责运维相关工作。
[0191]
2、全面负责对运维相关工作。
[0192]
自我评价：我毕业于a大学计算机学院，学习成绩优秀、认真负责，熟练使用相关计算机技能”。
[0193]
本技术提供的文本识别方法，在对待识别简历文本进行识别的过程中，提取待识别简历纯文本，并获得待识别简历文本对应的待识别简历图片，将待识别简历纯文本和待识别简历图片输入至文本识别模型中，通过文本识别模型进行处理，文本识别模型不仅可以提取简历内容特征，还可以提取简历结构特征，从而进一步提高简历识别效率，充分利用计算资源，节省人工消耗，提高效率。
[0194]
与上述文本识别方法实施例相对应，本技术还提供了文本识别装置实施例，图7示出了本技术一实施例提供的一种文本识别装置的结构示意图。如图7所示，该装置包括：
[0195]
接收模块702，被配置为接收待识别文本；
[0196]
获取模块704，被配置为根据所述待识别文本获得待识别纯文本和待识别文本图片；
[0197]
生成模块706，被配置为基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。
[0198]
可选的，所述生成模块706，进一步被配置为：
[0199]
将所述待识别纯文本和所述待识别文本图片输入至文本识别模型进行文本识别；
[0200]
获得所述文本识别模型输出的目标文本信息。
[0201]
可选的，所述文本识别模型包括嵌入层、融合层、编码器、解码器；
[0202]
所述生成模块706，包括：
[0203]
嵌入单元，被配置为将所述待识别纯文本和所述待识别文本图片输入至所述嵌入层，获得待识别纯文本矩阵和待识别文本图片矩阵；
[0204]
融合单元，被配置为将所述待识别纯文本矩阵和所述待识别文本图片矩阵输入至所述融合层，获得文本拼接矩阵；
[0205]
编码单元，被配置为将所述文本拼接矩阵输入至所述编码器，获得文本编码矩阵；
[0206]
解码单元，被配置为将所述文本编码矩阵输入至所述解码器，获得文本解码矩阵；
[0207]
输出单元，被配置为对所述文本解码矩阵做归一化处理，获得所述文本解码矩阵对应的目标文本信息。
[0208]
可选的，所述嵌入层包括文本嵌入层和卷积嵌入层；
[0209]
所述嵌入单元，进一步被配置为：
[0210]
将所述待识别纯文本输入至所述文本嵌入层，获得待识别纯文本矩阵；
[0211]
将所述待识别文本图片输入至所述卷积嵌入层，获得待识别文本图片矩阵。
[0212]
可选的，所述编码器包括n个编码层，其中，n为大于等于2的正整数；
[0213]
所述编码单元，进一步被配置为：
[0214]
s51、将所述文本拼接矩阵输入至第1个编码层，得到所述第1个编码层输出的文本
编码矩阵；
[0215]
s52、将第t-1个编码层输出的文本编码矩阵输入至第t个编码层，得到第t个编码层输出的文本编码矩阵，其中2≤t≤n；
[0216]
s53、将t自增1，判断t是否大于n，若是，则获得文本编码矩阵，若否，继续执行步骤s52。
[0217]
可选的，所述解码器包括解码嵌入层和m个解码层，其中，m为大于等于2的正整数；
[0218]
所述解码单元，进一步被配置为：
[0219]
s61、获取参考文本矩阵；
[0220]
s62、将所述文本编码矩阵和所述参考文本矩阵输入至第1个解码层，得到所述第1个解码层输出的文本解码矩阵；
[0221]
s63、将所述文本编码矩阵和第j-1个解码层输出的文本解码矩阵输入至第j个解码层，得到第j个解码层输出的文本解码矩阵，其中2≤j≤m；
[0222]
s64、将j自增1，判断j是否大于m，若是，则获得文本解码矩阵，若否，继续执行步骤s63。
[0223]
可选的，所述获取模块704，进一步被配置为：
[0224]
对所述待识别文本做文本提取，提取所述待识别文本中的待识别纯文本；
[0225]
对所述待识别文本做图片转换，将所述待识别文本转换为待识别文本图片。
[0226]
可选的，所述获取模块704，进一步被配置为：
[0227]
对所述待识别文本做文本提取，提取所述待识别文本对应的初始待识别纯文本；
[0228]
对所述初始待识别纯文本做数据清洗，获得待识别纯文本。
[0229]
可选的，所述获取模块704，进一步被配置为：
[0230]
获取无效字符集合；
[0231]
在所述初始待识别纯文本中删除与所述无效字符集合中相同的无效字符，获得待识别纯文本。
[0232]
可选的，所述接收模块702，进一步被配置为；
[0233]
接收待识别简历文本，其中，所述待识别简历文本中包括表格。
[0234]
可选的，所述装置还包括训练模块，被配置为：
[0235]
获取样本文本和所述样本文本对应的样本文本信息；
[0236]
根据所述样本文本获得样本纯文本和样本文本图片；
[0237]
将所述样本纯文本和所述样本文本图片输入至文本识别模型，获得预测文本信息；
[0238]
根据所述预测文本信息和所述样本文本信息计算模型损失值；
[0239]
根据所述模型损失值调整所述文本识别模型的模型参数，并继续训练所述文本识别模型直至达到训练停止条件。
[0240]
可选的，所述训练模块，进一步被配置为：
[0241]
将所述预测文本信息和所述样本文本信息输入至目标损失函数；
[0242]
获得所述目标损失函数输出的模型损失值。
[0243]
可选的，所述训练模块，进一步被配置为：
[0244]
所述模型损失值小于预设阈值；和/或
[0245]
所述翻译模型的训练轮次达到预设轮次。
[0246]
本技术提供的文本识别装置，包括通过接收待识别文本；根据所述待识别文本获得待识别纯文本和待识别文本图片；基于所述待识别纯文本和所述待识别文本图片生成所述待识别文本对应的目标文本信息。通过本技术提供的装置，在识别待识别文本的过程中，通过待识别纯文本获取待识别文本的文本信息，通过待识别文本图片获取待识别文本的文本结构信息，通过文本信息和文本结构信息生成待识别文本对应的目标文本信息，使得生成的目标文本信息更加准确。
[0247]
在对待识别文本进行识别的过程中，将待识别纯文本和待识别文本图片输入至文本识别模型中，通过文本识别模型进行处理，可以进一步提高文本识别效率，充分利用计算资源，节省人工消耗，提高效率。
[0248]
上述为本实施例的一种文本识别装置的示意性方案。需要说明的是，该文本识别装置的技术方案与上述的文本识别方法的技术方案属于同一构思，文本识别装置的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0249]
图8示出了根据本技术一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。
[0250]
计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
[0251]
在本技术的一个实施例中，计算设备800的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本技术范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
[0252]
计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
[0253]
其中，处理器820用于执行所述文本识别方法的计算机可执行指令。
[0254]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。
[0255]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于文本识别方法。
[0256]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。
[0257]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0258]
本技术一实施例还提供一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述文本识别方法的步骤。
[0259]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0260]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0261]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白金国李长亮李小龙
技术所有人：北京金山数字娱乐科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。