一种文献文字检测和识别的方法与流程

文档序号:20149682发布日期:2020-03-24 19:56阅读:381来源:国知局
一种文献文字检测和识别的方法与流程
本发明涉及图像识别
技术领域
,特别涉及一种文献文字检测和识别的方法。
背景技术
:目前中文ocr技术通常先检测出整个图片中的所有文字区域,然后提取文字特征、根据文字特征来识别这部分内容对应的文字。在对文献利用ocr技术进行数字化,制作成电子书时,不仅要利用ocr技术检测识别文字,还需要遵循原书的排版,为此需确定每个文字在图片中的具体坐标。此外,部分种类的文献通常还会出现繁体字,或者存在图片污渍、字体模糊,拍摄照片位置偏差严重等问题,导致准确度低。因此,需要一种准确度高的文献文字检测和识别的方法。技术实现要素:(一)要解决的技术问题为了解决现有技术的上述问题,本发明提供一种准确度高且效率高的文献文字检测和识别的方法。(二)技术方案为了达到上述目的,本发明采用的主要技术方案包括:一种文献文字检测和识别的方法,包括步骤:s1、获取文献图片,并建立训练数据集;s2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;s3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。(三)有益效果本发明的有益效果在于:通过获取文献图片,并建立训练数据集;创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别,提高了准确度和效率。附图说明图1为本发明实施例的文献文字检测和识别的方法流程图。具体实施方式为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。一种文献文字检测和识别的方法,包括步骤:s1、获取文献图片,并建立训练数据集;s2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;s3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。从上述描述可知,本发明的有益效果在于:通过获取文献图片,并建立训练数据集;创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别,提高了准确度和效率。进一步地,步骤s1具体为:获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。进一步地,步骤s1还包括:分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。由上述描述可知,通过获取获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集,并分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集,提高了后续检测和识别的准确度。进一步地,步骤s2具体为:创建第一神经网络yolov3检测模型和第一神经网络googlenet识别模型,并通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练,得到训练好的第二神经网络yolov3检测模型和第二神经网络googlenet识别模型。由上述描述可知,通过创建第一神经网络yolov3检测模型和第一神经网络googlenet识别模型,并通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练,得到训练好的第二神经网络yolov3检测模型和第二神经网络googlenet识别模型,提高了检测和识别的效率和准确度。进一步地,所述的通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练具体为:通过所述第二检测数据集对所述第一神经网络yolov3检测模型进行训练;通过所述第二识别数据集对所述第一神经网络络googlenet识别模型进行训练。由上述描述可知,通过所述第二检测数据集对所述第一神经网络yolov3检测模型进行训练;通过所述第二识别数据集对所述第一神经网络络googlenet识别模型进行训练,保证了训练好的模型检测和识别的准确性。进一步地,步骤s3具体为:根据所述第二检测模型对待检测识别的文献图片进行检测,得到检测数据;所述第二识别模型根据所述检测数据进行识别。进一步地,步骤s3具体为:根据所述第二神经网络yolov3检测模型对待检测识别的文献图片进行检测,得到检测数据;所述第二神经网络yolov3检测模型根据所述检测数据进行识别。由上述描述可知,通过第二神经网络yolov3检测模型对待检测识别的文献图片进行检测,得到检测数据,并通过第二神经网络yolov3检测模型根据所述检测数据进行识别,提高了文献图片检测和识别的效率的准确度。进一步地,所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:对待检测识别的文献图片进行标准化处理。由上述描述可知,通过对待检测识别的文献图片进行标准化处理,便于提高检测和识别的准确度。实施例一请参照图1,一种文献文字检测和识别的方法,包括步骤:s1、获取文献图片,并建立训练数据集;步骤s1具体为:获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。步骤s1还包括:分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。s2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;步骤s2具体为:创建第一神经网络yolov3检测模型和第一神经网络googlenet识别模型,并通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练,得到训练好的第二神经网络yolov3检测模型和第二神经网络googlenet识别模型。所述的通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练具体为:通过所述第二检测数据集对所述第一神经网络yolov3检测模型进行训练;通过所述第二识别数据集对所述第一神经网络络googlenet识别模型进行训练。s3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。步骤s3具体为:根据所述第二检测模型对待检测识别的文献图片进行检测,得到检测数据;所述第二识别模型根据所述检测数据进行识别。步骤s3具体为:根据所述第二神经网络yolov3检测模型对待检测识别的文献图片进行检测,得到检测数据;所述第二神经网络yolov3检测模型根据所述检测数据进行识别。所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:对待检测识别的文献图片进行标准化处理。实施例二本实施例和实施例一的区别在于本实施例将结合具体的应用场景进一步说明本发明上述文献文字检测和识别的方法是如何实现的:一、收集数据获取文献图片,并建立训练数据集;获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。具体地,根据业务需求收集各种板式的文献图片,进行数据分析和整理。图片尽量多,版式尽量多,数据量在几万张这个数量级。一共会生成两个数据集,单字检测训练数据集和单字识别训练数据集。单字检测数据集:几万张图片、每张图片都是文献图片。单字识别数据集:几万张图片、每张图片都是文献图片中单个字的截图。二、标记数据分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。1、单字检测数据集标记把图片中每个文字的坐标都记入txt文件中,作为这张图片的单字框标签,一张图片一个标签文件。如果图片中有n个文字,则标签文件有n行数据,每行数据的内容如下所示:x1,y1,x2,y2表1单字检测数据集标签文件内容说明表2、单字识别数据集标记针对每张单字截图,确定单字所属的文字类别并记入txt文件中,作为这张图片的文字类别标签,一张图片一个标签文件,具体标签文件内容格式如下:class表2单字识别数据集标签文件内容说明表参数名称参数值(例)参数作用class雷显示对应单字图片所属的类别三、训练模型创建第一神经网络yolov3检测模型和第一神经网络googlenet识别模型,并通过所述训练数据集分别对所述第一神经网络yolov3检测模型和第一神经网络googlenet识别模型进行训练,得到训练好的第二神经网络yolov3检测模型和第二神经网络googlenet识别模型。1、单字检测模型(第一神经网络yolov3检测模型)建立yolov3框架,采用105层的结构,其中主要超参数定义如图2,采用darknet-53特征提取模块和yolo网络的特征交互层。darknet-53:从第0层一直到74层,一共有53个卷积层,其余为res层。卷积层用于提取图像特征,res层为了解决网络的梯度弥散或者梯度爆炸的现象。作为yolov3特征提取的主要网络结构。该结构使用一系列的3*3和1*1的卷积层。特征交互层:从75到105层网络的特征交互层,分为三个尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,作用类似于全连接层但是通过卷积核(3*3和1*1)的方式实现featuremap之间的局部特征(fc层实现的是全局的特征交互)交互。通过所述第二检测数据集对所述第一神经网络yolov3检测模型进行训练;2、单字识别模型(第一神经网络googlenet识别模型)采用googlenet网络结构,通过构建密集的块结构来近似最优的稀疏结构,利用inception结构使网络深度达到了22层来提取图像特征,最后添加线性分类器来对图片进行分类。通过所述第二识别数据集对所述第一神经网络络googlenet识别模型进行训练。四、应用模型根据所述第二神经网络yolov3检测模型对待检测识别的文献图片进行检测,得到检测数据;所述第二神经网络yolov3检测模型根据所述检测数据进行识别。具体地,经过训练模型阶段以后,得到训练好的单字检测模型(第二神经网络yolov3检测模型)和单字识别模型(第二神经网络googlenet识别模型)。围绕这2个模型,编写了代码设计调用接口,供图片进行单字检测和识别功能的调用。应用模型处理流程如下:1、对用户输入的待检测识别的文献图片进行第一次标准化预处理。既所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:对待检测识别的文献图片进行标准化处理。单字检测模型对输入的待检测识别的文献图片大小和格式有严格的限制,但是由于用户输入的图片大小、格式的多样性,需要对输入的图片进行规范化的处理。预处理流程:将图片统一转化为rgb格式,大小统一缩放为1024*1024大小,图片内容统一减去均值。2、调用单字检测模型。将经过预处理的图片送入训练好的检测模型,输出检测数据。如果模型检测图片中有n个单字存在,则会输出n行数据,每个数据代表一个单字框的坐标和可信度。每行数据格式如下:x,y,w,h,confidence表3单字检测模型输出数据说明表3、单字检测模型输出数据的后处理调用单字检测模型对待检测识别的文献图片进行检测得到的数据并不适合用户直接使用,对模型输出数据进行后处理,得到简洁、易用的单字框数据。如果模型检测有n个单字存在,则会有n行单字框数据。每行数据格式如下:x1,y1,x2,y2表4单字检测模型数据后处理输出说明表4、相关数据写入单字检测json文件。为了使用户更好的使用数据,将图片相关的数据和单字检测模型得到的数据进行整合,统一写入到一个json文件中。json文件格式如下:表5单字检测模型输出json文件内容说明5、从json文件中读取相关数据。因为单字检测模型和单字识别模型处理的图片内容不是相同的,必须分成两个阶段来处理一张图片。在这时,从json文件中提取图片路径、状态码还有单字框的相关信息。6、对json数据进行第二次预处理单字识别模型处理的对象是图片中每个单字框的截图而不是一整张文献图。先根据图片路径提取对应的图片,根据单字框的相关信息对图片进行裁剪,得到每个单字框对应的一小块图片截图,将这些截图缩放到64*64大小。图片内容统一减去均值。7、调用单字识别模型单字识别模型对每个单字框截图进行图像特征的提取,根据训练好的参数对这些特征值进行处理,最后判断出这张图像截图归属于各个类别的可能性分别是多少,最后输出所有类别id和相对的概率值。8、单字识别模型输出数据的后处理将类别id转换为对应的符号因为单字识别模型输出的是类别id和对应的概率值,用户并不知道这些id对应的文字类别是哪个,所有需要根据提前准备好的文字类别字典将id转换为汉字或者是其他字符。输出概率值最高的前五个字符和概率因为所有类别的总数高达9000+,用户并不需要所有类别的概率。只需对类别概率进行排序,输出可能性最高的五个字符类别和它对应的概率值便可。9、相关信息重新写入到单字识别json文件中为了使用户更好的使用数据,将图片相关的数据和单字识别模型最后得到的数据进行整合,统一写入到一个json文件中json文件格式如下:表6json文件内容说明表以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的
技术领域
,均同理包括在本发明的专利保护范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1