一种大数据图像曲线反向解析方法及系统与流程

文档序号:14175938阅读:462来源:国知局
一种大数据图像曲线反向解析方法及系统与流程
本发明涉及图像识别技术和文字识别
技术领域
,具体地是涉及一种大数据图像曲线反向解析方法及系统。
背景技术
:目前很多图像文献中包含大量曲线数据,需要提取图像中曲线上的x,y物理坐标,提取的曲线坐标数据可以用于后续的数据计算。图像曲线数据的反向解析提取功能,常常用于作为大数据计算的输入数据。传统的图像曲线数据提取,是把图像放大打印出来,由工作人员使用尺子在纸质图像上配置xy坐标轴,然后根据曲线上点的坐标,手动使用尺子进行测量,得到曲线上的点的x,y坐标。对于海量的图像数据,如果使用手工操作,人工费用高,太耗时,并且解析不准确。因此,本发明的发明人亟需构思一种新技术以改善其问题。技术实现要素:本发明旨在提供一种大数据图像曲线反向解析方法及系统,采用计算机自动识别技术,不仅解析速度快,而且曲线坐标解析准确。为解决上述技术问题,本发明的技术方案是:一种大数据图像曲线反向解析方法,包括如下步骤:s1:加载图像文件,读取图像数据,获取图像文件的rgb数据;s2:对图像文件进行过滤处理,而后进行二值化操作,将rgb数据转换成黑白二色数据;s3:根据黑白二色数据提取图像中的曲线;s4:识别图像文件上标注的参考点坐标数据;s5:选取识别的2个参考点坐标构建坐标配准;s6:将图像曲线坐标变换到物理坐标。优选地,所述步骤s3中根据黑白二色数据,将黑色像素点作为曲线的候选点,使用线段填充算法,得到图像中曲线上连续点的像素坐标数据,提取的最终曲线为1到多个。优选地,所述步骤s4中根据图像文件上标注的参考点文字信息,通过文字识别技术识别出这些参考点的物理坐标和其对应的像素坐标。优选地,所述步骤s5中选取2个参考点,构建坐标变换的x,y轴,源坐标系为图像的像素坐标系,目标坐标系为图像上标注的物理坐标;选取的2个参考坐标点,可以构建三个点的笛卡尔坐标系,分别是源坐标系上的三个像素点,目标坐标系上的三个物理坐标点,这2个坐标系用于坐标配准,构建一个几何变换矩阵,可以将图像上任意一个像素点源坐标变换到目标坐标系中的物理坐标。优选地,还包括:s7:将曲线物理坐标数据导出到磁盘文件。一种大数据图像曲线反向解析系统,包括如下模块:图像加载模块,用于加载图像文件,读取图像数据,获取图像文件的rgb数据;图像处理模块,用于对图像文件进行过滤处理,而后进行二值化操作,将rgb数据转换成黑白二色数据;曲线提取模块,用于根据黑白二色数据提取图像中的曲线;识别数据模块,用于识别图像文件上标注的参考点坐标数据;坐标配准模块,用于选取识别的2个参考点坐标构建坐标配准;坐标变换模块,用于将图像曲线坐标变换到物理坐标。优选地,所述曲线提取模块根据黑白二色数据,将黑色像素点作为曲线的候选点,使用线段填充算法,得到图像中曲线上连续点的像素坐标数据,提取的最终曲线为1到多个。优选地,所述识别数据模块根据图像文件上标注的参考点文字信息,通过文字识别技术识别出这些参考点的物理坐标和其对应的像素坐标。优选地,所述坐标配准模块选取2个参考点,构建坐标变换的x,y轴,源坐标系为图像的像素坐标系,目标坐标系为图像上标注的物理坐标;选取的2个参考坐标点,可以构建三个点的笛卡尔坐标系,分别是源坐标系上的三个像素点,目标坐标系上的三个物理坐标点,这2个坐标系用于坐标配准,构建一个几何变换矩阵,可以将图像上任意一个像素点源坐标变换到目标坐标系中的物理坐标。优选地,还包括一导出模块,用于将曲线物理坐标数据导出到磁盘文件。采用上述技术方案,本发明至少包括如下有益效果:本发明所述的大数据图像曲线反向解析方法及系统,利用计算机图像识别技术和文字识别技术,自动识别出图像上的曲线,然后根据文字识别的坐标信息给曲线添加坐标配准,进而可以根据曲线上的图像像素坐标转换到实际的物理x,y坐标,大大加快解析速度。附图说明图1为本发明所述的大数据图像曲线反向解析方法的流程图;图2为本发明所述的大数据图像曲线反向解析系统的结构示意图;图3为使用线段填充算法提取曲线数据操作示意图;图4为循环操作之后得到的曲线数据图;图5为图像中定义参考点的物理坐标数据示意图;图6为通过文字识别技术识别的结果数据示意图;图7为计算参考点对应的精确像素坐标的示意图;图8为取2个参考点用作坐标配准的示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1如图1所示,为符合本实施例的一种大数据图像曲线反向解析方法,包括如下步骤:s1:加载图像文件,读取图像数据,获取图像文件的rgb数据;s2:对图像文件进行过滤处理,而后进行二值化操作,将rgb数据转换成黑白二色数据;读取图像数据,得到图像的rgb颜色,对图像过滤去掉底色,使用阈值,将rgb数据转换成黑白二色的数据,一般黑色是曲线和文字,白色为背景。s3:根据黑白二色数据提取图像中的曲线;s4:识别图像文件上标注的参考点坐标数据;s5:选取识别的2个参考点坐标构建坐标配准;s6:将图像曲线坐标变换到物理坐标。优选地,所述步骤s3中根据黑白二色数据,将黑色像素点作为曲线的候选点,使用线段填充算法,得到图像中曲线上连续点的像素坐标数据,提取的最终曲线为1到多个。优选地,所述步骤s4中根据图像文件上标注的参考点文字信息,通过文字识别技术识别出这些参考点的物理坐标和其对应的像素坐标。即图像上有标注的参考点坐标文字信息,算法可以通过文字识别技术识别出这些参考点的物理坐标,每个参考坐标点还会有编号数字,在曲线附近也会有编号数字,编号数字附近的峰值坐标点就是该参考点在曲线上的点,这就找到了参考点的像素坐标。优选地,所述步骤s5中选取2个参考点,构建坐标变换的x,y轴,源坐标系为图像的像素坐标系,目标坐标系为图像上标注的物理坐标;选取的2个参考坐标点,可以构建三个点的笛卡尔坐标系,分别是源坐标系上的三个像素点,目标坐标系上的三个物理坐标点,这2个坐标系用于坐标配准,构建一个几何变换矩阵,可以将图像上任意一个像素点源坐标变换到目标坐标系中的物理坐标。优选地,所述步骤s6中将曲线上的连续像素点坐标,依据d中的坐标变换矩阵,计算得到每个曲线像素点坐标对应的目标物理坐标。优选地,还包括:s7:将曲线物理坐标数据导出到磁盘文件。将曲线上的像素点对应的物理坐标导出到磁盘文件,导出时可以设置物理坐标步长,可以设置多种导出格式,如excel文件,txt文件等。实施例2如图2所示,为符合本实施例的一种大数据图像曲线反向解析系统,包括如下模块:图像加载模块,用于加载图像文件,读取图像数据,获取图像文件的rgb数据;图像处理模块,用于对图像文件进行过滤处理,而后进行二值化操作,将rgb数据转换成黑白二色数据;读取图像数据,得到图像的rgb颜色,对图像过滤去掉底色,使用阈值,将rgb数据转换成黑白二色的数据,一般黑色是曲线和文字,白色为背景。曲线提取模块,用于根据黑白二色数据提取图像中的曲线;识别数据模块,用于识别图像文件上标注的参考点坐标数据;坐标配准模块,用于选取识别的2个参考点坐标构建坐标配准;坐标变换模块,用于将图像曲线坐标变换到物理坐标。优选地,所述曲线提取模块根据黑白二色数据,将黑色像素点作为曲线的候选点,使用线段填充算法,得到图像中曲线上连续点的像素坐标数据,提取的最终曲线为1到多个。优选地,所述识别数据模块根据图像文件上标注的参考点文字信息,通过文字识别技术识别出这些参考点的物理坐标和其对应的像素坐标。即图像上有标注的参考点坐标文字信息,算法可以通过文字识别技术识别出这些参考点的物理坐标,每个参考坐标点还会有编号数字,在曲线附近也会有编号数字,编号数字附近的峰值坐标点就是该参考点在曲线上的点,这就找到了参考点的像素坐标。优选地,所述坐标配准模块选取2个参考点,构建坐标变换的x,y轴,源坐标系为图像的像素坐标系,目标坐标系为图像上标注的物理坐标;选取的2个参考坐标点,可以构建三个点的笛卡尔坐标系,分别是源坐标系上的三个像素点,目标坐标系上的三个物理坐标点,这2个坐标系用于坐标配准,构建一个几何变换矩阵,可以将图像上任意一个像素点源坐标变换到目标坐标系中的物理坐标。优选地,所述坐标变换模块将曲线上的连续像素点坐标,依据d中的坐标变换矩阵,计算得到每个曲线像素点坐标对应的目标物理坐标。优选地,还包括一导出模块,用于将曲线物理坐标数据导出到磁盘文件。将曲线上的像素点对应的物理坐标导出到磁盘文件,导出时可以设置物理坐标步长,可以设置多种导出格式,如excel文件,txt文件等。下面结合附图和实施例对本发明进一步说明。(1)使用线段填充算法提取曲线数据一条连续线段的特点是线段上的前后相邻像素点的y坐标是紧挨着的。相邻像素指的是x方向上的像素坐标是相邻的2个,如:x方向的坐标x-1,x,x+1,从x方向上看,他们是相邻像素。曲线的三个点,x坐标为x-1,x,x+1,而其y坐标可能是3个竖直线,只要这3个竖直线是紧挨着的,这三个竖直线其实就构成了该曲线上的三个线段点。考虑到线段是有宽度的,也就是同一个x像素,其对应的y坐标可能是一条竖直线,具体取y值的时候,可以取这条竖线的平均值,也可以取最低点值,也可以取最高点值,这个可以通过配置来实现,具体操作示意如图3所示。具体曲线提取实现过程:b11:从图像的x坐标由小到大(从左到右)方向,依次遍历,扩充曲线上点的坐标,x坐标值为像素坐标,循环依次从:0,1,2,3,…,n(最后一个点为图像的宽度),每个循环的具体操作为b12,b13,b14。b12:针对每一个x像素,查看其从上到下的y坐标,可以得到1到多个竖直连续线(每一个竖直线包含一个起始y坐标y_start和终止y坐标y_stop,在这个竖直线上的y坐标对应的颜色为二值化后的黑色,代表曲线上的点)。针对x+1像素,也能得到1到多个竖直连续的线段。这些竖直线的长度代表了曲线的宽度,其宽度最小为1个像素。b13:如果x和x+1像素的某2个竖直线是紧挨着的(例如图3所示的竖直线),也就是2个竖直线的上下端点坐标y是有交集的,则这2个竖直线是相邻的,这2条竖直线即作为候选曲线上的2个点。根据配置,可以得到候选曲线在x,x+1这2个位置上的y坐标。如图3所示的线段123,线段456。b14:循环上述操作,最终会得到1到多条曲线,如图3所示包含2条曲线,常规情况下一个图像上包含一条曲线。图4为循环操作之后得到的曲线数据,其中黑色的小圆圈表示提取的曲线上的坐标点。本例子取y坐标时取的是竖直线上的y像素坐标最大值。经过上述曲线坐标提取之后,我们可以得到1到多个曲线,每条曲线上的像素坐标就都有了。其中x坐标是增长步长为1个像素,举例部分数据如下表1所示:表1曲线像素坐标x曲线像素坐标y184584185566186543187519188499189525(2)识别图像中标注的参考点坐标数据在图像中,会包含一些一些参考点的文字描述数据,这些参考点数据包含:参考点的物理坐标数据,参考点在图像中位置像素坐标(1,2,3,…)。本算法需要根据文字识别技术识别出这些参考点的物理坐标和其对应的像素坐标,如图5所示:图像中定义了20个参考点的物理坐标数据(x坐标单位为hz,y坐标单位为db),且这20个参考点在图像中的位置也标注出来了。下面详细描述操作过程:c21:使用文字识别技术识别出图像中的单个字符,每个字符都可以得到其在图像中的像素坐标,根据每个字符的位置,可以将按xy坐标进行划分,得到以行为单位的单词(字符从左到右排列为单词),识别的结果数据如图6所示。如图6所示,可以得到识别的行单词为:122hz810db等等。c22:根据上述识别的行单词,结合参考点的物理坐标数据,解析识别的行单词,就可以得到参考点的物理坐标,比如解析上述行单可以得到参考点的坐标数据举例如下表2所示:表2参考点编号参考点物理坐标x(hz)参考点物理坐标y(db)1228124365.53498646573.857267.5686821324676.21528071.416474751856097.12069078.2同时文字识别的时候,也得到每个字符在图像中的像素坐标数据,像素坐标数据为识别的文字的包围盒矩形框坐标,根据字符按行解析,得到行单词,行单词的像素坐标数据为单词的所有字符坐标包围盒并集。如表3所示:表3这样就可以汇总得到每个参考点的物理坐标,在图像中的像素坐标(矩形框包围盒),如下表4所示:表4(3)坐标配准得到上述的参考点的物理坐标和其矩形框包围盒的像素坐标之后,接下来就是选取其中2个参考点来完成坐标配准。d31:计算参考点对应的精确像素坐标因为上述中的参考点像素坐标只是参考点序号文字的矩形框包围盒范围,并不是参考点对应的真正精确像素坐标,因此此时需要在曲线数据上查找此包围盒范围之内的曲线上的峰值点,取峰值点的xy坐标作为参考点的最终精确像素坐标,如图7所示:d32:取2个参考点用作坐标配准如图8所示,算法一般选取物理坐标值最大的2个参考点20和参考点18做配准点:由参考点18和参考点20可以构成2个笛卡尔直角坐标系,一个坐标系是图像像素坐标系,一个是图像对应的物理坐标系,利用这2个坐标系可以构建几何坐标变换矩阵,从而可以将图像的像素坐标变换到物理坐标(数学上的矩阵计算)。实际计算的时候仅需要18,20这2个参考点构成的矩形框的3个点即可(取左上角点,左下角点,右下角点),例如下表5所示:表5坐标映射点物理坐标x物理坐标y像素坐标x像素坐标y左上角53557.5730365左下角53554.8730384右下角72954.8945384本发明可以自动加载图像文件,自动识别曲线坐标,自动进行坐标配准,自动生成曲线坐标数据,相比较传统手动处理,快千万倍,手工操作1天,本发明不到1s钟即可自动实现。对于海量的图像数据,如果使用手工操作,人工费用高,太耗时,并且解析不准确,使用本发明计算,可大大加快解析速度。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1