一种基于SVG动态图表的高鲁棒性图像识别系统的制作方法

文档序号:15170594发布日期:2018-08-14 17:55阅读:174来源:国知局
本实用新型涉及图像识别系统的安装盒,是一种基于SVG动态图表的高鲁棒性图像识别系统。
背景技术
:当前由于保护数据的需要,很多网站不会由页面直接读取数据,而是将数据转换为SVG格式的图表来在页面显示。SVG格式是一种在页面加载时动态生成的矢量图形语言,用户直接用代码来描绘图像,用任何文字处理工具打开SVG图像,通过改变部分代码来使图像具有交互功能,并随时插入到HTML中通过浏览器来观看,所以传统的爬虫技术无法有效的爬取SVG图表信息。而利用图像识别的方式读取数据经常会出现数据缺失的情况。当数据缺失时,图表会正常显示,但信息却看不到;此外图像识别的准确率也大大影响了数据获取的准确度,多种噪声的影响结合在一起,使爬取SVG图表数据几无可能。同时,由于SVG图表属于动态图表,传统的爬取静态网站的方式效果不大;针对SVG图表中的每一个坐标点进行图像识别,由于准确率的原因,识别越多,错误的数据就越多。并且识别消耗时间随着坐标的增加而急剧增加;对于SVG图表中的数据丢失的值或者SVG图表中显示的是错误的值无法有效的进行处理。主要原因是:没有处理动态加载的SVG图表网页内容;对图片识别的错误容忍度较低,无法有效避免错误。但现有同类图像识别方法较难用于HTML静态文本内容,未采用图片OCR识别技术,数据筛选和坐标值的实际数据获取方法欠佳。同时,现有同类方法较少采用高鲁棒性图像识别方法,所谓“鲁棒性”,是指控制系统在一定(结构、大小)的参数摄动下,维持其它某些性能的特性。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。根据对性能的不同定义,分为稳定鲁棒性和性能鲁棒性,以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。技术实现要素:为克服上述不足,本实用新型的目的是向本领域提供一种基于SVG动态图表的高鲁棒性图像识别系统,使其主要解决现有同类图像识别方法缺少加载安装装置,以及图像识别、数据筛选、数据获取使用较为不便的技术问题。其目的是通过如下技术方案实现的。一种基于SVG动态图表的高鲁棒性图像识别系统,该图像识别系统设置于解析盒内的存储器,即解析盒内的电路板设有存储器;其特征在于所述解析盒通过网线与计算机的网卡连接,即解析盒的一端设有网线联接口,另一端设有网线接线头和USB接线头,连接计算机的网线与解析盒的网线联接口连接,解析盒的网线接线头与计算机的网卡连接,解析盒的USB接线头与计算机的USB接口连接。上述解析盒内的存储器中设有高鲁棒性图像识别软件系统和解码认证系统,从而解析盒中存储器的高鲁棒性图像识别软件系统通过USB接线头自动加载入计算机中,通过计算机打开的网页地址直接加载记录在解析盒的存储器中,解析盒作为网线连接器的同时,具有网关过滤和记录功能;同时,支持该图像识别方法设计软件的正版使用,以及系统的应用、销售。所述解析盒内的电路板设有锂电池和移动wifi路由器,解析盒设有工作模式切换开关、USB扩展口和工作指示灯,工作模式切换开关、USB扩展口和工作指示灯通过线路与电路板连接。从而便于解析盒作为USB连接扩展器,以及移动wifi路由器使用。所述解析盒呈正六边形,网线接线头和USB接线头位于解析盒的正六边形同一侧边,对称的另一侧边设有网线联接口。从而剩下的侧边设置USB扩展口,解析盒一侧平面设置工作模式切换开关和工作指示灯;或者剩下的一侧边设置工作模式切换开关,其它侧边和解析盒一侧平面设置USB扩展口,以及工作指示灯设置于改侧平面。所述解析盒的一侧设有读卡器,读卡器通过线路与电路板连接。从而该解析盒亦可作为读卡器使用。本实用新型利用多功能的解析盒使该图像识别系统应用、安装、使用更为方便,上网过程中SVG图表信息实现自动抓取和读取;其适用于SVG动态图表的图像识别,以及便携的USB连接扩展器、移动wifi路由器、网线连接器、读卡器使用。附图说明图1是本实用新型的流程方框示意图。图2是本实用新型的某网站包括SVG动态图表内容示意图。图3是本实用新型的模拟点击得到最大值提示曲线图。图4是本实用新型的模拟点击得到最小值提示曲线图。图5是本实用新型的SVG动态图表解析盒结构示意图,图中虚线为网线联接口。附图序号及名称:1、解析盒,2、网线联接口,3、网线接线头,4、USB接线头,5、工作模式切换开关,6、USB扩展口,7、工作指示灯。具体实施方式现结合附图,对本实用新型结构和使用作进一步描述。该图像识别方的整体流程如图1所示,以某网站包括的SVG动态图表内容作为具体实施案例,如图2所示。下面分别进行详细说明:1、提取SVG动态图表:通过浏览器的“开发者工具”功能,查找到SVG动态图表的标签;分析标签内容,查找到每一个坐标点的坐标值;2、选取坐标值组:在所有坐标中选取最大值和最小值的两个点,再随机选取三组坐标值,一共获取五组坐标值;这五组坐标值保证不能重复,如果发现重复,重新随机选取;3、获取坐标点实际数据展示图:通过程序控制浏览器加载对应的URL(UniformResourceLocator,统一资源定位器)的内容,在加载包含SVG动态图表的内容页面后,需要根据分析找出目标SVG坐标点位置;使用程序模拟实际的鼠标点击事件,促使页面动态加载包含实际业务意义数值的HTML(HyperTextMarkupLanguage,超文本标记语言)对象层。模拟点击得到最大值提示:如图3所示;模拟点击得到最小值提示:如图4所示。根据分析得到的动态提示对象的位置规律,程序自动识别其边界,实现动态提示区域的图片截取。4、OCR识别每组坐标的实际表示数据,即截取后的图片为便于识别,需要进行二值化、图片放大、插值等的预处理,然后进行图片的数字识别,得到SVG动态图表纵坐标刻度代表的数值。在这个过程中,由于OCR识别准确率无法保证达到一个满意值,并且上一步获取的实际数据展示图本身会出现异常的数字或没有值。所以,在OCR识别之后要对结果进行筛选处理,去除掉异常结果。通过之前的随机选择坐标点,保证了这一步一定会获取到足够的信息值,进而保证了数据获取的准确度。5、计算实际表示数字与坐标之间的比例:对五组坐标值进行两两分组,利用“公式1”计算实际表示数字与坐标之间的比例。(公式1)其中,v表示坐标代表的实际数值,y代表坐标点的纵坐标。每次计算之前要将纵坐标进行比较,保证最终结果的符号正确。如果每一组坐标都识别准确会产生完全一致的20个比例值。如下表所示:100001000010000100001000010000100001000010000100001000081601000010000100001000010000100001000010000通过设定一个阈值的方法,出现次数大于阈值的被定为最终的比例值,排除掉识别不准或者数据异常的坐标值(表中的粗体数字),进一步保证准确度。同时,将表中未被选取的值作为异常值(,),异常值对应的坐标设为异常坐标。最后,选取一个非异常坐标作为下一步计算的基准坐标(表中在,,中选取)。6、推导所有坐标值的实际数据:虽然可以利用图像识别的方法循环所有的坐标点来进行类似处理,但在图表坐标点较多时,严重影响效率。为优化处理速度,采取类比推导的方式来计算其它各坐标点的纵坐标代表的数值。具体公式如“公式2”如下:(公式2)其中,y是要计算的纵坐标,v和k是基准坐标的实际数据和实际数据与坐标之间的比例;通过推导得到统计图表的所有坐标对应的统计结果值,进而得到完整的统计结果,实现抓取目的。另外,上述该高鲁棒性图像识别方法通过软件形式加载安装于计算机中,该高鲁棒性图像识别方法亦可制作成软件嵌套于解析盒1中同时销售和使用。如图5所示,解析盒呈正六边形,解析盒的具体结构如下:解析盒的一端设有网线联接口2,另一端设有网线接线头3和USB接线头4,连接计算机的网线与解析盒的网线联接口连接,解析盒的网线接线头与计算机的网卡连接,解析盒的USB接线头与计算机的USB接口连接。同时,解析盒内的电路板设有锂电池和移动wifi路由器,解析盒设有工作模式切换开关5、USB扩展口6和工作指示灯7,工作模式切换开关、USB扩展口和工作指示灯通过线路与电路板连接。上述解析盒通过USB接线头加载安装该高鲁棒性图像识别方法的软件到计算机中,并通过解析盒的网线接线头和网线联接口连接网线,同时,解析盒除了作为软件安装盘使用,亦可作为网页记录器、移动存储器、USB连接扩展器、移动wifi路由器、网线连接器使用;解析盒的一侧设有读卡器,读卡器通过线路与电路板连接,从而该解析盒亦可作为读卡器使用。综上所述,本实用新型创建一种高速、高鲁棒性的SVG动态图表的数据内容分析方法,面向通用的网络爬虫方面,满足各个行业在数据采集中遇到目标网站图表采用SVG动态图表方式实现,采用特定技术手法抓取动态图表数据内容的具体实现方法。本实用新型基于SVG动态图表的多点识别方法,通过获取SVG图表的部分数值推导所有数值;即本实用新型采用多点OCR识别的方法提高系统的鲁棒性,采用计算实际表示数字与坐标之间比例值的方式,避免进行所有坐标的识别,提高运行速度,降低运行时间。本实用新型将多点识别技术应用于SVG动态图表内容的获取,降低异常数据和OCR错误识别对数据获取的影响,比现有的技术准确率更改。通过随机选取坐标点的方法,进而推算出图表实际意义数值和坐标点之间的关联;计算出所有图内的坐标点所表示的数据,避免对所有数据的一一识别,比现有的技术速度更快。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1