基于图片匹配实现互动提示的方法、装置及存储设备与流程

文档序号：15852790发布日期：2018-11-07 10:23阅读：247来源：国知局

本申请涉及人工智能技术领域，尤其是涉及一种基于图片匹配实现互动提示的方法、装置及存储设备。

背景技术

基于图像识别技术识别儿童绘本是通过检测相机捕获的图像中是否包含儿童绘本，并且根据图像特征确认当前图像是哪本绘本的哪一页，实现自动阅读儿童绘本的功能。为了更好的培养儿童绘本阅读习惯，可以通过基于图像识别的手指检测功能，实现简单的阅读互动，比如手指点读，问答交互(提问题，然后儿童用手指指出答案)。由于相机视野范围有限，使用环境变化多样，在进行交互时，存在儿童绘本中互动区域不在视野范围内的情况，导致互动失败的问题。

技术实现要素：

本申请实施例提供一种基于图片匹配实现互动提示的方法、装置及存储设备。解决了儿童绘本中互动区域不在视野范围内的情况，导致互动失败的问题。

本申请实施例提供了一种基于图片匹配实现互动提示的方法，该方法包括：

对相机采集图片进行透射变换；

提取透射变换后的相机采集图片特征；

对提取到的透射变换后的相机采集图片特征进行反透射变换；

对反透射变换后的相机采集图片特征进行畸变矫正；

根据畸变矫正后的相机采集图片特征、预先提取到的扫描图片特征和互动区域在扫描图片中的坐标进行语音提示。

进一步地，所述提取透射变换后的相机采集图片特征包括：利用局部特征检测算法提取透射变换后的相机采集图片特征。

进一步地，所述根据畸变矫正后的相机采集图片特征、预先提取到的扫描图片特征和互动区域在扫描图片中的坐标进行语音提示包括：

根据畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征得到转换矩阵；

根据所述转换矩阵和所述互动区域在扫描图片中的坐标进行语音提示。

进一步地，所述根据畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征得到转换矩阵包括：将畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征进行匹配得到转换矩阵。

进一步地，所述将畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征进行匹配得到转换矩阵包括：利用随机抽样一致性算法计算出畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征之间的转换矩阵。

进一步地，所述根据所述转换矩阵和所述互动区域在扫描图片中的坐标进行语音提示包括：

利用所述转换矩阵将所述互动区域在扫描图片中的坐标转换到在畸变矫正后的相机采集图片中的坐标；

根据转换的互动区域在畸变矫正后的相机采集图片中的坐标进行语音提示。

进一步地，所述根据转换的互动区域在畸变矫正后的相机采集图片中的坐标进行语音提示包括：在所述转换的互动区域在畸变矫正后的相机采集图片中的坐标超出所述畸变矫正后的相机采集图片的实际坐标的情况下，进行语音提示。

进一步地，所述在所述转换的互动区域在畸变矫正后的相机采集图片中的坐标超出所述畸变矫正后的相机采集图片的实际坐标的情况下，进行语音提示包括：

在所述转换的互动区域在畸变矫正后的相机采集图片中的横坐标和/或纵坐标中至少一者为负的情况下，进行语音提示；

在所述转换的互动区域在畸变矫正后的相机采集图片中的横坐标不小于所述畸变矫正后的相机采集图片的实际横坐标的情况下和/或在所述转换的互动区域在畸变矫正后的相机采集图片中的纵坐标不小于所述畸变矫正后的相机采集图片的实际纵坐标的情况下，进行语音提示。

本申请实施例还提供了一种基于图片匹配实现互动提示的装置，该装置包括：

存储设备，用于存储程序数据；

处理器，用于执行所述存储设备中的程序数据以实现上述基于图片匹配实现互动提示的方法。

本申请实施例还提供了一种存储设备，其上存储有程序数据，所述程序数据用于被处理器执行时实现上述的基于图片匹配实现互动提示的方法。

本申请能够取得的有益效果在于，互动区域不在视野范围给予语音提示；对反透射变换后的相机采集图片特征进行畸变矫正，计算量小，实时性高，在内存受限条件下有效的提升用户体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为计算机组成结构框图；

图2为本申请实施例提供的一种基于图片匹配实现互动提示的方法的流程示意图；

图3为本申请实施例提供的一种基于图片匹配实现互动提示的装置的结构示意图；

图4为本申请实施例提供的透射变换示意图；

图5为本申请实施例提供的一种基于图片匹配实现互动提示的方法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为计算机组成结构框图，其中示出了计算机的主要部件。图1中，处理器110、内部存储器105、总线桥120以及网络接口115接入系统总线140，总线桥120用于桥接系统总线140和i/o总线145，i/o接口接入i/o总线145，usb接口以及外部存储器与i/o接口连接。图1中，处理器110可以为一个或多个处理器，每个处理可以具有一个或者多个处理器内核；内部存储器105为易失性存储器，例如寄存器、缓存器、各种类型的随机存取存储器等；在计算机开机运行的时候，内部存储器105中的数据包括操作系统和应用程序；网络接口115可以为以太网接口、光纤接口等；系统总线140可以用来传送数据信息、地址信息、以及控制信息；总线桥120可以用来进行协议转换，将系统总线协议转换为i/o协议或者将i/o协议转换为系统总线协议以实现数据传输；i/o总线145用来数据信息和控制信息，还可以总线终结电阻或电路来降低信号反射干扰；i/o接口130主要与各种外部设备连接，例如键盘、鼠标、传感器等等，闪存可以通过usb接口接入i/o总线，外部存储器为非易失性存储器，例如硬盘、光盘等。在计算机开机之后，处理器可以将存储于外部存储其中的数据读取到内部存储器中，并对内部存储其中的计算机指令进行处理，完成操作系统以及应用程序的功能。该示例计算机可以为台式机、笔记本电脑、平板电脑、智能手机等。

为了实现儿童绘本阅读互动功能，要求在相机采集图片和数据库中的扫描图片之间建立准确、稳定的转换关系。要解决的问题，主要是相机采集图片和数据库中对应的扫描图片的坐标变换问题。利用特征点提取算法，分别在两幅图片中提取到两个特征点集，然后经过特征点匹配，获取两幅图片之间的转换矩阵；利用转换矩阵计算出儿童绘本交互区域在相机采集图片中的坐标，当该坐标超出相机视野范围时，给用户语音提升，帮助用户准确的移动绘本，使交互区域处于相机视野中，成功实现交互功能。

图2为本申请实施例提供的一种基于图片匹配实现互动提示的方法的流程示意图，该流程示意图包括：

步骤205，对相机采集图片进行透射变换；

虽然大部分的局部特征，如尺度不变特征变换(scale-invariantfeaturetransform，sift)、加速稳健特征(speededuprobustfeatures，surf)、快速特征点提取和匹配算法(orientedfastandrotatedbrief，orb)等都是尺度不变的，但实际应用时，尺度不变是在一定范围内的不变，所以需要考虑相机采集图片id和数据库扫描图片is之间的尺度关系，所以需要对图片进行缩放，使得两幅图片的尺度不要差距太大。另外，图片太大提取特征和特征匹配会导致耗时增加，图片太小又会导致特征点减少，所以最好选取适当的尺寸。如图5所示，在对相机采集图片进行透射变换之前，对相机采集图片进行缩放得到图片id_resize。is_resize是已经缩放好的扫描图片。缩放后的相机采集图片id_resize与相机采集图片id之间的关系如下：

其中，hr1为相机采集图片id缩放到id_resize的缩放变换矩阵，ratio1为缩放因子，取值为[0,1]。

缩放后的扫描图片is_resize与数据库扫描图片is之间的关系如下：

其中，hr2为数据库扫描图片is缩放到is_resize的缩放变换矩阵，ratio2为缩放因子，取值为[0,1]。

由于相机和儿童绘本间的位置关系，相机采集图片和数据库扫描图片之间还会存在视角不同的问题，需要经过透射变换，将相机采集图片变换到数据库扫描图的视角。实际应用中，数据库扫描图片可以认为是俯视图，可以通过简单标定法获取透射矩阵hpers。

通过相机采集一张图片，其中包含一个预先准备好的正方形样例(图4中id_pers中的灰色区域)，可以看到由于相机位置为斜向下视角，正方形在图中呈现为类梯形，而数据库中的扫描图片为俯视图，根据相机采集图片中正方形四个角的坐标集a与俯视图中正方形的四个角的坐标集b一一对应关系，可以计算出一个投射矩阵hpers。

透射变换后的相机采集图片和透射变换前的相机采集图片之间的关系如下：

id_pers＝hpersid_resize

步骤210，提取透射变换后的相机采集图片特征；

特征点提取可以采用主流的局部特征点检测算法，如sift，surf，orb，等。特征提取采用与特征点相对应的特征提取算子。

可选地，在本实施例中，采用orb局部特征点检测算法提取透射变换后的相机采集图片特征。提取出的特征点集为pd_pers，如图5所示。

步骤215，对提取到的透射变换后的相机采集图片特征进行反透射变换；

如图5所示，将步骤210中提取到的透射变换后的相机采集图片特征点集pd_pers反透射变换到pd_resize。

步骤220，对反透射变换后的相机采集图片特征进行畸变矫正；

图片预处理的正常顺序是缩放，畸变矫正，透射变换，但在实际应用时，由于畸变矫正是非线性变换，整张图片的畸变矫正处理是非常耗时的，为了解决这一问题，我们对图片预处理的操作进行了优化。如图5所示，在图片预处理操作过程中，缩放后的图片直接进行透射变换，节约了畸变矫正的图片处理时间。

如图5所示，步骤220仅对步骤215中的特征点集pd_resize进行畸变矫正，获取特征点集pd_undist。这样的处理既避免了整幅图片的畸变校正处理，又保留了畸变矫正对局部特征点的修正，提升了处理速度，也满足准确性要求。

所有的光学相机都存在畸变问题，畸变从图片中心到图片边缘递增，畸变会给特征匹配带来影响，所以相机采集图片id_resize需要进行畸变矫正处理，生成无畸变图片id_undist，如图5所示。在进行图片畸变矫正时，可以通过非线性相机标定法获取相机内参矩阵k和畸变参数d。其中:

k中的fx＝f/dx，fy＝f/dy,f是相机焦距，dx和dy是相机一个像素的实际物理值长度。cx和cy表示图像中心像素坐标和图像原点坐标之间相差的横向和纵向像素数。d表示相机的径向畸变系数。

畸变矫正步骤如下：

将缩放后的相机采集图片id_resize的坐标转换到世界坐标系的三维坐标[xw,yw,zw]，默认无旋转和平移；转换公式如下：

iw＝k^-1id_resize＝[xw，yx，zw]

利用鱼眼畸变模型求得每个像素点对应的变换尺度，如下公式：

r²＝a²+b²

θ＝aractan(r)

θd＝θ(1+k1*θ²+k2*θ⁴+k3*θ⁶+k4*θ⁸)

其中，k1、k2、k3、k4为畸变参数。

三维坐标重新投影到二维图像，得到二维坐标如下：

xd′＝fx*xw*scale+cx

yd′＝fy*yw*scale+cy

最后根据插值方法生成二维图像id_undist。

步骤225，根据畸变矫正后的相机采集图片特征、预先提取到的扫描图片特征和互动区域在扫描图片中的坐标进行语音提示。

畸变矫正后的相机采集图片id_undist的图片尺寸为[wd_undist，hd_undist]，以互动区域中的一个区域r1为例，r1是个矩形，包含四个坐标点(如果是其他形状，可以认为是多个坐标点集合)，r1＝[(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)]，经过转换后，在畸变矫正后的相机采集图上对应的区域r1’的坐标也是四个点集r1’＝[(x1’，y1’)，(x2’，y2’)，(x3’，y3’)，(x4’，y4’)]，如果r1’的坐标(xk’，yk’)超出畸变矫正后的相机采集图片id_undist的实际坐标，则互动区域超出相机视野范围，需要给予语音提示，其中，k的取值为1、2、3或4。

可选地，根据畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征得到转换矩阵；在本实施例中，将畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征进行匹配得到转换矩阵；再进一步地，利用随机抽样一致性算法计算出畸变矫正后的相机采集图片特征和预先提取到的扫描图片特征之间的转换矩阵，该矩阵就是id_undist和is_resize之间的转换矩阵h，如图5所示；根据所述转换矩阵和所述互动区域在扫描图片中的坐标进行语音提示；在本实施例中，利用所述转换矩阵将所述互动区域在扫描图片中的坐标转换到在畸变矫正后的相机采集图片中的坐标；根据转换的互动区域在畸变矫正后的相机采集图片中的坐标进行语音提示；具体而言，在所述转换的互动区域在畸变矫正后的相机采集图片中的坐标超出所述畸变矫正后的相机采集图片的实际坐标的情况下，进行语音提示。进一步地，在所述转换的互动区域在畸变矫正后的相机采集图片中的横坐标和/或纵坐标中至少一者为负的情况下，进行语音提示；在所述转换的互动区域在畸变矫正后的相机采集图片中的横坐标不小于所述畸变矫正后的相机采集图片的实际横坐标的情况下和/或在所述转换的互动区域在畸变矫正后的相机采集图片中的纵坐标不小于所述畸变矫正后的相机采集图片的实际纵坐标的情况下，进行语音提示。具体而言，如下表所示，当xk’，yk’均为负值的情况下，语音提示“左上方移动绘本”；当仅仅yk’为负值的情况下，语音提示“上方移动绘本”；当xk’大于等于畸变矫正后的相机采集图片id_undist的宽度且yk’为负值的情况下，语音提示“右上方移动绘本”；当仅仅xk’为负值的情况下，语音提示“左方移动绘本”；当仅仅xk’大于等于畸变矫正后的相机采集图片id_undist的宽度的情况下，语音提示“右方移动绘本”；当yk’大于等于畸变矫正后的相机采集图片id_undist的高度且xk’为负值的情况下，语音提示“左下方移动绘本”；当仅仅yk’大于等于畸变矫正后的相机采集图片id_undist的高度的情况下，语音提示“下方移动绘本”；当xk’大于等于畸变矫正后的相机采集图片id_undist的宽度且yk’大于等于畸变矫正后的相机采集图片id_undist的高度情况下，语音提示“右下方移动绘本”。

儿童绘本中的交互区域是事先指定好一个(或者几个)位置，用集合r表示，由于原始的图像经过了图片缩放，所以需要利用如下公式对r的坐标进行坐标变换，得到rresize。

rresize＝hr2r

rresize是交互区域在is_resize中的坐标。然后利用如下公式将rresize变换到rundist，其中hinv是h的逆矩阵。rundist对应为r在id_undist中的坐标，当坐标rundist超出id_undist的实际坐标(x∈[0,wd_undist],y∈[0,hd_undist])时，就说明交互区域超出了相机的视野范围。根据坐标rundist，生成提示信息。

rundist＝hinvrresize

在具体实施本发明的过程中，以对儿童绘本读物“大雪静静地下”进行阅读互动为例，该儿童绘本读物第3页的互动区域包括左下角的雪人、右下角的圣诞老人和中间男孩。将儿童绘本读物“大雪静静地下”的第1页放到相机视野范围内，开始绘本阅读互动。互动到第3页时，左下角的雪人未在相机视野范围内，此时若提出问题“雪人在哪里”，用户手指指出雪人所在位置，也不能进行互动。会语音提示用户“右上方移动绘本”。

与现有技术相比，本申请实施例的有益效果在于，互动区域不在视野范围给予语音提示；对反透射变换后的相机采集图片特征进行畸变矫正，计算量小，实时性高，在内存受限条件下有效的提升用户体验。

图3为本申请实施例提供的一种基于图片匹配实现互动提示的装置的结构示意图；该结构示意图包括：存储设备305和处理器310；

存储设备305，用于存储程序数据；

处理器310，用于执行所述存储设备中的程序数据以实现对相机采集图片进行透射变换；提取透射变换后的相机采集图片特征；对提取到的透射变换后的相机采集图片特征进行反透射变换；对反透射变换后的相机采集图片特征进行畸变矫正；根据畸变矫正后的相机采集图片特征、预先提取到的扫描图片特征和互动区域在扫描图片中的坐标进行语音提示。

本申请还提供了一种存储设备，其上存储有程序数据，所述程序数据用于被处理器执行时实现对相机采集图片进行透射变换；提取透射变换后的相机采集图片特征；对提取到的透射变换后的相机采集图片特征进行反透射变换；对反透射变换后的相机采集图片特征进行畸变矫正；根据畸变矫正后的相机采集图片特征、预先提取到的扫描图片特征和互动区域在扫描图片中的坐标进行语音提示。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑慧;顾嘉唯
技术所有人：北京物灵智能科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。