基于图像识别追踪技术的点读指点件点击判断方法与流程

文档序号：17077706发布日期：2019-03-08 23:54阅读：284来源：国知局

本发明涉及一种点读指点件点击判断方法，特别是指一种基于图像识别追踪技术的点读指点件点击判断方法。

背景技术：

点读笔是采用光学编码识别技术和数码语音技术开发而成的新一代智能阅读和学习工具，能同时实现点读、复读、跟读、录音、娱乐等诸多功能。其技术原理是先将图书上的内容通过oid进行编码，并用特殊的印刷技术将编码印刷到特制图书上，然后用户用点读笔扫描图书编码就可以进行识别并播放相应语音。

申请号为201410398737.3的中国专利公开了一种点读系统，该系统包括摄像装置，位于台灯正上方，用于对台灯下的书本及用户在书本上的手势进行实时扫描；点读装置，用于识别书页距离摄像头的深度，并根据用户在书本上的手势和手指距离书本的深度信息确定点击事件；将点击事件预定区域内的文字图像，进行图像到文字的识别转换；将识别转换后的文字进行语音合成，并输出到扬声器装置中；扬声器装置，用于进行语音播放。其中，点读装置设置有手势识别和定位模块，该模块根据摄像装置对台灯下书本的扫描，动态生成平面坐标图和平面坐标图每一点上书本与摄像装置之间的深度数据；根据每一点的深度数据设定该点上点击事件产生的阈值范围；根据摄像装置对用户在书本上手势的扫描，确定用户手指与书本之间的距离，将该距离与用户手指所在位置上的阈值范围相比较，如果在阈值范围内，则确定点击事件发生；根据点击事件所在平面坐标图的位置确定该点击事件所在的平面坐标位置。

上述通过识别手指的深度信息来判断点击事件的方法对摄像装置的要求较高；若采用单目摄像头，深度识别的误差很大，识别准确度不理想，难以满足点读要求；若采用双目摄像头，虽然对深度的识别准确度较高，但硬件成本也会增加。

技术实现要素：

本发明的目的在于提供一种基于图像识别追踪技术的点读指点件点击判断方法，该方法可采用常规单目摄像装置，并且无需识别深度信息。

为实现上述目的，本发明所设计的基于图像识别追踪技术的点读指点件点击判断方法，包括如下步骤：

1)将点读系统的摄像装置固定于待点读的出版物上方；

2)在点读过程中，摄像装置实时拍摄点读指点件与出版物页面，点读系统实时计算点读指点件的识别区域与出版物页面在拍摄图像中的面积之比，记为实时面积比z；

3)设置点读指点件接近出版物到刚好触发点击的位置时，点读指点件识别区域与出版物页面在拍摄图像中的面积之比为临界面积比z1；

4)若实时面积比z＞z1，则点读系统判定当前点读指点件处于未点击状态；若z≤z1，则点读系统判定当前点读指点件处于点击状态。

可选地，所述出版物页面在拍摄图像中的面积采用出版物封面或封底在拍摄图像中的面积进行计算。即在计算实时面积比z时，只需计算封面(或封底)在拍摄图像中的面积，无需再计算其他页面在拍摄图像中的实时面积，从而简化了计算。该方案的缺点是受出版物和摄像装置的摆放位置影响较大，为提高准确度，最好在每次点读前都拍摄封面(或封底)与点读指点件在同一平面上的图像并获得二者的大小比例，同时在阅读过程中尽量避免大幅度移动书本。

优选地，步骤2)中，若实时拍摄得到的画面中，出版物页面的面积为拍摄得到的封面或封底的面积的1.5～1.9倍以上，则判定当前书页为左右两页，当前页面面积取拍摄图像中页面面积的一半。

优选地，所述临界面积比z1默认设置为点读指点件识别区域与出版物页面的实际物理面积比z0的1～1.8倍。

可选地，所述实际物理面积比z0可以根据点读数据包中预制的印刷品尺寸、点读系统预制的点读指点件别识区域面积计算得到；也可以按如下方式得到：将点读指点件与出版物平放在同一平面上，通过摄像装置获取同一画面下点读指点件的识别区域图像与出版物的页面图像，计算二者的图像面积之比，其值与实际物理面积比z0相等，该方案主要用于出版物或点读指点件尺寸未知的情形。

与现有技术相比，本发明的有益效果在于：1)将ar技术与点读技术结合起来，实现任意出版物的点读，无需专用编码解码，通用性强。2)以出版物页面实时拍摄的面积作为参照来计算实时面积比，可以避免摄像装置和出版物摆放位置以及出版物厚度对计算结果造成的不利影响。3)通过摄像装置下点读指点件和页面图像的面积比例变化来判断点读指点件相对于页面的高度，识别精度更高，可实施性更好，同时无需识别深度信息，可采用普通单目摄像头，因而大幅降低了硬件成本。

附图说明

图1为实施例1提供的点读系统的结构示意图。

图2(a)、2(b)分别为实施例3所提供的双功能点读指点件的正反面的结构示意图。

图3为各实施例中摄像装置、点读指点件及书页的位置示意图。

图4为实施例4中在页面上设置触发区域的示意图。

图5为实施例4中获得物理面积比的示意图。

其中：点读指点件1、手持部1.1、识别部1.2、第一识别面1.3、第二识别面1.4、点击锚区1.5、摄像装置2、点读装置3、图像识别模块3.1、模式切换模块3.2、位置追踪模块3.3、事件触发模块3.4、数据包制作模块3.5、存储装置4、音频播放装置5、页面6、触发区域6.1

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

实施例1

如图1所示，本实施例公开了一种基于图像识别追踪技术的点读系统，包括如下组成部分：

1)点读指点件1，用于对出版物页面进行点击，可采用各种便于图像识别和点击的物体，例如手指，预制的点读棒，用户自制的点读魔棒等。

2)摄像装置2，设置在出版物页面的正上方或斜上方，用于采集页面和点读指点件1的实时图像。

3)点读装置3，用于识别并提取图像特征，追踪点读指点件1的位置并判断点击事件；当设置为点读模式时，若点击事件发生则播放点读音频；当设置为问答模式时，首先播放问题音频，再判断用户是否点击了正确的触发区域。

该点读装置3具体包括下述软件模块：

3.1)图像识别模块3.1，用于识别摄像装置2采集图像中的页面和点读指点件1，提取它们的图像特征，并通过当前页面与预先拍摄的出版物页面的图像特征进行对比确定当前所处页面。

本实施例中，图像识别模块3.1采用opencv的图像特征提取算法提取图像特征。和指纹类似，每一页面和点读指点件图像，都有区别于其它图像的唯一特征，同一图像无论发生角度、位移、明暗变化，所提取的特征都是相同的。开源项目opencv的图像特征提取算法，详细可见https://github.com/masteringopencv/code/tree/master/chapter3_markerlessar中的patterndetector模块的操作逻辑。

3.2)模式切换模块3.2，用于将系统切换为点读模式或问答模式，模式切换可以由用户手动设置，也可以在满足切换条件后自动切换。

3.3)位置追踪模块3.3，判断点读指点件1是否对页面上的触发区域进行了点击，返回被点击的触发区域。

3.4)事件触发模块3.4，用于判断事件触发条件是否满足，并执行后续动作；事件触发条件包括翻页、点击触发区域、点读指点件1朝上画面、点读指点件1悬停在触发区域上方；后续动作包括播放默认音频、问题音频、点读音频或悬停音效，部分条件及动作详见后文。

3.5)数据包制作模块3.5，预先采集图像数据，录制音频数据，设置触发条件，并打包成点读数据包，以便分发；点读数据包既可以由专业机构编辑录制，也可以由普通用户自行编辑录制。

4)存储装置4，用于存储图像数据、音频数据和触发条件，其中存储的图像数据为出版物页面图像及其图像特征、点读指点件图像及其图像特征，以及点读指点件与页面的物理面积比z0、临界面积比z1。

5)音频播放装置5，用于播放音频，包括点读音频、问题音频，以及起交互作用的指令或提示音。

本实施例同时提供了一种采用上述点读系统的点读方法，该方法通过模式切换模块3.2设置为点读模式或问答模式。

当设置为点读模式时，摄像装置2采集页面和点读指点件1的图像，图像识别模块3.1对页面和点读指点件图像进行识别，提取二者的图像特征，通过对比点读数据包中的页面图像特征确定当前所处的页面；位置追踪模块3.3对点读指点件1在页面上的位置和点击动作进行追踪，本实施例采用现有技术中的常规方法对点读指点件1的位置和点击进行判断。

事件触发模块3.4检测到某一页面后，在等待用户动作的过程中，播放预先录制的与该页面关联的默认音频，一旦检测到点读指点件1移动(或点击)后就中断默认音频的播放，待用户点击到页面上的触发区域后，调取与之对应的点读音频文件，交由音频播放装置5进行播放。

当设置为问答模式时，图像识别模块3.1首先对当前页面进行识别，事件触发模块3.4调取预先录制的与当前页面对应的问题音频交由音频播放装置5进行播放，提示用户点击当前页面上预设的与问题答案相对应的触发区域，并判断用户是否通过点读指点件1点击了该触发区域，返回判断结果语音。

点读模式和问答模式两种模式即可设置为手动切换，也可以由模式切换模块3.2自动切换。自动切换可以根据特定页面进行切换，例如当摄像装置2检测到封面时，点读装置3切换为点读模式，检测到封底时则切换为问答模式；也可以根据特定图案进行切换，例如在某些页面(例如单元自测页面)印上点读模式或问答模式图形，系统检测到后自动切换为点读模式或问答模式。

专业机构和普通用户均可以通过数据包制作模块3.5制作点读数据包，其步骤为：

1)用户取出一本图书，用相机或扫描仪采集点读系统所需页面的电子图片(封面为必拍项)，与点读系统无关的页面可以不采集。

2)用户在“录入系统”(数据包制作模块)中新建一个数据包，对包进行命名，命名可以是图书名称或其他特定人群能辨别的名称，并设定封面、封底对应的电子图片。“录入系统”会为数据包生成唯一的数据包id。“录入系统”可以是手机或平板电脑app，也可以是网站或软件系统。

2)通过图像识别模块3.1提取页面的图像特征，图像识别模块3.1是现有的成熟技术，可以将其部署到app或网站里。

3)在页面的电子图片上设定闭合区域作为触发区域，存储各页面上的触发区域坐标。

4)录制与触发区域对应的点读音频和问题音频，并建立音频与触发区域之间的关联。

5)录制页面在打开还未点击时的默认音频，并建立默认音频与页面之间的关联。

通过数据包制作模块3.5，普通用户也可以为图书、画册、台历、相册等印刷品自定义语音，例如父亲为绘本录制音频后，孩子翻开绘本并进行点击时，与点击区域关联的音频就会自动播放，辅助孩子阅读识字；老师可以为教材的每一页或某几页录制教学音频，学生翻开那些页时，教学音频就自动播放，辅助学生学习。

考虑到目前市场上的普通出版物未对可点读区域作任何标记，读者可能无法快速找到触发区域，本实施例还为触发区域增加了悬停音效，即当点读指点件1经过触发区域上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件1经过触发区域的提示音，便于用户快速找到页面上存在的触发区域，提高了用户体验。

该点读系统可以部署为一个独立的软硬件集成系统，例如集成有摄像装置与音频播放装置的移动智能设备系统，独立摄像装置与智能音箱结合的系统，独立摄像装置、独立音频播放装置与移动智能设备结合的系统，也可部署为前述软硬件与服务器结合的系统。

实施例2

本实施例在实施例1的基础上，提供了一种可提高点击精准度、简便易行的点读指点件1点击判断方法，包括水平追踪和高度追踪，其中：

1)水平追踪

追踪点读指点件1在页面坐标系上的坐标，当点读指点件1前端一个点或多个点进入触发区域的坐标范围时，判断点读指点件1进入了该触发区域。

2)高度追踪

2.1)如图3所示，在点读过程中，固定于出版物上方的摄像装置2实时拍摄点读指点件1与出版物页面，点读系统的位置追踪模块3.3实时计算点读指点件1识别区域(供图像识别的区域)与出版物页面在拍摄图像中的面积之比，记为实时面积比z。

出版物页面在拍摄图像中的实时面积也可以采用出版物封面(或封底)在拍摄图像中的面积进行替代，在计算实时画面比z时，无需再计算其他页面在拍摄图像中的实时面积。

2.2)设置点读指点件1接近出版物到刚好触发点击的位置时，点读指点件1识别区域与出版物页面在拍摄图像中的面积之比为临界面积比z1；临界面积比z1可以实际测试得到，也可以预设为点读指点件1识别区域与出版物页面的实际物理面积比z0的1～1.8倍，具体比例数值以便于用户操作为宜。而实际物理面积比z0可以根据出版物尺寸(扉页一般有记载)、点读指点件1识别区域面积计算得到；也可以按如下方式得到：将点读指点件1与出版物平放在同一平面上，通过摄像装置2获取同一画面下点读指点件1的识别区域图像与出版物的页面图像，由用户框选出二者的范围，系统根据用户的框选计算二者的图像面积之比，其值与实际物理面积比z0相等，后一种方法主要用于出版物或点读指点件1尺寸未知的情形。

2.3)若实时画面比z＞z1，则点读系统判定当前点读指点件1处于未点击状态；若z≤z1，则点读系统判定当前点读指点件1处于点击状态。

3)当点读指点件1进行了点击动作，且其点击区域上的一个或多个点进入触发区域的坐标范围内时，判断点读指示件对触发区域进行了点击。

4)双页识别与处理

若实时拍摄得到的画面中，出版物页面在图像中的面积为封面或封底在图像中的面积的1.5～1.9倍以上(由于出版物本身有一定厚度，图像中出版物页面的面积可能会在一定范围内波动，故不设定为2倍)，则判定当前书页为左右两页，当前页面面积可以通过图像识别模块3.1识别单页后进行计算，或者取拍摄图像中整体页面面积的一半。

也可以通过图像识别模块识别出各页面，系统可以根据点读件与各页面的相对位置判断目前所在页面，激活相应页面，再按照单页进行处理。此种方式可以应用于展开后页数在两页以上的出版物。

本实施例通过摄像装置下点读指点件图像和页面图像的大小关系来判断点读图像相对于页面的高度，不需要识别深度信息，可实施性大幅提高，同时成本大幅降低。

实施例3

如图2所示，本实施例在实施例2的基础上，提供了一种基于图像识别追踪技术的双功能点读指点件，包括供用户握持的手持部1.1和供图像识别的识别部1.2(即前文中的识别区域)。

识别部1.2的正反面分别设置为第一识别面1.3和第二识别面1.4，第一识别面1.3、第二识别面1.4分别设置有能够彼此区分开并且便于图像识别的特征图像，第一识别面1.3、第二识别面1.4分别对应不同的功能，可以用于切换不同的点读音频或点读/问答模式。为避免混淆，第一识别面1.3、第二识别面1.4上设置有对应功能的提示词。第一识别面和第二识别面对应不同的功能或音频，可以方便地进行翻转切换，提高了点读系统的功能性和趣味性。若需实现三种及以上的点读功能，可以采用多根点读指点件的组合。

识别部1.2的前端设置有用于精确定位的点击锚区1.5，点击锚区1.5的正反面均设置有便于图像识别并且可与第一识别面1.3、第二识别面1.4的主体图像区分开的特征图像；点击锚区1.5单面面积为识别部1.2单面面积的1/1000～1/10，点击锚区1.5的正反面图像可以相同，也可以不同。

本实施例同时提供了应用前述双功能点读指点件进行点读的方法，其在实施例1中点读方法的基础上，增加了识别部1.2正反面的检测，具体为：在点读模式下，当点读系统的位置追踪模块3.3检测到点击锚区1.5点击到页面上的触发区域，若当前拍摄到的识别面为第一识别面1.3，则事件触发模块3.4调取与触发区域对应的第一点读音频交由音频播放装置5播放；若当前拍摄到的识别面为第二识别面1.4，则事件触发模块3.4调取与触发区域对应的第二点读音频交由音频播放装置5播放。两识别面对应的音频可以根据需要设置，例如第一点读音频为中文语音，第二点读音频为英文语音；又如第一点读音频为单词语音，第二点读音频为例句语音；再如第一点读音频为字词读音，第二点读音频为字词解释。第一点读音频、第二点读音频均由专业机构或用户在制作点读数据包时录制，并与触发区域进行关联。

上述双功能点读指点件可以随系统硬件一同销售，也可以由用户按照前述结构自行设计，满足个性化需求。设计完成后需要录入点读系统中，其步骤如下：

1)平放点读指点件，使第一识别面1.3朝上；通过摄像装置2对点读指点件进行拍摄，对拍摄的照片进行边缘识别或者由用户框选获得第一识别面1.3的特征图像，通过用户框选获得位于第一识别面1.3上的点击锚区1.5的特征图像。

2)翻转点读指点件，使第二识别面1.4朝上；通过摄像装置2对点读指点件进行拍摄，对拍摄的照片进行边缘识别或者由用户框选获得第二识别面1.4的特征图像，通过用户框选获得位于第二识别面1.4上的点击锚区1.5的特征图像。

本实施例采用面积较小的点击锚区进行水平定位，可以定位到面积较小的触发区域，提高了水平定位精度；采用面积较大的识别面进行高度定位，能够获得更高的面积比例计算精度，使得通过面积比例判定点击动作的过程更为稳定可靠；采用较大的识别面还有助于图像识别模块更快地捕捉到点击锚区1。

实施例4

本实施例以儿童绘本《大画云南》为例，给出以上各实施例中装置和方法的具体应用。

1)制作点读数据包

1.1)选取儿童绘本《大画云南》，用户通过摄像装置2或扫描仪采集页面图像(包括封面封底)，点读系统(以下简称系统)自动识别图像特征。

1.2)如图4所示，用户在页面6的图像上设置触发区域6.1，并录入第一点读音频(中文)、第二点读音频(英文)、问题音频、默认音频，以及音频与与页面、触发区域的对应关系；触发区域6.1是一个由几个顶点连接线段组成的闭合规则或不规则图形，用户在页面图像上绘制触发区域6.1后，系统自动采集其外围顶点相对于页面坐标系的坐标，从而得出触发区域的坐标范围。

2)数据配置

2.1)用户用摄像装置2拍摄点读指点件1各个面录入系统。

2.2)把点读指点件1和绘本封面并排放置于同一平面上(不重叠)，用摄像装置2将点读指点件1和绘本画面拍摄在同一图片中。

2.3)根据前述图片，在系统中由用户自行绘制矩形框，框选包围绘本封面和点读指点件1轮廓，如图5所示。系统根据设定的两个矩形框区域，自动计算出点读指点件1的识别部1.2的面积和绘本封面面积比例值关系，作为“物理面积比z0”，比如图5中z0＝1/10＝0.1。

2.4)设置点读指点件1的点击锚区1.5：点读指点件1的识别部1.2画面较大，一是为了提示用户该面的作用，二也是为了让点读指点件1更容易被摄像装置2捕捉，但点击锚区1.5可以设置为较小的区域，实现更精确的点读。

2.5)设置点击事件触发的临界面积比z1＝物理面积比z0×1.5，当摄像装置2识别到点读指点件1识别面的面积与页面面积(以封面面积进行计算)的比值即实时面积比z≤临界面积比z1，即z≤0.15时，达到触发点击的高度条件，判断用户进行了点击。

3)点读操作

3.1)用户准备好绘本，打开系统，输入数据包id或名称关键字，或扫描封面搜索数据包；如果关键字匹配多个公开的数据包，系统会返回多个包让用户选择其一；如果用户扫描绘本封面来搜索数据包，系统将识别封面图像特征，在数据库中查询该封面对应的数据包返回给用户，如果该封面匹配多个公开的数据包，系统会返回多个包让用户选择其一。

3.2)用户将点读系统(本实施例中采用智能手机)固定于绘本斜上方台灯上，系统检测到绘本封面或者根据用户操作进入点读模式。

3.3)系统识别到某一页面6时，若该页面设置有默认音频，则自动调取默认音频进行播放，检测到用户点击动作时自动中断；当点读指点件1经过触发区域6.1上方，且未下降到触发点击动作的临界高度以下时，播放用于表明点读指点件1经过触发区域的悬停音效。

3.4)用户将点读指点件1的点击锚区1.5指向页面6上的触发区域6.1并进行点击，系统根据点读指点件1朝上画面播放对应音频，当朝上画面为第一识别面1.3时播放中文音频，当朝上画面为第二识别面1.4时播放英文音频。

4)问答操作

4.1)系统检测到绘本封底或者根据用户操作进入问答模式。

4.2)当系统检测到设置有问答音频的页面6时，自动播放该页面对应的问题音频，比如针对儿童的问题：“请指出页面上的大象”。

4.3)用户用点读指点件1指向页面上答案的触发区域6.1，比如此处指向页面上有大象画面的区域。

4.4)当系统检测到点读指点件1的点击锚区1.5与页面图像中事件触发区交叉且高度满足点击条件时，触发执行判断答案对错的业务逻辑，并通过手机扬声器以声音形式反馈给用户。

5)触发区域点击判断

点读问答过程中，在用户将点读指点件1移动到目标的过程中，为了不让移动过程误触发，系统每隔一定时间(如0.2秒)计算实时面积比z：当z>临界面积比z1时，可以理解为还未进行点击；点读指点件1贴合或接近页面，z在物理面积比z0和临界面积比z1之间，即z0≤z≤z1时(可以只判断z≤z1)，则判断为高度已符合点击条件。

系统再判断点击锚区1.5是否在水平方向上接触到页面上的触发区域，其判断方式为：系统实时采集点击锚区1.5各顶点在页面坐标系的坐标，判断该坐标是否在触发区域的坐标区域内，例如：某三角形点击锚区1.5各顶点相对页面坐标系的实时坐标为(x1,y1)、(x2,y2)、(x3,y3)，某矩形触发区域左上、右上、左下、右下各顶点相对页面坐标系的的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)，当点击锚区1.5任一顶点如(xi,yi)(i＝1,2,3)在触发区域内，即x1≤xi≤x2且y3≤yi≤y1时，判断点击锚区1.5在水平方向上接触到了触发区域。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘博;许炯;俞竣腾;柳清;侬继泽
技术所有人：北京快乐认知科技有限公司
我是此专利的发明人

上一篇：一种bFGF痘坑修护冻干粉制剂及其制备方法与流程
上一篇：液相放电等离子体冲击波PDC钻头的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。