基于图像识别追踪技术的多功能点读指点件及点读方法与流程

文档序号:16630999发布日期:2019-01-16 06:34阅读:310来源:国知局
基于图像识别追踪技术的多功能点读指点件及点读方法与流程

本发明涉及一种点读指点件,特别是指一种基于图像识别追踪技术的多功能点读指点件及点读方法。



背景技术:

点读笔是采用光学编码识别技术和数码语音技术开发而成的新一代智能阅读和学习工具,能同时实现点读、复读、跟读、录音、娱乐等诸多功能。其技术原理是先将图书上的内容通过oid进行编码,并用特殊的印刷技术将编码印刷到特制图书上,然后用户用点读笔扫描图书编码就可以进行识别并播放相应语音。用户在使用点读笔扫描图书内容时,点读笔发出的声音内容和被扫描书本上的内容相结合,通过这一过程实现增强现实。这种点读笔必须配合印刷有特殊编码的图书才能实现点读功能,图书制作成本高,而且不能利用市场上广泛存在的已有图文出版物。

为此开发出了不依赖于特定编码的点读系统,这种点读系统通过摄像装置拍摄出版物页面和点读指点件,通过图像识别追踪技术实时监测点读指点件的水平位置和垂直高度,当检测到追踪点读指点件对页面上预设区域进行了点击时,播放与预设区域对应的点读音频。该点读系统中,点读指点件可采用任何能够通过图像识别进行点击的物体,例如手指,预制的点读棒,用户自制的点读魔棒等。但其功能单一,功能性不如传统点读笔丰富。



技术实现要素:

本发明的目的在于提供一种定位精度高的基于图像识别追踪技术的多功能点读指点件及点读方法。

为实现上述目的,本发明所设计的基于图像识别追踪技术的多功能点读指点件,包括供用户握持的手持部和供图像识别的识别部;所述识别部的侧面设置有至少两个识别面,各识别面上分别设置有能够将彼此区分开的特征图像,并且各识别面分别对应不同的点读功能(包括系统状态、点读音频或问答音频等)。

优选地,所述识别部的前端设置有用于精确定位的点击锚区,所述点击锚区设置有便于图像识别并与各识别面区分开的特征图像。采用面积较小的点击锚区进行水平定位,可以定位到面积较小的触发区域,提高了水平定位精度;采用面积较大的识别面进行高度定位,能够获得更高的面积计算精度,从而提高了高度定位精度;较大的识别面还有助于快速捕捉到点击锚区。

优选地,所述点击锚区的面积为单个识别面面积的1/1000~1/10。

优选地,各识别面上分别设置有对应功能的提示词。例如,当两个识别面分别对应中文语音和英文语音时,提示词分别为“中文”、“英文”。

优选地,所述识别部为片状,其正反面分别设置为一个识别面。

优选地,所述识别部为棱柱形、圆柱形或椭圆柱形,其侧面上环绕设置有至少两个识别面;或者:所述识别部为球形,其面上环绕手持部的延长线设置有至少两个识别面。

优选地,各识别面重叠并共用一部分特征图像。当需要设置的点读功能较多,点读指点件的面数不能满足要求时,允许相邻识别面重叠,例如相邻的第一棱柱面和第二棱柱面分别作为一个识别面,同时两棱柱面邻接处各取一半(不适用于片状)作为第三个识别面。

本发明同时提供了一种基于图像识别追踪技术的点读方法,该方法采用前述任一种点读指点件,通过摄像装置实时采集点读指点件的图像,通过图像识别确定图像中点读指点件呈现的识别面,在点读过程(包括悬停和点击)中根据呈现的识别面的不同触发不同的点读功能。各识别面对应的音频内容可以根据需要设置,以包含两个识别面的点读指点件为例,可以将其第一识别面对应的点读功能设置为中文语音,第二识别面对应的点读功能设置为为英文语音;或者第一识别面对应单词语音,第二识别面对应例句语音;再或者第一识别面对应字词读音,第二识别面对应字词解释。

优选地,当图像中点读指点件呈现为两个或以上识别面时,在点读过程中触发与呈现的识别面的组合对应的点读功能。

优选地,该方法通过设置在识别部前端的点击锚区进行精确定位。

优选地,该方法通过如下步骤判断点读指点件是否进入触发区域:追踪点读指点件上的点击锚区在页面坐标系上的坐标,当点击锚区的一个或多个顶点坐标进入触发区域的坐标范围时,判断点读指点件进入了该触发区域。

优选地,该方法通过如下步骤判断点读指点件是否进行了点击动作:计算点读指点件上的识别面与页面在摄像装置获得的图像上的实时面积比z,并与刚好达到点击高度的临界面积比z1进行比较,若z≤z1,即判断点读指点件进行了点击动作。该方案通过摄像装置下点读指点件图像和页面图像的大小关系来判断点读图像相对于页面的高度,不需要识别深度信息,可实施性大幅提高,成本大幅降低。同时以出版物页面实时拍摄的面积作为参照来计算实时面积比,避免了摄像装置和出版物摆放位置以及出版物厚度对计算结果造成的不利影响。

可选地,所述临界面积比z1设置为点读指点件的识别面与页面的物理面积比z0的1~1.8倍。

优选地,该方法还包括在点读系统中录入点读指点件的步骤,包括:

1)平放点读指点件,使第一识别面朝上;通过摄像装置对点读指点件进行拍摄,对拍摄的照片进行边缘识别或者由用户框选获得第一识别面的特征图像,通过用户框选获得点击锚区的特征图像;为简化识别,点击锚区各个方向图案相同,只需获取一次特征图像即可;

2)翻转点读指点件,使第二识别面朝上;通过摄像装置对点读指点件进行拍摄,对拍摄的照片进行边缘识别或者由用户框选获得第二识别面的特征图像。依此类推,可以获得其他识别面对应的特征图像。

优选地,该方法还包括制作点读语音包的过程:预先拍摄或扫描出版物页面,将其上需设置点读语音的区域设置为触发区域,并录制与每个触发区域对应的各点读功能所需的音频内容。

优选地,该方法采用多个可彼此区分开的点读指点件实现更多点读功能,切换不同的点读指点件可以切换不同的点读功能。

与现有技术相比,本发明的有益效果在于:通过在点读指点件上设置多个识别面,实现多种点读功能,极大地扩展了基于图像识别追踪技术的点读系统的功能性;同时,各点读功能可以通过旋转点读指点件来实现,操作简单,富有趣味性。

附图说明

图1(a)、图1(b)分别为实施例2所提供的多功能点读指点件的正反面的结构示意图。

图2(a)、图2(b)为实施例2、3所提供的点读指点件的结构示意图。

图3为实施例4所提供的点读系统的结构示意图。

图4为实施例4中摄像装置、点读指点件及书页的位置示意图。

图5为实施例6中在页面上设置触发区域的示意图。

图6为实施例5中获得物理面积比的示意图。

其中:点读指点件1、手持部1.1、识别部1.2、第一识别面1.3、第二识别面1.4、点击锚区1.5、识别面1.6、摄像装置2、点读装置3、图像识别模块3.1、模式切换模块3.2、位置追踪模块3.3、事件触发模块3.4、数据包制作模块3.5、存储装置4、音频播放装置5、页面6、触发区域6.1

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

实施例1

如图1所示,本实施例提供了一种基于图像识别追踪技术的多功能点读指点件,包括供用户握持的手持部1.1和供图像识别的识别部1.2。

识别部1.2的正反面分别设置有一个识别面1.2(含第一识别面1.3和第二识别面1.4),两个识别面1.2分别设置有能够彼此区分开并且便于图像识别的特征图像,并且分别对应不同的点读功能,可以用于切换不同的点读音频或点读/问答模式。为避免混淆,各识别面1.2上设置有对应功能的提示词。该点读指点件的不同识别面1.2分别对应不同的功能或音频,可以方便地进行翻转切换,提高了点读系统的功能性和趣味性。若需实现更多点读功能,除采用实施例2、3中方式外,还可采用多根点读指点件的组合。

识别部1.2的前端设置有用于精确定位的点击锚区1.5,点击锚区1.5的正反面均设置有便于图像识别并且可与各识别面1.2的主体图像区分开的特征图像;点击锚区1.5单面面积为单个识别面1.2面积的1/1000~1/10,点击锚区1.5的各面图像可以相同,也可以不同(本实施例中设置为相同的图像)。

上述多功能点读指点件可以随系统硬件一同销售,也可以由用户按照前述结构自行设计,满足个性化需求。设计完成后需要录入点读系统中,其录入步骤如下:

1)平放点读指点件,使第一识别面1.3朝上;通过摄像装置2对点读指点件进行拍摄,对拍摄的照片进行边缘识别或者由用户框选获得第一识别面1.3的特征图像,通过用户框选获得位于第一识别面1.3上的点击锚区1.5的特征图像。

2)翻转点读指点件,使第二识别面1.4朝上;通过摄像装置2对点读指点件进行拍摄,对拍摄的照片进行边缘识别或者由用户框选获得第二识别面1.4的特征图像。

实施例2~3

图2(a)、2(b)分别为实施例2、3所提供的点读指点件,二者基本结构与实施例1相同,区别在于:1)未设置点击点击锚区;2)识别部1.2分别为六棱柱和圆柱形;3)识别面的数量均为六个(图中角度只能看到三个);4)实施例3中识别面存在一定的重叠;5)其他识别面的录入方法参照录入步骤2)。

实施例4

如图3所示,本实施例公开了一种基于图像识别追踪技术的点读系统,包括如下组成部分:

1)点读指点件1,用于对出版物页面进行点击,其结构详见实施例2。

2)摄像装置2,设置在出版物页面的正上方或斜上方,用于采集页面和点读指点件1的实时图像。

3)点读装置3,用于识别并提取图像特征,追踪点读指点件1的位置并判断点击事件;该点读装置3包含点读模式和问答模式两种模式,当设置为点读模式时,若点击事件发生则播放点读音频;当设置为问答模式时,首先播放问题音频,再判断用户是否点击了正确的触发区域。

该点读装置3具体包括下述软件模块:

3.1)图像识别模块3.1,用于识别摄像装置2采集图像中的页面和点读指点件1,提取它们的图像特征,并通过当前页面与预先拍摄的出版物页面的图像特征进行对比确定当前所处页面。

本实施例中,图像识别模块3.1采用opencv的图像特征提取算法提取图像特征。和指纹类似,每一页面和点读指点件图像,都有区别于其它图像的唯一特征,同一图像无论发生角度、位移、明暗变化,所提取的特征都是相同的。开源项目opencv的图像特征提取算法,详细可见https://github.com/masteringopencv/code/tree/master/chapter3_markerlessar中的patterndetector模块的操作逻辑。

3.2)模式切换模块3.2,用于将系统切换为点读模式或问答模式,模式切换可以由用户手动设置,也可以在满足切换条件后自动切换。

3.3)位置追踪模块3.3,判断点读指点件1是否对页面上的触发区域进行了点击,返回被点击的触发区域。

3.4)事件触发模块3.4,用于判断事件触发条件是否满足,并执行后续动作;事件触发条件包括翻页、点击触发区域、点读指点件1朝上画面、点读指点件1悬停在触发区域上方;后续动作包括播放默认音频、问题音频、点读音频或悬停音效,部分条件及动作详见后文。

3.5)数据包制作模块3.5,预先采集图像数据,录制音频数据,设置触发条件,并打包成点读数据包,以便分发;点读数据包既可以由专业机构编辑录制,也可以由普通用户自行编辑录制。

4)存储装置4,用于存储图像数据、音频数据和触发条件,其中存储的图像数据为出版物页面图像及其图像特征、点读指点件图像及其图像特征,以及点读指点件与页面的物理面积比z0、临界面积比z1。

5)音频播放装置5,用于播放音频,包括点读音频、问题音频,以及起交互作用的指令或提示音。

该点读系统可以部署为一个独立的软硬件集成系统,例如集成有摄像装置与音频播放装置的移动智能设备系统,独立摄像装置与智能音箱结合的系统,独立摄像装置、独立音频播放装置与移动智能设备结合的系统,也可部署为前述软硬件与服务器结合的系统。

本实施例同时提供了一种采用上述系统的点读方法,该方法通过模式切换模块3.2设置为点读模式或问答模式。

当设置为点读模式时,摄像装置2采集页面和点读指点件1的图像,图像识别模块3.1对页面和点读指点件图像进行识别,提取二者的图像特征,通过对比点读数据包中的页面图像特征确定当前所处的页面;位置追踪模块3.3对点读指点件1在页面上的位置和点击动作进行追踪。

事件触发模块3.4检测到某一页面后,在等待用户动作的过程中,播放预先录制的与该页面关联的默认音频,一旦检测到点读指点件1移动(或点击)后就中断默认音频的播放,待用户点击到页面上的触发区域后,调取与之对应的点读音频文件,交由音频播放装置5进行播放。

当设置为问答模式时,图像识别模块3.1首先对当前页面进行识别,事件触发模块3.4调取预先录制的与当前页面对应的问题音频交由音频播放装置5进行播放,提示用户点击当前页面上预设的与问题答案相对应的触发区域,并判断用户是否通过点读指点件1点击了该触发区域,返回判断结果语音。

点读模式和问答模式两种模式即可设置为手动切换,也可以由模式切换模块3.2自动切换。自动切换可以根据特定页面进行切换,例如当摄像装置2检测到封面时,点读装置3切换为点读模式,检测到封底时则切换为问答模式;也可以根据特定图案进行切换,例如在某些页面(例如单元自测页面)印上点读模式或问答模式图形,系统检测到后自动切换为点读模式或问答模式。

专业机构和普通用户均可以通过数据包制作模块3.5制作点读数据包,其步骤为:

1)用户取出一本图书,用相机或扫描仪采集点读系统所需页面的电子图片(封面为必拍项),与点读系统无关的页面可以不采集。

2)用户在“录入系统”(数据包制作模块)中新建一个数据包,对包进行命名,命名可以是图书名称或其他特定人群能辨别的名称,并设定封面、封底对应的电子图片。“录入系统”会为数据包生成唯一的数据包id。“录入系统”可以是手机或平板电脑app,也可以是网站或软件系统。

2)通过图像识别模块3.1提取页面的图像特征,图像识别模块3.1是现有的成熟技术,可以将其部署到app或网站里。

3)在页面的电子图片上设定闭合区域作为触发区域,存储各页面上的触发区域坐标。

4)录制与触发区域对应的点读音频和问题音频,并建立音频与触发区域之间的关联。

5)录制页面在打开还未点击时的默认音频,并建立默认音频与页面之间的关联。

通过数据包制作模块3.5,普通用户也可以为图书、画册、台历、相册等印刷品自定义语音,例如父亲为绘本录制音频后,孩子翻开绘本并进行点击时,与点击区域关联的音频就会自动播放,辅助孩子阅读识字;老师可以为教材的每一页或某几页录制教学音频,学生翻开那些页时,教学音频就自动播放,辅助学生学习。

考虑到目前市场上的普通出版物未对可点读区域作任何标记,读者可能无法快速找到触发区域,本实施例还为触发区域增加了悬停音效,即当点读指点件1经过触发区域上方,且未下降到触发点击动作的临界高度以下时,播放用于表明点读指点件1经过触发区域的提示音,便于用户快速找到页面上存在的触发区域,提高了用户体验。

本实施例中,位置追踪模块3.3采用如下方法对点读指点件进行水平追踪和高度追踪,以判断用户是否对触发区域进行了点击:

1)水平追踪

追踪点读指点件1在页面坐标系上的坐标,当点读指点件1前端一个点或多个点进入触发区域的坐标范围时,判断点读指点件1进入了该触发区域。

2)高度追踪

2.1)如图4所示,在点读过程中,固定于出版物上方的摄像装置2实时拍摄点读指点件1与出版物页面,点读系统的位置追踪模块3.3实时计算点读指点件1的识别面1.6与出版物页面在拍摄图像中的面积之比,记为实时面积比z。

出版物页面在拍摄图像中的实时面积也可以采用出版物封面(或封底)在拍摄图像中的面积进行替代,在计算实时画面比z时,无需再计算其他页面在拍摄图像中的实时面积。

2.2)设置点读指点件1接近出版物到刚好触发点击的位置时,点读指点件1的识别面1.6与出版物页面在拍摄图像中的面积之比为临界面积比z1;临界面积比z1可以实际测试得到,也可以预设为点读指点件1的识别面1.6与出版物页面的实际物理面积比z0的1~1.8倍,具体比例数值以便于用户操作为宜。而实际物理面积比z0可以根据出版物尺寸(扉页一般有记载)、点读指点件1的识别面1.6面积计算得到;也可以按如下方式得到:将点读指点件1与出版物平放在同一平面上,通过摄像装置2获取同一画面下点读指点件1的识别面1.6图像与出版物的页面图像,由用户框选出二者的范围,系统根据用户的框选计算二者的图像面积之比,其值与实际物理面积比z0相等,后一种方法主要用于出版物或点读指点件1尺寸未知的情形。

2.3)若实时画面比z>z1,则点读系统判定当前点读指点件1处于未点击状态;若z≤z1,则点读系统判定当前点读指点件1处于点击状态。

3)当点读指点件1进行了点击动作,且其点击区域上的一个或多个点进入触发区域的坐标范围内时,判断点读指示件对触发区域进行了点击。

4)多页识别与处理

对于展开后为多页的出版物,当摄像机范围内出现多张“可识别”页面时,系统可以根据点读件与多张页面的相对位置判断目前所在页面,激活相应页面,再按照单页进行处理。计算实时面积比时,当前页面面积可以通过图像识别模块3.1识别单页后进行计算,或者取拍摄图像中整体面积除以页面数。

该系统和方法通过摄像装置下点读指点件图像和页面图像的大小关系来判断点读图像相对于页面的高度,不需要识别深度信息,可实施性大幅提高,同时成本大幅降低。

以上给出了本发明的一种典型应用环境,应用该系统和方法可以更好地体现本发明多功能点读指点件的技术效果,但本发明也可以采用其他基于图像识别追踪技术的点读系统。

实施例5

本实施例提供了应用实施例1所提供的多功能点读指点件进行点读的方法,其在实施例4中点读方法的基础上,增加了识别部1.2正反面的检测,具体为:

在点读模式下,当点读系统的位置追踪模块3.3检测到点击锚区1.5点击到页面上的触发区域,若当前拍摄到的识别面为第一识别面1.3,则事件触发模块3.4调取与触发区域对应的第一点读音频交由音频播放装置5播放;若当前拍摄到的识别面为第二识别面1.4,则事件触发模块3.4调取与触发区域对应的第二点读音频交由音频播放装置5播放。两识别面对应的音频可以根据需要设置,例如第一点读音频为中文语音,第二点读音频为英文语音;又如第一点读音频为单词语音,第二点读音频为例句语音;再如第一点读音频为字词读音,第二点读音频为字词解释。第一点读音频、第二点读音频均由专业机构或用户在制作点读数据包时录制,并与触发区域进行关联。

本实施例采用面积较小的点击锚区进行水平定位,可以定位到面积较小的触发区域,提高了水平定位精度;采用面积较大的识别面进行高度定位,能够获得更高的面积比例计算精度,使得通过面积比例判定点击动作的过程更为稳定可靠;采用较大的识别面还有助于图像识别模块更快地捕捉到点击锚区1。

实施例6

本实施例以儿童绘本《大画云南》为例,给出实施例1中点读指点件和实施例5中点读方法的具体应用。

1)制作点读数据包

1.1)选取儿童绘本《大画云南》,用户通过摄像装置2或扫描仪采集页面图像(包括封面封底),点读系统(以下简称系统)自动识别图像特征。

1.2)如图5所示,用户在页面6的图像上设置触发区域6.1,并录入第一点读音频(中文)、第二点读音频(英文)、问题音频、默认音频,以及音频与与页面、触发区域的对应关系;触发区域6.1是一个由几个顶点连接线段组成的闭合规则或不规则图形,用户在页面图像上绘制触发区域6.1后,系统自动采集其外围顶点相对于页面坐标系的坐标,从而得出触发区域的坐标范围。

2)数据配置

2.1)用户用摄像装置2拍摄点读指点件1各个面录入系统。

2.2)把点读指点件1和绘本封面并排放置于同一平面上(不重叠),用摄像装置2将点读指点件1和绘本画面拍摄在同一图片中。

2.3)根据前述图片,在系统中由用户自行绘制矩形框,框选包围绘本封面和点读指点件1轮廓,如图6所示。系统根据设定的两个矩形框区域,自动计算出点读指点件1识别部1.2的面积和绘本封面面积比例值关系,作为“物理面积比z0”,比如图6中z0=1/10=0.1。

2.4)设置点读指点件1的点击锚区1.5:点读指点件1的识别部1.2画面较大,一是为了提示用户该面的作用,二也是为了让点读指点件1更容易被摄像装置2捕捉,但点击锚区1.5可以设置为较小的区域,实现更精确的点读。

2.5)设置点击事件触发的临界面积比z1=物理面积比z0×1.5,当摄像装置2识别到点读指点件1识别面的面积与页面面积(以封面面积进行计算)的比值即实时面积比z≤临界面积比z1,即z≤0.15时,达到触发点击的高度条件,判断用户进行了点击。

3)点读操作

3.1)用户准备好绘本,打开系统,输入数据包id或名称关键字,或扫描封面搜索数据包;如果关键字匹配多个公开的数据包,系统会返回多个包让用户选择其一;如果用户扫描绘本封面来搜索数据包,系统将识别封面图像特征,在数据库中查询该封面对应的数据包返回给用户,如果该封面匹配多个公开的数据包,系统会返回多个包让用户选择其一。

3.2)用户将点读系统(本实施例中采用智能手机)固定于绘本斜上方台灯上,系统检测到绘本封面或者根据用户操作进入点读模式。

3.3)系统识别到某一页面6时,若该页面设置有默认音频,则自动调取默认音频进行播放,检测到用户点击动作时自动中断;当点读指点件1经过触发区域6.1上方,且未下降到触发点击动作的临界高度以下时,播放用于表明点读指点件1经过触发区域的悬停音效。

3.4)用户将点读指点件1的点击锚区1.5指向页面6上的触发区域6.1并进行点击,系统根据点读指点件1朝上画面播放对应音频,当朝上画面为第一识别面1.3时播放中文音频,当朝上画面为第二识别面1.4时播放英文音频。

4)问答操作

4.1)系统检测到绘本封底或者根据用户操作进入问答模式。

4.2)当系统检测到设置有问答音频的页面6时,自动播放该页面对应的问题音频,比如针对儿童的问题:“请指出页面上的大象”。

4.3)用户用点读指点件1指向页面上答案的触发区域6.1,比如此处指向页面上有大象画面的区域。

4.4)当系统检测到点读指点件1的点击锚区1.5与页面图像中事件触发区交叉且高度满足点击条件时,触发执行判断答案对错的业务逻辑,并通过手机扬声器以声音形式反馈给用户。

5)触发区域点击判断

点读过程中,在用户将点读指点件1移动到目标的过程中,为了不让移动过程误触发,系统每隔一定时间(如0.2秒)计算实时面积比z:当z>临界面积比z1时,可以理解为还未进行点击;点读指点件1贴合或接近页面,z在物理面积比z0和临界面积比z1之间,即z0≤z≤z1时,则判断为高度已符合点击条件。

系统再判断点击锚区1.5是否在水平方向上接触到页面上的触发区域,其判断方式为:系统实时采集点击锚区1.5各顶点在页面坐标系的坐标,判断该坐标是否在触发区域的坐标区域内,例如:某三角形点击锚区1.5各顶点相对页面坐标系的实时坐标为(x1,y1)、(x2,y2)、(x3,y3),某矩形触发区域左上、右上、左下、右下各顶点相对页面坐标系的的坐标为(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),当点击锚区1.5任一顶点如(xi,yi)(i=1,2,3)在触发区域内,即x1≤xi≤x2且y3≤yi≤y1时,判断点击锚区1.5在水平方向上接触到了触发区域。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1