一种通过阅读设备进行阅读的方法与设备与流程

文档序号:15690615发布日期:2018-10-16 22:02阅读:167来源:国知局

本申请涉及通信领域,尤其涉及一种用于通过阅读设备进行阅读的技术。



背景技术:

学龄儿童的阅读、识字是小孩成长过程中不可忽视的环节。一直以来,这些活动都是通过传统的书籍、纸张以及父母老师的口口相传来实现。然而,读音和字形的一一对应对儿童识字具有极重要的作用,而父母可能因为忙碌的工作等生活因素,不一定有时间或耐心在家里对儿童进行辅导。另外,普通父母的朗读水平可能也不是很专业,感情色彩、语音语调、语速等掌握不是很好。



技术实现要素:

本申请的一个目的是提供一种用于通过阅读设备进行阅读的方法与设备。

根据本申请的一个方面,提供了一种通过阅读设备进行阅读的方法,其中,所述阅读设备包括投影装置,该方法包括:

根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的另一个方面,提供了一种通过阅读设备进行阅读的方法,其中,所述阅读设备包括投影装置,该方法包括:

用户设备获取第一用户在阅读过程中的朗读音频信息,并将所述朗读音频信息发送至第二用户的所述阅读设备;

所述阅读设备播放所述朗读音频信息,并确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

通过所述投影装置将所述投影信息呈现于所述第二用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的另一个方面,提供了一种用于建立文字与音频间同步映射关系的方法,其中,所述方法包括:

获取训练书页及所述训练书页的朗读音频信息;

通过文字识别从所述训练书页中提取所述训练书页的第一文本串;

通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;

根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。

根据本申请的一个方面,提供了一种阅读设备,其中,所述阅读设备包括投影装置,该设备包括:

第一模块,用于根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

第二模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

第三模块,用于通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的另一个方面,提供了一种通过阅读设备进行阅读的系统,其中,所述阅读设备包括投影装置,该系统包括所述阅读设备和用户设备:

其中,所述用户设备包括:获取模块,用于获取第一用户在阅读过程中的朗读音频信息,并将所述朗读音频信息发送至第二用户的所述阅读设备;

其中,所述阅读设备还包括:播放模块,用于播放所述朗读音频信息,并确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

指示模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

呈现模块,用于通过所述投影装置将所述信息图像呈现于所述第二用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的又一个方面,提供了一种用于建立文字与音频间同步映射关系的视听同步设备,其中,所述设备包括:

音频获取模块,用于获取训练书页及所述训练书页的朗读音频信息;

第一文本串提取模块,用于通过文字识别从所述训练书页中提取所述训练书页的第一文本串;

第二文本串提取模块,用于通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;

同步映射建立模块,用于根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。

根据本申请的一个方面,提供了一种通过阅读设备进行阅读的设备,其中,该设备包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:

根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的另一个方面,提供了一种用于建立文字与音频间同步映射关系的设备,其中,该设备包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:

获取训练书页及所述训练书页的朗读音频信息;

通过文字识别从所述训练书页中提取所述训练书页的第一文本串;

通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;

根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。

根据本申请的一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行:

根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

根据本申请的另一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行:

获取训练书页及所述训练书页的朗读音频信息;

通过文字识别从所述训练书页中提取所述训练书页的第一文本串;

通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;

根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。

与现有技术相比,本申请根据阅读设备的朗读音频信息确定对应的训练书页以及当前阅读位置信息,并基于该当前阅读位置信息将投影信息呈现于用户的在读书页,该方法在播放朗读音频的同时,可以自动投影高亮出对应的文字,加强识字效果;甚至若没有对应的实体书籍,系统可以直接投影电子书页到桌面,大大简化了用户的阅读或识字的过程,提升了用户的使用体验。而且,该方法通过建立文字与音频间同步映射关系的方法,可以实现朗读的音频流(听觉信息)、用户当前的在读书页(视觉信息)、其他辅助音频流(如:背景音乐)、辅助视觉流(如投影到书或桌面上的相关动画、视频等)等信息流的同步播放,大大提升了用户阅读或识字效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个实施例的一种通过阅读设备进行阅读的示例图;

图2示出根据本申请一个实施例的一种通过阅读设备进行阅读的方法流程图;

图3示出本申请中相关坐标系间的坐标转换相关示意图;

图4示出根据本申请另一个实施例的一种通过阅读设备进行阅读的系统方法图;

图5示出根据本申请一个实施例的一种用于建立文字与音频间同步映射关系的方法流程图;

图6示出根据本申请一个实施例的一种阅读设备的设备结构图;

图7示出根据本申请一个实施例的一种通过阅读设备进行阅读的系统示意图;

图8示出根据本申请一个实施例的一种用于建立文字与音频间同步映射关系的视听同步设备的设备结构图;

图9示出可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、ios操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(asic)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在本申请的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。

图1示出了本申请的一个典型场景,阅读设备包括投影装置,阅读设备根据播放的朗读音频信息确定对应的训练书页,以及朗读音频信息对应的当前阅读位置信息,并基于该当前阅读位置信息通过投影装置将投影信息呈现于用户的在读书页,其中,用户的在读书页可以是实体书籍,也可以是用户通过电子屏幕阅读的电子书籍,还可以是投影装置投影的训练书页对应的电子书籍。阅读设备还可以包括摄像装置,阅读设备通过摄像装置拍摄当前用户的在读书页,通过摄像装置与投影装置的坐标转换关系,将对应的投影信息叠加于当前在读书页的当前阅读位置。

图2示出根据本申请一个方面的一种通过阅读设备进行阅读的方法,其中,所述阅读设备包括投影装置,该方法包括步骤s11、步骤s12、步骤s13和步骤s14。在步骤s11中,阅读设备根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;在步骤s12中,阅读设备根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;在步骤s13中,阅读设备通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

具体而言,在步骤s11中,阅读设备根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。其中,朗读音频信息包括与用户正在阅读的文字内容对应的用于朗读的音频信息,训练书页包括包含书页的文字、文字包络信息以及对应的音频信息等的电子书页。例如,用户持有阅读设备,阅读设备包括投影装置,用户当前在读书籍处于投影装置的投影范围。阅读设备基于用户的操作等设置在用户阅读过程中播放朗读音频信息,阅读设备根据该朗读音频信息在本地或云端数据库中确定与之对应的训练书页,并确定该朗读音频信息对应的文字在当前训练书页中的位置,确定该位置为当前阅读位置信息。

当然,本领域技术人员应能理解上述训练书页仅为举例,其他现有的或今后可能出现的训练书页如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在步骤s12中,阅读设备根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置。其中,投影信息包括投影装置呈现于桌面或书页上的虚拟ar信息,如视频信息、高亮标注以及电子书页等,阅读指示信息包括投影信息中用于指示用户当前朗读内容所在位置信息的信息,如投影高亮背景的提示信息等。例如,假设训练书页有一个训练书页坐标系,投影装置有一个投影坐标系,两坐标系间存在最优转换,其中,该最优转换根据训练书页和投影装置投影的电子书页特征匹配得出;阅读设备根据当前阅读位置信息,将其转换到投影坐标系中,确定投影信息中对应位置的阅读指示信息,其中,投影信息包括当前阅读的训练书页对应的电子书页。

当然,本领域技术人员应能理解上述投影信息仅为举例,其他现有的或今后可能出现的投影信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在步骤s13中,阅读设备通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。例如,阅读设备将文字内容对应的投影信息呈现于用户的在读书页,如将文字对应相关视频信息投影于在读书页旁边;同时,阅读设备将阅读提示信息叠加显示与当前在读书页中朗读音频信息对应文字内容的位置。

例如,用户持有用户设备,阅读设备包括投影装置。阅读设备基于用户的操作等开始播放在读书页中的朗读音频信息,如用户在阅读设备的朗读模式下选中某某书籍第x页。阅读设备根据当前播放的朗读音频信息“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”,以及用户的选中操作等确定该音频信息对应的训练书页,以及该音频信息在该训练书页中的位置,如第二排第一个文字至第二排最末尾一个文字等。阅读设备根据该位置信息,将训练书页中第二排的文字的位置信息通过最优变换转换到投影装置的投影坐标系下,得到投影信息中电子书页中的阅读指示位置信息,该位置信息在投影的电子书页中的位置与训练书页中当前阅读位置对应。随后,阅读设备通过投影装置呈现该朗读音频信息对应的电子书页,并叠加显示该电子书页中阅读指示位置,如在“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”的显示位置叠加显示高亮的背景色等。

在一些实施例中,所述阅读设备包括摄像装置;其中,该方法还包括步骤s14(未示出)。在步骤s14中,阅读设备根据所述投影装置至所述摄像装置的坐标映射信息,以及所述摄像装置至所述训练书页的坐标映射信息,确定所述训练书页至所述投影装置的坐标映射信息;其中,在步骤s12中,阅读设备根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置信息。

例如,如图3所示,摄像装置的拍摄图像对应的有一个坐标系为图像坐标系,训练书页有一个对应的训练书页坐标系,投影装置有一个对应的投影坐标系,我们可以通过图像信息的视觉特征和训练库中训练书页的视觉特征进行匹配,根据匹配的特征点,通过最小二乘法计算摄像头图像坐标系t1至训练库书页坐标系t2的最优变换矩阵hin,当然,此过程中我们可以用ransac(randomsampleconsensus,随机抽样一致性)或类似算法去除异常值来提高映射精度。随后,由于摄像装置和投影装置的相对位置是固定的,我们可以得到摄像图像坐标系t1和投影坐标系t3之间的变换hp。基于摄像头图像坐标系t1和训练库书页坐标系t2的最优变换矩阵hin以及摄像图像坐标系t1和投影坐标系t3之间的变换hp得到训练书页坐标系t2和投影坐标系t3的变换hout=hp-1*hin-1。在一些实施例中,阅读设备通过摄像装置采集用户的在读书籍(如实体书籍等),用户的在读页面与阅读设备通过音频信息确定的训练书页相对应。阅读设备根据当前阅读位置信息以及变换hout将当前阅读位置信息在训练书页的位置转换到投影坐标系中,获取对应的阅读指示位置。

在一些实施例中,该方法还包括步骤s15(未示出)。在步骤s15中,阅读设备通过所述摄像装置拍摄所述在读书页,根据所述摄像装置关于所述在读书页的拍摄图像在训练库中确定对应的训练书页,其中,所述在读书页与所述训练书页具有相匹配的特征信息,并确定所述拍摄装置与所述训练书页的坐标映射信息。例如,阅读设备本地或云端数据库中存储有各训练书籍对应的信息:

1)图书的文本流t,按每页文字串联起来。t={p1,p2,...,pn},pi={ti1,ti2,...,tim},i=1,...,n,im是第i页的文字数。

2)图书的所有文本在图书页上的对应矩形外框流b(boundingbox)。b={pb1,pb2,...,pbn},pbi={bi1,bi2,...,bim},i=1,...,n,im是第i页的文字数,其中bij(j=1,...,im)=(top-left,bottom-right)是文字tij在所在页中的包络矩形的左上角和右下角坐标,单位为像素。

3)图书的所有文本的读音在音频流中对应的时间戳流s。s={ps1,ps2,...,psn},psi={si1,si2,...,sim},im是第i页的文字数,其中sij(j=1,...,im)=(start,end)是字tij在音频流中的起始和结束时间。

此处,视觉特征信息包括但不限于图像、文字、图像对应的文本流单元pi以及文本位置流单元pbi等信息。

例如,阅读设备通过摄像装置拍摄用户当前在读书页的图像信息,阅读设备根据该在读书页的图像信息通过计算机视觉算法得到在读书页相关的图像信息,并通过该图像信息计算当前在读书页中的文本流单元pi以及文本位置流单元pbi,并与数据库中训练书页进行匹配识别,确定与其一致的在读书页对应的训练书页;随后,通过建立图像信息相关的图像坐标系和训练书页相关的训练书页坐标系,并通过图像信息中在读书页与训练书页的特征点进行特征匹配,计算两坐标系间的最优转换矩阵hin得到该图像信息与训练书页的坐标映射关系。

在一些实施例中,所述摄像装置的拍摄图像至所述训练书页的坐标映射信息包括但不限于:所述摄像装置所拍摄的在读书籍的图像与训练书籍的坐标映射信息,其中,所述在读书籍与所述训练书籍相对应;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书且两者页码间隔小于或等于预定的页码间距阈值信息;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书且两者阅读时间间隔小于或等于预定的阅读时间间隔阈值信息。其中,所述训练书籍包括阅读设备根据拍摄到的用户当前在读书籍的页面在本地或云端数据库中匹配确定的具有相同文本流单元pi与文本位置流单元pbi的训练书籍,还包括阅读书籍根据用户的操作预设的训练书籍,其中,该训练书籍与在读书籍为同一本书。

例如,阅读设备确定当前在读书页与训练书页的坐标映射关系后,用户翻页后,若阅读设备根据朗读音频信息确定当前用户阅读的其他在读书页为之前训练书籍中的某一页,且当前书籍摆放未有变化,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。在一些实施例中,阅读设备根据拍摄到的其他在读书页确定对应的其他训练书页后,将其他训练书页与之前的训练书页进行比较,若其他训练书页与之前在读书页间的页码间隔小于或等于预定的页码间隔阈值信息,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。在另一些实施例中,阅读设备根据拍摄到的其他在读书页确定对应的其他训练书页后,将其他训练书页当前阅读时间与之前的训练书页的阅读时间进行比较,若两者阅读时间间隔小于或等于预定的时间间隔阈值信息,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。

在一些实施例中,该方法还包括步骤s16(未示出)。在步骤s16中,阅读设备通过所述摄像装置拍摄所述用户的在读书页,检测所述在读书页是否与所述训练书页相匹配;在步骤s13中,若所述在读书页与所述训练书页相匹配,阅读设备通过所述投影装置将所述投影信息呈现于在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息;否则,提供所述在读书页与所述训练书页不匹配的提示信息。在一些实施例中,所述提示信息包括但不限于:关于所述在读书页或所述训练书页的语音提示信息;关于所述在读书页或所述训练书页的投影提示信息;关于所述在读书页与所述训练书页不匹配的语音提示信息;关于所述在读书页与所述训练书页不匹配的投影提示信息。例如,阅读设备通过摄像装置拍摄用户的在读书页,并基于视觉特征信息确定在读书页对应的训练书页,并将该训练书页与朗读音频信息对应的训练书页进行匹配,确定两个训练书页是否为同一训练书页,若是,投影装置将对应的投影信息呈现于在读书页;否则,阅读设备提示不匹配的提示信息,其中,提示信息可以是当前在读书页或音频信息对应的训练书页的语音提示信息,可以是在读书页或音频信息对应的训练书页的投影提示信息,可以是不匹配的语音或投影提示信息。

例如,阅读设备通过摄像装置拍摄当前用户在读书页的相关图像,如用户正在阅读xxx书的第10页。阅读设备根据该图像信息的视觉特征信息与数据库中训练书页进行匹配,确定当前用户在读书页对应的训练书页为xxx书第10页。阅读设备将该信息与朗读音频信息对应的训练书页进行匹配,若一致,则阅读设备将对应的投影信息呈现于在读书页;若朗读音频信息对应的训练书页为xxx书第9页,阅读设备检测到在读书页与朗读音频信息对应的训练书页不匹配,提示不匹配的提示信息,如“当前在读书页为xxx书第10页,当前朗读书页为xxx书第9页”、“当前在读书页与朗读对应的训练书页不匹配”等语音或者投影提示信息。

当然,本领域技术人员应能理解上述提示信息仅为举例,其他现有的或今后可能出现的提示信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在一些实施例中,在步骤s11中,阅读设备根据所述阅读设备在用户阅读过程中播放的朗读音频信息,结合音频文字同步映射关系,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息,其中,所述音频文字同步映射关系包括书页中文字及该文字的朗读音频的映射关系。例如,音频文字同步映射关系包括上述页面中的文字流单元pi与文字音频单元流psi的映射关系。在一些实施例中,在步骤s11中,阅读设备根据所述阅读设备在用户阅读过程中播放的朗读音频信息,结合音频文字同步映射关系,确定所述朗读音频信息对应的训练书页,其中,所述音频文字同步映射关系包括书页中文字及该文字的朗读音频的映射关系,并根据所述朗读音频信息所对应的文字信息确定所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。

例如,阅读设备根据朗读的音频信息等,在本地或云端数据库中通过音频单元流进行匹配,确定与其具有相同音频单元流的训练书页,并根据音频文字同步映射关系或者语音识别等方式,确定当前音频信息对应的文字内容,通过ocr识别等确定当前训练书页中对应的文字内容在训练书页中的位置信息,从而得到对应的当前阅读位置信息。

在一些实施例中,所述音频文字同步映射关系包括书页中文字、该文字的朗读音频及该文字在该书页中位置的映射关系。例如,音频文字同步映射关系包括每页对应的文字单元pi、文字包络信息(每个文字对应的左上角和右下角坐标位置,单位为像素)pbi以及文本音频单元流psi间的对应关系。

例如,阅读设备根据朗读的音频信息等,在本地或云端数据库中通过音频文字同步映射关系中的音频单元流进行匹配,确定与其具有相同音频单元流的训练书页,并根据音频文字同步映射关系,确定当前音频信息对应的文字内容以及文字对应的位置信息,从而得到对应的当前阅读位置信息。

当然,本领域技术人员应能理解上述音频文字同步映射关系仅为举例,其他现有的或今后可能出现的音频文字同步映射关系如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在一些实施例中,所述阅读指示信息包括但不限于:关于所述朗读音频信息对应文字的加亮信息;关于所述朗读音频信息对应文字的划线信息;指向所述朗读音频信息对应文字的虚拟手指信息。

例如,阅读设备确定朗读音频信息对应阅读位置为“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”句子中的“我”,在训练书页中确定对应位置为第二排第二个文字。阅读设备通过投影装置投影该文字相关投影信息(如相关的视频信息或者文字注解信息等)时,在该文字对应的位置叠加显示对应阅读指示信息,如对该投影信息中在读书页中第二排第二个文字投影对应的高亮背景,或者在文字下方投影下划线,或者在下方呈现虚拟手指指向该位置等。

在一些实施例中,所述在读书页包括通过所述投影装置投影呈现的电子书页。例如,用户在读书页可以是阅读设备通过投影装置投影在当前用户桌面上的电子书页,后续,阅读设备将相关阅读提示信息叠加显示于该投影信息。

图4示出本申请一种通过阅读设备进行阅读的方法,其中,所述阅读设备包括投影装置,该方法包括:

用户设备获取第一用户在阅读过程中的朗读音频信息,并将所述朗读音频信息发送至第二用户的所述阅读设备;

所述阅读设备播放所述朗读音频信息,并确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

通过所述投影装置将所述投影信息呈现于所述第二用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

例如,第一用户持有用户设备(如手机等),第二用户持有阅读设备,阅读设备包括投影装置,用户设备与阅读设备通过云端建立了通信连接。第一用户在阅读过程中朗读对应的文字内容,用户设备获取该朗读音频信息,并将该朗读音频信息发送至阅读设备。阅读设备播放该朗读音频信息,并基于朗读音频信息以及音频文字同步映射关系等,确定对应的训练书页以及训练书页中的当前阅读位置信息。随后,阅读设备根据坐标映射关系根据当前阅读位置信息确定投影信息中的阅读指示信息,并在投影相关投影信息的同时,将该阅读提示信息叠加显示与用户的在读书页。

在一些实施例中,所述用户设备还包括摄像装置;其中,所述用户设备获取第一用户在阅读过程中的朗读音频信息,并将所述朗读音频信息发送至第二用户的所述阅读设备包括:

所述用户设备通过所述摄像装置获取第一用户在阅读过程中的指读操作及朗读音频信息,并将关于所述指读操作的所拍摄图像信息及所述朗读音频信息发送至第二用户的所述阅读设备;

其中,所述确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息,包括:

根据所述所拍摄图像信息确定所述朗读音频信息对应的训练书页;

根据所述指读操作在所述所拍摄图像信息中的指示位置信息,确定所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。

例如,用户设备包括摄像装置,用户设备通过摄像装置拍摄第一用户的指读操作相关的图像,并获取用户在指读时对所指的文字内容进行朗读的朗读音频信息,用户设备将该图像和朗读音频信息发送至阅读设备。阅读设备通过摄像头拍摄当前用户的指读操作对应的图像,并根据色调直方图反向映射方法检测手指从而确定图像中指读操作手指所指的位置,并根据当前图像中指读操作的指示位置信息,将该位置通过坐标转换获取对应的训练书页中阅读位置,其中,阅读设备通过音频文字同步映射关系等确定朗读音频信息对应的训练书页。

图5示出根据本申请一个方面的一种用于建立文字与音频间同步映射关系的方法,其中,该方法包括步骤s21、步骤s22、步骤s23和步骤s24。在步骤s21中,视听同步设备获取训练书页及所述训练书页的朗读音频信息;在步骤s22中,视听同步设备通过文字识别从所述训练书页中提取所述训练书页的第一文本串;在步骤s23中,视听同步设备通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;在步骤s24中,视听同步设备根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。其中,第一文本串包括文本流t,按每页文字串联起来。t={p1,p2,...,pn},pi={ti1,ti2,...,tim},i=1,...,n,im是第i页的文字数;第二文本串包括文本的读音在音频流中对应的时间戳流s。s={ps1,ps2,...,psn},psi={si1,si2,...,sim},im是第i页的文字数,其中sij(j=1,...,im)=(start,end)是字tij在音频流中的起始和结束时间。

例如,视听同步设备接收阅读设备上传的训练书页以及该训练书页对应的朗读音频信息,或者视听同步设备基于用户的操作选中对应的训练书页,并获取用户对训练书页中内容的朗读音频信息。视听同步设备用文字识别算法(比如:ocr(opticalcharacterrecognition,光学字符识别))得到来自训练书页的第一文本串(如文本流t-image等)。在一些实施例中,视听同步设备通过语音识别相关算法(比如:hmm(隐式马尔科夫)模型、dtw(动态时间规整)模型和深度学习相关模型)识别朗读音频,得到来自朗读音频信息的第二文本串(如时间戳流s)。视听同步设备根据第一文本串和第二文本串建立训练书页中文字与文字的朗读音频的同步映射关系(t,s)。

在一些实施例中,在步骤s22中,视听同步设备通过文字识别从所述训练书页中提取所述训练书页的第一文本串,以及所述第一文本串中文字的位置信息;在步骤s24中,视听同步设备根据所述第一文本串、所述第一文本串中文字的位置信息以及所述第二文本串建立所述训练书页中文字、文字的位置及文字的朗读音频的同步映射关系。其中,第一文本串的位置信息包括文本在图书页上的对应矩形外框流b(boundingbox)。b={pb1,pb2,...,pbn},pbi={bi1,bi2,...,bim},i=1,...,n,im是第i页的文字数,其中bij(j=1,...,im)=(top-left,bottom-right)是文字tij在所在页中的包络矩形的左上角和右下角坐标,单位为像素。

例如,视听同步设备用文字识别算法(比如:ocr(opticalcharacterrecognition,光学字符识别)、mser(最大稳定极值区域)、swt(笔画宽度变换)算法和基于深度学习的模型),得到来自训练书页的第一文本串和第一文本串的位置信息。随后,视听同步设备根据所述第一文本串、所述第一文本串中文字的位置信息以及所述第二文本串建立所述训练书页中文字、文字的位置及文字的朗读音频的同步映射关系,如得到训练书页的三元组(t,b,s)。

在一些实施例中,该方法还包括步骤s25(未示出)。在步骤s25中,视听同步设备根据所述第一文本串与所述第二文本串,以及一个或多个第三文本串,建立所述训练书页中文字与文字的朗读音频的同步映射关系,其中,所述第三文本串是通过语音识别从所述训练书页的其它朗读音频信息中提取的。

例如,考虑到语音和图像识别的错误率,系统还需对t-speech和t-image进行交叉验证,我们可以用“最长公共子序列”算法。同一个文字,只有语音和图像识别结果完全一致才确认成功。一般而言,t-image是基于每一页的,所以我们只需对每一页进行匹配,然后把所有页内容顺序串联即可。

“最长公共子序列”是最终的文本流t的基础。我们会以朗读的音频信息作为播放基准,特别对交叉验证失败的部分,根据一个或多个文本串进行人工处理:

a)t-speech中有语音识别错误的字,导致交叉验证失败,人工改正t-speech中该文字,以通过交叉验证;

b)因为朗读者漏读,t-speech中有文字缺失,t-image中文字因此没有对应,对缺失的音节或者用语音合成补上,或者直接跳过;

c)因为朗读者多读,或者口头禅等,t-speech中有多出来的文字,在最后结果t中,这部分文字可以被替换为空格,对应矩形外框流(boundingbox)为空(也就是不在书面上显示);

d)t-speech中语音识别正确,但t-image图像识别失败,导致交叉验证失败手动修改t-image识别结果,包括修改文字和矩形外框流(boundingbox),然后再次进行交叉验证。最后,得到结果三元组(t、b、s)。

图6示出根据本申请一个方面的一种阅读设备,其中,所述阅读设备包括投影装置,该设备包括第一模块、第二模块和第三模块。第一模块,用于根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;第二模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;第三模块,用于通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

具体而言,第一模块,用于根据所述阅读设备在用户阅读过程中播放的朗读音频信息,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。其中,朗读音频信息包括与用户正在阅读的文字内容对应的用于朗读的音频信息,训练书页包括包含书页的文字、文字包络信息以及对应的音频信息等的电子书页。例如,用户持有阅读设备,阅读设备包括投影装置,用户当前在读书籍处于投影装置的投影范围。阅读设备基于用户的操作等设置在用户阅读过程中播放朗读音频信息,阅读设备根据该朗读音频信息在本地或云端数据库中确定与之对应的训练书页,并确定该朗读音频信息对应的文字在当前训练书页中的位置,确定该位置为当前阅读位置信息。

当然,本领域技术人员应能理解上述训练书页仅为举例,其他现有的或今后可能出现的训练书页如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

第二模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置。其中,投影信息包括投影装置呈现于桌面或书页上的虚拟ar信息,如视频信息、高亮标注以及电子书页等,阅读指示信息包括投影信息中用于指示用户当前朗读内容所在位置信息的信息,如投影高亮背景的提示信息等。例如,假设训练书页有一个训练书页坐标系,投影装置有一个投影坐标系,两坐标系间存在最优转换,其中,该最优转换根据训练书页和投影装置投影的电子书页特征匹配得出;阅读设备根据当前阅读位置信息,将其转换到投影坐标系中,确定投影信息中对应位置的阅读指示信息,其中,投影信息包括当前阅读的训练书页对应的电子书页。

当然,本领域技术人员应能理解上述投影信息仅为举例,其他现有的或今后可能出现的投影信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

第三模块,用于通过所述投影装置将所述投影信息呈现于所述用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。例如,阅读设备将文字内容对应的投影信息呈现于用户的在读书页,如将文字对应相关视频信息投影于在读书页旁边;同时,阅读设备将阅读提示信息叠加显示与当前在读书页中朗读音频信息对应文字内容的位置。

例如,用户持有用户设备,阅读设备包括投影装置。阅读设备基于用户的操作等开始播放在读书页中的朗读音频信息,如用户在阅读设备的朗读模式下选中某某书籍第x页。阅读设备根据当前播放的朗读音频信息“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”,以及用户的选中操作等确定该音频信息对应的训练书页,以及该音频信息在该训练书页中的位置,如第二排第一个文字至第二排最末尾一个文字等。阅读设备根据该位置信息,将训练书页中第二排的文字的位置信息通过最优变换转换到投影装置的投影坐标系下,得到投影信息中电子书页中的阅读指示位置信息,该位置信息在投影的电子书页中的位置与训练书页中当前阅读位置对应。随后,阅读设备通过投影装置呈现该朗读音频信息对应的电子书页,并叠加显示该电子书页中阅读指示位置,如在“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”的显示位置叠加显示高亮的背景色等。

在一些实施例中,所述阅读设备包括摄像装置;其中,该设备还包括第四模块(未示出)。第四模块,用于根据所述投影装置至所述摄像装置的坐标映射信息,以及所述摄像装置至所述训练书页的坐标映射信息,确定所述训练书页至所述投影装置的坐标映射信息;其中,第二模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置信息。

例如,如图3所示,摄像装置的拍摄图像对应的有一个坐标系为图像坐标系,训练书页有一个对应的训练书页坐标系,投影装置有一个对应的投影坐标系,我们可以通过图像信息的视觉特征和训练库中训练书页的视觉特征进行匹配,根据匹配的特征点,通过最小二乘法计算摄像头图像坐标系t1至训练库书页坐标系t2的最优变换矩阵hin,当然,此过程中我们可以用ransac(randomsampleconsensus,随机抽样一致性)或类似算法去除异常值来提高映射精度。随后,由于摄像装置和投影装置的相对位置是固定的,我们可以得到摄像图像坐标系t1和投影坐标系t3之间的变换hp。基于摄像头图像坐标系t1和训练库书页坐标系t2的最优变换矩阵hin以及摄像图像坐标系t1和投影坐标系t3之间的变换hp得到训练书页坐标系t2和投影坐标系t3的变换hout=hp-1*hin-1。在一些实施例中,阅读设备通过摄像装置采集用户的在读书籍(如实体书籍等),用户的在读页面与阅读设备通过音频信息确定的训练书页相对应。阅读设备根据当前阅读位置信息以及变换hout将当前阅读位置信息在训练书页的位置转换到投影坐标系中,获取对应的阅读指示位置。

在一些实施例中,该设备还包括第五模块(未示出)。第五模块,用于通过所述摄像装置拍摄所述在读书页,根据所述摄像装置关于所述在读书页的拍摄图像在训练库中确定对应的训练书页,其中,所述在读书页与所述训练书页具有相匹配的特征信息,并确定所述拍摄装置与所述训练书页的坐标映射信息。例如,阅读设备本地或云端数据库中存储有各训练书籍对应的信息:

1)图书的文本流t,按每页文字串联起来。t={p1,p2,...,pn},pi={ti1,ti2,...,tim},i=1,...,n,im是第i页的文字数。

2)图书的所有文本在图书页上的对应矩形外框流b(boundingbox)。b={pb1,pb2,...,pbn},pbi={bi1,bi2,...,bim},i=1,...,n,im是第i页的文字数,其中bij(j=1,...,im)=(top-left,bottom-right)是文字tij在所在页中的包络矩形的左上角和右下角坐标,单位为像素。

3)图书的所有文本的读音在音频流中对应的时间戳流s。s={ps1,ps2,...,psn},psi={si1,si2,...,sim},im是第i页的文字数,其中sij(j=1,...,im)=(start,end)是字tij在音频流中的起始和结束时间。

此处,视觉特征信息包括但不限于图像、文字、图像对应的文本流单元pi以及文本位置流单元pbi等信息。

例如,阅读设备通过摄像装置拍摄用户当前在读书页的图像信息,阅读设备根据该在读书页的图像信息通过计算机视觉算法得到在读书页相关的图像信息,并通过该图像信息计算当前在读书页中的文本流单元pi以及文本位置流单元pbi,并与数据库中训练书页进行匹配识别,确定与其一致的在读书页对应的训练书页;随后,通过建立图像信息相关的图像坐标系和训练书页相关的训练书页坐标系,并通过图像信息中在读书页与训练书页的特征点进行特征匹配,计算两坐标系间的最优转换矩阵hin得到该图像信息与训练书页的坐标映射关系。

在一些实施例中,所述摄像装置的拍摄图像至所述训练书页的坐标映射信息包括但不限于:所述摄像装置所拍摄的在读书籍的图像与训练书籍的坐标映射信息,其中,所述在读书籍与所述训练书籍相对应;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书且两者页码间隔小于或等于预定的页码间距阈值信息;所述摄像装置所拍摄的其它在读书页的图像与所述其它训练书页的坐标映射信息,其中,所述其它在读书页与所述其它训练书页相对应,所述其它在读书页与所述在读书页属于同一本书且两者阅读时间间隔小于或等于预定的阅读时间间隔阈值信息。其中,所述训练书籍包括阅读设备根据拍摄到的用户当前在读书籍的页面在本地或云端数据库中匹配确定的具有相同文本流单元pi与文本位置流单元pbi的训练书籍,还包括阅读书籍根据用户的操作预设的训练书籍,其中,该训练书籍与在读书籍为同一本书。

例如,阅读设备确定当前在读书页与训练书页的坐标映射关系后,用户翻页后,若阅读设备根据朗读音频信息确定当前用户阅读的其他在读书页为之前训练书籍中的某一页,且当前书籍摆放未有变化,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。在一些实施例中,阅读设备根据拍摄到的其他在读书页确定对应的其他训练书页后,将其他训练书页与之前的训练书页进行比较,若其他训练书页与之前在读书页间的页码间隔小于或等于预定的页码间隔阈值信息,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。在另一些实施例中,阅读设备根据拍摄到的其他在读书页确定对应的其他训练书页后,将其他训练书页当前阅读时间与之前的训练书页的阅读时间进行比较,若两者阅读时间间隔小于或等于预定的时间间隔阈值信息,阅读设备直接基于之前的在读书页与训练书页的坐标映射关系和其他在读位置信息,得到当前其他在读书页的其他阅读指示信息。

在一些实施例中,该设备还包括第六模块(未示出)。第六模块,用于通过所述摄像装置拍摄所述用户的在读书页,检测所述在读书页是否与所述训练书页相匹配;第三模块,若所述在读书页与所述训练书页相匹配,用于通过所述投影装置将所述投影信息呈现于在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息;否则,用于提供所述在读书页与所述训练书页不匹配的提示信息。在一些实施例中,所述提示信息包括但不限于:关于所述在读书页或所述训练书页的语音提示信息;关于所述在读书页或所述训练书页的投影提示信息;关于所述在读书页与所述训练书页不匹配的语音提示信息;关于所述在读书页与所述训练书页不匹配的投影提示信息。例如,阅读设备通过摄像装置拍摄用户的在读书页,并基于视觉特征信息确定在读书页对应的训练书页,并将该训练书页与朗读音频信息对应的训练书页进行匹配,确定两个训练书页是否为同一训练书页,若是,投影装置将对应的投影信息呈现于在读书页;否则,阅读设备提示不匹配的提示信息,其中,提示信息可以是当前在读书页或音频信息对应的训练书页的语音提示信息,可以是在读书页或音频信息对应的训练书页的投影提示信息,可以是不匹配的语音或投影提示信息。

例如,阅读设备通过摄像装置拍摄当前用户在读书页的相关图像,如用户正在阅读xxx书的第10页。阅读设备根据该图像信息的视觉特征信息与数据库中训练书页进行匹配,确定当前用户在读书页对应的训练书页为xxx书第10页。阅读设备将该信息与朗读音频信息对应的训练书页进行匹配,若一致,则阅读设备将对应的投影信息呈现于在读书页;若朗读音频信息对应的训练书页为xxx书第9页,阅读设备检测到在读书页与朗读音频信息对应的训练书页不匹配,提示不匹配的提示信息,如“当前在读书页为xxx书第10页,当前朗读书页为xxx书第9页”、“当前在读书页与朗读对应的训练书页不匹配”等语音或者投影提示信息。

当然,本领域技术人员应能理解上述提示信息仅为举例,其他现有的或今后可能出现的提示信息如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在一些实施例中,第一模块,用于根据所述阅读设备在用户阅读过程中播放的朗读音频信息,结合音频文字同步映射关系,确定对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息,其中,所述音频文字同步映射关系包括书页中文字及该文字的朗读音频的映射关系。例如,音频文字同步映射关系包括上述页面中的文字流单元pi与文字音频单元流psi的映射关系。在一些实施例中,第一模块,用于根据所述阅读设备在用户阅读过程中播放的朗读音频信息,结合音频文字同步映射关系,确定所述朗读音频信息对应的训练书页,其中,所述音频文字同步映射关系包括书页中文字及该文字的朗读音频的映射关系,并根据所述朗读音频信息所对应的文字信息确定所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。

例如,阅读设备根据朗读的音频信息等,在本地或云端数据库中通过音频单元流进行匹配,确定与其具有相同音频单元流的训练书页,并根据音频文字同步映射关系或者语音识别等方式,确定当前音频信息对应的文字内容,通过ocr识别等确定当前训练书页中对应的文字内容在训练书页中的位置信息,从而得到对应的当前阅读位置信息。

在一些实施例中,所述音频文字同步映射关系包括书页中文字、该文字的朗读音频及该文字在该书页中位置的映射关系。例如,音频文字同步映射关系包括每页对应的文字单元pi、文字包络信息(每个文字对应的左上角和右下角坐标位置,单位为像素)pbi以及文本音频单元流psi间的对应关系。

例如,阅读设备根据朗读的音频信息等,在本地或云端数据库中通过音频文字同步映射关系中的音频单元流进行匹配,确定与其具有相同音频单元流的训练书页,并根据音频文字同步映射关系,确定当前音频信息对应的文字内容以及文字对应的位置信息,从而得到对应的当前阅读位置信息。

当然,本领域技术人员应能理解上述音频文字同步映射关系仅为举例,其他现有的或今后可能出现的音频文字同步映射关系如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

在一些实施例中,所述阅读指示信息包括但不限于:关于所述朗读音频信息对应文字的加亮信息;关于所述朗读音频信息对应文字的划线信息;指向所述朗读音频信息对应文字的虚拟手指信息。

例如,阅读设备确定朗读音频信息对应阅读位置为“在我的后园,可以看见墙外有两株树,一株是枣树,还有一株也是枣树”句子中的“我”,在训练书页中确定对应位置为第二排第二个文字。阅读设备通过投影装置投影该文字相关投影信息(如相关的视频信息或者文字注解信息等)时,在该文字对应的位置叠加显示对应阅读指示信息,如对该投影信息中在读书页中第二排第二个文字投影对应的高亮背景,或者在文字下方投影下划线,或者在下方呈现虚拟手指指向该位置等。

在一些实施例中,所述在读书页包括通过所述投影装置投影呈现的电子书页。例如,用户在读书页可以是阅读设备通过投影装置投影在当前用户桌面上的电子书页,后续,阅读设备将相关阅读提示信息叠加显示于该投影信息。

图7示出本申请一种通过阅读设备进行阅读的系统,其中,所述阅读设备包括投影装置,该系统包括所述阅读设备和用户设备:

其中,所述用户设备包括:获取模块,用于获取第一用户在阅读过程中的朗读音频信息,并将所述朗读音频信息发送至第二用户的所述阅读设备;

其中,所述阅读设备还包括:播放模块,用于播放所述朗读音频信息,并确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息;

指示模块,用于根据所述当前阅读位置信息,及所述训练书页至所述投影装置的坐标映射关系,确定所述投影信息中的阅读指示信息,其中,所述阅读指示信息在所述投影信息中的位置对应于所述当前阅读位置;

呈现模块,用于通过所述投影装置将所述投影信息呈现于所述第二用户的在读书页,其中,所述阅读指示信息叠加于所述在读书页中与所述朗读音频信息同步的文字信息。

例如,第一用户持有用户设备(如手机等),第二用户持有阅读设备,阅读设备包括投影装置,用户设备与阅读设备通过云端建立了通信连接。第一用户在阅读过程中朗读对应的文字内容,用户设备获取该朗读音频信息,并将该朗读音频信息发送至阅读设备。阅读设备播放该朗读音频信息,并基于朗读音频信息以及音频文字同步映射关系等,确定对应的训练书页以及训练书页中的当前阅读位置信息。随后,阅读设备根据坐标映射关系根据当前阅读位置信息确定投影信息中的阅读指示信息,并在投影相关投影信息的同时,将该阅读提示信息叠加显示与用户的在读书页。

在一些实施例中,所述用户设备还包括摄像装置;其中,所述获取模块用于:

所述用户设备通过所述摄像装置获取第一用户在阅读过程中的指读操作及朗读音频信息,并将关于所述指读操作的所拍摄图像信息及所述朗读音频信息发送至第二用户的所述阅读设备;

其中,所述确定所述朗读音频信息对应的训练书页及所述训练书页中与所述朗读音频信息对应的当前阅读位置信息,包括:

根据所述所拍摄图像信息确定所述朗读音频信息对应的训练书页;

根据所述指读操作在所述所拍摄图像信息中的指示位置信息,确定所述训练书页中与所述朗读音频信息对应的当前阅读位置信息。

例如,用户设备包括摄像装置,用户设备通过摄像装置拍摄第一用户的指读操作相关的图像,并获取用户在指读时对所指的文字内容进行朗读的朗读音频信息,用户设备将该图像和朗读音频信息发送至阅读设备。阅读设备通过摄像头拍摄当前用户的指读操作对应的图像,并根据色调直方图反向映射方法检测手指从而确定图像中指读操作手指所指的位置,并根据当前图像中指读操作的指示位置信息,将该位置通过坐标转换获取对应的训练书页中阅读位置,其中,阅读设备通过音频文字同步映射关系等确定朗读音频信息对应的训练书页。

图8示出根据本申请一个方面的一种用于建立文字与音频间同步映射关系的视听同步设备,其中,该设备包括音频获取模块、第一文本串提取模块、第二文本串提取模块和同步映射建立模块。音频获取模块,用于获取训练书页及所述训练书页的朗读音频信息;第一文本串提取模块,用于通过文字识别从所述训练书页中提取所述训练书页的第一文本串;第二文本串提取模块,用于通过语音识别从所述朗读音频信息中提取所述朗读音频信息对应的第二文本串;同步映射建立模块,用于根据所述第一文本串与所述第二文本串建立所述训练书页中文字与文字的朗读音频的同步映射关系。其中,第一文本串包括文本流t,按每页文字串联起来。t={p1,p2,...,pn},pi={ti1,ti2,...,tim},i=1,...,n,im是第i页的文字数;第二文本串包括文本的读音在音频流中对应的时间戳流s。s={ps1,ps2,...,psn},psi={si1,si2,...,sim},im是第i页的文字数,其中sij(j=1,...,im)=(start,end)是字tij在音频流中的起始和结束时间。

例如,视听同步设备接收阅读设备上传的训练书页以及该训练书页对应的朗读音频信息,或者视听同步设备基于用户的操作选中对应的训练书页,并获取用户对训练书页中内容的朗读音频信息。视听同步设备用文字识别算法(比如:ocr(opticalcharacterrecognition,光学字符识别))得到来自训练书页的第一文本串(如文本流t-image等)。在一些实施例中,视听同步设备通过语音识别相关算法(比如:hmm(隐式马尔科夫)模型、dtw(动态时间规整)模型和深度学习相关模型)识别朗读音频,得到来自朗读音频信息的第二文本串(如时间戳流s)。视听同步设备根据第一文本串和第二文本串建立训练书页中文字与文字的朗读音频的同步映射关系(t,s)。

在一些实施例中,第一文本串提取模块,用于通过文字识别从所述训练书页中提取所述训练书页的第一文本串,以及所述第一文本串中文字的位置信息;同步映射建立模块,用于根据所述第一文本串、所述第一文本串中文字的位置信息以及所述第二文本串建立所述训练书页中文字、文字的位置及文字的朗读音频的同步映射关系。其中,第一文本串的位置信息包括文本在图书页上的对应矩形外框流b(boundingbox)。b={pb1,pb2,...,pbn},pbi={bi1,bi2,...,bim},i=1,...,n,im是第i页的文字数,其中bij(j=1,...,im)=(top-left,bottom-right)是文字tij在所在页中的包络矩形的左上角和右下角坐标,单位为像素。

例如,视听同步设备用文字识别算法(比如:ocr(opticalcharacterrecognition,光学字符识别)、mser(最大稳定极值区域)、swt(笔画宽度变换)算法和基于深度学习的模型),得到来自训练书页的第一文本串和第一文本串的位置信息。随后,视听同步设备根据所述第一文本串、所述第一文本串中文字的位置信息以及所述第二文本串建立所述训练书页中文字、文字的位置及文字的朗读音频的同步映射关系,如得到训练书页的三元组(t,b,s)。

在一些实施例中,该设备还包括第二映射建立模块(未示出)。第二映射建立模块,用于根据所述第一文本串与所述第二文本串,以及一个或多个第三文本串,建立所述训练书页中文字与文字的朗读音频的同步映射关系,其中,所述第三文本串是通过语音识别从所述训练书页的其它朗读音频信息中提取的。

例如,考虑到语音和图像识别的错误率,系统还需对t-speech和t-image进行交叉验证,我们可以用“最长公共子序列”算法。同一个文字,只有语音和图像识别结果完全一致才确认成功。一般而言,t-image是基于每一页的,所以我们只需对每一页进行匹配,然后把所有页内容顺序串联即可。

“最长公共子序列”是最终的文本流t的基础。我们会以朗读的音频信息作为播放基准,特别对交叉验证失败的部分,根据一个或多个文本串进行人工处理:

a)t-speech中有语音识别错误的字,导致交叉验证失败,人工改正t-speech中该文字,以通过交叉验证;

b)因为朗读者漏读,t-speech中有文字缺失,t-image中文字因此没有对应,对缺失的音节或者用语音合成补上,或者直接跳过;

c)因为朗读者多读,或者口头禅等,t-speech中有多出来的文字,在最后结果t中,这部分文字可以被替换为空格,对应矩形外框流(boundingbox)为空(也就是不在书面上显示);

d)t-speech中语音识别正确,但t-image图像识别失败,导致交叉验证失败手动修改t-image识别结果,包括修改文字和矩形外框流(boundingbox),然后再次进行交叉验证。最后,得到结果三元组(t、b、s)。

本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如前任一项所述的方法被执行。

本申请还提供了一种计算机设备,所述计算机设备包括:

一个或多个处理器;

存储器,用于存储一个或多个计算机程序;

当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。

图9示出了可被用于实施本申请中所述的各个实施例的示例性系统;

如图9所示在一些实施例中,系统300能够作为各所述实施例中的任意一个阅读设备。在一些实施例中,系统300可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或nvm/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器305)。

对于一个实施例,系统控制模块310可包括任意适当的接口控制器,以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块310可包括存储器控制器模块330,以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例,系统存储器315可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。

对于一个实施例,系统控制模块310可包括一个或多个输入/输出(i/o)控制器,以向nvm/存储设备320及(一个或多个)通信接口325提供接口。

例如,nvm/存储设备320可被用于存储数据和/或指令。nvm/存储设备320可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。

nvm/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,nvm/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例,(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如,存储器控制器模块330)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。

在各个实施例中,系统300可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、rf、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(ram,dram,sram);以及非易失性存储器,诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram);以及磁性和光学存储设备(硬盘、磁带、cd、dvd);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1