页码定位方法、基于其的辅助阅读方法及应用与流程

文档序号:32447567发布日期:2022-12-07 01:02阅读:156来源:国知局
页码定位方法、基于其的辅助阅读方法及应用与流程

1.本发明的实施方式涉及数据处理领域,更具体地,本发明的实施方式涉及页码定位方法、基于其的辅助阅读方法及应用。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.在整个阅读过程中,当文字阅读出现困难时,阅读者常常需要借助外力,例如字典等的帮助,这使得阅读的连贯性被破坏,也容易导致阅读者的注意力被分散。针对以上情况,辅助阅读技术能够很好地解决上述问题。
4.使用辅助阅读时,阅读书本放置好后,将通过摄像头采集书本的对应画面,通过算法分析判断画面中的图书是哪本书籍的哪一页。如果阅读者指向了书本中某个文本所在的位置,辅助阅读还可以判断指向的文本内容,将该文本内容进行语音播放,帮助阅读者认识文字。
5.在现有技术中,已经出现一些页码识别方法,其根据指读图像在数据库中查找多张相似的存储页面后,提取针对存储页面和指读图像中预先标记区域的特征信息,以确定所述指读图像对应的存储页面,进而确定对应的页码。但该方法需基于图像特征来完成,对于文字信息较多、用户涂改信息多的情况,存在识别的页码错误率高的现象,效果不鲁棒。


技术实现要素:

6.现有技术中的页码识别方法由于依赖于图像特征的相似度进行页码定位,在面对文字信息较多、用户涂改信息多的情况时,存在识别的页码错误率高的现象,页码识别效果不佳。
7.为此,非常需要一种改进的页码定位方法,以能够兼容多种内容的页码定位需求,无论是多图像还是多文字的情况,均能够实现精准的页码定位。
8.在本上下文中,本发明的实施方式期望提供一种页码定位方法、基于其的辅助阅读方法及应用。
9.在本发明实施方式的第一方面中,提供了一种页码定位方法,包括:获取指读图像;提取所述指读图像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码。
10.在本发明的一个实施例中,所述根据所述第一页码定位结果和所述第二页码定位结果得到定位页码,包括:若所述第一页码定位结果和所述第二页码定位结果不一致,则当
所述页面文本信息满足预设条件时,以所述第二页码定位结果作为所述定位页码;其中,所述预设条件包括:所述页面文本信息中的文本数量大于或等于数量阈值。
11.在本发明的一个实施例中,所述预设条件还包括以下条件中的一种或多种:基于所述页面文本信息检索得到的文本检索结果的相似度分数大于第一分数阈值,以及相似度分数最高值对应的文本检索结果与相似度分数次高值对应的文本检索结果之间的分数差大于第一分差阈值。
12.在本发明的一个实施例中,所述页面文本信息中的文本为印刷体文本。
13.在本发明的一个实施例中,所述获取指读图像之后,还包括:对所述指读图像中的干扰信息进行检测并清除,得到无干扰指读图像;以所述无干扰指读图像更新所述指读图像;其中,所述干扰信息包括:手写体文本和涂改痕迹特征。
14.在本发明的一个实施例中,所述根据所述图像特征向量在预先建立的图像特征表中检索之前,还包括:获取入库书本的每一页的标准图像;所述标准图像为扫描图像和电子书图像中的任一种;对每一标准图像进行文字检测识别以生成页面数据表;其中,每一标准图像的页面数据与页码对应;对每一标准图像进行图像特征向量提取以生成图像特征表;其中,每一标准图像的图像特征向量与页码对应。
15.在本发明的一个实施例中,所述页面文本信息为所述指读图像中的双页文本信息;所述页面数据表包括:单页数据表和双页数据表;相应地,所述页码定位方法,包括:获取指读图像;提取所述指读图像的图像特征向量和双页文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一双页页码定位结果;根据所述双页文本信息在所述双页数据表中检索,以确定第二双页页码定位结果;根据所述第一双页页码定位结果和所述第二双页页码定位结果得到定位双页页码;对所述指读图像进行页面检测;若页面检测得到双页的页面信息,则执行第一定位策略在所述定位双页页码中确定所述定位页码;若页面检测得到单页的页面信息或页面检测未得到页面信息,则执行第二定位策略在所述定位双页页码中确定所述定位页码。
16.在本发明的一个实施例中,所述指读图像中含有用户反馈的指读对象的定位信息;相应地,所述执行第一定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息确定用户指向页面的页面信息;基于所述用户指向页面的页面信息在所述定位双页页码中确定所述定位页码。
17.在本发明的一个实施例中,所述页面信息包括:页面类别、页面定位框和页面边缘关键点;其中,页面类别包括:左页和右页;相应地,所述执行第一定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息与所述页面定位框、所述页面边缘关键点的相对关系确定用户指向页面的页面类别;根据所述用户指向页面的页面类别在所述定位双页页码中确定所述定位页码。
18.在本发明的一个实施例中,所述指读图像中还含有用户反馈的指读对象的定位信息;相应地,所述执行第二定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息提取所述指读图像中用户指向区域的局部文本信息;将所述局部文本信息与所述单页数据表中所述定位双页页码对应的页面数据进行匹配,以确定所述定位页码。
19.在本发明实施方式的第二方面中,提供了一种基于页码定位的辅助阅读方法,包括:获取指读图像;所述指读图像中含有用户反馈的指读对象的定位信息;提取所述指读图
像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码;根据所述定位信息确定所述定位页码中的目标阅读文本;对所述目标阅读文本进行语音播放。
20.在本发明的一个实施例中,所述根据所述定位信息确定所述定位页码中的目标阅读文本,包括:根据所述定位信息和/或局部文本信息,在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本;其中,所述局部文本信息为所述指读图像中用户指向区域的文本信息。
21.在本发明的一个实施例中,根据所述定位信息在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本,包括:计算所述指读图像与所述定位页码对应标准图像的仿射变换矩阵;所述标准图像用于生成所述页面数据表和所述图像特征表;根据所述定位信息和所述仿射变换矩阵换算出所述定位信息在所述标准图像中的坐标信息;根据所述坐标信息在所述定位页码对应的页面数据中定位出所述目标阅读文本。
22.在本发明的一个实施例中,根据局部文本信息在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本,包括:基于所述局部文本信息在所述定位页码对应的页面数据中进行检索,得到相似度分数最高值对应的文本检索结果作为所述目标阅读文本。
23.在本发明的一个实施例中,根据所述定位信息和局部文本信息在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本,包括:计算所述指读图像与所述定位页码对应标准图像的仿射变换矩阵;所述标准图像用于生成所述页面数据表和所述图像特征表;根据所述定位信息和所述仿射变换矩阵换算出所述定位信息在所述标准图像中的坐标信息;根据所述坐标信息在所述定位页码对应的页面数据中定位出第一阅读文本;基于所述局部文本信息在所述定位页码对应的页面数据中进行检索,得到相似度分数最高值对应的第二阅读文本;基于所述第一阅读文本的相似度分数或所述第二阅读文本的相似度分数,在所述第一阅读文本和所述第二阅读文本中确定目标阅读文本。
24.在本发明的一个实施例中,所述基于所述第一阅读文本的相似度分数或所述第二阅读文本的相似度分数,在所述第一阅读文本和所述第二阅读文本中确定目标阅读文本,包括:比对所述第一阅读文本与所述局部文本信息以得到所述第一阅读文本的相似度分数;若所述第一阅读文本的相似度分数小于第二分数阈值,则以所述第二阅读文本作为所述目标阅读文本;或若所述第二阅读文本的相似度分数小于第二分数阈值,则以所述第一阅读文本作为所述目标阅读文本;或若基于所述局部文本信息在所述定位页码对应的页面数据中进行检索,还得到相似度分数次高值对应的第三阅读文本,则当所述第二阅读文本与所述第三阅读文本之间的相似度分数差小于第二分差阈值时,以所述第一阅读文本作为所述目标阅读文本。
25.在本发明实施方式的第三方面中,提供了一种页码定位装置,包括:成像装置,用于获取指读图像;信息提取装置,用于提取所述指读图像的图像特征向量和页面文本信息;数据检索装置,用于根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;以及根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二
页码定位结果;页码分析装置,用于根据所述第一页码定位结果和第二页码定位结果得到定位页码。
26.在本发明实施方式的第四方面中,提供了一种辅助阅读装置,包括:成像装置,用于获取指读图像;所述指读图像中含有用户通过成像装置反馈的定位信息;信息提取装置,用于提取所述指读图像的图像特征向量和页面文本信息;数据检索装置,用于根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;以及根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;页码分析装置,用于根据所述第一页码定位结果和第二页码定位结果得到定位页码;文本定位装置,用于根据所述定位信息确定所述定位页码中的目标阅读文本;语音合成装置,用于对所述目标阅读文本进行语音播放。
27.在本发明实施方式的第五方面中,提供了一种电子设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任一项所述的方法。
28.在本发明实施方式的第六方面中,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的方法。
29.根据本发明实施方式的页码定位方法,可以基于指读图像的图像特征向量和页面文本信息,分别在图像特征表和页面数据表中根据相应的特征类型检索出对应的页码定位结果,继而基于两种特征类型识别得到的页码定位结果进行分析,确定出指读图像对应的定位页码。无论是针对书本内容中图片信息居多的情况还是书本内容中文本信息居多的情况,本发明都能够保证有可靠的检索依据,即指读图像的图像特征向量和页面文本信息,来进行指读图像的定位页码的确定,从而提高了页码定位的准确性和鲁棒性。
附图说明
30.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
31.图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图;
32.图2示意性地示出了根据本发明实施方式的页码定位方法的流程示意图;
33.图3示意性地示出了根据本发明另一实施例的页码定位方法的流程示意图;
34.图4示意性地示出了根据本发明实施例的辅助阅读方法的流程示意图;
35.图5示意性地示出了根据本发明一个实施例的目标阅读文本的定位方法的流程示意图;
36.图6示意性地示出了根据本发明另一个实施例的目标阅读文本的定位方法的流程示意图;
37.图7示意性地示出了根据本发明实施例的页码定位装置的结构框图;
38.图8示意性地示出了根据本发明实施例的辅助阅读装置的结构框图;
39.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
40.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
41.图1示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(cpu)101、随机存取存储器(ram)102、只读存储器(rom)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有cpu 101、ram 102、rom 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
42.本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
43.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
44.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
45.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
46.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部
分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(lan)或广域网(wan))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
47.下面将参照本发明实施例的方法的流程图和设备(或系统)的框图描述本发明的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
48.也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
49.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
50.根据本发明的实施方式,提出了一种页码定位的方法和设备。
51.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
52.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。发明概述
53.本发明人发现,辅助阅读技术需要有赖于页码识别方法来实现。但现有技术的页码识别方法依托于摄像头采集图像与图像特征之间的相似度以定位对应的页码,而在识别文本信息较多或存在用户涂改痕迹的内容时,往往无法精准地识别出页码。
54.虽然文本信息较多的页面的图像特征难以支撑页码识别的精准度,但是,这类的页面提供了大量丰富的文本信息,而这些文本信息能够作为补充信息,弥补图像特征的不足,进而提高页码定位所使用依据的广度。同样地,针对文本信息贫乏而图像特征较多的页面,图像特征也能够辅助文本信息,从而实现高精度的页码定位。
55.在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。应用场景总览
56.本发明实施方式的页码定位方法适用于多种阅读场景或产品,包括但不限于点读机。另外,本发明实施方式的页码定位方法可以适用于纸质书的阅读场景,也可以适用于电子书的阅读场景。示例性方法
57.下面结合图2来描述根据本发明示例性实施方式的页码定位的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
58.本发明的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
59.本发明提供的页码定位方法可以包括:
60.在步骤201中,获取指读图像。其中,指读图像中含有书页内容。此处的书页可以为纸质书的书页,也可以为电子书的书页,不作唯一限定。
61.在一些实施例中,指读图像可以为成像装置采集的图像或是阅读场景下的视频中截取的某一帧图像。所述指读图像的采集动作可以由用户的动作触发,例如,当拍摄画面中存在特定对象时,触发成像装置采集指读图像。其中,特定对象可以为手指指尖或点读笔。
62.在步骤202中,提取指读图像的图像特征向量和页面文本信息。
63.在本发明实施例中,指读图像的图像特征包括但不限于颜色特征,进一步地还可以包括色块的轮廓特征。
64.在一些实施例中,页面文本信息的文本为印刷体文本。所述印刷体包括但不限于以下字体:宋体、楷书、隶书、黑体及行楷等。由于实际应用中,指读图像中存在的手写体文本常常是人为添加的文本信息,而预先建立的页面数据表中包含的是每一页的原始页面文本信息,因此,检测到的手写体文本可能会对文本检索结果造成干扰。
65.基于以上考虑,在一些实施例中,获取指读图像之后,还可以执行以下步骤以剔除指读图像中的干扰信息,具体包括:
66.对所述指读图像中的干扰信息进行检测并清除,得到无干扰指读图像;
67.以所述无干扰指读图像更新所述指读图像;其中,所述干扰信息包括:手写体文本和涂改痕迹特征。
68.在上述实施例中,上述干扰信息的剔除动作可以在步骤202之前执行,通过图像处理技术处理指读图像,得到无干扰指读图像后再进行图像特征向量和页面文本信息的提取。
69.在另一实施例中,干扰信息的剔除动作也可以与步骤202同步执行,例如,在提取页面文本信息时,对提取的文本进行字体判断,若为手写体文本则删除,若为印刷体文本则保留。
70.可以理解的是,上述干扰信息的剔除步骤仅是本发明实施例中提供的一种示例,不构成对本发明的唯一限定。
71.在步骤203中,根据图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果。
72.在步骤204中,根据页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果。
73.在执行步骤203和步骤204之前,需提前对入库书本进行处理,以建立所需的页面数据表和图像特征表。
74.具体地,在根据所述图像特征向量在预先建立的图像特征表中检索之前,可以包括如下步骤:获取入库书本的每一页的标准图像;所述标准图像为扫描图像和电子书图像中的任一种;对每一标准图像进行文字检测识别以生成页面数据表;其中,每一标准图像的页面数据与页码对应;对每一标准图像进行图像特征向量提取以生成图像特征表;其中,每一标准图像的图像特征向量与页码对应。
75.需要说明的是,本发明的页码定位方法不仅适用于纸质书,还适用于电子书。当入库书本为纸质书时,入库书本的每一页的标准图像可以通过对书页进行扫描,基于扫描图像生成图像特征表和页面数据表。当入库书本为电子书时,入库书本的每一页已经保存为电子格式,可以直接将其导入以获得每一页的标准图像。
76.需要说明的是,本发明实施例对于上述步骤203和步骤204的执行时序并没有严格的要求,在实际应用过程中,步骤204可以在步骤203之前执行或二者并行,此处不作唯一限定。
77.在步骤205中,根据第一页码定位结果和第二页码定位结果得到定位页码。
78.在实际应用过程中,若第一页码定位结果和第二页码定位结果一致,说明无论是基于图像特征还是基于页面文本信息,页码定位结果一致,即可将第一页码定位结果和第二页码定位结果中的任一页码定位结果作为最终的定位页码。
79.当然,在实际应用过程中存在文本检索结果与图像检索结果不一致的情况,若第一页码定位结果和第二页码定位结果不一致,则可以根据预设条件在二者中确定出最终的定位页码,例如:当所述页面文本信息满足预设条件时,以所述第二页码定位结果作为所述定位页码;其中,所述预设条件包括:所述页面文本信息中的文本数量大于或等于数量阈值。
80.当文本页面文本信息中的文本数量大于数量阈值时,说明页面中的内容以文本信息为主,即页面文本信息提供了大量丰富的、可作为页码定位依据的信息,因此,以基于页面文本信息的第二页码定位结果作为最终的定位页码更加可靠。
81.需要说明的是,数量阈值可以为一预设值,在实际应用时,还可以依据实际情况对上述数量阈值的取值进行调整。
82.在一些实施例中,所述预设条件还可以包括以下条件中的一种或多种:基于所述页面文本信息检索得到的文本检索结果的相似度分数大于第一分数阈值,以及相似度分数最高值对应的文本检索结果与相似度分数次高值对应的文本检索结果之间的分数差大于第一分差阈值。
83.当相似度分数最高值对应的文本检索结果与相似度分数次高值对应的文本检索结果之间的分数差小于或等于第一分差阈值时,说明存在两个页面文本信息相似但是页码不同的文本检索结果,在此情况下,相似度分数次高值对应的文本检索结果成为符合实际的页码定位结果的可能性大幅增加,若此时采用基于页面文本信息的第二页码定位结果,错误率较高。
84.在实际应用中,第一分数阈值和第一分差阈值均可以根据实际情况进行调整,此处不作唯一限定。
85.上述页码定位方法可以基于指读图像的图像特征向量和页面文本信息,分别在图像特征表和页面数据表中根据相应的特征类型检索出对应的页码定位结果,继而基于两种特征类型识别得到的页码定位结果进行分析,确定出指读图像对应的定位页码。无论是针对书本内容中图片信息居多的情况还是书本内容中文本信息居多的情况,本发明都能够保证有可靠的检索依据,即指读图像的图像特征向量和页面文本信息,来进行指读图像的定位页码的确定,从而提高了页码定位的准确性和鲁棒性。
86.下面结合图3对本发明另一实施例提供的页码定位方法进行介绍。在本发明实施
例中,页面文本信息为指读图像中的双页文本信息,页面数据表包括单页数据表和双页数据表。相较于单页的页面文本信息,双页文本信息具有更多页面文本信息,能够提高页码定位时定位依据的丰富度,进而提高页码定位的准确度。
87.图3示意性地示出了根据本发明另一实施例的页码定位方法的流程示意图,参考图3,该实施例中的页码定位方法可以包括如下步骤:
88.在步骤301中,获取指读图像。
89.在本实施例中,步骤301的内容与上述实施例中的步骤201一致,此处不再赘述。
90.在步骤302中,提取指读图像的图像特征向量和双页文本信息。
91.在本实施例中,入库书本为双开页设计,因此,用户在阅读时成像装置能够采集到双页的页面内容,因而基于指读图像可以提取双页文本信息,相较于单页的页面文本信息,文本数量增加,相应地,文本检索结果也更加准确。
92.相应地,在步骤302中,指读图像的图像特征向量也可以为双页页面对应的图像特征向量。
93.在步骤303中,根据图像特征向量在预先建立的图像特征表中检索,以确定第一双页页码定位结果。
94.在步骤304中,根据双页文本信息在双页数据表中检索,以确定第二双页页码定位结果。
95.相应地,本实施例中,在执行步骤303之前也可以预先建立图像特征表、单页数据表和双页数据表。
96.其中,双页数据表可以是在单页数据表建立完成后,将单页数据表中位于同一开页两侧的两个单页的页面数据连接,以形成双页数据表。开页指的是入库书本打开状态下,处于同一展示面的两个单页。
97.需要说明的是,本发明实施例对于上述步骤303和步骤304的执行时序并没有严格的要求,在实际应用过程中,步骤304可以在步骤303之前执行或二者并行,此处不作唯一限定。
98.由于采用的是双页文本信息进行检索,因此,步骤304得到的是双页页码,在后续步骤中,还需进一步定位至单页页码作为定位页码。
99.在步骤305中,根据第一双页页码定位结果和第二双页页码定位结果得到定位双页页码。
100.本实施例中步骤305的具体实施方式可以参考上述实施例中步骤205的实施方式,此处不再展开说明。
101.在步骤306中,对指读图像进行页面检测并根据页面检测结果执行相应定位策略以在定位双页页码中确定定位页码。
102.在步骤306中,可以利用训练好的目标检测模型检测页面的页面信息,其中,页面信息可以包括以下信息中的一种或多种:页面类别、页面定位框和页面边缘关键点。其中,通过页面定位框和页面边缘关键点可以锁定指读图像中页面的位置,进而圈定图像特征向量和页面文本信息的提取区域。
103.在本实施例中,入库书本为双开页设计,页面类别可以包括:左页和右页。
104.在另一些实施例中,入库书本还可以为三开页设计,在此情况下,页面类别还可以
包括:左页、中页和右页。
105.当页面检测结果中仅包含有单页的页面信息,甚至未能检测到页面信息时,说明页面不完全在成像装置的采集画面中,或者页面倾斜角度过大,造成页面检测失败,此时难以单纯依靠指读图像中的定位信息区分出左页和右页,因而难以确定定位页码。
106.当页面检测结果中包含有双页的页面信息时,说明指读图像中包含有完整的页面特征,那么根据指读图像中的定位信息确定用户指向的页面类别,即可确定定位页码。
107.基于上述两种页面检测结果,可以采用不同的定位策略以在定位双页页码中确定定位页码,具体如下:
108.若页面检测得到双页的页面信息,则执行第一定位策略在定位双页页码中确定定位页码;
109.若页面检测得到单页的页面信息或页面检测未得到页面信息,则执行第二定位策略在定位双页页码中确定定位页码。
110.下面针对不同页面检测结果,对其采用的定位策略进行说明。
111.在步骤301获取到的指读图像中包含有用户反馈的指读对象的定位信息,可以为用户手指的指尖所在位置的位置信息,也可以为点读笔选定的位置信息。
112.对应检测成功(页面检测得到双页的页面信息)的第一定位策略如下:
113.根据所述定位信息确定用户指向页面的页面信息;
114.基于所述用户指向页面的页面信息在所述定位双页页码中确定所述定位页码。
115.其中,页面信息包括:页面类别、页面定位框和页面边缘关键点;其中,页面类别包括:左页和右页。
116.相应地,第一定位策略的具体执行方式可以包括:
117.根据所述定位信息与所述页面定位框、所述页面边缘关键点的相对关系确定用户指向页面的页面类别;
118.根据所述用户指向页面的页面类别在所述定位双页页码中确定所述定位页码。
119.在上述情况下,目标检测模型能够检测出左页和右页的页面定位框和页面边缘关键点,也即是说,通过双页的页面信息,能够在指读图像中清楚地分辨出左页页面位置和右页页面位置。在此基础上,通过确定定位信息位于双页中哪一侧页面的页面定位框内,即可确定用户指向的是左页还是右页,进而得知定位页码。
120.对应检测失败(页面检测得到单页的页面信息或未能检测到页面信息)的第二定位策略如下:
121.根据所述定位信息提取所述指读图像中用户指向区域的局部文本信息;
122.将所述局部文本信息与所述单页数据表中所述定位双页页码对应的页面数据进行匹配,以确定所述定位页码。
123.在上述情况下,无法检测出完整的左页和右页,因此,难以根据定位信息确定用户指向的页面类别。此时,提取出指读图像中用户指向区域的局部文本信息,其中,指向区域的尺寸可以为预设区域尺寸。根据该局部文本信息在单页数据表中进行文本检索,从而确定定位页码。
124.进一步地,文本检索的范围可以限定在步骤305所确定的定位双页页码中,通过缩小文本检索的范围能够提高页码定位的效率,同时排除其他页码的页面文本信息对文本检
索的干扰,提高页码定位的准确度。
125.基于前文任一实施例所述的页码定位方法,本发明的一个实施例还提供了一种辅助阅读方法,用于根据用户反馈的指读对象的定位信息,将用户指向的文本进行语音播放,以帮助用户认识文本。
126.下面结合图4对上述辅助阅读方法的具体实施方式进行介绍。
127.请参见图4,本实施例提供的辅助阅读方法,可以包括:
128.在步骤401中,获取指读图像。其中,指读图像中含有书页内容,还可以含有用户反馈的指读对象的定位信息。此处的书页可以为纸质书的书页,也可以为电子书的书页,不作唯一限定。
129.在本实施例中,指读对象可以为用户通过手指指向的文本,或用户通过点读笔等工具指定的文本。
130.本实施例中步骤401的内容与前文实施例中的步骤201内容一致,此处不再展开赘述。
131.在步骤402中,提取指读图像的图像特征向量和页面文本信息。
132.本实施例中步骤402的内容与前文实施例中的步骤202内容一致,此处不再展开赘述。
133.在步骤403中,根据图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果。
134.本实施例中步骤403的内容与前文实施例中的步骤203内容一致,此处不再展开赘述。
135.在步骤404中,根据页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果。
136.本实施例中步骤404的内容与前文实施例中的步骤204内容一致,此处不再展开赘述。
137.在步骤405中,根据第一页码定位结果和第二页码定位结果得到定位页码。
138.本实施例中步骤405的内容与前文实施例中的步骤205内容一致,此处不再展开赘述。
139.在步骤406中,根据定位信息确定定位页码中的目标阅读文本。
140.由于指读图像可能存在受到光线、纸张变形、距离、涂改痕迹等干扰的情况,导致直接对指读图像进行文字检测识别的结果错误率较高,因此,在本实施例中,根据定位信息在单页数据表中确定匹配的目标阅读文本,用以语音播放,能够保证播报的文本的准确性。
141.具体地,可以根据定位信息和/或局部文本信息,在页面数据表中定位页码对应的页面数据中定位出所述目标阅读文本。
142.其中,局部文本信息为所述指读图像中用户指向区域的文本信息,例如,用户通过手指或点读笔等指示工具指向页面的某一位置后,以该位置为基点,圈定的指读图像中的某一区域的文本信息。
143.在一些实施例中,可以设置圈定的尺寸为一固定尺寸,从而辅助确定局部文本信息。在另一些实施例中,还可以进一步对圈定的文本进行分段,以距离定位信息最近的文本段的文本信息作为局部文本信息。
144.在步骤407中,对目标阅读文本进行语音播放。
145.通过上述实施例的辅助阅读方法,能够根据指读图像定位出用户指向页面的定位页码,并进一步根据用户反馈的指读对象的定位信息,在定位页码的页面数据中定位出目标阅读文本,由于该目标阅读文本为单页数据表中记载的文本信息,相较于直接对指读图像进行文字检测识别,其文本信息更加准确。
146.下面对单独根据定位信息定位目标阅读文本的方法进行说明。
147.参见图5,所述根据定位信息定位目标阅读文本的方法包括:
148.在步骤501中,计算指读图像与定位页码对应标准图像的仿射变换矩阵。其中,标准图像用于生成页面数据表和图像特征表。
149.当入库书本为纸质书时,标准图像可以为纸质书中每一页的扫描图像;当入库书本为电子书时,标准图像可以为电子书中每一页对应的电子书图像。
150.由于成像装置设置角度的不同,标准图像采用的是理想光线条件下,正对页面采集的图片,而指读图像往往可视作标准图像变形后的图像,即二者之间可以通过一个仿射变换矩阵进行转换。
151.在步骤502中,根据定位信息和仿射变换矩阵换算出定位信息在标准图像中的坐标信息。
152.由于标准图像和指读图像之间存在的差异,定位信息所指向页面的位置在标准图像中所呈现的坐标信息与定位信息之间存在一定的偏差,因此,可以通过上述仿射变换矩阵换算出指读图像对应的定位信息在标准图像中对应的坐标信息,从而确定用户指向区域对应的目标阅读文本。
153.在步骤503中,根据坐标信息在定位页码对应的页面数据中定位出目标阅读文本。
154.本实施例提供的目标阅读文本的定位方法,通过仿射变换矩阵,将定位信息转换为对应的标准图像中的坐标信息,从而依据标准图像记载的文本信息来确定目标阅读文本,有效修正了由于成像装置设置角度造成的指读图像的变形问题,从而提高了目标阅读文本定位的精准度。
155.下面对单独根据局部文本信息定位目标阅读文本的方法进行说明。
156.根据局部文本信息定位目标阅读文本的方法如下:
157.基于局部文本信息在定位页码对应的页面数据中进行检索,得到相似度分数最高值对应的文本检索结果作为目标阅读文本。
158.虽然直接对指读图像进行文字检测识别存在一定比例的文本错误,但在实际应用过程中,可以基于该局部文本信息在正确的页面数据中进行文本检索,以检索到定位页码对应的页面数据中,与局部文本信息最匹配的文本信息作为目标文本定位。
159.由于文本检索的范围限制在定位页码对应的页面数据中,缩小了检索范围而排除了大量的干扰信息,提供了一定的容错率,即使局部文本信息中存在一定比例的文本错误,也能够找到可靠的目标阅读文本。
160.本发明的一个实施例还提供了另一种结合定位信息和局部文本信息定位目标阅读文本的方法。
161.下面结合图6对该目标阅读文本的定位方法进行说明。
162.在步骤601中,计算指读图像与定位页码对应标准图像的仿射变换矩阵。其中,标
准图像用于生成页面数据表和图像特征表。
163.在本实施例中,步骤601的内容与前文实施例中的步骤501的内容一致,此处不再赘述。
164.在步骤602中,根据定位信息和仿射变换矩阵换算出定位信息在标准图像中的坐标信息。
165.在本实施例中,步骤602的内容与前文实施例中的步骤502的内容一致,此处不再赘述。
166.在步骤603中,根据坐标信息在定位页码对应的页面数据中定位出第一阅读文本。
167.在本实施例中,步骤603的内容可以参考前文实施例中的步骤503的内容一致,此处不再赘述。
168.在步骤604中,基于局部文本信息在定位页码对应的页面数据中进行检索,得到相似度分数最高值对应的第二阅读文本。
169.在本实施例中,基于局部文本信息进行文本检索,能够得到多个文本检索结果,将得到的多个文本检索按照相似度分数由高至低的顺序进行排列,将其中排序第一的文本检索结果作为第二阅读文本,排序第二的文本检索结果作为第三阅读文本,以此类推。
170.在步骤605中,基于第一阅读文本的相似度分数或第二阅读文本的相似度分数,在第一阅读文本和第二阅读文本中确定目标阅读文本。
171.具体地,步骤605的执行过程包括但不限于以下三种情况:
172.第一种情况下,基于第一阅读文本的相似度分数确定目标阅读文本,则可以比对第一阅读文本与局部文本信息以得到所述第一阅读文本的相似度分数,若所述第一阅读文本的相似度分数小于第二分数阈值,则以所述第二阅读文本作为所述目标阅读文本。
173.在第一种情况下,第一阅读文本的相似度分数小于第二分数阈值,说明利用仿射变换矩阵换算坐标信息所确定的第一阅读文本与局部文本信息的差异过大,这表示坐标信息存在较大偏差,导致定位的目标阅读文本出现错误的可能性较大,在此情况下,以第一阅读文本作为目标阅读文本的出错率高,因此将第二阅读文本确定为目标阅读文本。
174.第二种情况下,基于第二阅读文本的相似度分数确定目标阅读文本,若所述第二阅读文本的相似度分数小于第二分数阈值,则以所述第一阅读文本作为所述目标阅读文本。
175.与第一种情况类似的,当第二阅读文本的相似度分数小于第二分数阈值时,说明第二阅读文本与局部文本信息的差异过大,这表示在此情况下,以第二阅读文本作为目标阅读文本的出错率高,因此将第一阅读文本确定为目标阅读文本。
176.第三种情况下,基于第二阅读文本和第三阅读文本的相似度分数确定目标阅读文本,则基于所述局部文本信息在所述定位页码对应的页面数据中进行检索,得到相似度分数次高值对应的第三阅读文本,当所述第二阅读文本与所述第三阅读文本之间的相似度分数差小于第二分差阈值时,以所述第一阅读文本作为所述目标阅读文本。
177.在第三种情况下,当第二阅读文本与第三阅读文本的相似度分数差异较小时,说明第三阅读文本与第二阅读文本成为符合实际的页码定位结果的可能性相近,因此,第三阅读文本为正确的目标阅读文本的可能性大幅增加,难以分辨二者之中哪一个为正确的目标阅读文本,此时以第二阅读文本作为目标阅读文本的错误率较高。
178.需要说明的是,上述仅是对步骤605的几种可能存在的执行情况的示例性说明。在实际应用过程中,还存在其他的执行方式,例如:
179.在第四种情况下,在利用仿射变换矩阵进行坐标信息换算之前,可以使用orb(oriented fast and rotated brief)特征检测算法分别计算标准图像和指读图像的特征点,并进行特征匹配,根据特征匹配的结果计算出仿射变换矩阵。进一步地,可以选取优质特征点执行上述特征匹配的动作,其中,优质特征点指的是特征距离在最小距离2倍范围内的特征点。在步骤605中,还可以结合参与仿射变换矩阵计算的特征点数量与检测得到的特征点总数的比例,确定采用第一阅读文本还是第二阅读文本作为目标阅读文本。
180.示例性地,当参与仿射变换矩阵计算的特征点数量与检测得到的特征点总数的比例小于预设比例阈值时,说明仿射变换矩阵的精度较低,此处基于仿射变换矩阵换算得到的坐标信息的精确度较低,因此,第一阅读文本为目标阅读文本的可能性较小,则将第二阅读文本作为目标阅读文本。
181.在实际应用过程中,步骤605还包括第五种情况,在第五种情况中,第一阅读文本与第二阅读文本一致,则以二者中任一个阅读文本作为目标阅读文本即可。
182.本实施例提供了一种结合定位信息与局部文本信息以定位目标阅读文本的方法,其通过两种不同类型的信息(位置信息与文本信息)进行阅读文本定位,并且结合两种定位结果进行分析,通过两种定位结果相互竞争,择优选取更贴合实际情况的定位结果作为目标阅读文本,从而提高了目标阅读文本的准确度和可靠性。示例性设备
183.在介绍了本发明示例性实施方式的方法之后,接下来,参考图7对本发明示例性实施方式的页码定位装置进行介绍。
184.本发明实施例提供的页码定位装置700,包括:
185.成像装置701,用于获取指读图像。
186.信息提取装置702,与成像装置701连接,用于提取所述指读图像的图像特征向量和页面文本信息。
187.数据检索装置703,与信息提取装置702连接,用于根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;以及根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果。
188.页码分析装置704,与数据检索装置703连接,用于根据所述第一页码定位结果和第二页码定位结果得到定位页码。
189.进一步地,所述页码定位装置700还可以包括存储装置(图中未示出),与页码分析装置704连接,存储有图像特征表和页面信息表。
190.进一步地,页码分析装置704还可以配置成:若所述第一页码定位结果和所述第二页码定位结果不一致,则当所述页面文本信息满足预设条件时,以所述第二页码定位结果作为所述定位页码;其中,所述预设条件包括:所述页面文本信息中的文本数量大于或等于数量阈值。
191.本实施例提供的页码定位装置无论是针对书本内容中图片信息居多的情况还是书本内容中文本信息居多的情况,都能够保证有可靠的检索依据,即指读图像的图像特征向量和页面文本信息,来进行指读图像的定位页码的确定,从而提高了页码定位的准确性
和鲁棒性。
192.接下来,参考图8对本发明示例性实施方式的辅助阅读装置进行介绍。
193.本实施例提供的辅助阅读装置800,包括:
194.成像装置801,用于获取指读图像;所述指读图像中含有用户通过成像装置反馈的定位信息;
195.信息提取装置802,与成像装置801连接,用于提取所述指读图像的图像特征向量和页面文本信息;
196.数据检索装置803,与信息提取装置802连接,用于根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;以及根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;
197.页码分析装置804,与数据检索装置803连接,用于根据所述第一页码定位结果和第二页码定位结果得到定位页码;
198.文本定位装置805,分别与页码分析装置804、成像装置801以及信息提取装置802连接,用于根据所述定位信息确定所述定位页码中的目标阅读文本;
199.语音合成装置806,与文本定位装置805连接,用于对所述目标阅读文本进行语音播放。
200.进一步地,所述辅助阅读装置800还可以包括存储装置(图中未示出),存储有图像特征表和页面信息表。
201.与前文任一方法实施例相对应地,本发明实施例还提供了一种电子设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如前文任一实施例所述的方法。
202.或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使所述处理器执行根据前文所述方法的各个步骤的部分或全部。
203.应当注意,尽管在上文详细描述中提及了各项方法对应的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
204.此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
205.申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
206.虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和
范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1