绘本识别方法、终端设备及计算机可读存储介质与流程

文档序号：20839438发布日期：2020-05-22 17:18阅读：225来源：国知局

本申请涉及图像处理技术领域，特别是涉及绘本识别方法、终端设备及计算机可读存储介质。

背景技术：

绘本，即图画书，是一类以绘画为主，并附有少量文字的书籍。绘本阅读是目前众多的面向儿童教育的ai(人工智能)机器人产品的重要功能之一，该功能解决了父母无时间陪伴儿童阅读的痛点，这两年逐渐成为诸多定位高端的ai低幼陪伴机器人的重要配置，且近两年深受教育市场欢迎与关注。

绘本识别作为绘本阅读机器人的重要核心技术，通过对图像书页内容的自动判识，进而从海量数据库检索相应的教学资源，能够有效的提高学习效率，弥补教育资源分配的不足。

如何提高绘本的识别率及识别结果的准确度则成为绘本识别中的重要问题。

技术实现要素：

本申请主要解决的技术问题提供一种绘本识别方法、设备及计算机可读存储介质，能够提高绘本的识别率及识别结果的准确度。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种绘本识别方法，该方法包括：获取待识别绘本页面的待识别图像；对待识别图像上的多个图像区域进行特征提取，以获得多个待匹配特征；将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，其中多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的；为每个待匹配特征选择预定数量的相似度最高的样本特征，以作为匹配样本；根据匹配样本所属的类别确定最佳匹配类别。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种终端设备，该终端设备包括处理器和与处理器电连接的存储器，存储器用于存储程序数据，处理器用于执行程序数据以实现上述的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用以实现上述的方法。

本申请的有益效果是：区别于现有技术的情况，由于绘本页面的图像通常由简单的图案构成，本申请的绘本识别方法，通过获取待识别绘本页面的待识别图像，并对待识别图像上的多个图像区域进行特征提取，以获得对应多个不同的图像区域的多个待匹配特征，从而能够提高获取到有效特征的概率，再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，按照相似度由高到低的顺序，为每个待匹配特征选择预定数量的样本特征，以作为匹配样本，即一个匹配样本对应一个待匹配特征，其中多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的，因而根据匹配样本所属的类别确定最佳匹配类别，即可确定待识别绘本页面所对应最相似的样本绘本页面，从而能够提高绘本的识别率及识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的绘本识别方法一实施例的流程示意图；

图2是本申请提供的绘本识别方法一实施例的图像区域的示意图；

图3是本申请提供的绘本识别方法一实施例中步骤s150的具体流程示意图；

图4是本申请提供的绘本识别方法另一实施例的流程示意图；

图5是本申请提供的绘本识别方法另一实施例中步骤s220的具体流程示意图；

图6是本申请提供的终端设备实施例的结构示意图；

图7是本申请提供的计算机可读存储介质实施例的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其他实施例相结合。

请参阅图1和图2，图1是本申请提供的绘本识别方法一实施例的流程示意图。图2是本申请提供的绘本识别方法一实施例的图像区域的示意图。

本实施例的绘本识别方法100，包括以下步骤：

s110：获取待识别绘本页面的待识别图像。

在绘本阅读过程中，可以是通过使用图像采集部件(如摄像头)拍摄待识别绘本中的页面，以获取待识别绘本页面的待识别图像。

该待识别图像可作为搜索图像，并以此为依据来进行绘本识别。

s120：对待识别图像上的多个图像区域进行特征提取，以获得多个待匹配特征。

多个图像区域可以是2个、3个、4个、5个或更多。图像区域可以是待识别图像的整体图像区域，也可以是待识别图像的局部图像区域。多个图像区域可同时包括待识别图像的整体图像区域和待识别图像的局部图像区域。

绘本页面的图像通常由简单的图案构成，若仅提取待识别图像的局部特征，由于局部特征提取只有在纹理丰富的区域才能提取到有效的特征，因此可能无法提取到有效的局部特征。且不同绘本页面的图像中可能包含相同的局部特征。本实施例中，通过对待识别图像上的多个图像区域进行特征提取，能够获得对应多个不同的图像区域的多个待匹配特征，从而提高获取到有效特征的概率，能够为更好的区分不同页面的图像提供搜索依据，进而提高绘本的识别率。

s130：将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配。其中，多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的。

同一样本绘本页面的多个样本图像进行特征提取后，所得到的样本特征属于同一类别，这样在匹配到样本特征时就能知道该特征对应是哪本绘本的哪一页。

s140：为每个待匹配特征选择预定数量的相似度最高的样本特征，以作为匹配样本。

按照相似度由高到低的顺序，为每个待匹配特征选择预定数量的样本特征，以作为匹配样本。每一匹配样本可均包括多个样本特征。

s150：根据匹配样本所属的类别确定最佳匹配类别。

由于待匹配特征的数量为多个，因此匹配样本的数量也为多个。多个匹配样本均对应有所属的类别。

根据匹配样本所属的类别确定最佳匹配类别例如可以是：选取包含匹配样本最多的类别作为候选匹配类别。

由于绘本页面的图像通常由简单的图案构成，本申请所提供的绘本识别方法100一实施例，通过获取待识别绘本页面的待识别图像，并对待识别图像上的多个图像区域进行特征提取，以获得对应多个不同的图像区域的多个待匹配特征，从而能够提高获取到有效特征的概率，再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，按照相似度由高到低的顺序，为每个待匹配特征选择预定数量的样本特征，以作为匹配样本，即一个匹配样本对应一个待匹配特征，其中多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的，因而根据匹配样本所属的类别确定最佳匹配类别，即可确定待识别绘本页面所对应最相似的样本绘本页面，从而能够提高绘本的识别率及识别结果的准确度。

可选地，图像区域的数量不小于3。图像区域的数量可为3、4、5、6或更多。

可选地，图像区域与待识别图像的面积比不小于50％，预定数量不小于20。

由于图像区域可以是待识别图像的整体图像区域，也可以是待识别图像的局部图像区域，因此图像区域与待识别图像的面积比不小于50％，即局部图像区域与待识别图像的面积比不小于50％，具体可为50％、55％、60％、65％、70％、75％、80％或更多。

可选地，图像区域与待识别图像的面积比可视图像区域的数量而定：当图像区域的数量较少时，图像区域与待识别图像的面积比可更大；当图像区域的数量较多时，图像区域与待识别图像的面积比可更小。例如，图像区域的数量为3时，图像区域与待识别图像的面积比可为85％；图像区域的数量为6时，图像区域与待识别图像的面积比可为50％。

当然，图像区域与待识别图像的面积比，也可根据图像识别的精度需求或绘本的复杂程度等其他因素而定。

可选地，步骤s120中：对待识别图像上的多个图像区域进行特征提取，还可包括：

从待识别图像的整体图像区域以及以整体图像区域的顶角为起点，从整体图像区域截取出的局部图像区域进行特征提取。

如图2所示，在一种应用场景中，待识别图像可包括四个顶角1、2、3、4，多个图像区域(以阴影部分表示)包括：待识别图像的整体图像区域e，分别以整体图像区域的顶角1、2、3、4为起点，从整体图像区域e中所截取出的局部图像区域a、b、c、d。图像区域的数量为5。其中，局部图像区域a、b、c、d的面积与整体图像区域e的面积可比为80％。通过这种方式，获得待识别图像的整体图像区域，并从整体图像区域截取出的局部图像区域，能够提高获取到有效特征的概率，从而提高绘本的识别率。

可以理解，当待识别图像的整体图像区域为不规则形状，如包括3个、5个或大于5个的顶角时，图像区域的数量相应地可为4个、6个或大于6个。其中，局部图像区域a、b、c、d的面积与整体图像区域e的面积可比可作相应地调整。

在其他应用场景中，图像区域的数量可为3，多个图像区域可包括：待识别图像的整体图像区域，以及以整体图像区域的两个相对的顶角为起点，从整体图像区域截取出的两个局部图像区域。其中，两个局部图像区域的面积与整体图像区域e的面积比可均为50％。

请参阅图3，图3是本申请提供的绘本识别方法一实施例中步骤s150的具体流程示意图。

可选地，步骤s150：根据所选择的样本特征所属的类别确定最佳匹配类别，可包括：

s151：针对每个待匹配特征，确定包含匹配样本最多的类别作为候选匹配类别。

如图2所示，在一种应用场景中，分别从5个图像区域中进行特征提取，可获得5个待匹配特征，将5个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，并按照相似度由高到低的顺序，为每个待匹配特征选择例如20个的相似度最高的样本特征，将这20个样本特征作为匹配样本。如此，则可得到5个匹配样本。

针对每个待匹配特征，可计算匹配样本中的20个样本特征一共对应了多少种类别，且每种类别下分别包含了多少个样本特征，从而确定包含匹配样本最多的类别作为候选匹配类别。

5个匹配样本，则可分别对应得到5个候选匹配类别。

s152：若多个待匹配特征的候选匹配类别为同一类别的数量大于预设的数量阈值，且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值，则将同一类别作为最佳匹配类别。

5个候选匹配类别中可能有2个、3个或4个为同一类别，或者5个候选匹配类别全为同一类别、5个候选匹配类别互为不同类别。

若多个待匹配特征的候选匹配类别为同一类别的数量大于预设的数量阈值，可说明多个待匹配特征与同一样本绘本页面的匹配度较高。其中，预设的数量阈值可根据候选匹配类别的数量确定。

且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值，可说明各待匹配特征与对应的匹配样本之间的相似度较高。

本实施例中，计算各待匹配特征与对应的匹配样本之间的特征距离是计算两者之间的余弦距离(即余弦相似度)，因此，各待匹配特征与对应的匹配样本之间的特征距离越大，表示两者的相似度越高。

继续以候选匹配类别的数量为5为例，若多个待匹配特征的候选匹配类别为同一类别的数量大于3，即为4或5，且各待匹配特征与对应的匹配样本之间的特征距离大于预设的距离阈值，可认为匹配结果高度集中，且各待匹配特征与对应的匹配样本之间的相似度高，则可将该同一类别作为最佳匹配类别。

通过对待识别图像上的多个图像区域进行特征提取，并采用特征距离和候选匹配类别为同一类别的数量进行双重判断，能够有效提高识别结果的准确度。

若多个待匹配特征的候选匹配类别为同一类别的数量小于等于3，或各待匹配特征与对应的匹配样本之间的特征距离小于等于预设的距离阈值，则可认为匹配结果较为分散，或各待匹配特征与对应的匹配样本之间的相似度不高，则拒绝识别。

通过设置一定的条件，能够有效地对得到的检索结果进行拒识别，以降级发生误检的风险，可进一步提高识别结果的准确度。

请结合参阅图4和图5，图4是本申请提供的绘本识别方法另一实施例的流程示意图。图5是本申请提供的绘本识别方法另一实施例中步骤s220的具体流程示意图。

本实施例是在上述绘本识别方法100一实施例的基础上，在步骤s110：获取待识别绘本页面的待识别图像之前，还包括：

s210：获取样本绘本页面的样本图像，其中每个样本绘本页面分别对应多个样本图像。

在一应用场景中，可以是通过下载电子版的样本绘本或者使用图像采集部件(如摄像头)拍摄样本绘本的每一页，以获取本绘本页面的样本图像。

每个样本绘本页面分别对应的多个样本图像可以包括：样本绘本页面的整体图像区域以及以整体图像区域的顶角为起点从整体图像区域截取出的局部图像区域。

s220：利用预先训练好的特征提取模型对样本图像进行特征提取，以获得样本特征。

在一应用场景中，在得到特征提取模型后，每一样本绘本页面可随机地采集200个样本图像，并利用特征提取模型对样本图像进行特征提取，以获得样本特征。

s230：将对应于同一样本绘本页面的多个样本特征划分到同一类别，以形成样本特征库。

所提取的样本特征可与该特征的标识一起插入到样本特征数据库中。这样在检索到某个样本特征时就能知道该特征对应的书号页码等信息。

标识可理解为用于对样本绘本中页面进行标识的信息，标识至少包括该样本特征对应的是哪一本样本绘本的哪一页。标识例如可包括：书本id及页面id、书本名称、书本描述信息、页面名称、页面描述信息，也可以为针对于特定书本与特定页面而设计的特定id等等。

本实施例中，可确定与类别对应的标识，且每一类别对应同一样本绘本页面，因而可得到不同的标识对应于不同样本绘本的不同页面。

可选地，步骤s220：利用预先训练好的特征提取模型对样本图像进行特征提取，以获得样本特征，可包括：

s221：获取多个训练绘本页面的多个训练图像。

在一应用场景中，可以是通过下载电子版训练绘本或者使用图像采集部件(如摄像头)拍摄训练绘本的每一页，以获取多个训练绘本页面的多个训练图像。

例如，获取每一训练绘本的30个训练图像，并可对训练图像进行数据增强。

s222：利用训练图像对特征提取模型进行训练，以使得特征提取模型针对同一训练绘本页面所提取的特征之间的特征距离最小化，针对不同的训练绘本页面所提取的特征之间的特征距离最大化。

本实施例中，利用训练图像对特征提取模型进行训练，计算的是所提取的特征之间的欧式距离，因此，特征之间的特征距离越小，表示两者的相似度越高。

使得特征提取模型针对同一训练绘本页面所提取的特征之间的特征距离最小化，针对不同的训练绘本页面所提取的特征之间的特征距离最大化，则能够使得同一训练绘本页面尽可能归类到一起，不同的训练绘本页面则尽可能的分开。

本实施例中，在步骤s222中：利用训练图像对特征提取模型进行训练，可包括：利用训练图像通过siamese网络对特征提取模型进行训练。

在一应用场景中，为了保证训练绘本的每一页尽可能的分开，可采用siamese网络对特征提取模型进行训练，训练的每一轮迭代后都进行难样本挖掘，对难分类样本进行不断的训练，以使得特征提取模型针对同一训练绘本页面所提取的特征之间的欧式距离最小化，针对不同的训练绘本页面所提取的特征之间的欧式距离最大化。

本实施例中，步骤s120：对待识别图像上的多个图像区域进行特征提取，可包括：利用特征提取模型对待识别图像上的多个图像区域进行特征提取。

利用同一特征提取模型对待识别图像上的多个图像区域进行特征提取，并样本图像进行特征提取，有利于进行待匹配特征与样本特征进行的匹配，提高绘本的识别率。

请参阅图6，图6是本申请提供的终端设备实施例的结构示意图。

本实施例中，终端设备200包括处理器210和与处理器210电连接的存储器220，存储器220用于存储程序数据，处理器210用于执行程序数据以实现如下的方法：

获取待识别绘本页面的待识别图像；对待识别图像上的多个图像区域进行特征提取，以获得多个待匹配特征；将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，其中多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的；为每个待匹配特征选择预定数量的相似度最高的样本特征，以作为匹配样本；根据匹配样本所属的类别确定最佳匹配类别。

本实施例中，终端设备200具体可以是智能机器人、学习机、手机、电脑、服务器等。

在一应用场景中，终端设备200可包括图像采集部件(图未示)，图像采集部件例如为摄像头，摄像头用于采集待识别绘本页面的待识别图像。

在一应用场景中，终端设备200可与点读笔(图未示)通讯连接，并响应于点读笔产生的触发信号而利用摄像头获取待识别绘本页面的待识别图像。例如，通过点读笔的点读操作，可触发该触发信号的产生。

在一应用场景中，终端设备200可与一个或多个点读设备(图未示)通讯连接。点读设备可以为任意配置了处理器、存储器，以及图像采集部件的电子设备，该图像采集部件可以例如为摄像头，点读设备的摄像头用于采集待识别绘本页面的待识别图像并发送给终端设备200。该点读设备例如可以为学习机、手机、平板电脑、相机等。

在一应用场景中，点读设备还可例如为与点读笔匹配配置的设备，或者配置有该点读笔的设备。其中的点读笔，可以理解为任意在点读操控下，能够利用光源发光，以在页面形成光斑的任意结构形式。点读设备还可接收终端设备200发送的当前所点读的目标音频资源，并播放目标音频资源，或者利用播放设备播放目标音频资源。

请参阅图7，图7是本申请提供的计算机可读存储介质实施例的示意图。

本实施例中，计算机可读存储介质300用于存储程序数据310，程序数据310在被处理器执行时，用以实现如下的方法：

可以理解，本实施例中的计算机可读存储介质300可以应用于上述终端设备200，其具体的实施步骤可以参考上述实施例，这里不再赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法、装置以及系统，可以通过其它的方式实现。例如，以上所描述的方法、装置以及系统实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

由于绘本页面的图像通常由简单的图案构成，本申请所提供的绘本识别方法，通过获取待识别绘本页面的待识别图像，并对待识别图像上的多个图像区域进行特征提取，以获得对应多个不同的图像区域的多个待匹配特征，从而能够提高获取到有效特征的概率，再将多个待匹配特征分别与样本特征数据库中的多个样本特征进行相似度匹配，按照相似度由高到低的顺序，为每个待匹配特征选择预定数量的样本特征，以作为匹配样本，即一个匹配样本对应一个待匹配特征，其中多个样本特征划分成多个类别，每个类别下的样本特征为对同一样本绘本页面的多个样本图像进行特征提取获得的，因而根据匹配样本所属的类别确定最佳匹配类别，即可确定待识别绘本页面所对应最相似的样本绘本页面，从而能够提高绘本的识别率及识别结果的准确度。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李扬;顾景;王玥;程骏;庞建新;熊友军
技术所有人：深圳市优必选科技股份有限公司
我是此专利的发明人

上一篇：一种工业控制系统的入侵检测方法与流程
上一篇：一种大直径超深灌注桩的超长钢护筒沉入系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。