一种针对低分辨率绘本图像的检索方法与流程

文档序号：35475876发布日期：2023-09-16 17:58阅读：58来源：国知局

本发明涉及绘本检索，具体涉及一种针对低分辨率绘本图像的检索方法。

背景技术：

1、随着人工智能的发展，越来越多的绘本阅读机器人推向市面，通过识别卡片、书籍上的内容，例如识别各种形状交通工具、类人机器人、乐器、动植物等内容后，检索出与识别内容相关的多模态输出数据，同时以语音播报、动作呈现和/或屏幕显示等形式输出相关联的多模态数据，从而提升用户的认知能力。绘本阅读机器人将印刷品检索技术相结合，使得机器人具有了与检索印刷品图片相关信息的交互能力，加强了机器人在图片检索等领域的应用。

2、然而，绘本阅读机器人在进行内容识别过程中，常常受到图片质量、拍摄环境条件影响，而采集到不同清晰度质量的图像数据，从而影响图像的多模态输出数据检索的正确率，使得绘本阅读机器人输出的数据常与采集的内容不匹配，大大影响了用户的体验感。所以，为了提高检索的准确率，一般会提高采集设备的图像采集的准确性，或者对所采集的图像进行处理，以提高采集图片的分辨率，然后再将其与图库中的图像进行匹配。

3、也就是说，目前的绘本检索依赖高清晰、高分辨率的图像，在该情况下，若要保证检索的准确率，就会对硬件的性能要求较高，导致成本增加。

技术实现思路

1、针对现有技术存在的问题，本发明的目的在于提供一种针对低分辨率绘本图像的检索方法，其能够在低分辨率图像下提高检索准确率，降低绘本图像检索成本。

2、为实现上述目的，本发明采用的技术方案是：

3、一种针对低分辨率绘本图像的检索方法，其包括特征图库构建和图像检索两部分；

4、所述特征图库构建具体如下：

5、对绘本图像集中的绘本图像进行抽稀处理，降低其分辨率，得到低分辨率绘本图像集；

6、将低分辨率的绘本图像集中的绘本图像输入到卷积神经网络中；该卷积神经网络具有多个输出分支，每个输出分支输出一特征图；各输出的特征图尺度不同、大小不同，通道数目不同；

7、选取卷积神经网络的部分或全部输出分支输出的特征图，进行上采样后进行融合处理；

8、采用注意力机制对融合后的特征图进行过滤处理，得到三维特征图；

9、将三维特征图进行广义平均池化处理，得到一维特征图，再经过l2正则化处理，即得到最终的特征图；

10、低分辨率的绘本图像集中的所有绘本图像对应的特征图构成特征图库；

11、所述图像检索如下：

12、接收用户上传的绘本图像；

13、将接收的绘本图像输入到卷积神经网络中；

14、选取卷积神经网络的部分或全部输出分支输出的特征图，进行上采样后进行融合处理；

15、采用注意力机制对融合后的特征图进行过滤处理，得到三维特征图；

16、将三维特征图进行广义平均池化处理，得到一维特征图，再经过l2正则化处理，即得到最终的特征图；

17、将与接收的绘本图像对应的特征图与特征图库中的特征图进行匹配，计算相似度，并按相似度从高到低进行排序；

18、获取相似度排名前m名的特征图作为检索结果。

19、所述特征图构建以及图像检索过程中，对特征图的融合处理为：将卷积神经网络从底层到高层的输出分支输出的特征图以逐步的方式进行融合处理。

20、采用constrastive loss的损失函数对卷积神经网络进行训练。

21、采用上述方案后，本发明能够使得该算法接收来自离线阶段经由标准设备采集并压缩得到的低分辨率的标准绘本图像与经由用户客户端上传并压缩得到的查询绘本图像并产生特征的功能。本发明针对卷积神经网络低层与高层信息互补的特性，将网络从低层到高层的分支输出以逐步的方式进行融合，并通过注意力机制过滤冗余信息，从而有效地提取了低分辨率的图像的特征，并通过广义均值池化的方式，结合度量学习的对比损失更新整个网络的参数，从而由本算法涉及网络模型提取得到的特征具有良好的区分度。

技术特征：

1.一种针对低分辨率绘本图像的检索方法，其特征在于：所述方法包括特征图库构建和图像检索两部分；

2.根据权利要求1所述的一种针对低分辨率绘本图像的检索方法，其特征在于：所述特征图构建以及图像检索过程中，对特征图的融合处理为：将卷积神经网络从底层到高层的输出分支输出的特征图以逐步的方式进行融合处理。

3.根据权利要求1所述的一种针对低分辨率绘本图像的检索方法，其特征在于：采用constrastive loss的损失函数对卷积神经网络进行训练。

技术总结
本发明涉及一种针对低分辨率绘本图像的检索方法，其针对卷积神经网络低层与高层信息互补的特性，将网络从低层到高层的分支输出以逐步的方式进行融合，并通过注意力机制过滤冗余信息，从而有效地提取了低分辨率的图像的特征，并通过广义均值池化的方式，结合度量学习的对比损失更新整个网络的参数，从而由本算法涉及网络模型提取得到的特征具有良好的区分度。

技术研发人员：陈奇川
受保护的技术使用者：厦门绘可听软件技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈奇川
技术所有人：厦门绘可听软件技术有限公司
我是此专利的发明人

上一篇：一种便于携带的自锁组合式瓦楞纸托盘的制作方法
上一篇：一种锂电池铝塑复合膜分切设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。