一种基于计算机视觉的图书定位方法与流程

文档序号：31053237发布日期：2022-08-06 08:56阅读：203来源：国知局

1.本发明属于计算机视觉设计领域，具体涉及一种基于计算机视觉的图书定位方法。

背景技术：

2.与随时随地可进行联网查阅的在线资源相比，在图书馆中搜寻特定图书资源并不容易；对读者而言，需要通过图书管理系统检索感兴趣的图书，随后在相应书架上进行查找，直到找到这本书。在真实场景中，这个过程不仅会耗费大量的人力与时间，有时还会因为图书馆中频繁的图书取阅与上架，导致读者很难在对应书架上找到目标书籍，造成资源与时间的浪费。
3.为解决这一问题，技术人员提出自动化图书馆的想法，基于突飞猛进的机器人技术，通过机械臂自动抓取书架上的图书，并通过导航机器人递送给读者，以期实现全自动的书籍检索与交付。在书架上的众多书籍中，如何让机器人能够准确识别目标书籍，并获取其准确位置，是重中之重，因此大多数图书馆在书籍中贴了rfid标签，然而通过rfid来获取书籍位置存在两个问题：一是由于多径效应与标签间干扰，rfid的定位精度无法满足抓取要求；二是基于rfid的书籍定位只能对标签进行定位，而不是对书籍本身进行定位，无法辅助书籍抓取。近年来，随着计算机硬件及软件设施的高速发展，计算机视觉技术发展迅速，给各行各业带来诸多便利。计算机视觉作为一门让计算机具备人类视觉能力的技术，能理解图片、视频等视觉数据，可以胜任人脸识别、图像分类、目标检测等多项任务。因此，相关技术人员提出将计算机视觉技术应用于图书定位的方案。
4.中国专利cn111814935a公布了一种基于盘点机器人的图书定位方法，包括如下步骤：s1、数据采集：机器人利用rfid识别技术获取图书的电子标签，并将其与机器人坐标，天线高度一同传输至处理器模块中；s2、数据处理转换：从电子标签中提取图书编码，并将电子标签，图书编码，机器人坐标，天线高度存储于数据存储模块中，通过处理器读取数据，将其换成数组矩阵的形式，并对每个数据做均值化处理；s3、图书定位：将s2处理后的数据输入至图书定位模块中，通过网络模型找到位置标签后，将位置标签与图书信息一同传输至数据读取模块中实现图书定位，其利用网络模型进行特征提取可以更准确、更迅速地定位图书的位置，大大减少了图书馆管理员的工作量，提高了工作效率。但是其在数据的处理以及相机的视觉定位处理上明显存在巨大的问题。
5.中国专利cn112464682a公布了一种基于rfid技术的智能书架的图书定位装置、方法，所述装置包括：标签；选路器，选路器对应智能书架的每层设置；多个天线，智能书架的每层均匀分布多个天线；读写器；控制器，用于发出控制送指令控制选路器选择对应的天线工作，并获取读写器读取的标签信息、标签信息对应的天线编码和标签信息对应的rssi值，其中，若标签信息对应多个天线编码，则保存rssi值较大的天线编码。该装置在每层书架设置多个天线，可以保证每个标签都被识别，在同个标签被多个天线读取时，选取rssi值的进行保存，可排除定位错架的问题，从而解决读全标签和定位精准矛盾的问题，达到精确定位
图书的目的。
6.然而，在实际应用中，上述技术面临多项挑战：为满足机械臂抓取需要，图书定位精度必须足够高；而且图书馆书籍排列密集，纹理也高度相似，照片中书籍众多，增加了图书识别的障碍，导致定位技术难以实现。
7.因此，开发一种基于计算机视觉的图书定位方法对提高图书馆书籍的利用效率具有深远影响，在节约读者查阅资料的时间上同样具有重要的作用。

技术实现要素：

8.为解决上述问题，以求开发一种基于计算机视觉的图书定位方法，以实现高效率和高准确性的图书定位，进而提高图书馆书籍利用效率、节约读者查阅资料的时间。
9.为达到上述效果，本发明设计了一种基于计算机视觉的图书定位方法；
10.一种基于计算机视觉的图书定位方法，所述方法包括：
11.步骤s1、通过相机拍照，对图书目标区域进行采集，并存储为图片；
12.步骤s2、构建并训练文本检测模型，用文本区域框标记所述图片中的所有文本；
13.步骤s3、基于文本区域框，对所述图片进行图书实例分割，从而获取图书实例及图书实例在所述图片中的位置信息；
14.步骤s4、构建并训练文本识别模型，对所述文本区域框进行识别，并将同一图书实例中的文本识别结果进行合并，得到每个图书实例的书名识别结果；
15.步骤s5、将所述书名识别结果与读者输入要在书架上进行查询的书籍名称进行匹配，输出目标书籍在所述图片中的定位结果。
16.优选地，所述步骤s2中构建并训练文本检测模型的方法包括：
17.步骤s21、对人工合成、真实场景文本检测数据集都进行数据增强；
18.步骤s22、基于east模型，修改模型对于“下”边界的定义，并实现可gpu加速非极大值抑制算法，提高模型训练及推理效率；
19.步骤s23、基于所述增强后的文本检测数据集，训练east模型：先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本检测模型。
20.优选地，所述步骤s3中，所述图书实例分割的方法包括：
21.步骤s31、用五个参数{di|i∈{1,2,3,4}},θ对书脊框进行定义；
22.步骤s32、对所述图片应用直线段检测算法，提取图片中连贯的长线段，输出线段图，并通过线段图生成单位法线图；
23.步骤s33、定义书脊框能量函数：该能量函数能让书脊框的各边贴合线段图，并且书脊框各边法向量与法线图方向一致时，达到最小；
24.步骤s34、将所述文本区域框作为初始的书脊框，不断向外扩大书脊框，直至能量函数达到最小，输出此时的书脊框，并进行筛选。
25.优选地，所述步骤s34中，所述筛选的方法包括：
26.步骤s341、当图书边缘对应两个及以上形状相似的书脊框时，对所述两个以上形状相似的书脊框应用非极大值抑制，从而获得更精确的图书实例分割结果；
27.步骤s342、剔除长宽比小于3：1的书脊框；
28.步骤s343、当书脊框之间存在相互覆盖情况时，根据空间关系进行筛选。
29.优选地，所述步骤s4中构建并训练文本识别模型的方法包括：
30.步骤s41、对人工合成、真实场景文本识别数据集都进行数据增强；
31.步骤s42、基于crnn模型，构建文本识别模型；
32.步骤s43、基于所述增强后的数据集，训练文本识别模型：先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本识别模型。
33.优选地，所述s5步骤中，书籍名称匹配的方法包括：
34.步骤s51、将书名识别结果和读者输入书名分别转化为词向量，向量长度等同于所有单词数目，取值为对应单词的tf-idf权重；
35.步骤s52、基于所述向量，用余弦相似度衡量读者输入书名与每个书名识别结果的匹配程度，可为输入书名匹配相似度最高的书名结果，并剔除相似度低于设定阈值的匹配结果，输出置信度较高的匹配结果及输入书名对应图片中的定位信息；多个输入书名，则该过程反复多次，为每个读者输入书名都进行一次匹配。
36.优选地，所述步骤s21中数据增强方法包括：随机改变图像的亮度、颜色、对比度等特征，并对图片进行随机旋转及裁剪。
37.优选地，所述s1步骤中，采集图片过程中还包括使用单应性变换矩阵消除图片中的透视形变，所述单应性变换矩阵通过消失点检测算法得到。
38.优选地，所述s1步骤中，采集图片过程中还包括使用相机的内外参数对采集的图片进行畸变校正，所述内外参数通过对相机进行标定得到。
39.优选地，所述步骤s1之前还包括：s0、构建并训练文本检测模型和构建并训练文本识别模型；
40.所述步骤s2替换为：用文本区域框标记所述图片中的所有文本；
41.所述步骤s4替换为：对所述文本区域框进行识别，并将同一图书实例中的文本识别结果进行合并，得到每个图书实例的书名识别结果。
42.本技术的优点和效果如下：
43.1、本技术将计算机视觉引入到图书定位领域，通过文本检测、图书实例分割、文本识别与文本匹配等技术，实现了一个高效的图书定位模型；进而实现高效率、高准确性的图书定位，最终实现了提高图书馆书籍的利用效率、达到节约读者查阅资料时间的技术效果。
44.2、本技术设计了一种全新基于文本区域框的图书实例分割算法，能在采集图像上实现图书的毫米级定位，即可精确得出图书所在的位置；当读者需要借阅书籍时，该方法可快速、准确提供书籍所在的位置，从而指示机械臂自动抓取书架上的图书，并通过导航机器人递送给读者，为实现自动化图书馆提供基础。
45.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，从而可依照说明书的内容予以实施，并且为了让本技术的上述和其他目的、特征和优点能够更明显易懂，以下以本技术的较佳实施例并配合附图详细说明如后。
46.根据下文结合附图对本技术具体实施例的详细描述，本领域技术人员将会更加明了本技术的上述及其他目的、优点和特征。
附图说明
47.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。
48.图1为本发明提供的一种基于计算机视觉的图书定位方法的流程图；
49.图2为本发明提供的相机与书架的位置关系图；
50.图3为本发明提供的基于消失点校正相机透视形变的效果图；
51.图4为本发明提供的构建并训练文本检测模型的流程图；
52.图5为本发明提供的对图片进行文本检测的效果图；
53.图6为本发明提供的对图片进行图书实例分割的流程图；
54.图7为本发明提供的书脊框的相对位置图；
55.图8为本发明提供的对图片进行图书实例分割的效果图；
56.图9为本发明提供的构建并训练文本识别模型的流程图。
具体实施方式
57.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本技术的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本技术的范围和精神。另外，为了清楚和简洁，实施例中省略了对已知功能和构造的描述。
58.应该理解，说明书通篇中提到的“一个实施例”或“本实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此，在整个说明书各处出现的“一个实施例”或“本实施例”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
59.此外，本技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身并不指示所讨论各种实施例和/或设置之间的关系。
60.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，单独存在b，同时存在a和b三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，a/和b，可以表示：单独存在a，单独存在a和b两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。
61.本文中术语“至少一种”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和b的至少一种，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。
62.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含。
63.实施例1
64.本实施例主要介绍一种基于计算机视觉的图书定位方法，具体方法请参考图1。
65.一种基于计算机视觉的图书定位方法，所述方法包括：
66.步骤s1、通过相机拍照，对图书目标区域进行采集，并存储为图片；
67.步骤s2、构建并训练文本检测模型，用文本区域框标记所述图片中的所有文本；
68.步骤s3、基于文本区域框，对所述图片进行图书实例分割，从而获取图书实例及图书实例在所述图片中的位置信息；
69.步骤s4、构建并训练文本识别模型，对所述文本区域框进行识别，并将同一图书实例中的文本识别结果进行合并，得到每个图书实例的书名识别结果；
70.步骤s5、将所述书名识别结果与读者输入要在书架上进行查询的书籍名称进行匹配，输出目标书籍在所述图片中的定位结果。
71.进一步的，相机即光学图像传感器，任何利用光电器件的光电转换功能将感光面上的光像转换为与光像成相应比例关系的电信号的装置均属于本技术中相机的含义。
72.其中，目标区域指读者需要查询书籍所在书架的区域，该区域为矩形区域，宽度约等同于书架两块竖向挡板之间的区域，长宽比等同于相机分辨率长宽比；若读者查询多本书籍，且这些书籍位于不同的目标区域，查询过程将按照按不同目标区域重复进行多次。
73.基于相机的采集结果，可以得到目标区域的图片，它包含读者感兴趣图书的书脊信息；通过文本检测模型，可用文本区域框标记所述图片中的所有文本，这些文本区域包括图书标题、图书作者、图书版次等；然后基于文本区域框，对所述图片进行图书实例分割，即可将每个图书分开，并获得每个图书实例在该图片中的位置，从而可以实现图书实例的毫米级定位，即精确地得出图书所在的位置；再构建并训练文本识别模型，对所述文本区域框进行识别，并将同一图书实例中的文本识别结果进行合并，这些文本识别结果共同构成一本图书的书名；最后将所述书名识别结果与读者输入要在书架上进行查询的书籍名称进行匹配，输出目标书籍在所述图片中的定位结果。
74.这样，只需要采用相机对目标区域进行拍照，并对获得的图片进行文本检测、实例分割、文本识别和书名匹配处理就可以完成图书定位过程；且通过构建并训练文本检测模型和文本识别模型的过程，可以显著的提高图书书名识别的准确性。
75.可选地，在通过相机拍照采集图片前，还包括：根据所述相机所处书架环境，调节相机参数。
76.不同图书馆书架情况、光照条件不同，为保证采集结果清晰可靠，需要视情况调节相机参数。首先，当目标区域为扫描对象时，合理控制相机与图书之间的距离，保证该区域能被完整采集。随后，基于相机与图书的距离、书架的光照条件等因素，调节相机焦距、曝光时间、增益、白平衡等相机参数，从而确保采集图片清晰可靠。
77.可选地，所述方法还包括：根据读者输入的目标书籍名称，在图书馆数据集中查询该书籍的位置，并指示相机到达指定区域进行照片采集。
78.这里的图书馆数据库是指进行图书定位的图书馆。由于图书馆中各个书架的位置均固定、且书架的图书摆放信息均被存储在图书馆数据库中，当知晓要查询的书籍时，即可以根据书籍在数据库中记录的位置信息，引导相机到指定区域，指示相机完成对目标区域的采集。
79.进一步的，所述构建并训练文本检测模型的方法包括：
80.步骤s21、对人工合成、真实场景文本检测数据集都进行数据增强；
81.步骤s22、基于east模型，修改模型对于“下”边界的定义，并实现可gpu加速非极大值抑制算法，提高模型训练及推理效率；
82.步骤s23、基于所述增强后的文本检测数据集，训练east模型：先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本检测模型。
83.进一步的，所述构建并训练文本识别模型的方法包括：
84.步骤s41、对人工合成、真实场景文本识别数据集都进行数据增强；
85.步骤s42、基于crnn模型，构建文本识别模型；
86.步骤s43、基于所述增强后的数据集，训练文本识别模型：先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本识别模型。
87.进一步的，所述s3步骤中，所述图书实例分割的方法包括：
88.步骤s31、用五个参数{di|i∈{1,2,3,4}},θ对书脊框进行定义；
89.步骤s32、对所述图片应用直线段检测算法，提取图片中连贯的长线段，输出线段图，并通过线段图生成单位法线图；
90.步骤s33、定义书脊框能量函数：该能量函数能让书脊框的各边贴合线段图，并且书脊框各边法向量与法线图方向一致时，达到最小；
91.步骤s34、将所述文本区域框作为初始的书脊框，不断向外扩大书脊框，直至能量函数达到最小，输出此时的书脊框，并进行筛选。
92.进一步的，所述s3步骤中，所述筛选的方法包括：
93.步骤s341、当图书边缘对应两个及以上形状相似的书脊框时，对所述两个以上形状相似的书脊框应用非极大值抑制，从而获得更精确的图书实例分割结果；
94.步骤s342、剔除长宽比小于3：1的书脊框；
95.步骤s343、当书脊框之间存在相互覆盖情况时，根据空间关系进行筛选。
96.进一步的，这里的图书实例指书脊实例。由于图书馆中图书摆放都是书脊部分朝外，所能采集到的图书区域通常只有书脊部分，并且书籍关键信息也都在书脊上，即只需要关注书脊部分，所以这里的图书实例就特指书脊实例，获得书脊框的过程即图书实例分割过程。
97.可选地，为了避免获得书脊框时较早陷入局部最优解，导致无法获得最准确的书脊框，需要计算相邻边缘向外扩展后的能量函数值。
98.也就是说，一些书脊上纹理或色块，会导致书脊框在还未完全包含整个书脊框区域时，达到局部最优解，导致得到的书脊框不够精确，则需要进一步计算，避免“早退”。
99.进一步的，所述s5步骤中，书籍名称匹配的方法包括：
100.步骤s51、将书名识别结果和读者输入书名分别转化为词向量，向量长度等同于所有单词数目，取值为对应单词的tf-idf权重；
101.步骤s52、基于所述向量，用余弦相似度衡量读者输入书名与每个书名识别结果的匹配程度，可为输入书名匹配相似度最高的书名结果，并剔除相似度低于设定阈值的匹配结果，输出置信度较高的匹配结果及输入书名对应图片中的定位信息；多个输入书名，则该过程反复多次，为每个读者输入书名都进行一次匹配。
102.进一步的，所述数据增强方法包括：随机改变图像的亮度、颜色、对比度等特征，并对图片进行随机旋转及裁剪。对这些数据集进行数据增强的目的在于进一步扩充数据集，训练更鲁棒的文本检测模型。同时图片的宽度将被拉伸/压缩成1600像素，长宽比保持不变。
103.进一步的，所述s1步骤中，采集图片过程中还包括使用单应性变换矩阵消除图片中的透视形变，所述单应性变换矩阵通过消失点检测算法得到。透视形变主要由于采集过程中相机拍摄方向与书脊方向没有保持垂直而引入的，会导致图片中的书脊形状不再为矩形，而是梯形。透视形变校正的过程主要是用消失点检测算法检测出图像主导正交方向上的两个消失点，随后基于两个消失点计算单应性矩阵，对图像进行单应性变换，完成图像校正。
104.进一步的，所述s1步骤中，采集图片过程中还包括使用相机的内外参数对采集的图片进行畸变校正，所述内外参数通过对相机进行标定得到。为了让相机有更大的视角，从而在与书架距离较近时也可对目标区域进行完整采集，相机一般需要搭配广角镜头，而广角镜头通常有较大的畸变。畸变主要是由于透镜制造精度以及组装工艺的偏差而引入，从而导致原始图像的失真。畸变校正的过程主要是基于相机标定得的内外参数，对采集图片进行二维透视变换，即可校正由于镜头畸变引起的图像的变形失真。
105.本技术将计算机视觉引入到图书定位领域，通过文本检测、图书实例分割、文本识别与文本匹配，实现一个细粒度且高效的图书定位模型；进而实现高效率和高准确的图书定位，最终实现提高图书馆书籍利用效率、节约读者查阅资料时间的技术效果。
106.本技术设计了一种全新基于文本区域框的图书实例分割算法，能在采集图像上实现图书的毫米级定位，即可精确得出图书所在的位置；当读者需要借阅书籍时，该方法可快速、准确提供书籍所在的位置，从而指示机械臂自动抓取书架上的图书，并通过导航机器人递送给读者，为实现自动化图书馆提供基础。
107.实施例2
108.基于上述实施例1，本实施例主要介绍另一种基于计算机视觉的图书定位方法。
109.一种基于计算机视觉的图书定位方法，所述方法包括：
110.步骤s0、构建并训练文本检测模型和构建并训练文本识别模型；
111.步骤s1、通过相机拍照，对目标区域进行采集，并存储为图片；
112.步骤s2、用文本区域框标记所述图片中的所有文本；
113.步骤s3、基于文本区域框，对所述图片进行图书实例分割，从而获取图书实例及图书实例在所述图片中的位置信息；
114.步骤s4、对所述文本区域框进行识别，并将同一图书实例中的文本识别结果进行合并，得到每个图书实例的书名识别结果；
115.步骤s5、将所述书名识别结果与读者输入要在书架上进行查询的书籍名称进行匹配，输出目标书籍在所述图片中的定位结果。
116.图2为本发明提供的相机与书架的位置关系图；根据镜头视角的不同，将相机平行放置于距离书架上图书约8-10cm的位置：若相机离图书太近，易导致无法完整采集一层书架图书的书脊信息；若距离过远，会因书脊在图片中过小而难以识别。同时采集瞬间保持相机静止，以避免相机采集结果中出现拖影。基于相机与图书的距离、书架的光照条件等因
素，调节相机焦距、曝光时间、增益、白平衡等相机参数，从而确保采集图片清晰可靠。
117.可使用张正友棋盘格标定法对相机进行标定，得到相机的内外参数。
118.此外，为实现全自动的图书定位，同时避免采集过程中相机出现较大抖动、相机与书架距离出现较大变化等干扰因素，将相机固定在移动扫描平台上。该移动扫描平台能够贴着书架行走，移动方向与书架长边平行，并且用千斤顶装置支持相机升降。基于该移动扫描平台，为相机提供相对稳定的采集环境，以期实现对目标区域的采集。此外，为确保采集亮度，在该扫描平台上部署照明合适的补光灯。由于工业相机通常不具备自动调焦的功能，需手动进行相机调焦。工业相机主要由镜头、摄像机组成，将扫描平台移动至书架边，通过旋转相机镜头可调节相机焦距，直至相机采集得的图书影像最为清晰。
119.进一步的，根据读者输入的目标书籍名称，在图书馆数据集中查询该书籍的位置，通过移动平台，将相机运送到目标区域进行采集，并通过标定矩阵对扫描结果进行畸变校正，保存扫描结果。
120.进一步的，若在拍摄过程中无法保持相机拍摄方向与书脊垂直，如图3(a)所示，存在透视形变时，会造成书脊部分不再是矩形时，需要添加一个额外的校正步骤：如图3(b)所示，用消失点检测算法检测出图像主导正交方向上的两个消失点，随后基于两个消失点计算单应性矩阵，对图像进行单应性变换，校正结果如图3(c)所示。若执行此操作，在得到图书实例分割结果后，需要将该结果通过该单应性矩阵重新变换回去。
121.如图4所示，图4为本发明提供的构建并训练文本检测模型的流程图。该过程包括以下步骤。
122.步骤s001，对文本检测数据集进行数据增强。训练过程中需要的数据集为人工合成数据集及由icdar 2013、icdar 2015、icdar 2017mlt构成的8429张真实场景数据集。为了获得更好的检测效果，对这些数据集都进行数据增强，其中使用的数据增强包括随机改变图像的亮度、颜色、对比度等特征，对图片进行随机旋转与裁剪，并把图片宽度都缩放到1600像素，长宽比保持不变。
123.步骤s002，基于east模型，构建文本检测模型。east模型包含两个分支，用于文本实例分割与像素级边界框回归；检测结果中文本区域的几何形状为由五个参数{di|i∈{1,2,3,4}},θ构成的旋转框，并同时输出该区域的置信度。基于east模型，以resnet-50为骨干网络构建文本检测模型，并且进行两处修改：
124.原版east文本区域的几何形状用由五个参数{di|i∈{1,2,3,4}},θ构成的旋转框表示，其中{di|i∈{1,2,3,4}}分别表示旋转框中心到上、下、左、右四条边界的距离，而这里的“下”边界指四个边界中最靠近图片底部的边界，而不是文本框的底线。因此，为了语义上的方便，同时避免east面临距离、角度预测不连续的问题，将“下”边界定义为文本框底线，效果如图5所示，文本框四条线中最深的那条表示新定义的“下”边界。
125.在原版east中，当文本建议框密集且距离相近时，局部感知的非极大值抑制算法的耗时较大。因此，重新实现可gpu加速的非极大值抑制算法，可将该部分的耗时减少10倍。
126.步骤s003，基于所述增强后的文本检测数据集，训练east模型。先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本检测模型。该模型文本检测效果如图5所示。
127.如图6所示，为一实施方式中对图片进行图书实例分割的流程图。该过程包括以下
步骤。
128.步骤s31，用五个参数{di|i∈{1,2,3,4}},θ对书脊框进行定义。在图书定位场景中，书脊框可以近似为矩形框。如图7所示，书脊框可以用图中五个参数{di|i∈{1,2,3,4}},θ表示出。对于一个给定的书脊框内部点v(不一定是书脊框正中心)，di表示内部点v到书脊框四条边的距离，θ表示书脊框与水平方向的夹角。图中其他参数均可由上述参数算出：
[0129][0130]ei
＝[p
i-1
,pi]
ꢀꢀ
(2)
[0131]
步骤s32，对所述图片应用直线段检测算法，提取图片中连贯的长线段，输出线段图，并通过线段图生成单位法线图。由于书脊框的四条边都是直线段，图书实例分割问题可以简化为直线段检测问题。因此可对原始图片应用直线段检测算法lsd，提取图片中连贯的长线段，并将其绘制在线段图上。线段图如图8(a)所示，图片中的直线段都被清晰提取出。该步骤可以减小书脊文字、部分纹理对于图书实例分割的影响。
[0132]
由于书籍之间摆放较为紧密，可能会在书籍之间检测出“一束”边缘，因此还需要从方向上对书脊边缘进行额外约束。如图8(b)所示，为线段图对应的法线图，用于描述每条线段的单位法向量。
[0133]
步骤s33，定义书脊框能量函数。基于线段图与法线图，可定义如下书脊框能量函数：
[0134][0135]
其中p∈ei表示p为线段ei中的一个像素；代表ei的单位法向量；l(p)为p在线段图中的取值，该值范围为[0,255]；n(p)为p在单位法线图中的取值。显而易见，该能量函数在书脊框的各边贴合线段图，并且书脊框各边法向量与法线图方向一致时，达到最小。
[0136]
最后，整个图书实例分割过程可简化为关于五个参数{di|i∈{1,2,3,4}},θ的能量最小化问题：
[0137][0138]
步骤s34，初始化书脊框，不断向外扩大书脊框，直至能量函数达到最小，输出此时的书脊框，并进行筛选。将所述文本区域框作为初始的书脊框，定义v为初始框的正中心，d1和d3为框高度的一半，d2和d4为框宽度的一半，θ为框此时与水平方向的夹角。
[0139]
随后不断轮流外移书脊框的四条边，即循环扩大{di|i∈{1,2,3,4}}。每条边存在两种状态：激活态与未激活态。在每轮迭代过程中，处在激活态的边缘将会被外移一个像素，未激活态的边缘将保持不动，而每轮迭代都有可能改动边缘的状态。初始时，所有边缘都处于为激活态，当某条边缘的能量e(ei)为局部最小值，且满足e(ei)《τ时，边缘将从激活态变为未激活态；与之相对，当边缘能量满足e(ei)》τ，未激活态的边缘将重新变为激活态。重复以上步骤，直至所有边缘都处于未激活态，输出此时的数据框，该过程如图8(c)所示。
[0140]
在每轮迭代中，还会对书脊框与水平方向的夹角θ进行更新，选取让能量函数达到最低的θ。其中θ将在范围[θ'-5
°
,θ'+5
°
]的11个值中进行选取，即：
[0141][0142]
其中θ'为每轮迭代的初始夹角。
[0143]
在获得书脊框的过程中，由于书脊框上存在形似矩形的色块或纹理，为了避免该过程较早陷入局部最优解，导致无法获得最准确的书脊框，如图8(d)所示，需要让边缘ei的相邻边缘e
i-1
与e
i+1
向外扩展δ，分别记作δe
i-1
与δe
i+1
，其中δe
i-1
与δe
i+1
的定义如下：
[0144][0145][0146]
若δe
i-1
与δe
i+1
的能量都小于τ，则ei仍然处于激活态，会在迭代过程中继续外扩。δ设定为图片宽度的
[0147]
由于书脊框以文本框为起始框，而一个书脊范围内存在书名、作者、出版社等多个文本，多列书名也有可能被识别为多个文本。也就是说，该方法初始化的书脊框数目远多于真实的书脊框数目，最终获得的书脊框也必定远多于真实的书脊框数目，其中还可能包含一些识别错误的书脊框，所以需要进一步进行筛选。
[0148]
对于图书边缘对应两个及以上形状相似的书脊框的情况，对所述形状相似的书脊框应用非极大值抑制，从而可获得更精确的实例分割结果；书脊框通常有着较大的长宽比，因此丢弃长宽比小于3：1的书脊框；最后，对于那些书脊框互相覆盖的情况，比如一个书脊框中包含多个书脊框，则根据空间关系进行筛选，最终图书实例分割结果如图8(e)所示。
[0149]
如图9所示，为一实施方式中构建并训练文本识别模型的流程图。该过程包括以下步骤。
[0150]
步骤s011，对人工合成、真实场景检测数据集都进行数据增强。训练过程中需要的数据集由人工合成数据集与真实场景数据集icdar 2017mlt构成。为了获得更好的检测效果，对这些数据集都进行数据增强，其中使用的数据增强包括随机改变图像的亮度、颜色、对比度等特征，对图片进行随机裁剪，并把图片都缩放到32像素*120像素。
[0151]
步骤s012，基于crnn模型，构建文本识别模型。该文本识别模型基于crnn模型，为避免字符分割，crnn预测结果将在词典中选择具有最低ctc损失的单词，利用词典实现纠错。为了加快计算速度，可限制候选集搜索范围，并用bk树进行有效查找。
[0152]
步骤s013，基于所述增强后的文本检测数据集，训练crnn模型。先让模型在人工合成数据集上完成预训练，再让模型在真实场景数据集中微调，得到健壮的文本识别模型。
[0153]
基于图书实例分割结果，可将同一图书实例中的文本识别结果进行合并，得到每个图书实例的书名识别结果，此时还需要将这些书名识别结果与读者输入的书名进行匹配。将书名识别结果和读者输入书名分别转化为词向量，其中书名识别结果转化为的词向量{t
k|
k∈{1,2,
…
,n}}与读者输入书名转化成的词向量q定义如下：
[0154]
tk＝[v
1,k
,v
2,k
,
…
,v
w,k
]
ꢀꢀ
(8)
[0155]
q＝[v
1,q
,v
2,q
,
…
,ν
w,q
]
ꢀꢀ
(9)
[0156]
向量tk与q的长度等同于所有单词数目w，取值ν
x,k
与v
x,q
为对应单词的tf-idf权重。基于所述向量(8)与(9)，用余弦相似度衡量读者输入书名与每个书名识别结果的匹配程度，计算公式如下：
[0157][0158]
通过相似度计算，可为输入书名匹配相似度最高的书名结果，并剔除相似度低于设定阈值的匹配结果，输出置信度较高的匹配结果及输入书名对应图片中的定位信息。如有多个输入书名，则该过程反复多次，为每个读者输入书名都进行一次匹配。
[0159]
最后，汇总匹配结果与图书实例的定位信息，输出定位结果。优选地，还可通过数据交互方式，将定位结果通知机械臂，让机械臂完成图书的自动抓取，并让导航机器人将图书递送给读者。
[0160]
本方法将构建并训练文本检测模型的过程和构建并训练文本识别模型的过程提前完成。也就是说，文本检测模型可以提前构建并训练，然后存在服务器中，在后续用文本区域框标记所述图片中的所有文本时直接调取即可；同样的，构建并训练文本识别模型也可以在相机拍照之前提前完成，也就是说，文本识别模型可以提前构建并训练，然后存在服务器中，在后续对文本区域框进行识别时直接调取即可。
[0161]
实施例3
[0162]
基于实施例1，本实施例对本技术改进时遇到的问题以及改进方法做进一步论述：
[0163]
针对没有书架场景下，对密集图书进行实例分割的现成数据集，用其他场景下的实例分割数据集训练实例分割模型效果不佳。本技术的解决办法为：创造性地提出一种图书实例分割的传统算法，避免没有相应数据集导致分割精度较低的问题。该图书实例分割算法只需要基于一个文本检测的神经网络，而文本检测的数据集丰富，检测算法相对成熟，使得整体算法易于实现。
[0164]
针对书架上相邻书籍的摆放位置往往非常接近，这些书籍纹理相似，且呈现多样的摆放方向，对图书实例分割带来挑战的问题。本技术的解决办法为：对于书籍摆放紧密的问题，在书脊框能量函数中加入了线段的单位法向量，以获得更精确的书脊框表示；对于书脊上形似矩形的色块或纹理，为了避免扩大书脊框的过程较早陷入局部最优解，设计一种避免“早退”的机制；书脊上的文本区域通常与书脊框平行，基于这种平行关系，选择文本区域框作为初始的书脊框，使得书脊框识别方向尽可能准确。
[0165]
针对图书馆中读者众多，为满足较为频繁的图书取阅请求，需要对图书定位技术的实时性提出较高要求的问题。本技术的解决办法为：
[0166]
1、模块之间可以高度并行化；在整个实施例1中，有四个步骤的时间开销较大：文本检测、直线段检测及单位法线图生成、文本识别、向外扩大书脊框；其中文本检测可以与直线段检测及单位法线图生成的步骤并行，文本识别可以与向外扩大书脊框的步骤并行，这种并行使得整体时间开销几乎减半。
[0167]
2、在旧版方案中，初始化书脊框的过程如下：将整个图像均匀划分为多个80*60像素的小区域，如果区域中的梯度值大于50，则以该区域的中心、{di＝1|i∈{1,2,3,4}}构造初始书脊框。由于此方案中初始的书脊框几乎为一个点，可视为“零书脊框”，这种从“零书脊框”扩展至与书脊边缘贴合的过程显然耗时较大。因此将文本区域框作为初始的书脊框，而不是从“零书脊框”开始，能大大减少时间开销。
[0168]
实施例4
[0169]
基于实施例1-3，本实施例主要介绍本方法的效果验证。
[0170]
(1)为了验证图书实例分割算法的准确性，还需要将其与深度学习算法比较。
[0171]
手动标注了100张图书图片，将其中80张作为训练集，20张作为测试集，并且加入多种数据增强，训练mask r-cnn模型。本发明以实例分割中的常用指标ap，ap
50
，ap
75
进行评估，数值越高表示分割准确性越好。表1评估结果及效果比对表明：mask r-cnn在密集场景中的识别效果不佳，尤其对于倾斜图书，我们的算法优于深度学习算法，且边缘更加精细。
[0172]
方法apap
50
ap
75
maskr-cnn66.489.882.0本实施例提出的图书实例分割77.797.989.2
[0173]
表1图书实例分割算法对比
[0174]
(2)为了验证图书定位总体性能，对于每一次读者的查询请求，该发明会提供对应书籍在书架上的可能位置。如果该发明提供的k个最可能位置中存在某个位置与真实位置iou值大于0.5，则认为定位结果准确。本方案用四个指标la
top-1
、la
top-3
、mae
l
、maes对整个方案进行评估，其中la1、la3(la:localization accuracy，即定位准确率)分别表示k＝1，k＝3时的定位准确率，mae
l
、maes(mae:mean absolute error，即平均绝对误差)分别描述书脊框长边、短边的分割误差。此外，本发明还与maskr-cnn+ocr的方案进行比对，其中ocr(文本检测+文本识别)的步骤与本发明的步骤一致，评估结果如表2：
[0175][0176]
表2图书定位总体性能对比
[0177]
结果表明，本发现实现了更高的定位准确率，且到达毫米级的定位精度，具有较高实用价值。
[0178]
以上所述仅为本发明的优选实施例而已，其并非因此限制本发明的保护范围，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，通过常规的替代或者能够实现相同的功能在不脱离本发明的原理和精神的情况下对这些实施例进行变化、修改、替换、整合和参数变更均落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈力军刘佳徐毅晖顾桥磊陈星宇鄢伟
技术所有人：江苏图客机器人有限公司
我是此专利的发明人

上一篇：一种便携式智能汉藏文字互译机的制作方法
上一篇：一种弹射起步控制方法、系统及汽车与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。