图片检索方法、电子设备及计算机可读存储介质与流程

文档序号：28265868发布日期：2021-12-31 18:25阅读：241来源：国知局

1.本发明属于图片检索技术领域，尤其涉及一种基于图片语义信息的图片检索方法、电子设备及计算机可读存储介质。

背景技术：

2.在日常检索中，以文字检索图片仅局限于以图片的命名或者特征描述来进行限定检索，如果图片存在命名错误或者特征描述错误，就会存在输入文字无法精准搜索到相应图片的问题。比如说一张衣服的图片文件名为手机，通过输入文字“手机”来进行搜索，检索结果就会出现这张衣服的图片，即通过传统方式，输入关键字文字“手机”后，检索出的图片结果并不准确。而现实生活中存在大量图片和文件名不相符的现象，文件名和图片本身不具有相关性。再比如说，有些手机拍照图片是以时间戳和序号方式来命名的，而没有以图片特征或者图片所属类型来命名，则这种图片就不具备以图片名反映文件名的条件和形式，无法通过输入文字描述来定位检索到特定的图片。
3.综上所述，以文件名来检索图片这种传统的方式已经无法满足如今大数据时代的搜索需要了。

技术实现要素：

4.基于此，针对上述技术问题，提供一种基于图片语义信息的图片检索方法、电子设备及计算机可读存储介质。
5.本发明采用的技术方案如下：
6.一方面，提供一种基于图片语义信息的图片检索方法，其特征在于，包括：
7.s101、将待检索文本输入模糊搜索引擎，输出与所述待检索文本相似的语义信息文本集d
sim
，所述模糊搜索引擎通过预先导入的语义信息文本集d
full
构建索引本，所述语义信息文本集d
full
中的语义信息文本与图库中的图片一一对应；
8.s102、根据相似度得分由大至小，从所述语义信息文本集d
sim
中取出k个语义信息文本，形成语义信息文本集d
top
‑
sim
，所述k为预设值；
9.s103、根据所述语义信息文本集d
top
‑
sim
，从所述图库中匹配到相应的图片；
10.s104、输出匹配到的图片。
11.另一方面，提供一种电子设备，其特征在于，包括存储模块，所述存储模块包括由处理器加载并执行的指令，所述指令在被执行时使所述处理器执行上述的一种基于图片语义信息的图片检索方法。
12.再一方面，提供一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，其特征在于，所述一个或多个程序当被处理器执行时，实现上述的一种基于图片语义信息的图片检索方法。
13.本发明的模糊搜索引擎基于预先导入的语义信息文本集d
full
构建索引本，该语义信息文本集d
full
中的语义信息文本与图库中的图片一一对应，通过该引擎输出与待检索文
本相似的语义信息文本集d
sim
，之后根据相似度缩小语义信息文本量得到语义信息文本集d
top
‑
sim
，进而检索到相应的图片并进行输出，实现了通过文本深度检索图片语义，提高了检索准确性，可以满足如今大数据时代的搜索需要了。
附图说明
14.下面结合附图和具体实施方式对本发明进行详细说明：
15.图1为本发明的流程图。
具体实施方式
16.如图1所示，本说明书实施例提供一种基于图片语义信息的图片检索方法，包括：
17.s101、将待检索文本输入模糊搜索引擎，输出与待检索文本相似的语义信息文本集d
sim
，模糊搜索引擎预先导入有语义信息文本集d
full
，语义信息文本集d
full
中的语义信息文本与图库中的图片一一对应。
18.使用模糊搜索有以下好处：
19.(1)待检索文本不清晰时，如果使用完全匹配搜索，则搜索结果不理想，当检索文本过长时，但仅包含个别重要关键字时，通过模糊搜索可以搜索长文本具备核心关键词的对应结果。
20.(2)模糊搜索较灵活，没有匹配搜索那么死板。
21.(3)模糊搜索甚至支持待检索文本中包含部分错字。
22.语义信息文本集d
full
的构建过程如下：
23.a、遍历图库中的每张图片，通过ai模型提取每张图片的语义信息文本。
24.其中，ai模型包括车牌识别模型、人脸识别模型以及物体识别模型，车牌识别模型用于输入车牌图片、输出车牌文字，人脸识别模型用于输入人脸图片、输出对应的人名，物体识别模型用于输入物体图片、输出对应的名称，能够识别出通用80余种常见物体，比如手机、电脑、桌子、路灯、桥梁、轮胎、各种武器、各种动物等。
25.上述ai模型为现有模型，作为本发明的功能接口使用，此处不作重点描述。
26.相应地，步骤a进一步包括：
27.若ai模型从一张图片中提取出一个结果，则该结果为一个语义信息文本。
28.若ai模型从一张图片中提取出多个结果，则将多个结果进行拼接，形成一个语义信息文本，比如一张图片的提取结果包含汽车、车牌号、路灯、行人，那么对应的语义信息文本为“汽车、沪axxx、路灯、行人”。
29.b、形成每张图片与语义信息文本的对应关系e
i
＝(图id,语义d
i
)，i＝1,2,
…
,n；
30.c、形成语义图库e＝(e1,e2……
e
n
)；
31.d、从所述语义图库中取所有语义d
i
形成所述语义信息文本集d
full
。
32.为了便于步骤s102的执行，可以将语义信息文本集d
sim
中的语义信息文本按照相似度得分由大至小排列,与待检索文本越相似得分越高。
33.相似度可使用编辑距离进行打分，编辑距离，也叫莱文斯坦距离(levenshtein)，是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理(增删改查)才能将一个字符串变成另一个字符串。
34.例如，有两个字符串分别为：a＝love和b＝lolpe。
35.那么计算a和b的编辑距离，就是要算出从a变化到b需要经过多少个步骤：
36.1.love
‑
>lolve(插入i)
37.2.lolve
‑
>lolpe(用v替换成p)
38.那么我们就说他们的编辑距离为2。
39.编辑距离越短，则代表两个字符串越相似，由此得到的相似度得分越高。
40.在一种实施方式中，模糊搜索引擎采用倒排索引方式，如采用elasticsearch引擎，当然，也可以采用其它具有倒排索引方式的模糊搜索引擎，倒排索引方式可以提高搜索引擎的检索效率。
41.s102、根据相似度得分由大至小，从语义信息文本集d
sim
中取出k个语义信息文本，形成语义信息文本集d
top
‑
sim
，k为预设值。
42.如果k值太小，那么搜索到的对应的图片数量就会太少，那可能给用户的选择就会太少，从而存在用户真正感兴趣的图片不在搜索结果里面，那么这会是一个失败的搜索，若太大，那么搜索的结果会很冗余，搜索的必要性就不是太大，因为如果图库有1000张图，k取900，返回结果就有900张图片，则没有太大的搜索意义。
43.若k大于语义信息文本集d
sim
中所有语义信息文本的数量，则将所有语义信息文本取出，形成语义信息文本集d
top
‑
sim
。
44.s103、根据语义信息文本集d
top
‑
sim
，从图库中匹配到相应的图片，具体过程如下：
45.a、根据语义信息文本集d
top
‑
sim
，从语义图库e中映射出对应的图id。
46.b、根据图id，从图库中匹配到相应的图片，形成图片集合s。
47.s104、输出匹配到的图片：可以分页显示图片集合s中的图片，如每一页展示20个图片，可以以翻页的方式切换和浏览。
48.为了配合翻页，上述k可以在300
‑
500的范围中进行取值，这样每一页会显示几十张图片，页面负担较小，反之，则页面负担较大，浏览器较卡顿，体验不佳。
49.下面进行举例说明。
50.1、待检索文本为：宠物狗
51.搜索引擎对“宠物狗”进行模糊搜索，匹配到“狗”，即d
sim
中只有一个文本，那就是狗。
52.由于d
sim
中只有一个文本，故k取1，这样d
top
‑
sim
与d
sim
就是相同的。
53.根据d
top
‑
sim
从图库e中映射出对应图片的id，从而得到所有狗的图片，最后对所有狗的图片进行分页展示。
54.2、待检索文本为：车牌沪ab6666
55.搜索引擎对“车牌沪ab6666”进行模糊搜索，匹配出(沪ab6666，川ab6666，京ab6666，沪cb6666，沪bb6666，沪ab6661，沪ab6661，沪ab6662，沪ab6663，沪ab6664...)，可以看到d
sim
中会有多个文本。
56.这里k取10，这样d
top
‑
sim
中包含相似度从高到低的10个文本。
57.根据d
top
‑
sim
从图库e中映射出对应图片的id，这样就得到沪ab6666的所有图片，川ab6666的所有图片，京ab6666的所有图片，沪cb6666的所有图片，沪bb6666的所有图片，沪ab6661的所有图片，沪ab6661的所有图片，沪ab6662的所有图片，沪ab6663的所有图片，沪
ab6664的所有图片，最后对这些图片进行分页展示。
58.基于同一发明构思，本说明书实施例还提供一种电子设备，包括存储模块，存储模块包括由处理器加载并执行的指令，指令在被执行时使处理器执行本说明书上述一种基于图片语义信息的图片检索方法部分中描述的根据本发明各种示例性实施方式的步骤。
59.其中，存储模块可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)和/或高速缓存存储单元，还可以进一步包括只读存储单元(rom)。
60.基于同一发明构思，本说明书实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现本说明书上述一种基于图片语义信息的图片检索方法部分中描述的根据本发明各种示例性实施方式的步骤。
61.计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机可读存储介质的更具体示例包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
62.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
63.但是，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：元方;张凡超
技术所有人：新智认知数据服务有限公司
我是此专利的发明人

上一篇：请求处理方法、装置、设备及存储介质与流程
上一篇：语音合成相关系统、方法、装置及设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。