图片检索方法、装置及电子设备与流程

文档序号：23305652发布日期：2020-12-15 11:35阅读：164来源：国知局

本申请属于通信技术领域，具体涉及一种图片检索方法、装置及电子设备。

背景技术：

随着电子设备存储空间不断扩大，电子设备拍摄效果不断增强，用户越来越依赖电子设备进行图片存储和管理，这导致大量的图片被沉淀在电子设备上，这些图片包括拍摄、截屏、应用程序或网页浏览器图片保存等。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：用户若需要查找电子设备上存储的图片，可以手动输入某一检索条件，例如输入检索条件“2019.5”，以检索2019年5月拍摄的图片；或者输入检索条件“小猫”，以检索拍摄的小猫照片。然而，如果用户需要查找2019年5月拍摄的小猫照片，若输入检索条件“2019年5月拍摄的小猫照片”，即使电子设备中存储有满足该检索条件的图片，也无法检索到满足该检索条件的图片，需要用户在大量图片中人工查找用户需求的图片。因此，存在图片检索效率较低的问题。

技术实现要素：

本申请实施例的目的是提供一种图片检索方法、装置及电子设备，能够解决现有的图片检索效率较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图片检索方法，该方法包括：

获取用户输入的第一语音信息；

将所述第一语音信息转换为第一文本序列；

识别所述第一文本序列中的p个第一命名实体；

确定n个图片与所述p个第一命名实体的n个第一综合匹配度；

基于所述n个第一综合匹配度，显示与所述第一语音信息匹配的m个目标图片；

其中，n、m、p为正整数，m≤n；所述m个目标图片的第一综合匹配度大于预设的匹配度阈值。

第二方面，本申请实施例提供了一种图片检索装置，包括；

获取模块，用于获取用户输入的第一语音信息；

转换模块，用于将所述第一语音信息转换为第一文本序列；

识别模块，用于识别所述第一文本序列中的p个第一命名实体；

第一确定模块，用于确定n个图片与所述p个第一命名实体的n个第一综合匹配度；

第一显示模块，用于基于所述n个第一综合匹配度，显示与所述第一语音信息匹配的m个目标图片；

其中，n、m、p为正整数，m≤n；所述m个目标图片的第一综合匹配度大于预设的匹配度阈值。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过获取用户输入的第一语音信息，将第一语音信息转换为第一文本序列，识别第一文本序列中的p个第一命名实体，确定n个图片与p个第一命名实体的n个第一综合匹配度，基于n个第一综合匹配度，显示与第一语音信息匹配的m个目标图片。由于无需用户在大量图片中浏览检索，也无需用户输入检索词进行检索，只需用户通过语音输入即可检索用户需查找的图片，因此方便用户快速、便捷、准确的检索到用户所需的图片，提高了图片检索效率。

附图说明

图1是本申请实施例中提供的一种图片检索方法的步骤流程图；

图2是本申请实施例提供的一种ner模型识别文本序列中的命名实体的示意图；

图3是本申请实施例提供一种目标图片显示界面示意图；

图4是本申请实施例提供的一种图片检索装置的结构示意图；

图5是本申请实施例提供的一种电子设备的硬件结构示意图；

图6为实现本申请实施例的另一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图片检索方法进行详细地说明。

参照图1，图1是本申请实施例中提供的一种图片检索方法的步骤流程图，该方法可以包括如下步骤：

步骤101、获取用户输入的第一语音信息。

步骤102、将第一语音信息转换为第一文本序列。

针对步骤101和步骤102，用户打开图库应用程序后，可以长按界面上显示的“按我说”按钮进行语音输入，例如，用户要检索去年在某省拍摄的小狗玫瑰照，则可以长按该按钮输入第一语音信息“去年在广东省拍摄的小狗玫瑰照”，用户说完后，即可松开该按钮完成第一语音信息的录入。电子设备获取到第一语音信息后，将第一语音信息转换为第一文本序列。

其中，采用自动语音识别技术(asr，automaticspeechrecognition)将第一语音信息转换为第一文本序列。可以将第一语音信息输入训练后的asr模型，训练后的asr模型可以将第一语音信息转换为第一文本序列，需要说明的是，可以增加图片浏览检索领域常用热词训练训练asr模型，从而可以提高asr模型识别语音信息的准确性，进而提高将语音信息转换为文本序列的准确性。

步骤103、识别第一文本序列中的p个第一命名实体。

其中，p为正整数。识别第一文本序列中对检索有价值的命名实体，命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括日期时间、地名、组织机构名、专有名词等。例如时间命名实体、地理位置命名实体、以及语义命名实体。本实施例中通过标注第一文本序列中的每个字符，从而识别第一文本序列中的每个第一命名实体。采用b(begin)表示一个命名实体的起始位置，i(inside)表示一个命名实体的内部位置(这里也包括结束位置)，o(outside)表示不属于任何命名实体。为了进一步区分不同的命名实体的类型(例如时间命名实体、地理位置命名实体和其他命名实体)，定义bt为时间命名实体的起始位置，it为时间命名实体的内部位置，bp为地理位置命名实体的起始位置，ip为地理位置命名实体的内部位置，bo为其他命名实体(object)的起始位置，io为其他命名实体的内部位置。

本实施例中可以通过训练后的命名实体识别(ner，namedentityrecognition)模型识别第一文本序列中的每个字符的bio标签，从而识别第一文本序列中的p个第一命名实体。例如参照图2，图2是本申请实施例提供的一种ner模型识别文本序列中的命名实体的示意图。ner模型包括embedding(嵌入)层、双向长短时记忆网络(bilstm，bi-directionallongshort-termmemory)、条件随机场(crf，conditionalrandomfields)模型组成，embedding层将第一文本序列(例如第一文本序列为“最近拍的证件”)中的每个字符转化为字向量，输入到bilstm模型，通过bilstm模型提取字向量的特征，得到特征向量，通过crf模型标注特征向量，例如将“最”标注为bt，将“近”标注为it，将“拍”标注为0，将“的”标注为0，将“证”标注为bo，将“件”标注为io，进而根据标注结果识别出“最近”为时间命名实体、“拍”、“的”不属于任何命名实体，即“拍的”不是命名实体，“证件”为语义命名实体，即识别出的两个命名实体为“最近”和“证件”。

步骤104、确定n个图片与p个第一命名实体的n个第一综合匹配度。

其中，n、m为正整数，m≤n。确定n个图片与p个第一命名实体的n个第一综合匹配度可以通过如下方式实现：

确定n个图片与p个第一命名实体中的每个第一命名实体的第一个体匹配度；

根据n个图片的第一个体匹配度，确定n个图片与p个第一命名实体的n个第一综合匹配度。

确定n个图片与p个第一命名实体中的每个第一命名实体的第一个体匹配度可以通过如下方式实现：

在p个第一命名实体中的第i个第一命名实体为时间命名实体的情况下，获取第i个第一命名实体的第i个时间段和n个图片的创建时间；

根据第i个时间段和n个图片的创建时间，确定n个图片中每个图片与第i个第一命名实体的第一个体匹配度；

其中，i为正整数，i≤p，第i个第一命名实体为p个第一命名实体中的任一个；第i个时间段为预设的第i个第一命名实体对应的时间段或者为基于第i个第一命名实体的实体内容确定的时间段。

例如，第一语音信息为“最近拍的证件”，在步骤103中识别出两个命名实体，即p等于2，p个命名实体中的第1个第一命名实体为时间命名实体，则获取该时间命名实体对应的预设时间段，例如将距离当前时间最长为3个月的时间段作为预设时间段。例如当前时间为2020.05.010:00:00，则该时间命名实体对应的预设时间段为2020.02.010:00:00至2020.04.3023:59:59。如果第一语音信息为“去年在广东省拍摄的小狗玫瑰照”，电子设备的系统时间为2020年，则时间命名实体“去年”是实体内容为“去年”，则可以确定该时间命名实体“去年”的时间段为2019.01.010:00:00至2019.12.3123:59:59。

以时间命名实体“去年”的时间段为2019.01.010:00:00至2019.12.3123:59:59为例，可以用t1表示该时间段的起始时间(2019.01.010:00:00)，t2表示终止时间(2019.12.3123:59:59)，该时间命名实体的时间段为时间大于等于t1且小于等于t2的时间段；遍历所有图片，以获取每个图片的创建时间t(对于用户截图获得的图片，创建时间指用户截图时的时间；对于用户拍摄的图片，图片的创建时间指用户拍摄时的时间)，如果某个图片的创建时间t大于等于t1(2019.01.010:00:00)且小于等于t2(2019.12.3123:59:59)，则记录该图片匹配度等于1.0，否则，获取t与t1(2019.01.010:00:00)之间的距离、以及t与t2(2019.12.3123:59:59)之间的距离的最小值δt(单位秒)，即δt＝min(|t-t1|,|t-t2|)，通过公式st＝e^-αδt计算该图片与该时间命名实体的个体匹配度，其中，α是超参数，根据实际业务需要设定，α越大表示惩罚系数越大。通过遍历所有图片，输出每个图片与该时间命名实体的个体匹配度。

例如对于“昨天”这个时间命名实体，可以将该时间命名实体对应的时间段规范化为大于等于t1且小于等于t2，如果电子设备的当前的系统时间为2019年2月2日，则t1为2019年2月1日00:00:00，t2为2019年2月1日23:59:59。然后检查每个图片的创建时间是否在该时间段内，如果某个图片的创建时间在该时间段内，则直接返回最高得分1.0，否则，计算该图片的创建时间与t1的距离、以及该图片的创建时间与t2的距离之间的最短距离，用公式st＝e^-αδt计算每个图片与该时间命名实体的个体匹配度。

可选的，确定n个图片与p个第一命名实体中的每个第一命名实体的第一个体匹配度，可以通过如下方式实现：

在p个第一命名实体中的第j个第一命名实体为地理位置命名实体的情况下，获取第j个第一命名实体对应的第j个第一经纬度和n个图片的拍摄地的第二经纬度；

根据第j个第一经纬度和n个图片的拍摄地的第二经纬度，确定n个图片中每个图片与第j个第一命名实体的第一个体匹配度；

其中，j为正整数，j≤p，第j个第一命名实体为p个第一命名实体中的任一个。

其中，第j个第一命名实体对应的第j个第一经纬度为第j个第一命名实体表示的地理位置的经纬度。可以通过调用应用程序接口(api，applicationprogramminginterface)查询地理位置命名实体的经纬度范围，根据地理位置命名实体的经纬度范围确定该地理位置命名实体对应的经纬度l0。例如第一语音信息为“去年在广州拍摄的小狗玫瑰照”，通过步骤103识别出时间命名实体“去年”、地理位置命名实体“广州”、语义命名实体1“狗”、以及语义命名实体2“玫瑰”，4个第一命名实体中的第2个命名实体“广州”为地理位置命名实体，此种情况下，j等于2，即“广州”为4个命名实体中的第2个命名实体，该地理位置命名实体对应的第一经纬度可以为广州的经纬度范围的平均值。例如，广州的经纬度为东经112度57分至114度3分，北纬22度26分至23度56分，取广州的经纬度范围的平均值为东经113度30分、北纬23度11分作为“广州”对应的第一经纬度l0；遍历所有图片，以获取每个图片的拍摄地的第二经纬度l，计算每个图片的l与l0之间的实际物理直线距离d(单位米)，通过公式sp＝e^-βd，计算每个图片与该地理位置命名实体的第一个体匹配度。其中，β是超参数，根据实际业务需要设定，β越大表示惩罚系数越大。

可选的，确定n个图片与p个第一命名实体中的每个第一命名实体的第一个体匹配度可以通过如下方式实现：

在p个第一命名实体中的k个第一命名实体为语义命名实体的情况下，获取k个第一命名实体的k个词向量和n个图片的图像特征向量；

根据k个词向量和n个图片的图像特征向量，确定n个图片中每个图片与k个第一命名实体的第一个体匹配度。

在k个第一命名实体为语义命名实体为语义命名实体的情况下，采用深度结构化语义模型(dssm，deepstructuredsemanticmodel)确定每个图片与k个语义命名实体的第一个体匹配度，即在k个第一命名实体为语义命名实体的情况下，即存在k个语义命名实体，则确定每个图片与k个语义命名实体的语义匹配度。将图片的图像特征向量和k个语义命名实体对应的词向量输入dssm模型，通过dssm模型输出该图片与k个语义命名实体的第一个体匹配度。其中，图片的图像特征向量可以通过卷积神经网络(cnn，convolutionalneuralnetworks)模型获得，将图片输入cnn模型，通过cnn模型提取该图片的图像特征向量。语义命名实体对应的词向量可以使用glove模型训练好的词向量，如果语义命名实体的个数为多个时，即k大于1，例如第一语音信息为“去年在广州拍摄的小狗玫瑰照”的情况下，语义命名实体包括语义命名实体1“狗”和语义命名实体2“玫瑰”，此种情况下，即k等于2，需要根据语义命名实体1的词向量、语义命名实体2的词向量和n个图片的图像特征向量，确定n个图片中每个图片与k个第一命名实体的第一个体匹配度。具体的，可以将各个语义命名实体对应的词向量相加，以获得多个语义命名实体的文本特征向量，最后将图像特征向量与文本特征向量输入dssm模型，再通过dssm模型输出该图片与k个语义命名实体的第一个体匹配度，输出越接近0表示图文无关的程度越大，输出越接近1表示图文相关的程度越大。

其中，确定n个图片中每个图片与k个第一命名实体的第一个体匹配度。例如，如果第一语音信息为“去年在广州拍摄的小狗玫瑰照”，使用glove模型训练好的词向量初始化语义命名实体1的词向量和语义命名实体2的词向量，将语义命名实体1的词向量和语义命名实体2的词向量相加得到“玫瑰和狗”的文本特征向量；相册中如果共有图片1、图片2、……、图片100共100张照片，则将照片1的图像特征向量和该文本特征向量输入dssm模型，由dssm模型输出照片1与语义命名实体1和语义命名实体2的第一个体匹配度，同样，将图片2的图像特征向量和该文本特征向量输入dssm模型，由dssm模型输出图片2与语义命名实体1和语义命名实体2的第一个体匹配度，依次计算每个图片与语义命名实体1和语义命名实体2的第一个体匹配度。

步骤105、基于n个第一综合匹配度，显示与第一语音信息匹配的m个目标图片。

其中，m个目标图片的第一综合匹配度大于预设的匹配度阈值。

如果p个第一命名实体包括时间命名实体1、地理位置命名实体2和语义命名实体3，则需要将图片与该三个命名实体的第一个体匹配度进行归一化合并，以获得图片的第一综合匹配度。其中，归一化合并公式为：sfinal＝αtst+αpsp+αoso

其中，αt、αp和αo分别为根据业务需要设置的权重系数，分别用来控制图片与时间命名实体的第一个体匹配度、图片与地理位置命名实体的第一个体匹配度、图片与语义命名实体的第一个体匹配度三者权重，st、sp和so分别表示图片与时间命名实体的第一个体匹配度、图片与地理位置命名实体的第一个体匹配度、图片与语义命名实体的第一个体匹配度的大小。

若第一目标命名实体不包括时间命名实体，则每个图片与时间命名实体的第一个体匹配度为0，若第一目标命名实体不包括地理位置命名实体，则每个图片与地理位置命名实体的第一个体匹配度为0，若第一目标命名实体不包括语义命名实体，则每个图片与语义命名实体的第一个体匹配度为0。

基于n个第一综合匹配度，显示与第一语音信息匹配的m个目标图片，可以通过如下步骤实现：

按照n个第一综合匹配度的大小，对n个图片进行排序；

从排序后的n个图片中第一综合匹配度的取值位于预设匹配度取值范围的图片开始，顺序选取m个目标图片，并在第一预设屏幕区域，显示m个目标图片；

其中，m个目标图片中的第一目标图片的显示面积大于第二目标图片的显示面积，第一目标图片的第一综合匹配度高于第二目标图片的第一综合匹配度。

可以按照第一综合匹配度大到小对n个图片进行排序，即第i个图片的第一综合匹配度大于或等于第i+1个图片的第一综合匹配度，i≤n-1；也可以按照第一综合匹配度从小到大，对n个图片进行排序，即第i个图片的第一综合匹配度小于或等于第i+1个图片的第一综合匹配度。

参照图3，图3是本申请实施例提供的一种目标图片显示界面示意图，例如，第一语音信息为“去年在广东省拍摄的小狗玫瑰照”，相册中存储了500张图片，根据每个图片的第一综合匹配度的大小，对每个图片进行排序。如果预设匹配度取值范围例如为50％-100％，排序后的第一个图片的第一综合匹配度的取值为90％，则排序后的第一个图片位于预设匹配度取值范围内，从排序后的n个图片开始，顺序选取m个目标图片。如图3所示，例如顺序选取了17个图片，并在虚线框区域显示该17个图片。并且，如图3所示，选取的17个图片中的图片1的第一综合匹配度最大，图片2的第一综合匹配度大于图片3的第一综合匹配度，图片1为第一目标图片1，图片2为第一目标图片2，图片3为第一目标图片3，第二目标图片指选取的m个目标图片中除第一目标图片之外的剩余图片。

可选的，还可以包括如下步骤：

根据n个图片的拍摄位置，对n个图片进行分组，得到s个图片组；

根据s个图片组中每个图片的综合匹配度的大小，确定每个图片的缩略图的颜色深度；

按照每个图片的缩略图的颜色深度，在第二预设屏幕区域，分区显示s个图片组中至少一个图片的缩略图；

其中，不同综合匹配度的图片的颜色深度不同，s为正整数。

如图3所示，将在深圳拍摄的图片归为一个图片组1，在广州拍摄的图片归为一个图片组2，将在佛山拍摄的图片归为一个图片组3，根据s个图片组中每个图片的第一综合匹配度的大小，确定每个图片的缩略图的颜色深度，不同的第一综合匹配度的图片的缩略图的颜色深度不同，例如，将第一综合匹配度大于等于第一预设阈值的图片的缩略图用深红色显示，将第一综合匹配度大于等于第二预设阈值且小于第一预设阈值的图片的缩略图用浅红色表示，将第一综合匹配度大于等于第三预设阈值且小于第二预设阈值的图片的缩略图用浅黄色表示，将第一综合匹配度大于等于0且小于第三预设阈值的图片的缩略图用浅灰色表示，其中，第一预设阈值大于第二预设阈值，第二预设阈值大于第三预设阈值。

并且，在第二预设屏幕区域(例如3示出的屏幕区域右侧的实线框区域)，分区显示s个图片组中至少一个图片的缩略图，如图3所述，s(s等于3)个图片组包括图片组1、图片组2和图片组3，在第二预设屏幕区域的子区域301显示图片组1的图片的缩略图，在第二预设屏幕区域的子区域302显示图片组2的图片的缩略图，在第二预设屏幕区域的子区域303显示图片组3的图片的缩略图，实现分区显示每个图片组的图片的缩略图。通过根据n个图片的拍摄位置，对n个图片进行分组，得到s个图片组，并分区显示图片组中的缩略图，方便用户快速识别出不同拍摄位置的图片的缩略图，从而快速识别出图片的拍摄位置，找到自己需求的某一拍摄位置的照片。

通过不同的第一综合匹配度的图片的缩略图的颜色深度不同的显示方式，便于用户区分不同的第一综合匹配度的图片。并且，通过对第一综合匹配度最高的图片在虚线框区域放大显示，方便用户一眼就可以定位匹配度较高的图片，从而便于用户快速识别到自己所需的图片。

需要说明的是，若用户发现检索出的第一目标图片不满足用户需求，则可以继续按压图3所示的“按我说”按钮输入第二语音信息，则可以将第二语音信息转换为第二文本序列，识别第二文本序列中的g个第二命名实体；确定n个图片与g个第二命名实体中的每个第二命名实体的第二个体匹配度；根据n个图片的第一个体匹配度和第二个体匹配度，确定n个图片与p个第一命名实体和g个第二命名实体的n个第二综合匹配度；基于n个第二综合匹配度，显示与第一语音信息和第二语音信息匹配的y个目标图片，其中，g、y为正整数，y≤n。

例如用户输入的第一语音信息为“2019年的照片”，采用本实施例的方法检索出“2019年的照片”对应的m个目标图片后，用户发现需要检索2019年拍摄的小猫的照片，则可以接着按压图3所示的“按我说”按钮输入第二语音信息，输入的第二语音信息例如为“小猫”，并且在电子设备获取到第一语音信息之后的预设时长(例如10秒)内获取到第二语音信息的情况下，此种情况下，认为是同一场景下的用户检索需求，则将第一语音信息和第二语音信息进行合并，检索出满足第一语音信息和第二语音信息的y个目标图片。

需要说明的是，如果在预设时长内接收到的多次用户输入的第二语音信息，则将多次用户输入的第二语音信息与第一语音信息合并，从而检索出满足第一语音信息和多个第二语音信息的目标图片，用户不需要重复输入包括第一语音信息和第二语音信息的语音信息。

可选的，在识别第一文本序列中的每个第一命名实体之后，还可以包括如下步骤：

以浮窗形式显示p个第一命名实体对应的检索词。

如图3，若用户的第一语音信息为“去年在广东省拍摄的小狗玫瑰照”，则在第一预设区域的下方以浮窗形式显示的检索词包括“去年”、“广东省”、“狗”和“红玫瑰”。

可选的，还可以包括如下步骤：

显示预设进度条，预设进度条的第一位置包括滑块，第一位置指示第一综合匹配度的第一取值；

接收用户对滑块或预设进度条的触控输入；

响应于触控输入，将滑块更新至预设进度条的第二位置进行显示，并将m个目标图片更新为t个图片；

其中，第二位置指示第一综合匹配度的第二取值，t个图片为与第一语音信息匹配且综合匹配度大于或等于第二取值的图片。

其中，触控输入可以为用户滑动滑块、拖动滑块或点击预设进度条上的某个位置的操作，响应于触控输入，将滑块更新至预设进度条的第二位置进行显示，并将m个目标图片更新为t个图片。

例如，如图3，若第一取值为60％，若用户点击了预设进度条304上的第二位置，则可以将滑块更新至预设进度条304的第二位置，第二位置例如指示第一综合匹配度为80％，并且，此种情况下，将m个目标图片更新为t个图片，t个图片为与第一语音信息匹配且综合匹配度大于或等于第二取值(例如80％)的图片。因此，通过显示预设进度条，方便用户快速调整检索结果，即快速调整显示的目标图片。

本实施例提供的图片检索方法，通过获取用户输入的第一语音信息，将第一语音信息转换为第一文本序列，识别第一文本序列中的p个第一命名实体，确定n个图片与p个第一命名实体的n个第一综合匹配度，基于n个第一综合匹配度，显示与第一语音信息匹配的m个目标图片。由于无需用户在大量图片中浏览检索，也无需用户输入检索词进行检索，只需用户通过语音输入即可检索用户需查找的图片，因此方便用户快速、便捷、准确的检索到用户所需的图片，提高了图片检索效率。

并且，由于本实施例提供的图片检索方法，只需用户通过语音输入即可检索用户需查找的图片，因此，用户若需进行更加精细检索条件的检索时，只需输入更加精细检索条件的第一语音信息，无需用户在大量图片中浏览检索，因此提高了图片检索效率。

参照图4，图4是本申请实施例提供的一种图片检索装置的结构示意图，该装置400包括：

获取模块410，用于获取用户输入的第一语音信息；

转换模块420，用于将所述第一语音信息转换为第一文本序列；

识别模块430，用于识别所述第一文本序列中的p个第一命名实体；

第一确定模块440，用于确定n个图片与所述p个第一命名实体的n个第一综合匹配度；

第一显示模块450，用于基于所述n个第一综合匹配度，显示与所述第一语音信息匹配的m个目标图片。

本实施例提供的图片检索装置，通过获取用户的第一语音信息，并将第一语音信息转换为第一文本序列，识别第一文本序列中的每个第一命名实体，确定电子设备上存储的每个图片与第一目标命名实体的匹配度，其中，第一目标命名实体为所有第一命名实体中的任意一个，根据每个图片与第一目标命名实体的匹配度，确定每个图片的第一综合匹配度，根据每个图片的第一综合匹配度，显示与第一语音信息对应的第一目标图片，从而实现检索出满足第一语音信息的第一目标图片，用户若需进行更加精细检索条件的检索时，只需输入更加精细检索条件的第一语音信息，无需用户在大量图片中浏览检索，因此，在用户需要进行更加精细检索条件的检索图片时，提高了图片检索效率。

可选的，所述第一确定模块440，包括：

第一确定单元，用于确定n个图片与所述p个第一命名实体中的每个第一命名实体的第一个体匹配度；

第二确定单元，用于根据所述n个图片的所述第一个体匹配度，确定所述n个图片与所述p个第一命名实体的n个第一综合匹配度。

可选的，所述第一确定单元，具体用于在所述p个第一命名实体中的第i个第一命名实体为时间命名实体的情况下，获取所述第i个第一命名实体的第i个时间段和所述n个图片的创建时间；

根据所述第i个时间段和所述n个图片的创建时间，确定所述n个图片中每个图片与所述第i个第一命名实体的第一个体匹配度；

其中，i为正整数，i≤p，所述第i个第一命名实体为所述p个第一命名实体中的任一个；所述第i个时间段为所述第i个第一命名实体对应的预设时间段或者为基于所述第i个第一命名实体的实体内容确定的时间段。

可选的，所述第一确定单元，具体用于在所述p个第一命名实体中的第j个第一命名实体为地理位置命名实体的情况下，获取所述第j个第一命名实体对应的第j个第一经纬度和所述n个图片的拍摄地的第二经纬度；

根据所述第j个第一经纬度和所述n个图片的拍摄地的第二经纬度，确定所述n个图片中每个图片与所述第j个第一命名实体的第一个体匹配度；

其中，j为正整数，j≤p，所述第j个第一命名实体为所述p个第一命名实体中的任一个。

可选的，所述第一确定单元，具体用于在所述p个第一命名实体中的k个第一命名实体为语义命名实体的情况下，获取所述k个第一命名实体的k个词向量和所述n个图片的图像特征向量；

根据所述k个词向量和所述n个图片的图像特征向量，确定所述n个图片中每个图片与所述k个第一命名实体的第一个体匹配度；

可选的，所述第一显示模块450，具体用于按照所述n个第一综合匹配度的大小，对所述n个图片进行排序；

从排序后的所述n个图片中第一综合匹配度的取值位于预设匹配度取值范围的图片开始，顺序选取m个目标图片，并在第一预设屏幕区域，显示所述m个目标图片；

其中，所述m个目标图片中的第一目标图片的显示面积大于第二目标图片的显示面积，所述第一目标图片的第一综合匹配度高于所述第二目标图片的第一综合匹配度。

可选的，还包括：

分组模块，根据所述n个图片的拍摄位置，对所述n个图片进行分组，得到s个图片组；

第二确定模块，用于根据所述s个图片组中每个图片的第一综合匹配度的大小，确定每个图片的缩略图的颜色深度；

第二显示模块，用于按照每个图片的缩略图的颜色深度，在第二预设屏幕区域，分区显示所述s个图片组中至少一个图片的缩略图；

其中，不同的第一综合匹配度的图片的缩略图的颜色深度不同，s为正整数。

可选的，所述转换模块420，还用于在获取到所述第一语音信息之后的预设时长内，获取所述用户输入的第二语音信息的情况下，将所述第二语音信息转换为第二文本序列；

识别模块430，还用于识别所述第二文本序列中的g个第二命名实体；

第一确定模块440，还用于确定n个图片与所述g个第二命名实体中的每个第二命名实体的第二个体匹配度；

第一确定模块440，还用于根据所述n个图片的所述第一个体匹配度和所述第二个体匹配度，确定所述n个图片与所述p个第一命名实体和所述g个第二命名实体的n个第二综合匹配度；

第一显示模块，450还用于基于所述n个第二综合匹配度，显示与所述第一语音信息和所述第二语音信息匹配的y个目标图片；

其中，g、y为正整数，y≤n。

可选的，还包括：

第三显示模块，用于显示预设进度条，所述预设进度条的第一位置包括滑块，所述第一位置指示所述第一综合匹配度的第一取值；

接收模块，用于接收用户对所述滑块或所述预设进度条的触控输入；

第四显示模块，还用于响应于所述触控输入，将所述滑块更新至所述预设进度条的第二位置进行显示，并将所述m个目标图片更新为t个图片；

其中，所述第二位置指示所述第一综合匹配度的第二取值，所述t个图片为与所述第一语音信息匹配且综合匹配度大于或等于所述第二取值的图片。

本申请实施例中的图片检索装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，umpc)、上网本或者个人数字助理(personaldigitalassistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(networkattachedstorage，nas)、个人计算机(personalcomputer，pc)、电视机(television，tv)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图片检索装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图片检索装置能够实现图1的方法实施例中图片检索装置实现的各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种电子设备，如图5所示，图5是本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备500包括处理器501，存储器502存储在存储器502上并可在处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述资讯处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的另一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606用户输入单元607、接口单元608、存储器609、以及处理器610等部件。

本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器610，用于获取用户输入的第一语音信息；

将所述第一语音信息转换为第一文本序列；

识别所述第一文本序列中的p个第一命名实体；

确定n个图片与所述p个第一命名实体的n个第一综合匹配度；

基于所述n个第一综合匹配度，通过显示单元606显示与所述第一语音信息匹配的m个目标图片；

其中，n、m、p为正整数，m≤n；所述m个目标图片的第一综合匹配度大于预设的匹配度阈值。

通过获取用户输入的第一语音信息，将第一语音信息转换为第一文本序列，识别第一文本序列中的p个第一命名实体，确定n个图片与p个第一命名实体的n个第一综合匹配度，基于n个第一综合匹配度，显示与第一语音信息匹配的m个目标图片。由于无需用户在大量图片中浏览检索，也无需用户输入检索词进行检索，只需用户通过语音输入即可检索用户需查找的图片，因此方便用户快速、便捷、准确的检索到用户所需的图片，提高了图片检索效率。

处理器610，还用于确定n个图片与所述p个第一命名实体中的每个第一命名实体的第一个体匹配度；

根据所述n个图片的所述第一个体匹配度，确定所述n个图片与所述p个第一命名实体的n个第一综合匹配度。

处理器610，还用于在所述p个第一命名实体中的第i个第一命名实体为时间命名实体的情况下，获取所述第i个第一命名实体的第i个时间段和所述n个图片的创建时间；

根据所述第i个时间段和所述n个图片的创建时间，确定所述n个图片中每个图片与所述第i个第一命名实体的第一个体匹配度；

处理器610，还用于在所述p个第一命名实体中的第j个第一命名实体为地理位置命名实体的情况下，获取所述第j个第一命名实体对应的第j个第一经纬度和所述n个图片的拍摄地的第二经纬度；

根据所述第j个第一经纬度和所述n个图片的拍摄地的第二经纬度，确定所述n个图片中每个图片与所述第j个第一命名实体的第一个体匹配度；

其中，j为正整数，j≤p，所述第j个第一命名实体为所述p个第一命名实体中的任一个。

处理器610，还用于在所述p个第一命名实体中的k个第一命名实体为语义命名实体的情况下，获取所述k个第一命名实体的k个词向量和所述n个图片的图像特征向量；

根据所述k个词向量和所述n个图片的图像特征向量，确定所述n个图片中每个图片与所述k个第一命名实体的第一个体匹配度；

处理器610，还用于按照所述n个第一综合匹配度的大小，对所述n个图片进行排序；

从排序后的所述n个图片中第一综合匹配度的取值位于预设匹配度取值范围的图片开始，顺序选取m个目标图片，并通过显示单元606在第一预设屏幕区域，显示所述m个目标图片；

处理器610，还用于根据所述n个图片的拍摄位置，对所述n个图片进行分组，得到s个图片组；

根据所述s个图片组中每个图片的第一综合匹配度的大小，确定每个图片的缩略图的颜色深度；

按照每个图片的缩略图的颜色深度，通过显示单元606在第二预设屏幕区域，分区显示所述s个图片组中至少一个图片的缩略图；

其中，不同的第一综合匹配度的图片的缩略图的颜色深度不同，s为正整数。

处理器610，还用于在获取到所述第一语音信息之后的预设时长内，获取所述用户输入的第二语音信息的情况下，将所述第二语音信息转换为第二文本序列；

识别所述第二文本序列中的g个第二命名实体；

确定n个图片与所述g个第二命名实体中的每个第二命名实体的第二个体匹配度；

根据所述n个图片的所述第一个体匹配度和所述第二个体匹配度，确定所述n个图片与所述p个第一命名实体和所述g个第二命名实体的n个第二综合匹配度；

基于所述n个第二综合匹配度，通过显示单元606显示与所述第一语音信息和所述第二语音信息匹配的y个目标图片；

其中，g、y为正整数，y≤n。

显示单元606，还用于显示预设进度条，所述预设进度条的第一位置包括滑块，所述第一位置指示所述第一综合匹配度的第一取值；

射频单元601，还用于接收用户对所述滑块或所述预设进度条的触控输入；

显示单元606，还用于响应于所述触控输入，将所述滑块更新至所述预设进度条的第二位置进行显示，并将所述m个目标图片更新为t个图片；

其中，所述第二位置指示所述第一综合匹配度的第二取值，所述t个图片为与所述第一语音信息匹配且综合匹配度大于或等于所述第二取值的图片。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图片检索方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等。

应理解的是，本申请实施例中，输入单元604可以包括图形处理器(graphicsprocessingunit，gpu)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器609可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述图片检索方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李琪
技术所有人：维沃移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。