一种图像类别识别方法、装置、电子设备及存储介质与流程

文档序号:31408461发布日期:2022-09-03 07:59阅读:55来源:国知局
一种图像类别识别方法、装置、电子设备及存储介质与流程

1.本技术涉及图像处理技术领域,具体而言,涉及一种图像类别识别方法、装置、电子设备及存储介质。


背景技术:

2.图像处理技术的发展为人工智能领域奠定了基础,以零售场景为例,图像处理技术作为无人售货柜的重要技术之一,其能够通过图像采集用户手持的商品类别及数量实现自动化结算。
3.图像识别为图像处理技术中的一种,目前常见的图像识别方法包括检索法和模型法。所述检索法是指从利用检索底库中的多种类别的图像与待识别图像进行匹配,从而确定待识别图像的类别;模型法是指将待识别图像输入已训练好的模型中,获得模型输出的待识别图像的类别。
4.为了提高图像识别的准确性,提出将上述两种方法结合使用,但是由于检索法输出的数据与模型法输出的数据不同,从而无法实现二者的结合。


技术实现要素:

5.本技术实施例的目的在于提供一种图像类别识别方法、装置、电子设备及存储介质,用以解决检索法与模型法不兼容的问题。
6.第一方面,本技术实施例提供一种图像类别识别方法,包括:获取待识别图像,该待识别图像包括待识别对象;从检索底库中获取与待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得;所述根据所述目标截断距离和所述目标相似度距离确定所述待识别对象属于所述目标标准图像对应的类别的目标置信度,包括:根据公式计算获得所述目标置信度;其中,为目标置信度,为目标截断距离,为目标相似度距离;为截断置信度。
7.本技术实施例通过检索底库确定与待识别图像相匹配的目标标准图像,并利用目标标准图像对应的目标截断距离对目标相似度距离进行转换,获得对应的目标置信度,由于分类模型输出的也是置信度,因此,能够与分类模型兼容。
8.在任一实施例中,所述从检索底库中获取与所述待识别图像相匹配的目标标准图像,包括:
计算检索底库中每张标准图像与待识别图像的相似度距离;将最小的相似度距离对应的目标图像确定为目标标准图像。
9.本技术实施例通过计算检索底库中每张标准图像与待识别图像的相似度距离,从而可以确定出与待识别图像中的待识别对象最相近的标准图像。
10.在任一实施例中,所述方法还包括:获取检索底库,检索底库包括多种类别的标准图像,其中,每种类别均对应多张标准图像;对每一类别,获得多张训练图像,并根据训练图像和对应类别的标准图像确定所述类别对应的截断距离。
11.本技术实施例预先计算检索底库中每种类别的标准图像对应的截断距离,在进行类别识别阶段,在确定了待识别图像数据某个类别的相似度距离后,可以根据该类别对应的截断距离对相似度距离进行转换,获得置信度,从而能够在后续流程中与分类模型相融合。
12.在任一实施例中,所述根据所述训练图像和对应类别的标准图像确定所述类别对应的截断距离,包括:计算每张训练图像与对应类别的每张标准图像的相似度距离;根据相似度距离确定表征距离;根据表征距离确定截断距离。
13.本技术实施例通过根据每张训练图像与对应类别的标准图像的相似度距离确定截断距离,其获得的截断距离能够准确的将识别过程中待识别图像与目标标准图像的相似度距离转换为置信度。
14.在任一实施例中,所述计算每张所述训练图像与对应类别的每张所述标准图像的相似度距离,包括:分别对训练图像和标准图像进行特征提取,获得训练图像对应的训练图像特征和标准图像对应的标准图像特征;根据训练图像特征和标准图像特征计算欧式距离,以获得每张训练图像与对应类别的每张标准图像的相似度距离。
15.在任一实施例中,所述根据所述相似度距离确定表征距离,包括:将最小的相似度距离作为表征距离;相应的,所述根据所述表征距离确定截断距离,包括:将表征距离按照大小顺序排序,并将排序后获得的序列中预设位置的表征距离作为所述截断距离。
16.本技术实施例通过检索底库确定与待识别图像相匹配的目标标准图像,并利用目标标准图像对应的目标截断距离对目标相似度距离进行转换,获得对应的目标置信度,由于分类模型输出的也是置信度,因此,能够与分类模型兼容。
17.第二方面,本技术实施例提供一种图像类别识别装置,包括:图像获取模块,用于获取待识别图像,待识别图像包括待识别对象;图像匹配模块,用于从检索底库中获取待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;置信度转换模块,用于根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得;置信度转换模块具体用于:根据公式
计算获得所述目标置信度;其中,为目标置信度,为目标截断距离,为目标相似度距离;为截断置信度。
18.第三方面,本技术实施例提供一种电子设备,包括:处理器、存储器和总线,其中,处理器和存储器通过所述总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的方法。
19.第四方面,本技术实施例提供一种非暂态计算机可读存储介质,包括:非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的方法。
20.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
21.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
22.图1为本技术实施例提供的一种图像类别识别方法流程示意图;图2为本技术实施例提供的待识别图像示意图;图3为本技术实施例提供的一种图像类别识别装置结构示意图;图4为本技术实施例提供的电子设备实体结构示意图。
具体实施方式
23.目前,图像识别技术在零售业中应用广泛。以无人收货为例,通过采集顾客手中拿取的商品的图像,可以识别出顾客拿取的商品类别及数量。现有的商品类别的识别方法主要包括检索法和模型法。其中,检索法输出的是待识别图像中商品类别与检索底库中的商品类别的相似度距离,该相似度距离可以采用表示。模型法输出的是待识别图像中的商品属于某种商品类别的置信度,可以采用表示。
24.为了能够提高对商品识别的准确性,发明人提出将检索法和模型法融合,即采用两种方法同时进行商品识别,在获得两种方法分别对应的识别结果后,根据这两种结果获得最终的识别结果。发明人发现,由于上述两种方法输出结果的数据单位并不相同,从而导致无法将其进行融合。
25.为了解决无法融合的问题,发明人研究发现,将检索法输出的相似度距离进行转换,获得与模型法输出结果相适配的置信度,从而满足了融合的要求。
26.可以理解的是,识别方法还可以用于其他应用场景,例如:动物类别的识别、车辆类别的识别、商品类别的识别等等,本技术实施例对此不作具体限定。
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
28.可以理解的是,本技术实施例提供的图像类别识别方法可以应用于电子设备以及服务器;其中电子设备具体可以为智能手机、平板电脑、计算机、个人数字助理(personal digital assitant,pda)等;服务器具体可以为应用服务器,也可以为web服务器。
29.为了便于理解,本技术实施例提供的技术方案,下面以电子设备作为执行主体为例,以对图像中的商品类别进行识别对本技术实施例提供的图像类别识别方法的应用场景进行介绍。
30.图1为本技术实施例提供的一种图像类别识别方法流程示意图,如图1所示,该方法包括:步骤101:获取待识别图像,该待识别图像包括待识别对象;步骤102:从检索底库中获取与待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;步骤103:根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得。
31.在步骤101中,待识别图像的获取可以是通过设置在无人售货柜上的图像采集装置采集获得,也可以是接收其他设备发送的,本技术实施例不对待识别图像的获得方法进行限定。待识别对象是指待识别图像中呈现出来的需要进行类别识别的对象,例如:如图2所示,该待识别图像中包括一瓶矿泉水对象,那么该矿泉水对象就是待识别对象。可以理解的是,图像采集装置每隔一个时间段采集一张图像,或图像采集装置实时采集视频,并从视频中筛选包含待识别对象的图像。因此,待识别图像可以是预先从多张图像中筛选出来的,具体可采用对象检测模型检测图像中是否包含感兴趣的对象,若包含,这将该图像作为待识别图像。从而减少了对无用图像的计算。
32.在步骤102中,检索底库中包含多种类别的图像,本技术实施例称为标准图像,具体的类别可根据无人售货柜中所放置的商品类别相同,当然,对于其他应用场景,检索底库中的图像类别会有所不同,根据具体的应用场景进行设定,本技术实施例对此不作具体限定。由于商品的拍摄角度、光线等因素的存在,所以对于每种类别可以包括多张标准图像,多张标准图像分别对应的拍摄参数或拍摄环境不同,从而防止在识别过程中由于拍摄角度等问题无法确定其所属的类别。
33.在获取到待识别图像后,电子设备将该待识别图像与检索底库中的标准图像进行匹配,计算待识别图像与每张标准图像的相似度距离,从而根据相似度距离确定目标标准图像。
34.在步骤103中,在获得目标标准图像后,获取该目标标准图像对应的目标截断距离,可以理解的是,该目标截断距离为预先计算获得的,并且,每种类别对应一个目标截断距离。目标截断距离的具体计算方法参见下述具体的实施方式。
35.在获得目标截断距离后,可以利用目标截断距离对目标相似度距离进行转换,获得待识别对象属于该目标标准图像对应的类别的目标置信度。可以理解的是,该目标置信度可以采用表示。
36.可以通过如下公式对目标相似度距离进行转换,获得目标置信度:
其中,为目标置信度,即,对目标相似度距离进行转换后获得的待识别图像属于目标标准图像对应的类别的置信度;为目标标准图像对应的类别的目标截断距离;为待识别图像与目标标准图像之间的目标相似度距离;为截断置信度,为预先设定的值,例如可以为0.3,表征输出的置信度为之间的数值,具体可以根据实际业务需要进行设定。例如:若用户希望输出相对确定的结果,那么可以调高截断置信度,对于小于该截断置信度的待识别图像则不输出结果,直接过滤掉;若用户希望输出较多的结果,即便输出的结果不确定,则可以调低截断置信度。
37.本技术实施例通过检索底库确定与待识别图像相匹配的目标标准图像,并利用目标标准图像对应的目标截断距离对目标相似度距离进行转换,获得对应的目标置信度,由于分类模型输出的也是置信度,因此,能够与分类模型兼容。
38.在上述实施例的基础上,所述从检索底库中获取与所述待识别图像相匹配的目标标准图像,包括:计算检索底库中每张标准图像与待识别图像的相似度距离;将最小的相似度距离对应的目标图像确定为目标标准图像。
39.在具体的实施方式中,在进行相似度距离计算时,可以分别提取待识别图像的特征向量和标准图像的特征向量,计算上述两个特征向量之间的欧式距离,将欧式距离作为相似度距离。可以理解的是,还可以采用其他相似度距离的计算方式进行计算,例如曼哈顿距离等,本技术实施例对此不作具体限定。
40.可以将相似度距离最小的1张标准图像作为与待识别图像相匹配的目标标准图像。
41.在另一实施方式中,还可以获取相似度距离最小的5张标准图像,并从5张标准图像中选择属于同一类别数量最多的标准图像中相似度距离最小的标准图像作为目标标准图像。例如:相似度距离最小的5张标准图像中有3张标准图像属于a类别,有2张标准图像属于b类别,那么将a类别的3张标准图像中相似度距离最小的标准图像作为目标标准图像。当然,对于5张标准图像中,可能包含2张标准图像属于a类别,2张标准图像属于b类别,1张标准图像属于c类别的情况,那么可以比较a类别和b类别中的标准图像分别对应的相似度距离,将最小的相似度距离的标准图像作为目标标准图像。
42.本技术实施例通过计算检索底库中每张标准图像与待识别图像的相似度距离,从而可以确定出于待识别图像中的待识别对象最相近的标准图像。
43.在上述实施例的基础上,所述方法还包括:获取检索底库,检索底库包括多种类别的标准图像,其中,每种类别均对应多张标准图像;针对每一类别,获得多张训练图像,并根据训练图像和对应类别的标准图像确定类别对应的截断距离。
44.在具体的实施过程中,假设检索底库中包括a类别的标准图像n张,获取a类别的训
练图像m张,其中,训练图像可以是设置在无人售货柜上的图像采集装置采集获得包含a类别商品的图像。可以理解的是,可以人工从图像采集装置采集的图像中选出a类别商品的图像作为训练图像。
45.在获得的m张a类别的图像后,计算每张训练图像分别与n张标准图像的相似度距离。因此,每张训练图像均可以获得n个相似度距离。从每张训练图像的n个相似度距离中选择最小值作为该训练图像与标准图像的表征距离,从而可以获得m个表征距离。
46.将m个表征距离按照由小到大的顺序进行排序,选择预设位置处的表征距离作为截断距离。其中,预设位置处可以是0.95*m,例如:m=100,那么将序列中第95个表征距离作为截断距离。可以理解的是,预设位置的确定为发明人进行多次试验后选择的较优的数值,具体可以是分别取0.8,0.85,0.9,0.95,...然后针对每一取值进行试验,从中找效果最好的一个作为预设位置。
47.应当说明的是,由于检索底库中包括多种类别的标准图像,因此,针对每种类别均按照上述实施例的方式确定该类别对应的截断距离。
48.本技术实施例预先计算检索底库中每种类别的标准图像对应的截断距离,在进行类别识别阶段,在确定了待识别图像数据某个类别的相似度距离后,可以根据该类别对应的截断距离对相似度距离进行转换,获得置信度,从而能够在后续流程中与分类模型相融合。
49.在上述实施例的基础上,所述计算每张所述训练图像与对应类别的每张所述标准图像的相似度距离,包括:分别对训练图像和标准图像进行特征提取,获得训练图像对应的训练图像特征和标准图像对应的标准图像特征;根据训练图像特征和标准图像特征计算欧式距离,以获得每张训练图像与对应类别的每张标准图像的相似度距离。
50.在具体的实施过程中,可以预先训练获得特征提取模型,利用特征提取模型对训练图像和标准图像进行特征提取,获得d维向量的训练图像特征和d维向量的标准图像特征。应当说明的是,特征提取模型可以采用卷积神经网络构建并训练获得。
51.在获得训练图像特征和标准图像特征后,计算二者的欧式距离,采用欧式距离表征二者之间的相似程度,即相似度距离。可以理解的是,还可以采用曼哈顿距离、欧几里得距离、海明距离、明可夫斯基距离、切比雪夫距离、马哈拉诺比斯距离等,本技术实施例对计算相似度距离的算法不作具体限定。
52.本技术实施例通过检索底库确定与待识别图像相匹配的目标标准图像,并利用目标标准图像对应的目标截断距离对目标相似度距离进行转换,获得对应的目标置信度,由于分类模型输出的也是置信度,因此,能够与分类模型兼容。
53.图3为本技术实施例提供的一种图像类别识别装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括:图像获取模块301、图像匹配模块302和置信度转换模块303,其中:图像获取模块,用于获取待识别图像,待识别图像包括待识别对象;图像匹配模
块,用于从检索底库中获取待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;置信度转换模块,用于根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得。
54.置信度转换模块303具体用于:根据公式计算获得目标置信度;其中,所述为目标置信度,为目标截断距离,为目标相似度距离;为截断置信度。
55.在上述实施例的基础上,图像匹配模块302具体用于:计算检索底库中每张标准图像与待识别图像的相似度距离;将最小的相似度距离对应的目标图像确定为目标标准图像。
56.在上述实施例的基础上,该装置还包括截断距离确定模块,用于:获取检索底库,检索底库包括多种类别的标准图像,其中,每种类别均对应多张标准图像;针对每一类别,获得多张训练图像,并根据训练图像和对应类别的标准图像确定类别对应的截断距离。
57.在上述实施例的基础上,截断距离确定模块具体用于:计算每张训练图像与对应类别的每张标准图像的相似度距离;根据相似度距离确定表征距离;根据表征距离确定截断距离。
58.在上述实施例的基础上,截断距离确定模块具体用于:分别对训练图像和标准图像进行特征提取,获得训练图像对应的训练图像特征和标准图像对应的标准图像特征;根据训练图像特征和标准图像特征计算欧式距离,以获得每张训练图像与对应类别的每张标准图像的相似度距离。
59.在上述实施例的基础上,截断距离确定模块具体用于:将最小的相似度距离作为表征距离;将表征距离按照大小顺序排序,并将排序后获得的序列中预设位置的表征距离作为截断距离。
60.图4为本技术实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;其中:所述处理器401和存储器402通过所述总线403完成相互间的通信;所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待识别图像,该待识别图像包括待识别对象;从检索底库中获取与待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种
类别的标准图像,且每种类别包括多张标准图像;根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得;其中,所述根据所述目标截断距离和所述目标相似度距离确定所述待识别对象属于所述目标标准图像对应的类别的目标置信度,包括:根据公式计算获得所述目标置信度;其中,所述为所述目标置信度,为所述目标截断距离,为所述目标相似度距离;为截断置信度。
61.处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本技术实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
62.存储器402可以包括但不限于随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electrically erasable programmable read-only memory,eeprom)等。
63.本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待识别图像,该待识别图像包括待识别对象;从检索底库中获取与待识别图像相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得;其中,所述根据所述目标截断距离和所述目标相似度距离确定所述待识别对象属于所述目标标准图像对应的类别的目标置信度,包括:根据公式计算获得所述目标置信度;其中,所述为所述目标置信度,为所述目标截断距离,为所述目标相似度距离;为截断置信度。
64.本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待识别图像,该待识别图像包括待识别对象;从检索底库中获取与待识别图像
相匹配的目标标准图像,以及目标相似度距离,其中,检索底库包括多种类别的标准图像,且每种类别包括多张标准图像;根据目标标准图像确定目标截断距离,并根据目标截断距离和目标相似度距离确定待识别对象属于目标标准图像对应的类别的目标置信度;其中,目标截断距离为预先利用检索底库和训练图像计算获得;其中,所述根据所述目标截断距离和所述目标相似度距离确定所述待识别对象属于所述目标标准图像对应的类别的目标置信度,包括:根据公式计算获得所述目标置信度;其中,所述为所述目标置信度,为所述目标截断距离,为所述目标相似度距离;为截断置信度。
65.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
66.另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
67.再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
68.在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
69.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1