生成样本图像的方法、装置、设备与流程

文档序号:31708029发布日期:2022-10-01 12:50阅读:73来源:国知局
生成样本图像的方法、装置、设备与流程

1.本技术涉及图像识别技术领域,特别涉及一种生成样本图像的方法、装置、设备。


背景技术:

2.随着图像识别技术的发展,基于图像识别模型进行物品识别的应用越来越广泛,例如可应用于图像检索、视频检索等技术领域。
3.图像识别模型在应用之前,需要通过大量的样本图像进行训练。在训练图像识别模型的过程中,如果输入到图像识别模型中某类物品对应的样本图像越多,则训练完成的图像识别模型识别该类物品的准确率也就越高。
4.而对于网络平台中出现频率较低的长尾物品,如购物平台中需求不旺或销量不佳的商品(如创意玩具、小众工艺品等),由于网络平台中包括长尾物品的图像较少,因此包括长尾物品且可以用作样本图像训练图像视频模型的图像更少,所以图像视频模型识别长尾物品的准确率较低。因此如何增加长尾物品对应的样本图像已成为现在亟需解决的技术问题。


技术实现要素:

5.本技术实施例提供了一种生成样本图像的方法、装置、设备及存储介质,能够增加长尾物品对应的样本图像。所述技术方案如下:
6.第一方面,提供了一种生成样本图像的方法,所述方法包括:
7.获取包含长尾物品的目标图像;
8.对所述目标图像进行物品识别,得到对所述目标图像中进行物品识别的识别框;
9.基于所述识别框的个数,确定长尾物品在所述目标图像中的显示区域;
10.对所述目标图像中在所述显示区域内的局部图像进行图像处理,得到多个进行图像处理后的目标图像,将所述多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像。
11.可选的,所述获取包含长尾物品的目标图像,包括:
12.获取包含长尾物品的样本视频;
13.在所述样本视频中获取多个视频帧,其中,所述多个视频帧中的任意两个视频帧的相似度小于相似度阈值;
14.将所述多个视频帧确定为目标图像。
15.可选的,所述对所述目标图像进行物品识别,得到对所述目标图像中进行物品识别的识别框,包括:
16.将所述目标图像输入至所述第二图像识别模型,由所述第二图像识别模型输出所述识别框和对应识别结果,其中,所述第二图像识别模型为经过包含长尾物品的第二图像训练后的图像识别模型,所述识别结果为所述目标图像中包括的长尾物品的物品类别以及对应的置信度。
17.可选的,所述方法还包括:
18.如果所述第二图像识别模型输出的识别框为多个,则确定多个识别框中尺寸最大的目标识别框;
19.将所述目标识别框对应的目标物品类别,确定为所述目标图像中包括的长尾物品对应的物品类别。
20.可选的,所述将所述多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像,包括:
21.获取所述第二图像识别模型输出的所述目标图像对应的物品类别的目标置信度,将所述目标置信度设置为由所述目标图像得到的各样本图像对应的训练标签值。
22.可选的,所述基于所述识别框的个数,确定长尾物品在所述目标图像中的显示区域,包括:
23.如果所述识别框为一个,则对所述识别框按照预设放大系数进行放大处理,得到放大处理后的识别框,将所述放大处理后的识别框对应的区域确定为长尾物品在所述目标图像中的显示区域;
24.如果所述识别框为多个,则确定多个识别框对应的最小外接矩形,将所述最小外接矩形对应的区域确定为长尾物品在所述目标图像中的显示区域。
25.可选的,所述基于所述识别框的个数,确定长尾物品在所述目标图像中的显示区域,包括:
26.如果所述识别框的个数为多个,且在多个识别框中存在对应同一目标识别结果的多个第一识别框,则将所述多个第一识别框组成第一识别框集合;
27.在所述第一识别框集合中,确定对应置信度最大的第二识别框,将所述第二识别框添加至第二识别框集合中,在所述第一识别框集合中删除所述第二识别框,并在所述第一识别框集合中确定与所述第二识别框的交并比超出交并比阈值的第三识别框,降低所述第三识别框的置信度;
28.确定所述第一识别框集合中是否存在对应置信度大于置信度阈值的第四识别框;
29.如果存在所述第四识别框,则转至执行所述在所述第一识别框集合中,确定对应置信度最大的第二识别框;
30.如果不存在所述第四识别框,则根据所述第二识别框集合中包括的识别框,确定所述目标识别结果对应的长尾物品在所述目标图像中的显示区域。
31.可选的,所述根据所述第二识别框集合中包括的识别框,确定所述目标识别结果对应的长尾物品在所述目标图像中的显示区域,包括:
32.确定所述第二识别框集合中每个识别框对应的置信度、面积以及与所述目标图像中心点的距离值;
33.对所述每个识别框对应的置信度、面积以及距离值进行加权求和,得到每个识别框对应的排序指示值;
34.将对应排序指示值最高的指定数目个识别框对应的区域,确定为所述目标识别结果对应的长尾物品在所述目标图像中的显示区域。
35.可选的,所述图像处理包括等比缩放、旋转、翻转、裁剪、平移、对比度调整、色彩抖动、增加噪声中的至少一种。
36.第二方面,提供了一种生成样本图像的装置,所述装置包括:
37.获取模块,用于获取包含长尾物品的目标图像;
38.识别模块,用于对所述目标图像进行物品识别,得到对所述目标图像中进行物品识别的识别框;
39.确定模块,用于基于所述识别框的个数,确定长尾物品在所述目标图像中的显示区域;
40.处理模块,用于对所述目标图像中在所述显示区域内的局部图像进行图像处理,得到多个进行图像处理后的目标图像,将所述多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像。
41.可选的,所述获取模块,用于:
42.获取包含长尾物品的样本视频;
43.在所述样本视频中获取多个视频帧,其中,所述多个视频帧中的任意两个视频帧的相似度小于相似度阈值;
44.将所述多个视频帧确定为目标图像。
45.可选的,所述识别模块,用于:
46.将所述目标图像输入至所述第二图像识别模型,由所述第二图像识别模型输出所述识别框和对应识别结果,其中,所述第二图像识别模型为经过包含长尾物品的第二图像训练后的图像识别模型,所述识别结果为所述目标图像中包括的长尾物品的物品类别以及对应的置信度。
47.可选的,所述确定模块,还用于:
48.如果所述第二图像识别模型输出的识别框为多个,则确定多个识别框中尺寸最大的目标识别框;
49.将所述目标识别框对应的目标物品类别,确定为所述目标图像中包括的长尾物品对应的物品类别。
50.可选的,所述处理模块,用于:
51.获取所述第二图像识别模型输出的所述目标图像对应的物品类别的目标置信度,将所述目标置信度设置为由所述目标图像得到的各样本图像对应的训练标签值。
52.可选的,所述确定模块,用于:
53.如果所述识别框为一个,则对所述识别框按照预设放大系数进行放大处理,得到放大处理后的识别框,将所述放大处理后的识别框对应的区域确定为长尾物品在所述目标图像中的显示区域;
54.如果所述识别框为多个,则确定多个识别框对应的最小外接矩形,将所述最小外接矩形对应的区域确定为长尾物品在所述目标图像中的显示区域。
55.可选的,所述确定模块,用于:
56.如果所述识别框的个数为多个,且在多个识别框中存在对应同一目标识别结果的多个第一识别框,则将所述多个第一识别框组成第一识别框集合;
57.在所述第一识别框集合中,确定对应置信度最大的第二识别框,将所述第二识别框添加至第二识别框集合中,在所述第一识别框集合中删除所述第二识别框,并在所述第一识别框集合中确定与所述第二识别框的交并比超出交并比阈值的第三识别框,降低所述
第三识别框的置信度;
58.确定所述第一识别框集合中是否存在对应置信度大于置信度阈值的第四识别框;
59.如果存在所述第四识别框,则转至执行所述在所述第一识别框集合中,确定对应置信度最大的第二识别框;
60.如果不存在所述第四识别框,则根据所述第二识别框集合中包括的识别框,确定所述目标识别结果对应的长尾物品在所述目标图像中的显示区域。
61.可选的,所述确定模块,用于:
62.确定所述第二识别框集合中每个识别框对应的置信度、面积以及与所述目标图像中心点的距离值;
63.对所述每个识别框对应的置信度、面积以及距离值进行加权求和,得到每个识别框对应的排序指示值;
64.将对应排序指示值最高的指定数目个识别框对应的区域,确定为所述目标识别结果对应的长尾物品在所述目标图像中的显示区域。
65.可选的,所述图像处理包括等比缩放、旋转、翻转、裁剪、平移、对比度调整、色彩抖动、增加噪声中的至少一种。
66.第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的生成样本图像的方法所执行的操作。
67.第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述第一方面所述的生成样本图像的方法所执行的操作。
68.第五方面,提供了一种计算机程序产品,所述计算机程序产品中包括至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述第一方面所述的生成样本图像的方法所执行的操作。
69.本技术实施例提供的技术方案带来的有益效果是:
70.本技术实施例,通过对包含长尾物品的目标图像进行物品识别得到的识别框,确定长尾物品在所述目标图像中的显示区域。然后可以对目标图像中显示区域的局部图像进行图像处理,得到多个进行图像处理后的目标图像。如此可根据一个包括长尾物品的目标图像,生成多个包括长尾物品的样本图像,可见本技术能够增加长尾物品对应的样本图像。
附图说明
71.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
72.图1是本技术实施例提供的一种计算机设备的结构示意图;
73.图2是本技术实施例提供的一种生成样本图像的方法流程图;
74.图3是本技术实施例提供的一种识别框示意图;
75.图4是本技术实施例提供的一种识别框示意图;
76.图5是本技术实施例提供的一种进行放大处理后的识别框对比图;
77.图6是本技术实施例提供的一种进行合并处理后的识别框对比图;
78.图7是本技术实施例提供的一种生成样本图像的方法流程图;
79.图8是本技术实施例提供的一种识别框示意图;
80.图9是本技术实施例提供的一种生成样本图像的方法流程图;
81.图10是本技术实施例提供的一种对局部图像进行放大处理的示意图;
82.图11是本技术实施例提供的一种对局部图像进行缩小处理的示意图;
83.图12是本技术实施例提供的一种对局部图像进行旋转处理流程图;
84.图13是本技术实施例提供的一种对局部图像进行旋转处理的示意图;
85.图14是本技术实施例提供的一种生成样本图像的装置结构示意图;
86.图15是本技术实施例提供的一种终端结构示意图;
87.图16是本技术实施例提供的一种服务器结构示意图。
具体实施方式
88.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
89.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如本技术实施例中涉及的图像识别模型,可以通过将待识别的图像输入至图像识别模型中进行物品识别,然后由图像识别模型输出识别结果,即待识别的图像中包括的物品对应的物品类别以及该物品在相应图像中的区域。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
90.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
91.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。其中,本技术实施例提供的生成样本图像的方法中就设置图像处理、图像识别、视频处理、视频内容/行为识别等技术。
92.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发
展方向,其中语音成为未来最被看好的人机交互方式之一。
93.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
94.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
95.自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。
96.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
97.本技术实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等,具体通过如下实施例进行说明。
98.本技术实施例提供的生成样本图像的方法,可用于生成对图像识别模型进行训练的样本图像。该样本图像可是长尾物品对应的样本图像。
99.其中,图像识别模型是一种对输入图像中的物体进行识别得到识别结果的算法模型,属于机器学习模型,如区域卷积神经网络region convolutional neural network,rcnn)模型、快速(fast)区域卷积神经网络模型、级联(cascade)区域卷积神经网络模型、深度交叉网络(deep&cross network,dcn)模型等。识别结果可以包括物体的类别、物体在图像中的位置等。随着图像识别技术的发展,图像识别模型被广泛的应用于各个领域。例如在一些短视频平台、购物平台中,可通过图像识别模型实现对视频中商品进行识别,得到的商品类别。例如将展示服装的短视频中的一个或多个视频帧输入至图像识别模型中,由图像识别模型输出短视频中服装的位置以及服装的类别(如外套、裤子等)。在此基础上,还可以通过图像识别模型实现对视频的商品检索、商品分类等功能。
100.长尾物品属于日常生活中不常见的一类物品,在网络平台中出现的频率也比较低。因此可获取到的包括长尾物品的图像或视频也比较少。例如,可以是各种小众工艺品、古董等。长尾物品还可以是购物平台中需求不旺或销量不佳的长尾商品,如水龙头、创意玩具等。
101.由于图像识别模型识别物品的准确率,很大程度上取决于训练图像识别模型时采用的样本图像的丰富度。在训练图像识别模型的过程中,如果输入到图像识别模型中某类物品对应的样本图像越多,则训练完成的图像识别模型识别该类物品的准确率也就越高。
但是由于长尾物品在图像或视频中出现的频率比较低,因此包括长尾物品的样本图像的数量就比较少。所以现有的图像识别模型对于长尾物品的识别准确率比较低。
102.而本技术实施例提供的生成样本图像的方法,能够在长尾物品对应的有限的样本图像的基础上,生成更多可用于训练图像识别模型的样本图像,进而可以提高练图像识别模型识别长尾物品的准确率。
103.其中,本技术实施例提供的一种生成样本图像的方法可以由计算机设备实现。该计算机设备可以是终端,也可以是服务器等。当该计算机设备为终端时,该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。当当该计算机设备为服务器时,该服务器可以是一个单独的服务器,也可以是多个服务器组成的服务器组。
104.图1是本技术实施例提供的一种计算机设备的结构示意图,从硬件组成上来看,计算机设备100的结构可以如图1所示,包括处理器110、存储器120。
105.处理器110可以是中央处理器(central processing unit,cpu)或系统级芯片(system on chip,soc)等,处理器110可以用于获取包含长尾物品的目标图像;对目标图像进行物品识别,得到对目标图像中进行物品识别的识别框;基于识别框的个数,确定长尾物品在目标图像中的显示区域;对目标图像中在显示区域内的局部图像进行图像处理,得到多个进行图像处理后的目标图像,将多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像等等。
106.存储器120可以包括各种易失性存储器或非易失性存储器,如固态硬盘(solid state disk,ssd)、动态随机存取存储器(dynamic random access memory,dram)内存等。存储器120可以用于生成样本图像的处理过程中的预存数据、中间数据和结果数据,例如,目标图像、对目标图像进行图像处理过程中得到的图像以及对目标图像进行图像处理后得到的样本图像等。
107.除了处理器110、存储器120,计算机设备100还可以包括通信部件130。该通信部件130可以是有线网络连接器、无线保真(wireless fidelity,wifi)模块、蓝牙模块、蜂巢网通信模块等。通信部件130可以用于与其他设备进行数据传输,其他设备可以是服务器、也可以是终端等。
108.图2是本技术实施例提供的一种生成样本图像的流程图。参见图2,该实施例可由如图1所示的计算机设备执行,包括:
109.步骤201、获取包含长尾物品的目标图像。
110.对于长尾物品所涉及的物品类别可以由技术人员根据实际应用场景预先设定。对于包含长尾物品的目标图像,可以从已有的训练样本库中查找。在一种可能的情况中,长尾物品可以是长尾商品,即一些在购物平台中如购物平台中需求不旺或销量不佳的商品,如创意玩具、小众工艺品等。相应的,包含长尾商品的目标图像可以在购物平台中在对长尾商品的介绍图像、介绍视频中获取。
111.在一种可能的情况中,包括长尾物品的目标图像,可以从介绍长尾物品的视频中获取。在实施中,可以将介绍长尾物品的视频作为包含长尾物品的样本视频。但由于包含长尾物品的样本视频中存在大量相似的视频帧(如样本视频中连续的多个视频帧)。为了避免较多的相似度较高的视频帧作为训练样本,引起图像识别模型过拟合的问题,可以进行如下处理:
112.处理一:按照预设的帧间隔在样本视频中获取多个包含长尾物品的目标图像。
113.由于视频帧中相似度较高的视频帧一般为连续的视频帧,因此在样本视频中获取目标图像时,可以通过设置的帧间隔来获取样本视频中的目标图像。例如,可以将帧间隔设置为100,这样在样本视频中,可每隔100个视频帧获取一个视频帧作为目标图像。能够在一定程度上降低获取的目标图像中出现相似度较高的图像。
114.处理二:在样本视频中获取多个视频帧,其中,多个视频帧中的任意两个视频帧的相似度小于相似度阈值,将多个视频帧确定为目标图像。
115.为了降低在样本视频获取的目标图像中出现相似度较高的图像,可以计算样本视频中每个视频帧与其他视频帧的相似度。例如可以通过哈希算法计算视频帧之间的相似度。在计算每个视频帧与其他视频帧对应的相似度之后,可以在样本视频中获取多个视频帧。且在该多个视频帧中,任意两个视频帧之间的相似度都小于预设的相似度阈值。这样,能够避免获取的目标图像中出现相似度较高的图像,进而可以避免引起图像识别模型中出现过拟合的问题。
116.其中,在样本视频中获取目标图像的个数,可以由技术人员预先设置。在实施中,可以设置图像集合,然后依次从样本视频中获取目标图像,并将获取的目标图像加入到图像集合中。其中,在每次从样本视频中获取目标图像时,可以从样本视频获取与图像集合中包括的各图像对应的相似度均小于相似度阈值的图像。这样得到的图像集合中任意两个图像对应的相似度均小于相似度阈值。
117.需要说明的是,当需要在对长尾物品、长尾商品的介绍图像、介绍视频中获取目标图像之前,可向发布相应介绍图像、介绍视频的账户发送图像获取请求,并提示获取目标图像的用途。例如,可以通过弹窗的方式请求相应的账户同意将介绍图像、介绍视频中出现长尾商品的图像用作对图像识别模型进行训练的样本图像。
118.步骤202、对目标图像进行物品识别,得到对目标图像中进行物品识别的识别框。
119.在获取到一定数目的目标图像后,可以通过已有的图像识别模型(后续可称第二图像识别模型)对目标图像进行物品识别,得到对目标图像中进行物品识别的识别框。其中,第二图像识别模型可以是未经过长尾物品对应的训练样本训练过的图像识别模型,或者是可以是经过少量的长尾物品对应的训练样本训练过的图像识别模型。
120.将目标图像输入至第二图像识别模型,由第二图像识别模型输出对目标图像进行物品识别后,得到的识别框和识别结果。其中输出的识别框可以是识别框在目标图像中各顶点的坐标值。识别结果中包括识别到的长尾物品的物品类别,以及长尾物品属于该物品类别的置信度。
121.步骤203、基于识别框的个数,确定长尾物品在目标图像中的显示区域。
122.在实施中,由于对目标图像进行物品识别的第二图像识别模型的并未经过大量的长尾物品对应的训练样本进行训练。因此该第二图像识别模型对目标图像中包括的长尾物品的识别准确率较低。所以该第二图像识别模型对目标图像进行物品识别后,输出的多个识别框可能并不准确。例如可能将同一个物品识别为多个物品进而得到多个识别框。如图3所示,目标图像中包括的长尾物品为打火机,第二图像识别模型可能将打火机的贮气箱、点火机构和保护盖识别为了三种不同的物体,因此可能得到三个识别框。或者,第二图像识别模型得到的识别框,并没有完全包围目标图像中的识别框。如图4所示,目标图像中包括的
长尾物品为一个机器人,第二图像识别模型可能只识别到了机器人的上半部分,因此得到的识别框可能仅包围了机器人的上半部分。
123.在得到的第二图像识别模型对目标图像的识别框之后,可以根据识别框的个数,对识别框进行处理,确定长尾物品在目标图像中的显示区域。相应的处理如下:
124.情况一:如果识别框为一个,则对识别框按照预设放大系数进行放大处理,得到放大处理后的识别框,将放大处理后的识别框对应的区域确定为长尾物品在目标图像中的显示区域。
125.在第二图像识别模型得到的识别框的个数为一个时,为了避免识别框未能完全包围长尾物品,可以按照预设的放大系数对识别框进行放大处理。例如,可以获取识别框的中心点在图像坐标系中的坐标值以及识别框的长和宽。然后根据放大系数和识别框的长和宽,计算放大处理之后识别框的长和宽,然后再根据识别框中心点的坐标值以及放大处理之后识别框的长和宽,确定放大处理之后识别框的顶点坐标值。如图5所示,图5分别为目标图像中进行放大处理之前的识别框和进行放大处理之后的识别框。在得到放大处理之后的识别框后,可以将该放大处理之后的识别框对应的区域确定为长尾物品在目标图像中的显示区域。
126.情况二:如果识别框为多个,则确定多个识别框对应的最小外接矩形,将最小外接矩形对应的区域确定为长尾物品在目标图像中的显示区域。
127.在第二图像识别模型得到的识别框的个数为多个时,为了避免第二图像识别模型将一个长尾物品识别为多个长尾物品,则可以将多个识别框合并为一个识别框。例如,可以确定多个识别框对应的最小外接矩形,将确定的最小外接矩形对应的区域确定为长尾物品在目标图像中的显示区域。另外,在一种可能中当第二图像识别模型得到的识别框的个数为多个时,可以只将多个识别框中存在重叠的识别框对应的最小外接矩形确定为长尾物品在目标图像中的显示区域。参见图6,图6为将多个识别框进行合并处理的前后对比图。在得到多个识别框对应的最小外接矩形后,可以将该最小外接矩形对应的区域确定为长尾物品在目标图像中的显示区域。
128.另外,本技术实施例还提供了另外一种在识别框为多个时,确定长尾物品在目标图像中的显示区域的处理,参见图7,该处理包括:
129.步骤701、如果识别框的个数为多个,且在多个识别框中存在对应同一目标识别结果的多个第一识别框,则将多个第一识别框组成第一识别框集合。
130.在一种可能的情况中,第二图像识别模型输出的识别框的个数为多个,且多个识别框中,对应有不同的识别结果。例如,目标图像中包括多个打火机和多个火柴盒,在这种情况下,第二图像识别模型可能对该目标图像分别输出识别结果为打火机的多个识别框以及识别结果为火柴盒的多个识别框。
131.如果在第二图像识别模型输出的任一识别结果(目标识别结果)对应有多个识别框,则可以将该识别结果对应的多个识别框(即多个第一识别框)组成第一识别框集合。由于第二图像识别模型的识别准确度较低,因此该第一识别框集合中可能存在一些不够准确的识别框。例如在识别结果为火柴盒时,第一识别框集合中可能存在对应同一火柴盒的多个识别框,或者将其他物品误识别未火柴盒时对应的识别框等。如此在组成第一识别框集合后,可以在第一识别框集合包括的各识别框中筛选出更准确的识别框,作为对应识别结
果的识别框,相应的处理可见步骤702-705。
132.步骤702、在第一识别框集合中,确定对应置信度最大的第二识别框,将第二识别框添加至第二识别框集合中,在第一识别框集合中删除第二识别框,并在第一识别框集合中确定与第二识别框的交并比超出交并比阈值的第三识别框,降低第三识别框的置信度。
133.其中,第二图像识别模型得到的一个识别结果对应一个第一识别框集合,一个第一识别框集合唯一对应一个第二识别框集合,在向第二识别框集合中添加第一识别框集合中的识别框之前,第二识别框集合未空集合。第二识别框集合包括的识别框是对第一识别框集合中的各识别框进行筛选之后剩余的识别框。
134.对于每个识别结果对应的第一识别框集合中,可以确定第一识别框集合中对应置信度最大识别框(即第二识别框),并确定第一识别框集合中其他识别框分别与第二识别框的交并比。其中,任意两个识别框的交并比是指,两个识别框交集区域的面积与并集区域的面积的比值。如图8所示,a识别框与b识别框的交并比为b区域的面积与a、b、c区域的总面积的比值。
135.在确定第一识别框集合中其他识别框分别与第二识别框的交并比之后,可以确定与第二识别框的交并比超出交并比阈值的第三识别框。该交并比阈值可以由技术人员预先设置,如可以为0.7。在确定第三识别框后,可以对第三识别框的置信度进行降低处理,以降低第三识别框的置信度。这是因为如果第一识别框和第三识别框的交并比越高,说明该两个识别框重叠的区域就越多,该第一识别框和该第三识别框越可能是同一个长尾物品对应的不同识别框。在该第一识别框和该第三识别框是同一个长尾物品对应的不同识别框的情况下,由于该第一识别框对应的置信度更高,因此该第一识别框相对于第三识别框更准确,这样通过进一步降低第三识别框对应的置信度,能够在一定程度上避免第三识别框后续添加到第二识别框集合中。在该第一识别框和该第三识别框对应不同长尾物品的两个识别框的情况下,该第三识别框应该同样具有较高的置信度,即使在一定程度上降低该第三识别框对应的置信度,也能保证该第三识别框在后续可以添加到第二识别框集合中,相对于直接删除第三识别框的方案,更具有灵活性。
136.其中,第三识别框与第二识别框的交并比越大,第三识别框的置信度降低的越多。对第三识别框的置信度进行降低的处理,可通过如下高斯函数进行加权计算得到。
[0137][0138]
其中,sj为第三识别框对应的降低之后的置信度,si为第三识别框对应的降低之前的置信度,iou(m,bi)为第三识别框与第二识别框交并比,σ为预设的系数。
[0139]
另外,在每次将该第二识别框添加至第二识别框集合后,可以在第一识别框集合中删除该第二识别框。
[0140]
步骤703、确定第一识别框集合中是否存在对应置信度大于置信度阈值的第四识别框。
[0141]
在每次向第二识别框集合中添加第二识别框之后,可以再确定第一识别框集合中是否存在对应置信度大于置信度阈值的第四识别框。其中,该置信度阈值可以由技术人员预先设置,如可以为0.7。
[0142]
步骤704、如果存在第四识别框,则转至将在第一识别框集合中,确定对应置信度
最大的第二识别框。
[0143]
如果在步骤703中确定第一识别框集合中存在对应置信度大于置信度阈值的第四识别框,则继续转至步骤702的处理,也就是继续在第一识别框集合中选择添加至第二识别框集合中的识别框。
[0144]
步骤705、如果不存在第四识别框,则根据第二识别框集合中包括的识别框,确定目标识别结果对应的长尾物品在目标图像中的显示区域。
[0145]
如果在步骤703中确定第一识别框集合中不存在对应置信度大于置信度阈值的第四识别框,则可以结束向第二识别框集合添加识别框的处理,并据第二识别框集合中包括的识别框,确定目标识别结果对应的长尾物品在目标图像中的显示区域。
[0146]
如此,通过一次或多次执行上述步骤702-704的处理,能够在第一识别框集合中筛选出多个准确性更高的识别框,将该多个准确性更高的识别框对应的区域,确定为目标识别结果对应的长尾物品在目标图像中的显示区域,能提高确定长尾物品在目标图像中显示区域的准确性。
[0147]
其中,根据第二识别框集合中包括的识别框,确定长尾物品在目标图像中的显示区域的处理可参见图9,包括:
[0148]
步骤901、确定第二识别框集合中每个识别框对应的置信度、面积以及与目标图像中心点的距离值。
[0149]
其中,每个识别框的面积可以由识别框对应的长和宽计算。每个识别框与目标图像中心点的距离值,可以是识别框的中心点与目标图像中心点的距离。如可以通过识别框的顶点坐标与识别框的长、宽计算识别框的中心点坐标,然后根据识别框的中心点坐标与目标图像的中心点坐标计算识别框与目标图像中心点的距离值。
[0150]
步骤902、对每个识别框对应的置信度、面积以及距离值进行加权求和,得到每个识别框对应的排序指示值。
[0151]
在得到每个识别框对应的置信度、面积以及距离值后,可以根据预先设置的置信度权重值、面积权重值以及距离权重值,对每个识别框对应的置信度、面积以及距离值进行加权求和,得到每个识别框对应的排序指示值。如置信度权重值、面积权重值、距离权重值分别为0.3、0.4、0.3。
[0152]
步骤903、将对应排序指示值最高的指定数目个识别框对应的区域,确定为目标识别结果对应的长尾物品在目标图像中的显示区域。
[0153]
在得到每个识别框对应的排序指示值后,可以对应排序指示值最高的指定数目个识别框对应的区域,确定为长尾物品在目标图像中的显示区域。其中,指定数目可以由技术人员预先设置,例如可以设置为2、3等。如果第二识别框集合中包括的识别框的个数未超过指定数目,则可以将第二识别框集合中包括的各识别框对应的区域,确定为长尾物品在目标图像中的显示区域。这样,通过对识别框对应的置信度、面积以及与目标图像中心点的距离值计算,再次对第二识别框集合中的识别框进行筛选,能够进一步滤除对应准确性较低的识别框,可以提高确定长尾物品在目标图像中的显示区域的准确性。
[0154]
另外,需要说明的是,当第二图像识别模型输出的识别框为多个时,且多个识别框对应的识别结果不同时,则可以确定多个识别框中尺寸最大的目标识别框。然后将目标识别框对应的目标物品类别,确定为目标图像中包括的长尾物品对应的物品类别。
[0155]
步骤204、对目标图像中在显示区域内的局部图像进行图像处理,得到多个进行图像处理后的目标图像,将多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像。
[0156]
其中,图像处理包括但不限于等比缩放、旋转、翻转、裁剪、平移、对比度调整、色彩抖动、增加噪声。需要说明的是,在本实施例中进行图像处理的是目标图像中在显示区域内的局部图像。在对目标图像中的局部图像进行图像处理后,得到图像处理后的目标图像即为对第一图像识别模型进行训练的样本图像。其中,该第一图像识别模型可以是未经过训练的图像识别模型,或者也可以是上述实施例中的第二图像识别模型。
[0157]
下面对本实施例涉及到的图像处理进行介绍:
[0158]
等比缩放:技术人员可以预先设置进行等比放大或缩小的系数。并可以根据相应的系数,设置缩放矩阵。在确定需要行进缩放的局部图像后,可以在目标图像的基础上,根据设置的缩放矩阵对局部图像进行缩放处理。例如缩放矩阵h1可以如下:
[0159][0160]
其中,s
x
为对局部图像横向放大的比例,sy为对局部图像竖向放大的比例。s
x
等于sy。这样,通过等比缩放可以避免长尾商品在目标图像中产生形变,进而影响对图像识别模型的训练效果。
[0161]
需要说明的是,在对局部图像进行放大处理之后,局部图像可能会覆盖目标图像中非显示区域中的部分图像。参见图10,图10是对目标图像中局部图像进行放大处理之后的对比图。在对局部图像进行缩小处理之后,目标图像中可能会存在部分空白的图像。参见图11,图11是对目标图像中局部图像进行缩小处理之后的对比图。
[0162]
旋转:对图像进行旋转处理过程可参见图12,包括如下几个步骤:s1、将局部图像的中心点平移至目标图像的中心;s2、然后对局部图像进行旋转;s3、将旋转之后的局部图像再平移至局部图像原来的位置。其中,对于局部图像进行旋转的处理可以通过相应的旋转矩阵h2进行旋转处理。假设图像的某一像素点的原始坐标为(x0,y0),平移后的坐标为(x,y),则平移前和平移后的坐标关系为:
[0163][0164]
需要说明的是,在对目标图像中的局部图像进行旋转处理之后,局部图像可能会覆盖目标图像中非显示区域中的部分图像,且目标图像中可能会存在部分残缺的图像。参见图13,图13是对目标图像中局部图像进行旋转处理之后的对比图。
[0165]
另外,在本技术实施例中,还可与对目标图像中的局部图像进行翻转、裁剪、平移、对比度调整、色彩抖动、增加噪声等处理,此处不再一一介绍。
[0166]
另外在步骤204中,对于将多个进行图像处理后的目标图像确定为对图像识别模型进行训练的样本图像的处理还可以包括:获取第二图像识别模型输出的目标图像对应的物品类别的目标置信度,将目标置信度设置为由目标图像得到的各样本图像对应的训练标
签值。
[0167]
其中,在现有技术中可以将指定数目个样本图像组成一个样本图像组。一个样本图像组对应一个物品类别。样本图像组中一个样本图像包括的物品如果属于对应的物品类别,则该样本图像为正样本,且对应的训练标签值为1。样本图像组中一个样本图像包括的物品如果不属于对应的物品类别,则该样本图像为负样本,且对应的训练标签值为0。样本图像组中各样本图像对应的训练标签值可按照预定的顺序组成独热码(one-hot)向量。在训练图像识别模型时,可以将样本图像组中包括的各样本图像分别输入到图像识别模型中,然后根据图像识别模型对各样本图像输出的识别结果和one-hot向量,计算交叉熵损失值。然后根据交叉熵损失值对图像识别模型中的参数进行调整。
[0168]
而在本技术提供的实施例中,用于对图像识别模型使用交叉熵损失值进行训练时,可以将样本图像组中正样本对应的训练标签值设置为,第二图像识别模型对正样本对应的目标图像进行物品识别后得到的置信度,该置信度为目标图像中包括长尾物品属于识别到的物品类型的概率值。其中,该概率值最大不超过1。而负样本对应的训练标签值为可以由技术人员预先设置,或者设置为指定值,例如可以为0.2或0.02等。如此设置正样本和负样本对应的训练标签值,降低了真实的训练标签值在计算损失函数时的权重,抑制了正负样本输出差值,使得图像识别模型有更强的泛化能力。
[0169]
本技术实施例,通过对包含长尾物品的目标图像进行物品识别得到的识别框,确定长尾物品在目标图像中的显示区域。然后可以对目标图像中显示区域的局部图像进行图像处理,得到多个进行图像处理后的目标图像。如此可根据一个包括长尾物品的目标图像,生成多个包括长尾物品的样本图像,可见本技术能够增加长尾物品对应的样本图像。
[0170]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0171]
图14是本技术实施例提供的一种生成样本图像的装置,该装置可以是上述实施例中的计算机设备,参见图14,该装置包括:
[0172]
获取模块1410,用于获取包含长尾物品的目标图像;
[0173]
识别模块1420,用于对所述目标图像进行物品识别,得到对所述目标图像中进行物品识别的识别框;
[0174]
确定模块1430,用于基于所述识别框的个数,确定长尾物品在所述目标图像中的显示区域;
[0175]
处理模块1440,用于对所述目标图像中在所述显示区域内的局部图像进行图像处理,得到多个进行图像处理后的目标图像,将所述多个进行图像处理后的目标图像确定为对第一图像识别模型进行训练的样本图像。
[0176]
可选的,所述获取模块1410,用于:
[0177]
获取包含长尾物品的样本视频;
[0178]
在所述样本视频中获取多个视频帧,其中,所述多个视频帧中的任意两个视频帧的相似度小于相似度阈值;
[0179]
将所述多个视频帧确定为目标图像。
[0180]
可选的,所述识别模块1420,用于:
[0181]
将所述目标图像输入至所述第二图像识别模型,由所述第二图像识别模型输出所
述识别框和对应识别结果,其中,所述第二图像识别模型为经过包含长尾物品的第二图像训练后的图像识别模型,所述识别结果为所述目标图像中包括的长尾物品的物品类别以及对应的置信度。
[0182]
可选的,所述确定模块1430,还用于:
[0183]
如果所述第二图像识别模型输出的识别框为多个,则确定多个识别框中尺寸最大的目标识别框;
[0184]
将所述目标识别框对应的目标物品类别,确定为所述目标图像中包括的长尾物品对应的物品类别。
[0185]
可选的,所述处理模块1440,用于:
[0186]
获取所述第二图像识别模型输出的所述目标图像对应的物品类别的目标置信度,将所述目标置信度设置为由所述目标图像得到的各样本图像对应的训练标签值。
[0187]
可选的,所述确定模块1430,用于:
[0188]
如果所述识别框为一个,则对所述识别框按照预设放大系数进行放大处理,得到放大处理后的识别框,将所述放大处理后的识别框对应的区域确定为长尾物品在所述目标图像中的显示区域;
[0189]
如果所述识别框为多个,则确定多个识别框对应的最小外接矩形,将所述最小外接矩形对应的区域确定为长尾物品在所述目标图像中的显示区域。
[0190]
可选的,所述确定模块1430,用于:
[0191]
如果所述识别框的个数为多个,且在多个识别框中存在对应同一目标识别结果的多个第一识别框,则将所述多个第一识别框组成第一识别框集合;
[0192]
在所述第一识别框集合中,确定对应置信度最大的第二识别框,将所述第二识别框添加至第二识别框集合中,在所述第一识别框集合中删除所述第二识别框,并在所述第一识别框集合中确定与所述第二识别框的交并比超出交并比阈值的第三识别框,降低所述第三识别框的置信度;
[0193]
确定所述第一识别框集合中是否存在对应置信度大于置信度阈值的第四识别框;
[0194]
如果存在所述第四识别框,则转至执行所述在所述第一识别框集合中,确定对应置信度最大的第二识别框;
[0195]
如果不存在所述第四识别框,则根据所述第二识别框集合中包括的识别框,确定所述目标识别结果对应的长尾物品在所述目标图像中的显示区域。
[0196]
可选的,所述确定模块1430,用于:
[0197]
确定所述第二识别框集合中每个识别框对应的置信度、面积以及与所述目标图像中心点的距离值;
[0198]
对所述每个识别框对应的置信度、面积以及距离值进行加权求和,得到每个识别框对应的排序指示值;
[0199]
将对应排序指示值最高的指定数目个识别框对应的区域,确定为目标识别结果对应的长尾物品在目标图像中的显示区域。
[0200]
可选的,所述图像处理包括等比缩放、旋转、翻转、裁剪、平移、对比度调整、色彩抖动、增加噪声中的至少一种。
[0201]
需要说明的是:上述实施例提供的生成样本图像的装置在生成样本图像时,仅以
上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的生成样本图像的装置与生成样本图像的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0202]
本技术实施例,通过对包含长尾物品的目标图像进行物品识别得到的识别框,确定长尾物品在所述目标图像中的显示区域。然后可以对目标图像中显示区域的局部图像进行图像处理,得到多个进行图像处理后的目标图像。如此可根据一个包括长尾物品的目标图像,生成多个包括长尾物品的样本图像,可见本技术能够增加长尾物品对应的样本图像。
[0203]
图15示出了本技术一个示例性实施例提供的终端1500的结构框图。该终端1500可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0204]
通常,终端1500包括有:处理器1501和存储器1502。
[0205]
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0206]
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行以实现本技术中方法实施例提供的生成样本图像的方法。
[0207]
在一些实施例中,终端1500还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。
[0208]
外围设备接口1503可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施
例对此不加以限定。
[0209]
射频电路1504用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0210]
显示屏1505用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在终端1500的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端1500的不同表面或呈折叠设计;在另一些实施例中,显示屏1505可以是柔性显示屏,设置在终端1500的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0211]
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0212]
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
[0213]
定位组件1508用于定位终端1500的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件1508可以是基于gps(global positioning system,全球定位系统)、北斗系统或伽利略系统的定位组件。
[0214]
电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0215]
在一些实施例中,终端1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于:加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。
[0216]
加速度传感器1511可以检测以终端1500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号,控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。
[0217]
陀螺仪传感器1512可以检测终端1500的机体方向及转动角度,陀螺仪传感器1512可以与加速度传感器1511协同采集用户对终端1500的3d动作。处理器1501根据陀螺仪传感器1512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0218]
压力传感器1513可以设置在终端1500的侧边框和/或显示屏1505的下层。当压力传感器1513设置在终端1500的侧边框时,可以检测用户对终端1500的握持信号,由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在显示屏1505的下层时,由处理器1501根据用户对显示屏1505的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0219]
指纹传感器1514用于采集用户的指纹,由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份,或者,由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在终端1500的正面、背面或侧面。当终端1500上设置有物理按键或厂商logo时,指纹传感器1514可以与物理按键或厂商logo集成在一起。
[0220]
光学传感器1515用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1515采集的环境光强度,控制显示屏1505的显示亮度。具体地,当环境光强度较高时,调高显示屏1505的显示亮度;当环境光强度较低时,调低显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1515采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
[0221]
接近传感器1516,也称距离传感器,通常设置在终端1500的前面板。接近传感器1516用于采集用户与终端1500的正面之间的距离。在一个实施例中,当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变小时,由处理器1501控制显示屏1505从亮屏状态切换为息屏状态;当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变大时,由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。
[0222]
本领域技术人员可以理解,图15中示出的结构并不构成对终端1500的限定,可以
包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0223]
图16是本技术实施例提供的一种服务器的结构示意图,该服务器1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1601和一个或一个以上的存储器1602,其中,所述存储器1602中存储有至少一条指令,所述至少一条指令由所述处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0224]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中生成样本图像的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。
[0225]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0226]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品中包括至少一条指令,该至少一条指令由处理器加载并执行以实现如上述实施例中提供的生成样本图像的方法所执行的操作。
[0227]
需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等),均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的样本图像都是在充分授权的情况下获取的。
[0228]
以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1