服饰识别模型训练方法、装置、电子设备及存储介质与流程

文档序号：33188385发布日期：2023-02-04 07:26阅读：36来源：国知局

1.本发明实施例涉及人工智能领域，尤其涉及一种服饰识别模型训练方法、装置、电子设备及存储介质。

背景技术：

2.随着计算机视觉技术发展的越来越成熟，很多相关技术在视频播放场景中得到广泛应用，例如，在视频播放时，对视频中的服饰进行识别，并返回电商平台中与视频中服饰相似的商品链接。
3.在上述例子中，服饰识别可以通过基于深度学习的图像特征检索来实现，并且，在基于深度学习的计算机视觉任务中，训练数据一般来自开源的服饰数据集。
4.然而，上述开源的服饰数据中一般不含有字幕信息，但在视频中，字幕却是组成图像帧的重要元素。因此，使用现有的开源服饰数据集作为训练数据集训练服饰特征提取模型时，将由于训练数据集中缺少字幕数据，从而导致最终训练出的服饰识别模型应用于上述示例场景时很容易误将字幕认作是服饰上的纹理或者图案，从而导致服饰特征提取错误。

技术实现要素：

5.鉴于此，为解决上述服饰特征提取错误的技术问题，本发明实施例提供一种服饰识别模型训练方法、装置、电子设备及存储介质。
6.第一方面，本发明实施例提供一种服饰识别模型训练方法，包括：
7.获取原始服饰图片集，以及获取字幕数据集；所述原始服饰图片集包括多张原始服饰图片，且每张所述原始服饰图片不具有字幕数据；所述字幕数据集包括多条字幕数据；
8.分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片；
9.利用多张所述训练图片对初始模型进行训练，得到服饰识别模型，所述服饰识别模型用于提取待识别图片中的服饰特征。
10.在一可能的实施方式中，所述分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片，包括：
11.按照预设的抽取比例，从所述原始服饰图片集中抽取图片子集；
12.针对所述图片子集中的每张所述原始服饰图片执行以下处理：从所述字幕数据集中选择一条字幕数据，将选择的所述字幕数据嵌入到所述原始服饰图片中，得到一张训练图片；
13.所述方法还包括：
14.将所述原始服饰图片集中，除所述图片子集以外的其他原始服饰图片确定为所述训练图片。
15.在一可能的实施方式中，所述将选择的所述字幕数据嵌入到所述原始服饰图片
中，得到一张训练图片，包括：
16.按照预设的字幕图像组合规则，确定所述原始服饰图片中待嵌入字幕数据的目标位置；
17.将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
18.在一可能的实施方式中，所述将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片，包括：
19.根据所述原始服饰图片的尺寸，调整选择的所述字幕数据的尺寸；
20.将尺寸调整后的字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
21.在一可能的实施方式中，所述方法还包括：
22.在所述将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处时，按照预设颜色值对选择的所述字幕数据进行渲染。
23.在一可能的实施方式中，所述获取字幕数据集，包括：
24.从至少一个视频流中提取多张视频图片；分别从每张所述视频图片中提取字幕数据，得到多条字幕数据，并将所述多条字幕数据组成字幕数据集；
25.或者，调用预设的编程工具生成多条字幕数据，并将所述多条字幕数据组成字幕数据集。
26.在一可能的实施方式中，所述字幕数据集中的多条所述字幕数据涉及多个语种，和/或涉及多个字体。
27.第二方面，本发明实施例提供一种服饰识别模型训练装置，包括：
28.第一获取模块，用于获取原始服饰图片集；所述原始服饰图片集包括多张原始服饰图片，且每张所述原始服饰图片不具有字幕数据；
29.第二获取模块，用于获取字幕数据集；所述字幕数据集包括多条字幕数据；
30.嵌入模块，用于分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片；
31.训练模块，用于利用多张所述训练图片对初始模型进行训练，得到服饰识别模型，所述服饰识别模型用于提取待识别图片中的服饰特征。
32.在一可能的实施方式中，所述嵌入模块，包括：
33.抽取单元，用于按照预设的抽取比例，从所述原始服饰图片集中抽取图片子集；
34.字幕-图片组合单元，用于针对所述图片子集中的每张所述原始服饰图片执行以下处理：从所述字幕数据集中选择一条字幕数据，将选择的所述字幕数据嵌入到所述原始服饰图片中，得到一张训练图片；
35.所述装置还包括：
36.确定模块，用于将所述原始服饰图片集中，除所述图片子集以外的其他原始服饰图片确定为所述训练图片。
37.在一可能的实施方式中，所述字幕-图片组合单元，包括：
38.位置确定子单元，用于按照预设的字幕图像组合规则，确定所述原始服饰图片中待嵌入字幕数据的目标位置；
39.嵌入子单元，用于将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
40.在一可能的实施方式中，所述嵌入子单元，具体用于：
41.根据所述原始服饰图片的尺寸，调整选择的所述字幕数据的尺寸；
42.将尺寸调整后的字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
43.在一可能的实施方式中，所述装置还包括：
44.渲染子单元，用于在所述将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处时，按照预设颜色值对选择的所述字幕数据进行渲染。
45.在一可能的实施方式中，所述第二获取模块，具体用于：
46.从至少一个视频流中提取多张视频图片；分别从每张所述视频图片中提取字幕数据，得到多条字幕数据，并将所述多条字幕数据组成字幕数据集；
47.或者，调用预设的编程工具生成多条字幕数据，并将所述多条字幕数据组成字幕数据集。
48.在一可能的实施方式中，所述字幕数据集中的多条所述字幕数据涉及多个语种，和/或涉及多个字体。
49.第三方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的服饰识别模型训练程序，以实现第一方面中任一项所述的服饰识别模型训练方法。
50.第四方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一项所述的服饰识别模型训练方法。
51.本发明实施例提供的技术方案，通过获取包括多张原始服饰图片的原始服饰图片集，以及获取包括多条字幕数据字幕数据集，其中，每张原始服饰图片不具有字幕数据，然后分别将一条字幕数据随机嵌入到一张原始服饰图片中，得到多张训练图片，利用多张训练图片对初始模型进行训练，得到用于提取待识别图片中服饰特征服饰识别模型，实现了自动构建出既包含服饰，又包含字幕数据的训练图片，之后以自动构建出的训练图片进行模型训练，能够使得模型在学习过程中聚焦在训练图片中的服饰区域，从而减弱字幕数据对服饰区域的影响，这也就使得最终训练出的服饰识别模型在提取待识别图片中的服饰特征时，能够避免将待识别图片中的字幕认作是服饰上的纹理或者图案，从而使得服饰识别模型提取出的服饰特征的准确率大大提高。
52.与此同时，在训练图片上嵌入字幕数据在一定程度上也相当于给训练图片增加噪声，那么，利用带有噪声的训练数据进行模型训练，也能在一定程度上增强训练得到的服饰识别模型的鲁棒性。
附图说明
53.图1为本发明实施例提供的一种服饰识别模型训练方法的实施例流程图；
54.图2为原始服饰图片的一种示例；
55.图3为本发明实施例提供的另一种服饰识别模型训练方法的实施例流程图；
56.图4为本发明实施例提供的一种服饰识别模型训练装置的实施例框图；
57.图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
58.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
59.下面结合附图以具体实施例对本发明提供的模型训练方法做进一步的解释说明，实施例并不构成对本发明实施例的限定。
60.参见图1，为本发明实施例提供的一种服饰识别模型训练方法的实施例流程图。如图1所示，该流程包括以下步骤：
61.步骤101、获取原始服饰图片集。
62.上述原始服饰图片集包括多张原始服饰图片。需要说明的是，每张原始服饰图片中具有服饰(包括服装和配饰)，但不具有字幕数据。例如，参见图2，为原始服饰图片的一种示例。
63.在一实施例中，本发明实施例的执行主体可以从目前已开源的服饰数据集中获取上述原始服饰图片集。可选的，可以将已开源的服饰数据集确定为原始服饰图片集，还可以从已开源的服饰数据集中选取一些服饰图片组成上述原始服饰图片集。这里的选取可以是随机选取，也可以通过同用户交互来实现选取，在此不做具体限定。
64.上述已开源的服饰数据集例如是aiuai-dataset-deepfashion服饰数据集，在此不做具体限定。
65.此外，本领域技术人员可以理解的是，上述原始服饰图片集涉及的服饰种类越丰富，后续训练出的服饰识别模型的泛化能力越强。
66.步骤102、获取字幕数据集。
67.上述字幕数据集包括多条字幕数据。其中，每条字幕数据的长度可以相同，也可以不同，在此不做具体限定。本领域技术人员可以理解的是，每条字幕数据的长度不完全相同更符合实际应用，并且后续训练出的服饰识别模型的泛化能力也更强。
68.在一实施例中，字幕数据集中的多条字幕数据涉及多个语种(例如涉及中文和英文，再例如涉及中文、英文以及韩文等)，或者，涉及多个字体(例如涉及宋体和楷体，再例如涉及宋体、楷体以及黑体等)，再或者涉及多个语种同时涉及多个字体。
69.本领域技术人员可以理解的是，字幕数据集中多条字幕数据涉及的语种越丰富，字体类型越丰富，后续训练出的服饰识别模型的泛化能力越强。
70.这里还需要说明的是，字幕数据集中的多条字幕数据涉及多个语种是指：字幕数据集中多条字幕数据所包含的所有文本涉及多个语种，也就是说，这里是以整个字幕数据集为维度来统计语种数量，并不限定同一条字幕数据中是否仅能包含一个语种类型的文本，也不限定同一条字幕数据中的文本所涉及语种类型的数量。
71.类似的，字幕数据集中的多条字幕数据涉及多个字体是指：字幕数据集中多条字幕数据所包含的所有文本涉及多个字体，也就是说，这里是以整个字幕数据集为维度来统
计字体数量，这里并不限定同一条字幕数据中是否仅能包含一个字体的文本，也不限定同一条字幕数据中的文本所涉及字体的数量。
72.在一实施例中，本步骤102获取字幕数据集的具体实现可以包括：从至少一个视频流中提取多张视频图片，分别从每张视频图片中提取字幕数据，得到多条字幕数据，并将多条字幕数据组成字幕数据集。
73.其中，作为一个可选的实现方式，可采用抽样的方式，从至少一个视频流中提取多张视频图片。
74.当然，在实际应用中有可能存在所提取的视频图片中不包含字幕数据的情况，对于此种情况，可以直接将该视频图片舍弃处理，或者再从视频流中提取一张新的视频图片作为补偿，在此不做具体限定。
75.在另一实施例中，本步骤102获取字幕数据集的具体实现可以包括：调用预设的编程工具生成多条字幕数据，并将多条字幕数据组成字幕数据集。
76.上述编程工具可用来生成字幕数据。其中，在生成字幕数据时，可以采用随机生成的方式，也可以按照预设的字幕生成规则来生成字幕数据。其中，预设的字幕生成规则可限定字幕数据的长度(例如长度为1-20)、字幕数据中文本的字体、字幕数据中文本的语种等限定条件中的至少一项，在此不做具体限定。
77.至于上述编程工具的具体实现，本发明实施例不做涉及。
78.此外，需要说明的是，本发明实施例对上述步骤101和步骤102之间的执行顺序并不做具体限定。
79.步骤103、分别将一条字幕数据随机嵌入到一张原始服饰图片中，得到多张训练图片。
80.步骤104、利用多张训练图片对初始模型进行训练，得到服饰识别模型，服饰识别模型用于提取待识别图片中的服饰特征。
81.由步骤103的描述可见，应用本发明实施例得到的训练图片中既包含字幕数据，又包含服饰。如此，后续通过执行步骤104，利用多张该训练图片所训练得到的服饰识别模型能够避免将待识别图片中的字幕认作是服饰上的纹理或者图案，从而使得服饰识别模型提取出的服饰特征的准确率大大提高。
82.本发明实施例提供的技术方案，通过获取包括多张原始服饰图片的原始服饰图片集，以及获取包括多条字幕数据字幕数据集，其中，每张原始服饰图片不具有字幕数据，然后分别将一条字幕数据随机嵌入到一张原始服饰图片中，得到多张训练图片，利用多张训练图片对初始模型进行训练，得到用于提取待识别图片中服饰特征服饰识别模型，实现了自动构建出既包含服饰，又包含字幕数据的训练图片，之后以自动构建出的训练图片进行模型训练，能够使得模型在学习过程中聚焦在训练图片中的服饰区域，从而减弱字幕数据对服饰区域的影响，这也就使得最终训练出的服饰识别模型在提取待识别图片中的服饰特征时，能够避免将待识别图片中的字幕认作是服饰上的纹理或者图案，从而使得服饰识别模型提取出的服饰特征的准确率大大提高。
83.与此同时，在训练图片上嵌入字幕数据在一定程度上也相当于给训练图片增加噪声，那么，利用带有噪声的训练数据进行模型训练，也能在一定程度上增强训练得到的服饰识别模型的鲁棒性。
84.参见图3，为本发明实施例提供的另一种服饰识别模型训练方法的实施例流程图。如图3所示，包括以下步骤：
85.步骤301、获取原始服饰图片集。
86.步骤302、获取字幕数据集。
87.步骤301和步骤302的详细描述可以参见上述图1所示实施例中的相关描述，这里不再赘述。
88.步骤303、按照预设的抽取比例，从原始服饰图片集中抽取图片子集。
89.步骤304、针对图片子集中的每张原始服饰图片执行以下处理：从字幕数据集中选择一条字幕数据，将选择的字幕数据嵌入该原始服饰图片中，得到一张训练图片。
90.步骤305、将原始服饰图片集中，除图片子集以外的其他原始服饰图片确定为训练图片。
91.以下对步骤303至步骤305进行统一说明：
92.首先，由上述步骤303至步骤305的描述可见，在一实施例中，最终得到的多张训练图片中，有一部分既包含服饰又包含字幕，而另一部分包含服饰不包含字幕。这是考虑到在实际的对视频中服饰进行识别的应用场景中，真实视频中也存在并不具有字幕数据的图像帧，也就是说，最终训练得到的服饰识别模型应既适用于对包含字幕数据的待识别图片进行服饰特征提取，又适用于对不包含字幕数据的待识别图片进行服饰特征提取。
93.基于上述描述，在步骤303中，可以按照预设的抽取比例(例如50％，60％等)，从原始服饰图片集中抽取图片子集，然后在步骤304中，仅针对该图片子集中的原始服饰图片嵌入字幕数据，得到既包含服饰又包含字幕的训练图片，而在步骤305中，将原始服饰图片集中，除图片子集以外的其他原始服饰图片也确定为训练图片，从而实现上述所描述的“最终得到的多张训练图片中，有一部分既包含服饰又包含字幕，而另一部分包含服饰不包含字幕”。
94.其中可选的，在从字幕数据集中选择一条字幕数据时可以采取随机选择的选择策略。
95.可选的，在将选择的字幕数据嵌入原始服饰图片中时，也可以模拟真实图像帧中的字幕分布情况，将选择的字幕数据参照真实图像帧中的字幕分布情况嵌入原始服饰图片中。
96.具体的，可以按照预设的字幕图像组合规则，确定原始服饰图片中待嵌入字幕数据的目标位置，将选择的字幕数据嵌入原始服饰图片的目标位置处，得到一张训练图片。
97.在一个例子中，字幕数据通常位于图片的上方。在该例子中，上述字幕图像组合规则可以是：字幕数据距离图片上边缘至少3个像素，距离图片下边缘不超过h*0.25。h为图片高度。
98.在另一个例子中，字幕数据通常位于图片的下方。在该例子中，上述字幕图像组合规则可以是：字幕数据距离图片下边缘至少3个像素，距离图片上边缘不超过h*0.25。h为图片高度。
99.可以理解的是，上述所描述的具体数值，例如3个像素、0.25等仅仅是示例性说明，在实际应用中，本领域技术人员可以根据实际需要对上述字幕图像组合规则进行设置，本发明实施例对此不做具体限定。
100.此外，在一实施例中，在将字幕数据嵌入原始服饰图片的目标位置处时，还可以首先根据原始服饰图片的尺寸，调整字幕数据的尺寸，然后将尺寸调整后的字幕数据嵌入原始服饰图片的所述目标位置处。
101.例如，可以将字幕数据的高度调整为原始服饰图片高度的10％～20％。
102.通过上述处理，可以模拟真实图像帧中的字幕尺寸。
103.在一实施例中，在将字幕数据嵌入原始服饰图片的目标位置处时，还可以按照预设颜色值对字幕数据进行渲染。在真实图像帧中，字幕通常呈现为白色，因此，上述预设颜色值可以是白色对应的颜色值。当然，本领域技术人员可以根据实际需要来设置上述预设颜色值，本发明实施例对此不做具体限定。
104.步骤306、利用多张训练图片对初始模型进行训练，得到服饰识别模型，服饰识别模型用于提取待识别图片中的服饰特征。
105.本发明实施例提供的技术方案，通过获取包括多张原始服饰图片的原始服饰图片集，以及获取包括多条字幕数据字幕数据集，其中，每张原始服饰图片不具有字幕数据，然后从原始服饰图片集中抽取图片子集，针对图片子集中的每张原始服饰图片嵌入字幕数据，得到训练图片，同时，将原始服饰图片集中，除图片子集以外的其他原始服饰图片也确定为训练图片，实现最终得到的多张训练图片中，有一部分既包含服饰又包含字幕，而另一部分包含服饰不包含字幕。进一步的，通过该多张训练图片对初始模型进行训练，得到用于提取待识别图片中服饰特征服饰识别模型，实现了最终训练得到的服饰识别模型既适用于对包含字幕数据的待识别图片进行服饰特征提取，又适用于对不包含字幕数据的待识别图片进行服饰特征提取，从而使得最终训练得到的服饰识别模型能够很好地应用于真实视频中的服饰识别场景。
106.参见图4，为本发明实施例提供的一种服饰识别模型训练装置的实施例框图。如图4所示，该装置包括：
107.第一获取模块41，用于获取原始服饰图片集；所述原始服饰图片集包括多张原始服饰图片，且每张所述原始服饰图片不具有字幕数据；
108.第二获取模块42，用于获取字幕数据集；所述字幕数据集包括多条字幕数据；
109.嵌入模块43，用于分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片；
110.训练模块44，用于利用多张所述训练图片对初始模型进行训练，得到服饰识别模型，所述服饰识别模型用于提取待识别图片中的服饰特征。
111.在一可能的实施方式中，所述嵌入模块43，包括(图中未示出)：
112.抽取单元，用于按照预设的抽取比例，从所述原始服饰图片集中抽取图片子集；
113.字幕-图片组合单元，用于针对所述图片子集中的每张所述原始服饰图片执行以下处理：从所述字幕数据集中选择一条字幕数据，将选择的所述字幕数据嵌入所述原始服饰图片中，得到一张训练图片；
114.所述装置还包括(图中未示出)：
115.确定模块，用于将所述原始服饰图片集中，除所述图片子集以外的其他原始服饰图片确定为所述训练图片。
116.在一可能的实施方式中，所述字幕-图片组合单元，包括(图中未示出)：
117.位置确定子单元，用于按照预设的字幕图像组合规则，确定所述原始服饰图片中待嵌入字幕数据的目标位置；
118.嵌入子单元，用于将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
119.在一可能的实施方式中，所述嵌入子单元，具体用于：
120.根据所述原始服饰图片的尺寸，调整选择的所述字幕数据的尺寸；
121.将尺寸调整后的字幕数据嵌入所述原始服饰图片的所述目标位置处，得到一张训练图片。
122.在一可能的实施方式中，所述装置还包括(图中未示出)：
123.渲染子单元，用于在所述将选择的所述字幕数据嵌入所述原始服饰图片的所述目标位置处时，按照预设颜色值对选择的所述字幕数据进行渲染。
124.在一可能的实施方式中，所述第二获取模块42，具体用于：
125.从至少一个视频流中提取多张视频图片；分别从每张所述视频图片中提取字幕数据，得到多条字幕数据，并将所述多条字幕数据组成字幕数据集；
126.或者，调用预设的编程工具生成多条字幕数据，并将所述多条字幕数据组成字幕数据集。
127.在一可能的实施方式中，所述字幕数据集中的多条所述字幕数据涉及多个语种，和/或涉及多个字体。
128.图5为本发明实施例提供的一种电子设备的结构示意图，图5所示的电子设备500包括：至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。电子设备500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。
129.其中，用户接口503可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball))、触感板或者触摸屏等。
130.可以理解，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
131.在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5021和应用程序5022。
132.其中，操作系统5021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022，包含各种应用程序，例如媒体播放器(mediaplayer)、浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
133.在本发明实施例中，通过调用存储器502存储的程序或指令，具体的，可以是应用程序5022中存储的程序或指令，处理器501用于执行各方法实施例所提供的方法步骤，例如包括：
134.获取原始服饰图片集，以及获取字幕数据集；所述原始服饰图片集包括多张原始服饰图片，且每张所述原始服饰图片不具有字幕数据；所述字幕数据集包括多条字幕数据；
135.分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片；
136.利用多张所述训练图片对初始模型进行训练，得到服饰识别模型，所述服饰识别模型用于提取待识别图片中的服饰特征。
137.上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。
138.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
139.对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
140.本实施例提供的电子设备可以是如图5中所示的电子设备，可执行如上述实施例所示方法的所有步骤，进而实现上述实施例所示方法的技术效果，具体请参照上述实施例的相关描述，为简洁描述，在此不作赘述。
141.本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器
还可以包括上述种类的存储器的组合。
142.当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的服饰识别模型训练方法。
143.所述处理器用于执行存储器中存储的服饰识别模型训练程序，以实现以下在电子设备侧执行的服饰识别模型训练方法的步骤：
144.获取原始服饰图片集，以及获取字幕数据集；所述原始服饰图片集包括多张原始服饰图片，且每张所述原始服饰图片不具有字幕数据；所述字幕数据集包括多条字幕数据；
145.分别将一条所述字幕数据随机嵌入到一张所述原始服饰图片中，得到多张训练图片；
146.利用多张所述训练图片对初始模型进行训练，得到服饰识别模型，所述服饰识别模型用于提取待识别图片中的服饰特征。
147.专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
148.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
149.以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周晨
技术所有人：北京爱奇艺科技有限公司
我是此专利的发明人

上一篇：智能家居的安全监控管理系统的制作方法
上一篇：一种宣纸防褶皱存放结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。