商品对象自动分类方法及其装置、设备、介质、产品与流程

文档序号:27977108发布日期:2021-12-15 01:00阅读:127来源:国知局
商品对象自动分类方法及其装置、设备、介质、产品与流程

1.本技术涉及电商信息技术领域,尤其涉及一种商品对象自动分类方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。


背景技术:

2.电商平台内涉及的商品繁多,商品数量往往达到千位级、万位级以上,通常需借助多级类目才能对其进行高效的组织。多级类目之间,子类目通常隶属于父类目,逐层展开,构成“类目树”。考虑类目树的层级越深,流失量越大,因此,类目树通常包括三级、四级,一般不超过五级。在数据层面,类目树以其多层次分类结构实现对电商平台中海量商品对象的组织,方便新增、查询、更新等维护。
3.对于电商平台的商户而言,尤其是对于基于独立站的跨境电商平台的商户而言,每家商户实际经营的商品是有限的,通常隶属于少量类别,这种情况下,如果需要商户自行标注其上传的商品对象的类别信息,便会对商户所掌握的关于电商平台的类目树的先验知识提出较高要求,或者由于文字多义性的缘故,常会导致商户标注出错,为此,对于电商平台而言,最好能智能化地为用户上线的商品对象提供商品分类相关的推荐信息,以提升商品对象的自动分类效率。
4.现有技术中,多通过相关神经网络模型对商品对象相关的图片信息进行深层语义学习,然后依据从图片信息中提取的特征信息来确定商品对象相应的分类标签,以所述分类标签对商品对象进行分类标注。现有技术通常只在图片的基础上针对少量甚至单个分类级别进行分类,实现逻辑简单,但在应对电商平台这种具有海量的商品对象的应用场景而言,显得捉襟见肘,而且往往也难以实现商品对象的准确分类。


技术实现要素:

5.本技术的首要目的在于解决上述问题至少之一而提供一种商品对象自动分类方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
6.为满足本技术的各个目的,本技术采用如下技术方案:
7.适应本技术的目的之一而提供的一种商品对象自动分类方法,包括如下步骤:
8.获取商品对象,提取其相对应的摘要文本及商品图片;
9.分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量;
10.基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多层次分类结构中多个构成层次隶属关系的分类标签;
11.为所述商品对象标记所述标签集中的各个分类标签。
12.深化的实施例中,获取商户实例的商品对象,提取该其相对应的摘要文本及商品图片,包括如下步骤:
13.向商户实例的管理用户推送商品对象创建页面;
14.接收用户在该创建页面提交的关于商品对象的摘要文本及商品图片,所述摘要文本包括该商品对象的标题信息及属性信息。
15.深化的实施例中,分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量,包括如下步骤:
16.分别对所述摘要文本、商品图片进行格式预处理;
17.调用预设的文本特征提取模型,对预处理后的摘要文本进行特征提取,获得经其编码的文本特征向量;
18.调用预设的图片特征提取模型,对预处理后的商品图片进行特征提取,获得经其编码的图片特征向量;
19.将图片特征向量归一化为维度与所述文本特征向量相同的单个高维行向量后,与该文本特征向量进行拼接获得综合特征向量。
20.深化的实施例中,基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多层次分类结构中多个构成层次隶属关系的分类标签,包括如下步骤:
21.由多层次标签分类模型基于所述综合特征向量提取各个层次相对应的分类特征信息,将最后一个层次对应的分类特征信息进行全连接获得全局特征信息,其中每个层次的分类特征信息均基于前一层次的分类特征信息与所述综合特征向量的拼接特征信息生成;
22.由多层次标签分类模型分别提取出各个所述的分类特征信息,将所有分类特征信息拼接为局部特征信息;
23.由多层次标签分类模型将所述全局特征信息与所述局部特征信息进行融合,获得综合分类信息,所述综合分类信息包括映射到所述多层次分类结构的每个节点的评分信息;
24.根据所述综合分类信息中的评分信息确定出构成其标签集的多个分类标签,多个分类标签之间构成所述多层次分类结构中的层次隶属关系。
25.深化的实施例中,为所述商品对象标记所述标签集中的各个分类标签,包括如下步骤:
26.将所述标签集中的各个分类标签添加为所述商品对象的分类属性;
27.将所述商品对象的分类属性、摘要文本以及商品对象以映射关系数据存储于商品数据库中;
28.响应该商品对象存储于商品数据库的存储事件,更新各个分类标签相对应的索引数据。
29.扩展的实施例中,本方法还包括如下步骤:
30.响应包含所述标签集中的任意一个分类标签的商品类别检索请求,根据该检索请求中的分类标签,获取标记有该分类标签的商品对象的摘要文本与商品图片;
31.构造包含所述摘要文本及商品图片的商品详情页面,推送该商品详情页面以应答该请求。
32.适应本技术的目的之一而提供的一种商品对象自动分类装置,包括:信息获取模
块、特征编码模块、分类处理模块,以及分类标记模块,其中,所述信息获取模块,用于获取商品对象,提取其相对应的摘要文本及商品图片;所述特征编码模块,用于分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量;所述分类处理模块,用于基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多个具有级别隶属关系的分类标签;所述分类标记模块,用于为所述商品对象标记所述标签集中的各个分类标签。
33.深化的实施例中,所述信息获取模块包括:页面推送子模块,用于向商户实例的管理用户推送商品对象创建页面;信息接收子模块,用于接收用户在该创建页面提交的关于商品对象的摘要文本及商品图片,所述摘要文本包括该商品对象的标题信息及属性信息。
34.深化的实施例中,所述特征编码模块包括:格式处理子模块,用于分别对所述摘要文本、商品图片进行格式预处理;文本提取子模块,用于调用预设的文本特征提取模型,对预处理后的摘要文本进行特征提取,获得经其编码的文本特征向量;图片提取子模块,用于调用预设的图片特征提取模型,对预处理后的商品图片进行特征提取,获得经其编码的图片特征向量;特征拼接子模块,用于将图片特征向量归一化为维度与所述文本特征向量相同的单个高维行向量后,与该文本特征向量进行拼接获得综合特征向量。
35.深化的实施例中,所述分类处理模块包括:全局提取子模块,用于由多层次标签分类模型基于所述综合特征向量提取各个层次相对应的分类特征信息,将最后一个层次对应的分类特征信息进行全连接获得全局特征信息,其中每个层次的分类特征信息均基于前一层次的分类特征信息与所述综合特征向量的拼接特征信息生成;局部提取子模块,用于由多层次标签分类模型分别提取出各个所述的分类特征信息,将所有分类特征信息拼接为局部特征信息;特征融合子模块,用于由多层次标签分类模型将所述全局特征信息与所述局部特征信息进行融合,获得综合分类信息,所述综合分类信息包括映射到所述多层次分类结构的每个节点的评分信息;标签确定子模块,用于根据所述综合分类信息中的评分信息确定出构成其标签集的多个分类标签,多个分类标签之间构成所述多层次分类结构中的层次隶属关系。
36.深化的实施例中,所述分类标记模块包括:属性更新子模块,用于将所述标签集中的各个分类标签添加为所述商品对象的分类属性;数据存储子模块,用于将所述商品对象的分类属性、摘要文本以及商品对象以映射关系数据存储于商品数据库中;响应更新子模块,用于响应该商品对象存储于商品数据库的存储事件,更新各个分类标签相对应的索引数据。
37.扩展的实施例中,本装置还包括:检索响应子模块,用于响应包含所述标签集中的任意一个分类标签的商品类别检索请求,根据该检索请求中的分类标签,获取标记有该分类标签的商品对象的摘要文本与商品图片;检索应答子模块,用于构造包含所述摘要文本及商品图片的商品详情页面,推送该商品详情页面以应答该请求。
38.适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的商品对象自动分类方法的步骤。
39.适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令
的形式存储有依据所述的商品对象自动分类方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
40.适应本技术的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述商品对象自动分类方法的步骤。
41.相对于现有技术,本技术的优势如下:
42.本技术综合了商品对象的摘要文本及商品图片相对应的特征信息,实现多模态信息融合,在此基础上,根据融合成的综合特征信息进行多层次分类处理,实现参考电商平台的多层次分类结构对商品对象进行分类,由于其分类基础不局限于图片信息,而是依赖于图片特征信息及与图片特征信息相对应的文本特征信息拼接而得的综合特征信息,信息价值准确而丰富,信息粒度更为精细,因此,可以更为快速准确地实现多层次多标签分类,有利于提升电商平台的产品上线效率。
附图说明
43.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
44.图1为本技术的商品对象自动分类方法的典型实施例的流程示意图;
45.图2为本技术的模型网络架构的原理框图;
46.图3为本技术的实施例中综合特征向量的编码过程的流程示意图;
47.图4为本技术的实施例根据综合特征向量进行分类的过程的流程示意图;
48.图5为本技术的实施例中所采用的hmcn网络的原理框图;
49.图6为本技术的实施例中为商品对象标记分类标签过程的流程示意图;
50.图7为本技术的实施例中扩展存储事件响应机制的流程示意图;
51.图8为本技术的商品对象自动分类装置的典型实施例的原理框图;
52.图9为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
53.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
54.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
55.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该
理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
56.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobile internet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
57.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
58.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
59.本技术的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
60.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用。本领域技术人员应当理解,只要设备运行资源适格,均可用作所述神经网络模型相应的模型训练设备和模型运行设备。某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
61.本技术所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本技术的技术方案所调用即可。
62.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行
描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
63.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
64.本技术的一种商品对象自动分类方法,可被编程为计算机程序产品,部署于终端设备和/或服务器中运行而实现,藉此,客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的用户界面,实现人机交互。
65.请参阅图1和图2,在其典型实施例中,该方法包括如下步骤:
66.步骤s1100、获取商品对象,提取其相对应的摘要文本及商品图片:
67.本技术的一个应用场景,是基于独立站的电商平台中的应用,每个独立站即为电商平台的一个商户实例,拥有独立的访问域名,由其实际拥有者负责进行商品的发布和更新。
68.独立站的商户实例将每个商品进行上线,电商平台获取与该商品相关的信息之后,构造出相对应的商品对象进行数据存储。商品对象的信息主要包括文本信息和图片信息,其中,文本信息包括商品对象的用于显要显示的标题信息、用于介绍商品详情的内容信息、用于描述商品特征的属性信息等。
69.为了实施本技术的技术方案,可以采集商品对象的摘要文本及商品图片,其中,摘要文本主要采用商品对象中的标题信息及其一项或多项属性信息构成,商品图片则可以是包含该商品对象的产品外观的主要图片。一般而言,可以按照预设的数量和内容需求获取摘要文本及商品图片,例如摘要文本可以规定为包含商品对象的标题信息及其所有属性项的属性信息、商品图片可以只选取其用于默认显示的单张图片。当然,本领域技术人员可以在此基础上灵活变通调整处理。
70.步骤s1200、分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量:
71.为了从商品对象的摘要文本及商品图片中提取出相应的特征信息,可以借助经过预训练的多种神经网络模型来实现特征表示,使所述的特征信息能够包含相应的摘要文本和商品图片的深层语义信息。例如可以采用bert之类的模型来实现摘要文本的分词及其中特征信息的提取,采用resnet之类的模型来实现商品图片中的特征信息的提取。不局限于此处的示例,理论上,任何适于从所述摘要文本中提取出深层语义信息的网络模型,以及任何适于从所述商品图片中提取出深层语义信息的网络模型,无论其基于cnn还是rnn或者其它网络架构实现,均可用于本技术中实现相应的特征提取处理,最终,获得与摘要文本相对应的文本特征向量以及与商品图片相对应的图片特征向量,用于分别表示摘要文本和商品图片的深层语义特征信息。
72.为了实现多模态融合,可以将所述文本特征向量与所述图片特征向量进行简单拼接,构成综合特征向量。所述综合特征向量同时包含了同一商品对象的文本特征信息与图片特征信息,实现了参考信息的多元化,据此进行多层次分类,可以获得更高的准确度。
73.步骤s1300、基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多层次分类结构中多个构成层次隶属关系的分类标签:
74.为了实现多层次分类处理,可以借助基于习得了多层次分类处理能力的神经网络模型来处理所述的综合特征向量,例如,采用基于hmcn架构的网络模型,利用商品对象的摘要文本及商品图片将其训练至收敛状态后,便可利用此类网络模型实现依据所述的综合特征信息来实现多层次分类。
75.实施多层次分类之后,一般借助softmax之类的多分类器获得分类结果信息,所述分类结果信息中包含商品对象映射到电商平台的类目树中的各层次各分类标签的评分信息,对其中各层次的评分信息进行优选,或者利用最大贪心匹配算法确定其最优路径,便可确定商品对象的至少一个分类路径,每个分类路径由多层次分类结构中的多层分类标签构成,各分类标签之间具有层次隶属关系,由此,该分类路径所包含的多个分类标签实际上便为实施多层次分类而获得的标签集。
76.步骤s1400、为所述商品对象标记所述标签集中的各个分类标签:
77.确定商品对象相对应的标签集后,便可利用该标签集中的各个分类标签为该商品对象进行打标,反映到数据存储层面,可以将这些分类标签标记为所述商品对象的分类属性信息,以便通过对所述分类属性信息进行检索时,可以在检索结果中包含该商品对象。
78.不难看出,本实施例综合了商品对象的摘要文本及商品图片相对应的特征信息,实现多模态信息融合,在此基础上,根据融合成的综合特征信息进行多层次分类处理,实现参考电商平台的多层次分类结构对商品对象进行分类,由于其分类基础不局限于图片信息,而是依赖于图片特征信息及与图片特征信息相对应的文本特征信息拼接而得的综合特征信息,信息价值准确而丰富,信息粒度更为精细,因此,可以更为快速准确地实现多层次多标签分类,有利于提升电商平台的产品上线效率。
79.深化的实施例中,所述步骤s1100、获取商户实例的商品对象,提取该其相对应的摘要文本及商品图片,包括如下步骤:
80.步骤s1110、向商户实例的管理用户推送商品对象创建页面:
81.本实施例的应用场景,主要是适用于商户实例的管理用户需要创建新的商品对象时,这种情况下,管理用户会在其客户端触发创建商品对象相对应的用户请求,开放了以本实施例所实现的方案的服务器,便可响应该用户请求而向该管理用户推送一个预先定义的商品对象创作页面,以便管理用户通过该创建页面向服务器提交商品对象的相关信息。
82.步骤s1120、接收用户在该创建页面提交的关于商品对象的摘要文本及商品图片,所述摘要文本包括该商品对象的标题信息及属性信息:
83.管理用户在其客户端解析并显示所述的创建页面后,便向其中填入商品对象相关的文本信息,例如包括商品对象的标题信息、一项或多项商品属性信息等。此外,管理用户还可以通过提供url或直接上传的方式,在所述创建页面中导入商品对象的商品图片。管理用户完成创建页面所需的各种信息录入后,便可提交该创建页面。
84.管理提交该创建页面后,服务器便可获得管理用户录入的商品对象相对应的摘要文本及商品图片,服务器获取摘要文本及商品图片时,按照本技术的技术方案所需的规范从摘要文本和商品图片中获取相关必要项即可,而未必需要采用其中的全量信息。由此,为本技术的其他步骤的运行提供了信息的输入,为本技术实现多层次分类提供了信息基础。
85.本实施例规范了对多层次分类的输入信息,并且向商户实例开放了充当信息输入接口的创建页面,方便管理用户按照正常的业务流程导入其商品对象,不影响用户体验,却可获得有效的信息,后续可以将依照本技术确定的分类标签提供给本实施例中的管理用户作为参考,由用户决定是否将这些分类标签作为其商品对象的实际分类标签,或者由服务器直接将这些分类标签作为默认设置直接实现该商品对象的自动化标记,无论如何,均无需用户自行按照电商平台的类目树逐层逐级查找其商品对象相应的分类标签,大大提升了商户实例的商品上线效率。
86.深化的实施例中,如图3所示,所述步骤s1200、分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量,包括如下步骤:
87.步骤s1210、分别对所述摘要文本、商品图片进行格式预处理:
88.无论是由商户实例的管理用户直接提交,还是从商品数据库中调用商品对象相对应的数据,商品对象的摘要文本与商品图片均按照电商平台的格式进行存储,因此,需要适应本技术之需对这些信息进行格式预处理。
89.对所述摘要文本进行格式预处理,为常见的文本预处理操作,包括分词、去空格、去重、去歧义等,本领域技术人员可灵活实现。
90.对所述商品图片进行格式预处理,也可借助常见的图片预处理操作,例如借助yolo网络模型对其进行商品定位、去除图片噪声等,本领域技术人员亦可灵活实施。
91.经过格式预处理之后的摘要文本和商品图片,有助于提升本技术的多层次分类处理的实施效率。
92.步骤s1220、调用预设的文本特征提取模型,对预处理后的摘要文本进行特征提取,获得经其编码的文本特征向量:
93.本实施例中,优选采用bert模型对经预处理后的所述摘要文本进行特征提取,对应每个摘要文本提取出一个特征行向量,即文本特征向量。所述文本特征向量表示了所述摘要文本的深层语义特征信息。
94.所述bert模型需先被预训练至收敛状态。训练时,bert模型的输出外接一分类模型,可使用人工标注的商品对象的摘要文本作为训练样本,而使用该商品对象人工标注形成的分类标签集作为学习目标,bert模型从训练样本中提取出来的文本特征向量被该分类模型分类后,与所述人工标注形成的分类标签集进行比较,根据比较结果反向传播修正bert模型的权重参数,如此不断迭代,直至bert模型达到收敛即可。由此,bert模型便获得了从摘要文本中提取出深层语义信息的能力,适于为商品对象的摘要文本提取出有效的文本特征向量。
95.步骤s1230、调用预设的图片特征提取模型,对预处理后的商品图片进行特征提取,获得经其编码的图片特征向量:
96.本实施例中,优选采用基于残差卷积网络的iresnet模型对经预处理后的商品图片进行特征提取,对应每个商品图片提取出一个中间特征向量,即图片特征向量,同理,所述图片特征向量表示了所述商品图片的深层语义特征信息。
97.所述iresnet模型需先被预训练至收敛状态。训练时,iresnet模型的输出外接一分类模型,可使用人工标注的商品图片作为训练样本,而使用该商品对象人工标注形成的
分类标签集作为学习目标,iresnet模型从训练样本中提取出来的图片特征向量被该分类模型分类后,与所述人工标注形成的分类标签集进行比较,根据比较结果反向传播修正iresnet模型的权重参数,如此不断迭代,直至iresnet模型达到收敛即可。由此,iresnet模型便获得了从商品图片中提取出深层语义信息的能力,适于为商品对象的商品图片提取出有效的图片特征向量。
98.步骤s1240、将图片特征向量归一化为维度与所述文本特征向量相同的单个高维行向量后,与该文本特征向量进行拼接获得综合特征向量:
99.所述bert模型提取出来的文本特征向量通常是一个高维的行向量,而图片特征向量则为多行多列的矩阵,因此,为了方便两者的特征拼接,可以将所述的图片特征向量归一化为行向量,该行向量的维度与所述文本特征向量的维度相同,然后按图片特征向量的行列关系顺序将其中各行各列的元素填充到该归一化行向量中即可完成归一化构造,至于便实现了图片特征向量与文本特征向量是尺度的统一。
100.在统一了文本特征向量与图片特征向量的基础上,进一步将两者进行简单的特征拼接,便可构造出综合特征向量,该综合特征向量显然实现了所述文本特征向量及所述图片特征向量的特征信息的融合。
101.本实施例进一步借助专用的文本特征模块及图片特征模型为商品对象提取摘要文本和商品图片相对应的特征,最后,以简单拼接的方式实现了对文本特征向量和图片特征向量的特征信息的融合,既精准地提取出商品对象的文本特征和图片特征,又能够实现对两者的有机整合,因此,所获得的综合特征向量实际上是对商品对象的分类所需的信息的深层语义表示,这一表示更为精准有效,对于提升分类准确率奠定了坚实的基础。
102.深化的实施例中,如图4所示,步骤s1300、基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多层次分类结构中多个构成层次隶属关系的分类标签,包括如下步骤:
103.步骤s1310、由多层次标签分类模型基于所述综合特征向量提取各个层次相对应的分类特征信息,将最后一个层次对应的分类特征信息进行全连接获得全局特征信息,其中每个层次的分类特征信息均基于前一层次的分类特征信息与所述综合特征向量的拼接特征信息生成:
104.本实施例中,请参阅图5,所述的多层次标签分类模型采用hmcn(hmcn,hierarchical multi

label classification networks)架构的网络模型来实施。
105.层次多标签分类的常用的方法主要分为两类,local(局部方法)和global(全局方法),区别在于从不同的角度利用层次结构信息。
106.(1)local方法通过学习不同层类目和文本之间的关系,并聚合不同层的预测结果来得到最终的预测结果。这类方法通常由多个分类模块组成,例如自顶向下的层次分类,在每个非叶子节点都有一个局部分类器,在预测时根据父类目的预测结果来预测最终的子类目;基于local的方法能够利用更细粒度的层级信息,但往往需要构建多个分类模块,同时也容易受到误差传播的影响。
107.(2)global方法通常由一个分类模块构成,直接利用层级结构信息来建模。例如利用层次结构来构造递归正则化损失项来对分类参数进行约束。
108.基于global方法更简单,但往往无法在学习文本语义表示中利用到细粒度的层级
信息,导致模型学习效果交叉,容易欠拟合。
109.通过对local和global方法进行扬长避短,本技术采用的技术方案是一种混合local和global方法的思路来解决层次多标签分类问题,相应的模型结构称为hmcn,(层次多标签分类网络,hierarchical multi

label classification networks),hmcn网络结构由多个局部输出层(对应层次结构每一层)和一个全局的输出层组成。每一个局部输出层对应的损失函数能够迫使相应包含相应粒度的监督信息的梯度传递到对应层,同时全局的输出层的损失函数能够按照层次结构更新全局的模型参数,此外,本技术还引入了一个基于层次结构惩罚项来约束模型预测,鼓励服从层次结构的预测。
110.层次多标签分类网络(hmcn),是一种多输出深度神经网络,专门用于hmc问题的局部和全局优化。为此,hmcn从多个网络输出传播梯度。hmcn包含每个层次层的一个局部输出,一个局部损耗函数用于从对应层次的类反向传播梯度。全局输出捕获在整个网络上转发的累积关系,并从层次结构的所有类反向传播梯度。
111.如图5所示的hmcn网络中,其以所述综合特征向量为输入,图中直连部分的主干网络,其内部的各个中间层分别对应提取类目对中的各个层次的分类特征信息,除首个层次外,其中每个中间层次的分类特征信息均基于前一层次的分类特征信息与所述综合特征向量的拼接特征信息生成,并且,最后一个分类特征信息被全连接后输出,以便获得全局特征信息。
112.步骤s1320、由多层次标签分类模型分别提取出各个所述的分类特征信息,将所有分类特征信息拼接为局部特征信息:
113.如图所示的hmcn网络的旁支结构中,主干网络的每个中间层所输出的分类特征信息均被独立提取出来,然后被简单拼接为局部特征信息。
114.步骤s1330、由多层次标签分类模型将所述全局特征信息与所述局部特征信息进行融合,获得综合分类信息,所述综合分类信息包括映射到所述多层次分类结构的每个节点的评分信息:
115.所述的全局特征信息和局部特征信息可以通过一个超参数来进行加和,实现彼此的信息融合,获得综合分类信息p
f
,如以下公式所示:
[0116][0117]
其中β为超参数,可以去调节整局部信息和全局信息的重要性,默认设为0.5,表示具有相同的重要性,p
l
表示各个局部特征信息,p
g
表示全局特征信息,|h|表示类目树中的层次结构的总层数。
[0118]
步骤s1340、根据所述综合分类信息中的评分信息确定出构成其标签集的多个分类标签,多个分类标签之间构成所述多层次分类结构中的层次隶属关系:
[0119]
可以理解,所述综合分类信息中包含了商品对象映射到类目树中各个层次各个分类标签之间的评分信息,也即根据hmcn进行分类的分类模型所输出的概率信息,根据这一评分信息寻找一个具有层次隶属关系的分类标签最优路径,即可将由该最优路径所包含的各层次分类标签构成为所述的标签集。
[0120]
本实施例中,可以先确定首个层次相对应的多个分类标签中具有最高评分信息的分类标签,作为商品对象在该层次的分类标签,然后,进行该层次下属的下一层次的分类标
签的确定。对于下一层次的分类标签,同理选取其中具有最高评分信息的分类标签来加以确定,如此递进,直至所有层次的分类标签均被确定,即构成相应的最优路径,从而足以构成出商品对象相对应的标签集。
[0121]
部分实施例中,允许商品对象可以有多个所述的最优路径,以便兼容商品对象按照多个分类标准进行分类的多义性的情况。
[0122]
所述的hmcn分类网络,可以通过联合经预训练至收敛状态的所述文本特征提取模型和图片特征提取模型进行训练,以便利用该两个模型提取出的文本特征信息和图片特征信息进行商品对象分类,将分类结果与人工标注的监督标签进行比较,通过监督结果修正hmcn网络的传播参数,最终使hmcn达到收敛状态,使其习得本技术所需的多层次分类能力。
[0123]
通过本实施例的揭示可以知晓,借助hmcn网络对包含了文本特征向量和图片特征向量的综合特征向量实行多层次分类,由于全面综合了商品对象的摘要文本和商品图片的深层语义信息,并且,利用了hmcn网络结合了global、local两种分类方法的优势,可以实现对商品对象进行更为精准高效的分类。
[0124]
深化的实施例中,如图6所示,所述步骤s1400、为所述商品对象标记所述标签集中的各个分类标签,包括如下步骤:
[0125]
步骤s1410、将所述标签集中的各个分类标签添加为所述商品对象的分类属性:
[0126]
所述商品对象,作为计算机内存对象,或者作为计算机存储对象,其均被构造为包含相应的分类属性,所述分类属性用于对应存储该商品对象所属的类目树中的分类标签,因此,可以将本技术所获得的标签集中的各个分类标签添加到相应的商品对象的分类属性中,实现对商品对象的分类标记。
[0127]
步骤s1420、将所述商品对象的分类属性、摘要文本以及商品对象以映射关系数据存储于商品数据库中:
[0128]
适应商户实例上线商品对象的情况,可以进一步将被标记了分类属性的商品对象相应的分类属性、用户提交的摘要文本以及用户指定的商品图片等构造为映射关系数据,将这一映射关系数据存储到电商平台的商品数据库中。对于独立站而言,特别地,存储至其对应的商户实例私有的商品数据库中。
[0129]
步骤s1430、响应该商品对象存储于商品数据库的存储事件,更新各个分类标签相对应的索引数据:
[0130]
本实施例中,为所述商品对象的存储设置有相应的响应机制,当所述商品对象存储于所述的商品数据库时,便触发存储事件,该响应机制对所述存储事件做出响应。
[0131]
同时,电商平台为了实现对商品对象的快速检索,可以预先为每一分类标签相对应的商品对象建立索引数据,构造出相应的索引数据列表,以便通过所述的索引数据列表快速定位至相应的商品对象。
[0132]
因此,响应于该存储事件,所述响应机制对应更新所述商品对象中的各个分类标签相对应的索引数据列表中的索引数据,使新增的商品对象的相关信息能够被其相应的分类标签的索引数据列表把反映,以服务于查询检索所需。
[0133]
本实施例通过响应新增的商品对象的分类标签的生成,将商品对象相关的信息存储到商品数据库中,并且实现对商品对象的索引数据的更新,及时为电商平台的商品数据的补充和更新数据,确保信息响应的及时性,使电商平台的商品存储服务的数据可靠性更
为优异。
[0134]
扩展的实施例中,如图7所示,本技术商品对象自动分类方法还包括如下步骤:
[0135]
步骤s1500、响应包含所述标签集中的任意一个分类标签的商品类别检索请求,根据该检索请求中的分类标签,获取标记有该分类标签的商品对象的摘要文本与商品图片:
[0136]
本技术如前所述各实施例实施之后,其所形成的商品对象相关信息可以被电商平台用户进一步利用。具体而言,电商平台用户可以通过所述的类目树中的任意分类标签进行商品对象的检索,当电商平台用户以某一分类标签进行检索时,便向电商平台服务器发起一个商品类别检索请求。
[0137]
电商平台服务器响应该请求,确定该检索请求中的分类标签,便可通过在商品数据库或该分类标签相对应的索引数据列表中检索相关商品对象,最终获取标记有该分类标签的商品对象列表,在该商品对象列表中展示各个相关商品对象的摘要文本及商品图片。
[0138]
步骤s1600、构造包含所述摘要文本及商品图片的商品详情页面,推送该商品详情页面以应答该请求。
[0139]
为了应答所述的检索请求,服务器可以进一步将所述商品对象列表中,各商标对象的摘要文本及商品图片进行格式化,由此封装出一个商品详情页面,然后将该商品详情页面推送给所述的电商平台用户,完成对所述检索请求的应答。
[0140]
本实施例进一步扩展了对本技术的分类标签进行拓展利用的交互过程,可以从本实施例中看出,在实现根据商品对象的摘要文本和商品图片进行准确分类的基础上,后续更便于电商平台用户根据分类标签进行商品对象的检索,能够提升用户检索的准确率,从而实现更可靠的电商服务。
[0141]
请参阅图8,本技术提供的一种商品对象自动分类装置,适应本技术的商品对象自动分类方法进行功能化部署,包括:信息获取模块1100、特征编码模块1200、分类处理模块1300,以及分类标记模块1400,其中,所述信息获取模块1100,用于获取商品对象,提取其相对应的摘要文本及商品图片;所述特征编码模块1200,用于分别对所述摘要文本及所述商品图片进行特征提取,相应获得文本特征向量及图片特征向量,将文本特征向量与图片特征向量拼接为综合特征向量;所述分类处理模块1300,用于基于所述综合特征向量进行多层次分类处理,获得所述商品对象相对应的标签集,所述标签集包括多个具有级别隶属关系的分类标签;所述分类标记模块1400,用于为所述商品对象标记所述标签集中的各个分类标签。
[0142]
深化的实施例中,所述信息获取模块1100包括:页面推送子模块,用于向商户实例的管理用户推送商品对象创建页面;信息接收子模块,用于接收用户在该创建页面提交的关于商品对象的摘要文本及商品图片,所述摘要文本包括该商品对象的标题信息及属性信息。
[0143]
深化的实施例中,所述特征编码模块1200包括:格式处理子模块,用于分别对所述摘要文本、商品图片进行格式预处理;文本提取子模块,用于调用预设的文本特征提取模型,对预处理后的摘要文本进行特征提取,获得经其编码的文本特征向量;图片提取子模块,用于调用预设的图片特征提取模型,对预处理后的商品图片进行特征提取,获得经其编码的图片特征向量;特征拼接子模块,用于将图片特征向量归一化为维度与所述文本特征向量相同的单个高维行向量后,与该文本特征向量进行拼接获得综合特征向量。
[0144]
深化的实施例中,所述分类处理模块1300包括:全局提取子模块,用于由多层次标签分类模型基于所述综合特征向量提取各个层次相对应的分类特征信息,将最后一个层次对应的分类特征信息进行全连接获得全局特征信息,其中每个层次的分类特征信息均基于前一层次的分类特征信息与所述综合特征向量的拼接特征信息生成;局部提取子模块,用于由多层次标签分类模型分别提取出各个所述的分类特征信息,将所有分类特征信息拼接为局部特征信息;特征融合子模块,用于由多层次标签分类模型将所述全局特征信息与所述局部特征信息进行融合,获得综合分类信息,所述综合分类信息包括映射到所述多层次分类结构的每个节点的评分信息;标签确定子模块,用于根据所述综合分类信息中的评分信息确定出构成其标签集的多个分类标签,多个分类标签之间构成所述多层次分类结构中的层次隶属关系。
[0145]
深化的实施例中,所述分类标记模块1400包括:属性更新子模块,用于将所述标签集中的各个分类标签添加为所述商品对象的分类属性;数据存储子模块,用于将所述商品对象的分类属性、摘要文本以及商品对象以映射关系数据存储于商品数据库中;响应更新子模块,用于响应该商品对象存储于商品数据库的存储事件,更新各个分类标签相对应的索引数据。
[0146]
扩展的实施例中,本装置还包括:检索响应子模块,用于响应包含所述标签集中的任意一个分类标签的商品类别检索请求,根据该检索请求中的分类标签,获取标记有该分类标签的商品对象的摘要文本与商品图片;检索应答子模块,用于构造包含所述摘要文本及商品图片的商品详情页面,推送该商品详情页面以应答该请求。
[0147]
为解决上述技术问题,本技术实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品对象自动分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的商品对象自动分类方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0148]
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的商品对象自动分类装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
[0149]
本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的商品对象自动分类方法的步骤。
[0150]
本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令
被一个或多个处理器执行时实现本技术任一实施例所述商品对象自动分类方法的步骤。
[0151]
本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
[0152]
综上所述,本技术能够实现对电商平台的商品对象的准确高效分类,有利于提升电商平台中海量数据的存储和访问效率,具有广阔的应用场景。
[0153]
本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0154]
以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1