商品搜索类目识别方法及其装置、设备、介质、产品与流程

文档序号:30421898发布日期:2022-06-15 13:32阅读:129来源:国知局
商品搜索类目识别方法及其装置、设备、介质、产品与流程

1.本技术涉及电商信息技术领域,尤其涉及一种商品搜索类目识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。


背景技术:

2.在电商搜索场景中,通过用户输入一个查询词来识别用户的商品类目意图,召回符合用户商品类目意图的商品,更能契合用户的查询目的。
3.例如,用户输入“光明”进行查询,对应获得的商品数据中有一部分的类目是“牛奶”,另一部分的类目是“大米”。根据搜索历史行为数据,搜索“光明”的用户中,点击“牛奶”类目商品的用户数量远远大于点击“大米”类目商品的用户数量,这种情况下,类目预测模型就会给出这样的预测结果:“牛奶”类目与“光明”的相关度比“大米”类目与“光明”的相关度高,因此“牛奶”类目的商品在排序时会被优先推荐,从而提高了搜索的业务价值。
4.现实中,用户在提交作为关键词的查询词时,通常是简短输入单个词汇,字数一般为两三个中文字或两三个英文单词,也即所述查询词是短文本,其所包含的信息量非常低,因此,想要通过一个短文本来准确识别用户的商品类目意图,难度非常高的,业界中直接使用短文本建模的预测准确率都不高。
5.鉴此,针对电商搜索场景中提升探索结果命中用户购物意图的需求,本技术人做出相应的探索。


技术实现要素:

6.本技术的目的在于解决上述问题至少之一而提供一种商品搜索类目识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
7.适应本技术的各个目的,采用如下技术方案:
8.一个方面,适应本技术的目的之一而提供一种商品搜索类目识别方法,包括如下步骤:
9.接收用户向线上店铺提交的商品搜索请求,获得该请求携带的查询词;
10.构造联合编码信息,所述联合编码信息包含所述查询词的本义特征信息、所述用户的个人特征信息、所述线上店铺的店铺特征信息,以及所述查询词的增广特征信息;
11.将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息;
12.根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目。
13.深化的部分实施例中,构造联合编码信息,包括如下步骤:
14.对所述查询词进行词嵌入,以将其向量化编码为本义特征信息;
15.从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,所述关联词包括所述查询词的同义词和/或共现词;
16.调用所述用户的多个特征数据,将所述特征数据向量化编码为个人特征信息;
17.调用所述线上店铺的多个特征数据,将所述特征数据向量化编码为店铺特征信息;
18.将所述本义特征信息、增广特征信息、个人特征信息,以及店铺特征信息进行多通道拼接,构造为联合编码信息。
19.具体化的部分实施例中,从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,包括如下步骤:
20.从预设的同义词表中以语义匹配出所述查询词的同义词作为其关联词;
21.从预设的共现词表中以语义匹配出所述查询词的共现词作为其关联词;
22.将所述同义词及共现词构造为所述查询词的增广词汇集合;
23.根据预设的编码词表,将所述增广词汇集合中的关联词对应转换为编码实现向量化,获得所述查询词的增广特征信息。
24.深化的部分实施例中,将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息,包括如下步骤:
25.采用注意力层对所述联合编码信息进行深度特征交互,获得融合特征信息;
26.采用拼接层将所述融合特征信息及所述查询词的本义特征信息进行多通道拼接,获得综合特征信息。
27.深化的部分实施例中,根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目,包括如下步骤:
28.采用文本特征提取模型对所述综合特征信息提取深层语义信息;
29.采用分类器将所述深层语义信息映射到预设的商品分类体系相对应的分类空间,获得其中各个分类相对应的置信度;
30.根据置信度最大的分类为所述查询词确定所述商品分类体系中对应的类目。
31.扩展的部分实施例中,根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目的步骤之后,包括如下步骤:
32.从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配的商品数据,构成商品候选列表;
33.根据所述分类器分类空间内各个分类获得的置信度,对所述商品候选列表中按类目进行排序,获得商品推荐列表;
34.将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
35.扩展的部分实施例中,根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目的步骤之后,包括如下步骤:
36.从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配且属于所述置信度最大的类目的商品数据,构成商品推荐列表;
37.将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
38.另一方面,适应本技术的目的之一而提供的一种商品搜索类目识别装置,包括请求接收模块、编码构造模块、特征综合模块,以及类目识别模块,其中:所述请求接收模块,用于接收用户向线上店铺提交的商品搜索请求,获得该请求携带的查询词;所述编码构造模块,用于构造联合编码信息,所述联合编码信息包含所述查询词的本义特征信息、所述用
户的个人特征信息、所述线上店铺的店铺特征信息,以及所述查询词的增广特征信息;所述特征综合模块,用于将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息;所述类目识别模块,用于根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目。
39.深化的部分实施例中,所述编码构造模块,包括:本义编码单元,用于对所述查询词进行词嵌入,以将其向量化编码为本义特征信息;增广编码单元,用于从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,所述关联词包括所述查询词的同义词和/或共现词;用户编码单元,用于调用所述用户的多个特征数据,将所述特征数据向量化编码为个人特征信息;店铺编码单元,用于调用所述线上店铺的多个特征数据,将所述特征数据向量化编码为店铺特征信息;联合处理单元,用于将所述本义特征信息、增广特征信息、个人特征信息,以及店铺特征信息进行多通道拼接,构造为联合编码信息。
40.具体化的部分实施例中,所述增广编码单元,包括:同义匹配子单元,用于从预设的同义词表中以语义匹配出所述查询词的同义词作为其关联词;共现匹配子单元,用于从预设的共现词表中以语义匹配出所述查询词的共现词作为其关联词;集合构造子单元,用于将所述同义词及共现词构造为所述查询词的增广词汇集合;向量转换子单元,用于根据预设的编码词表,将所述增广词汇集合中的关联词对应转换为编码实现向量化,获得所述查询词的增广特征信息。
41.深化的部分实施例中,所述特征综合模块,包括:特征交互单元,用于采用注意力层对所述联合编码信息进行深度特征交互,获得融合特征信息;拼接综合单元,用于采用拼接层将所述融合特征信息及所述查询词的本义特征信息进行多通道拼接,获得综合特征信息。
42.深化的部分实施例中,所述类目识别模块,包括:特征提取单元,用于采用文本特征提取模型对所述综合特征信息提取深层语义信息;分类映射单元,用于采用分类器将所述深层语义信息映射到预设的商品分类体系相对应的分类空间,获得其中各个分类相对应的置信度;类目确定单元,用于根据置信度最大的分类为所述查询词确定所述商品分类体系中对应的类目。
43.扩展的部分实施例中,后于所述类目识别模块,包括:全类检索模块,用于从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配的商品数据,构成商品候选列表;类目排序模块,用于根据所述分类器分类空间内各个分类获得的置信度,对所述商品候选列表中按类目进行排序,获得商品推荐列表;列表推送模块,用于将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
44.扩展的部分实施例中,后于所述类目识别模块,包括:类目检索模块,用于从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配且属于所述置信度最大的类目的商品数据,构成商品推荐列表;列表推送模块,用于将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
45.又一方面,适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的商品搜索类目识别方法的步骤。
46.又一方面,适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的商品搜索类目识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
47.又一方面,适应本技术的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
48.相对于现有技术,本技术具有多方面优势,至少包括如下各方面:
49.本技术根据电商搜索场景,在用户提交商品搜索请求的查询词的本义特征信息的基础上,综合用户的个人特征信息、线上店铺的店铺特征信息以及根据该查询词扩展的增广特征信息,构造出联合编码信息,使联合编码信息中既有用户的个人信息特征又有线上店铺、查询词的关联词所构成的扩充信息特征,在对联合编码信息进行深度特征交互之后,提取查询词与其他信息特征的权重值,可以衡量出与查询词相关的特征,最后将这些相关特征再度与查询询的本义特征信息相结合获得综合特征信息,在综合特征信息的基础上进行对应商品分类体系的分类映射,确定出与查询词相匹配的商品类目,实现对用户的商品查询意图的预测,由于在确定所述商品类目的过程中充分利用了查询词的关联词和用户、线上店铺的特征,因此,在分类预测的过程中参考信息更为丰富,能够获得更为精准的预测结果。
附图说明
50.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
51.图1为本技术的商品搜索类目识别方法的典型实施例的流程示意图;
52.图2为本技术的实施例中,构造联合编码信息的过程的流程示意图;
53.图3为本技术的实施例中,构造查询词的增广特征信息的过程的流程示意图;
54.图4为本技术的实施例中,将融合特征信息与查询词的本义特征信息综合获得综合特征信息的过程的流程示意图;
55.图5为本技术示例性的用于实现所述综合特征信息的编码过程的网络结构示意图;
56.图6为本技术的实施例中,根据综合特征信息预测查询词相对应的商品类目的过程的流程示意图;
57.图7为本技术示例性的层次多标签分类网络的网络结构示意图;
58.图8为本技术的实施例中根据分类器各个分类的置信度对查询词搜索结果进行排序获得商品推荐列表的过程的流程示意图;
59.图9为本技术的实施例中根据分类器的最大置信度相对应的类目约束查询词搜索结果获得商品推荐列表的过程的流程示意图;
60.图10为本技术的商品搜索类目识别装置的原理框图;
61.图11为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
62.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
63.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
64.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
65.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
66.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
67.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一
台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
68.本技术的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
69.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
70.本技术所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本技术的技术方案所调用即可。
71.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
72.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
73.本技术的一种商品搜索类目识别方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本技术的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
74.请参阅图1,本技术的商品搜索类目识别方法在其典型实施例中,包括如下步骤:
75.步骤s1100、接收用户向线上店铺提交的商品搜索请求,获得该请求携带的查询词:
76.示例性的电商场景中,电商平台提供独立站服务,商家租用电商平台的独立站点,部署线上店铺,在线上店铺上架商品信息,供所述用户,也即消费者用户选购。为便于消费者用户查询线上店铺的商品,电商平台也为线上店铺配置商品搜索服务,消费者用户可以通过线上店铺提供的商品搜索功能,输入检索关键词,所述关键词即为查询词,将查询词提交给商品搜索服务,以便在线上店铺查询获取与该查询词相匹配的商品的商品信息。
77.当消费者用户输入关键词并确认提交后,页面程序将该关键词作为查询词,封装为商品搜索请求,提交给所述商品搜索服务。提供商品搜索服务的独立站点服务器接收该商品搜索请求后,对其进行解析,由此获得其中的查询词。
78.一个据此变通的实施例中,可以在消费者用户的终端设备的页面程序对所述关键词做文本预处理以便形成所述的查询词,也可在所述服务器对所述从该商品搜索请求中解析获取的查询词进行所述的文本预处理以使查询词得以清洗。所述的文本预处理,可以包括去除停用词、去除空格等不改变词汇意思表达的常规操作。
79.步骤s1200、构造联合编码信息,所述联合编码信息包含所述查询词的本义特征信
息、所述用户的个人特征信息、所述线上店铺的店铺特征信息,以及所述查询词的增广特征信息:
80.为了获得所述查询词相应的关联特征,可以综合与查询词存在潜在关联的各种基础信息,与查询词的本义相对应的特征信息一起构造为联合编码信息,然后在对联合编码信息进行深层语义加工的之后获得更深层语义的特征信息,以便通过所获得的更深层语义的特征信息为所述查询词提供其关联特征,从而用于扩展查询词相对应的信息表示范围,作为后续分类所需的更丰富的基础信息。
81.与查询词存在潜在关联的基础信息,本实施例中,主要包括与所述消费者用户的个人特征相对应的个人特征信息,与所述线上店铺的店铺特征相对应的店铺特征信息,以及与所述查询词语义相关的增广特征信息。
82.所述个人特征信息,包括但不限于该用户的如下各项信息中的任意多项:用户id、用户年龄、用户性别、用户偏好标签等,概括而言,任意适于描述该消费者用户的个人特征的信息,均可用于构造其个人特征信息。
83.所述店铺特征信息,包括但不限于该线上店铺的如下各项信息中的任意多项:店铺id、主营商品类目标签、店铺名称、店铺的服务地域等,概括而言,任意适于描述该线上店铺的店铺特征的信息,均可用于构造其店铺特征信息。
84.所述增广特征信息,是根据查询词的词义进行扩充所得的信息,可以包括所述查询词相对应的同义词和/或共现词等关联词信息,这些同义词和共现词是事先统计生成的,可经模糊规则匹配或语义匹配的方式检索获取。
85.一种实施例中,在获取查询词的关联词时,可先检测所述查询词是否大于预设的字数,例如两个单字(词)或三个单字(词),当大于预设的字数时,不排除查询词存在多个词汇,这种情况下,可对该查询词进行分词,获得其相应的分词集,然后,根据其中各个分词获取其所述的同义词和/或共现词,以使增广特征信息的构成元素更为丰富。
86.除以上各种关联基础信息相对应的特征信息外,可将所述查询词自身视为独立的特征,构成其本义特征信息,其中,当查询词包含多个分词时,可以其全量分词构成其本义特征信息。这些特征信息均可以向量化的形式表示。
87.至此,便可将所述查询词的本义特征信息、所述用户的个人特征信息、所述线上店铺的店铺特征信息,以及所述查询词的增广特征信息一起联合编码,构造为相应的联合编码信息。
88.不难理解,所述联合编码信息是对所述查询词本义特征、用户个人特征、店铺特征、查询词的语义增广特征的全面综合,包含更为丰富的基础信息,可用于寻找所述查询词的关联特征。
89.步骤s1300、将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息:
90.所述的联合编码信息,可以采用预设的神经网络模型对其进行深度特征交互,例如执行参考上下文的qkv运算,根据其中的本义特征信息提取出其他潜在关联的基础信息的权重,以便衡量联合编码信息中何一特征与所述查询词更为相关,从而,获得融合特征信息,也即是说,融合特征信息给出了与所述本义词具有相关性的特征相对应的描述信息,也即提供了查询词的关联特征,为查询词的意图识别提供更为丰富且聚集的信息参考。
91.据此,将所述查询词的本义特征信息,与所述融合参考信息相结合,构造为综合特征信息,该综合特征信息便实现对查询词及其关联特征之间的综合,由此可见,查询词经语义增广以及综合用户、店铺等各方面信息后获得的综合特征信息,已经具备了用于识别用户的查询意图的更为丰富全面的决策信息。
92.步骤s1400、根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目:
93.所述综合特征信息包含了查询词的本义特征信息及所述融合特征信息,丰富了查询词的语义信息,据此,可采用预先训练至收敛状态的神经网络模型对其进行表示学习,以获得其深层语义信息,然后经后接的分类器中的全连接层将该深层语义信息映射到分类空间,所述的分类空间对应所述线上店铺的商品分类体系的各个类目而设置多个分类,据此,经分类映射,获得该分类空间内各个分类相对应的置信度,也即分类概率,其中,分类概率最大的分类所对应的类目,即为所述查询词相匹配的商品类目,从而,实现根据所述查询词做出用户期望搜索的商品的类目的预测,后续可以此为据,在相应的类目中检索商品,或者根据各个类目的置信度对所述查询词相对应的商品搜索结果进行排序,等等。
94.一般而言,可以采用普通的多分类网络对所述综合特征信息进行分类。适应电商平台的商品分类体系具有多层级分类的特点,在一种适应性变通的实施例中,可以采用适于多层级分类的层次多标签分类网络(hmcn,hierarchical multi-label classification networks)用于实施对所述综合特征信息的分类,由此,可支持商品分类体系包含多层级的情况。该层次多标签分类网络的骨干模型可以采用诸如textcnn、albert之类的任意一种可行的适于提取文本特征信息的现有神经网络模型。此外,所述层次多标签分类网络可事先由本领域技术人员,根据本技术所揭示的原理,采用足量的训练样本,将其训练至收敛状态后,投入使用。
95.训练时,每个训练样本可从电商平台用户在各个线上店铺执行搜索所产生的搜索历史数据中采集,提取出其中的关键词作为查询词构造出本义特征信息,提取出其中的店铺特征信息、用户的个人特征信息,以及根据预设的词表确定出该查询词相对应的增广特征信息构造为所述的训练样本,然后按照本技术的编码过程,获得各个训练样本的综合特征信息输入该层次多标签分类网络中实施训练。搜索历史数据中,与查询词相对应的结果列表中用户优先访问的商品的类目可作为该训练样本的监督标签使用,用于监督所述层次多标签分类网络对该训练样本预测表示用户意图的类目,对模型实施梯度更新,促使模型快速收敛。
96.根据此处揭示的实施例可知,相对于现有技术,本技术具有多方面优势,至少包括如下各方面:
97.本技术根据电商搜索场景,在用户提交商品搜索请求的查询词的本义特征信息的基础上,综合用户的个人特征信息、线上店铺的店铺特征信息以及根据该查询词扩展的增广特征信息,构造出联合编码信息,使联合编码信息中既有用户的个人信息特征又有线上店铺、查询词的关联词所构成的扩充信息特征,在对联合编码信息进行深度特征交互之后,提取查询词与其他信息特征的权重值,可以衡量出与查询词相关的特征,最后将这些相关特征再度与查询询的本义特征信息相结合获得综合特征信息,在综合特征信息的基础上进行对应商品分类体系的分类映射,确定出与查询词相匹配的商品类目,实现对用户的商品
查询意图的预测,由于在确定所述商品类目的过程中充分利用了查询词的关联词和用户、线上店铺的特征,因此,在分类预测的过程中参考信息更为丰富,能够获得更为精准的预测结果。
98.请参阅图2,深化的部分实施例中,所述步骤s1200、构造联合编码信息,包括如下步骤:
99.步骤s1210、对所述查询词进行词嵌入,以将其向量化编码为本义特征信息:
100.为了便于神经网络模型的处理所述查询词,可参考预设的编码词表,将所述查询词转换为相应的数值编码,实现词嵌入,获得其相对应的本义特征向量,以表征其本义特征信息。其中,当查询词存在多个分词时,可将各个分词均进行对应的向量化转换,避免遗漏。
101.步骤s1220、从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,所述关联词包括所述查询词的同义词和/或共现词:
102.为了扩充查询词的语义,参考用于提供关联词的预设词表,在其中匹配出该查询词的同义词和/或共现词作为其关联词,构造为相应的增广词汇集合。在此基础上,同时参考所述的编码词表,将所述增广词汇集合中的各个关联词进行词嵌入,实现向量化,从而获得语义增广特征向量,作为该查询词相对应的增广特征信息。
103.步骤s1230、调用所述用户的多个特征数据,将所述特征数据向量化编码为个人特征信息:
104.为了参考用户侧为查询词提供类目意图预测所需的扩充信息,采集包括但不限于该用户的如下各项信息中的任意多项特征数据:用户id、用户年龄、用户性别、用户偏好标签等,然后将这些特征数据对应进行向量化,编码为该用户相对应的个人特征向量,以表示其个人特征信息。个人特征信息的提供,丰富了查询词的参考信息来源,便于为查询词的预测提供用户侧的参考特征。
105.步骤s1240、调用所述线上店铺的多个特征数据,将所述特征数据向量化编码为店铺特征信息:
106.为了参考线上店铺侧为查询词提供类目意图预测所需的扩充信息,采集包括但不限于该线上店铺的如下各项信息中的任意多项特征数据:店铺id、主营商品类目标签、店铺名称、店铺的服务地域等,然后将这些特征数据对应进行向量化,编码为该用户相对应的店铺特征向量,以表示其店铺特征信息。同理,店铺特征信息的提供,丰富了查询词参考信息来源,便于为查询词的预测提供线上店铺侧的参考特征。
107.步骤s1250、将所述本义特征信息、增广特征信息、个人特征信息,以及店铺特征信息进行多通道拼接,构造为联合编码信息:
108.以上各种为查询词构造的特征信息,均可归一化为相同维度,在此基础上,采用一个拼接层,将所述本义特征信息、增广特征信息、个人特征信息、店铺特征信息进行多通道拼接,由此,便可将各种特征信息构造为联合编码信息。
109.此处的实施例,揭示了本技术的联合编码信息的编码过程,可以看出,除查询词自身的本义特征信息之外,在编码过程中还从不同渠道为其丰富语义信息,不仅考虑用户侧的特征数据,也考虑店铺侧的特征数据,此外还考虑了查询词的同义数据,因此,不仅在查询词的基础上增加了个性化特征,也增加了扩充信息特征,形成查询词相对应的一个关联
信息集,在此基础上进行数据挖掘,可以获得对查询词的类目意图预测更有用的参考信息。
110.请参阅图3,具体化的部分实施例中,所述步骤s1220、从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,包括如下步骤:
111.步骤s1221、从预设的同义词表中以语义匹配出所述查询词的同义词作为其关联词:
112.为了扩充查询词的同义词,可预备一个同义词表,该同义词表通常是根据电商平台中海量的文本信息通过词频统计优选获得的词表,在此基础上,可以采用多种方式,在同义词表中为查询词模糊匹配出其相对应的一个或多个同义词作为其关联词。
113.一种可选的实施例中,以模糊规则匹配的方式,对所述查询词适用通配符构造多个查询表达式,以所述查询表达式在所述同义词表中检索,可确定出其相匹配的多个同义词。
114.另一可选的实施例中,以模糊语义匹配的方式,利用所述查询词的向量表示与同义词表中各个同义词的向量表示计算彼此的数据距离,然后将数据距离满足预设距离阈值的同义词确定为该查询词的关联词。
115.可见,无论采用何种方式,均可从所述同义词表中为所述的查询词匹配出在语义上相近的同义词,用于扩充查询词的关联信息。
116.步骤s1222、从预设的共现词表中以语义匹配出所述查询词的共现词作为其关联词:
117.为了扩充查询词的共现词,可预备一个共现词表,该共现词表通常是根据电商平台中海量的文本信息通过对与该查询词共同出现的词汇进行词频统计优选获得的词表,在此基础上,可以采用多种方式,在共现词表中为查询词模糊匹配出其相对应的一个或多个共现词作为其关联词。
118.一种可选的实施例中,以模糊规则匹配的方式,对所述查询词适用通配符构造多个查询表达式,以所述查询表达式在所述共现词表中检索,可确定出其相匹配的多个共现词。
119.另一可选的实施例中,以模糊语义匹配的方式,利用所述查询词的向量表示与共现词表中各个共现词的向量表示计算彼此的数据距离,然后将数据距离满足预设距离阈值的共现词确定为该查询词的关联词。
120.可见,无论采用何种方式,均可从所述共现词表中为所述的查询词匹配出在语义上相近的共现词,用于扩充查询词的关联信息。
121.步骤s1223、将所述同义词及共现词构造为所述查询词的增广词汇集合:
122.匹配出的同义词与共现词,分别从不同角度丰富了所述查询词的语义,因而,可被一并视为所述查询词的关联词,而构造为增广词汇集合。
123.步骤s1224、根据预设的编码词表,将所述增广词汇集合中的关联词对应转换为编码实现向量化,获得所述查询词的增广特征信息:
124.最后,同理根据对所述查询词进行词嵌入时所依据的编码词表,将所述增广词汇集合中的各个关联词进行向量化,从而编码获得所述查询词相对应的增广特征信息。
125.此处的实施例显示,通过对电商平台数据挖掘而获得的同义词表和共现词表,可
用于为查询词的语义扩充提供丰富而可靠的信息基础,使查询词不仅可以通过其本义提供语义信息,也可通过其同义词、共现词提供语义信息,为后续向查询词提供参考特征信息提供了可靠有富有参考作用的信息来源。
126.请参阅图4,深化的部分实施例中,所述步骤s1300、将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息,包括如下步骤:
127.步骤s1310、采用注意力层对所述联合编码信息进行深度特征交互,获得融合特征信息:
128.如前所述,综合特征信息隐含了所述联合编码信息及所述查询词的本义特征信息,而所述联合编码信息中包含了用于为查询词扩增语义信息相对应的各种关联信息的向量表示,但是,不同的查询词可能对不同的关联信息敏感,即不同的关联信息与所述查询词相结合时,其隐含的信息价值也相应不同。为了挖掘出查询词与这些关联信息之间的关联关系,本实施例中,如图5的示例性的编码网络所示,采用一个注意力层(attention)对所述联合编码信息进行基于q、k、v的运算,通过参考上下文对联合编码信息进行深度特征交互,计算出其中各个特征对所述查询词的信息价值的贡献权重,相应获得融合特征信息,该融合特征信息量化了各种关联信息对查询词的关联程度的权重,起到衡量其中何一特征与查询词更为相关的作用。一种实施例中,所述的注意力层可采用多头注意力层,由本领域技术人员灵活选用即可。关于注意力层的实现原理及其工作原理为本领域技术人员所知晓,此处恕不赘述。
129.步骤s1320、采用拼接层将所述融合特征信息及所述查询词的本义特征信息进行多通道拼接,获得综合特征信息:
130.获得所述的融合特征信息后,便可采用一拼接层,将所述融合特征信息与所述查询词的本义特征信息进行多通道拼接,获得所述的综合特征信息,于是,综合特征信息便包含了查询词本身的语义信息,也包含了与其存在不同程度相关的其他关联信息的语义信息,从而可为用户搜索类目意图决策提供有效的参考信息。
131.此处的实施例,揭示所述的联合编码信息基于注意力层进行深度特征交互的过程,由此对查询词的各种关联信息的权重进行量化获得融合特征信息,据此再与查询词的本义特征信息相拼接获得的综合特征信息,能够为商品类目预测提供更可靠的基础信息,使商品类目预测更为精准。
132.请参阅图6,深化的部分实施例中,所述步骤s1400、根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目,包括如下步骤:
133.步骤s1410、采用文本特征提取模型对所述综合特征信息提取深层语义信息:
134.请结合图7的示例性的层次多标签分类网络,其以一个文本特征提取模型78为骨干网络,后接一个分类器70,所述的文本特征提取模型78通过对输入其中的综合特征信息进行表示学习,便可提取出其深层语义信息。在所述分类器70中,经全连接层701映射至输出层703,由输出层703计算出分类空间中各个分类相对应的置信度,作为分类结果。如前文所述,该层次多标签分类网络可预先采用足量的训练样本训练至收敛状态后投入使用。
135.步骤s1420、采用分类器将所述深层语义信息映射到预设的商品分类体系相对应的分类空间,获得其中各个分类相对应的置信度:
136.所述的分类器,将所述深层语义信息经全连接层进行全连接后,映射到与线上店
铺的商品分类体系相对应的分类空间,从而,获得映射到所述分类空间中各个分类相对应的置信度。
137.步骤s1430、根据置信度最大的分类为所述查询词确定所述商品分类体系中对应的类目:
138.为了对所述商品搜索请求中携带的查询词的搜索意图类目进行预测,可将所述分类空间中,置信度最大的分类所对应的类目,确定为所述查询词相对应的商品类目,也即该商品搜索请求期望搜索的商品类目。
139.此处的实施例,示例性地揭示层次多标签分类网络根据所述的综合特征信息获得深层语义信息并做出分类预测的过程,由此可见,经本技术编码后,层次多标签分类网络能够获得更为丰富且可靠的基础信息,即所述的综合特征信息,用于为商品搜索请求做出用户搜索意图类目的预判,从而可期望提升商品搜索结果命中用户搜索意图类目的命中率。
140.请参阅图8,扩展的部分实施例中,所述步骤s1400、根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目的步骤之后,包括如下步骤:
141.步骤s2100、从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配的商品数据,构成商品候选列表:
142.作为商品搜索的示例,本实施例中,首先根据所述的查询词,从所述线上店铺的商品数据库中检索出其中的商品信息与所述查询词相匹配的商品数据,将这些商品数据构成商品候选列表,其中每个商品对应一个商品数据,表现为该列表中的一个数据记录即可。
143.此处用于检索的商品信息,可以是商品数据中的商品标题和/或商品详情。而所采用的检索方式,可以是精准规则匹配、模糊规则匹配、模糊语义匹配等任意一种方式。所获得的商品数据中,可能包含商品分类体系中的多个类目相对应的商品的商品数据。
144.步骤s2200、根据所述分类器分类空间内各个分类获得的置信度,对所述商品候选列表中按类目进行排序,获得商品推荐列表:
145.在本技术的神经网络模型已经为所述查询词预判出对应所述商品分类体系中各个类目的置信度的情况下,可以相应的分类器的分类空间内的各个分类的置信度,对所述商品候选列表中的各个商品数据,按照类目置信度进行排序,由此,便获得商品推荐列表。
146.步骤s2300、将所述商品推荐列表推送给所述用户以应答该商品搜索请求:
147.最后,将该商品推荐列表推送给所述的用户,完成对其商品搜索请求的应答。当然,在向用户推送所述商品推荐列表之前,也可对所述商品推荐列表中的商品数据进行择优或截尾,以便精简搜索结果,据此可以知晓,置信度较高的类目的商品可以被优先推荐给该用户,由于该类目是根据查询词及其多方面关联信息决策的结果,可预期优选推荐的商品数据更能满足用户预期,实现较为精准的搜索推荐结果。
148.此处的实施例,揭示将神经网络模型预测出的对应商品分类体系的各个类目的置信度对根据查询词搜索获得的结果进行排序,使满足用户搜索意图的商品数据被优先推荐给用户浏览,一方面,提升搜索准确度而改善用户体验,另一方面,也可提升关联高价值类目的商品的曝光率,使线上店铺的搜索推荐策略更为合理,从而综合提升线上店铺的经济效益。
149.请参阅图9,扩展的部分实施例中,所述步骤s1400、根据所述综合特征信息的深层
语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目的步骤之后,包括如下步骤:
150.步骤s3100、从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配且属于所述置信度最大的类目的商品数据,构成商品推荐列表:
151.作为商品搜索的示例,本实施例中,根据所述的查询词,从所述线上店铺的商品数据库中检索出其中的商品信息与所述查询词相匹配的商品数据,在搜索过程中约束其搜索的商品的类目为本技术的神经网络模型分类获得的置信度最大的分类相对应的类目,然后将这些商品数据构成商品推荐列表,其中每个商品对应一个商品数据,表现为该列表中的一个数据记录即可。
152.同理,此处用于检索的商品信息,可以是商品数据中的商品标题和/或商品详情。而所采用的检索方式,可以是精准规则匹配、模糊规则匹配、模糊语义匹配等任意一种方式。所获得的商品数据中,仅包含商品分类体系中的所述置信度最大的类目相对应的商品的商品数据。
153.步骤s3200、将所述商品推荐列表推送给所述用户以应答该商品搜索请求:
154.同理,将该商品推荐列表推送给所述的用户,完成对其商品搜索请求的应答。在向用户推送所述商品推荐列表之前,也可对所述商品推荐列表中的商品数据进行择优或截尾,以便精简搜索结果,据此可以知晓,由于商品推荐列表中只包含置信度较高的类目相对应的商品,较为纯净,可预期优选推荐的商品数据更能满足用户预期,实现较为精准的搜索推荐结果。
155.此处的实施例,揭示在为用户搜索商品数据时,只针对神经网络模型预测出的商品分类体系中具有最大置信度的类目进行检索,检索出与所述查询词搜索相匹配的商品数据,通过将搜索对象约束为预判的类目,使用户能够获得更精准且纯净的商品推荐列表,使线上店铺的搜索推荐策略更为合理,从而综合提升线上店铺的经济效益。
156.请参阅图10,适应本技术的目的之一而提供的一种商品搜索类目识别装置,是对本技术的商品搜索类目识别方法的功能化体现,该装置包括请求接收模块1100、编码构造模块1200、特征综合模块1300,以及类目识别模块1400,其中:所述请求接收模块1100,用于接收用户向线上店铺提交的商品搜索请求,获得该请求携带的查询词;所述编码构造模块1200,用于构造联合编码信息,所述联合编码信息包含所述查询词的本义特征信息、所述用户的个人特征信息、所述线上店铺的店铺特征信息,以及所述查询词的增广特征信息;所述特征综合模块1300,用于将所述本义特征信息结合所述联合编码信息经深度特征交互获得的融合特征信息构造为综合特征信息;所述类目识别模块1400,用于根据所述综合特征信息的深层语义信息进行分类,获得所述查询词分类映射到商品分类体系中的类目。
157.深化的部分实施例中,所述编码构造模块1200,包括:本义编码单元,用于对所述查询词进行词嵌入,以将其向量化编码为本义特征信息;增广编码单元,用于从预设词表中匹配出所述查询词的关联词所构成的增广词汇集合,将该增广词汇集合向量化编码为增广特征信息,所述关联词包括所述查询词的同义词和/或共现词;用户编码单元,用于调用所述用户的多个特征数据,将所述特征数据向量化编码为个人特征信息;店铺编码单元,用于调用所述线上店铺的多个特征数据,将所述特征数据向量化编码为店铺特征信息;联合处理单元,用于将所述本义特征信息、增广特征信息、个人特征信息,以及店铺特征信息进行
多通道拼接,构造为联合编码信息。
158.具体化的部分实施例中,所述增广编码单元,包括:同义匹配子单元,用于从预设的同义词表中以语义匹配出所述查询词的同义词作为其关联词;共现匹配子单元,用于从预设的共现词表中以语义匹配出所述查询词的共现词作为其关联词;集合构造子单元,用于将所述同义词及共现词构造为所述查询词的增广词汇集合;向量转换子单元,用于根据预设的编码词表,将所述增广词汇集合中的关联词对应转换为编码实现向量化,获得所述查询词的增广特征信息。
159.深化的部分实施例中,所述特征综合模块1300,包括:特征交互单元,用于采用注意力层对所述联合编码信息进行深度特征交互,获得融合特征信息;拼接综合单元,用于采用拼接层将所述融合特征信息及所述查询词的本义特征信息进行多通道拼接,获得综合特征信息。
160.深化的部分实施例中,所述类目识别模块1400,包括:特征提取单元,用于采用文本特征提取模型对所述综合特征信息提取深层语义信息;分类映射单元,用于采用分类器将所述深层语义信息映射到预设的商品分类体系相对应的分类空间,获得其中各个分类相对应的置信度;类目确定单元,用于根据置信度最大的分类为所述查询词确定所述商品分类体系中对应的类目。
161.扩展的部分实施例中,后于所述类目识别模块1400,包括:全类检索模块,用于从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配的商品数据,构成商品候选列表;类目排序模块,用于根据所述分类器分类空间内各个分类获得的置信度,对所述商品候选列表中按类目进行排序,获得商品推荐列表;列表推送模块,用于将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
162.扩展的部分实施例中,后于所述类目识别模块1400,包括:类目检索模块,用于从该线上店铺的商品数据库中检索出商品信息与所述查询词相匹配且属于所述置信度最大的类目的商品数据,构成商品推荐列表;列表推送模块,用于将所述商品推荐列表推送给所述用户以应答该商品搜索请求。
163.为解决上述技术问题,本技术实施例还提供计算机设备。如图11所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的商品搜索类目识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
164.本实施方式中处理器用于执行图10中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的商品搜索类目识别装置中执
行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
165.本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的商品搜索类目识别方法的步骤。
166.本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
167.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
168.综上所述,本技术在确定所述商品类目的过程中充分利用了查询词的关联词和用户、线上店铺的特征,因此,在分类预测的过程中参考信息更为丰富,能够获得更为精准的预测结果,能够实现对用户搜索意图的精准预测,从而为用户匹配出符合其搜索意图的商品列表。
169.本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
170.以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1