通过终身学习的电子商务中可扩展标签学习的系统和方法与流程

文档序号：34815644发布日期：2023-07-19 18:28阅读：52来源：国知局

本公开总体上涉及命名实体识别(named-entity recognition，ner)领域，更具体地，涉及用于以高精度和高召回率连续学习产品标签的系统和方法。

背景技术：

1、本文的背景技术描述是为了概括地呈现本公开的上下文。在背景技术部分所描述的程度上，当前署名的发明人的工作以及在提交时可能不构成现有技术的描述的各方面，既不明确也不隐含地被认为是针对本公开的现有技术。

2、例如京东、淘宝的主流电子商务网站销售数万种产品。对于每种产品，操作员都会出于不同的操作目的对各种类型的标签进行定义。例如，他们可以在商品搜索栏中对用于搜索的产品标签进行定义，对用于顾客评论的产品标签及其分类进行定义，并且将产品标签定义为短标题中的销售点等。总体而言，这些标签对于电子商务网站的运营(从销售、营销，到顾客支持和产品团队)非常重要和关键。良好而准确的标签对用户的购物体验(例如，快速搜索、准确的产品评估)，甚至电子商务公司的收入(例如，准确的推荐和业务增长)都有很大影响。

3、然而，设计好标签来准确定义产品的行业属性、功能、销售点、受众和商品场景是富有挑战性的。首先，它需要具有特定领域知识的产品专家，他们对产品、销售点及其受众充分了解。其次，电子商务网站的产品经常更换，货架每天都会上新。

4、因此，本领域存在着解决上述缺陷和不足的未解决的需求。

技术实现思路

1、在某些方面中，本公开涉及一种用于终身学习产品标签的系统。在某些实施例中，所述系统包括计算设备。所述计算设备包括处理器和存储有计算机可执行代码的存储设备，并且当在所述处理器处执行时，所述计算机可执行码被配置为：

2、检索产品的产品描述并提供多个种子标签，其中，所述产品描述包括与所述种子标签相同的文本，所述种子标签表征所述产品中的至少一个产品；

3、使用所述产品描述和所述种子标签来训练带名实体识别ner模型；

4、使用所述ner模型从所述产品描述中预测多个伪标签；

5、计算所述多个伪标签的置信度得分；

6、将每个置信度得分与阈值进行比较，当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时，将所述伪标签定义为真标签；

7、将所述真标签添加到所述种子标签以获得更新的标签；以及

8、使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤，以保持对所述更新的标签的更新。

9、在某些实施例中，所述种子标签的数量较小，而在迭代学习之后的所述更新的标签的数量较大。

10、在某些实施例中，所述ner模型包括来自变换器的双向编码器表示(bert)层、双向长短期记忆(bilstm)层和条件随机场(crf)层。在某些实施例中，将这三层从输入端到输出端以上述顺序依次布置。

11、在某些实施例中，所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。例如，如果从三个产品描述中检测到相同的伪标签，则该伪标签的置信度得分为3。

12、在某些实施例中，所述标签属于不同的类型，并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示产品的功能的功能标签、指示产品的风格的风格标签、指示顾客对产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签，所述品牌标签的阈值是2～3，所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5～20，以及所述感受标签的阈值为10～50。

13、在某些实施例中，在重复训练、预测、计算、比较和添加的步骤的不同轮次期间增加所述标签的阈值数值。

14、在某些实施例中，所述ner模型被配置为为所述产品描述的每个字符提供标记，所述标记包括品牌的开始bbra、品牌的中间mbra、品牌的结束ebra、产品行业属性的开始batt、产品行业属性的中间matt、产品行业属性的结束eatt、功能的开始bfun、功能的中间mfun、功能的结束efun、风格的开始bsty、风格的中间msty、风格的结束esty、感受的开始bfel、感受的中间mfel、感受的结束efel、场景的开始bsce、场景的中间msce、场景的结束esce、受众人的开始bhum、受众人的中间mhun、受众人的结束ehum、以及无标记o，所述标记用来生成所述标签。

15、在某些实施例中，所述crf层被配置为通过最大化句子标记得分来学习标记之间的限制，所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算：

16、

17、其中，x是所述文档之一并且包括n个词x1，x2，...，xn，y是所述文档之一的预测标记序列并且包括y1，y2，...，yn，是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制，是所述文档中的第i词具有标签yi的可能性。

18、在某些实施例中，所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化：

19、

20、其中，p(y|x)是文档x相对于标签y的归一化可能性，是所述文档的预测标签中的任一个。

21、在某些实施例中，所述计算机可执行代码还被配置为：提供所述更新的标签作为相应产品的关键词，以使得用户可以使用所述关键词，通过搜索引擎找到相应产品。

22、在某些实施例中，所述计算机可执行代码还被配置为：提供所述更新的标签作为相应产品的关键词，并在相应产品的主页上显示所述关键词作为评论标签或标题词。

23、在某些方面中，本公开涉及一种用于终身学习标签的方法。在某些实施例中，所述方法包括：

24、由计算设备检索产品的产品描述，并由计算设备提供多个种子标签，其中，所述产品描述包括与所述种子标签相同的文本，所述种子标签表征所述产品中的至少一个产品；

25、由所述计算设备使用所述产品描述和所述种子标签来训练命名实体识别ner模型；

26、由所述计算设备使用所述ner模型从所述产品描述中预测多个伪标签；

27、由所述计算设备计算所述多个伪标签的置信度得分；

28、由所述计算设备将每个置信度得分与阈值进行比较，当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时，将所述伪标签定义为真标签；

29、由所述计算设备将所述真标签添加到所述种子标签以获得更新的标签；以及

30、由所述计算设备使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤，以保持对所述更新的标签的更新。

31、在某些实施例中，所述ner模型包括来自变换器的双向编码器表示(bert)层、双向长短期记忆(bilstm)层和条件随机场(crf)层。

32、在某些实施例中，所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。

33、在某些实施例中，所述标签属于不同的类型，并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示所述产品的功能的功能标签、指示所述产品的风格的风格标签、指示顾客对所述产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签，所述品牌标签的阈值是2～3，所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5～20，以及所述感受标签的阈值为10～50。

34、在某些实施例中，每个产品描述具有至少一个句子，每个句子中的每个字符具有标记。所述ner模型被配置为为所述产品描述的每个字符提供标记，所述标记包括品牌的开始bbra、品牌的中间mbra、品牌的结束ebra、产品行业属性的开始batt、产品行业属性的中间matt、产品行业属性的结束eatt、功能的开始bfun、功能的中间mfun、功能的结束efun、风格的开始bsty、风格的中间msty、风格的结束esty、感受的开始bfel、感受的中间mfel、感受的结束efel、场景的开始bsce、场景的中间msce、场景的结束esce、受众人的开始bhum、受众人的中间mhum、受众人的结束ehum、以及无标记o，所述标记用来生成所述标签。

35、在某些实施例中，所述crf层被配置为通过最大化句子标记得分来学习标记之间的限制，所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算：

36、

37、其中，x是所述文档之一并且包括n个词x1，x2，...，xn，y是所述文档之一的预测标记序列并且包括y1，y2，...，yn，是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制，是所述文档中的第i词具有标签yi的可能性。

38、在某些实施例中，所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化：

39、

40、其中，p(y|x)是文档x相对于标签y的归一化可能性，是所述文档的预测标签中的任一个。

41、在某些实施例中，所述方法还包括：

42、提供所述更新的标签作为相应产品的关键词，以使得用户可以使用所述关键词，通过搜索引擎找到相应产品；或者

43、提供所述更新的标签作为相应产品的关键词，并在相应产品的主页上显示所述关键词作为评论标签或标题词。

44、在某些方面中，本公开涉及一种存储有计算机可执行代码的非瞬时计算机可读介质。在某些实施例中，当在计算设备的处理器处执行时，所述计算机可读代码被配置为执行上述方法。

45、通过以下结合附图及其标题对优选实施例的描述，本公开的这些和其他方面将变得显而易见，尽管在不脱离本公开的新颖概念的精神和范围的情况下，其中的变化和修改可能会受到影响。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：单华松周辉
技术所有人：京东美国科技公司
我是此专利的发明人

上一篇：封装件及其形成方法与流程
上一篇：一种传感器清洁刷频率的自适应调节方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。