样本标签生成方法、装置、计算机设备和存储介质与流程

文档序号:37370379发布日期:2024-03-22 10:23阅读:9来源:国知局
样本标签生成方法、装置、计算机设备和存储介质与流程

本技术涉及通信,具体涉及一种样本标签生成方法、装置、计算机设备和存储介质,其中,存储介质是计算机可读存储介质。


背景技术:

1、在搜索场景中,确定内容与用户输入的查询文本(query)之间的相关性是主要任务之一,由于内容具有时效性,且随时间的流逝,不算有新事物、新产品等出现,也会相应出现新的内容,及时基于新数据对用于推荐内容的模型进行训练可以提高模型推荐内容的准确性。目前常见的方式是人工标注新数据,基于人工标注的新数据对模型进行训练或者进行微调,然而新兴事物的出现是不间断,需要人工不断地收集新数据并进行标注,人工成本高。


技术实现思路

1、本技术实施例提供一种样本标签生成方法、装置、计算机设备和存储介质,可以自动生成样本标签,减少标签标注的人工成本,且结合后验行为信息和相关度可以提高样本标签的准确性。

2、本技术实施例提供的一种样本标签生成方法,包括:

3、获取查询文本样本,和所述查询文本样本的查询结果内容;

4、根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;

5、获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;

6、根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;

7、基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。

8、相应的,本技术实施例还提供的一种样本标签生成装置,包括:

9、获取单元,用于获取查询文本样本,和所述查询文本样本的查询结果内容;

10、阈值确定单元,用于根据预设的内容量与交互时长阈值之间的映射关系,确定所述查询结果内容的内容量对应的目标交互时长阈值;

11、第一标签确定单元,用于获取所述查询结果内容的用户交互时长,并根据所述用户交互时长与所述目标交互时长阈值的大小关系确定所述查询结果内容的第一样本标签;

12、第二标签确定单元,用于根据所述查询文本样本与所述查询结果内容的相关度,确定所述查询结果内容的第二样本标签;

13、标签生成单元,用于基于所述查询结果内容的第一样本标签和第二样本标签,生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。

14、在一实施例中,所述阈值确定单元,包括:

15、主题确定子单元,用于确定所述查询结果内容的内容主题文本;

16、提取子单元,用于对所述查询结果内容进行内容特征提取,得到所述查询结果内容的内容特征信息;

17、内容确定子单元,用于根据所述内容特征信息确定所述查询结果内容中,与所述内容主题文本相关的目标子内容;

18、目标阈值确定子单元,用于根据预设的内容量与交互时长阈值之间的映射关系和所述目标子内容,确定所述查询结果内容对应的目标交互时长阈值。

19、在一实施例中,所述样本标签生成装置还包括:

20、区间确定单元,用于确定内容量区间,所述内容量区间包括至少一个内容量;

21、交互信息获取单元,用于针对每个内容量区间,获取预设时间段内,内容量属于所述容量区间的每个历史查询结果内容的用户交互时长和用户交互量;

22、排序单元,用于根据所述用户交互时长对所述历史查询结果内容进行排序,得到排序后历史查询结果内容;

23、区间阈值确定单元,用于根据用户交互量总和,满足预设条件所对应的排序区间内历史查询结果内容的用户交互时长,确定每个内容量区间交互时长阈值;

24、映射关系生成单元,用于根据每个内容量区间的交互时长阈值和所述内容量区间包含的内容量,得到内容量与交互时长阈值之间的映射关系。

25、在一实施例中,所述标签生成单元,包括:

26、分数计算子单元,用于根据所述第一样本标签的标签类型,和所述第二样本标签的标签类型,计算所述查询结果内容的匹配分数;

27、样本标签生成子单元,用于根据所述匹配分数生成所述查询结果内容和所述查询文本样本构成的训练样本对的样本标签。

28、在一实施例中,每种标签类型对应有标签分数,所述分数计算子单元,包括:

29、权重确定模块,用于根据所述用户交互时长确定所述第一样本标签的第一标签权重,根据所述相关度确定所述第二样本标签的第二标签权重;

30、第一加权计算模块,用于根据所述第一标签权重,对所述第一样本标签的标签分数进行加权计算,得到第一加权后标签分数;

31、第二加权计算模块,用于根据所述第二标签权重,对所述第二样本标签的标签分数进行加权计算,得到第二加权后标签分数;

32、匹配分数计算模块,用于基于所述第一加权后标签分数和所述第二加权后标签分数计算所述查询结果内容的匹配分数。

33、在一实施例中,所述第二标签确定单元,包括:

34、特征提取子单元,用于通过内容推荐模型分别对所述查询文本样本和所述查询结果内容进行特征提取,得到所述查询文本训练样本的查询文本特征信息,和所述查询结果内容的内容特征信息;

35、相关度确定子单元,用于根据所述查询文本特征信息和所述内容特征信息之间的特征距离,得到所述查询文本样本和所述查询结果内容的相关度;

36、根据所述相关度确定所述查询结果内容的第二样本标签。

37、在一实施例中,所述样本标签生成装置还包括:

38、训练单元,用于通过所述训练样本对,对所述内容推荐模型进行训练,得到训练后内容推荐模型;

39、推荐单元,用于当接收到查询文本时,通过所述训练后内容推荐模型基于所述查询文本的推荐查询结果内容。

40、相应的,本技术实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本技术实施例提供的任一种样本标签生成方法。

41、相应的,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本技术实施例提供的任一种样本标签生成方法。

42、本技术实施例通过获取查询文本样本,和查询文本样本的查询结果内容;根据预设的内容量与交互时长阈值之间的映射关系,确定查询结果内容的内容量对应的目标交互时长阈值;获取查询结果内容的用户交互时长,并根据用户交互时长与目标交互时长阈值的大小关系确定查询结果内容的第一样本标签;根据查询文本样本与查询结果内容的相关度,确定查询结果内容的第二样本标签;基于查询结果内容的第一样本标签和第二样本标签,生成查询结果内容和查询文本样本构成的训练样本对的样本标签。

43、本技术实施例根据查询结果内容的后验行为信息——用户交互时长得到查询结果内容的第一样本标签,根据查询结果内容和查询文本样本的相关度得到查询结果内容的第二样本标签,结合第一样本标签和第二样本标签生成查询结果内容的样本标签,可以实现自动生成样本标签,减少样本标签标注的人工成本,且结合后验行为信息和相关度可以提高生成的样本标签的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1