本申请涉及数据标注领域,具体提供一种搜索评测用例的数据标注方法、存储介质以及智能设备。
背景技术:
1、现有技术中,通过统计用户在搜索时的真实数据选择,可以大致判断搜索效果的好坏。但是用户的选择过程中,往往存在多种不确定因素,例如随机选择、临时改变主意、误触等等。导致真实的用户选择数据无法准确的体现出真实的搜索意图,因此真实的搜索指标数据需要依赖评测系统和大量的被标注过的评测数据来实现。
2、在搜索评测体系搭建过程中,想要体现真实的指标数据,让真实的搜索效果可视化,避免不了需要对评测数据进行标注。而现有的搜索评测数据的标注工作往往重度依赖人工,存在人力成本高、标注速度慢、效率低下的问题。
3、相应地,本领域需要一种新的搜索评测用例的数据标注方案来解决上述问题。
技术实现思路
1、为了克服上述缺陷,提出了本申请,提供一种搜索评测用例的数据标注方法、存储介质以及智能设备,以解决或至少部分地解决大量搜索评测用例的数据标注依赖人工标注且效率低下的技术问题。
2、在第一方面,本申请提供一种搜索评测用例的数据标注方法,包括:
3、获取搜索评测用例,所述搜索评测用例至少包括用户发起搜索请求时使用的请求关键词以及选取结果;
4、基于所述选取结果对所述搜索评测用例进行初始化标注,获取初始标注结果;
5、使用所述请求关键词重新发起搜索请求,获取多个搜索结果;
6、基于所述初始标注结果以及所述搜索结果,获取所述搜索评测用例的数据标注结果。
7、在上述搜索评测用例的数据标注方法的一个技术方案中,所述基于所述初始标注结果以及所述搜索结果,获取所述搜索评测用例的数据标注结果,包括:
8、响应于初始标注结果在所述搜索结果中的排序不符合预设条件,基于文本嵌入模型对所述搜索评测用例进行标注更正,获取数据标注结果。
9、在上述搜索评测用例的数据标注方法的一个技术方案中,所述基于文本嵌入模型对所述搜索评测用例进行标注更正,获取数据标注结果,包括:
10、基于nlp文本嵌入模型以及余弦相似度算法,对所述搜索评测用例的所述多个搜索结果的进行文本相似度打分,分别获取每个搜索结果的文本得分;
11、响应于存在文本得分不低于预设阈值的搜索结果,判断所述文本得分不低于预设阈值的搜索结果是否处于预设的第一相似度区间;
12、若未处于,基于所述文本得分进行标注更正;
13、若处于,进一步获取所述搜索结果的相关因素值,基于所述相关因素值进行标注更正。
14、在上述搜索评测用例的数据标注方法的一个技术方案中,所述进一步获取所述搜索结果的相关因素值,基于所述相关因素值进行标注更正,包括:
15、判断所述搜索结果的相关因素值是否处于预设的第二相似度区间;
16、若未处于,基于所述相关因素值进行标注更正;
17、若处于,将所述文本得分不低于预设阈值的搜索结果全部作为数据标注结果。
18、在上述搜索评测用例的数据标注方法的一个技术方案中,所述基于所述相关因素值进行标注更正,包括:
19、获取相关因素值最优的搜索结果作为数据标注结果;
20、和/或,
21、所述基于所述文本得分进行标注更正,包括:
22、获取文本得分最高的搜索结果作为数据标注结果。
23、在上述搜索评测用例的数据标注方法的一个技术方案中,所述基于文本嵌入模型对所述搜索评测用例进行标注更正,获取数据标注结果,还包括:
24、进行标注更正后,判断所述数据标注结果在所述搜索结果中的排序是否符合预设条件;
25、若否,则标记所述搜索评测用例为不良样本。
26、在上述搜索评测用例的数据标注方法的一个技术方案中,所述基于所述初始标注结果以及所述搜索结果,获取所述搜索评测用例的数据标注结果,还包括:
27、若所述初始标注结果在所述搜索结果中的排序符合预设条件,则将所述初始标注结果作为数据标注结果;或者,
28、若不存在文本得分不低于预设阈值的搜索结果,则将所述搜索评测用例归类为无法标注。
29、在上述搜索评测用例的数据标注方法的一个技术方案中,所述获取搜索评测用例,包括:
30、基于用户发起的搜索请求获取搜索数据,所述搜索数据至少包括请求关键词以及用户选取结果;
31、对所述搜索数据进行数据清洗和数据筛选,获得搜索评测用例。
32、在第二方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述搜索评测用例的数据标注方法的技术方案中任一项技术方案所述的搜索评测用例的数据标注方法。
33、在第三方面,本申请提供一种智能设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现上述搜索评测用例的数据标注方法的技术方案中任一项技术方案所述的搜索评测用例的数据标注方法。
34、本申请上述一个或多个技术方案,至少具有如下一种或多种
35、有益效果:
36、在实施本申请的技术方案中,所述搜索评测用例的数据标注方法为自动化标注方案,基于初始标注结果以及重新搜索的搜索结果,获取所述搜索评测用例的数据标注结果,在大大降低人工成本的基础上,实现了在短时间内对大量评测数据进行自动化标注。
1.一种搜索评测用例的数据标注方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始标注结果以及所述搜索结果,获取所述搜索评测用例的数据标注结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于文本嵌入模型对所述搜索评测用例进行标注更正,获取数据标注结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述进一步获取所述搜索结果的相关因素值,基于所述相关因素值进行标注更正,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述相关因素值进行标注更正,包括:
6.根据权利要求3-5中任一项所述的方法,其特征在于,所述基于文本嵌入模型对所述搜索评测用例进行标注更正,获取数据标注结果,还包括:
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述基于所述初始标注结果以及所述搜索结果,获取所述搜索评测用例的数据标注结果,还包括:
8.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取搜索评测用例,包括:
9.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的搜索评测用例的数据标注方法。
10.一种智能设备,其特征在于,包括: