语料标注集的生成方法及装置、电子设备、存储介质与流程

文档序号:18619390发布日期:2019-09-06 22:20阅读:191来源:国知局
语料标注集的生成方法及装置、电子设备、存储介质与流程
本发明涉及计算机
技术领域
,特别涉及一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。
背景技术
:在语音交互领域,主要是通过各种数据分析模型对用户输入的查询语句进行在线分析,识别用户意图,为用户提供精准的答复。而数据分析模型是通过对已标注的大量查询语句(简称训练集)进行训练得到的。所以,训练集中查询语句标注结果的准确性,直接影响了数据分析模型的准确,决定了语音交互功能的智能化水平。目前,主要通过标注人员对查询语句进行人工标注。例如,标注出查询语句的查询意图(包括闲聊意图、音乐点播意图、天气查询意图等等)。所以标注人员的认知水平决定了查询语句的标注准确性。由于标注人员的认知水平可能与常人的认知程度不同,或者对某个查询语句的认知存在偏差,因此很容易使训练集所包含的查询语句标注不准确,进而造成训练得到的数据分析模型误差较大,无法为用户提供精准的答复。技术实现要素:为了解决相关技术中存在的由于标注人员的认知存在偏差,导致训练集中查询语句的标注结果不准确的问题,本发明提供了一种语料标注集的生成方法。一方面,本发明提供了一种语料标注集的生成方法,包括:获取查询日志;所述查询日志包括查询语句;从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;获取多方对所述待标注语料集中查询语句的标注结果;根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。另一方面,本发明提供了另一种语料标注集的生成装置,其特征在于,包括:日志获取模块,用于获取查询日志;所述查询日志包括查询语句;语料集获得模块,用于从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;结果获取模块,用于获取多方对所述待标注语料集中查询语句的标注结果;语句筛选模块,用于根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;标注集生成模块,用于由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。进一步的,本发明提供了一种电子设备,所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述语料标注集的生成方法。进一步的,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述语料标注集的生成方法。本发明的实施例提供的技术方案可以包括以下有益效果:本发明提供的技术方案,通过从查询日志中获得待标注语料集,获取多个用户对该语料集中查询语句的标注结果,筛选出标注结果相同的查询语句,进而由这些查询语句及其对应的标注结果构成语料标注集。由于语料标注集的查询语句属于多方标注结果相同的查询语句,所以语料标注集中查询语句的标注结果存在分歧的可能性较小,标注结果的准确性较高,进而将该准确性较高的语料标注集作为训练集进行意图识别模型等数据分析模型的训练,可以提高数据分析模型的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。图1是根据本发明所涉及的实施环境的示意图;图2是根据一示例性实施例示出的一种服务器的框图;图3是根据一示例性实施例示出的一种语料标注集的生成方法的流程图;图4是多种标注任务的标注结果示意图;图5是多种语料标注集的划分原理示意图;图6每个批次的语料标注集对模型性能的影响曲线示意图;图7是图3对应实施例中步骤330的细节流程图;图8是根据一示例性实施例示出的语料标注集的生成原理示意图;图9是图3对应实施例中步骤350的细节流程图;图10是图3对应实施例中步骤370的细节流程图;图11是图3对应实施例的基础上一种语料标注集的生成方法的流程图;图12是根据一示例性实施例示出的一种语料标注集的生成装置的框图;图13是图13对应实施例中语料集获得模块的细节框图;图14是图13对应实施例中结果获取模块的细节框图;图15是图13对应实施例中语句筛选模块的细节框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图。本发明所涉及的实施环境包括服务器110。服务器110中存储有查询日志,从而服务器110可以采用本发明提供的语料标注集的生成方法,利用查询日志生成语料标注集,提高语料标注集中查询语句标注结果的准确性。根据需要,该实施环境还将包括提供数据,即查询日志的数据来源。具体而言,在本实施环境中,数据来源可以为智能终端130。服务器110可以获取智能终端130上传的查询日志,然后采用本发明提供的方法,生成语料标注集。智能终端130可以是智能手机、智能音响、平板电脑。应当说明的是,本发明语料标注集的生成方法,不限于在服务器110中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署生成语料标注集的处理逻辑等。参见图2,图2是本发明实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器200中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。下述图3、图7、图8、图10-图12所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。本领域普通技术人员可以理解实现下述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。图3是根据一示例性实施例示出的一种语料标注集的生成方法的流程图。该语料标注集的生成方法的适用范围和执行主体可以是服务器,该服务器可以是图1所示实施环境的服务器110。如图3所示,该语料标注集的生成方法可以由服务器110执行,可以包括以下步骤。在步骤310中,获取查询日志;其中,查询日志是指设备采集到用户输入查询语句所进行的记录,该设备可以是智能音响、移动终端等。查询日志可以包括时间点、用户输入的查询语句、向用户返回的查询结果等。其中,用户输入的查询语句可以是文字或语音形式。查询日志可以包括一个或多个用户输入的大量查询语句,所以说,查询日志可以看成是包含大量查询语句的生语料集。所谓生语料集,是指属于原始真实用户的查询语句,未经过人工标注。在步骤330中,从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;需要说明的是,由于查询日志中包含大量查询语句,但是并非所有的查询语句都有效,有些可能是用户随意输入的并不代表任何意义,有些查询语句可能过长或过短、还有很多查询语句也许是重复的,如果将这些查询语句的标注结果作为语料标注集,则会降低语料标注集中标注结果的准确性,进而影响将语料标注集作为训练样本训练得到的数据分析模型的准确性。由此,本发明可以按照预先配置好的策略,从查询日志中提取出待标注的查询语句,由待标注的查询语句构成待标注语料集。其中,进行待标注查询语句的提取,可以是对查询日志进行分析,根据配置的无用/停用字符库,去除包含无用/停用字符的查询语句、去除无意义的查询语句(例如随意输入的没有连贯性的几个字符)、去除过长或过短的查询语句、去除重复的查询语句,去除已经标注过的查询语句,获得最后剩余的查询语句作为待标注的查询语句。在步骤350中,获取多方对所述待标注语料集中查询语句的标注结果;其中,多方可以是多个标注人员、多台标注设备,还可以一台设备中的多个标注程序,用于表示待标注语料集中查询语句的标注结果存在多个来源,为便于描述,下文将标注人员、标注设备或标注程序统称为标注方。每一标注方可以对待标注语料集中的查询语句进行标注(称为“投票”)。标注是指为待标注语料集中的查询语句添加分类标签,多个“投票”结果才能反映出查询语句的正确分类。标注结果就是标注方为查询语句添加的分类标签。按照标注任务的不同,标注结果可以是意图标注结果、ner(namedentityrecognition,命名实体识别)标注结果、槽位标注结果或分词标注结果。其中,意图标注结果是指意图分类结果,例如“今天心情不佳”,标注方对该查询语句的意图标注结果是“闲聊意图”;例如“请给我来一首舒缓的歌曲”,标注方对该查询语句的意图标注结果是“音乐点播意图”。ner标注结果是指标注出查询语句中的人名、地名、机构名、专有名词等。槽位标注结果是指为查询语句中的各个词组添加槽位标签,例如天气业务领域,槽位标签有时间词、地点词、天气业务关键词、天气现象词、疑问词等。分词标注结果是指将查询语句划分为多个词组,多个词组作为分词标注结果,每个词组可以看成一个分类标签。如图4所示,针对待标注语料集,标注方可以进行意图标注、ner标注、槽位标注或分词标注,得到每项标注任务的标注结果。具体的,每一方可以先对待标注语料集中的查询语句进行意图标注(按照意图标注文档规范),得到包含查询语句意图标注结果的意图标注集。进而根据意图标注可以将查询语句进行领域划分,并在划分好的领域同时进行ner标注(按照ner标注文档规范)和槽位标注(按照槽位标注文档规范),分别得到包含ner标注结果的ner标注集和包含槽位标注结果的槽位标注集。其中,在意图标注的同时,每一标注方还可以进行对待标注语料集进行分词标注,得到包含分词标注结果的分词标注集。其中,意图标注集、槽位标注集、ner标注集或分词标注集可以存储在服务器的存储介质中,服务器可以从存储介质中获取多方对待标注语料集中查询语句的标注结果。在步骤370中,根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;其中,标注结果相似的查询语句是指多方标注结果一致或相近的查询语句,多方标注结果的相似度大于预设值,可以认为是标注结果相似的查询语句,该预设值可以80%、90%。在一种实施例中,假设标注结果为意图标注结果,服务器获取到多方对待标注语料集中查询语句的意图标注结果,依次针对每条查询语句,比对多方对该条查询语句的意图标注结果,判断多方对该条查询语句的标注结果是否一致(标注结果的相似度大于预设值即可认为一致),进而从待标注语料集中筛选出多方标注结果一致的查询语句。具体的,针对同一个查询语句,如果多方的标注结果一致,则加入单标签标注集。如果不一致,则需要最终裁定人员协助审查不一致的具体情况:i)如果超过一半的标注方标注一致,取多方一致的标签作为标注结果,加入单标签标注集;ii)如果不一致结果分布为1:1,有可能是多标签的情况(用例可以标多个标签)。审核人员审核确定是多标签的情况,则加入多标签标注集;iii)如果多方标注结果都不一致,有可能是多标签样例或疑难样例,审核后,加入多标签标注集或疑难样例集中。这样,一个标注任务经过标注流程,最终得到三个标注集:单标签标注集、多标签标注集以及疑难样例集。单标签标注集中的查询语句可以认为多方对该查询语句的标注结果相同。单标签标注集可以认为属于可靠的标注集,可以作为意图识别模型的训练集、测试集等。同理,假设标注结果是ner标注结果、槽位标注结果或分词标注结果,也可以筛选出多方标注结果相同的查询语句。在步骤390中,由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。其中,语料标注集包含查询语句及其对应的标注结果,其中,该查询语句属于步骤370筛选出的多方标注结果相似的查询语句。服务器利用筛选出的多方标注结果相似的查询语句,以及该查询语句的标注结果,生成由该查询语句与标注结果构成的查询语料标注集。如图5所示,针对待标注语料集中的查询语句,多个标注方对待标注语料集进行标注,服务器获取标注方1对待标注语料集中查询语句的标注结果1,标注方2对待标注语料集中查询语句的标注结果2,标注方3对待标注语料集中查询语句的标注结果3,标注方4对待标注语料集中查询语句的标注结果4。服务器对标注结果1、标注结果2、标注结果3、标注结果4进行合并,筛选出四个标注结果一致的查询语句加入单标签标注集,如果某个查询语句存在超过一半标注结果一致,也可认为多方标注结果相同,取多人一致的标注结果作为该查询语句的标注结果,并将该查询语句加入单标签标注集,将该单标签标注集作为语料标注集,可以与已标注的语料集进行合并,作为训练集、测试集。如图5所示,假设某些查询语句的标注结果1、2、3、4不一致,且不一致结果分布为1:1,则这些查询语句有可能是多标签的情况,通过审核人员审核确定是多标签的情况,将这些查询语句加入多标签标注集。假设某些查询语句的标注结果1、2、3、4全部不一致,有可能是多标签样例或疑难样例,则可以将这些查询语句加入多标签标注集或疑难标注集。需要解释的是,语料标注集就是单标签标注集,所包含的是多方标注结果相同的查询语句。也就是说,语料标注集中查询语句的标注结果不存在分歧,标注结果的准确性较高,由此,可以将语料标注集作为准确性较高的训练集或测试集进行数据分析模型的训练。例如,假设标注结果是意图标注结果,语料标注集包括意图标注结果相同的查询语句及其对应的意图标注结果,则语料标注集可以作为训练集进行意图识别模型的训练。假设标注结果是ner标注结果,语料标注集包括ner标注结果相同的查询语句及其对应的ner标注结果,则语料标注集可以作为训练集进行命名实体识别模型的训练。同理,假设标注结果是槽位标注结果,则语料标注集可以作为训练集进行槽位标注模型的训练,假设标注结果是分词标注结果,则语料标注集可以作为训练集进行分词标注模型的训练。本发明上述示例性实施例提供的技术方案,通过从查询日志中获得待标注语料集,获取多个用户对该语料集中查询语句的标注结果,筛选出标注结果相同的查询语句,进而由这些查询语句及其对应的标注结果构成语料标注集。由于语料标注集的查询语句属于多方标注结果相似的查询语句,所以语料标注集中查询语句的标注结果存在分歧的可能性较小,标注结果的准确性较高,进而将该准确性较高的语料标注集作为训练集进行意图识别模型等数据分析模型的训练,可以提高数据分析模型的准确性。根据需要,可以将语料标注集通过增量、叠加的方式加入已有的训练集,重新训练数据分析模型,并利用同一个测试集测试数据分析模型的性能,评估新增的语料标注集对模型性能带来的效果提升,反映出新增的语料标注集的质量和价值。以意图的语料标注集为例。将意识识别模型在测试集上的性能结果作为基准。之后,将获得的每批语料标注集加入模型训练集中,记录下每一批数据加入后训练出的模型的性能指标。如图6所示曲线记录了每个批次的语料标注集加入后训练出的模型的性能,其中第六批(s6)数据对训练模型的性能增益明显,可以挑选该批次的语料标注集加入训练数据中。此外,如果标注方是标注人员,为了防止标注人员在标注过程中相互作弊参考,可以采取每个周期内错开标注的方法标注。如下表1所示。表1错开标注的任务安排表第一天第二天第三天第四天第五天人员1文档1文档5文档4文档3文档2人员2文档2文档1文档5文档4文档3人员3文档3文档2文档1文档5文档4人员4文档4文档3文档2文档1文档5以四个标注人员进行标注为例子,为了防止标注人员相互参考标注结果,标注人员同一天进行标注的内容不一样,可以根据表1所示计划表安排标注,以五天为一个周期获取结果并统计多人之间一致以及不一致的标注结果。在一种示例性实施例中,如图7所示,上述步骤330具体包括:在步骤331中,去除所述查询日志中不满足预设条件的查询语句;其中,不满足预设条件的查询语句可以包括以下一种或多种形式:包含无用/停用字符的查询语句,无意义的查询语句、过长或过短的查询语句、重复的查询语句等,从而避免后续对这些没有价值的查询语句进行标注,既增加了工作量,也影响了语料标注集的准确性。在步骤332中,将所述查询日志中剩余的查询语句,输入已构建的多个标签预测模型,输出多个标签预测模型对同一查询语句的标签预测结果;所述多个标签预测模型通过采用不同的训练样本集训练得到;具体的,标签预测模型可以是用于识别查询语句意图的意图识别模型。相应的,标签预测结果可以是意图识别结果。标签预测模型可以利用已知意图标注结果的大量查询语句(即训练样本集)训练得到。多个标签预测模型可以采用不同的训练样本训练得到。例如,将已知意图标注结果的所有查询语句分为4批,每批查询语句训练得到对应的意图识别模型,由此,可以得到4个意图识别模型。在去除上述不符合要求的查询语句后,将查询日志中剩余的查询语句分别输入4个意图识别模型,输出4个意图识别模型对同一查询语句的意图识别结果。需要说明的是,根据标注任务的不同,标签预测模型也可以是命名实体识别模型、槽位标注模型或分词模型,这些模型可通过已知ner标注结果的大量查询语句训练得到,已知槽位标注结果的大量查询语句训练得到,已知分词标注结果的大量查询语句训练得到。同理,标签预测结果可以是对应的命名实体识别结果、槽位标注结果、分词结果。标签预测模型的构建方式属于现有技术,在此不再赘述。在步骤333中,根据所述多个标签预测模型对同一查询语句的标签预测结果,从所述剩余的查询语句中筛选出标签预测结果不一致的查询语句,得到所述待标注语料集。由于边界样本点对于训练模型的边界意义重大,如果找到多意图、在不同类别上都有一定概率分布的样本点,把这类样本点加入训练集进行模型训练,相比于把已经能够分类准确的样本点加入训练集,对模型的性能提升帮助更大。本发明根据多个标签预测模型对同一查询语句的标签预测结果,从查询日志剩余的查询语句中筛选出标签预测结果不一致的查询语句。也就是说,模型对这些查询语句的识别准确性较低,所以这些查询语句即可认为是边界样本点,将这些边界样本点加入待标注语料集进行模型训练,可以提高模型的准确性。在一种示例性实施例中,上述步骤331可以包括以下步骤:通过已构建的分类器对所述查询日志中记录的查询语句进行分类,并去除分类得到的无意义的查询语句。其中,无意义的查询语句是指没有具体意图的语句,可能是用户错误或随意输入的语句。分类器也就是分类模型,分类器的作用是识别查询日志中的查询语句,哪些是有意义的,哪些是无意义的。具体可以通过大量有意义的查询语句和无意义的查询语句,训练得到分类器。举例来说,可以对通过大量有意义的查询语句和无意义的查询语句,训练逻辑回归模型的参数,得到分类器。分类器是数据挖掘中对样本进行分类的方法的统称,分类器的构建方式包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。具体的,可以将查询日志中的查询语句输入训练好的分类器,输出有意义或无意义的判定结果,进而可以去除查询日志中无意义的查询语句。可选的,还可以根据配置好的无用字符或停用字符库,去除查询日志中包含无用字符或停用字符的查询语句。在另一种示例性实施例中,上述步骤331还可以包括以下步骤:根据已标注的查询语句集合,去除所述查询日志中已标注的查询语句以及与已标注查询语句相似的查询语句。其中,已标注的查询语句集合是指已知标注结果的查询语句的集合。已标注的查询语句集合可以是已经生成的语料标注集。根据该查询语句集合中所包含的查询语句,可以从查询日志的查询语句中去除属于该集合中的查询语句。已标注查询语句就是指该查询语句集合中的查询语句,与已标注查询语句相似的查询语句可以通过计算查询语句之间的相似度,找出查询日志中与已标注查询语句相似度较高的查询语句,从而去除查询日志中与已标注查询语句相似度较高的查询语句。也就是说,上述步骤332中剩余的查询语句可以是查询日志中去除无意义的查询语句、去除包含无用字符或停用字符的查询语句、去除已标注的查询语句以及去除与已标注查询语句相似的查询语句后,查询日志中剩余的查询语句。在另一种示例性实施例中,上述步骤331还可以包括以下步骤:去除所述查询日志中仅包含单个实体词的查询语句、语句长度大于预设字符数量的查询语句或者重复的查询语句。其中,实体词是指真实的具体事物的名称,例如,歌曲名、歌手名等。仅包含一个实体词的查询语句,难以区分意图、分词等,所以不适合加入语料标注集参与建模。语句长度大于预设字符数量的查询语句是指较长的查询语句,这类查询语句标注难度大,且参与建模时由于查询语句长度较长,无疑会增加计算量,由此,也不适合加入语料标注集参与建模。同样的,查询日志中重复的查询语句也没有必要加入语料标注集参与建模,所以去除重复的查询语句,例如三条查询语句重复,可以去除2条仅保留一条查询语句。综上,上述步骤332中剩余的查询语句还可以是去除了仅包含单个实体词的查询语句、语句长度大于预设字符数量的查询语句或者重复的查询语句后,查询日志中最后剩余的查询语句。如图8所示,针对新增的查询语句,对新增的查询语句进行预处理,去除无意义查询语句,去除无用/停用字符,去除单实体词的查询语句,去除超长的、重复的查询语句,并且可以根据已标注的查询语句集合,去除已标注的查询语句,去除和已标注的查询语句集合中相似度很高的查询语句,进一步的,通过上述步骤332和333筛选出标签预测结果不一致的查询语句,筛选出的查询语句,构成待标注语料集。进而,根据多方对待标注语料集的标注结果,可以筛选出标注结果相似的查询语句生成语料标注集。进而语料标注集可以加入已标注的查询语句集合,一并参与模型的训练。在一种示例性实施例中,如图9所示,上述步骤350具体包括:在步骤351中,向多方派发对所述待标注语料集的标注任务,所述标注任务的派发,触发多方并行执行所述标注任务;其中,标注任务可以是意图标注任务、ner标注任务、槽位标注任务或分词标注任务。举例来说,多方可以是多台标注设备,服务器向多台标注设备下发携带待标注语料集的标注任务,触发多台标注设备并行执行标注任务。需要说明的是,标注设备可以是事先通过大量样本数据训练得到的智能标注设备。每台标注设备采用不同的样本数据集进行训练,所以每台标注设备的标注精度不同。在一种实施例中,服务器可以向多个标注人员所属的终端设备下发携带待标注语料集的标注任务。标注人员所属终端设备可以进行待标注集语料集的展示和标注任务的提示。用户可以通过点击选项或划取的方式进行意图标注、ner标注、槽位标注和分词标注,多个标注人员所属终端设备根据用户点击选项或划取的操作获得标注结果,完成对待标注语料集的标注任务。在一种示例性实施例中,上述标注任务的派发,触发多方并行执行标注任务,具体包括:所述标注任务的派发,触发多方并行将所述待标注语料集输入自身配置的标注模型,输出各自对所述待标注语料集的标注结果;其中,多方配置的标注模型采用不同的训练样本集训练得到。也就是说,此处多方可以代表多台标注设备或多个标注程序。每个标注方配置了标注模型,由于多方配置的标注模型采用不同的训练样本集训练得到,所以多台标注设备或多个标注程序具有不同的标注精度。需要说明的是,该实施例中多方配置的标注模型采用的训练样本集与上文中标签预测模型采用的训练样本集也不同。举例来说,可以将所有样本分成10个训练样本集,每个训练样本集经过训练可以得到对应的模型,进而可以将10个模型,一部分作为标签预测模型,一部分作为标注模型,利用多个标签预测模型筛选出标签预测结果不一致的查询语句,得到待标注语料集,之后利用多方的标注模型计算待标注语料集中查询语句的标注结果,获得多方对待标注语料集中查询语句的标注结果。假设多方是指服务器中部署的多个标注程序,多个标注程序可以并行执行以下步骤:将待标注语料集输入预先构建的标注模型,输出对待标注语料集的标注结果。标注模型的构建方式可以参照标签预测模型的构建。在步骤352中,接收多方并行执行所述标注任务返回的标注结果。多台标注设备或多个标注人员所属终端设备,并行执行标注任务获得标注结果,并将标注结果返回至服务器,服务器接收多台标注设备或多个标注人员所属终端设备返回的标注结果。与标注任务对应,标注结果可以是意图标注结果、ner标注结果、槽位标注结果或分词标注结果。在一种示例性实施例中,待标注语料集包括已知标签信息的多条埋点语句;埋点语句是指已知准确标注结果的查询语句,为与多方对埋点语句的标注结果进行区分,埋点语句的准确标注结果称为标签信息,如图10所示,上述步骤370具体包括:在步骤371中,根据多方对所述多条埋点语句的标注结果,比较所述多条埋点语句的标注结果与对应标签信息是否一致,计算得到多方标注结果的准确率;需要说明的是,在根据多方标注结果对待标注语料集进行筛选时,需要先判断每个标注方的标注结果准确率,从而去除准确率较低的标注方提供的标注结果。多方标注结果的准确率是指每一标注方对多条埋点语句进行标注的准确性,通过对埋点语句标注准确性的计算用于评估当前标注方的标注准确率。在标注过程中,采用“埋点”的方式对每一个标注方进行了准确率校验。其中,可以是从上一批标注完成的数据集中抽取5%多人一致的查询语句作为当前批次已知标签信息的多条埋点语句。针对每个标注方,可以根据该标注方对已知标签信息的多条埋点语句的标注结果,并且比较该多条埋点语句的标注结果与已知标签信息是否一致,计算出标注结果与标签信息一致的占比,得到该标注方的标注结果准确率。在步骤372中,根据所述多方标注结果的准确率,从多方来源中剔除准确率不达标的标注结果来源。具体的,可以设定阈值,根据每个用户的标注结果准确率,准确率小于阈值的标注方可以认为是提供了准确率不达标的标注结果。由此可以删除这类准确率小于阈值的标注方提供的标注结果。或者,按照每个标注方的标注结果准确率,对所有标注方进行准确率由高到低进行排序,排序靠后的若干标注方可以认为是准确率不达标的标注方。由此,可以去除准确率不达标的标注方提供的标注结果。在步骤373中,根据余下来源的标注结果,从所述待标注语料集中筛选出多来源标注结果相似的查询语句。余下来源的标注结果是指从多方提供的标注结果中,删除准确率不达标的标注方提供标注结果后,剩余标注方对待标注语料集的标注结果。也就说,后续从待标注语料集中筛选出多方标注结果相似的查询语句时,不再根据不达标的标注方提供的标注结果。根据余下准确率较高的标注方对待标注语料集的标注结果,从待标注语料集中筛选出多个标注方标注结果相似的查询语句。在一种示例性实施例中,如图11所示,本发明提供的语料标注集的生成方法还包括:在步骤1101中,根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果不一致的查询语句;需要说明的是,边界样本对于模型优化、刻画出更清晰的分类边界帮助很大。其中,边界样本可以从多方不一致的样本中筛选出来使用。具体的,服务器可以根据多方对同一条查询语句的标注结果,从待标注语料集中筛选出多方标注结果不一致的查询语句。在步骤1102中,从所述标注结果不一致的查询语句中获取多标签的查询语句,获得用于进行数据分析模型优化的边界样本点。针对多个用户标注结果不一致的查询语句,通过审核人员审核可以从中获取多标签的查询语句(即可以有多个标注结果的查询语句),这类多标签的查询语句可以认为是边界样本点,这类查询语句的识别难度较大,所以如果模型可以准确识别这类查询语句的意图、槽位等,将大大提高模型的准确率。数据分析模型可以是意图识别模型、命名实体识别模型、槽位标注模型、分词模型等。通过这类查询语句进行数据分析模型的优化,可以提高模型的识别准确率。例如,“今天心情不佳,请给我来一首舒缓的歌曲。”该查询语句其意图即包含了闲聊意图也包含了音乐点播意图,该样本属于意图分类的边界性样本,能帮助模型训练出准确的意图边界。下述为本发明装置实施例,可以用于执行本发明上述服务器110执行的语料标注集的生成方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明语料标注集的生成方法实施例。图12是根据一示例性实施例示出的一种语料标注集的生成装置的框图,该语料标注集的生成装置可以用于图1所示实施环境的服务器110中,执行图3、图7-图11任一所示的语料标注集的生成方法的全部或者部分步骤。如图12所示,该装置包括但不限于:日志获取模块1210、语料集获得模块1230、结果获取模块1250、语句筛选模块1270以及标注集生成模块1290。日志获取模块1210,用于获取查询日志;所述查询日志包括查询语句;语料集获得模块1230,用于从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;结果获取模块1250,用于获取多方对所述待标注语料集中查询语句的标注结果;语句筛选模块1270,用于根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;标注集生成模块1290,用于由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。上述装置中各个模块的功能和作用的实现过程具体详见上述语料标注集的生成方法中对应步骤的实现过程,在此不再赘述。日志获取模块1210比如可以是图2中的某一个物理结构有线或无线网络接口250。语料集获得模块1230、结果获取模块1250、语句筛选模块1270以及标注集生成模块1290也可以是功能模块,用于执行上述语料标注集的生成方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央理器222所执行的存储在存储器232中的程序。在一种示例性实施例中,如图13所示,所述语料集获得模块1230包括:语句去除单元1231,用于去除所述查询日志中不满足预设条件的查询语句;标签预测单元1232,用于将所述查询日志中剩余的查询语句,输入已构建的多个标签预测模型,输出多个标签预测模型对同一查询语句的标签预测结果;所述多个标签预测模型通过采用不同的训练样本集训练得到;语句提取单元1233,用于单元根据所述多个标签预测模型对同一查询语句的标签预测结果,从所述剩余的查询语句中筛选出标签预测结果不一致的查询语句,得到所述待标注语料集。在一种示例性实施例中,所述语句去除单元1231包括:分类去除子单元,用于通过已构建的分类器对所述查询日志中记录的查询语句进行分类,并去除分类得到的无意义的查询语句。在一种示例性实施例中,所述语句去除单元1231还包括:第一去除子单元,用于根据已标注的查询语句集合,去除所述查询日志中已标注的查询语句以及与已标注查询语句相似的查询语句。在一种示例性实施例中,所述语句去除单元1231还包括:第二去除子单元,用于去除所述查询日志中仅包含单个实体词的查询语句、语句长度大于预设字符数量的查询语句或者重复的查询语句。在一种示例性实施例中,如图14所示,所述结果获取模块1250包括:任务派发单元1251,用于向多方派发对所述待标注语料集的标注任务,所述标注任务的派发,触发多方并行执行所述标注任务;结果接收单元1252,用于接收多方并行执行所述标注任务返回的标注结果。其中,标注任务的派发,触发多方并行执行所述标注任务,包括:所述标注任务的派发,触发多方并行将所述待标注语料集输入自身配置的标注模型,输出各自对所述待标注语料集的标注结果;其中,多方配置的标注模型采用不同的训练样本集训练得到。在一种示例性实施例中,所述待标注语料集包括已知标签信息的多条埋点语句;如图15所示,所述语句筛选模块1270包括:准确率计算单元1271,用于根据多方对所述多条埋点语句的标注结果,比较所述多条埋点语句的标注结果与对应标签信息是否一致,计算得到多方标注结果的准确率;来源剔除单元1272,用于根据所述多方标注结果的准确率,从多方来源中剔除准确率不达标的标注结果来源;语句筛选单元1273,用于根据余下来源的标注结果,从所述待标注语料集中筛选出多来源标注结果相似的查询语句。可选的,本发明还提供一种电子设备,该电子设备可以用于图1所示实施环境的服务器110中,执行图3、图7-图11任一所示的语料标注集的生成方法的全部或者部分步骤。所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述示例性实施例所述的语料标注集的生成方法。该实施例中电子设备的处理器执行操作的具体方式已经在有关该语料标注集的生成方法的实施例中执行了详细描述,此处将不做详细阐述说明。在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序,所述计算机程序可由服务器200的中央处理器222执行以完成上述语料标注集的生成方法。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1