问答模型的训练方法、问答方法及装置

文档序号:31187622发布日期:2022-08-19 22:47阅读:50来源:国知局
问答模型的训练方法、问答方法及装置1.本技术要求于2021年04月15日提交中国专利局、申请号为202110401999.0、申请名称为“一种基于互信息的自动问答方法及系统”的中国专利申请的优先权,其全部内容通过引用结合在本技术中。
技术领域
:2.本技术涉及人工智能领域,特别涉及一种问答模型的训练方法、模型的训练方法、问答方法、数据处理方法及装置。
背景技术
::3.人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。4.监督学习是机器学习领域一种常见的训练方式。在强监督的训练场景下可以通过大量训练样本构建推理模型,每个训练样本均具有可靠的真值标签。然而由于数据标注过程的成本较高,很多任务难以获得可靠的真值标签。弱监督的训练场景使得训练数据的收集过程得以简化,但会影响模型的训练效果。5.自然语言处理是人工智能领域的一个重要的研究方向,以自然语言处理为例,很多自然语言处理任务可以建模成问答模型。问答模型的训练通常是在弱监督场景下进行的,即,在没有给定问题的推理方案的情况下,利用给定的答案进行学习。对于一个问题,可能存在一些有害的推理方案恰巧能够得到正确答案,但这些有害的推理方案并不是在真正回答这个问题。若问答模型学习到有害的推理方案,则会对模型的训练效果产生负面的影响。例如,训练好的模型可能会给出不合理的推理方案,甚至给出不正确的答案。6.因此,如何提高弱监督场景下模型的训练效果成为一个亟待解决的问题。技术实现要素:7.本技术提供一种问答模型的训练方法、模型的训练方法、问答方法、数据处理方法及装置,能够缓解有害的推理方案对模型训练的负面影响,提高模型的训练效果,有利于得到正确推理方案。8.第一方面,提供了一种问答模型的训练方法,包括:获取训练样本和训练样本对应的候选推理方案集合,训练样本包括问题和问题的条件信息,候选推理方案集合中的候选推理方案的执行结果为问题的答案;根据问题重构模型的预测结果确定第一候选推理方案,第一候选推理方案属于候选推理方案集合,问题重构模型用于根据问题的条件信息和多个候选推理方案获取问题重构模型的预测结果,问题重构模型的预测结果用于指示基于问题的条件信息和多个候选推理方案重构出问题的评价值;基于训练样本和第一候选推理方案训练问答模型,多个候选推理方案属于候选推理方案集合。9.换言之,问题重构模型的预测结果用于指示基于问题的条件信息和多个候选推理方案重构出问题的评价值。该多个候选推理方案即对应多个评价值。10.根据本技术实施例的方案,利用问题重构模型指导问答模型预测出与问题一致性较好的合理的推理方案,以提高问答模型的训练效果。具体地,本技术实施例的方案通过问题重构模型的预测结果表示候选推理方案和问题之间的语义相关性,根据语义相关性的强度确定候选推理方案训练问答模型,和问题之间的语义相关度较强的候选推理方案更有可能为正确推理方案,从而有利于缓解有害的推理方案带来的影响,提高训练效果。11.对于不同的问答模型,条件信息可以是不同类型的数据。12.结合第一方面,在第一方面的某些实现方式中,条件信息包括与问题关联的文档。13.例如,对于多词阅读理解任务或离散推理任务,条件信息可以包括一个文档或多个文档。再如,对于基于表格的语义解析任务,条件信息可以包括表格的表头。表头也可以理解为一种文档。14.推理方案可以理解为对答案的求解过程,执行该求解过程即可得到答案。15.对于不同的问答模型,候选推理方案可以是不同类型的数据。16.例如,在阅读理解任务中,候选推理方案可以为文档中的一个特定的跨度(span)。再如,在离散推理任务中,候选推理方案可以为一个算式。再如,在语义分析任务中,候选推理方案可以为一个结构化查询语言(structuredquerylanguage,sql)语句。17.结合第一方面,在第一方面的某些实现方式中,训练方法还包括:根据问答模型的预测结果确定第二候选推理方案,第二候选推理方案属于候选推理方案集合,根据问题和问题的条件信息获取问答模型的预测结果,问答模型的预测结果用于指示多个候选推理方案为正确推理方案的评价值,多个候选推理方案属于候选推理方案集合;基于训练样本和第二候选推理方案训练问题重构模型。18.换言之,问答模型的预测结果用于指示候选推理方案为正确推理方案的评价值。多个候选推理方案对应多个评价值。19.输入至问答模型的多个候选推理方案与输入至问题重构模型的多个候选推理方案可以相同,也可以不同。20.问答模型和问题重构模型交替训练,即基于问题重构模型的预测结果训练问答模型,基于问答模型的预测结果训练问题重构模型。21.在本技术实施例中,根据问答模型的预测结果确定第二候选推理方案训练问题重构模型,能够提高问题重构模型的训练效果,以使问题重构模型能够更准确地重构问题。22.结合第一方面,在第一方面的某些实现方式中,问题重构模型的预测结果包括基于问题的条件信息和多个候选推理方案重构出问题的预测概率,基于问题的条件信息和第一候选推理方案重构出问题的预测概率大于或等于基于问题的条件信息和其他候选推理方案重构出问题的预测概率。23.根据本技术实施例的方案,第一候选推理方案为基于问题重构模型确定的与问题的语义相关性最强的候选推理方案,即基于问题重构模型得到的最优的候选推理方案训练问答模型,即采用贪心的优化方式训练问答模型,能够使得训练过程更加稳定。24.结合第一方面,在第一方面的某些实现方式中,基于问答模型的预测结果确定第二候选推理方案,包括:基于问答模型的预测结果采样得到第二候选推理方案。25.结合第一方面,在第一方面的某些实现方式中,候选推理方案中的第一字符串是以占位符的形式输入至问题重构模型中的,第一字符串是来自条件信息中的第二字符串,占位符在问题重构模型中的表示是根据第二字符串的上下文的表示确定的,第二字符串为条件信息中的关键字。26.根据本技术实施例的方案,将候选推理方案中的来自条件信息的字符串替换为占位符,该占位符在问题重构模型中的表示通过该第二字符串的上下文的表示确定,这样,不会丢失上下文语义,使得相同字面形式的字符串能够被有效区分,有利于提高问题重构模型的预测准确性。27.结合第一方面,在第一方面的某些实现方式中,占位符在问题重构模型中的表示是通过注意力掩码实现的,注意力掩码用于使占位符关注第二字符串的上下文的表示。28.换言之,占位符在问题重构模型中的表示是通过注意力掩码使占位符关注第二字符串的上下文的表示确定的。29.第二方面,提供了一种模型的训练方法,包括:获取训练样本和训练样本对应的候选标签集合,候选标签集合包括多个候选标签;根据评价模型的预测结果确定第一候选标签,第一候选标签属于候选标签集合,其中,评价模型的预测结果用于指示基于候选标签重构出训练样本的评价值;基于训练样本和第一候选标签训练推理模型。30.本技术实施例的方案中,利用评价模型指导推理模型预测出与训练样本的一致性较好的合理的标签,以提高推理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和训练样本之间的相关性,根据相关性的强度确定候选标签训练推理模型,和训练样本之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果。31.训练样本以及候选标签的类型与推理模型的任务类型相关。32.示例性地,推理模型用于图像处理任务,训练样本可以为图像数据。具体地,图像处理任务可以包括图像分类、图像检测、图像分割、图像识别、图像生成、图像超分、图像降噪或目标检测等。33.示例性地,推理模型可以用于文本处理任务,训练样本可以为文本数据。具体地,文本处理任务可以包括阅读理解、离散推理、语义解析、文本识别或文本翻译等。34.示例性地,推理模型用于音频处理任务,训练样本可以为音频数据。具体地,音频处理任务包括语音识别或声纹识别等。35.评价模型可以是基于重构模型或生成模型确定的。36.结合第二方面,在第二方面的某些实现方式中,方法还包括:根据推理模型的预测结果确定第二候选标签,第二候选标签属于候选标签集合,其中,推理模型的预测结果用于指示候选标签为正确标签的评价值;基于训练样本和第二候选标签训练评价模型。37.推理模型和评价模型交替训练,即基于评价模型的预测结果训练推理模型,基于推理模型的预测结果训练评价模型。38.在本技术实施例中,根据推理模型的预测结果确定第二候选标签训练评价模型,能够提高评价模型的训练效果,以使评价模型能够更准确地重构训练样本。39.结合第二方面,在第二方面的某些实现方式中,评价模型的预测结果为基于候选标签重构出训练样本的预测概率,基于第一候选标签重构出训练样本的预测概率大于或等于基于其他候选标签重构出训练样本的预测概率。40.根据本技术实施例的方案,第一候选标签为基于评价模型确定的与训练样本的相关性最强的候选标签,基于评价模型得到的最优的候选标签训练推理模型,即采用贪心的优化方式训练推理模型,能够使得训练过程更加稳定。41.结合第二方面,在第二方面的某些实现方式中,根据推理模型的预测结果确定第二候选标签,包括:根据推理模型的预测结果采样得到第二候选标签。42.结合第二方面,在第二方面的某些实现方式中,训练样本包括图像数据、文本数据或音频数据。43.第三方面,提供了一种图像处理模型的训练方法,包括:获取样本图像和样本图像对应的候选标签集合,候选标签集合包括多个候选标签;根据评价模型的预测结果确定第一候选标签,第一候选标签属于候选标签集合;基于样本图像和第一候选标签训练图像处理模型。44.本技术实施例的方案中,利用评价模型指导图像处理模型预测出与样本图像的一致性较好的合理的标签,以提高图像处理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和样本图像之间的相关性,根据相关性的强度确定候选标签训练图像处理模型,和样本图像之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果。45.结合第三方面,在第三方面的某些实现方式中,该方法还包括:根据图像处理模型的预测结果确定第二候选标签,第二候选标签属于候选标签集合;基于样本图像和第二候选标签训练评价模型。46.在本技术实施例中,根据图像处理模型的预测结果确定第二候选标签训练评价模型,能够提高评价模型的训练效果,以使评价模型能够更准确地重构样本图像。47.结合第三方面,在第三方面的某些实现方式中,评价模型的预测结果包括评价模型基于候选标签重构出样本图像的预测概率。其中,评价模型基于第一候选标签重构出该样本图像的预测概率大于或等于评价模型基于其他候选标签重构出该样本图像的预测概率。48.根据本技术实施例的方案,可以基于评价模型得到的最优的候选标签训练图像处理模型,即采用贪心的优化方式训练图像处理模型,能够使得训练过程更加稳定。49.结合第三方面,在第三方面的某些实现方式中,根据图像处理模型的预测结果采样得到第二候选标签。50.第四方面,提供了一种问答方法,包括:获取待处理问题和待处理问题的条件信息;利用问答模型对待处理问题和待处理问题的条件信息进行处理,以预测待处理问题的答案,其中,问答模型是基于训练样本和第一候选推理方案训练得到的,训练样本包括问题和问题的条件信息,第一候选推理方案是根据问题重构模型的预测结果确定的,第一候选推理方案属于候选推理方案集合,问题重构模型用于指示根据问题的条件信息和多个候选推理方案获取问题重构模型的预测结果,问题重构模型的预测结果用于指示基于问题的条件信息和多个候选推理方案重构出问题的评价值,多个候选推理方案属于候选推理方案集合。51.根据本技术实施例的方案,利用问题重构模型指导问答模型预测出与问题一致性较好的合理的推理方案,以提高问答模型的训练效果。具体地,本技术实施例的方案通过问题重构模型的预测结果表示候选推理方案和问题之间的语义相关性,根据语义相关性的强度确定候选推理方案训练问答模型,和问题之间的语义相关度较强的候选推理方案更有可能为正确推理方案,从而有利于缓解有害的推理方案带来的影响,提高训练效果。利用该问答模型对待处理的问题进行处理,有利于得到更准确的推理方案,进而得到更准确的方案。52.结合第四方面,在第四方面的某些实现方式中,问题重构模型是基于训练样本和第二候选推理方案训练得到的,第二候选推理方案是根据问答模型的预测结果确定的,第二候选推理方案属于候选推理方案集合,问答模型用于根据问题和问题的条件信息获取问答模型的预测结果,问答模型的预测结果用于指示多个候选推理方案为正确推理方案的评价值,多个候选推理方案属于候选推理方案集合。53.结合第四方面,在第四方面的某些实现方式中,问题重构模型的预测结果包括基于问题的条件信息和多个候选推理方案重构出问题的预测概率,基于问题的条件信息和第一候选推理方案重构出问题的预测概率大于或等于基于问题的条件信息和其他候选推理方案重构出问题的预测概率。54.结合第四方面,在第四方面的某些实现方式中,问题的条件信息包括与问题关联的文档。55.结合第四方面,在第四方面的某些实现方式中,候选推理方案中的第一字符串是以占位符的形式输入至问题重构模型中的,第一字符串是来自条件信息中的第二字符串,占位符在问题重构模型中的表示是根据第二字符串的上下文的表示确定的,第二字符串为条件信息中的关键字。56.结合第四方面,在第四方面的某些实现方式中,占位符在问题重构模型中的表示是通过注意力掩码实现的,注意力掩码用于使占位符关注第二字符串的上下文的表示。57.第五方面,提供了一种数据处理方法,包括:获取待处理的数据;利用推理模型对待处理的数据进行处理,以得到待处理的数据的处理结果,其中,推理模型是基于训练样本和第一候选标签训练得到的,第一候选标签是根据评价模型的预测结果确定的,第一候选标签属于候选标签集合,候选标签集合包括多个候选标签,评价模型的预测结果用于指示基于候选标签重构出训练样本的评价值。58.根据本技术实施例的方案,利用评价模型指导推理模型预测出与训练样本的一致性较好的合理的标签,提高了推理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和训练样本之间的相关性,根据相关性的强度确定候选标签训练推理模型,和训练样本之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果,利用该推理模型对待处理的数据进行处理,有利于得到更准确的预测结果。59.结合第五方面,在第五方面的某些实现方式中,评价模型是基于训练样本和第二候选标签训练得到的,第二候选标签是根据推理模型的预测结果确定的,第二候选标签属于候选标签集合,推理模型的预测结果用于指示候选标签为正确标签的评价值。60.结合第五方面,在第五方面的某些实现方式中,评价模型的预测结果为基于候选标签重构出训练样本的预测概率,基于第一候选标签重构出训练样本的预测概率大于或等于基于其他候选标签重构出训练样本的预测概率。61.结合第五方面,在第五方面的某些实现方式中,第二候选标签是根据推理模型的预测结果采样得到的。62.结合第五方面,在第五方面的某些实现方式中,待处理的数据包括图像数据、文本数据或音频数据。63.第六方面,提供了一种图像处理方法,包括:获取待处理图像;利用图像处理模型对待处理图像进行处理,以得到待处理图像的处理结果。其中,图像处理模型是基于样本图像和第一候选标签训练得到的,第一候选标签是根据评价模型的预测结果确定的,第一候选标签属于候选标签集合,候选标签集合包括多个候选标签,评价模型的预测结果用于指示基于候选标签重构出样本图像的评价值。64.根据本技术实施例的方案,利用评价模型指导图像处理模型预测出与样本图像的一致性较好的合理的标签,提高了图像处理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和样本图像之间的相关性,根据相关性的强度确定候选标签训练图像处理模型,和样本图像之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果,利用该图像处理模型对待处理图像进行处理,有利于得到更准确的预测结果。65.结合第六方面,在第六方面的某些实现方式中,评价模型是基于样本图像和第二候选标签训练得到的,第二候选标签是根据图像处理模型的预测结果确定的,第二候选标签属于候选标签集合,图像处理模型的预测结果用于指示候选标签为正确标签的评价值。66.结合第六方面,在第六方面的某些实现方式中,评价模型的预测结果为基于候选标签重构出样本图像的预测概率,基于第一候选标签重构出样本图像的预测概率大于或等于基于其他候选标签重构出样本图像的预测概率。67.结合第六方面,在第六方面的某些实现方式中,第二候选标签是根据图像处理模型的预测结果采样得到的。68.第七方面,提供了一种问答模型的训练装置,该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。69.第八方面,提供了一种模型的训练装置,该装置包括用于执行上述第二方面的任意一种实现方式的方法的单元。70.第九方面,提供了一种图像处理模型的训练装置,该装置包括用于执行上述第三方面的任意一种实现方式的方法的单元。71.第十方面,提供了一种问答装置,该装置包括用于执行上述第四方面的任意一种实现方式的方法的单元。72.第十一方面,提供了一种数据处理装置,该装置包括用于执行上述第五方面的任意一种实现方式的方法的单元。73.第十二方面,提供了一种图像处理装置,该装置包括用于执行上述第六方面的任意一种实现方式的方法的单元。74.第十三方面,提供了一种问答模型的训练装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面的任意一种实现方式中的方法。75.上述第十三方面中的处理器既可以是中央处理器(centralprocessingunit,cpu),也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括图形处理器(graphicsprocessingunit,gpu)、神经网络处理器(neural-networkprocessingunit,npu)和张量处理器(tensorprocessingunit,tpu)等等。其中,tpu是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。76.第十四方面,提供了一种模型的训练装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第二方面的任意一种实现方式中的方法。77.上述第十四方面中的处理器既可以是cpu,也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括gpu、npu和tpu等等。78.第十五方面,提供了一种图像处理模型的训练装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第三方面的任意一种实现方式中的方法。79.上述第十五方面中的处理器既可以是cpu,也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括gpu、npu和tpu等等。80.第十六方面,提供了一种问答装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第四方面的任意一种实现方式中的方法。81.上述第十六方面中的处理器既可以是cpu,也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括gpu、npu和tpu等等。82.第十七方面,提供了一种数据处理装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第五方面的任意一种实现方式中的方法。83.上述第十七方面中的处理器既可以是cpu,也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括gpu、npu和tpu等等。84.第十八方面,提供了一种图像处理装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第六方面的任意一种实现方式中的方法。85.上述第十八方面中的处理器既可以是cpu,也可以是cpu与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括gpu、npu和tpu等等。86.第十九方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面至第六方面的任一方面的任意一种实现方式中的方法。87.第二十方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面至第六方面的任一方面的任意一种实现方式中的方法。88.第二十一方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面至第六方面的任一方面的任意一种实现方式中的方法。89.可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面至第六方面的任一方面的任意一种实现方式中的方法。附图说明90.图1是一种阅读理解任务的示意图;91.图2是一种离散推理任务的示意图;92.图3是一种语义解析任务的示意图;93.图4是本技术实施例提供的自然语言处理系统的示意性框图;94.图5是本技术实施例提供的一种系统架构的结构示意图;95.图6是本技术实施例提供的一种模型的训练方法的示意性流程图;96.图7是本技术实施例提供的一种问答模型的训练方法的示意性流程图;97.图8是本技术实施例提供的迭代过程的示意图;98.图9是本技术实施例提供的问题重构模型的输入数据的示意图;99.图10是本技术实施例提供的一种数据处理方法的示意性流程图;100.图11是本技术实施例提供的一种问答方法的示意性流程图;101.图12是本技术实施例提供的一种训练装置的示意性框图;102.图13是本技术实施例提供的一种推理装置的示意性框图;103.图14是本技术实施例提供的另一种训练装置的示意性框图;104.图15是本技术实施例提供的另一种推理装置的示意性框图。具体实施方式105.下面将结合附图,对本技术中的技术方案进行描述。106.强监督的训练场景下可以通过大量的训练样本来构建模型,每个训练样本均标注有可靠的真值标签。然而由于数据标注过程的成本较高,很多任务难以获得真值标签等强监督信息。在该情况下,可以采用弱监督的方式构建模型。107.在一些弱监督的训练场景中,由于标注者的失误或标签本身难以确定等问题的出现,导致训练数据的标签不都是真值,即有些标签为错误的标签。108.问答任务用于根据问题(question)预测该问题对应的正确的推理方案,进而得到问题的正确答案(answer)。然而,由于问题对应的正确推理方案难以获取,训练数据通常只给定问题的答案,没有给定问题对应的正确推理方案。一个问题对应多个候选推理方案,该多个候选推理方案中通常只有一个候选推理方案为正确推理方案,即真值标签。其他的候选推理方案可能恰巧能够得到正确答案,但这些推理方案并不是在真正回答这个问题,这些推理方案被称为有害的推理方案(spurioussolution),即错误的标签。109.例如,如图1所示的多词阅读理解(multi-mentionreadingcomprehension)任务中,正确答案为“creightonward”,但该文档中只有第三个“creightonward”才是正确推理方案,文档中的其他“creightonward”与问题均无关。110.再如,如图2所示的离散推理(discretereasoning)任务中,问题的推理方案依赖于符号化的操作,例如,在图2中依赖于减法操作。图2示出了两个可能的推理方案(possiblesolutions),这两个推理方案均能得到正确答案,即两年。但在这两个推理方案中,第一推理方案采用文档中的第一个1876,只有第一个是正确的推理方案。第二个推理方案采用文档中的第二个1876,而第二个1876与问题无关。换言之,第一个推理方案为正确推理方案,第二个推理方案是有害的推理方案。111.再如,如图3所示的语义解析(semanticparsing)任务中,自然语言表达的问题需要转换为对数据库进行查询的sql语句。图3示出了两个可能的推理方案,这两个推理方案均能得到正确答案,但只有第一个推理方案是正确推理方案,第二个推理方案是有害的推理方案。112.众包(crowdsourcing)模式是为训练数据收集标签的一种常见的方式。具体而言,未标注的数据被外包给大量的人员去标注。这些人员根据自己的判断提供标签,标签的可靠性难以保证。甚至可能存在“垃圾制造者”,随机提供标签,或者,存在“反抗者”,故意提供错误答案等。113.例如,图像分类模型的训练数据包括样本图像和该样本图像的真值标签,该真值标签用于指示样本图像中的物体的真实类别。将样本图像的标注工作外包后,一个样本图像对应多个标签,该多个标签可能包括大量不可靠的标签,即错误的标签。错误的标签无法用于指示样本图像中的物体的真实类别。114.本技术实施例的方案可以应用于弱监督的训练场景中,以提高模型的训练效果。115.具体地,本技术实施例可以具体应用在图像处理、音频处理和自然语言处理等需要进行弱监督训练的场景中。116.下面对自然语言处理和图像处理这两种场景进行简单的介绍。117.自然语言处理:118.自然语言处理是人工智能领域的一个重要的研究方向,能够让人机之间通过自然语言进行交互。很多自然语言处理任务可以被建模为问答任务。问答任务可以由问答模型执行。换言之,很多自然语言处理任务可以由问答模型执行。例如,自然语言处理任务中的阅读理解任务、离散推理任务以及语义解析任务等均可以建模为问答任务。利用本技术实施例的方案训练得到的问答模型可以用于执行上述任务,得到对应的任务执行结果。119.在本技术实施例中,问答模型也可以称为问答系统。120.图像处理:121.图像处理任务包括图像分类、图像超分、图像降噪、图像检测、图像语义分割、图像识别或目标检测等。122.以图像分类为例,当用户在终端设备(例如,手机)或者云盘上存储了大量的图片时,通过对相册中图像进行识别可以方便用户或者系统对相册进行分类管理,提升用户体验。123.利用本技术实施例的方案,能够提高训练效果,有利于为不同的类别的图片打上准确的标签,便于用户查看和查找。另外,这些图片的分类标签也可以提供给相册管理系统进行分类管理,节省用户的管理时间,提高相册管理的效率,提升用户体验。124.下面从模型训练侧和模型应用侧对本技术提供的方法进行描述。125.本技术实施例提供的模型的训练方法,具体可以应用数据训练、机器学习、深度学习等数据处理方法,对训练样本进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的模型。例如,本技术的训练样本可以包括问题、问题的条件信息和问题对应的多个候选推理方案。在训练阶段,该多个候选推理方案的执行结果为该问题的答案。并且,本技术实施例提供的方法可以运用上述训练好的模型,将输入数据,例如,本技术中的待处理的问题、待处理的问题的条件信息以及待处理的问题对应的多个推理方案,输入到训练好的问答模型中,得到输出数据,例如,该多个推理方案的置信概率。根据置信概率从该多个推理方案中选择一个推理方案,基于该推理方案即可得到待处理的问题的答案。需要说明的是,在推理阶段,该多个推理方案的执行结果不一定为该问题的答案。126.需要说明的是,本技术实施例提供的模型的训练方法和数据处理方法是基于同一个构思产生的发明,也可以理解为一个系统中的两个部分,或一个整体流程的两个阶段:如模型训练阶段和模型应用阶段。127.为了便于理解本技术实施例,下面先对本技术实施例涉及的相关术语的相关概念进行介绍。128.(1)神经网络129.神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以如下所示:[0130][0131]其中,s=1、2、……n,n为大于1的自然数,ws为xs的权重,b为神经单元的偏置。[0132]f为神经单元的激活函数(activationfunctions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号变换为输出信号。该激活函数的输出信号可以作为下一层的输入。例如,激活函数可以是relu,tanh或sigmoid函数。[0133]神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。[0134](2)深度神经网络[0135]深度神经网络(deepneuralnetwork,dnn),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对dnn进行划分,dnn内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。[0136]虽然dnn看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,w是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量。由于dnn层数多,系数w和偏移向量的数量也比较多。这些参数在dnn中的定义如下所述:以系数w为例:假设在一个三层的dnn中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数w所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。[0137]综上,第l-1层的第k个神经元到第l层的第j个神经元的系数定义为[0138]需要注意的是,输入层是没有w参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量w形成的权重矩阵)。[0139](3)损失函数[0140]在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(lossfunction)或目标函数(objectivefunction),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。[0141](4)反向传播算法[0142]神经网络可以采用误差反向传播(backpropagation,bp)算法在训练过程中修正初始的神经网络模型中参数的数值,使得神经网络模型的重构误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。[0143](5)语义解析任务[0144]语义解析任务指的是将自然语言换为机器可执行的逻辑语言(例如,prolog,sql,python)的任务。例如,一个自然语言的问题可以被转换为一个sql语句,这个sql语句可以用于查询数据块以得到该问题的结果。[0145]如前所述,本技术实施例的方案可以应用于自然语言处理系统中。图4的(a)示出了自然语言处理系统的一种应用场景。在该场景中,自然语言处理系统包括用户设备以及数据处理设备。用户设备包括用户以及手机、个人电脑或者信息处理中心等智能终端。用户设备为自然语言数据处理的发起端,作为语言问答或者查询等请求的发起方,通常用户通过用户设备发起请求。[0146]数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等问句,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习,深度学习,搜索,推理,决策等方式的语言数据处理。存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以位于数据处理设备上,也可以位于其它网络服务器上。[0147]图4的(b)示出了自然语言处理系统的另一个应用场景。此场景中用户设备直接作为数据处理设备,直接接收来自用户的输入并直接由用户设备本身的硬件进行处理,具体过程与图4的(a)相似,可参考上面的描述,在此不再赘述。[0148]图4的(c)示出了自然语言处理系统的又一应用场景。自然语言处理系统可以包括本地设备101、本地设备102以及执行设备110和数据存储系统150,其中,本地设备101和本地设备102通过通信网络与执行设备110连接。[0149]执行设备110由一个或多个服务器实现,可选的,与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备;执行设备110可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备110可以使用数据存储系统150中的数据,或者调用数据存储系统150中的程序代码实现本技术实施例的问答模型的训练方法以及数据处理方法。[0150]需要说明的是,上述执行设备110也可以称为云端设备,此时执行设备110可以部署在云端,执行设备110执行的训练方法可以是在云端执行的训练方法。[0151]用户可以操作各自的用户设备(例如本地设备101和本地设备102)与执行设备110进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。[0152]每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备110进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。[0153]数据存储系统150可以集成在执行设备110、本地设备101或本地设备102上,也可以设置在云上或其它网络服务器上。[0154]在一种实现方式中,本地设备101或本地设备102可以从执行设备110获取到问答模型的相关参数,本地设备101、本地设备102上利用该问答模型得到问答任务的执行结果。[0155]在另一种实现方式中,执行设备110上可以直接部署问答模型,执行设备110通过从本地设备101和本地设备102获取待处理的问题以及条件信息,并通过问答模型得到问答任务的执行结果。[0156]图4的(a)和图4的(b)中的用户设备可以是图4的(c)中的本地设备101或102,图4的(a)和图4的(b)中的数据处理设备可以是图4的(c)中的执行设备110。[0157]图5示出了本技术实施例提供的一种系统架构200。数据采集设备260用于采集训练数据并存入数据库230,训练设备220基于数据库230中维护的训练数据生成目标模型/规则201。训练设备220可以用于执行本技术实施例中的模型的训练方法,以得到目标模型/规则201,例如,本技术实施例中的问答模型,具体过程详见后文中的模型的训练方法。本技术实施例中的模型可以为神经网络模型,或者,也可以为其他模型。[0158]需要说明的是,在实际的应用中,数据库230中维护的训练数据不一定都来自于数据采集设备260的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本技术实施例的限定。[0159]图5所示为数据处理过程中的功能模块图。示例性地,图5中的客户设备240可以是图4的用户设备。在图4中的用户设备数据处理能力比较强大时,图5中的执行设备210以及数据存储系统250可以集成在图4的用户设备内。在一些实施例中,图5中的执行设备210以及数据存储系统250也可以集成在图4中的数据处理设备上。图5中的数据库230、训练设备220以及数据采集设备260可以对应集成在图4中的数据处理设备上,可以设置在云上或网络上的其它服务器上。[0160]示例性地,数据采集设备260可以是终端设备,也可以是服务器或者云的输入输出接口,用于获取用户输入以及返回处理结果的交互层(interface)。[0161]训练设备220得到的目标模型/规则可以应用不同的系统或设备中。如应用于图5所示的执行设备210,该执行设备210可以是终端,如手机终端,平板电脑,笔记本电脑,ar/vr,车载终端等,还可以是服务器或者云端等。在图5中,执行设备210配置有i/o接口212,与外部设备进行数据交互,“用户”可以通过客户设备240向i/o接口212输入数据。[0162]在执行设备210对输入数据进行预处理,或者在执行设备210的计算模块211执行计算等相关的处理过程中,执行设备210可以调用数据存储系统250中的数据、代码等,也可以将数据、指令等存入数据存储系统250中。[0163]最后,i/o接口212将处理结果返回给客户设备240,提供给用户。[0164]值得说明的是,训练设备220可以针对不同的目标,基于不同的数据生成相应的目标模型/规则201,以给用户提供更佳的结果。[0165]在图5中所示情况下,用户可以手动指定输入执行设备210中的数据,例如,在i/o接口212提供的界面中操作。另一种情况下,客户设备240可以自动地向i/o接口212输入数据并获得结果,如果客户设备240自动输入数据需要获得用户的授权,用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到的数据存入数据库230。[0166]值得注意的,图5仅是本技术实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图5中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中。[0167]弱监督的训练场景使得训练数据的收集过程得以简化,但会影响模型的训练效果。以问答模型的弱监督的训练场景为例,若问答模型学习到有害的推理方案,则会对模型的训练效果产生负面的影响。例如,训练好的模型可能会给出不合理的推理方案,甚至给出不正确的答案。[0168]本技术实施例提供了一种模型的训练方法,利用训练样本和候选标签之间的相关性训练推理模型,有利于提高弱监督训练场景下的训练效果。[0169]图6示出了本技术实施例提供的一种模型的训练方法600,图6所示的方法可以由模型的训练装置来执行,该训练装置可以是云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行模型的训练方法的装置,也可以是由云服务设备和终端设备构成的系统。[0170]示例性地,方法600可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的训练设备220中的任一设备执行。[0171]例如,方法600具体可以由如图5所示的训练设备220执行,方法600中的训练数据可以是如图5所示的数据库230中维护的训练数据。[0172]方法600中的模型可以为神经网络模型,也可以为其他模型。该神经网络模型可以是现有的神经网络模型,例如,cnn模型、残差网络模型或循环神经网络模型等。或者,本申请实施例中的神经网络模型也可以用户自行构建的,本技术实施例对此不做限定。[0173]方法600包括步骤s610至步骤s650。[0174]s610,获取训练样本和训练样本对应的候选标签集合,候选标签集合包括多个候选标签。[0175]应理解,该多个候选标签中可能包括错误的标签。[0176]训练样本可以为一个,也可以为多个。[0177]可选地,训练样本可以包括图像数据、文本数据或语音数据等。[0178]本技术实施例的方案能够用于训练不同的推理模型,以执行不同的任务。推理模型可以为神经网络模型,也可以为其他模型,训练样本以及候选标签的类型与推理模型的任务类型相关。[0179]下面对不同任务中的训练样本以及候选标签进行举例说明。[0180]在一种可能的实现方式中,推理模型用于图像处理任务,训练样本可以为图像数据。具体地,图像处理任务可以包括图像分类、图像检测、图像分割、图像识别、图像生成、图像超分、图像降噪或目标检测等。[0181]例如,在图像分类任务中,推理模型为图像分类模型。训练样本为图像数据,训练样本的真值标签用于指示样本图像中的物体的真实类别。需要说明的是,该训练样本的多个候选标签中可能包括错误的标签,换言之,候选标签所指示的信息不一定是样本图像中的物体的真实类别。[0182]再如,在目标检测任务中,推理模型为目标检测模型。训练样本为图像数据,训练样本的真值标签用于指示样本图像中的物体的真实类别以及该物体的坐标。需要说明的是,该训练样本的多个候选标签中可能包括错误的标签,换言之,候选标签所指示的信息不一定是样本图像中的物体的真实类别,也不一定是该物体的真实坐标。[0183]再如,在图像超分任务中,推理模型为图像超分模型。训练样本为图像数据,训练样本对应的多个候选标签可以包括多个候选图像。训练样本的真实标签可以为样本图像对应的高分辨率图像。需要说明的是,该训练样本的多个候选标签中可能包括错误的标签,换言之,候选图像不一定是样本图像对应的高分辨率图像。[0184]在另一种可能的实现方式中,推理模型可以用于文本处理任务,训练样本可以为文本数据。具体地,文本处理任务可以包括阅读理解、离散推理、语义解析、文本识别或文本翻译等。[0185]例如,阅读理解、离散推理、语义解析等文本处理任务可以被建模为问答任务。在问答任务中,训练样本为文本数据,训练样本对应的多个候选标签即为问题对应的多个候选推理方案,真值标签即为问题对应的正确推理方案。需要说明的是,该训练样本的多个候选标签中可能包括错误的标签,换言之,候选推理方案不一定是问题对应的正确推理方案。[0186]在另一种可能的实现方式中,推理模型用于音频处理任务,训练样本可以为音频数据。具体地,音频处理任务包括语音识别或声纹识别等。[0187]应理解,以上仅为示例,不对本技术实施例的方案构成限定,训练样本以及候选标签的类型可以根据需要设定。[0188]示例性地,获取训练样本可以为从本地读取训练样本,或者,也可以为从其他设备接收训练样本。本技术实施例对训练样本的获取方式不做限定。[0189]训练样本和该训练样本对应的候选标签集合可以用于训练推理模型。[0190]训练样本和该训练样本对应的候选标签集合还可以用于训练评价模型。[0191]为了更好地说明本技术实施例的方法600,下面先对推理模型和评价模型进行说明。[0192]推理模型用于预测训练样本所对应的正确标签。[0193]具体来说,训练的目标为得到一个训练好的推理模型,使得该训练好的推理模型在测试阶段,以待处理的数据作为输入,输出标签的指示信息,该标签为正确标签。示例性地,标签的指示信息可以为标签本身。或者,标签的指示信息也可以包括多个标签的置信概率,该多个标签中置信概率最大的标签为正确标签。[0194]在推理阶段,推理模型以待处理的数据作为输入,预测正确标签。[0195]在训练阶段,推理模型可以用于基于训练样本预测候选标签是否为正确标签。推理模型的预测结果即为推理模型对候选标签是否为正确标签的预测。或者说,推理模型的预测结果用于指示候选标签为正确标签的评价值,该评价值即用于评价候选标签为正确标签的可靠性程度。[0196]示例性地,推理模型的预测结果可以表示为概率值,也就是利用概率值表示候选标签为正确标签的可靠性程度。[0197]例如,推理模型的预测结果可以包括候选标签的第二置信概率,候选标签的第二置信概率表示由该推理模型预测得到的基于训练样本得到该候选标签的预测概率。[0198]候选标签的第二置信概率越高,则推理模型基于训练样本得到该候选标签的可能性越高,或者说,推理模型基于训练样本预测该候选标签的可靠性程度越高。[0199]示例性地,推理模型的预测结果可以表示为分数,也就是利用分数表示候选标签为正确标签的可靠性程度。[0200]例如,推理模型的预测结果可以包括候选标签的第二分数,候选标签的第二分数用于指示由该推理模型预测得到的基于训练样本得到该候选标签的可能性。[0201]候选标签的第二分数越高,则推理模型基于训练样本得到该候选标签的可能性越高,或者说,推理模型基于训练样本预测该候选标签的可靠性程度越高。[0202]本技术实施例对推理模型的预测结果的形式不作任何限定。[0203]评价模型可以用于预测基于候选标签是否能重构出该训练样本。或者说,评价模型可以用于基于候选标签重构训练样本。[0204]评价模型可以是基于重构模型或生成模型确定的。[0205]示例性地,在推理模型用于图像处理任务的情况下,评价模型可以是基于图像重构模型或图像生成模型确定的。[0206]示例性地,在推理模型用于音频处理任务的情况下,评价模型可以是基于音频重构模型或音频生成模型确定的。[0207]评价模型的预测结果即为评价模型对基于候选标签是否能重构出该训练样本的预测。或者说,评价模型的预测结果用于指示基于候选标签重构出该训练样本的评价值,该评价值即用于评价重构出该训练样本的可能性。[0208]评价模型的预测结果能够反映训练样本和候选标签之间的关联度。重构出该训练样本的可能性越高,则说明训练样本和候选标签的关联度越强的可能性越大,该候选标签越有可能为正确标签。[0209]示例性地,评价模型的预测结果可以表示为概率值,也就是利用概率值表示能够重构出该训练样本的可能性,或者说,利用概率值表示重构出的训练样本为该训练样本的可能性。[0210]例如,评价模型的预测结果可以包括候选标签的第一置信概率,候选标签的第一置信概率表示由评价模型预测得到的通过候选标签重构出该训练样本的预测概率。[0211]候选标签的第一置信概率越高,则评价模型基于该候选标签重构出该训练样本的可能性越高。[0212]示例性地,评价模型的预测结果可以表示为分数,也就是利用分数表示能够重构出该训练样本的可能性。或者,基于重构出的训练样本打分,利用该分数表示重构出的训练样本为该训练样本的可能性。[0213]例如,评价模型的预测结果可以包括候选标签的第一分数,候选标签的第一分数指示由评价模型预测得到的通过该候选标签重构出该训练样本的可能性。[0214]候选标签的第一分数越高,则评价模型基于候选标签重构出该训练样本的可能性越高。[0215]本技术实施例对评价模型的预测结果的表现形式不做任何限定。[0216]示例性地,获取训练样本可以为从本地读取训练样本,或者,也可以为从其他设备接收训练样本。本技术实施例对训练样本的获取方式不做限定。[0217]s620,根据评价模型的预测结果确定第一候选标签,第一候选标签属于候选标签集合。[0218]s630,基于训练样本和第一候选标签训练推理模型。[0219]也就是说,将评价模型的预测结果作为该多个候选标签的评价标准。根据评价模型对基于该多个候选标签是否能重构出训练样本的预测,确定第一候选标签。[0220]如前所述,评价模型的预测结果能够反映训练样本和候选标签之间的关联度。也就是说,步骤s620可以理解为,根据训练样本和候选标签之间的关联度确定第一候选标签。[0221]需要说明的是,第一候选标签可以为一个,也可以为多个。本技术实施例对第一候选标签的数量不做限定。[0222]具体地,步骤s620可以包括:将候选标签输入至评价模型中,以得到评价模型的预测结果。[0223]在一种可能的实现方式中,步骤s620可以包括:将候选标签集合的第一子集的多个候选标签输入至评价模型中,以得到评价模型的预测结果,基于评价模型的预测结果从第一子集中确定第一候选标签。[0224]需要说明的是,候选标签集合自身也可以视为候选标签集合的第一子集。[0225]也就是说,可以利用评价模型预测基于候选标签集合中的部分或全部候选标签是否能重构出该训练样本。利用评价模型预测基于所有候选标签是否能重构出该训练样本,能够避免遗漏正确标签。利用评价模型预测基于部分候选标签是否能重构出该训练样本,能够减少计算时间,提高训练效率。本技术实施例此不做限定。[0226]方法600可以迭代执行,在迭代的过程中,每次迭代过程中的第一子集可以相同,也可以不同。[0227]示例性地,该评价模型的预测结果可以包括第一子集的多个候选标签的第一置信概率。在该情况下,根据第一子集的多个候选标签的第一置信概率从第一子集中确定第一候选标签。[0228]可替换地,该评价模型的预测结果可以包括第一子集的多个候选标签的第一分数。[0229]例如,根据第一子集的多个候选标签的第一置信概率从第一子集中采样得到第一候选标签。[0230]相较于第一置信概率较低的候选标签,第一置信概率高的候选标签被确定为第一候选标签的可能性更大。[0231]可选地,第一候选标签的第一置信概率大于或等于第一子集中的其他候选标签的第一置信概率。[0232]或者说,将第一子集中第一置信概率最高的一个或多个候选标签确定为第一候选标签。[0233]具体地,基于第一候选标签重构出该训练样本的预测概率大于或等于基于其他候选标签重构出该训练样本的预测概率。[0234]在该情况下,第一候选标签即为基于评价模型确定的与训练样本的相关性最强的候选标签,进而基于该候选标签训练推理模型。该训练方式可以称为贪心的优化方式。[0235]需要说明的是,步骤s620也可以理解为至少基于评价模型的预测结果确定第一候选标签。[0236]示例性地,第一候选标签可以是基于推理模型的预测结果和评价模型的预测结果确定的。[0237]例如,评价模型的预测结果包括候选标签的第一置信概率,推理模型的预测结果包括候选标签的第二置信概率。将第一置信概率最高的候选标签和第二置信概率最高的候选标签作为第一候选标签。[0238]评价模型可以为预训练好的模型。或者,评价模型也可以是基于步骤s640至步骤s650进行训练得到的。[0239]步骤s630可以理解为,至少将第一候选标签作为优化的候选标签,即优化的候选标签至少包括第一候选标签。[0240]换言之,将第一候选标签视为正确标签来调整推理模型的参数。[0241]这样,推理模型可以朝着增大第一候选标签的可靠性程度的方案调整参数。[0242]示例性地,步骤s630可以包括:以增大第一候选标签的第二置信概率为目标调整推理模型的参数。[0243]这样,推理模型可以朝着增大第一候选标签的第二置信度的方向调整参数。[0244]可替换地,步骤s630可以包括:以增大第一候选标签和第一子集的其他候选标签中的部分标签的第二置信概率为目标调整推理模型的参数。[0245]本技术实施例的方案中,利用评价模型指导推理模型预测出与训练样本的一致性较好的合理的标签,以提高推理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和训练样本之间的相关性,根据相关性的强度确定候选标签训练推理模型,和训练样本之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果。[0246]此外,根据本技术实施例的方案,可以基于评价模型得到的最优的候选标签训练推理模型,即采用贪心的优化方式训练推理模型,能够使得训练过程更加稳定。[0247]s640,基于推理模型的预测结果确定第二候选标签,第二候选标签属于候选标签集合,其中,推理模型的预测结果用于指示候选标签为正确标签的评价值。[0248]s650,基于训练样本和第二候选标签训练评价模型。[0249]也就是说,将推理模型的预测结果作为该多个候选标签的评价标准。根据推理模型对该多个候选标签是否为正确标签的预测,确定第二候选标签。[0250]需要说明的是,第二候选标签可以为一个,也可以为多个。本技术实施例对第二候选标签的数量不做限定。[0251]具体地,步骤s640可以包括:将训练样本和候选标签输入至推理模型,以得到推理模型的预测结果。[0252]在一种可能的实现方式中,步骤s640可以包括:将训练样本和候选标签集合的第二子集的多个候选标签输入至推理模型,以得到推理模型的预测结果,基于推理模型的预测结果从第二子集中确定第二候选标签。[0253]需要说明的是,候选标签集合自身也可以视为候选标签集合的第二子集。[0254]也就是说,在步骤s640中可以利用推理模型预测候选标签集合中的部分或全部候选标签是否为正确标签。利用推理模型预测所有候选标签是否为正确标签,能够避免遗漏正确标签。利用推理模型预测部分候选标签是否为正确标签,能够减少计算时间,提高训练效率。本技术实施例对此不作限定。[0255]第一子集和第二子集可以相同,也可以不同。[0256]方法600可以迭代执行,在迭代的过程中,每次迭代过程中的第二子集可以相同,也可以不同。[0257]示例性地,该推理模型的预测结果可以包括第二子集的多个候选标签的第二置信概率。在该情况下,根据第二子集的多个候选标签的第二置信概率从第二子集中确定第二候选标签。[0258]可替换地,该推理模型的预测结果可以包括第二子集的多个候选标签的第二分数。[0259]可选地,步骤s640可以包括根据推理模型的预测结果采样得到第二候选标签。[0260]例如,根据候选标签的第二置信概率采样得到第二候选标签。[0261]相较于第二置信概率较低的候选标签,第二置信概率高的候选标签被确定为第二候选标签的可能性更大。[0262]可替换地,将第二置信概率最高的一个或多个候选标签确定为第二候选标签。[0263]需要说明的是,步骤s640也可以理解为,至少基于推理模型的预测结果确定第二候选标签。[0264]示例性地,第二候选标签可以是基于推理模型的预测结果和评价模型的预测结果确定的。[0265]例如,评价模型的预测结果包括候选标签的第一置信概率,推理模型的预测结果包括候选标签的第二置信概率。将第一置信概率最高的候选标签和第二置信概率最高的候选标签作为第二候选标签。[0266]步骤s650可以理解为,至少将第二候选标签作为优化的候选标签,即优化的候选标签至少包括第二候选标签。[0267]换言之,将第二候选标签作为输入数据,以重构出该训练样本作为优化方向来调整评价模型的参数。[0268]示例性地,步骤s650可以包括:以增大第二候选标签的第一置信概率为目标调整评价模型的参数。[0269]这样,评价模型可以朝着增大第二候选标签的第一置信概率的方向调整参数。[0270]可替换地,步骤s650可以包括:以增大第二候选标签和第二子集的其他候选标签中的部分标签的第一置信概率为目标调整评价模型的参数。[0271]需要说明的是,步骤s640至步骤s650为可选步骤。[0272]在方法600包括步骤s640至步骤s650的情况下,步骤s620至步骤s630以及步骤s640或至步骤s650交替执行,即推理模型和评价模型交替训练。[0273]换言之,基于评价模型的预测结果训练推理模型,基于推理模型的预测结果训练评价模型。[0274]例如,根据推理模型的置信概率采样第二候选标签,训练评价模型从第二候选标签中重构训练样本,基于评价模型得到的最可能的候选标签训练推理模型。[0275]应理解,上述步骤编号不对步骤的执行顺序构成限定。下面对该交替训练的过程进行举例说明。[0276]在步骤s640中,可以基于第一推理模型的预测结果确定第二候选标签。[0277]第一推理模型的预测结果即为第一推理模型对候选标签是否为正确标签的预测。或者说,第一推理模型的预测结果用于指示第一推理模型对候选标签为正确标签的评价值。[0278]示例性地,利用第一推理模型得到候选标签的第二置信概率,基于候选标签的第二置信概率确定第二候选标签。[0279]在步骤s650中,可以基于训练样本和第二候选标签调整第一评价模型的参数,以得到第二评价模型。[0280]示例性地,以增大第二候选标签的第一置信概率为目标调整第一评价模型的参数,以得到第二评价模型。[0281]这样有利于使第二评价模型基于第二候选标签预测出该训练样本的预测概率(即第一置信概率)大于第一评价模型基于第二候选标签预测出该训练样本的预测概率。[0282]在步骤s620中,可以基于第二评价模型的预测结果确定第一候选标签。[0283]第二评价模型的预测结果即为第二评价模型对基于候选标签是否能重构出训练样本的预测。或者说,第二评价模型的预测结果用于指示第二评价模型对重构出训练样本的评价值。[0284]示例性地,利用第二评价模型得到候选标签的第一置信概率,基于候选标签的第一置信概率确定第一候选标签。[0285]在步骤s630中,基于训练样本和第一候选标签调整第一推理模型的参数,以得到第二推理模型。[0286]示例性地,以增大第一候选标签的第二置信概率为目标调整第一推理模型的参数,以得到第二推理模型。[0287]这样有利于使第二推理模型预测第一候选标签为正确标签的预测概率(即第二置信概率)大于第一推理模型预测第一候选标签为正确标签的预测概率。[0288]将本次迭代得到的第二推理模型作为下一次迭代的步骤s640和步骤s630中的第一推理模型,将本次迭代得到的第二评价模型作为步骤s650中的第一评价模型,重复执行上述过程。达到迭代终止条件后,完成训练,得到训练好的推理模型。[0289]迭代终止条件可以按照现有方案设置。例如,迭代终止条件可以为迭代次数大于或等于第一阈值。[0290]应理解,第一推理模型和第二推理模型均为训练过程中的推理模型。第一推理模型和第二推理模型的区别仅在于模型的参数。由推理模型得到的置信概率均可以称为“候选标签的第二置信概率”。[0291]第一评价模型和第二评价模型为训练过程中的评价模型。第一评价模型和第二评价模型的区别仅在于模型的参数。由评价模型得到的置信概率均可以称为“候选标签的第一置信概率”。[0292]在本技术实施例中,根据推理模型的预测结果确定第二候选标签训练评价模型,能够提高评价模型的训练效果,以使评价模型能够更准确地重构训练样本。[0293]为了更好地说明本技术实施例的方案,下面结合具体的应用场景对本技术实施例的方案进行说明。[0294]在自然语言处理领域中,为了缓解有害的推理方案的问题,现有的大部分训练方法通常选择问答模型的置信概率较高的候选推理方案进行训练。然而,在候选推理方案较多或噪声较大时,问答模型的置信概率并不可靠,即置信概率较高的候选推理方案也有可能是有害的推理方案,基于该候选推理方案进行训练会影响问答模型的训练效果。[0295]一个问题通常会提供关于如何正确推理的线索,一个错误的推理方案往往无法很好地和问题对齐。在本技术实施例的方案中,利用互信息度量问题和候选推理方案之间的语义相关性,通过最大化问题和候选推理方案之间的互信息来缓解有害的推理方案带来的问题,有利于使问答模型基于更准确的推理方案进行训练。[0296]具体地,本技术实施例提供了一种问答模型的训练方法,利用问题和候选推理方案之间的语义关联强度选择候选推理方案进行训练,以减少有害的推理方案对训练的影响,提高模型的训练效果,有利于得到正确答案。[0297]基于不同类型的训练样本可以训练不同的问答模型,以执行不同的自然语言处理任务。[0298]问答模型的训练的目标为通过最大化互信息来获得最优的问答模型。[0299]目标优化函数可以满足如下公式:[0300][0301]其中,θ表示问答模型的参数,iθ(《q,a》;z,d)表示定义在分布p(d,q,a)pθ(z|d,q,a)上的关于《q,a》和z的条件互信息,h(|)表示随机变量的条件熵,h(《q,a》|d)表示条件信息d给定的条件下,《q,a》的条件熵,hθ(《q,a》|d,z)表示在条件信息d和候选推理方案z给定的情况下,《q,a》的条件熵。e表示计算平均值,p(d,q,a)表示训练样本的分布,pθ(z|d,q,a)表示候选推理方案z(属于候选推理方案的集合z)的后验预测概率,即在给定条件信息d、问题q和答案a的条件下,候选推理方案z的预测概率。pθ(q,a|d,z)表示在给定条件信息d和候选推理方案z的条件下,问题q和答案a的联合预测概率。[0302]pθ(z|d,q,a)可以满足如下公式:[0303][0304]其中,pθ(z|d,q)表示在给定条件信息d和问题q的条件下,候选推理方案z的预测概率,即由问答模型预测的候选推理方案z为正确推理方案的预测概率。[0305]pθ(q,a|d,z)难以直接计算,本技术实施例中利用在给定条件信息d和候选推理方案z的条件下,问题q的预测概率来近似pθ(q,a|d,z)。[0306]具体地,通过i(f(z)=a)pφ(q|d,z)来近似pθ(q,a|d,z)。其中,i()表示指示函数。pφ(q|d,z)表示在给定条件信息d和候选推理方案z的条件下,问题q的预测概率。在本技术实施例中,pφ(q|d,z)可以由问题重构模型预测得到,φ表示问题重构模型的参数。也就是说,将条件信息和候选推理方案输入至问题重构模型中进行处理,以得到该问题重构模型重构出该问题的预测概率,即在给定条件信息d和候选推理方案z的条件下,问题q的预测概率。[0307]进一步地,在该情况下,目标优化函数可以表示成如下形式:[0308][0309]l1表示目标优化函数的第一优化项,l2表示目标函数的第二优化项,目标优化函数的优化过程可以通过迭代的方式实现。[0310]在每一轮迭代中,可以通过更新问题重构模型来最小化l2,以使pφ(q|d,z)更好地近似pθ(q,a|d,z),并通过最大化l1来更新问答模型。[0311]示例性地,在最小化l2时,可以根据候选推理方案的候选预测概率pθ(z|d,q,a)确定候选推理方案z’,即后文中的第二候选推理方案,并基于该候选推理方案z’调整问题重构模型的参数。具体描述可以参见后文中的步骤s740至s750。[0312]在最大化l1时,可以根据问题重构模型的预测结果确定候选推理方案z”,即后文中的第一候选推理方案,并基于该候选推理方案z”训练问答模型。具体描述可以参见后文中的步骤s720至s730。[0313]图7为本技术实施例提供的一种问答模型的训练方法700。方法700可以视为图6所示的方法应用于自然语言处理领域的一种具体实现方式。图7所示的方法可以由问答模型的训练装置来执行,该训练装置可以是云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行问答模型的训练方法的装置,也可以是由云服务设备和终端设备构成的系统。[0314]示例性地,方法700可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的训练设备220中的任一设备执行。[0315]例如,方法700具体可以由如图5所示的训练设备220执行,方法700中的训练数据可以是如图5所示的数据库230中维护的训练数据。[0316]方法700包括步骤s710至步骤s750。[0317]s710,获取训练样本和该训练样本对应的候选推理方案集合,训练样本包括问题(question)和该问题的条件信息。候选推理方案集合包括多个候选推理方案(solution),该多个候选推理方案的执行结果为该问题的答案(answer),即候选推理方案集合中的候选推理方案的执行结果为该问题的答案。[0318]步骤s710对应于方法600中的步骤s610。候选推理方案即为方法600中的候选标签。[0319]基于不同的类型的训练样本可以训练不同的问答模型,以执行不同的自然语言处理任务。[0320]问题的条件信息也可以理解为问题的参考信息,即回答该问题所需要的信息。对于不同的自然语言处理任务,即对于不同的问答模型,条件信息可以是不同类型的数据。[0321]可选地,问题的条件信息包括与问题关联的文档。[0322]例如,对于如图1所示的多词阅读理解任务或如图2所示的离散推理任务,条件信息可以包括一个文档或多个文档(document)。[0323]再如,对于如图3所示的基于表格的语义解析任务,条件信息可以包括表格的表头(tableheader)。表头也可以理解为一种文档类型。[0324]推理方案可以理解为对答案的求解过程,执行该求解过程即可得到答案。该候选推理方案集合中的多个候选推理方案即为能够得到该答案的多种求解过程。[0325]对于不同的自然语言处理任务,即对于不同的问答模型,候选推理方案可以是不同类型的数据。[0326]例如,在如图1所示的多词阅读理解任务中,候选推理方案可以为文档中的一个特定的跨度(span)。候选推理方案即图1中的可能的推理方案(possiblesolution)[0327]再如,在如图2所示的离散推理任务中,候选推理方案可以为一个算式。[0328]再如,在如图3所示的语义分析任务中,候选推理方案可以为一个sql语句。[0329]进一步地,训练样本还可以包括问题的答案。[0330]示例性地,训练样本可以元组的形式表示。例如,训练样本可以表示为元组《d,q,a》。其中,q表示问题,a表示答案,d表示条件信息。相应地,训练样本和该训练样本对应的一个候选推理方案可以表示为元组《d,q,a,z》。其中,z表示候选推理方案。[0331]训练样本也可以称为训练实例。[0332]示例性地,获取训练样本可以为从本地读取训练样本,或者,也可以为从其他设备接收训练样本。本技术实施例对训练样本的获取方式不做限定。[0333]示例性地,该训练样本对应的多个候选推理方案可以是预先计算得到的。也就是说,为该训练样本预先计算多个候选推理方案。例如,可以通过枚举的方式得到候选推理方案。或者说,通过搜索得到能够映射出该问题对应的答案的推理方案的集合z,即候选推理方案集合z={z|f(z)=a}。该集合中的推理方案即为该多个候选推理方案。f()表示将推理方案映射到该推理方案的执行结果(即答案)的函数。[0334]例如,在阅读理解任务中,所有可能的推理方案可以包括文档中的所有span,通过枚举的方式筛选出与答案一致的span,即得到候选推理方案集合。[0335]再如,在离散推理任务中,可以预先定义推理方案中涉及的离散操作并规范操作序列格式,从而定义搜索空间,然后通过枚举的方式筛选出答案正确的离散操作序列,即得到候选推理集合。[0336]再如,语义分析任务中,可以预先定义sql语句的形式,从而定义搜索空间,然后通过枚举的方式筛选出答案正确的sql语句,即得到候选推理集合。[0337]对于不同的推理方案,f()可以是不同类型的函数。[0338]例如,在如图1所示的多词阅读理解任务中,f()可以为返回文档中的一个特定的span。[0339]再如,在如图2所示的离散推理任务中,f()可以为求解一个算式。[0340]再如,在如图3所示的语义分析任务中,f()可以为执行一个sql语句。[0341]应理解,步骤s710中获取的训练样本可以为一个,也可以为多个。例如,在步骤s710中可以获取多组《d,q,a》及每组《d,q,a》对应的多个候选推理方案。本技术实施例对训练样本的数量不做限定。[0342]训练样本和该训练样本对应的候选推理方案集合可以用于训练问答模型。[0343]训练样本和该训练样本对应的候选推理方案集合还可以用于训练问题重构模型。[0344]为了更好地说明本技术实施例的方法700,下面先对问答模型和问题重构模型进行说明。[0345]问答模型用于预测问题所对应的正确推理方案。在训练过程中,训练样本中的问题所对应的正确推理方案也可以称为训练样本对应的正确推理方案。[0346]具体来说,训练的目标为得到一个训练好的问答模型,使得该训练好的问答模型在测试阶段,以《d,q》作为输入,输出推理方案的指示信息,该推理方案的执行结果为该问题的答案。示例性地,推理方案的指示信息可以为推理方案本身。或者,推理方案的指示信息也可以包括多个推理方案的置信概率,该多个推理方案中置信概率最大的推理方案的执行结果为该问题的答案。[0347]在推理阶段,以《d,q》作为输入,预测正确推理方案,进而执行该推理方案得到预测答案。[0348]在训练阶段,问答模型可以用于基于问题和问题的条件信息预测候选推理方案是否为正确推理方案。问答模型的预测结果即为问答模型对候选推理方案是否为正确推理方案的预测。或者说,问答模型的预测结果用于指示候选推理方案为正确推理方案的评价值,该评价值即用于评价候选推理方案为正确推理方案的可靠性程度。[0349]示例性地,问答模型的预测结果可以表示为概率值,也就是利用概率值表示候选推理方案为正确推理方案的可靠性程度。[0350]例如,问答模型的预测结果可以包括候选推理方案的第二置信概率,候选推理方案的第二置信概率表示由该问答模型预测得到的基于问题和该问题的条件信息得到该候选推理方案的预测概率pθ(z|d,q)。[0351]候选推理方案的第二置信概率越高,则问答模型基于问题和该问题的条件信息得到该候选推理方案的可能性越高,或者说,问答模型基于问题和该问题的条件信息预测该候选推理方案的可靠性程度越高。[0352]示例性地,问答模型的预测结果可以表示为分数,也就是利用分数表示候选推理方案为正确推理方案的可靠性程度。[0353]例如,问答模型的预测结果可以包括候选推理方案的第二分数,候选推理方案的第二分数用于指示由该问答模型预测得到的基于问题和该问题的条件信息得到该候选推理方案的可能性。[0354]候选推理方案的第二分数越高,则问答模型基于问题和该问题的条件信息得到该候选推理方案的可能性越高,或者说,问答模型基于问题和该问题的条件信息预测该候选推理方案的可靠性程度越高。[0355]本技术实施例对问答模型的预测结果的形式不作任何限定。[0356]问题重构模型可以用于预测基于问题的条件信息和候选推理方案是否能重构出该问题。或者说,问题重构模型可以用于基于问题的条件信息和候选推理方案重构问题。[0357]问题重构模型的预测结果即为问题重构模型对基于问题的条件信息和候选推理方案是否能重构出该问题的预测。或者说,问题重构模型的预测结果用于指示基于问题的条件信息和候选推理方案重构出该问题的评价值,该评价值即用于评价重构出该问题的可能性。[0358]问题重构模型的预测结果能够反映问题和候选推理方案之间的语义关联度。重构出该问题的可能性越高,则说明问题和候选推理方案的语义关联度越强的可能性越大,该候选推理方案越有可能为正确推理方案。[0359]示例性地,问题重构模型的预测结果可以表示为概率值,也就是利用概率值表示能够重构出该问题的可能性,或者说,利用概率值表示重构出的问题为该问题的可能性。[0360]例如,问题重构模型的预测结果可以包括候选推理方案的第一置信概率,候选推理方案的第一置信概率表示由问题重构模型预测得到的通过条件信息和该候选推理方案重构出该问题的预测概率pφ(q|d,z)。其中,φ表示问题重构模型的参数。[0361]候选推理方案的第一置信概率越高,则问题重构模型基于该候选推理方案和问题的条件信息重构出该问题的可能性越高。[0362]示例性地,问题重构模型的预测结果可以表示为分数,也就是利用分数表示能够重构出该问题的可能性。或者,基于重构出的问题打分,利用该分数表示重构出的问题为该问题的可能性。[0363]例如,问题重构模型的预测结果可以包括候选推理方案的第一分数,候选推理方案的第一分数指示由问题重构模型预测得到的通过条件信息和该候选推理方案重构出该问题的可能性。比如,候选推理方案的第二分数可以为logpφ(q|d,z)。[0364]候选推理方案的第一分数越高,则问题重构模型基于候选推理方案和该问题的条件信息重构出该问题的可能性越高。[0365]本技术实施例对问题重构模型的预测结果的表现形式不做任何限定。[0366]s720,基于问题重构模型的预测结果确定第一候选推理方案,第一候选推理方案属于候选推理方案集合。[0367]步骤s720对应于方法600中的步骤s620。问题重构模型即为方法600中的评价模型。第一候选推理方案即为方法600中的第一候选标签。[0368]示例性地,问题重构模型用于根据问题的条件信息和多个候选推理方案获取问题重构模型的预测结果,问题重构模型的预测结果用于指示基于问题的条件信息和该多个候选推理方案重构出问题的评价值。多个候选推理方案即对应多个评价值。该多个候选推理方案属于候选推理方案集合。[0369]s730,基于训练样本和第一候选推理方案训练问答模型。[0370]步骤s730对应于方法600中的步骤s630。问答模型即为方法600中的推理模型。[0371]也就是说,将问题重构模型的预测结果作为该多个候选推理方案的评价标准。根据问题重构模型对基于问题的条件信息和该多个候选推理方案是否能重构出问题的预测,确定第一候选推理方案。[0372]如前所述,问题重构模型的预测结果能够反映问题和候选推理方案之间的语义关联度。也就是说,步骤s720可以理解为,根据问题和候选推理方案之间的语义关联度确定第一候选推理方案。[0373]需要说明的是,第一候选推理方案可以为一个,也可以为多个。本技术实施例对第一候选推理方案的数量不做限定。[0374]具体地,步骤s720可以包括:将问题的条件信息和候选推理方案输入至问题重构模型中,以得到问题重构模型的预测结果。[0375]在一种可能的实现方式中,步骤s720可以包括:将问题的条件信息和候选推理方案集合的第一子集的多个候选推理方案输入至问题重构模型中,以得到问题重构模型的预测结果,基于问题重构模型的预测结果从第一子集中确定第一候选推理方案。[0376]需要说明的是,候选推理方案集合自身也可以视为候选推理方案集合的第一子集。[0377]也就是说,可以利用问题重构模型预测基于候选推理方案集合中的部分或全部候选推理方案是否能重构出该问题。利用问题重构模型预测基于所有候选推理方案是否能重构出该问题,能够避免遗漏正确推理方案。利用问题重构模型预测基于部分候选推理方案是否能重构出该问题,能够减少计算时间,提高训练效率。本技术实施例此不做限定。[0378]方法700可以迭代执行,在迭代的过程中,每次迭代过程中的第一子集可以相同,也可以不同。[0379]示例性地,该问题重构模型的预测结果可以包括第一子集的多个候选推理方案的第一置信概率。在该情况下,根据第一子集的多个候选推理方案的第一置信概率从第一子集中确定第一候选推理方案。[0380]可替换地,该问题重构模型的预测结果可以包括第一子集的多个候选推理方案的第一分数。[0381]例如,根据第一子集的多个候选推理方案的第一置信概率从第一子集中采样得到第一候选推理方案。[0382]相较于第一置信概率较低的候选推理方案,第一置信概率高的候选推理方案被确定为第一候选推理方案的可能性更大。[0383]可选地,第一候选推理方案的第一置信概率大于或等于第一子集中的其他候选推理方案的第一置信概率。[0384]或者说,将第一子集中第一置信概率最高的一个或多个候选推理方案确定为第一候选推理方案。[0385]具体地,基于问题的条件信息和第一候选推理方案重构出该问题的预测概率大于或等于基于问题的条件信息和其他候选推理方案重构出该问题的预测概率。[0386]在该情况下,第一候选推理方案即为基于问题重构模型确定的与问题的语义相关性最强的候选推理方案,进而基于该候选推理方案训练问答模型。该训练方式可以称为贪心的优化方式。[0387]需要说明的是,步骤s720也可以理解为至少基于问题重构模型的预测结果确定第一候选推理方案。[0388]示例性地,第一候选推理方案可以是基于问答模型的预测结果和问题重构模型的预测结果确定的。[0389]例如,问题重构模型的预测结果包括候选推理方案的第一置信概率,问答模型的预测结果包括候选推理方案的第二置信概率。将第一置信概率最高的候选推理方案和第二置信概率最高的候选推理方案作为第一候选推理方案。[0390]问题重构模型可以为预训练好的模型。或者,问题重构模型也可以是基于步骤s740至步骤s750进行训练得到的。[0391]步骤s730可以理解为,至少将第一候选推理方案作为优化的候选推理方案,即优化的候选推理方案至少包括第一候选推理方案。[0392]步骤s730也可以理解为以增大第一目标函数的值为目标调整问答模型的参数。第一目标函数即为前文中的l1,即通过最大化l1来更新问答模型。[0393]换言之,将第一候选推理方案视为正确推理方案来调整问答模型的参数。[0394]这样,问答模型可以朝着增大第一候选推理方案的可靠性程度的方案调整参数。[0395]示例性地,步骤s730可以包括:以增大第一候选推理方案的第二置信概率为目标调整问答模型的参数。[0396]例如,以最大化logpθ(z”|d,q)为目标更新问答模型的参数,候选推理方案z”即为第一候选推理方案。[0397]这样,问答模型可以朝着增大第一候选推理方案的第二置信度的方向调整参数。[0398]可替换地,步骤s730可以包括:以增大第一候选推理方案和第一子集的其他候选推理方案中的部分推理方案的第二置信概率为目标调整问答模型的参数。[0399]例如,第一子集包括方案a、方案b、方案c和方案d,第一候选推理方案为方案a,以增大方案a的第二置信概率和方案b的第二置信概率为目标调整问答模型的参数。[0400]本技术实施例的方案中,利用问题重构模型指导问答模型预测出与问题一致性较好的合理的推理方案,以提高问答模型的训练效果。具体地,本技术实施例的方案通过问题重构模型的预测结果表示候选推理方案和问题之间的语义相关性,根据语义相关性的强度确定候选推理方案训练问答模型,和问题之间的语义相关度较强的候选推理方案更有可能为正确推理方案,从而有利于缓解有害的推理方案带来的影响,提高训练效果。[0401]此外,根据本技术实施例的方案,可以基于问题重构模型得到的最优的候选推理方案训练问答模型,即采用贪心的优化方式训练问答模型,能够使得训练过程更加稳定。[0402]s740,基于问答模型的预测结果确定第二候选推理方案,第二候选推理方案属于候选推理方案集合。[0403]步骤s740对应于方法600中的步骤s640。第二候选推理方案即为方法600中的第二候选标签。[0404]具体地,问答模型能够用于根据问题和问题的条件信息获取问答模型的预测结果,问答模型的预测结果用于指示多个候选推理方案为正确推理方案的评价值,该多个候选推理方案属于候选推理方案集合。[0405]s750,基于训练样本和第二候选推理方案训练问题重构模型。[0406]步骤s750对应于方法600中的步骤s650。[0407]也就是说,将问答模型的预测结果作为该多个候选推理方案的评价标准。根据问答模型对该多个候选推理方案是否为正确推理方案的预测,确定第二候选推理方案。[0408]需要说明的是,第二候选推理方案可以为一个,也可以为多个。本技术实施例对第二候选推理方案的数量不做限定。[0409]具体地,步骤s740可以包括:将问题、问题的条件信息和候选推理方案输入至问答模型,以得到问答模型的预测结果。[0410]在一种可能的实现方式中,步骤s740可以包括:将问题、问题的条件信息和候选推理方案集合的第二子集的多个候选推理方案输入至问答模型,以得到问答模型的预测结果,基于问答模型的预测结果从第二子集中确定第二候选推理方案。[0411]需要说明的是,候选推理方案集合自身也可以视为候选推理方案集合的第二子集。[0412]也就是说,在步骤s740中可以利用问答模型预测候选推理方案集合中的部分或全部候选推理方案是否为正确推理方案。利用问答模型预测所有候选推理方案是否为正确推理方案,能够避免遗漏正确推理方案。利用问答模型预测部分候选推理方案是否为正确推理方案,能够减少计算时间,提高训练效率。本技术实施例对此不作限定。[0413]第一子集和第二子集可以相同,也可以不同。[0414]方法700可以迭代执行,在迭代的过程中,每次迭代过程中的第二子集可以相同,也可以不同。[0415]示例性地,该问答模型的预测结果可以包括第二子集的多个候选推理方案的第二置信概率。在该情况下,根据第二子集的多个候选推理方案的第二置信概率从第二子集中确定第二候选推理方案。[0416]可替换地,该问答模型的预测结果可以包括第二子集的多个候选推理方案的第二分数。[0417]可选地,步骤s740可以包括:根据问答模型的预测结果采样得到第二候选推理方案。[0418]例如,根据候选推理方案的第二置信概率采样得到第二候选推理方案。[0419]相较于第二置信概率较低的候选推理方案,第二置信概率高的候选推理方案被确定为第二候选推理方案的可能性更大。[0420]可替换地,将第二置信概率最高的一个或多个候选推理方案确定为第二候选推理方案。[0421]需要说明的是,步骤s740也可以理解为,至少基于问答模型的预测结果确定第二候选推理方案。[0422]示例性地,第二候选推理方案可以是基于问答模型的预测结果和问题重构模型的预测结果确定的。[0423]例如,问题重构模型的预测结果包括候选推理方案的第一置信概率,问答模型的预测结果包括候选推理方案的第二置信概率。将第一置信概率最高的候选推理方案和第二置信概率最高的候选推理方案作为第二候选推理方案。[0424]步骤s750可以理解为,至少将第二候选推理方案作为优化的候选推理方案,即优化的候选推理方案至少包括第二候选推理方案。[0425]步骤s750也可以理解为以减小第二目标函数的值为目标调整问题重构模型的参数。第二目标函数即为前文中的l2。[0426]换言之,将问题的条件信息和第二候选推理方案作为输入数据,以重构出该问题作为优化方向来调整问题重构模型的参数。[0427]示例性地,步骤s750可以包括:以增大第二候选推理方案的第一置信概率为目标调整问题重构模型的参数。[0428]例如,以最大化logpφ(q|d,z')为目标调整问题重构模型的参数,候选推理方案z’即为第二候选推理方案。[0429]这样,问题重构模型可以朝着增大第二候选推理方案的第一置信概率的方向调整参数。[0430]可替换地,步骤s750可以包括:以增大第二候选推理方案和第二子集的其他候选推理方案中的部分推理方案的第一置信概率为目标调整问题重构模型的参数。[0431]例如,第二子集包括方案a、方案b、方案c、方案d和方案e,第二候选推理方案为方案a,以增大方案a的第一置信概率和方案c的第一置信概率为目标调整问题重构模型的参数。[0432]需要说明的是,步骤s740至步骤s750为可选步骤。[0433]在方法700包括步骤s740至步骤s750的情况下,步骤s720至步骤s730以及步骤s740或至步骤s750交替执行,即问答模型和问题重构模型交替训练。[0434]换言之,基于问题重构模型的预测结果训练问答模型,基于问答模型的预测结果训练问题重构模型。[0435]例如,根据问答模型的置信概率采样第二候选推理方案,训练问题重构模型从第二候选推理方案中重构问题,基于问题重构模型得到的最可能的候选推理方案训练问答模型。[0436]应理解,上述步骤编号不对步骤的执行顺序构成限定。下面对该交替训练的过程进行举例说明。[0437]在步骤s740中,可以基于第一问答模型的预测结果确定第二候选推理方案。[0438]第一问答模型的预测结果即为第一问答模型对候选推理方案是否为正确推理方案的预测。或者说,第一问答模型的预测结果用于指示第一问答模型对候选推理方案为正确推理方案的评价值。[0439]示例性地,利用第一问答模型得到候选推理方案的第二置信概率,基于候选推理方案的第二置信概率确定第二候选推理方案。[0440]在步骤s750中,可以基于训练样本和第二候选推理方案调整第一问题重构模型的参数,以得到第二问题重构模型。[0441]示例性地,以增大第二候选推理方案的第一置信概率为目标调整第一问题重构模型的参数,以得到第二问题重构模型。[0442]这样有利于使第二问题重构模型基于问题的条件信息和第二候选推理方案预测出该问题的预测概率(即第一置信概率)大于第一问题重构模型基于问题的条件信息和第二候选推理方案预测出该问题的预测概率。[0443]在步骤s720中,可以基于第二问题重构模型的预测结果确定第一候选推理方案。[0444]第二问题重构模型的预测结果即为第二问题重构模型对基于问题的条件信息和候选推理方案是否能重构出问题的预测。或者说,第二问题重构模型的预测结果用于指示第二问题重构模型对重构出问题的评价值。[0445]示例性地,利用第二问题重构模型得到候选推理方案的第一置信概率,基于候选推理方案的第一置信概率确定第一候选推理方案。[0446]在步骤s730中,基于训练样本和第一候选推理方案调整第一问答模型的参数,以得到第二问答模型。[0447]示例性地,以增大第一候选推理方案的第二置信概率为目标调整第一问答模型的参数,以得到第二问答模型。[0448]这样有利于使第二问答模型预测第一候选推理方案为正确推理方案的预测概率(即第二置信概率)大于第一问答模型预测第一候选推理方案为正确推理方案的预测概率。[0449]将本次迭代得到的第二问答模型作为下一次迭代的步骤s740和步骤s730中的第一问答模型,将本次迭代得到的第二问题重构模型作为步骤s750中的第一问题重构模型,重复执行上述过程。达到迭代终止条件后,完成训练,得到训练好的问答模型。[0450]迭代终止条件可以按照现有方案设置。例如,迭代终止条件可以为迭代次数大于或等于第一阈值。[0451]应理解,第一问答模型和第二问答模型均为训练过程中的问答模型。第一问答模型和第二问答模型的区别仅在于模型的参数。由问答模型得到的置信概率均可以称为“候选推理方案的第二置信概率”。[0452]第一问题重构模型和第二问题重构模型为训练过程中的问题重构模型。第一问题重构模型和第二问题重构模型的区别仅在于模型的参数。由问题重构模型得到的置信概率均可以称为“候选推理方案的第一置信概率”。[0453]在本技术实施例中,根据问答模型的预测结果确定第二候选推理方案训练问题重构模型,能够提高问题重构模型的训练效果,以使问题重构模型能够更准确地重构问题。[0454]下面结合图8对本技术实施例中的一次迭代过程进行举例说明。应理解,图8中的迭代过程仅为示例,不对本技术实施例的方案构成限定。[0455]如图8所示,候选推理方案集合z包括候选推理方案z1和z2。根据当前的问答模型的预测结果pθ(z|d,q),即图中的pθ(z|d,q,a)从候选推理方案集合z中采样一个候选推理方案z’(第二候选推理方案的一例)。基于候选推理方案z’训练问题重构模型,例如以最大化logpφ(q|d,z')为目标更新问题重构模型的参数。然后,根据当前的问题重构模型的预测结果logpφ(q|d,z)从候选推理方案集合z中选择最优的候选推理方案,最优的候选推理方案为第二分数最高的候选推理方案z”=argmaxz∈zlogpφ(q|d,z)(第一候选推理方案的一例)。基于候选推理方案z”训练问答模型,例如,以最大化logpθ(z”|d,q)为目标更新问答模型的参数。[0456]问答模型可以为基于序列到序列(sequencetosequence,seq2seq)网络的模型。[0457]问题重构模型可以为基于seq2seq网络的模型。[0458]示例性地,该seq2seq网络可以为双向自回归转换器(bidirectionalandauto-regressivetransformers,bart)。例如,问题重构模型可以采用预训练的bart。为了便于描述,本技术实施例中以bart为例进行说明,不对不申请实施例的方案构成限定。[0459]bart包括编码器(encoder)和解码器(decoder),将候选推理方案和问题的条件信息输入至编码器中进行编码,解码器根据编码器得到的特征重构问题。[0460]候选推理方案通常由以下符号组成:任务特定的字符,字面值(如,数字常量),问题或条件信息中的一个或多个字符串。[0461]例如,在离散推理任务中,任务特定的字符可以包括计数操作(count)。[0462]例如,字面值可以为数字常量。[0463]示例性地,可以将候选推理方案和条件信息的字面形式的拼接作为问题重构模型的输入。[0464]但若采用上述方式,字面形式相同而语境不同的字符串由于上下文语义丢失而无法被区分。为了更好地编码条件信息和候选推理方案,本技术实施例还提供了一种编码方式。[0465]可选地,候选推理方案中的第一字符串以占位符的形式输入至问答模型中。第一字符串是来自条件信息中的第二字符串。该占位符在问答模型中的表示(representation)是通过该第二字符串的上下文的表示确定的,第二字符串为条件信息中的关键字。[0466]也就是说,将候选推理方案中的来自条件信息的字符串替换为占位符,候选推理方案中的其他字符串保持字面形式不变。[0467]第一字符串的字面形式与条件信息中的第二字符串的字面形式相同。[0468]可选地,占位符在问题重构模型中的表示是通过注意力掩码实现的,注意力掩码用于使占位符关注第二字符串的上下文的表示。[0469]换言之,占位符在问题重构模型中的表示是通过注意力掩码使占位符关注第二字符串的上下文的表示确定的[0470]具体地,问题重构模型可以通过注意力掩码使该占位符无法关注该第二字符串的上下文以外的字符串。即阻断该占位符与该第二字符串的上下文以外的其他字符串之间的联系,使得该占位符在问题重构模型中仅能关注第二字符串的上下文,从而计算得到占位符的表示。[0471]下面以基于bart的问题重构模型为例进行说明。[0472]如图9所示,bart的编码器的输入主要包括两部分,即条件信息和候选推理方案,以及其他符号。《s》为bart输入的开始符,《/s》为bart输入的结束符,《sol》是候选推理方案的开始符,op表示运算符。图9中的a,b,c,d表示不同的token,token可以为字或单词。token也可以理解为字符串。《span》是文档中相关span的占位符。例如,如图3所示,在候选推理方案中出现了“1876”和“1878”,这两个span是来自条件信息的span(第二字符串的一例),利用占位符《span》替换这两个span。相应地,图9中的候选推理方案的编码中将来自条件信息的a和b替换为占位符《span》。[0473]根据本技术实施例的方案,将候选推理方案中的来自条件信息的字符串替换为占位符,该占位符在问题重构模型中的表示通过该第二字符串的上下文的表示确定,这样,不会丢失上下文语义,使得相同字面形式的字符串能够被有效区分,有利于提高问题重构模型的预测准确性。[0474]在图像处理领域,采用训练样本及其对应的标签构建图像处理模型是一种常见的方式。然而由于标注者的失误或标签本身难以确定等问题的出现,导致训练数据的标签不都是真值。[0475]本技术实施例提供了一种图像处理模型的训练方法900,利用样本图像和候选标签之间的关联性强度选择候选标签进行训练,以减少错误标签对训练的影响,提升模型的训练效果。[0476]方法900可以视为图6所示的方法应用于图像处理领域的一种具体实现方式。具体描述可以参考方法600,为了描述简洁,在描述方法900时适当省略部分重复的描述。方法900可以由图像处理模型的训练装置来执行,该训练装置可以是云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行图像处理模型的训练方法的装置,也可以是由云服务设备和终端设备构成的系统。[0477]示例性地,方法900可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的训练设备220中的任一设备执行。[0478]例如,方法900具体可以由如图5所示的训练设备220执行,方法900中的训练数据可以是如图5所示的数据库230中维护的训练数据。[0479]方法900包括步骤s910至步骤s950。[0480]s910,获取样本图像和样本图像对应的候选标签集合。候选标签集合包括多个候选标签。[0481]基于不同类型的训练样本可以训练不同的图像处理模型,以执行不同的图像处理任务。[0482]对于不同的图像处理任务,即对于不同的图像处理模型,候选标签的类型不同。具体类型可以参见步骤s610。[0483]样本图像和样本图像对应的候选标签集合用于训练图像处理模型。图像处理模型即为方法600中的推理模型。[0484]具体地,图像处理模型用于基于样本图像预测候选标签是否为正确标签。图像处理模型的预测结果即为图像处理模型对候选标签是否为正确标签的预测。或者说,图像处理模型的预测结果用于指示候选标签为正确标签的评价值,该评价值即用于评价候选标签为正确标签的可靠性程度。[0485]评价模型可以用于预测基于候选标签是否能重构出该样本图像。或者说,评价模型可以用于基于候选标签重构样本图像。[0486]示例性地,该评价模型可以是基于图像重构模型或者图像生成模型得到的。[0487]评价模型的预测结果即为评价模型对基于候选标签是否能重构出该样本图像的预测。或者说,评价模型的预测结果用于指示基于候选标签重构出该样本图像的评价值,该评价值即用于评价重构出该样本图像的可能性。[0488]评价模型的预测结果能够反映样本图像和候选标签之间的关联度。重构出该样本图像的可能性越高,则说明样本图像和候选标签的关联度越强的可能性越大,该候选标签越有可能为正确标签。[0489]下面以图像处理模型为图像分类模型为例进行说明。[0490]示例性地,图像分类模型可以为神经网络模型,例如,cnn模型。候选标签也可以称为候选类别标签。[0491]例如,样本图像所属的正确类别为“狗”,即样本图像的正确类别标签为“狗”,候选类别标签集合包括多个候选类别标签,该多个候选类别标签包括“狗”、“猫”、“爱”、“可爱”、“老虎”、“狸猫”和“高傲”这7个类别标签。[0492]图像分类模型用于基于样本图像预测候选类别标签是否指示样本图像所属的正确类别,即候选类别标签是否为正确类别标签。图像分类模型的预测结果即为图像分类模型对候选类别标签是否为正确类别标签的预测。或者说,图像分类模型的预测结果用于指示候选类别标签为正确类别标签的评价值,该评价值即用于评价候选类别标签为正确类别标签的可靠性程度。[0493]评价模型可以为图像生成模型。图像生成模型可以用于预测基于候选类别标签是否能重构出该样本图像。或者说,图像生成模型可以用于基于候选类别标签重构样本图像。[0494]图像生成模型的预测结果即为图像生成模型对基于候选类别标签是否能重构出该样本图像的预测。或者说,图像生成模型的预测结果用于指示基于候选类别标签重构出该样本图像的评价值,该评价值即用于评价重构出该样本图像的可能性。[0495]图像生成模型的预测结果能够反映样本图像和候选类别标签之间的关联度。重构出该样本图像的可能性越高,则说明样本图像和候选类别标签的关联度越强的可能性越大,该候选类别标签越有可能为正确类别标签。[0496]步骤s910对应于方法600中的步骤s610。具体描述可以参考步骤s610中的描述,此处不再赘述。[0497]s920,根据评价模型的预测结果确定第一候选标签,第一候选标签属于候选标签集合。[0498]s930,基于样本图像和第一候选标签训练图像处理模型。[0499]也就是说,将评价模型的预测结果作为该多个候选标签的评价标准。根据评价模型对基于该多个候选标签是否能重构出样本图像的预测,确定第一候选标签。[0500]如前所述,评价模型的预测结果能够反映样本图像和候选标签之间的关联度。也就是说,步骤s920可以理解为,根据样本图像和候选标签之间的关联度确定第一候选标签。[0501]可选地,评价模型的预测结果包括评价模型基于候选标签重构出样本图像的预测概率。其中,评价模型基于第一候选标签重构出该样本图像的预测概率大于或等于评价模型基于其他候选标签重构出该样本图像的预测概率。[0502]下面以图像处理模型为图像分类模型为例进行说明。[0503]例如,样本图像所属的正确类别为“狗”,评价模型为图像生成模型,根据图像生成模型的预测结果从上述7个候选类别标签中确定的第一候选类别标签为“狗”。在该情况下,基于样本图像和第一候选类别标签“狗”训练图像分类模型。也就是说,以第一候选类别标签“狗”视为正确类别标签优化图像分类模型,图像分类模型朝着增大“狗”的可靠性程度的方向调整参数。[0504]步骤s920对应于方法600中的步骤s620。步骤s930对应于方法600中的步骤s630。具体描述可以参考方法600,此处不再赘述。[0505]本技术实施例的方案中,利用评价模型指导图像处理模型预测出与样本图像的一致性较好的合理的标签,以提高图像处理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和样本图像之间的相关性,根据相关性的强度确定候选标签训练图像处理模型,和样本图像之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果。[0506]此外,根据本技术实施例的方案,可以基于评价模型得到的最优的候选标签训练图像处理模型,即采用贪心的优化方式训练图像处理模型,能够使得训练过程更加稳定。[0507]s940,根据图像处理模型的预测结果确定第二候选标签,第二候选标签属于候选标签集合。[0508]可选地,步骤s940包括,根据图像处理模型的预测结果采样得到第二候选标签。[0509]s950,基于样本图像和第二候选标签训练评价模型。[0510]也就是说,将图像处理模型的预测结果作为该多个候选标签的评价标准。根据图像处理模型对该多个候选标签是否为正确标签的预测,确定第二候选标签。[0511]下面以图像处理模型为图像分类模型为例进行说明。[0512]例如,样本图像所属的正确类别为“狗”,评价模型为图像生成模型,根据图像分类模型的预测结果从上述7个候选类别标签中确定的第二候选类别标签为“狗”。在该情况下,基于样本图像和第二候选类别标签“狗”训练图像生成模型。也就是说,使得图像生成模型朝着基于第二候选类别标签“狗”能够生成样本图像的方向整参数。[0513]步骤s940对应于方法600中的步骤s640。步骤s950对应于方法600中的步骤s650。具体描述可以参考方法600,此处不再赘述。[0514]在本技术实施例中,根据图像处理模型的预测结果确定第二候选标签训练评价模型,能够提高评价模型的训练效果,以使评价模型能够更准确地重构样本图像。[0515]应理解,本技术实施例中仅以方法600应用于图像处理领域和自然语言处理领域为例进行说明,方法600还可以应用于音频处理领域等其他弱监督的训练场景中,只要将方法600中的训练样本以及候选标签、推理模型和评价模型进行相应的替换即可,为了避免重复,此处不再展开描述。[0516]图10示出了本技术实施例的一种数据处理方法1000,该方法可以由能够执行模型运算的装置或设备执行,例如,该装置可以为云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行数据处理的方法的装置,也可以是由云服务设备和终端设备构成的系统。示例性地,方法1000可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的执行设备210中的任一设备执行。[0517]例如,方法1000具体可以由如图5所示的执行设备210执行,方法1000中的待处理数据可以是如图5所示的客户设备240给出的输入数据。[0518]图10中的数据处理的方法1000中使用的模型可以是通过上述图6中的方法构建的。具体描述可以参考方法600,为了避免不必要的重复,下面在介绍方法1000时适当省略重复的描述。[0519]方法1000包括步骤s1010至步骤s1020,下面对步骤s1010至步骤s1020进行描述。[0520]s1010,获取待处理的数据。[0521]待处理的数据的类型与推理模型的任务有关。本技术实施例对待处理的数据的类型不做限定。[0522]可选地,待处理的数据包括图像数据、音频数据或文本数据等。[0523]例如,推理模型用于图像处理任务,则该待处理的数据可以为图像。具体地,图像处理任务可以包括图像分类、图像检测、图像分割、图像识别、图像生成、图像超分、图像降噪或目标检测等。[0524]再如,推理模型用于文本处理任务,则该待处理的数据可以为文本。具体地,文本处理任务可以包括阅读理解、离散推理、语义解析、文本识别或文本翻译等。[0525]再如,推理模型用于音频处理任务,则该待处理的数据可以为音频数据。具体地,音频处理任务包括语音识别或声纹设备等。[0526]s1020,利用推理模型对待处理的数据进行处理,以得到待处理的数据的处理结果。其中,该推理模型是基于训练样本和第一候选标签训练得到的,第一候选标签是根据评价模型的预测结果确定的,评价模型的预测结果用于指示基于候选标签重构出训练样本的评价值,第一候选标签属于训练样本对应的候选标签集合,候选标签集合包括多个候选标签。[0527]该推理模型可以是通过方法600训练得到的推理模型。[0528]可选地,该评价模型是基于训练样本和第二候选标签训练得到的,第二候选标签是根据推理模型的预测结果确定的,第二候选标签属于候选标签集合,推理模型的预测结果用于指示候选标签为正确标签的评价值。[0529]可选地,评价模型的预测结果为基于候选标签重构出训练样本的预测概率,基于第一候选标签重构出训练样本的预测概率大于或等于基于其他候选标签重构出训练样本的预测概率。[0530]可选地,第二候选标签是基于推理模型的预测结果采样得到的。[0531]根据本技术实施例的方案,利用评价模型指导推理模型预测出与训练样本的一致性较好的合理的标签,提高了推理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和训练样本之间的相关性,根据相关性的强度确定候选标签训练推理模型,和训练样本之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果,利用该推理模型对待处理的数据进行处理,有利于得到更准确的预测结果。[0532]图11示出了本技术实施例的一种问答方法1100,该方法可以由能够执行模型运算的装置或设备执行,例如,该装置可以为云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行数据处理的方法的装置,也可以是由云服务设备和终端设备构成的系统。示例性地,方法1100可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的执行设备210中的任一设备执行。[0533]例如,方法1100具体可以由如图5所示的执行设备210执行,方法1100中的待处理问题和待处理问题的条件信息可以是如图5所示的客户设备240给出的输入数据。[0534]图11中的问答方法1100中使用的模型可以是通过上述图7中的方法构建的。具体描述可以参考方法700,为了避免不必要的重复,下面在介绍方法1100时适当省略重复的描述。[0535]方法1100包括步骤s1110至步骤s1120,下面对步骤s1110至步骤s1120进行描述。[0536]s1110,获取待处理问题和待处理问题的条件信息。[0537]s1120,利用问答模型对待处理问题和待处理问题的条件信息进行处理,以预测待处理问题的答案,其中,问答模型是基于训练样本和第一候选推理方案训练得到的,训练样本包括问题和问题的条件信息,第一候选推理方案是根据问题重构模型的预测结果确定的,第一候选推理方案属于候选推理方案集合,问题重构模型用于指示根据问题的条件信息和多个候选推理方案获取问题重构模型的预测结果,问题重构模型的预测结果用于指示基于问题的条件信息和多个候选推理方案重构出问题的评价值,多个候选推理方案属于候选推理方案集合。[0538]具体地,步骤s1120中的问答模型可以利用方法700训练得到的。[0539]示例性地,问答模型可以以待处理问题和待处理问题的条件信息作为输入数据,预测正确推理方案的指示信息,进而执行该推理方案,执行结果即为问答模型预测的该待处理问题的答案。正确推理方案的指示信息可以为推理方案本身。或者,正确推理方案的指示信息也可以包括多个推理方案的置信概率,该多个推理方案中置信概率最大的推理方案视为正确推理方案。[0540]或者,问答模型可以以待处理问题、待处理问题的条件信息和多个推理方案作为输入数据,预测正确推理方案的指示信息,进而执行该推理方案,执行结果即为问答模型预测的该待处理问题的答案。正确推理方案的指示信息可以为推理方案本身。或者,正确推理方案的指示信息也可以包括多个推理方案的置信概率,该多个推理方案中置信概率最大的推理方案视为正确推理方案。[0541]根据本技术实施例的方案,利用问题重构模型指导问答模型预测出与问题一致性较好的合理的推理方案,以提高问答模型的训练效果。具体地,本技术实施例的方案通过问题重构模型的预测结果表示候选推理方案和问题之间的语义相关性,根据语义相关性的强度确定候选推理方案训练问答模型,和问题之间的语义相关度较强的候选推理方案更有可能为正确推理方案,从而有利于缓解有害的推理方案带来的影响,提高训练效果。利用该问答模型对待处理的问题进行处理,有利于得到更准确的推理方案,进而得到更准确的方案。[0542]可选地,问题重构模型是基于训练样本和第二候选推理方案训练得到的,第二候选推理方案是根据问答模型的预测结果确定的,第二候选推理方案属于候选推理方案集合,问答模型用于根据问题和问题的条件信息获取问答模型的预测结果,问答模型的预测结果用于指示多个候选推理方案为正确推理方案的评价值,多个候选推理方案属于候选推理方案集合。[0543]可选地,问题重构模型的预测结果包括基于问题的条件信息和多个候选推理方案重构出问题的预测概率,基于问题的条件信息和第一候选推理方案重构出问题的预测概率大于或等于基于问题的条件信息和其他候选推理方案重构出问题的预测概率。[0544]可选地,第二候选推理方案是基于问答模型的预测结果采样得到的。[0545]可选地,问题的条件信息包括与问题关联的文档。[0546]可选地,候选推理方案中的第一字符串是以占位符的形式输入至问题重构模型中的,第一字符串的字面形式与条件信息中的第二字符串的字面形式相同,占位符在问题重构模型中的表示是根据第二字符串的上下文的表示确定的,第二字符串为条件信息中的关键字。[0547]可选地,占位符在问题重构模型中的表示是通过注意力掩码实现的,注意力掩码用于使占位符关注第二字符串的上下文的表示。[0548]本技术实施例还提供了一种图像处理方法1200,该方法可以由能够执行模型运算的装置或设备执行,例如,该装置可以为云服务设备,也可以是终端设备,例如,电脑、服务器等运算能力足以用来执行图像处理的方法的装置,也可以是由云服务设备和终端设备构成的系统。示例性地,方法1200可以由图4中的数据处理设备、用户设备、执行设备110、本地设备101、本地设备102或图5中的执行设备210中的任一设备执行。[0549]例如,方法1200具体可以由如图5所示的执行设备210执行,方法1200中的待处理图像可以是如图5所示的客户设备240给出的输入数据。[0550]图像处理方法1200中使用的模型可以是通过上述方法900构建的。具体描述可以参考方法900,为了避免不必要的重复,下面在介绍方法1200时适当省略重复的描述。[0551]方法1200包括步骤s1210至步骤s1220,下面对步骤s1210至步骤s1220进行描述。[0552]s1210,获取待处理图像。[0553]s1220,利用图像处理模型对待处理图像进行处理,以得到待处理图像的处理结果。其中,图像处理模型是基于样本图像和第一候选标签训练得到的,第一候选标签是根据评价模型的预测结果确定的,第一候选标签属于候选标签集合,候选标签集合包括多个候选标签,评价模型的预测结果用于指示基于候选标签重构出样本图像的评价值。[0554]根据本技术实施例的方案,利用评价模型指导图像处理模型预测出与样本图像的一致性较好的合理的标签,提高了图像处理模型的训练效果。具体地,本技术实施例的方案通过评价模型的预测结果表示候选标签和样本图像之间的相关性,根据相关性的强度确定候选标签训练图像处理模型,和样本图像之间的相关度较强的候选标签更有可能为正确标签,从而有利于缓解错误标签带来的影响,提高训练效果,利用该图像处理模型对待处理图像进行处理,有利于得到更准确的预测结果。[0555]可选地,评价模型是基于样本图像和第二候选标签训练得到的,第二候选标签是根据图像处理模型的预测结果确定的,第二候选标签属于候选标签集合,图像处理模型的预测结果用于指示候选标签为正确标签的评价值。[0556]可选地,评价模型的预测结果为基于候选标签重构出样本图像的预测概率,基于第一候选标签重构出样本图像的预测概率大于或等于基于其他候选标签重构出样本图像的预测概率。[0557]可选地,第二候选标签是根据图像处理模型的预测结果采样得到的。[0558]下面结合附图对本技术实施例的装置进行详细的描述,应理解,下面描述的装置能够执行前述本技术实施例的方法。为了避免不必要的重复,下面在介绍本技术实施例的装置时适当省略重复的描述。[0559]图12是本技术实施例的训练装置的示意性框图。图12所示的训练装置3000包括获取单元3010和处理单元3020。[0560]在一种可能的实现方式中,训练装置可以用于执行本技术实施例的方法600。[0561]具体地,获取单元3010可以执行上述步骤s610,处理单元3020可以执行上述步骤s620至步骤s630。[0562]可选地,处理单元3020还可以用于执行上述步骤s640至步骤s650。[0563]在一种可能的实现方式中,训练装置可以用于执行本技术实施例的方法700。[0564]具体地,获取单元3010可以执行上述步骤s710,处理单元3020可以执行上述步骤s720至步骤s730。[0565]可选地,处理单元3020还可以用于执行上述步骤s740至步骤s750。[0566]在一种可能的实现方式中,训练装置可以用于执行本技术实施例的方法900。[0567]具体地,获取单元3010可以执行上述步骤s910,处理单元3020可以执行上述步骤s920至步骤s930。[0568]可选地,处理单元3020还可以用于执行上述步骤s940至步骤s950。[0569]图13是本技术实施例提供的推理装置4000的示意性框图。图11所示的推理装置4000包括获取单元4010和处理单元4020。[0570]在一种可能的实现方式中,推理装置可以用于执行本技术实施例的方法1000,该推理装置也可以称为数据处理装置。[0571]具体地,获取单元4010可以执行上述步骤s1010,处理单元4020可以执行上述步骤s1020。[0572]在一种可能的实现方式中,推理装置可以用于执行本技术实施例的方法1100,该推理装置也可以称为问答装置。[0573]具体地,获取单元4010可以执行上述步骤s1110,处理单元4020可以执行上述步骤s1120。[0574]在一种可能的实现方式中,推理装置可以用于执行本技术实施例的方法1200,该推理装置也可以称为图像处理装置。[0575]具体地,获取单元4010可以执行上述步骤s1210,处理单元4020可以执行上述步骤s1220。[0576]需要说明的是,上述训练装置3000以及装置4000以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。[0577]例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(applicationspecificintegratedcircuit,asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。[0578]因此,在本技术的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0579]图14是本技术实施例提供的一种训练装置的硬件结构示意图。图14所示的训练装置5000(该装置5000具体可以是一种计算机设备)包括存储器5001、处理器5002、通信接口5003以及总线5004。其中,存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。[0580]存储器5001可以是只读存储器(readonlymemory,rom),静态存储设备,动态存储设备或者随机存取存储器(randomaccessmemory,ram)。存储器5001可以存储程序,当存储器5001中存储的程序被处理器5002执行时,处理器5002用于执行本技术实施例的训练方法的各个步骤。例如,处理器5002可以执行上文中方法600、方法700或方法900。[0581]处理器5002可以采用通用的中央处理器(centralprocessingunit,cpu),微处理器,应用专用集成电路(applicationspecificintegratedcircuit,asic),图形处理器(graphicsprocessingunit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本技术方法实施例的训练方法。[0582]处理器5002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本技术的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。[0583]上述处理器5002还可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001,处理器5002读取存储器5001中的信息,结合其硬件完成图12所示的装置中包括的单元所需执行的功能,或者,执行本技术方法实施例的方法600、方法700或方法900。[0584]通信接口5003使用例如但不限于收发器一类的收发装置,来实现装置5000与其他设备或通信网络之间的通信。例如,可以通过通信接口5003获取训练样本和训练样本对应的候选推理方案集合。[0585]总线5004可包括在装置5000各个部件(例如,存储器5001、处理器5002、通信接口5003)之间传送信息的通路。[0586]图15是本技术实施例提供的推理装置的硬件结构示意图。图15所示的装置6000(该装置6000具体可以是一种计算机设备)包括存储器6001、处理器6002、通信接口6003以及总线6004。其中,存储器6001、处理器6002、通信接口6003通过总线6004实现彼此之间的通信连接。[0587]存储器6001可以是只读存储器(readonlymemory,rom),静态存储设备,动态存储设备或者随机存取存储器(randomaccessmemory,ram)。存储器6001可以存储程序,当存储器6001中存储的程序被处理器6002执行时,处理器6002用于执行本技术实施例的方法1000、方法1100或方法1200。[0588]处理器6002可以采用通用的中央处理器(centralprocessingunit,cpu),微处理器,应用专用集成电路(applicationspecificintegratedcircuit,asic),图形处理器(graphicsprocessingunit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本技术方法实施例的方法1000、方法1100或方法1200。[0589]处理器6002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本技术的方法的各个步骤可以通过处理器6002中的硬件的集成逻辑电路或者软件形式的指令完成。[0590]上述处理器6002还可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器6001,处理器6002读取存储器6001中的信息,结合其硬件完成图13所示的装置中包括的单元所需执行的功能,或者,执行本技术方法实施例的方法1000、方法1100或方法1200。[0591]通信接口6003使用例如但不限于收发器一类的收发装置,来实现装置6000与其他设备或通信网络之间的通信。例如,可以通过通信接口6003获取待处理问题和待处理问题的条件信息。[0592]总线6004可包括在装置6000各个部件(例如,存储器6001、处理器6002、通信接口6003)之间传送信息的通路。[0593]本技术实施例还提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行本技术实施例中的模型的训练方法、问答模型的训练方法、图像处理模型的训练方法、数据处理方法、问答方法或图像处理方法中的任一项。[0594]本技术实施例还提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行本技术实施例中的模型的训练方法、问答模型的训练方法、图像处理模型的训练方法、数据处理方法、问答方法或图像处理方法中的任一项。[0595]本技术实施例还提供一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行本技术实施例中的模型的训练方法、问答模型的训练方法、图像处理模型的训练方法、数据处理方法、问答方法或图像处理方法中的任一项。[0596]可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行本技术实施例中的模型的训练方法、问答模型的训练方法、图像处理模型的训练方法、数据处理方法、问答方法或图像处理方法中的任一项。[0597]还应理解,本技术实施例中,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如,处理器还可以存储设备类型的信息。[0598]应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。[0599]应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。[0600]本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0601]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。[0602]在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0603]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0604]另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。[0605]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(usbflashdisk,ufd),ufd也可以简称为u盘或者优盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。[0606]以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1