答案质量确定模型训练方法、答案质量确定方法及装置与流程

文档序号:17131932发布日期:2019-03-16 01:22阅读:228来源:国知局
答案质量确定模型训练方法、答案质量确定方法及装置与流程

本申请涉及机器学习技术领域,具体而言,涉及一种答案质量确定模型训练方法、答案质量确定方法及装置。



背景技术:

社区问答作为一种非常流行且实用的互联网应用,为用户提供了一个发布问题和回答他人问题的平台,例如百度知道、新浪爱问、知乎等社区问答平台。人们不但可以在社区问答平台中发布问题进行提问以满足自己的信息需求,而且还可以通过社区问答平台回答其他用户提问的问题来分享自己的知识;此外用户还可以对系统所积累的问题答案库进行检索,以快速地满足自己的信息需求,等等。

在实际应用中,针对同一问题可能有多个不同的答案,例如:多个人分别给出答案。而针对同一问题,答案的质量也不相同,例如:由于每个人对问题的了解程度、自身知识储备、回答态度等不同,造成答案质量也不同。为了方便用户使用,社区问答平台需要从所有的答案中筛选出一个质量和准确度较高的答案作为问题的最佳答案展示给用户。



技术实现要素:

本申请实施例的目的在于提供一种答案质量确定模型训练方法、答案质量确定方法及装置,能够达到确定答案质量,提高推荐答案的准确率。

第一方面,本申请实施例提供一种答案质量确定模型训练方法,包括:

获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;

针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;

以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。

一种可选实施方式中,所述答案质量确定模型为随机森林模型,以及

所述对所述答案质量确定模型进行训练包括:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。

一种可选实施方式中,所述答案特征包括下述任意一种或者多种:所述答案数据的内容属性、提供所述答案数据的用户的评价、所述答案数据的时间属性、所述答案数据与其所归属的样本问题之间的关联度、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。

一种可选实施方式,针对所述答案特征包括所述答案数据的内容属性的情况:所述答案数据的内容属性包括下述任意一种或者多种:所述答案数据中的统一资源定位符标签数量、所述答案数据中图片的数量、所述答案数据中代码片段的数量、所述答案数据的长度、所述答案数据的可读性;

针对所述答案特征包括提供所述答案数据的用户的评价的情况:

提供所述答案数据的用户的评价包括下述任意一种或者组合:提供所述答案数据的用户回答其它问题的评分和/或投票结果、提供所述答案数据的用户提问的评分和/或投票结果;

针对所述答案特征包括所述答案数据的时间属性的情况:所述答案数据的时间属性包括:所述答案数据与其对应的样本问题的创建时间差;

针对所述答案特征包括所述答案数据与其所归属的样本问题之间的关联度的情况:所述答案数据与其所归属的样本问题之间的关联度包括:所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度的情况:所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度、所述答案数据所归属的样本问题的其他答案数据的数量、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。

一种可选实施方式中,针对所述答案数据的内容属性包括所述答案数据的可读性的情况,采用下述方式获取所述答案数据的可读性:根据所述答案数据中段落的数量以及每个段落的长度,确定所述答案数据的可读性;

针对所述答案数据与其所归属的样本问题之间的关联度包括所述答案数据和其所归属的样本问题的相似度的情况,采用下述方式获取所述答案数据和其所归属的样本问题的相似度:

基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及所述其所归属的样本问题中各个词语的词向量所构建的所述样本问题的表示向量,确定所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度,包括下述所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度中至少一项的情况,采用下述方式获取所述答案数据和归属同一样本问题的其他答案数据之间的关联度:

基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及其他答案数据中各个词语的词向量所构建的其他答案数据的表示向量,确定所述答案数据和其他答案数据的相似度。

一种可选实施方式中,该方法还包括:基于每棵决策树,采用基尼不纯度方法确定每棵决策树中各个所述答案特征的重要程度;根据每个决策树中各个所述答案特征的重要程度,确定所有所述答案特征的重要程度。

第二方面,本申请实施例还提供一种答案质量确定方法,包括:

获取目标答案的设定数目的答案特征,构建该目标答案的特征向量;

将所述目标答案的特征向量输入至通过本申请实施例提供的所述的答案质量确定模型训练方法所训练得到的答案质量确定模型中,获取所述目标答案的质量信息。

第三方面,本申请实施例提供一种答案质量确定模型训练装置,包括:

获取模块,用于获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;

第一特征向量构建模块,用于针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;

训练模块,用于以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。

一种可选实施方式中,所述答案质量确定模型为随机森林模型,以及

训练模块,用于采用下述方式对所述答案质量确定模型进行训练:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。

一种可选实施方式中,所述答案特征包括下述任意一种或者多种:所述答案数据的内容属性、提供所述答案数据的用户的评价、所述答案数据的时间属性、所述答案数据与其所归属的样本问题之间的关联度、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。

一种可选实施方式中,针对所述答案特征包括所述答案数据的内容属性的情况:

所述答案数据的内容属性包括下述任意一种或者多种:所述答案数据中的统一资源定位符标签数量、所述答案数据中图片的数量、所述答案数据中代码片段的数量、所述答案数据的长度、所述答案数据的可读性;

针对所述答案特征包括提供所述答案数据的用户的评价的情况:

提供所述答案数据的用户的评价包括下述任意一种或者组合:提供所述答案数据的用户回答其它问题的评分和/或投票结果、提供所述答案数据的用户提问的评分和/或投票结果;

针对所述答案特征包括所述答案数据的时间属性的情况:所述答案数据的时间属性包括:所述答案数据与其对应的样本问题的创建时间差;

针对所述答案特征包括所述答案数据与其所归属的样本问题之间的关联度的情况:所述答案数据与其所归属的样本问题之间的关联度包括:所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度的情况:所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度、所述答案数据所归属的样本问题的其他答案数据的数量、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。

一种可选实施方式中,针对所述答案数据的内容属性包括所述答案数据的可读性的情况,采用下述方式获取所述答案数据的可读性:根据所述答案数据中段落的数量以及每个段落的长度,确定所述答案数据的可读性;

针对所述答案数据与其所归属的样本问题之间的关联度包括所述答案数据和其所归属的样本问题的相似度的情况,采用下述方式获取所述答案数据和其所归属的样本问题的相似度:基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及所述其所归属的样本问题中各个词语的词向量所构建的所述样本问题的表示向量,确定所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度,包括下述所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度中至少一项的情况,采用下述方式获取所述答案数据和归属同一样本问题的其他答案数据之间的关联度:

基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及其他答案数据中各个词语的词向量所构建的其他答案数据的表示向量,确定所述答案数据和其他答案数据的相似度。

一种可选实施方式中,该装置还包括:重要程度确定模块,用于,基于每棵决策树,采用基尼不纯度方法确定每棵决策树中各个所述答案特征的重要程度;根据每个决策树中各个所述答案特征的重要程度,确定所有所述答案特征的重要程度。

第四方面,本申请实施例还提供一种答案质量确定装置,包括:

第二特征向量构建模块,用于获取目标答案的设定数目的答案特征,构建该目标答案的特征向量;

确定模块,用于将所述目标答案的特征向量输入至通过权利要求1-6任意一项所述的答案质量确定模型训练方法所训练得到的答案质量确定模型中,获取所述目标答案的质量信息。

第五方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面任一种可能的实施方式中的步骤。

第六方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面任一种可能的实施方式中的步骤。

第七方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第二方面任一种可能的实施方式中的步骤。

第八方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第二方面任一种可能的实施方式中的步骤。

本申请实施例通过获取的样本集合中包括的多个样本问题分别对应的答案数据,构建用于表征每个答案数据的特征向量,并以答案数据的特征向量为输入,以质量标注信息为输出,对答案质量确定模型进行训练,使得答案质量确定模型能够学习到最佳答案具备的特征,通过该答案质量确定模型确定答案的质量;这样,对于新产生的答案,也能够基于训练好的模型确定其质量。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种答案质量确定模型训练方法的流程图;

图2示出了本申请实施例二所提供的答案质量确定方法的流程图;

图3示出了本申请实施例三所提供的一种答案质量确定模型训练装置的示意图;

图4示出了本申请实施例四所提供的一种电子设备400的结构示意图。

图5示出了本申请实施例五所提供的一种答案质量确定装置的示意图;

图6示出了本申请实施例六所提供的一种电子设备600的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供的一种答案质量确定模型训练、答案质量确定模型及装置,可以预先通过获取的样本集合中包括的多个样本问题分别对应的答案数据,构建用于表征每个答案数据的特征向量,并以答案数据的特征向量为输入,以质量标注信息为输出,对答案质量确定模型进行训练,使得答案质量确定模型能够学习到最佳答案具备的特征,通过该答案质量确定模型确定答案的质量;这样,对于新产生的答案,也能够确定新产生的答案的质量,例如:确定最佳答案等。

为便于对本发明进行理解,首先对本发明所公开的一种答案质量确定模型训练方法进行详细介绍,需要注意的是,本发明不仅能够应用于社区问答系统中,还能够用于其它判定答案质量或确定最佳答案的场景中。

实施例一

图1示出了本申请实施例一提供的答案质量确定模型训练方法的流程图;本申请实施例一提供的答案质量确定模型训练方法包括s101~s1103。

s101:获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息。

样本集合包含了已经标注好的答案数据,例如,可以是从社区问答平台中获取的已经标注好的答案数据,或者是获取答案之后,再进行标注。这里,标注可以是人工标注,如:由有关人员从对应于某一问题的答案中,确定答案的质量和/或挑选最佳答案,或者是通过投票法,即由查看过问题和相关答案的人对答案进行投票,确定答案的质量和/或确定最佳答案。也可以通过其他方式进行答案数据的标注,例如:利用神经网络模型和/或语义分析等手段,基于特征向量,计算答案与问题的相关性,确定答案的质量和/或挑选最佳答案,等。

在获取样本集合的时候,可以先基于一定的标准确定多个样本问题。在操作中,可以基于时间(例如:近期的有效问答)、答案数据的数量(例如:该问题的答案需要满足设定数量)、答案的标注信息(例如:已有人对答案进行了有效标注)等因素确定样本问题。

在确定了样本问题之后,可以确定样本答案数据了。此处,针对一个样本问题,可以该样本问题对应的所有答案都作为样本集合的一部分,也可以从该样本问题对应的所有答案中,筛选一部分答案作为样本集合的一部分。

正如前面所述,样本问题对应的答案数据的质量标注信息,可以是在进行答案数据采集的时候,答案数据已经具备的信息,也可以是在获取了答案数据后,为答案数据标注的信息。

s102:针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量。在具体实现的时候,答案特征包括下述任意一种或者多种:

a、所述答案数据的内容属性。此处,答案数据的内容属性通常用于表征答案数据所涵盖内容的丰富程度;一般而言,在答案数据的内容没有错误的前提下,答案数据所涵盖的内容越丰富,对应的答案质量越高。因此在本申请一些实施例中,将答案数据的内容属性作为衡量答案数据质量的特征。具体地,答案数据的内容属性可以包括下述任意一种或者多种:

①:所述答案数据中的统一资源定位符(uniformresourcelocator,url)标签数量。url是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,在答案数据中,url的数量多少,能够在一定程度上表征答案数据所涵盖内容的丰富程度,以及对于某些内容或者概念进行描述的清楚程度。

在获取答案数据的url时,可以采用关键字检索法,首先确定url中常用到的关键字符,如“http”、“ftp”等用于表征传输协议的字符,“/”、“.”等用于表示url中不同部分之间分隔的字符等;然后根据确定的关键字符,从答案数据中进行检索,以获得答案数据中url标签数量。

②、所述答案数据中图片的数量。图片数量的多少,也能够在一定程度上表征答案数据所涵盖内容的丰富程度,以及对于某些内容或者概念进行描述的清楚程度。

③、答案数据中代码片段的数量。

④、答案数据的长度。在一些实施例中,可以将答案数据中词语的数量作为答案的长度;也可以将答案数据的文件大小,作为答案的长度;还可以将答案数据中所包含的所有内容的字符数,作为答案的长度。

针对答案长度的不同表示方式,答案数据的长度具有不同的获取方式。例如,针对将答案数据中词语的数量作为答案的长度,可以对答案数据的内容进行分词处理,得到构成答案的词语集,然后通过统计词语集中词语的数量,得到答案数据的长度;针对将答案数据的文件大小作为答案的长度的情况,可以直接读取答案数据的文件属性,获取答案数据的文件大小;针对将答案数据中所包含的所有内容的字符数作为答案的长度的情况,可以直接读取答案数据中所包含所有内容的字符数。

⑤、所述答案数据的可读性。本申请一些实施例中,答案数据的可读性,是指阅读答案的难易程度。例如,可以将答案数据中最长的段落的长度作为用于表征答案数据阅读难以程度的可读性;又或者,可以将答案数据中各个段落的平均长度作为用于表征答案数据阅读难以程度的可读性。

在获取答案数据的可读性时,可以首先确定答案数据中段落的数量,以及每个段落的长度,然后根据确定的段落的数量以及段落的长度,确定答案数据的可读性。此处,段落的长度,可以是段落的字符数,或者段落中包括的词语的数量。

b、提供所述答案数据的用户的评价。此处,一般认为擅长回答和/或提问的用户更有可能给出质量较高的答案数据。因此为了描述答案数据的质量,可以将提供所述答案数据的用户的评价作为衡量答案数据质量的一种答案特征。可以通过下述一种或者组合作为提供答案数据的用户的评价:

①、提供述答案数据的用户回答其它问题的评分和/或投票结果。该特征用于表征提供答案数据的用户在回答其他问题时的合理度。例如,可以以提供答案数据的用户的用户名或者身份标识作为检索条件,从互联网平台的数据库中获取与该用户回答其它问题的评分和/或投票结果。

②、提供所述答案数据的用户提问的评分和/或投票结果。该特征用于表征提供答案数据的用户在提出有意义问题方面的和力度。获取的方法与获取该用户回答其他问题时的合理度的方法类似,在此不再赘述。

c、所述答案数据的时间属性。此处,一般将答案数据与其对应的样本答案的创建时间差,作为答案数据的时间属性。

在获取答案数据的时间属性时,可以从互联网平台上获取答案数据与其对应的样本答案的创建时间,并根据答案数据与其对应的样本答案的创建时间,得到答案数据与其对应的样本答案的创建时间差。

d、所述答案数据与其所归属的样本问题之间的关联度。此处,一般使用答案数据与其所归属的样本问题之间的相似度,来表征答数据与样本问题之间的关联度。且相似度越高,则答案数据与样本问题之间的关联度也就越高;相似度越低,则答案数据与样本问题之间的关联度也就越低。

具体地,可以基于答案数据的表示向量与样本数据的表示向量确定答案数据与其所归属的样本问题之间的相似度,表示向量可以基于语义分析和/或神经网络训练的方式确定,例如:对答案数据、样本问题进行分词处理,提取关键词,将关键词进行词嵌入,得到相应的词向量,将得到的词向量输入到神经网络中训练,得到答案数据、样本问题的表示向量。

根据答案数据的表示向量及其归属的样本问题的表示向量,计算两者之间的相似度。此处,相似度通过下述任意一种相似度度量表示:欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离或杰卡德相似系数、相关系数或相关距离,以及信息熵,等等。

e、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。

其中,由于回答同一样本问题的部分答案数据通常会具有一定的关联性。因此,答案数据与归属同一样本问题的其他答案数据之间的关联度能够在一定程度上表征答案数据的质量。一般情况下,关联度越大,则认为答案数据的质量越高。所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:

①、所述答案数据与归属同一样本问题的其他答案数据的平均相似度。

②、所述答案数据与归属同一样本问题的其他答案数据的最小相似度。

③、所述答案数据与属于同一问题的其他答案数据的最大相似度。

在具体实施中,当答案数据与归属同一样本问题的其他答案数据之间的关联度包括上述e中①、②和③中任意一种时,可以先采用下述方式获取答案数据与归属同一样本问题的其他答案数据之间的相似度:基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及其他答案数据中各个词语的词向量所构建的其他答案数据的表示向量,确定所述答案数据和其他答案数据的相似度。此处,答案数据的表示向量的获取方式与上述d中答案数据的表示向量的获取方式类似,在此不再赘述。

在得到答案数据归属同一样本问题的其他答案数据之间的相似度后,针对答案数据与归属同一样本问题的其他答案数据之间的相似度包括上述e中①的情况,根据答案数据与归属同一样本问题的其他答案数据之间的相似度,计算该平均相似度;针对答案数据与归属同一样本问题的其他答案数据之间的相似度包括上述e中②的情况,从答案数据与归属同一样本问题的其他答案数据之间的相似度中,确定最小的值作为最小相似度;针对答案数据与归属同一样本问题的其他答案数据之间的相似度包括上述e中③的情况,从答案数据与归属同一样本问题的其他答案数据之间的相似度中,确定最大的值作为最大相似度。

④、所述答案数据所归属的样本问题的其他答案数据的数量;

⑤、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。此处,可以首先获得各个答案数据创建的时间,然后根据各个答案数据创建时间的先后顺序,确定答案数据在所归属的样本问题的所有答案数据中所创建的次序。

在构建各个答案数据的特征向量之后,本申请实施例提供的答案质量确定模型训练方法还包括:

s103:以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。在具体实施中,答案质量确定模型包括:逻辑回归模型、自回归模型、移动平均模型、自回归移动平均模型、整合移动平均自回归模型、广义自回归条件异方差模型、深度学习模型、决策树模型、随机森林模型中任意一种。

当答案质量确定模型包括:逻辑回归模型、自回归模型、移动平均模型、自回归移动平均模型、整合移动平均自回归模型、广义自回归条件异方差模型的时候,对答案质量确定模型进行训练的过程为:将答案数据的特征向量作为解释变量的值,并将质量标注信息作为被解释变量的值,对答案质量确定模型中的未知参数进行求解。

具体地,可以采用下述方式,对答案质量确定模型中的未知参量进行求解:根据样本集合中包括的所有答案数据的特征向量,构建解释变量矩阵,并根据各个答案数据对应的质量标注信息,构建被解释变量矩阵,以及根据答案质量确定模型中的未知参数,构建参数矩阵,然后使用解释变量矩阵和被解释变量矩阵,求解参数矩阵。

当答案质量确定模型包括:深度学习模型的时候,对答案质量确定模型进行训练的过程为:将答案数据的特征向量输入至深度学习模型中,获得答案数据的质量确定结果。根据各个答案数据的质量确定结果,以及对应的质量标注信息,对深度学习模型进行训练。

其中,对深度学习模型进行训练的过程,就是调整深度学习模型的参数,使得深度学习模型为答案数据确定的质量确定结果,能够尽量与质量标注信息保持一致的过程。

当答案质量确定模型包括:随机森林模型的时候,对答案质量确定模型进行训练的过程为:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。

在具体实现的时候,在构建每棵决策树的时候,首先从答案数据的特征向量中,确定任意位置的多个元素作为该棵决策树的输入,并从所述样本集合中,选择任意的多个答案数据,作为该棵决策树的目标训练数据,根据为目标训练数据确定的任意位置的多个元素作为该决策树的输入,并将目标训练数据对应的质量确定模型作为该决策树的输出,构建该决策树。

例如,答案数据的特征向量包括15个元素,分别为u1~u15。答案数据包括:a1~a1000共一千条答案数据。

构建第一棵决策树m1时,将a1~a100作为构建m1的目标训练数据,并将u1~u5确定为构建m1时的输入,将a1~a100的质量标注信息作为m1的输出,构建m1;构建第二棵决策树m2时,将a1~a100作为构建m1的目标训练数据,并讲u3~u8确定为构建m2时的输入,将a1~a100的质量标注信息作为m2的输出,构建m2;构建第三棵决策树m3时,将a101~a200作为构建m3的目标训练数据,将u1~u5确定为构建m3时的输入,将a101~a200的质量标注信息作为m3的输出,构建m3。构建第四棵决策树m4时,将a101~a200作为构建m4的目标训练数据,将u6~u10确定为构建m4时的输入,将a101~a200的质量标注信息作为m4的输出,构建m4。在构建至少一棵决策树后,基于构建的至少一棵决策树,构建随机森林模型。

需要注意的是,每个样本问题都对应有至少一个答案数据,通常只有一个属于最佳答案,其他的都是非最佳答案,可以将属于最佳答案的答案数据作为正样本,将非最佳答案的答案作负样本,负样本的数量可能远大于正样本的数量,这会导致分类不平衡的问题。针对这种情况,由于负样本的数量远大于正样本的数量,为了使得正样本和负样本的数量达到一个较为均衡的状态,可以针对样本数据中的负样本进行欠采样处理。在对负样本进行欠采样处理的时候,可以是从负样本中随机抽出与正样本的数量相同的负样本,作为训练随机森林模型时使用的训练样本。

另外,在构建随机森林模型之后,本申请实施例提供的答案质量确定模型训练中,还包括:基于每棵决策树,采用基尼不纯度方法确定每棵决策树中各个所述答案特征的重要程度;根据每个决策树中各个所述答案特征的重要程度,确定所有所述答案特征的重要程度。

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。基尼不纯度越小,纯度越高,样本集合的有序程度越高,得到的随机森林模型的分类的效果越好。基于该过程,能够对生成的随机森林模型进行验证。如果生成的随机森林模型的基尼不纯度都比较高,则认为当前生成随机森林模型的精度较低。可以重新生成新的随机森林模型,已得到符合精度要求的答案质量确定模型。

当答案质量确定模型包括:决策树模型的时候,可以将之视作较为特殊的随机森林模型,构建决策树的时候,是将样本集合中的所有答案数据的特征向量的全部元素都作为决策树模型的输入,将各个答案数据对应的质量标注信息作为输出,构建决策树模型。

由此,训练好的答案质量确定模型能够学习到最佳答案具备的特征,并能确定答案是否为最佳答案。

实施例二

参见图2所示,本申请实施例二还提供一种答案质量确定方法,包括s201~s202:

s201:获取目标答案的设定数目的答案特征,构建该目标答案的特征向量。此处,目标答案的特征向量的生成方法,与答案数据的特征向量确定方法类似,在此不再赘述。

s202:将所述目标答案的特征向量输入至通过本申请实施例提供的所述的答案质量确定模型训练方法所训练得到的答案质量确定模型中,获取所述目标答案的质量信息。

本申请实施例预先通过获取的样本集合中包括的多个样本问题分别对应的答案数据,构建用于表征每个答案数据的特征向量,并以答案数据的特征向量为输入,以质量标注信息为输出,对答案质量确定模型进行训练,使得答案质量确定模型能够学习到最佳答案具备的特征,通过该答案质量确定模型确定目标答案的质量,具有更高的准确性;同时,只要有新的目标答案产生,就能够直接确定新产生的目标答案是否为最佳答案,具有更高的效率。

基于同一发明构思,本申请实施例中还提供了与答案质量确定模型训练方法对应的答案质量确定模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述答案质量确定模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

实施例三

参见图3所示,本申请实施例三提供一种答案质量确定模型训练装置,包括:

获取模块31,用于获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;

第一特征向量构建模块32,用于针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;

训练模块33,用于以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。

一种可选实施方式中,所述答案质量确定模型为随机森林模型,以及

训练模块33,用于采用下述方式对所述答案质量确定模型进行训练:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。

一种可选实施方式中,所述答案特征包括下述任意一种或者多种:所述答案数据的内容属性、提供所述答案数据的用户的评价、所述答案数据的时间属性、所述答案数据与其所归属的样本问题之间的关联度、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。

一种可选实施方式中,针对所述答案特征包括所述答案数据的内容属性的情况:

所述答案数据的内容属性包括下述任意一种或者多种:所述答案数据中的统一资源定位符标签数量、所述答案数据中图片的数量、所述答案数据中代码片段的数量、所述答案数据的长度、所述答案数据的可读性;

针对所述答案特征包括提供所述答案数据的用户的评价的情况:

提供所述答案数据的用户的评价包括下述任意一种或者组合:提供所述答案数据的用户回答其它问题的评分和/或投票结果、提供所述答案数据的用户提问的评分和/或投票结果;

针对所述答案特征包括所述答案数据的时间属性的情况:

所述答案数据的时间属性包括:所述答案数据与其对应的样本问题的创建时间差;

针对所述答案特征包括所述答案数据与其所归属的样本问题之间的关联度的情况:

所述答案数据与其所归属的样本问题之间的关联度包括:所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度的情况:

所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度、所述答案数据所归属的样本问题的其他答案数据的数量、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。

一种可选实施方式中,针对所述答案数据的内容属性包括所述答案数据的可读性的情况,采用下述方式获取所述答案数据的可读性:

根据所述答案数据中段落的数量以及每个段落的长度,确定所述答案数据的可读性;

针对所述答案数据与其所归属的样本问题之间的关联度包括所述答案数据和其所归属的样本问题的相似度的情况,采用下述方式获取所述答案数据和其所归属的样本问题的相似度:

基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及所述其所归属的样本问题中各个词语的词向量所构建的所述样本问题的表示向量,确定所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度,包括下述所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度中至少一项的情况,采用下述方式获取所述答案数据和归属同一样本问题的其他答案数据之间的关联度:

基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及其他答案数据中各个词语的词向量所构建的其他答案数据的表示向量,确定所述答案数据和其他答案数据的相似度。

一种可选实施方式中,该装置还包括:重要程度确定模块34,用于:

基于每棵决策树,采用基尼不纯度方法确定每棵决策树中各个所述答案特征的重要程度;

根据每个决策树中各个所述答案特征的重要程度,确定所有所述答案特征的重要程度。

本申请实施例通过获取的样本集合中包括的多个样本问题分别对应的答案数据,构建用于表征每个答案数据的特征向量,并以答案数据的特征向量为输入,以质量标注信息为输出,对答案质量确定模型进行训练,使得答案质量确定模型能够学习到最佳答案具备的特征,通过该答案质量确定模型确定答案的质量,对于新产生的的答案,能够确定是否为最佳答案。

实施例四

如图4所示,为本申请实施例四提供的电子设备400的示意图,该电子设备400:包括处理器41、存储器42和总线43,所述存储器42存储执行指令,当所述装置运行时,所述处理器41与所述存储器42之间通过总线43通信,所述处理器41执行所述执行指令使得所述装置执行如下方法:

获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;

针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;

以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。

可选地,所述处理器41执行的所述方法中,所述答案质量确定模型为随机森林模型,以及

所述对所述答案质量确定模型进行训练包括:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。

可选地,所述处理器41执行的所述方法中,所述答案特征包括下述任意一种或者多种:所述答案数据的内容属性、提供所述答案数据的用户的评价、所述答案数据的时间属性、所述答案数据与其所归属的样本问题之间的关联度、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。

可选地,所述处理器41执行的所述方法中,针对所述答案特征包括所述答案数据的内容属性的情况:

所述答案数据的内容属性包括下述任意一种或者多种:所述答案数据中的统一资源定位符标签数量、所述答案数据中图片的数量、所述答案数据中代码片段的数量、所述答案数据的长度、所述答案数据的可读性;

针对所述答案特征包括提供所述答案数据的用户的评价的情况:提供所述答案数据的用户的评价包括下述任意一种或者组合:提供所述答案数据的用户回答其它问题的评分和/或投票结果、提供所述答案数据的用户提问的评分和/或投票结果;

针对所述答案特征包括所述答案数据的时间属性的情况:所述答案数据的时间属性包括:所述答案数据与其对应的样本问题的创建时间差;

针对所述答案特征包括所述答案数据与其所归属的样本问题之间的关联度的情况:所述答案数据与其所归属的样本问题之间的关联度包括:所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度的情况:所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度、所述答案数据所归属的样本问题的其他答案数据的数量、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。

可选地,所述处理器41执行的所述方法中,针对所述答案数据的内容属性包括所述答案数据的可读性的情况,采用下述方式获取所述答案数据的可读性:根据所述答案数据中段落的数量以及每个段落的长度,确定所述答案数据的可读性;

针对所述答案数据与其所归属的样本问题之间的关联度包括所述答案数据和其所归属的样本问题的相似度的情况,采用下述方式获取所述答案数据和其所归属的样本问题的相似度:基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及所述其所归属的样本问题中各个词语的词向量所构建的所述样本问题的表示向量,确定所述答案数据和其所归属的样本问题的相似度;

针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度,包括下述所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度中至少一项的情况,采用下述方式获取所述答案数据和归属同一样本问题的其他答案数据之间的关联度:基于所述答案数据中各个词语的词向量所构建的所述答案数据的表示向量,以及其他答案数据中各个词语的词向量所构建的其他答案数据的表示向量,确定所述答案数据和其他答案数据的相似度。

可选地,所述处理器41执行的所述方法中,该方法还包括:基于每棵决策树,采用基尼不纯度方法确定每棵决策树中各个所述答案特征的重要程度;根据每个决策树中各个所述答案特征的重要程度,确定所有所述答案特征的重要程度。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器41运行时执行上述答案质量确定模型训练方法的步骤。具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述答案质量确定模型训练方法,从而确定答案质量和/或确定最佳答案。

基于同一发明构思,本申请实施例中还提供了与答案质量确定方法对应的答案质量确定装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述答案质量确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

实施例五

参见图5所示,本申请实施例四提供一种答案质量确定装置,包括:

第二特征向量构建模块51,用于获取目标答案的设定数目的答案特征,构建该目标答案的特征向量;

确定模块52,用于将所述目标答案的特征向量输入至通过权利要求1-6任意一项所述的答案质量确定模型训练方法所训练得到的答案质量确定模型中,获取所述目标答案的质量信息。

本申请实施例预先通过获取的样本集合中包括的多个样本问题分别对应的答案数据,构建用于表征每个答案数据的特征向量,并以答案数据的特征向量为输入,以质量标注信息为输出,对答案质量确定模型进行训练,使得答案质量确定模型能够学习到最佳答案具备的特征,通过该答案质量确定模型确定目标答案的质量,并且能够确定新产生的目标答案是否为最佳答案。

实施例六

如图6所示,为本申请实施例六提供的电子设备600的示意图,该电子设备600:包括处理器61、存储器62和总线63,所述存储器62存储执行指令,当所述装置运行时,所述处理器61与所述存储器62之间通过总线63通信,所述处理器61执行所述执行指令使得所述装置执行如下方法:

获取目标答案的设定数目的答案特征,构建该目标答案的特征向量;

将所述目标答案的特征向量输入至通过本申请实施例提供的答案质量确定模型训练方法所训练得到的答案质量确定模型中,获取所述目标答案的质量信息。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器61运行时执行上述答案质量确定模型训练方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述答案质量确定方法,从而解决当前确定最佳答案的方法存在效率和准确率低的问题,进而达到提高最佳答案确定的效率和准确率的效果。

本申请实施例所提供的答案质量确定模型训练方法、答案质量确定方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1