基于机器学习的众评众验方法、介质、装置和计算设备与流程

文档序号:17606456发布日期:2019-05-07 20:45阅读:222来源:国知局
基于机器学习的众评众验方法、介质、装置和计算设备与流程

本发明的实施方式涉及数据分析领域,更具体地,本发明的实施方式涉及一种基于机器学习的众评众验方法、介质、装置和计算设备。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

智能制造评价指数的标准化研究对凝练智能制造的核心要素与特征、明确企业的发展提升路径具有重要的意义,既可以为各级工业和主管部门推动智能制造发展和成效考核提供重要抓手,同时也可以为各类制造业企业提升智能制造水平提供重要工具。传统的企业综合评级大多以专家的主观能力评估为主,而由于专家的领域和背景知识的局限性,往往会给评估带来较大的主观偏差。

为了避免专家的主观因素给评估带来的偏差,传统的多位专家评级的办法多是取众数的方法,即选择最多专家给出的等级,作为最终的企业等级。这个方法的一个缺点是,丢弃了一部分专家的评估结果,浪费了宝贵的数据。



技术实现要素:

在本上下文中,本发明的实施方式期望提供一种基于机器学习的众评众验方法、介质、装置和计算设备。

在本发明实施方式的第一方面中,提供了一种基于机器学习的众评众验方法,包括:建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;

基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

在本发明的一个实施例中,使用最大似然估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

在本发明的另一实施例中,所述决策模型至少还包括用于表征所述待处理对象的第一特征信息的来源偏好y。

在本发明的又一个实施例中,使用最大后验估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

在本发明的再一个实施例中,当所述决策模型的第二特征信息z为高维离散变量时,其被连续化为x。

在本发明的再一个实施例中,所述x为所述第二特征信息z决定的混合分布。

在本发明的再一个实施例中,所述x为混合高斯分布。

在本发明的再一个实施例中,所述来源偏好y至少包括权值矩阵w和偏置向量t。

在本发明的再一个实施例中,所述权值矩阵w和/或偏置向量t的先验分布服从高斯分布。

在本发明的再一个实施例中,设有n个待处理对象,m个第一特征信息的来源,则满足以下分布:

其中,i为所述待处理对象的序号,j为所述来源的序号,ji为存在第一特征信息的来源为j的待处理对象的集合。

在本发明的再一个实施例中,li,j为待处理对象i的来源为j的第一特征信息,p(li,j|xi,wj,tj)表征li,j以xi,wj,tj为条件的概率。

在本发明的再一个实施例中,设有li,j=k,则满足:

p(li,j=k|xi,wj,tj)=softmax(wj·xi–tj)k;

其中所述softmax(wj·xi–tj)k由逻辑回归分类器对所述xi处理得到。

在本发明的再一个实施例中,所述逻辑回归分类器为所述待处理对象的第一特征信息的来源。

在本发明的再一个实施例中,使用最大后验估计获得所述x,w和t。

在本发明的再一个实施例中,

x*,w*,t*=argmaxx,w,tlnp(x,w,t,l),

其中所述x*,w*,t*分别为所述x,w,t的导数,所述lnp(x,w,t,l)由所述p(x,w,t,l)取对数获得。

在本发明的再一个实施例中,

在本发明的再一个实施例中,将获得的所述x、w和t分为两组,分组交替优化。

在本发明的再一个实施例中,所述w和t被分为一组,所述x被分为另一组,交替固定其中一组,优化另一组。

在本发明的再一个实施例中,基于获得的所述x以及所述决策模型,获得所述第二特征信息。

在本发明实施方式的第二方面中,提供了一种基于机器学习的众评众验装置,包括:决策模型建立模块,被配置为建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;

处理模块,被配置为基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现上述实施例之一的方法。

在本发明实施方式的第四方面中,提供了一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现上述实施例之一的方法。

根据本发明实施方式的各个方面,可以建立待处理对象的决策模型,通过综合企业自评、行业内互评、和多名专家的全部评价,将其作为决策模型的输入,得到相对客观的企业评级。并且能够综合考虑全部的评价信息,不会舍弃其中的任意一部分,避免了造成数据资源的浪费。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1为根据本发明实施方式的方法构造出的决策模型的应用场景图;

图2为根据本发明的方法的一实施例的步骤流程图;

图3为根据本发明又一实施例构造出的决策模型的概率模型图;

图4为根据本发明再一实施例构造决策模型的的步骤流程图;

图5为为根据本发明再一实施例的决策模型的后验推断过程流程图;

图6为根据本发明实施方式提供的一种计算机可读存储介质的示意图;

图7为根据本发明实施方式提供的一种基于机器学习的众评众验装置的示意图;

图8为根据本发明实施方式提供的一种计算设备的示意图;

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种基于机器学习的众评众验方法、介质、装置和计算设备。

此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

应用场景总览

首先参考图1,图1是根据本发明的方法所构建的待处理对象的决策模型应用场景示意图,图中左侧部分为一个待处理对象(例如一个企业)的全部第一特征信息(例如所有评级)(图中所示待处理对象共有n个第一特征信息),图中右侧部分为根据本发明所公开的方法构建的待处理对象的决策模型对所述全部第一特征信息处理后得到的一个第二特征信息(例如企业的客观评级),其中,所述决策模型可以被部署在本地计算设备,也可以被部署在服务器、服务器集群或虚拟服务器等,通过网络(局域网/互联网)向本地提供服务,使得本地用户能够通过提供待处理对象的全部第一特征信息以得到其第二特征信息。

示例性方法

下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的基于机器学习的众评众验的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。

在背景技术部分,我们了解到,在需要获得一个实体对象(企业)的评价/评级时,为了使得最后的结果尽量客观,准确,往往需要得到对所述实体对象有足够了解的评价者所做出的评价,考虑到即使有相对客观的评价标准,得到的评价也难免受到评价者的一些主观因素影响,为了降低评价者的主观因素影响,往往需要大量的评价者对实体对象做出的评价,进而从中获取到相对客观准确的评价。传统的从大量评价中获取相对客观准确的评价的方法,是取得所述大量评价中数量最多的相同评价作为所述实体对象的客观评价,这不仅会浪费一些宝贵的数据,也不够客观,为此,发明人提出了一种基于机器学习的众评众验方法,其中待处理对象α包括至少两个互不关联的第一特征信息,所述方法包括:

步骤s101,建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;

在本步骤,可以根据待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z构造一个所述待处理对象的决策模型,也即联合分布p(z,l)。

需要说明的是,虽然背景技术部分提及的是根据大量专家对企业(待处理对象)的评价(第一特征信息)获取一个所述企业相对客观的评价(第二特征信息),也即将大量专家评价到一个客观评价的过程进行建模(待处理对象的决策模型),但是根据本实施方式的所构建的待处理对象的决策模型并不限于对企业客观评级的获取,具体的,根据本实施方式的所构建的待处理对象的决策模型,可以通过大量用户对商家/产品的评价或评级,获得所述商家/产品的一个相对客观的评价/评级,当然,其他涉及到通过对一个对象的大量信息(评级)处理来得到一个与所述大量信息(评级)关联的相对准确客观的信息(客观评级)也属于本发明的范围。

在构建出所述待处理对象的决策模型(联合分布p(z,l))之后,执行步骤s102,基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

在本实施方式的一个实施例中,使用最大似然估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息

考虑到如果第一特征信息含有一定的主观因素,比如由人做出的评价/评级,即使评价/评级过程有一个客观标准,但也避免不了主观因素的影响,比如,对于一个企业,有大量的专家对其做出评价/评级,虽然评价/评级有相对客观的标准作为参考,但是每一个专家的衡量尺度不同,比如一些专家的尺度把握较为严苛,即使企业的客观情况非常优秀,其所获得的评价/评级依然不会很高(比如十分制的情况下,获得6分),而另外一些专家的尺度把握较为宽松,即使企业的客观情况非常一般,其所获得的评价/评级依然不会很低(比如十分制的情况下,获得6分),也即即使企业在不同的专家手中得到同样的评级/评分/定价,也不能代表其客观的情况,因此,在本实施方式的一个实施例中,所述决策模型至少还包括用于表征所述待处理对象的第一特征信息的来源偏好y。也即所述联合分布被构造为p(z,y,l)。

需要说明的是,在统计学意义上,直接构造联合分布p(z,l)也是较为困难的,因此,引入所述待处理对象的第一特征信息的来源偏好y,也能够更加方便的构造出联合分布p(z,y,l)。

在构造出联合分布p(z,y,l)后,即可根据已知的所有待处理对象α的第一特征信息,得到所述待处理对象α的第二特征信息,在本实施方式的一个实施例中,使用最大后验估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息

考虑到,在一些情况中,为所述待处理对象构造出的决策模型中的所述待处理对象的第二特征信息维度很高,且其的分布较为离散,比如在企业评级中,通常从几百个不同的角度对企业进行评级,虽然企业有一个整体的评级,但是同时对其设计、生产、服务等不同的方面也都会有评级,即使以整体的评级为主,子项的评级也是作为整体评级的一个参考角度。此时,使用最大后验估计要遍历z的每一种情况,这会使问题难以计算。因此,在本实施方式的一个实施例中,当所述决策模型的第二特征信息z为高维离散变量时,其被连续化为x。具体的,设第二特征信息为zi,其取值在1到k之间。则所述第二特征信息zi的先验分布p(zi)在每个取值都有相同的概率:

通过所述zi构造出一个连续化的混合分布xi(比如混合高斯分布),使得所述混合分布xi有k个峰(代表k个不同的等级)。所述混合(高斯)分布xi以zi为条件的条件分布为p(xi|zi=k)=n(xi|uk,θk)。那么n(xi|uk,θk),其中uk和θk为预先设置的,其取值必须使得所述混合(高斯)分布xi的k个峰值充分区分。具体的,在本实施方式的一个实施例中,uk为一个k维向量,它的第k个分量为1,其他分量均为0;θk为0.1i,其中i为k维的单位矩阵。

在本实施方式的一个实施例中,所述混合(高斯)分布xi的维数为预先设置,具体的,它的维数为d。在本实施例中,所述xi的边缘分布为:

此时,所述对处理对象的决策模型,也即所述联合分布可以构造为p(x,y,l),那么可以通过最大后验估计法对所述联合分布求解,得到所述x的最大后验估计x*,在以上构建的条件分布p(xi|zi=k)=n(xi|uk,θk)的基础上,再次通过最大后验估计z*=argmaxzp(z|x=x*)可以得到所述待处理对象的第二特征信息。

考虑到在第二特征信息的维度较高时,第一特征信息也应具有类似的高纬度特点,仅仅通过来源偏好y依然难以清晰表征所述来源的偏好,在本实施方式的一个实施例中,参照图3和图4,所述来源偏好y至少包括权值矩阵w和偏置向量t,具体的,如果存在专家(来源)j,则有与专家j相关的一个权值矩阵wj以及一个偏置向量tj,在本实施方式的一个实施例中,将专家的评级/决策作为逻辑回归分类器,则wj和tj为所述逻辑回归分类器的参数。其中wj的维数为k×d,d为xi的维数。

需要说明的是,对于矩阵w,其中的每个元素之间独立,且服从高斯分布(例如均值为0,标准差为3)。偏置向量t的维数为k,所述偏置向量中的每个元素之间独立,服从高斯分布(例如均值为0,标准差为3)。

若所述专家j评定了企业i的等级,那么可以构造变量li,j表征专家j对企业i的评级,那么li,j以xi,wj,tj为条件的概率为:

p(li,j=k|xi,wj,tj)=softmax(wj·xi–tj)k

其中所述softmax(wj·xi–tj)k由逻辑回归分类器对所述xi处理得到。

基于此,在本实施例中,所述联合分布可以构造为:

其中n为待处理对象的个数,m为第一特征信息的来源个数。

参照图5,基于上述联合分布,使用最大后验估计获得所述x,w和t,具体的,对所述联合分布取对数,获得

由于x,w,t均是可导的,在本实施方式的一个实施例中,可以用梯度上升法来求解最大似然估计:

具体的,在本实施例中,将获得的所述x、w和t分为两组,分组交替优化,考虑到w和t均是表征来源偏好的变量,在本实施方式的一个实施例中,所述w和t被分为一组,所述x被分为一组,交替固定其中一组,优化另一组。

最后,在本实施例中,可以通过x*利用最大后验估计反求出z*,具体的:

至此,得到了所述企业(待处理对象)的客观评级(也即所述第二特征信息)。

通过以上方法建立的决策模型,可以通过综合企业自评、行业内互评、和多名专家的全部评价,将其作为决策模型的输入,得到相对客观的企业评级,并且不会浪费宝贵的数据。此外,本发明的实施方式提供了一种基于机器学习的众评众验介质、装置和计算设备。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图6对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图6,其示出的计算机可读存储介质为光盘60,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。各步骤的具体实现方式在此不再重复说明。需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

示例性装置

在介绍了本发明示例性实施方式的介质、方法之后,接下来,参考图7对本发明示例性实施方式的基于机器学习的众评众验装置进行说明,由于装置实施例是与方法实施例对应的,因此仅作简要描述,具体实施时可以参照上述方法实施例的说明,部分内容此处不再赘述。

其中待处理对象α包括至少两个互不关联的第一特征信息,所述装置包括:

决策模型建立模块701,被配置为建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z。

处理模块702,被配置为基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

在本发明的又一个实施例中,所述处理模块702被进一步配置为使用最大似然估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

在本发明的又一个实施例中,所述决策模型至少还包括用于表征所述待处理对象的第一特征信息的来源偏好y。

在本发明的又一个实施例中,所述处理模块702被进一步配置为使用最大后验估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

在本发明的又一个实施例中,当所述决策模型的第二特征信息z为高维离散变量时,其被连续化为x。

在本发明的又一个实施例中,所述x为所述第二特征信息z决定的混合分布。

在本发明的又一个实施例中,所述x为混合高斯分布。

在本发明的又一个实施例中,所述来源偏好y至少包括权值矩阵w和偏置向量t。

在本发明的又一个实施例中,所述权值矩阵w和/或偏置向量t的先验分布服从高斯分布。

在本发明的又一个实施例中,设有n个待处理对象,m个第一特征信息的来源,则满足以下分布:

其中,i为所述待处理对象的序号,j为所述来源的序号,ji为存在第一特征信息的来源为j的待处理对象的集合。

在本发明的又一个实施例中,li,j为待处理对象i的来源为j的第一特征信息,xi为待处理对象i的第一特征信息的连续化,wj为来源j的权值矩阵,tj为来源j的偏置向量,p(li,j|xi,wj,tj)表征li,j以xi,wj,tj为条件的概率。

在本发明的又一个实施例中,设有li,j=k,则满足:

p(li,j=k|xi,wj,tj)=softmax(wj·xi–tj)k;

其中所述softmax(wj·xi–tj)k由逻辑回归分类器对所述xi处理得到。

在本发明的又一个实施例中,所述逻辑回归分类器为所述待处理对象的第一特征信息的来源。

在本发明的又一个实施例中,使用最大后验估计获得所述x,w和t。

在本发明的又一个实施例中,

x*,w*,t*=argmaxx,w,tlnp(x,w,t,l);

其中所述x*,w*,t*分别为所述x,w,t的导数,所述lnp(x,w,t,l)由所述p(x,w,t,l)取对数获得。

在本发明的又一个实施例中,

在本发明的又一个实施例中,所述处理模块702还包括:优化单元,被配置为将获得的所述x、w和t分为两组,分组交替优化。

在本发明的又一个实施例中,所述w和t被分为一组,所述x被分为另一组,交替固定其中一组,优化另一组。

在本发明的又一个实施例中,所述处理模块还被配置为基于获得的所述x以及所述决策模型,获得所述第二特征信息。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图8对本发明示例性实施方式的计算设备进行说明,图8示出了适于用来实现本发明实施方式的示例性计算设备80的框图,该计算设备80可以是计算机系统或服务器。图8显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,计算设备80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线803。

计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom8023可以用于读写不可移动的、非易失性磁介质(图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白,尽管图8中未示出,可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如,执行并实现基于机器学习的众评众验方法中的各步骤;例如,建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息;各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了云服务资源调配装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此:

1.一种基于机器学习的众评众验方法,其中待处理对象α包括至少两个互不关联的第一特征信息,所述方法包括:

建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;

基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

2.如技术方案1所述的方法,其中使用最大似然估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

3.如技术方案1所述的方法,其中,所述决策模型至少还包括用于表征所述待处理对象的第一特征信息的来源偏好y。

4.如技术方案3所述的方法,其中,使用最大后验估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

5.如技术方案1-4任一所述的方法,其中,当所述决策模型的第二特征信息z为高维离散变量时,其被连续化为x。

6.如技术方案5所述的方法,其中,所述x为所述第二特征信息z决定的混合分布。

7.如技术方案6所述的方法,其中,所述x为混合高斯分布。

8.如技术方案3-7任一所述的方法,其中所述来源偏好y至少包括权值矩阵w和偏置向量t。

9.如技术方案8所述的方法,其中,所述权值矩阵w和/或偏置向量t的先验分布服从高斯分布。

10.如技术方案8或9所述的方法,其中,设有n个待处理对象,m个第一特征信息的来源,则满足以下分布:

其中,i为所述待处理对象的序号,j为所述来源的序号,ji为存在第一特征信息的来源为j的待处理对象的集合。

11.如技术方案10所述的方法,其中li,j为待处理对象i的来源为j的第一特征信息,xi为待处理对象i的第一特征信息的连续化,wj为来源j的权值矩阵,tj为来源j的偏置向量,p(li,j|xi,wj,tj)表征li,j以xi,wj,tj为条件的概率。

12.如技术方案10或11所述的方法,其中,设有li,j=k,则满足:

p(li,j=k|xi,wj,tj)=softmax(wj·xi–tj)k;

其中所述softmax(wj·xi–tj)k由逻辑回归分类器对所述xi处理得到。

13.如技术方案12所述的方法,其中所述逻辑回归分类器为所述待处理对象的第一特征信息的来源。

14.如技术方案10-13任一所述的方法,其中,使用最大后验估计获得所述x,w和t。

15.如技术方案14所述的方法,其中,

x*,w*,t*=argmaxx,w,tlnp(x,w,t,l);

其中所述x*,w*,t*分别为所述x,w,t的导数,所述lnp(x,w,t,l)由所述p(x,w,t,l)取对数获得。

16.如技术方案15所述的方法,其中,

17.如技术方案14-16任一所述的方法,其中,将获得的所述x、w和t分为两组,分组交替优化。

18.如技术方案17所述的方法,其中,所述w和t被分为一组,所述x被分为另一组,交替固定其中一组,优化另一组。

19.如技术方案14-18任一所述的方法,其中,基于获得的所述x以及所述决策模型,获得所述第二特征信息。

20.一种基于机器学习的众评众验装置,其中待处理对象α包括至少两个互不关联的第一特征信息,所述装置包括:

决策模型建立模块,被配置为建立所述待处理对象的决策模型,使得所述决策模型至少包括所述待处理对象的第一特征信息l以及与所述第一特征信息关联的第二特征信息z;

处理模块,被配置为基于所述决策模型,利用所述待处理对象α的所有第一特征信息获得所述待处理对象α的第二特征信息。

21.如技术方案20所述的装置,其中,所述处理模块被进一步配置为使用最大似然估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

22.如技术方案21所述的装置,其中,所述决策模型至少还包括用于表征所述待处理对象的第一特征信息的来源偏好y。

23.如技术方案22所述的装置,其中,所述处理模块被进一步配置为使用最大后验估计法利用所述待处理对象α的所有第一特征信息获得所述第二特征信息。

24.如技术方案20-23任一所述的装置,其中,当所述决策模型的第二特征信息z为高维离散变量时,其被连续化为x。

25.如技术方案24所述的装置,其中所述x为所述第二特征信息z决定的混合分布。

26.如技术方案25所述的装置,其中所述x为混合高斯分布。

27.如技术方案22-26任一所述的装置,其中,所述来源偏好y至少包括权值矩阵w和偏置向量t。

28.如技术方案27所述的装置,其中,所述权值矩阵w和/或偏置向量t的先验分布服从高斯分布。

29.如技术方案27或28所述的装置,其中,设有n个待处理对象,m个第一特征信息的来源,则满足以下分布:

其中,i为所述待处理对象的序号,j为所述来源的序号,ji为存在第一特征信息的来源为j的待处理对象的集合。

30.如技术方案29所述的装置,其中li,j为待处理对象i的来源为j的第一特征信息,xi为待处理对象i的第一特征信息的连续化,wj为来源j的权值矩阵,tj为来源j的偏置向量,p(li,j|xi,wj,tj)表征li,j以xi,wj,tj为条件的概率。

31.如技术方案29或30所述的装置,其中,设有li,j=k,则满足:

p(li,j=k|xi,wj,tj)=softmax(wj·xi–tj)k;

其中所述softmax(wj·xi–tj)k由逻辑回归分类器对所述xi处理得到。

32.如技术方案31所述的装置,其中,所述逻辑回归分类器为所述待处理对象的第一特征信息的来源。

33.如技术方案29-32任一所述的装置,其中,使用最大后验估计获得所述x,w和t。

34.如技术方案33所述的装置,其中,

x*,w*,t*=argmaxx,w,tlnp(x,w,t,l);

其中所述x*,w*,t*分别为所述x,w,t的导数,所述lnp(x,w,t,l)由所述p(x,w,t,l)取对数获得。

35.如技术方案34所述的装置,其中,

36.如技术方案33-35任一所述的装置,其中,所述处理模块还包括:

优化单元,被配置为将获得的所述x、w和t分为两组,分组交替优化。

37.如技术方案36所述的装置,其中,所述w和t被分为一组,所述x被分为另一组,交替固定其中一组,优化另一组。

38.如技术方案33-37任一所述的装置,其中,所述处理模块还被配置为基于获得的所述x以及所述决策模型,获得所述第二特征信息。

39.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如技术方案1-19之一所述的方法。

40.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如技术方案1-19之一所述的方法。

最后,还需要说明的是,在本公开中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附技术方案的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1