一种维修厂分类方法及装置与流程

文档序号:17132068发布日期:2019-03-16 01:24阅读:220来源:国知局
一种维修厂分类方法及装置与流程

本申请涉及数据挖掘技术领域,尤其涉及一种维修厂分类方法及装置。



背景技术:

维修厂直接向消费者提供各类服务,其专业水平、服务质量影响着消费者的体验。针对各个维修厂的大量数据,区分出不同专业水平、服务质量的维修厂,具有强大的现实意义。

目前,基于线性回归监督学习模型和专家系统的分类方法,分类规则不统一,导致结果偏差较大,并且分类结果与数据特征线性相关性弱。监督学习算法,对获取的大量客观的已标记维修厂数据,训练机器学习模型,并确立分类方法;实际中,获取大量客观的已标记数据很困难,需要大量人力、物力、财力的投入。另一种基于k均值聚类无监督学习算法的分类方法,对输入的数据要求高,而且分类结果的实际意义具有不确定性。另外,无监督学习算法直接对未标记的原始维修厂数据进行建模分类,其结果可能不具客观性,实用性值得怀疑。

如何通过少量的标记维修厂数据预测并确定大量未标记维修厂数据,再确定维修厂的类别,使得分类结果与数据特征吻合,降低数据处理难度,得出更客观、合理的分类结果,是本申请需解决的问题。



技术实现要素:

本申请实施例提供的维修厂分类方法,通过少量的标记维修厂数据预测并确定大量未标记数据对应的维修厂类别,降低数据挖掘难度,分类更客观、合理。

第一方面,本申请实施例提供了一种维修厂分类方法,可包括:

根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合;其中,n为大于0的整数;从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签;其中,l为大于0且小于n的整数,c为小于或者等于l的正整数,且每个目标特征信息集合对应一个标签;根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签;所述(n-l)个未标记特征信息集合为所述n个特征信息集合中除所述l个目标特征信息集合外的特征信息集合;其中,(n-l)为大于0且小于n的整数。

通过实施本申请实施例,构建的n个特征信息集合,能够反映n个维修厂的各方面情况;标记所述n个特征信息集合中的l个目标特征信息集合,引入标签,弥补了无监督学习算法的缺陷;根据标签传播算法lpa标记大量未标记的特征信息集合,避免过多的成本投入。本申请实施例降低数据挖掘难度,得出的分类结果更客观、合理。

在一种可能的实现方式中,所述n个特征信息集合,可包括:

从所述n个维修厂的特征信息分别构建的画像中确定的特征信息集合。

在一种可能的实现方式中,所述从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签,可包括:

按照预设的抽样规则,确定所述l个目标特征信息集合;所述l个目标特征信息集合的标签有c类;所述抽样规则,可以包括:对区域进行划分,结合划分的各个区块的面积、人口等特点,合理抽样得到具有代表性的样本;

按照预设的标记方法,标记所述l个目标特征信息集合的标签;所述预设的标记方法,可以包括:结合特征信息集合的内容和标记方案,由人工对所述l个目标特征信息集合进行标记;或者,结合专家知识和相关的标记规则,由机器对所述l个目标特征信息集合进行标记。

在一种可能的实现方式中,所述根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签,可包括:

根据所述n个特征信息集合,构造无向图,计算无向图中边的权重其中,所述无向图中n个节点分别对应所述n个维修厂,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重wij为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方;

计算转移概率pij,构造转移概率矩阵p;其中,pij为节点i到节点j的概率,wik为节点i与节点k之间边的权重,k为大于0且小于或者等于n的整数,i≠k;为节点i与所述n个节点中除所述节点i外的n-1个节点之间的边的权重总和;

根据所述c类标签和所述l个节点,构造l×c的标签矩阵yl;根据所述的c类标签和所述(n-l)个节点,构造(n-l)×c的标签矩阵yn-l;合并所述标签矩阵yl和所述标签矩阵yn-l,得到n×c的矩阵f=[yl,yn-l];其中,所述标签矩阵yl为由l×c个数ylc排成l行c列的数表,第l行表示第l个节点,l为小于或者等于l的任一正整数,第c行表示第c类标签,c为小于或者等于c的任一正整数;所述标签矩阵yn-l为由(n-l)×c个数yhq排成(n-l)行c列的数表,第h行表示第h个节点,h为小于或者等于(n-l)的任一正整数,第q行表示第q类标签,q为小于或者等于c的任一正整数,所述数yhq的初始值为任意值;所述矩阵f为由n×c个数yfg排成n行c列的数表,第f行表示第f个节点,f为小于或者等于n的任一正整数,第g行表示第g类标签,g为小于或者等于c的任一正整数;

根据公式f(m)=pf计算,再通过yl重置矩阵f(m)的l个节点的标签,m=m+1;直至矩阵f(m)收敛或者m为最大迭代次数时,结束运算;其中,矩阵f(m)为经过第m次公式f(m)=pf计算后的矩阵;m为大于0的整数,且m的初始值为1;在矩阵f(m)中,节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;可选的,具体的步骤可以包括:

步骤1:f(1)=pf;

步骤2:利用标签矩阵yl重置矩阵f(1)中l个节点的标签;

步骤3:检测矩阵f(1)是否收敛或者数值1是否为最大迭代数,如果矩阵f(1)不收敛或者数值1不是最大迭代次数,则m=m+1;

步骤4:f(2)=pf(1)

步骤5:利用标签矩阵yl重置矩阵f(2)中l个节点的标签;

步骤6:检测矩阵f(2)是否收敛或者数值2是否为最大迭代数,如果矩阵f(2)不收敛或者数值2不是最大迭代次数,则m=m+1;

步骤7:f(3)=pf(2)

步骤8:利用标签矩阵yl重置矩阵f(3)中l个节点的标签;

步骤9:检测矩阵f(3)是否收敛或者数值3是否为最大迭代数,如果矩阵f(3)不收敛或者数值3不是最大迭代数,则m=m+1;

……

步骤w:检测矩阵f(m)是否收敛或者数值m是否为最大迭代次数;其中,w为正整数。当矩阵f(m)收敛时或者当数值m为最大迭代次时,矩阵f(m)中节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;否则m=m+1,继续执行上述循环步骤直至满足运算停止条件。

在一种可能的实现方式中,所述根据所述n个特征信息集合,构造无向图,计算无向图中边的权重可包括:

根据所述n个特征信息集合,构造完全无向图g,计算所述完全无向图g中边的权重其中,所述完全无向图g中n个节点分别对应所述n个维修厂,g=(v,e),点集v表示所述n个节点的集合,边集e表示节点i、节点j之间边的集合,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,所述所述根据所述n个特征信息集合,构造无向图,计算无向图中边的权重可包括:

根据所述n个特征信息集合,构造稀疏无向图n,计算所述稀疏无向图n中边的权重其中,所述稀疏无向图n中n个节点分别对应所述n个维修厂,边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;i为大于0且小于或者等于k的任一整数,j为大于0且小于或者等于k的任一整数,i≠j,k为大于0且小于n的整数;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,所述方法,还可包括:

根据所述n个特征信息集合的标签,确定所述n个维修厂的评级。

第二方面,本申请实施例提供了一种维修厂分类装置,可包括:

第一预处理单元,用于根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合;其中,n为大于0的整数;

第二预处理单元,用于从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签;其中,l为大于0且小于n的整数,c为小于或者等于l的正整数,且每个目标特征信息集合对应一个标签;

标记单元,用于根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签;所述(n-l)个未标记特征信息集合为所述n个特征信息集合中除所述l个目标特征信息集合外的特征信息集合;其中,(n-l)为大于0且小于n的整数。

通过实施本申请实施例,构建的n个特征信息集合,能够反映n个维修厂的各方面情况;标记所述n个特征信息集合中的l个目标特征信息集合,引入标签,弥补了无监督学习算法的缺陷;根据标签传播算法lpa标记大量未标记的特征信息集合,避免过多的成本投入。本申请实施例降低数据挖掘难度,得出的分类结果更客观、合理。

在一种可能的实现方式中,所述n个特征信息集合,可包括:

从所述n个维修厂的特征信息分别构建的画像中确定的特征信息集合。

在一种可能的实现方式中,所述第二预处理单元,具体用于:

按照预设的抽样规则,确定所述l个目标特征信息集合;所述l个目标特征信息集合的标签有c类;所述抽样规则,可以包括:对区域进行划分,结合划分的各个区块的面积、人口等特点,合理抽样得到具有代表性的样本;

按照预设的标记方法,标记所述l个目标特征信息集合的标签;所述预设的标记方法,可以包括:结合特征信息集合的内容和标记方案,由人工对所述l个目标特征信息集合进行标记;或者,结合专家知识和相关的标记规则,由机器对所述l个目标特征信息集合进行标记。

在一种可能的实现方式中,所述标记单元,具体用于:

根据所述n个特征信息集合,构造无向图,计算无向图中边的权重其中,所述无向图中n个节点分别对应所述n个维修厂,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重wij为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方;

计算转移概率pij,构造转移概率矩阵p;其中,pij为节点i到节点j的概率,wik为节点i与节点k之间边的权重,k为大于0且小于或者等于n的整数,i≠k;为节点i与所述n个节点中除所述节点i外的n-1个节点之间的边的权重总和;

根据所述c类标签和所述l个节点,构造l×c的标签矩阵yl;根据所述的c类标签和所述(n-l)个节点,构造(n-l)×c的标签矩阵yn-l;合并所述标签矩阵yl和所述标签矩阵yn-l,得到n×c的矩阵f=[yl,yn-l];其中,所述标签矩阵yl为由l×c个数ylc排成l行c列的数表,第l行表示第l个节点,l为小于或者等于l的任一正整数,第c行表示第c类标签,c为小于或者等于c的任一正整数;所述标签矩阵yn-l为由(n-l)×c个数yhq排成(n-l)行c列的数表,第h行表示第h个节点,h为小于或者等于(n-l)的任一正整数,第q行表示第q类标签,q为小于或者等于c的任一正整数,所述数yhq的初始值为任意值;所述矩阵f为由n×c个数yfg排成n行c列的数表,第f行表示第f个节点,f为小于或者等于n的任一正整数,第g行表示第g类标签,g为小于或者等于c的任一正整数;

根据公式f(m)=pf计算,再通过yl重置矩阵f(m)的l个节点的标签,m=m+1;直至矩阵f(m)收敛或者m为最大迭代次数时,结束运算;其中,矩阵f(m)为经过第m次公式f(m)=pf计算后的矩阵;m为大于0的整数,且m的初始值为1;在矩阵f(m)中,节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;可选的,具体的步骤可以包括:

步骤1:f(1)=pf;

步骤2:利用标签矩阵yl重置矩阵f(1)中l个节点的标签;

步骤3:检测矩阵f(1)是否收敛或者数值1是否为最大迭代数,如果矩阵f(1)不收敛或者数值1不是最大迭代次数,则m=m+1;

步骤4:f(2)=pf(1)

步骤5:利用标签矩阵yl重置矩阵f(2)中l个节点的标签;

步骤6:检测矩阵f(2)是否收敛或者数值2是否为最大迭代数,如果矩阵f(2)不收敛或者数值2不是最大迭代次数,则m=m+1;

步骤7:f(3)=pf(2)

步骤8:利用标签矩阵yl重置矩阵f(3)中l个节点的标签;

步骤9:检测矩阵f(3)是否收敛或者数值3是否为最大迭代数,如果矩阵f(3)不收敛或者数值3不是最大迭代数,则m=m+1;

……

步骤w:检测矩阵f(m)是否收敛或者数值m是否为最大迭代次数;其中,w为正整数。当矩阵f(m)收敛时或者当数值m为最大迭代次时,矩阵f(m)中节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;否则m=m+1,继续执行上述循环步骤直至满足运算停止条件。

在一种可能的实现方式中,所述装置,还可包括:

评价单元,用于根据所述n个特征信息集合的标签,确定所述n个维修厂的评级。

第三方面,本申请提供一种维修厂分类设备,包括存储部件、通信部件和处理部件,存储部件、通信部件和处理部件相互连接,其中,存储部件用于存储数据处理代码,通信部件用于与外部设备进行信息交互;处理部件被配置用于调用程序代码,执行第一方面所述的方法,此处不再赘述。

第四方面,本申请提供一种计算机存储介质,用于储存上述第二方面提供的维修厂分类装置所用的计算机软件指令,其包含用于执行上述方面所设计的程序。

第五方面,本申请实施例提供了一种计算机程序,该计算机程序可包括指令,当该计算机程序被计算机执行时,使得计算机可以执行上述第一方面任意一项方法所描述的流程。

在本申请实施例中,构建的n个特征信息集合,能够反映n个维修厂的各方面情况;标记所述n个特征信息集合中的l个目标特征信息集合,引入标签,弥补了无监督学习算法的缺陷;根据标签传播算法lpa标记大量未标记的特征信息集合,避免过多的成本投入。本申请降低数据挖掘难度,得出的分类结果更客观、合理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对本申请实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图、附表仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图、附表获得其他的附图、附表。

图1是本申请实施例提供的一种维修厂分类的系统架构示意图;

图2是本申请实施例提供的另一种维修厂分类的系统架构示意图;

图3是本申请实施例提供的一种交互示意图;

图4是本申请实施例提供的另一种交互示意图;

图5是本申请实施例提供的一种无向图的子图a;

图6是本申请实施例提供的一种无向图的子图b;

图7是本申请实施例提供的一种维修厂分类装置的结构示意图;

图8是本申请实施例提供的一种通用设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。本申请实施例的技术方案可以应用于数据处理,聚类分析等领域。当方法、装置应用的领域和场景不同时,本申请实施例中具体设备、场地的名称也会不同。

首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。

(1)深度学习,是机器学习中一种基于对数据进行表征学习的方法。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度机器学习方法包括监督学习、半监督学习、无监督学习等。

(2)标签传播算法(labelpropagationalgorithm,lpa),是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。标签传播算法是所有基于标签的算法的基础,最大的特色是简单、高效。在标签传播算法基础上,改进的标签算法有copra、slpa等。

(3)画像,是指根据对象信息而抽象出来的标识化模型。在画像建设中,标识的构建是关键。标识是对目标的信息分析而来的高度精炼的特征。通过赋予标识可以利用一些高度概括、容易理解的特征来描述对象,让人更容易理解并且方便计算机处理。本申请中,l个目标特征信息集合的标签可以是根据一定标准或者规则,并基于每个目标特征信息集合内的标识而确定的。画像的方法可以包括以下三种:定性画像、定量画像、定性画像结合定量验证。画像是对目标对象做的一个数学模型,在整个数学模型中,核心是描述业务知识体系,实现的方式之一是标识。标识是某一种对象特征的符号表示。是一种内容组织方式,是一种关联性很强的关键字,能方便匹配合适的内容及内容分类。例如,目标对象被分到多少个类别里面去,这些类是什么,彼此之间有什么关系,就构成了标识体系。标识解决的是描述问题,但在实际应用中,还需要解决数据之间的关联,所以通常将标签作为一个体系来设计,以解决数据之间的关联问题。

(4)无向图,是图中节点简单连接的图,其中每对不同的节点之间都恰连有一条边相连;无向图的表示方法有以下3种:1.邻接矩阵;2.边的数组;3.邻接表数组。本申请使用边的数组来存放所有的边,数组的大小仅有e。需要访问某个顶点的相邻节点就必须遍历整个数组。完全图,属于无向图的一种,个端点的完全图有个端点以及条边;稀疏图,也属于无向图的一种,图中的一个

节点只与其最近的若干个节点有边,可以利用k最邻近knn算法构造稀疏图。

(5)欧式距离(euclideanmetric),也称欧几里得度量,是一个通常采用的距离定义,指在多维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

(6)speaker-listenerlabelpropagationalgorithm,slpa,是一种社区发现算法,它是对lpa算法(标签传播算法)的拓展。slpa不会像其他算法一样忘记上一次迭代中节点所更新的标签信息,它给每个节点设置了一个标签存储列表来存储每次迭代所更新的标签。最终的节点社区从属关系将由标签存储列表中所观察到的标签的概率决定,当一个节点观察到有非常多一样的标签时,那么,很有可能这个节点属于这个社区,而且在传播过程中也很有可能将这个标签传播给别的节点。更有益处的是,这种标签存储列表的设计可以使得算法可以支持划分重叠社区。

下面先对本申请实施例所基于的其中一种系统架构进行描述,本申请提出的维修厂分类方法可以应用于该系统架构。请参见图1,图1是本申请实施例提供的一种维修厂分类的系统架构示意图,如图1所示,该系统架构中包含了服务器、各个维修厂(图1中以维修厂1、维修厂2、……、维修厂8为例)以及所述维修厂对应的特征信息。其中,服务器可以为单个服务器或者一组服务器,能够执行上述第一方面中任意一项的方法实施例的内容;例如:根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合;从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签;根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签。

维修厂可以具体是旅馆、商店、公寓、汽修厂等服务性的组织或者其他属于三大产业的机构,本申请对此不作具体限定。可以理解的是,图1中的维修厂可以通过服务设备、终端设备、数据库或者客户端中的至少一种,记录并向服务器上传维修厂对应的特征信息;其中,维修厂对应的特征信息,可以包括维修厂环境、维修厂人员水平、维修厂设备、经营状况、信用情况等各方面的特征信息。

图1中方形虚线区域内的其他维修厂表示未被列举的其他的维修厂,图中所列维修厂数量是为方便描述而不是对维修厂数量作出的限定;虚线圆形区域内的维修厂1、维修厂4、维修厂6对应的特征信息集合是被标记的。由此可知,其余维修厂对应的特征信息集合是没有被标记的。维修厂将自身的特征信息通过网络等方式被上传至服务器;经过服务器处理之后,服务器可以向维修厂或者其他合理的对象反馈处理结果。服务器对特征信息的处理方式,可以包括从所述n个维修厂的特征信息分别构建n个维修厂的画像;从n个维修厂的画像分别抽象出n个特征信息集合,便于后续计算。其中,当维修厂的特征信息的数量为大于0且小于3的整数时,所述特征信息集合形式表示为坐标形式;当维修厂的特征信息的数量为大于或者等于3的整数时,所述特征信息集合形式表示为向量形式。例如,多维向量的每一个维度的分向量都能反映了某个维修厂特定方面的情况。

下面接着对本申请实施例所基于的另一种系统架构进行描述,本申请提出的维修厂分类方法也可以应用于该系统架构。请参见图2,图2是本申请实施例提供的另一种维修厂分类的系统架构示意图,如图2所示,该系统架构中包含了服务器、数据库、各个维修厂以及所述维修厂对应的特征信息。图2中与图1相同的内容,在此不再赘述。不同之处在于,数据库先收集各个维修厂的特征信息,再将这些维修厂的特征信息传给服务器。虽然图中提供的例子是收集数据设备是数据库,但本申请实施例对收集设备不做限定,可以包括服务设备、客户端或者终端设备中的一个;只要能够承担上述功能的设备,都可以认为是收集设备。信息收集的途径可以包括:人工记录并采集各个维修厂的信息再上传数据库,或者维修厂的服务器向数据库记录并上传自身的信息。本申请对数据采集的途径和具体方式不作限定。

可以理解的是,图1和图2所示的内容只是本申请实施例中的2种示例性的实施方式。本申请实施例中的系统架构可以包括但不仅限于以上系统架构。

结合上述图1的系统架构和本申请提供的方法实施例得到的交互示意图,请参见图3,图3是本申请实施例提供的一种交互示意图;

结合上述图2的系统架构和本申请提供的方法实施例得出另一种交互示意图,请参见图4,图4是本申请实施例提供的另一种交互示意图;

上面列举了两种交互示意图,下面以图3为例,对本申请提出的技术问题进行具体分析和解决,如图3所示,本方法实施例具体可以包括步骤s301-步骤s304;可选的,还可以包括步骤s304。其中,步骤s303提供了其他算法的可能实现方式。

步骤s301:根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合。

具体地,根据每个维修厂的特征信息,确定每个维修厂对应的特征信息集合。维修厂的数量为n,n为正整数;其中,维修厂的特征信息,可以包括:营业环境、从业人员水平、设备优劣程度、经营状况、信用情况等。从每个维修厂的特征信息得到每个维修厂对应的特征信息集合的方式,本申请对该方式并不限定。虽然可选的方式多样,但在一次方法实施例的实施过程中应用的方式是统一的。

在一种可能的实现方式中,所述n个特征信息集合,可包括:从所述n个维修厂的特征信息分别构建的画像中确定的特征信息集合。特征信息集合可以通过画像得到。例如,根据一个维修厂的特征信息,构建该维修厂的画像;维修厂画像构建流程可以包括以下三步:(1)画像的基本方向;(2)数据收集;(3)建模。画像是对维修厂的建模,以维修厂画像为基础分析维修厂的情况;画像数据的维度设计需要根据实际应用情况而定。根据具体的内容,画像的构建需要不同的数据;数据来源广泛,是全方位了解维修厂的基础。每一个维修厂的特征信息集合对应每一个维修厂的画像,可以认为特征信息集合是画像的数学表达形式。

步骤s302:从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签。

具体地,首先从所述n个特征信息集合中选取l个目标特征信息集合;然后根据一定的规则或者标准,确定所述l个目标特征信息集合中每一个目标特征信息集合的标签。一般情况下,l个标签的类别为c类,即样本标签类别能够涵盖划分的所有标签类别。其中,l为大于0且小于n的整数,且l远小于n;c为小于或者等于l的正整数,且每个目标特征信息集合对应一个标签。

在一种可能的实现方式中,所述从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签,可包括:按照预设的抽样规则,确定所述l个目标特征信息集合;所述l个目标特征信息集合的标签有c类;所述抽样规则,可以包括:对区域进行划分,结合划分的各个区块的面积、人口等特点,合理抽样得到具有代表性的样本;按照预设的标记方法,标记所述l个目标特征信息集合的标签;所述预设的标记方法,可以包括:结合特征信息集合的内容和标记方案,由人工对所述l个目标特征信息集合进行标记;或者,结合专家知识和相关的标记规则,由机器对所述l个目标特征信息集合进行标记。例如:对某城市的汽修厂进行分类,首先可以根据该城市的行政区划,确定在每个区域内的采样点;采样点的数量和位置,可以根据每个行政区划内私家车拥有量、汽修厂的分布、密集程度等情况进行选取;得到l个目标特征信息集合后,线下人工或者线上自动地,根据一定的标记分类规则、标准或者方案,确定l个目标特征信息集合的标签。

步骤s303:根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签。

具体地,根据lpa算法基本理论,l个目标特征信息集合对应的每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,相似节点的标签越趋于一致,其标签就越容易传播。在标签传播过程中,保持已标注节点的标签不变,使其像一个源头把标签传向(n-l)个未标记的特征信息集合对应的节点。最终,当迭代过程结束时,相似节点的概率分布趋于相似,可以划分到同一个类别中,从而完成标签传播过程。其中,所述(n-l)个未标记特征信息集合为所述n个特征信息集合中除所述l个目标特征信息集合外的特征信息集合;(n-l)为大于0且小于n的整数;一般l个标记的特征信息集合数量少,满足(n-l)大于l。

在一种可能的实现方式中,所述根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签,可以包括:

根据所述n个特征信息集合,构造无向图,计算无向图中边的权重计算图中每2个节点之间边的权重。其中,所述无向图中n个节点分别对应所述n个维修厂,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重wij为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,可以设定为1-10之间的任意数值或者通过实验设置合理的数值;xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方;结合图3对应的系统架构图,举例进行说明,请参见图5,图5是本申请实施例提供的一种无向图的子图a,如图5所示,n=8,以节点1为例的示意图;由特征信息集合确定的节点,对应相应的维修厂,例如节点1对应维修厂1;节点1标记的是1颗星,节点4标记的是2颗星;节点6标记的是3颗星;w12是节点1和节点2之间边的权重,以此类推w13、......、w18的含义。图中五角星的数量代表了一种标签的表示形式,星的数量对应一定的标签类别,比如1颗星代表最低的评价等级,3颗星代表最高的评价等级。本申请对标签的表现形式以及标签对应的具体内容,不做限定。

计算转移概率pij,构造转移概率矩阵p,节点i和节点j之间边权重wij占节点i与n-1个节点的边权重总和的比例,作为节点i标签向节点j转移的概率;其中,pij为节点i到节点j的概率,转移概率矩阵p为n×n方阵,其主对角线上的元素数值均为0,其次对角线上元素的下标行数和列数互换,元素的值不变。例如:pn1与p1n数值相同、p(n-1)2与p2(n-1)数值相同。wik为节点i与节点k之间边的权重,k为大于0且小于或者等于n的整数,i≠k;为节点i与所述n个节点中除所述节点i外的n-1个节点之间的边的权重总和。

结合上述的子图a,举例进行说明,请参见图6,图6是本申请实施例提供的一种无向图的子图b,在子图a的基础上得出子图b,如图6所示,在示意图中标注了节点1的标签向其余各个节点转移标签的概率,例如p12、p13,比如图6中p12表示节点1的1颗星标签有p12的概率传递给节点2。

根据所述c类标签和所述l个节点,构造l×c的标签矩阵yl,根据所述的c类标签和所述(n-l)个节点,构造(n-l)×c的标签矩阵yn-l,合并所述标签矩阵yl和所述标签矩阵yn-l,得到n×c的矩阵f=[yl,yn-l],其中,所述标签矩阵yl为由l×c个数ylc排成l行c列的数表,第l行表示第l个节点,l为小于或者等于l的任一正整数,第c行表示第c类标签,c为小于或者等于c的任一正整数;所述标签矩阵yn-l为由(n-l)×c个数yhq排成(n-l)行c列的数表,第h行表示第h个节点,h为小于或者等于(n-l)的任一正整数,第q行表示第q类标签,q为小于或者等于c的任一正整数,所述数yhq的初始值为任意值;所述矩阵f为由n×c个数yfg排成n行c列的数表,第f行表示第f个节点,f为小于或者等于n的任一正整数,第g行表示第g类标签,g为小于或者等于c的任一正整数。

根据公式f(m)=pf计算,再通过yl重置矩阵f(m)的l个节点的标签,m=m+1;直至矩阵f(m)收敛或者m为最大迭代次数时,结束运算;其中,矩阵f(m)为经过第m次公式f(m)=pf计算后的矩阵;m为大于0的整数,且m的初始值为1;在矩阵f(m)中,节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;可选的,具体的步骤可以包括:

步骤1:f(1)=pf,m=1,

其中,为方便描述,令上述没有完全列举矩阵f(1)中的每个元素,未列举的矩阵元素也可以用同样的方法表示。

步骤2:利用标签矩阵yl重置矩阵f(1)中l个节点的标签;

步骤3:检测矩阵f(1)是否收敛或者数值1是否为最大迭代数,如果矩阵f(1)不收敛或者数值1不是最大迭代次数,则m=m+1;

步骤4:f(2)=pf(1),

其中,为方便描述,令上述没有完全列举矩阵f(2)中的每个元素,未列举的矩阵元素也可以用同样的方法表示。

步骤5:利用标签矩阵yl重置矩阵f(2)中l个节点的标签;

步骤6:检测矩阵f(2)是否收敛或者数值2是否为最大迭代数,如果矩阵f(2)不收敛或者数值2不是最大迭代次数,则m=m+1;

步骤7:f(3)=pf(2)

其中,为方便描述,令上述没有完全列举矩阵f(3)中的每个元素,未列举的矩阵元素也可以用同样的方法表示。

步骤8:利用标签矩阵yl重置矩阵f(3)中l个节点的标签;

步骤9:检测矩阵f(3)是否收敛或者数值3是否为最大迭代数,如果矩阵f(3)不收敛或者数值3不是最大迭代数,则m=m+1;

……

步骤w:检测矩阵f(m)是否收敛或者数值m是否为最大迭代次数;其中,w为正整数。当矩阵f(m)收敛时或者当数值m为最大迭代次时,矩阵f(m)中节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;否则m=m+1,继续执行上述循环步骤直至满足运算停止条件。

在一种可能的实现方式中,所述根据所述n个特征信息集合,构造无向图,计算无向图中边的权重可包括:

根据所述n个特征信息集合,构造完全无向图g,计算所述完全无向图g中边的权重其中,所述完全无向图g中n个节点分别对应所述n个维修厂,g=(v,e),点集v表示所述n个节点的集合,边集e表示节点i、节点j之间边的集合,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,所述所述根据所述n个特征信息集合,构造无向图,计算无向图中边的权重可包括:

根据所述n个特征信息集合,构造稀疏无向图n,计算所述稀疏无向图n中边的权重稀疏无向图n可以基于k最近邻knn算法的思想构建的稀疏图,图中的每一个节点只与其k个最邻近的节点有边;其中,所述稀疏无向图n中n个节点分别对应所述n个维修厂,边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;i为大于0且小于或者等于k的任一整数,j为大于0且小于或者等于k的任一整数,i≠j,k为大于0且小于n的整数;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,步骤s303应用的算法还可以包括:slpa和copra;其中,

slpa的通用实现步骤:初始化所有节点的标签信息,使得每个节点拥有唯一的标签;标签传播:1.当前节点作为一个listener;2.当前节点的每一个邻居节点根据一定的speaking策略传递标签信息;3.当前节点从邻居节点传播的标签信息集中根据一定的listener策略选择一个标签作为本次迭代中的新标签;4.算法收敛或遍历达到指定的次数,算法结束。否则,标签在不断的遍历过程中传播;标签分类:后处理阶段根据节点的标签信息进行社区发现;

copra的通用实现步骤:在执行之初为每一个节点设置一个唯一的社区编号,一般这个社区编号就是节点自身的身份证明id;之后,节点会根据自己的邻居节点的社区分布决定自己的社区。算法使用隶属度(belongingcoefficient)来帮助节点决定选择社区。如果节点对于邻居节点所在社区的隶属度都低于阈值,那么节点就随机选择一个社区;最后,算法会根据停止条件来决定是否停止算法。停止条件一般分为两种:1.连续两次迭代社区标签数量相同;2.连续两次迭代社区内节点数目不变。

步骤s304:根据所述n个特征信息集合的标签,确定所述n个维修厂的评级。

具体地,根据n个特征信息集合的标签,确定了n个维修厂的类别。该类别能够准确地反映维修厂的各方面情况。根据各个维修厂的类别,评出维修厂的等级;维修厂的等级可以包括对某一类维修厂的概括总结和详细描述。

上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的相关装置。本装置实施例也主要以标签传播算法为例进行说明,其中,在标记单元中,本装置实施例提供了其他算法的可能实现方式。

本申请实施例的相关装置,请参见图7,图7是本申请实施例提供的一种维修厂分类装置的结构示意图,所述维修厂分类装置07,可以包括:第一预处理单元701、第二预处理单元702、标记单元703和评价单元704。其中,评价单元704是一种可选的单元。

第一预处理单元701,用于根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合;其中,n为大于0的整数;

第二预处理单元702,用于从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签;其中,l为大于0且小于n的整数,c为小于或者等于l的正整数,且每个目标特征信息集合对应一个标签;

标记单元703,用于根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签;所述(n-l)个未标记特征信息集合为所述n个特征信息集合中除所述l个目标特征信息集合外的特征信息集合;其中,(n-l)为大于0且小于n的整数。

在一种可能的实现方式中,所述n个特征信息集合,可包括:

从所述n个维修厂的特征信息分别构建的画像中确定的特征信息集合。

在一种可能的实现方式中,所述第二预处理单元,具体用于:

按照预设的抽样规则,确定所述l个目标特征信息集合;所述l个目标特征信息集合的标签有c类;所述抽样规则,可以包括:对区域进行划分,结合划分的各个区块的面积、人口等特点,合理抽样得到具有代表性的样本;

按照预设的标记方法,标记所述l个目标特征信息集合的标签;所述预设的标记方法,可以包括:结合特征信息集合的内容和标记方案,由人工对所述l个目标特征信息集合进行标记;或者,结合专家知识和相关的标记规则,由机器对所述l个目标特征信息集合进行标记。

在一种可能的实现方式中,所述标记单元,具体用于:

根据所述n个特征信息集合,构造无向图,计算无向图中边的权重其中,所述无向图中n个节点分别对应所述n个维修厂,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重wij为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方;

计算转移概率pij,构造转移概率矩阵p;其中,pij为节点i到节点j的概率,wik为节点i与节点k之间边的权重,k为大于0且小于或者等于n的整数,i≠k;为节点i与所述n个节点中除所述节点i外的n-1个节点之间的边的权重总和;

根据所述c类标签和所述l个节点,构造l×c的标签矩阵yl;根据所述的c类标签和所述(n-l)个节点,构造(n-l)×c的标签矩阵yn-l;合并所述标签矩阵yl和所述标签矩阵yn-l,得到n×c的矩阵f=[yl,yn-l];其中,所述标签矩阵yl为由l×c个数ylc排成l行c列的数表,第l行表示第l个节点,l为小于或者等于l的任一正整数,第c行表示第c类标签,c为小于或者等于c的任一正整数;所述标签矩阵yn-l为由(n-l)×c个数yhq排成(n-l)行c列的数表,第h行表示第h个节点,h为小于或者等于(n-l)的任一正整数,第q行表示第q类标签,q为小于或者等于c的任一正整数,所述数yhq的初始值为任意值;所述矩阵f为由n×c个数yfg排成n行c列的数表,第f行表示第f个节点,f为小于或者等于n的任一正整数,第g行表示第g类标签,g为小于或者等于c的任一正整数;

根据公式f(m)=pf计算,再通过yl重置矩阵f(m)的l个节点的标签,m=m+1;直至矩阵f(m)收敛或者m为最大迭代次数时,结束运算;其中,矩阵f(m)为经过第m次公式f(m)=pf计算后的矩阵;m为大于0的整数,且m的初始值为1;在矩阵f(m)中,节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;可选的,具体的步骤可以包括:

步骤1:f(1)=pf;

步骤2:利用标签矩阵yl重置矩阵f(1)中l个节点的标签;

步骤3:检测矩阵f(1)是否收敛或者数值1是否为最大迭代数,如果矩阵f(1)不收敛或者数值1不是最大迭代次数,则m=m+1;

步骤4:f(2)=pf(1)

步骤5:利用标签矩阵yl重置矩阵f(2)中l个节点的标签;

步骤6:检测矩阵f(2)是否收敛或者数值2是否为最大迭代数,如果矩阵f(2)不收敛或者数值2不是最大迭代次数,则m=m+1;

步骤7:f(3)=pf(2)

步骤8:利用标签矩阵yl重置矩阵f(3)中l个节点的标签;

步骤9:检测矩阵f(3)是否收敛或者数值3是否为最大迭代数,如果矩阵f(3)不收敛或者数值3不是最大迭代数,则m=m+1;

……

步骤w:检测矩阵f(m)是否收敛或者数值m是否为最大迭代次数;其中,w为正整数。当矩阵f(m)收敛时或者当数值m为最大迭代次时,矩阵f(m)中节点i的标签为所述节点i的最大值转移概率pij对应节点j的标签;否则m=m+1,继续执行上述循环步骤直至满足运算停止条件。

在一种可能的实现方式中,所述无向图为完全无向图g;所述无向图中边的权重为所述完全无向图g中边的权重其中,所述完全无向图g中n个节点分别对应所述n个维修厂,g=(v,e),点集v表示所述n个节点的集合,边集e表示节点i、节点j之间边的集合,i为大于0且小于或者等于n的任一整数,j为大于0且小于或者等于n的任一整数,i≠j;边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,所述无向图为稀疏无向图n;所述无向图中边的权重为所述稀疏无向图n中边的权重其中,所述稀疏无向图n中n个节点分别对应所述n个维修厂,边的权重为节点i与节点j之间边的权重,表示维修厂i与维修厂j的标签相似性;i为大于0且小于或者等于k的任一整数,j为大于0且小于或者等于k的任一整数,i≠j,k为大于0且小于n的整数;α为预设的参数,xi、xj分别为节点i、节点j对应的特征信息集合,||xi-xj||2为节点i与节点j之间的欧式距离平方。

在一种可能的实现方式中,所述装置,还可包括:

评价单元704,用于根据所述n个特征信息集合的标签,确定所述n个维修厂的评级。

需要说明的是,本申请装置实施例中所描述的维修厂分类装置07的各功能单元的功能,可参见上述图3和图4中所述的方法实施例中维修厂分类方法的相关描述,此处不再赘述。当各单元执行顺序改变,不影响本申请的新颖性和创新性时,本申请对维修厂分类装置各单元的执行顺序不做限定。

通过实施本申请实施例,构建n个特征信息集合,其集合能够反映n个维修厂的各方面情况;标记所述n个特征信息集合中的l个目标特征信息集合,引入标签,弥补了无监督学习算法的缺陷;根据标签传播算法lpa标记大量未标记的特征信息集合,避免过多的成本投入。本申请能够降低数据挖掘难度,得出的分类结果更客观、合理。

本申请实施例提供了一种通用设备08,请参见图8,图8是本申请实施例提供的一种通用设备的结构示意图,如图8所示,维修厂分类装置07能够以图8的结构实现,通用设备08可以包括至少一个存储部件801、至少一个通信部件802、至少一个处理部件803。此外,该设备还可以包括天线、电源等通用部件,在此不再详述。

存储部件801,可以是只读存储器(read-onlymemory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储、光碟存储(可以包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。

通信部件802,可以是用于与其他设备或通信网络通信,如升级服务器、密钥服务器、车载内部的设备等。

处理部件803,可以是通用中央处理器(cpu),微处理器,特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制以上方案程序执行的集成电路。

图8所示的设备为维修厂分类装置07时,处理部件803根据n个维修厂的特征信息,分别构建所述n个维修厂对应的n个特征信息集合;从所述n个特征信息集合中确定l个目标特征信息集合对应的c类标签;根据所述l个目标特征信息集合和所述l个目标特征信息集合对应的c类标签,通过标签传播算法lpa确定(n-l)个未标记特征信息集合中任意一个特征信息集合在所述c类标签中对应的标签。

本申请实施例还提供了一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可以包括上述方法实施例中记载的任意一种的部分或全部步骤。

本申请实施例还提供了一种计算机程序,该计算机程序可以包括指令,当该计算机程序被计算机执行时,使得计算机可以执行包括上述方法实施例中记载的任意一种的部分或全部步骤。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述装置实施例的单元可以是或者也可以不是物理上分开的,可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来;该计算机软件产品存储在一个存储介质中,可以包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1