人群特征分类方法、装置、计算机设备和可读存储介质与流程

文档序号:19157052发布日期:2019-11-16 00:57阅读:276来源:国知局
人群特征分类方法、装置、计算机设备和可读存储介质与流程

本发明涉及计算机技术领域,特别是涉及一种人群特征分类方法、装置、计算机设备和可读存储介质。



背景技术:

为了对公司职员的绩效进行预测,需要按照人群聚类模型,对职员进行人群特征分类,人群特征包含广泛,涉及到工作、生活、背景等多方面,具体特征例如客户拜访总频次、工作日通勤时长、教育背景等;人群聚类模型,是按照人群的特征,将人群分为不同的类型,例如高强度工作类型、高频次客户联系类型等。

现有技术通过人群聚类模型对人进行分类,通常是采用k-means聚类模型,但是这一聚类模型缺少对于人群大量特征的有效提取,因此,分类准确度不够高。



技术实现要素:

本发明的目的在于提供一种人群特征分类方法、装置、计算机设备和可读存储介质,能够更为充分的提取人群特征,有效提高人群特征分类的准确度。

本发明的目的通过如下技术方案实现:

一种人群特征分类方法,所述方法包括:

获取待分类的人群特征的独热码;

将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;

将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

在其中一个实施例中,所述获取待分类的人群特征的独热码的步骤,包括:

获取待分类的人群特征,所述人群特征包括离散特征和连续特征编码;

查询所述离散特征的数量,当所述离散特征的数量大于预设数量时,查询各所述离散特征的离散归类特征,将所述离散归类特征作为上级离散特征;

将所述上级离散特征转化为离散编码,将所述离散编码和所述连续特征编码作为所述独热码。

在其中一个实施例中,所述将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量的步骤之前,还包括:

获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型。

在其中一个实施例中,所述获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型的步骤,包括:

获取已经分类的样本人群的特征编码,将所述特征编码作为样本独热码;

根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构;

提取各所述训练自编码结构的隐含特征向量,获取与各所述隐含特征向量分别对应的训练聚类模型;

从所述多个训练聚类模型中选取目标聚类模型,获取与所述目标聚类模型对应的目标自编码结构。

在其中一个实施例中,所述根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构的步骤,包括:

将所述样本独热码输入预存的自编码结构,得到对应的训练输出编码;

计算所述样本独热码和所述训练输出编码之间的信息损失量;

不断调整所述自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将所述调整参数后的自编码结构作为所述训练自编码结构。

在其中一个实施例中,所述获取与各所述隐含特征向量分别对应的训练聚类模型的步骤,包括:

将各所述隐含特征向量分别输入预设聚类模型;

调整所述预设聚类模型的参数,使调整参数后的预设聚类模型输出与所述隐含特征向量对应的预设分类结果,将调整参数后的预设聚类模型作为所述训练聚类模型。

在其中一个实施例中,所述从所述多个训练聚类模型中选取目标聚类模型的步骤,包括:

获取各所述训练聚类模型的轮廓系数;

将预设阈值分别减去各所述轮廓系数得到各系数差;

选取系数差最小的轮廓系数对应的训练聚类模型,作为所述目标聚类模型。

一种人群特征分类装置,所述装置包括:

独热码获取模块,用于获取待分类的人群特征的独热码;

隐含特征提取模块,用于将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;

分类模块,用于将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

获取待分类的人群特征的独热码;

将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;

将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:

获取待分类的人群特征的独热码;

将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;

将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

本发明提供的人群特征分类方法,其将人群特征转化为独热码,从目标自编码结构的中间层提取与独热码对应的目标隐含特征向量,采用目标隐含特征向量能够更为充分的提取人群特征;再将目标隐含特征向量输入目标聚类模型得到目标分类结果,以目标隐含特征向量区分人群特征可以有效提高人群特征分类的准确度。

附图说明

图1为一个实施例中人群特征分类方法的应用环境图;

图2为一个实施例中人群特征分类方法的流程示意图;

图3为一个实施例中自编码结构示意图;

图4为一个实施例中人群特征分类方法的流程示意图;

图5为另一个实施例中人群特征分类方法的流程示意图;

图6为一个实施例中人群特征分类装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的人群特征分类方法,可以应用于如图1所示的应用环境中。具体的,服务器获取待分类的人群特征的独热码;服务器获取目标自编码结构,以及,获取与目标自编码结构对应的目标聚类模型;服务器将独热码输入目标自编码结构,提取目标自编码结构的目标隐含特征向量;服务器将目标隐含特征向量输入目标聚类模型,得到目标分类结果。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种人群特征分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤s202,获取待分类的人群特征的独热码。

本步骤中,独热码又称为一位有效编码,主要是采用n位状态寄存器来对n个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效;独热码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

其中,人群特征包含广泛,涉及到工作、生活、背景等多方面,例如客户拜访总频次、工作日通勤时长、教育背景等等。

具体的,采用状态寄存器将每一人群特征对应转化为一个对应的独热码。

例如,人群特征的自然状态码为:小学,初中,高中,大学,转化成对应的的独热编码为:1000,0100,0010,0001。

步骤s204,将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征。

其中,自编码结构是一种神经网络,如图3所示,图3为自编码结构示意图,将x1-x6输入自编码结构,自编码结构对x1-x6进行编码,然后进行解码,得到使得输出的和输入的x1-x6之间的差异最小化,此时自编码结构的中间层就是输入的x1-x6的隐含特征向量。

其中,隐含特征向量是将输入自编码结构的独热码进行编码得到的特征向量,保留了原始输入自编码结构的独热码的大量信息,用以区分人群特征;自编码结构再将隐含特征向量进行解码还原,得到输出编码。

在具体实施过程中,将独热码输入目标自编码结构,提取目标自编码结构的中间层的目标隐含特征向量。

步骤s206,将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

其中,聚类模型是一种用于聚类分析的模型;聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程;聚类分析的目标就是在相似的基础上收集数据来分类。

在一种实施过程中,可以直接获取预设的目标自编码结构和对应的目标聚类模型。

其中,由于聚类模型可以将物理或抽象对象的集合分组为由类似的对象组成的多个类,因此,将目标隐含特征向量输入目标聚类模型,目标聚类模型直接输出待分类人群特征的分类结果。

在另一种实施过程中,还可以通过聚类模型的评价系数,从多个预设的聚类模型中选取聚类效果最优的目标聚类模型,由于目标聚类模型是根据隐含特征向量建立的,因此,获取到目标聚类模型,就可以获取和目标聚类模型对应的目标自编码结构。

上述人群特征分类方法,通过将人群特征转化为独热码,从目标自编码结构的中间层提取与独热码对应的目标隐含特征向量,采用目标隐含特征向量能够更为充分的提取人群特征;再将目标隐含特征向量输入目标聚类模型得到目标分类结果,以目标隐含特征向量区分人群特征可以有效提高人群特征分类的准确度。

在一个实施例中,如图4所示,步骤s202的获取待分类的人群特征的独热码,包括:

步骤s210,获取待分类的人群特征,人群特征包括离散特征和连续特征编码。

其中,连续特征是指连续型数据,离散特征表示不同类目。

例如,离散特征包括20个不同的市;连续特征包括年龄为25岁至40岁。

步骤s220,查询离散特征的数量,当离散特征的数量大于预设数量时,查询各离散特征的离散归类特征,将离散归类特征作为上级离散特征。

在具体实施过程中,当离散特征数量大于预设数量时,说明获取的类别比较多,因此,需要对获取到的类别进行一个简单的归类,即查询每一个离散特征的离散归类特征。

例如,离散特征有20个不同的市,超过15的预设数量,查询每个市所在的省,就可以得到上一级离散特征,最后20个市就分成了五个省,得到的“省”就是“市”的上级离散特征。

当离散特征数量小于预设数量时,直接将离散特征转化为离散编码,然后将离散编码和连续特征编码作为独热码。

步骤s230,将上级离散特征转化为离散编码,将离散编码和连续特征编码作为独热码。

在具体实施过程中,将上级离散特征转化为one-hot形式,也就是独热编码。

例如,自然状态码为:小学,初中,高中,大学,转化成的独热编码为:1000,0100,0010,0001。

在一个实施例中,如图5所示,步骤s204的将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量的步骤之前,还包括:

步骤s203,获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型。

在一种实施过程中,可以直接获取预设的目标自编码结构和对应的目标聚类模型。

在另一种实施过程中,还可以通过聚类模型的评价系数,从多个预设的聚类模型中选取聚类效果最优的目标聚类模型,由于目标聚类模型是根据隐含特征向量建立的,因此,获取到目标聚类模型,就可以获取和目标聚类模型对应的目标自编码结构。

在一个实施例中,步骤s204的获取目标自编码结构,并获取与目标自编码结构对应的目标聚类模型,包括:

(1)获取已经分类的样本人群的特征编码,将特征编码作为样本独热码。

其中,已经分类的样本人群的特征编码,是通过已经分类的样本人群的人群特征获得。

在具体实施过程中,也是通过将离散特征转化成离散编码,然后和连续特征编码一起作为样本独热码。

(2)根据样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构。

其中,自编码结构的训练过程是使输入和输出差异最小化的过程。

在具体实施过程中,将样本独热码分别输入多个不同的自编码结构,不同的自编码结构的区别在于隐层数量和隐层单元数量的不同,分别调整多个自编码结构的参数,使各自编码结构输出和样本独热码差异最小化。

(3)提取各训练自编码结构的隐含特征向量,获取与各隐含特征向量分别对应的训练聚类模型。

在具体实施过程中,从训练自编码结构的中间层提取隐含特征向量,根据隐含特征向量和预设聚类模型,就可以得到对应的训练聚类模型。

(4)从多个训练聚类模型中选取目标聚类模型,获取与目标聚类模型对应的目标自编码结构。

在具体实施过程中,通过聚类模型的评价系数,从多个训练聚类模型中选取聚类效果最优的目标聚类模型,由于目标聚类模型是根据隐含特征向量建立的,因此,获取到目标聚类模型,就可以获取和目标聚类模型对应的目标自编码结构。

在一个实施例中,根据样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构,包括:

将样本独热码输入预存的自编码结构,得到对应的训练输出编码。

在具体实施过程中,服务器预存有多种不同隐层结构的自编码结构,分别将样本独热码输入多个不同隐层的自编码结构,得到对应的训练输出编码。

例如,预存有隐层数量分别为一层、两层和三层的三种自编码结构,将样本独热码分别输入三种自编码结构,得到对应的三种训练输出编码。

获取样本独热码和训练输出编码之间的信息损失量。

其中,信息损失量代表样本独热码输入自编码结构,然后输出训练输出编码的这个过程中的信息损失。

在具体实施过程中,由于自编码结构的训练过程是使输入和输出差异最小化的过程,因此,要通过样本独热码和训练输出编码计算自编码结构的信息损失量。

不断调整自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将调整参数后的自编码结构作为训练自编码结构。

在具体实施过程中,每次输入样本独热码,得到训练输出编码,计算样本独热码和训练输出编码之间的信息损失,调整参数,重新输入样本独热码进行训练,再次计算样本独热码和训练输出编码之间的信息损失,不断调整参数,使信息损失不断减小,直到信息损失收敛,即停止减小,说明当前的参数为最优参数,自编码结构的训练完成。

在一个实施例中,获取样本独热码和训练输出编码之间的信息损失量,包括:

采用均方误差损失函数,计算样本独热码和训练输出编码之间的信息损失量。

其中,均方误差损失函数公式为:

式中,m为样本数,ya为样本独热码,yb为训练输出编码。

在具体实施过程中,样本独热码和训练输出编码之间的差异越小,即ya和yb越接近,对应的自编码结构的信息损失量越小。

在一个实施例中,获取与各隐含特征向量分别对应的训练聚类模型,包括:

将各隐含特征向量分别输入预设聚类模型。

其中,聚类模型是一种用于聚类分析的模型;聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程;聚类分析的目标就是在相似的基础上收集数据来分类。

具体的,预设聚类模型为k-means模型;k-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。

调整预设聚类模型的参数,使调整参数后的预设聚类模型输出与隐含特征向量对应的预设分类结果,将调整参数后的预设聚类模型作为训练聚类模型。

在具体实施过程中,用户可以将隐含特征向量输入训练好的聚类模型,得到标准分类结果,然后将标准分类结果作为预设分类结果,通过预设分类结果和隐含特征向量,对预设聚类模型进行训练。

在另一种实施过程中,用户还可以自己设置于隐含特征向量对应的预设分类结果,通过预设分类结果和隐含特征向量,对预设聚类模型进行训练。

在一个实施例中,从多个训练聚类模型中选取目标聚类模型,包括:

获取各训练聚类模型的轮廓系数。

其中,轮廓系数是聚类效果好坏的一种评价方式,它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。

将预设阈值分别减去各轮廓系数得到各系数差。

选取系数差最小的轮廓系数对应的训练聚类模型,作为目标聚类模型。

在具体实施过程中,由于轮廓系数的值大于-1且小于1,轮廓系数越趋近于1,代表对应的聚类模型的内聚度和分离度都相对较优,因此,将1减去轮廓系数,得到的系数差越小,说明对应的聚类模型的内聚度和分离度都相对较优,因此,选取轮廓系数更接近于1的训练聚类模型,作为目标聚类模型。

应该理解的是,虽然图2和图4-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中,如图6所示,提供了一种人群特征分类装置,装置包括:

独热码获取模块602,用于获取待分类的人群特征的独热码;

隐含特征提取模块604,用于将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;

分类模块606,用于将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

关于人群特征分类装置的具体限定可以参见上文中对于人群特征分类方法的限定,在此不再赘述。上述人群特征分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储人群特征分类涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人群特征分类方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待分类的人群特征的独热码;将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

在其中一个实施例中,处理器执行计算机程序时获取待分类的人群特征的独热码的步骤,包括:获取待分类的人群特征,人群特征包括离散特征和连续特征编码;查询离散特征的数量,当离散特征的数量大于预设数量时,查询各离散特征的离散归类特征,将离散归类特征作为上级离散特征;将上级离散特征转化为离散编码,将离散编码和连续特征编码作为独热码。

在其中一个实施例中,处理器执行计算机程序时将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量的步骤之前,还包括:获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型。

在其中一个实施例中,处理器执行计算机程序时获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型的步骤,包括:获取已经分类的样本人群的特征编码,将所述特征编码作为样本独热码;根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构;提取各所述训练自编码结构的隐含特征向量,获取与各所述隐含特征向量分别对应的训练聚类模型;从所述多个训练聚类模型中选取目标聚类模型,获取与所述目标聚类模型对应的目标自编码结构。

在其中一个实施例中,处理器执行计算机程序时根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构的步骤,包括:将所述样本独热码输入预存的自编码结构,得到对应的训练输出编码;计算所述样本独热码和所述训练输出编码之间的信息损失量;不断调整所述自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将所述调整参数后的自编码结构作为所述训练自编码结构。

在其中一个实施例中,处理器执行计算机程序时获取与各隐含特征向量分别对应的训练聚类模型的步骤,包括:将各隐含特征向量分别输入预设聚类模型;调整预设聚类模型的参数,使调整参数后的预设聚类模型输出与隐含特征向量对应的预设分类结果,将调整参数后的预设聚类模型作为训练聚类模型。

在其中一个实施例中,处理器执行计算机程序时从多个训练聚类模型中选取目标聚类模型的步骤,包括:获取各训练聚类模型的轮廓系数;将预设阈值分别减去各轮廓系数得到各系数差;选取系数差最小的轮廓系数对应的训练聚类模型,作为目标聚类模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待分类的人群特征的独热码;将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量;其中,所述目标隐含特征向量用于区分所述人群特征;将所述目标隐含特征向量输入预设的目标聚类模型,得到待分类的所述人群特征的目标分类结果;其中,所述目标聚类模型与所述目标自编码结构相对应。

在其中一个实施例中,计算机程序被处理器执行时获取待分类的人群特征的独热码的步骤,包括:获取待分类的人群特征,人群特征包括离散特征和连续特征编码;查询离散特征的数量,当离散特征的数量大于预设数量时,查询各离散特征的离散归类特征,将离散归类特征作为上级离散特征;将上级离散特征转化为离散编码,将离散编码和连续特征编码作为独热码。

在其中一个实施例中,计算机程序被处理器执行时将所述独热码输入预设的目标自编码结构,从所述目标自编码结构的中间层提取与所述独热码对应的目标隐含特征向量的步骤之前,还包括:获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型。

在其中一个实施例中,计算机程序被处理器执行时获取所述目标自编码结构,并获取与所述目标自编码结构对应的所述目标聚类模型的步骤,包括:获取已经分类的样本人群的特征编码,将所述特征编码作为样本独热码;根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构;提取各所述训练自编码结构的隐含特征向量,获取与各所述隐含特征向量分别对应的训练聚类模型;从所述多个训练聚类模型中选取目标聚类模型,获取与所述目标聚类模型对应的目标自编码结构。

在其中一个实施例中,计算机程序被处理器执行时根据所述样本独热码,对预存的多个自编码结构进行训练,得到多个训练自编码结构的步骤,包括:将所述样本独热码输入预存的自编码结构,得到对应的训练输出编码;计算所述样本独热码和所述训练输出编码之间的信息损失量;不断调整所述自编码结构的参数,直至根据调整参数后的自编码结构得到的信息损失量符合预设条件,将所述调整参数后的自编码结构作为所述训练自编码结构。

在其中一个实施例中,计算机程序被处理器执行时获取与各隐含特征向量分别对应的训练聚类模型的步骤,包括:将各隐含特征向量分别输入预设聚类模型;调整预设聚类模型的参数,使调整参数后的预设聚类模型输出与隐含特征向量对应的预设分类结果,将调整参数后的预设聚类模型作为训练聚类模型。

在其中一个实施例中,计算机程序被处理器执行时从多个训练聚类模型中选取目标聚类模型的步骤,包括:获取各训练聚类模型的轮廓系数;将预设阈值分别减去各轮廓系数得到各系数差;选取系数差最小的轮廓系数对应的训练聚类模型,作为目标聚类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1