一种聚类方法、装置及电子设备与流程

文档序号:15236455发布日期:2018-08-24 05:28阅读:127来源:国知局

本发明涉及数据处理技术,尤其涉及一种聚类方法、装置及电子设备。



背景技术:

机器学习(ml,machinelearning)是一门多领域交叉技术,在实际工业领域中不断获得应用。

在进行机器学习时,存在对样本进行分类前需要对样本进行聚类的操作;在对样本进行聚类时,通过对样本随机采样获得聚类的初始点,导致聚出的类别可能在聚类算法上是最优的,但是与实际业务需求偏差较大;或者聚类算法进行多次迭代收敛非常缓慢,而聚类结果却没有实际应用价值。



技术实现要素:

本发明实施例提供一种聚类方法、装置及电子设备,能至少解决现有技术中存在的上述问题。

本发明实施例的技术方案是这样实现的:

第一方面,本发明实施例提供一种聚类方法,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。

上述方案中,所述基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息,包括:

初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

上述方案中,所述基于所述各样本的空间分布信息,对所述样本集中各样本进行划分,包括:

将样本的特征加权和与预设的多个阈值进行匹配;

对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。

上述方案中,所述基于划分结果计算下一次聚类的初始点,包括:

计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;

确定每个簇的质心为下一次聚类的初始点。

上述方案中,所述基于划分结果计算下一次聚类的初始点之后,还包括:

以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

上述方案中,所述方法还包括:

标记聚类形成的簇对应的标签;

基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。

第二方面,本发明实施例还提供一种聚类装置,包括:

构建单元,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;

划分单元,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;

计算单元,用于基于划分结果计算下一次聚类的初始点。

上述方案中,所述构建单元,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

第三方面,本发明实施例还提供一种电子设备,所述电子设备包括:

存储器,用于存储可执行程序;

处理器,用于通过执行所述存储器中存储的可执行程序时实现:

基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;

基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;

基于划分结果计算下一次聚类的初始点。

上述方案中,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

本发明实施例提供的聚类方法、装置及电子设备,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。如此,通过基于样本的特征及特征对应的初始化权重对样本集中的样本进行划分,以获得下一次聚类的初始点,避免了对样本随机采样作为聚类的初始点导致的聚类结果与实际业务需求偏差大、聚类结果没有实际应用价值等问题,能够快速的将各样本聚类到相应的簇中,提高了聚类效率和聚类效果。

附图说明

图1为本发明实施例电子设备的一个可选的硬件结构示意图;

图2为本发明实施例一提供的聚类方法的处理流程示意图;

图3为本发明实施例构建各样本的空间分布信息的处理流程示意图;

图4为本发明实施例样本的空间分布信息示意图;

图5-1为本发明实施例对样本进行划分的示意图一;

图5-2为本发明实施例对样本进行划分的示意图二;

图6为本发明实施例二提供的聚类方法的处理流程示意图;

图7为本发明实施例三提供的聚类方法的处理流程示意图;

图8为本发明实施例四提供的聚类装置的组成结构示意图。

具体实施方式

对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

1)机器学习(machinelearning):对训练集的样本分析,获得能够对样本的目标变量进行预测的机器学习模型(下文中也简称为参数)的过程。

2)无监督学习,通过对无标记训练样本的学习来揭示数据的内在性质及规律,为数据分析提供基础。

3)样本集,采用无监督方式训练机器学习模型所采用的样本(也称为训练样本)的集合。

4)聚类,将数据集中的样本,按照样本间的相似性划分为若干个不相交的子集,每个子集成为一个簇。

本发明实施例可提供为聚类方法以及聚类装置,实际应用中,聚类装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。图1示例性示出了电子设备10的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示器、键盘、触摸屏、扬声器麦克风中的一个或多个),存储器14以及网络接口12,组件可以经系统总线15连接通信。

当然,本发明实施例不局限于提供为方法和硬件,还可有多种实现方式,例如提供为存储介质(存储有用于执行本发明实施例提供的聚类方法的指令),以下再对不同的实现方式举例说明。

一、移动端应用程序及模块

本发明实施例可提供为使用c/c++、java等编程语言设计的软件模块,嵌入到基于android或ios等系统的各种移动端apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的聚类任务,并且定期或不定期地通过各种网络通信方式将数据、中间结果或最终结果传送给远程的服务器,或者在移动端本地保存。

二、服务器应用程序及平台

本发明实施例可提供使用c/c++、java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种,与服务器上已有的某些数据或结果综合起来计算得到更新的结果,然后实时或非实时地输出给其他应用程序或模块使用,也可以写入服务器端数据库或文件进行存储。

本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(web)界面或其他各用户界面(ui,userinterface),形成供个人、群体或企业使用的数据挖掘平台和信用评估平台(用于评估用户的信用)等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果,也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。

三、服务器端应用程序接口(api,applicationprograminterface)及插件

本发明实施例可提供为实现服务器端的api、软件开发套件(sdk,softwaredevelopmenttoolkit)或插件,供其他的服务器端应用程序开发人员调用,并嵌入到各类应用程序中。

四、移动设备客户端api及插件

本发明实施例还可提供为移动设备端的api、sdk或插件,供其他的移动端应用程序开发人员调用,并嵌入到各类应用程序中。

试对本发明实施例提供的聚类方法及装置能够适用应用场景进行举例说明,当然不局限于以下所给出的场景示例。

场景1)信用评估:从用户的各种数据如总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单中提取出能够反映用户的还款能力、还款意愿的信息等用于评定用户的信用评分(或信用等级)的信息。

场景2)数据挖掘:基于用户的各种行为日志、广告物料的文本描述等海量数据,判断用户感兴趣的产品。各种电商网站的商品推荐系统,需要从用户的搜索、收藏、浏览和评论行为,以及商品的各种描述,商家的交易历史等海量数据中挖掘有价值的信息,预测当前用户潜在可能对哪些商品感兴趣(如服饰类、数码产品类),并推荐给该用户。

下面结合附图和具体实施例对本发明作进一步详细说明。

实施例一

本发明实施例一提供的聚类方法的处理流程示意图,如图2所示,包括:

步骤s101,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。

在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。

电子设备构建各样本的空间分布信息的处理流程,如图3所示,包括:

步骤s201,初始化各样本的特征对应的权重,形成特征对应的初始化权重。

在一示例中,电子设备通过设置各样本的特征对应的权重,形成特征对应的初始化权重。

步骤s202,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和。

在一示例中,电子设备对样本的特征进行量化;举例来说,当样本对应的特征为是否为我司黑名单时,特征对应的量化值为1或0;其中,1表示为我司黑名单,0表示不是我司黑名单;当样本对应的特征为客户风险等级时,特征对应的量化值可以是1(低风险)、2(中风险)和3(高风险)。

本实施例中,x表示样本的特征量化值,w表示特征对应的初始化权重,则样本的特征加权和a为:

步骤s203,基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

在一示例中,利用二维坐标来表示样本的空间分布信息,如图4所示,x轴坐标表示样本的特征加权和,y轴坐标表示特征加权和对应的样本的数量;如此,形成了以样本的特征加权和及特征加权和对应的样本数量为维度的样本的空间分布信息。

步骤s102,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。

本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。

在一可选实施方式中,如图5-1所示,a1、a2、a3和a4为预设阈值,相应的,样本的特征加权用a表示,阈值条件包括:a<a1,a1<a<a2,a2<a<a3,a3<a<a4,a>a4。因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于a1的样本划分为第一簇,将匹配得到的特征加权和小于a2且大于a1的样本划分为第二簇,将匹配得到的特征加权和小于a3且大于a2的样本划分为第三簇,将匹配得到的特征加权和小于a4且大于a3的样本划分为第四簇,将匹配得到的特征加权和大于a4的样本划分为第五簇。

在另一可选实施方式中,如图5-2所示,a5和a6为样本的空间分布信息中的拐点,样本的特征加权用a表示,相应的阈值条件包括:a<a5,a5<a<a6,a>a6;因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于a5的样本划分为第六簇,将匹配得到的特征加权和小于a6且大于a5的样本划分为第七簇,将匹配得到的特征加权和大于a6的样本划分为第八簇。

本发明实施例中,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分时采用的阈值,除了上述预设的阈值及空间分布信息的拐点外,还可以是基于其他因素获得的阈值,这里不做限定。

步骤s103,基于划分结果计算下一次聚类的初始点。

在一可选实施方式中,基于图5-1所示样本的空间分布信息计算划分得到的第一簇、第二簇、第三簇、第四簇及第五簇中各样本的特征加权和的平均值,分别得到第一簇、第二簇、第三簇、第四簇及第五簇的质心,将得到的第一簇、第二簇、第三簇、第四簇及第五簇的质心作为下一次聚类的初始点。

在另一可选实施方式中,基于图5-2所示样本的空间分布信息计算划分得到的第六簇、第七簇及第八簇中各样本的特征加权和的平均值,分别得到第六簇、第七簇及第八簇的质心,将得到的第六簇、第七簇及第八簇的质心作为下一次聚类的初始点。

本发明实施例中,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分的结果,作为计算下一次聚类的初始点的参考,使得能够较快的使各样本聚集到相应的簇中,减少聚类算法中迭代次数,实现聚类算法的快速收敛;避免随机选择的样本作为聚类的初始点导致的聚类算法多次迭代收敛缓慢的问题,以及避免聚类结果不符合实际业务、陷入局部最优的问题。

实施例二

本发明实施例二提供的聚类方法的处理流程示意图,如图6所示,包括:

步骤s301,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。

在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。

构建各样本的空间分布信息的处理流程,如图3所示。

步骤s302,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。

本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分,将样本划分为不同的簇。

步骤s303,基于划分结果计算下一次聚类的初始点。

在一实施例中,计算将样本划分的每个簇中各样本的特征加权和的平均值,得到每个簇的质心,将得到的每个簇的质心作为下一次聚类的初始点。

步骤s304,以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。

示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。

实施例三

本发明实施例三提供的聚类方法的处理流程示意图,如图7所示,包括:

步骤s401,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。

在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。

构建各样本的空间分布信息的处理流程,如图3所示。

步骤s402,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。

本发明实施例中,预先设置多个与样本的特征加权和对应的阈值,将计算得到的样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分,将样本划分为不同的簇。

步骤s403,基于划分结果计算下一次聚类的初始点。

在一实施例中,计算将样本划分的每个簇中各样本的特征加权和的平均值,得到每个簇的质心,将得到的每个簇的质心作为下一次聚类的初始点。

步骤s404,以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。

示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。

本发明实施例中,可以对样本进行两次以上的迭代聚类,直至相邻两次聚类的结果相同或相似便停止聚类;每次迭代聚类可以基于相同的因子进行聚类,也可以基于不同的因子进行聚类。举例来说,在第一次聚类时,可以基于样本的特征加权和进行聚类;在第二次聚类时,可以基于样本的特征加权和进行聚类,也可以基于特定的一个样本特征进行聚类;如此,通过基于不同的因此进行聚类,能够避免聚类结果局部最优。

步骤s405,标记聚类形成的簇对应的标签。

示例性的,在本发明实施例提供的聚类方法应用于信用评估时,簇对应的簇标签可以包括信用等级良好、信用等级一般、信用等级差等。

在本发明实施例提供的聚类方法应用于数据挖掘时,簇对应的簇标签可以包括数码产品类用户、服饰类用户、母婴产品类用户等。

步骤s406,基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。

本发明可选实施例中,当机器学习模型采用xgboost模型为分类器时,由于xgboost模型支持对于样本以特征为粒度进行并行的训练,例如对于相同特征的样本分配一个或多个线程,在硬件实现上使用多线程的处理器进行训练,这样,不同(类型)特征的样本可以被并行地用于对机器学习模型进行训练,显著缩短了机器学习模型的训练时间,提升了机器学习模型的训练效率。

实施例四

本发明实施例四提供一种聚类装置,所述聚类装置的组成结构示意图,如图8所示,包括:

构建单元101,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息。

在本发明可选实施例中,样本集中的样本包括特征,特征为样本的多个维度的属性。举例来说,在某一特定应用场景,特征包括:客户总资产、客户工程机械资产、总逾期金额、当前敞口金额、客户风险等级、是否为我司黑名单等。

在一示例中,利用二维坐标来表示样本的空间分布信息,如图4所示,x轴坐标表示样本的特征加权和,y轴坐标表示特征加权和对应的样本的数量;如此,形成了以样本的特征加权和及特征加权和对应的样本数量为维度的样本的空间分布信息。

划分单元102,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分。

在一可选实施方式中,如图5-1所示,a1、a2、a3和a4为预设阈值,相应的,样本的特征加权用a表示,阈值条件包括:a<a1,a1<a<a2,a2<a<a3,a3<a<a4,a>a4。因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于a1的样本划分为第一簇,将匹配得到的特征加权和小于a2且大于a1的样本划分为第二簇,将匹配得到的特征加权和小于a3且大于a2的样本划分为第三簇,将匹配得到的特征加权和小于a4且大于a3的样本划分为第四簇,将匹配得到的特征加权和大于a4的样本划分为第五簇。

在另一可选实施方式中,如图5-2所示,a5和a6为样本的空间分布信息中的拐点,样本的特征加权用a表示,相应的阈值条件包括:a<a5,a5<a<a6,a>a6;因此,基于样本的空间分布信息及阈值条件,将样本的特征加权和与预设的多个阈值进行匹配,将匹配得到的特征加权和小于a5的样本划分为第六簇,将匹配得到的特征加权和小于a6且大于a5的样本划分为第七簇,将匹配得到的特征加权和大于a6的样本划分为第八簇。

本发明实施例中,基于所述各样本的空间分布信息,对所述样本集中各样本进行划分时采用的阈值,除了上述预设的阈值及空间分布信息的拐点外,还可以是基于其他因素获得的阈值,这里不做限定。

计算单元103,用于基于划分结果计算下一次聚类的初始点。

在一实施例中,所述构建单元101,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

在一实施例中,所述划分单元102,具体用于将样本的特征加权和与预设的多个阈值进行匹配;

对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。

在一实施例中,所述计算单元103,具体用于计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;

确定每个簇的质心为下一次聚类的初始点。

在一实施例中,所述装置还包括:聚类单元104,用于以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

本发明实施例中,以每个簇的质心作为初始点,将样本的各个特征进行量化,计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于样本的特征加权和与质心的距离对样本集中的样本进行聚类。

示例性的,将特征加权和与质心的距离满足预设的距离阈值的样本聚类为一个簇。

在一实施例中,所述装置还包括:训练单元105,用于标记聚类形成的簇对应的标签;

基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。

本发明可选实施例中,当机器学习模型采用xgboost模型为分类器时,由于xgboost模型支持对于样本以特征为粒度进行并行的训练,例如对于相同特征的样本分配一个或多个线程,在硬件实现上使用多线程的处理器进行训练,这样,不同(类型)特征的样本可以被并行地用于对机器学习模型进行训练,显著缩短了机器学习模型的训练时间,提升了机器学习模型的训练效率。

实施例五

本发明实施例五提供一种电子设备,包括:

存储器,用于存储可执行程序;

处理器,用于通过执行所述存储器中存储的可执行程序时实现:

基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;

基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;

基于划分结果计算下一次聚类的初始点。

在一实施例中,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

在一实施例中,所述处理器,具体用于将样本的特征加权和与预设的多个阈值进行匹配;

对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。

在一实施例中,所述处理器,具体用于计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;

确定每个簇的质心为下一次聚类的初始点。

在一实施例中,所述处理器,还用于以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

在一实施例中,所述处理器,还用于标记聚类形成的簇对应的标签;

基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。

可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、快闪存储器(flashmemory)、磁表面存储器、光盘、或只读光盘(cd-rom,compactdiscread-onlymemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,randomaccessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandomaccessmemory)、同步静态随机存取存储器(ssram,synchronousstaticrandomaccessmemory)、动态随机存取存储器(dram,dynamicrandomaccessmemory)、同步动态随机存取存储器(sdram,synchronousdynamicrandomaccessmemory)、双倍数据速率同步动态随机存取存储器(ddrsdram,doubledataratesynchronousdynamicrandomaccessmemory)、增强型同步动态随机存取存储器(esdram,enhancedsynchronousdynamicrandomaccessmemory)、同步连接动态随机存取存储器(sldram,synclinkdynamicrandomaccessmemory)、直接内存总线随机存取存储器(drram,directrambusrandomaccessmemory)。本发明实施例描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(dsp,digitalsignalprocessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。

在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(asic,applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld,programmablelogicdevice)、复杂可编程逻辑器件(cpld,complexprogrammablelogicdevice)、现场可编程门阵列(fpga,field-programmablegatearray)、通用处理器、控制器、微控制器(mcu,microcontrollerunit)、微处理器(microprocessor)、或其他电子元件实现,用于执行前述方法。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

相应的,本发明实施例还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器运行时,执行:

基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;

基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;

基于划分结果计算下一次聚类的初始点。

在一实施例中,所述计算机程序被处理器运行时,还执行:初始化各样本的特征对应的权重,形成特征对应的初始化权重;

计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;

基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。

在一实施例中,所述计算机程序被处理器运行时,还执行:将样本的特征加权和与预设的多个阈值进行匹配;

对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。

在一实施例中,所述计算机程序被处理器运行时,还执行:计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;

确定每个簇的质心为下一次聚类的初始点。

在一实施例中,所述计算机程序被处理器运行时,还执行:以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。

在一实施例中,所述计算机程序被处理器运行时,还执行:标记聚类形成的簇对应的标签;

基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序命令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1