协同聚类的方法和设备的制造方法_6

文档序号:8922600阅读:来源:国知局
簇的划分结果和所述至少一 个行类簇和所述至少一个列类簇组成的聚类块的中心的值,得到所述二维矩阵的每行元素 的行权重和每列元素的列权重,其中所述聚类块中距离所述聚类块的中心越远的元素行权 重和列权重越小。3. 根据权利要求2所述的方法,其特征在于,所述根据上次迭代过程得到的所述二维 矩阵的每行元素的行权重和每列元素的列权重以及上次迭代过程得到的聚类块的中心的 值,在行方向上将N行元素划分到至少一个行类簇中,在列方向将M列元素划分到至少一个 列类簇中,包括: 确定所述N行元素中的每行M个元素与所述至少一个行类簇中的每个行类簇中的对应 聚类块的中心的加权距离之和,得到所述至少一个行类簇对应的至少一个第一加权距离之 和; 将所述二维矩阵的每行元素划分到所述至少一个第一加权距离之和中的最小值所对 应的行类簇中; 确定所述M列元素中的每列N个元素与所述至少一个列类簇中的每个列类簇中的对应 聚类块的中心的加权距离之和,得到所述至少一个列类簇对应的至少一个第二加权距离之 和; 将所述二维矩阵的每列元素划分到所述至少一个第二加权距离之和中的最小值所对 应的列类簇中。4.根据权利要求3所述的方法,其特征在于,所述将所述二维矩阵的每行元素划分到 所述至少一个第一加权距离之和中的最小值所对应的行类簇中包括: 根据以下公式将所述二维矩阵的每行元素划分到所述至少一个第一加权距离之和中 的最小值所对应的行类簇中: 其中,其中,i=l,2,. . .,M,j = 1,2,. . .,N,Ui,g=l表示第i行的元素属于第g行类簇,Uis=O 表示第i行元素不属于第s行类簇,K为所述至少一个行类簇的个数,L为所述至少一个列 类簇的个数,g=l,2, . . .,K,s=l,2,. . .,K,J(s)表示第i行元素与第s个行类簇所对应的第 一加权距离之和,J(g)表示第i行元素与第g个行类簇所对应的第一加权距离之和,J(g)为 所述至少一个第一加权距离之和中的最小值,1? =1表示上次迭代中第j列的元素属于第h 个列类簇,=〇表示上次迭代中第j列的元素不属于第h个列类簇,表示上次迭代中 第j列元素中属于第s行类簇的元素的列权重,匕;表示上次迭代中第j列元素中属于第g 行类簇的元素的列权重,I表示上次迭代中第i行元素中属于第h个列类簇的元素的行权 重,d( ·)为欧式距离,U为上次迭代中第s行类簇和第h列类簇组成的聚类块的中心的 值,为上次迭代中第g行类簇和第h列类簇组成的聚类块的中心的值, 其中,所述将所述二维矩阵的每列元素划分到所述至少一个第二加权距离之和中的最 小值所对应的列类簇中,包括: 根据以下公式确定将二维矩阵的每列元素划分到所述至少一个第二加权距离之和中 的最小值所对应的列类簇中: 其中,其中,vj,h = 1表示第该j列的元素属于第h列类簇,Vj,t = 〇表示该第j列不属于第t 列类簇,h=l,2,. . .,L,t=l,2,. . .,L,J' (h)表示第j列元素与第h个列类簇所对应的第二 加权距离之和,Γ ω表示第j列元素与第t个列类簇所对应的第二加权距离之和,= 1 表示上次迭代中第i行的元素属于第g个行类簇,= O表示上次迭代中第i行的元素不 属于第g个行类簇,I;表示上次迭代中第j列元素中属于第g行类簇的元素的列权重,^ 表示上次迭代中第i行元素中属于第t个列类簇的元素的行权重,d( ·)为欧式距离,&,为 上次迭代中第g行类簇和第t列类簇组成的聚类块的中心的值。5. 根据权利要求2至4中的任一项所述的方法,其特征在于,所述根据所述至少一个行 类簇的划分结果、所述至少一个列类簇的划分结果和所述至少一个行类簇和所述至少一个 列类簇组成的聚类块中每个聚类块的元素的行权重和列权重对所述每个聚类块的元素进 行加权平均,得到所述每个聚类块的中心的值,包括: 计算所述至少一个行类簇和所述至少一个列类簇组成的聚类块中的每个聚类块中的 元素在各自的行权重和列权重的基础上的加权平均值; 将所述加权平均值作为所述每个聚类块的中心的值。6. 根据权利要求5所述的方法,其特征在于,所述计算所述至少一个行类簇和所述至 少一个列类簇组成的聚类块中的每个聚类块中的元素在各自的行权重和列权重的基础上 的加权平均值,包括: 根据以下公式计算所述至少一个行类簇和所述至少一个列类簇组成的聚类块中的每 个聚类块中的元素在各自的行权重和列权重的基础上的加权平均值:其中,Zg,h表示第g行类簇与第h列类簇组成的聚类块的中心的值,Xy表示第i行与 第j列所对应元素,I;表示上次迭代中第j列元素中属于第g个行类簇的元素的列权重, I表示上次迭代中第i行元素中属于第h列类簇的元素的行权重。7. 根据权利要求2至6中任一项所述的方法,其特征在于,所述根据所述至少一个行类 簇的划分结果、所述至少一个列类簇的划分结果和所述至少一个行类簇和所述至少一个列 类簇组成的聚类块的中心的值,得到所述二维矩阵的每行元素的行权重和每列元素的列权 重,包括: 确定所述二维矩阵的每行元素的行权重,使得所述行权重与所述每行元素与所述每行 元素所属聚类块的中心的距离成反相关; 确定所述二维矩阵的每列元素的列权重,使得所述列权重与所述每列元素与所述每列 元素所属聚类块的中心的距离成反相关。8. 根据权利要求7所述的方法,其特征在于,所述确定所述二维矩阵的每行元素的行 权重,包括: 根据以下公式计算所述二维矩阵的每行元素的行权重: 其中,其中,rh,i表示第i行元素中属于第h个列类簇的元素的行权重,表示上次迭代中第 g行类簇和第h列类簇组成的聚类块的中心的值,i ' =1,2, . . .,M, 所述确定所述二维矩阵的每列元素的列权重,包括: 根据以下公式计算所述二维矩阵的每列元素的列权重: 其中,其中,表示第j列元素中属于第g行类簇的元素的列权重,j' =1,2, ...,N。9. 根据权利要求2至8中任一项所述的方法,其特征在于,在所述迭代过程中的首次迭 代过程之前,还包括: 确定所述二维矩阵的N*M个元素的行权重和列权重的初始值; 在行方向上将N行元素划分到至少一个初始行类簇中,在列方向将N列元素划分到至 少一个初始列类簇中; 根据所述至少一个初始行类簇的划分结果、所述至少一个初始列类簇的划分结果以及 所述至少一个初始行类簇和所述至少一个初始列类簇组成的聚类块中每个聚类块的元素 的行权重和列权重,得到所述至少一个初始行类簇和所述至少一个初始列类簇组成的聚类 块中每个聚类块的中心的值, 其中,在所述首次迭代过程中,所述上次迭代过程得到的二维矩阵的每行元素的行权 重和每列元素的列权重分别为所述至少一个初始列类簇组成的聚类块中每个聚类块的元 素的行权重和列权重,所述上次迭代过程得到的聚类块的中心的值为所述至少一个初始行 类簇和所述至少一个初始列类簇组成的聚类块中每个聚类块的中心的值。10. 根据权利要求2至9中任一项所述的方法,其特征在于,还包括: 在两次迭代的所述至少一个行类簇的划分结果和所述至少一个列类簇的划分结果相 同时,停止所述迭代过程; 或者, 在两次迭代的目标函数的值的变化小于设定的阈值时,停止所述迭代过程,其中所述 目标函数用于求解所述二维矩阵的最优化问题。11. 根据权利要求10所述的方法,其特征在于,所述目标函数为:所述目标函数的限制条件为:其中,K为所述至少一个行类簇的个数,L为所述至少一个列类簇的个数,U为大小为 N*K的行划分矩阵,表示不同行属于哪个行类簇;V为大小为M*L的列划分矩阵,表示不同列 属于哪个列类簇,Z为大小为K*L的矩阵,用于表示每个聚类块的中心值,R为大小为L*N的 矩阵,用于表示行权重,C为大小为K*M的矩阵,用于表示列权重,λ为参数,用来调整行权 重的分布,Π 为参数,用来约束列权重的分布。12. 根据权利要求2至11中的任一项所述的方法,其特征在于,还包括: 将所述二维矩阵的每个元素所对应的行权重按照所述至少一个行类簇的划分结果重 排列,将所述二维矩阵的每个元素所对应的列权重按照所述至少一个列类簇的划分结果重 排列,以便分析所述至少一个行类簇的划分结果和所述至少一个列类簇的划分结果; 和/或, 将所述二维矩阵的每个元素按照行所述至少一个行类簇的划分结果重排列,将所述二 维矩阵的每个元素按照所述至少一个行类簇的划分结果重排列,以便分析所述至少一个行 类簇的划分结果和所述至少一个列类簇的划分结果。13. -种协同聚类的设备,其特征在于,包括: 划分单元,用于根据上次迭代过程得到的待聚类的数据的每个元素的权重以及上次迭 代过程得到的类簇中心的值,将所述待聚类的数据的每个元素划分到至少一个类簇中; 第一计算单元,用于根据所述待聚类的数据的每个元素的类簇的划分结果和所述待聚 类的数据的每个元素的权重,更新所述待聚类的数据的类簇中心的值; 第二计算单元,用于根据更新后的待聚类的数据的类簇中心的值,更新所述待聚类的 数据的每个元素的权重,其中,所述类簇中距离所述类簇的中心越远的元素的权重越小。14. 根据权利要求13所述的设备,其特征在于,还包括: 确定单元,用于确定待聚类的数据,所述数据为N行、M列的二维矩阵,所述二维矩阵包 括Ν*Μ个元素, 其中,划分单元具体用于根据上次迭代过程得到的所述二维矩阵的每行元素的行权重 和每列元素的列权重以及上次迭代过程得到的聚类块的中心的值,在行方向上将N行元素 划分到至少一个行类簇中,在列方向将M列元素划分到至少一个列类簇中;所述第一计算 单元具体用于根据所述至少一个行类簇的划分结果、所述至少一个列类簇的划分结果和所 述至少一个行类簇和所述至少一个列类簇组成的聚类块中每个聚类块的元素的行权重和 列权重对所述每个聚类块的元素进行加权平均,得到所述每个聚类块的中心的值;第二计 算单元具体用于根据所述至少一个行类簇的划分结果、所述至少一个列类簇的划分结果和 所述至少一个行类簇和所述至少一个列类簇组成的聚类块的中心的值,得到所述二维矩阵 的每行元素的行权重和每列元素的列权重,其中所述聚类块中距离所述聚类块的中心越远 的元素行权重和列权重越小。15. 根据权利要求14所述的设备,其特征在于,所述划分单元包括: 第一确定子单元,用于确定所述N行元素中的每行M个元素与所述至少一个行类簇中 的每个行类簇中的对应聚类块的中心的加权距离之和,得到所述至少一个行类簇对应的至 少一个第一加权距离之和; 第一划分子单元,用于将所述二维矩阵的每行元素划分到所述至少一个第一加权距离 之和中的最小值所对应的行类簇中; 第二确定子单元,用于确定所述M列元素中的每列N个元素与所述至少一个列类簇中 的每个列类簇中的对应聚类块的中心的加权距离之和,得到所述至少一个列类簇对应的至 少一个第二加权距离之和; 第二划分子单元,用于将所述二维矩阵的每列元素划分到所述至少一个第二加权距离 之和中的最小值所对应的列类簇中。16.根据权利要求15所述的设备,其特征在于,所述第一划分子单元具体用于根据以 下公式将所述二维矩阵的每行元素划分到所述至少一个第一加权距离之和中的最小值所 对应的行类簇中: 其中, 其中,i = 1,2, . . .,M,j=l,2, . . .,N,Ui,g=l表示第i行的元素属于第g行类簇,Ui,s=O表示第i行元素不属于第s行类簇,K为所述至少一个行类簇的个数,L为所述至少一 个列类簇的个数,g=l,2, . . .,K,s=l,2,. . .,K,J(s)表示第i行元素与第s个行类簇所对应 的第一加权距离之和,J(g)表示第i行元素与第g个行类簇所对应的第一加权距离之和,J(g)为所述至少一个第一加权距离之和中的最小值,=1表示上次迭代中第j列的元素属于 第h个列类簇,&= 〇表示上次迭代中第j列的元素不属于第h个列类簇,&表示上次迭代 中第j列元素中属于第s行类簇的元素的列权重,匕,表示上次迭代中第j列元素中属于第 g行类簇的元素的列权重,I表示上次迭代中第i行元素中属于第h个列类簇的元素的行 权重,d( ·)为欧式距离,毛>为上次迭代中第s行类簇和第h列类簇组成的聚类块的中心的 值,匕A为上次迭代中第g行类簇和第h列类簇组成的聚类块的中心的值; 所述第二划分子单元具体用于根据以下公式确定将二维矩阵的每列元素划分到所述 至少一个第二加权距离之和中的最小值所对应的列类簇中: 其中,其中,vj,h = 1表示第该j列的元素属于第h列类簇,Vj,t = 〇表示该第j列不属于第t 列类簇,h=l,2,. . .,L,t=l,2,. . .,L,J' (h)表示第j列元素与第h个列类簇所对应的第二 加权距离之和,Γ ω表示第j列元素与第t个列类簇所对应的第二加权距离之和,= 1 表示上次迭代中第i行的元素属于第g个行类簇,=〇表示上次迭代中第i行的元素不 属于第g个行类簇,I;表示上次迭代中第j列元素中属于第g行类簇的元素的列权重,t 表示上次迭代中第i行元素中属于第t个列类簇的元素的行权重,d( ·)为欧式距离,\,为 上次迭代中第g行类簇和第t列类簇组成的聚类块的中心的值。17. 根据权利要求14至16中任一项所述的设备,其特征在于,所述第一计算单元包 括: 计算子单元,用于计算所述至少一个行类簇和所述至少一个列类簇组成的聚类块中的 每个聚类块中的元素在各自的行权重和列权重的基础上的加权平均值; 确定子单元,用于将所述加权平均值作为所述每个聚类块的中心的值。18. 根据权利要求17所述的设备,其特征在于,所述计算子单元具体用于根据以下公 式计算所述至少一个行类簇和所述至少一个列类簇组成的聚类块中的每个聚类块中的元 素在各自的行权重和列权重的基础上的加权平均值:其中,Zg,h表示第g行类簇与第h列类簇组成的聚类块的中心的值,Xy表示第i行与 第j列所对应元素,I;表示上次迭代中第」_列元素中属于第8个行类簇的元素的列权重, &表示上次迭代中第i行元素中属于第h列类簇的元素的行权重。19. 根据权利要求14至18中任一项所述的设备,其特征在于,所述第二计算单元包 括: 第三确定子单元,用于确定所述二维矩阵的每行元素的行权重,使得所述行权重与所 述每行元素与所述每行元素所属聚类块的中心的距离成反相关; 第四确定子单元,用于确定所述二维矩阵的每列元素的列权重,使得所述列权重与所 述每列元素与所述每列元素所属聚类块的中心的距离成反相关。20. 根据权利要求19所述的设备,其特征在于,所述第三确定子单元具体用于根据以 下公式计算所述二维矩阵的每行元素的行权重: 其中,其中,rh,i表示第i行元素中属于第h个列类簇的元素的行权重,^^表示上次迭代中 第g行类簇和第h列类簇组成的聚类块的中心的值,i ' =1,2, . . .,M, 所述第四确定子单元具体用于根据以下公式计算所述二维矩阵的每列元素的列权 重: 其中,其中,表示第j列元素中属于第g行类簇的元素的列权重,j' =1,2, . . .,N。21. 根据权利要求14至20中任一项所述的设备,其特征在于,还包括: 初始单元,用于确定所述二维矩阵的N*M个元素的行权重和列权重的初始值; 所述初始单元还用于在行方向上将N行元素划分到至少一个初始行类簇中,在列方向 将N列元素划分到至少一个初始列类簇中; 所述初始单元还用于根据所述至少一个初始行类簇的划分结果、所述至少一个初始列 类簇的划分结果以及所述至少一个初始行类簇和所述至少一个初始列类簇组成的聚类块 中每个聚类块的元素的行权重和列权重,得到所述至少一个初始行类簇和所述至少一个初 始列类簇组成的聚类块中每个聚类块的中心的值, 其中,在所述首次迭代过程中,所述上次迭代过程得到的二维矩阵的每行元素的行权 重和每列元素的列权重分别为所述至少一个初始列类簇组成的聚类块中每个聚类块的元 素的行权重和列权重,所述上次迭代过程得到的聚类块的中心的值为所述至少一个初始行 类簇和所述至少一个初始列类簇组成的聚类块中每个聚类块的中心的值。22. 根据权利要求14至21中任一项所述的设备,其特征在于,还包括; 停止单元,用于在两次迭代的所述至少一个行类簇的划分结果和所述至少一个列类簇 的划分结果相同时,停止所述迭代过程; 或者, 停止单元用于在两次迭代的目标函数的值的变化小于设定的阈值时,停止所述迭代过 程,其中所述目标函数用于求解所述二维矩阵的最优化问题。23. 根据权利要求22所述的设备,其特征在于,所述目标函数为;所述目标函数的限制条件为:其中,K为所述至少一个行类簇的个数,L为所述至少一个列类簇的个数,U为大小为 N*K的行划分矩阵,表示不同行属于哪个行类簇;V为大小为M*L的列划分矩阵,表示不同列 属于哪个列类簇,Z为大小为K*L的矩阵,用于表示每个聚类块的中心值,R为大小为L*N的 矩阵,用于表示行权重,C为大小为K*M的矩阵,用于表示列权重,λ为参数,用来调整行权 重的分布,Π 为参数,用来约束列权重的分布。24.根据权利要求14至23中任一项所述的设备,其特征在于,还包括: 重排单元,用于将所述二维矩阵的每个元素所对应的行权重按照所述至少一个行类簇 的划分结果重排列,将所述二维矩阵的每个元素所对应的列权重按照所述至少一个列类簇 的划分结果重排列,以便分析所述至少一个行类簇的划分结果和所述至少一个列类簇的划 分结果; 和/或, 重排单元用于将所述二维矩阵的每个元素按照行所述至少一个行类簇的划分结果重 排列,将所述二维矩阵的每个元素按照所述至少一个行类簇的划分结果重排列,以便分析 所述至少一个行类簇的划分结果和所述至少一个列类簇的划分结果。
【专利摘要】本发明实施例提供了一种协同聚类的方法和装置,该方法包括:迭代执行下列过程,以对待聚类的数据进行协同聚类:根据上次迭代过程得到的待聚类的数据的每个元素的权重以及上次迭代过程得到的类簇中心的值,将待聚类的数据的每个元素划分到至少一个类簇中;根据待聚类的数据的每个元素的类簇的划分结果和待聚类的数据的每个元素的权重,更新待聚类的数据的类簇中心的值;根据更新后的待聚类的数据的类簇中心的值,更新待聚类的数据的每个元素的权重,其中,类簇中距离所述类簇的中心越远的元素的权重越小。本发明实施例的协同聚类的方法,能够降低噪声数据对聚类的影响,提高聚类效果。
【IPC分类】G06F17/30
【公开号】CN104899232
【申请号】CN201410084478
【发明人】肖龙飞, 陈小军, 王书强
【申请人】华为技术有限公司
【公开日】2015年9月9日
【申请日】2014年3月7日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1