资料群集更新方法与流程

文档序号:34259099发布日期:2023-05-25 04:13阅读:39来源:国知局
资料群集更新方法与流程

本发明涉及一种资料群集更新方法。


背景技术:

1、传统的群集分类(clustering)通常只能在已取得所有资料的情况下使用,最常见的方法就是k-平均群集分类(k-means clustering)。然而,类似于k-平均群集分类方法都有个共同问题,就是使用者不知道该把资料分成几类(亦即对于k值的选取)。若选择了不恰当的k值,可能会导致糟糕的分类结果。另一个问题在于,在大数据盛行的现代,要拿来进行群集分类的资料有时候可能是非常高维度(亦即对于d值的选取)的资讯,进而增加了计算的复杂度,而传统方法在面对很大的k值及d值时很难快速得到分类结果。

2、此外,现实的情况是,需进行群集分类的所有资料通常不会一次取得,而是先取得一部份,并在分类或分析的过程中再持续取得更新资料。在更新群集资料时,一般来说会增加资料量,但也有可能是修改既有内容甚至也可以是删减错误资料。因此,若是使用传统的群集分类方法,则每次在资料更新后,系统便需对所有群集的所有资料重新执行一次群集分类。随着资料的总量越大,每次重新执行一次群集分类就必须花上越多的时间。


技术实现思路

1、鉴于上述,本发明提供一种以满足上述需求的资料群集更新方法。

2、依据本发明一实施例的一种资料群集更新方法,适用于一运算装置,该方法包含:接收一更新资料,并计算该更新资料与一既存群集的一既存代表之间的一第一距离;判断该第一距离是否小于一阈值距离;当该第一距离小于该阈值距离时,以该更新资料更新该既存群集以产生一更新群集;以及对该更新群集执行一代表更新程序,以产生一更新代表。

3、较佳的是,其中所述更新群集包含多个群集资料,所述代表更新程序包含:计算每一所述群集资料与其余的所述多个群集资料之间的一相似度;以及以所述多个相似度中最高的一个的所述群集资料作为所述更新代表。

4、较佳的是,其中以所述更新资料更新所述既存群集以产生所述更新群集包含:将所述更新资料加入所述既存群集。

5、较佳的是,其中接收所述更新资料包含:接收关联于所述更新资料的一资料删除指令,而以所述更新资料更新所述既存群集以产生所述更新群集包含:删除为所述更新资料的所述既存资料以产生所述更新群集。

6、较佳的是,其中接收所述更新资料包含:接收关联于所述更新资料及一既存资料的一资料取代指令,而以所述更新资料更新所述既存群集以产生所述更新群集包含:根据所述资料取代指令删除所述既存群集中的所述既存资料;以及将所述更新资料加入所述既存群集以产生所述更新群集。

7、较佳的是,其中所述更新资料是一第一群集,所述既存群集是一第二群集,所述既存代表是一第二代表,判断所述第一距离是否小于所述阈值距离,及以所述更新资料更新所述既存群集以产生所述更新群集包含:判断所述第一群集的一第一代表与所述第二代表之间的所述第一距离是否小于所述阈值距离;以及当所述第一代表与所述第二代表之间的所述第一距离小于所述阈值距离时,将所述第一群集与所述第二群集合并以产生所述更新群集。

8、较佳的是,其中当所述第一距离未小于所述阈值距离时,所述方法更包含:基于所述更新资料产生一新增群集;以及以所述更新资料作为所述新增群集的一新增代表。

9、较佳的是,其中所述更新资料是一第一更新资料,在产生所述新增代表后,所述方法更包含:判断所述新增群集是否在一预设时段内被以一第二更新资料更新,其中所述预设时段是从接收所述第一更新资料后开始起算;以及当判断所述新增群集未在所述预设时段内被以所述第二更新资料更新时,删除所述新增群集。

10、较佳的是,其中在产生所述新增代表后,所述方法更包含:判断所述新增群集的一资料量是否小于一预设数量,且所述资料量小于所述预设数量的时间是否达一预设时段,其中所述预设时段系从产生所述新增代表后开始起算;以及当判断所述资料量小于所述预设数量的时间达所述预设时段时,删除所述新增群集。

11、较佳的是,其中所述既存群集包含多个既存资料,所述多个既存资料及所述更新资料的资料维度大于1且为正整数。

12、综上所述,依据本发明一或多个实施例所示的资料群集更新方法,更新资料可直接与群集代表进行比对,并仅对相关的群集进行更新修改,故可以有效降低运算装置比对、更新群集的运算量及时间。此外,因本案所示的资料群集更新方法可产生最适的群集(即产生最适当的k值),故可避免因k值的设定错误导致群集分类不精确的问题。因此,即使更新资料是高维度(d值)的资料,亦不会使运算装置的运算量大量增加,可知本发明可在不实质增加运算复杂度的情况下改善群集分类的效能。总地来说,依据本发明一或多个实施例所示的资料群集更新方法,运算装置的运算速度较快,且运算量较小。并且,透过执行本发明的资料群集更新方法,即可自动归纳出适当数量的群集,使用者不需自行选择k值。

13、以上的关于本申请内容的说明及以下的实施方式的说明是用以示范与解释本发明的精神与原理,并且提供本发明的权利要求更进一步的解释。



技术特征:

1.一种资料群集更新方法,适用于一运算装置,其特征在于,所述方法包含:

2.如权利要求1所述的资料群集更新方法,其特征在于,其中所述更新群集包含多个群集资料,所述代表更新程序包含:

3.如权利要求1所述的资料群集更新方法,其特征在于,其中以所述更新资料更新所述既存群集以产生所述更新群集包含:

4.如权利要求1所述的资料群集更新方法,其特征在于,其中接收所述更新资料包含:接收关联于所述更新资料的一资料删除指令,而以所述更新资料更新所述既存群集以产生所述更新群集包含:

5.如权利要求1所述的资料群集更新方法,其特征在于,其中接收所述更新资料包含:接收关联于所述更新资料及一既存资料的一资料取代指令,而以所述更新资料更新所述既存群集以产生所述更新群集包含:

6.如权利要求1所述的资料群集更新方法,其特征在于,其中所述更新资料是一第一群集,所述既存群集是一第二群集,所述既存代表是一第二代表,判断所述第一距离是否小于所述阈值距离,及以所述更新资料更新所述既存群集以产生所述更新群集包含:

7.如权利要求1所述的资料群集更新方法,其特征在于,其中当所述第一距离未小于所述阈值距离时,所述方法更包含:

8.如权利要求7所述的资料群集更新方法,其特征在于,其中所述更新资料是一第一更新资料,在产生所述新增代表后,所述方法更包含:

9.如权利要求7所述的资料群集更新方法,其特征在于,其中在产生所述新增代表后,所述方法更包含:

10.如权利要求1所述的资料群集更新方法,其特征在于,其中所述既存群集包含多个既存资料,所述多个既存资料及所述更新资料的资料维度大于1且为正整数。


技术总结
本发明提出一种资料群集更新方法,适用于运算装置,资料群集更新方法包含:接收更新资料,并计算更新资料与既存群集的既存代表之间的第一距离,判断第一距离是否小于阈值距离,当第一距离小于阈值距离时,以更新资料更新既存群集以产生更新群集,以及对更新群集执行代表更新程序,以产生更新代表。

技术研发人员:郭俊彦
受保护的技术使用者:英业达科技有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1