数据分群装置和方法

文档序号:6488149阅读:148来源:国知局
数据分群装置和方法
【专利摘要】本发明提供一种数据分群装置和方法,该数据分群装置包括:一新闻数据库,用以存储多个数据;一计算模块,根据上述数据间的一距离关系,用以建立一整体侧影样式表,再根据上述整体侧影样式表,取得一初步分群参考数目;一分群模块,根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集,再计算每一上述群集的一群内平均距离,以及一比较模块,用以比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库中。本发明可将杂乱的新闻进行分群,以得到不同新闻的简易信息聚合来源但却是相似新闻事件的群集,因而达到提升新闻事件分群准确性的结果。
【专利说明】数据分群装置和方法
【技术领域】
[0001]本发明主要是涉及一种数据分群技术,特别是涉及可利用一文件自动检测递回分群方法(Auto-detect Text Recursively Clusting, ADTR)来进行数据分群的技术。
【背景技术】
[0002]近年来,由于无线通信技术的快速发展,因此,各式各样的可携式以及手持装置,例如:移动电话、智能型手机(smart phone)、个人数字助理(PDA)、平板电脑(Tablet PC)等电子商品不断的在市场上被推出,且这些电子商品的功能也越来越多元化。此外,由于这些装置的便利,也使得这些装置成为人们的生活必需品之一。
[0003]除了前述支各种无线通信装置的硬件外,还有许多可配合前述硬件来执行与应用的软件与功能不断地被开发出来,以让使用者可以更便利、更即时、且更随时随地的理财、工作、娱乐或撷取信息等等。随着移动网络的普及手持移动装置的普遍,现代人在移动时,如搭车、捷运上通过移动网络阅读新闻已成为重要趋势。现今有为数众多的新闻来源网站,加上由于目前各家媒体所提供的新闻的简易信息聚合(Really Simple Syndication, RSS)各有各的排序方式,十分庞杂。虽然可容易得到为数众多的新闻事件,却无法依新闻事件进行追踪或重要性分类。另外,目前阅读新闻的应用软件主要是针对新闻的简易信息聚合(RSS)出处,及新闻总纲进行新闻的呈现。造成阅读者在阅读经验上,不容易找到自己所关心的新闻事件,也不容易找到时下重要的新闻事件。
[0004]此外,中文新闻的撰写是非结构化的格式,因此,在人工智能自动分类或分群时,很难轻易的将相似的文章判断为一群;另一方面,分群时往往不同的新闻容易因部分较不具代表性的字词而被分在同一群,使得若要找出同一新闻事件时,变得较为不容易。此外,数据分群时,群集数的决定往往是十分不容易的,一般通过事先定义或着事先观察,且不论哪一种方法都需要人工去参与协助。

【发明内容】

[0005]有鉴于上述先前技术的问题,本发明提供了一种数据分群技术,特别是可利用一文件自动检测递回分群方法(Auto-detect Text Recursively Clusting, ADTR)来进行数据分群的技术。
[0006]根据本发明的一实施例提供了一种数据分群方法,包括以下步骤:由一新闻数据库取得多个数据;根据上述数据间的一距离关系,建立一整体侧影样式表,以取得一初步分群参考数目;根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集;计算每一上述群集的一群内平均距离;以及比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库。
[0007]根据本发明的一实施例提供了一种数据分群装置,包括:一新闻数据库,用以存储多个数据;一计算模块,根据上述数据间的一距离关系,用以建立一整体侧影样式表,再根据上述整体侧影样式表,取得一初步分群参考数目;一分群模块,根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集,再计算每一上述群集的一群内平均距离(Intra-Cluster distance),以及一比较模块,用以比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库中。
[0008]本发明可将杂乱的新闻进行分群,以得到不同新闻的简易信息聚合(RSS)来源但却是相似新闻事件的群集,因而达到提升新闻事件分群准确性的结果。
【专利附图】

【附图说明】[0009]图1是显示根据本发明一实施例所述的数据分群装置100的架构图。
[0010]图2是显示根据本发明一实施例所述的整体侧影值和群集数目对应的示意图。
[0011]图3是显示根据本发明一实施例所述的数据分群方法的流程图300。
[0012]图4是显示根据本发明一实施例所述的建立整体侧影样式表的流程图400。
[0013]图5是显示根据本发明一实施例所述的计算每一群集的对应的群内平均距离的流程图500。
[0014]【主要附图标记说明】
[0015]100~数据分群装置;
[0016]110~新闻数据库;
[0017]120~预处理模块;
[0018]130~计算模块;
[0019]140~分群模块;
[0020]150~比较模块;
[0021]160~事件数据库;
[0022]300、400、500 ~流程图;
[0023]S310、S320、S330、S340、S350、S360、S370、S380、S410、S420、S430、S510、S520 ~步骤。
【具体实施方式】
[0024]图1是显示根据本发明一实施例所述的数据分群装置100的架构图。如图所示,根据本发明一实施例所述的数据分群装置100,包括,一新闻数据库110、一预处理模块120、一计算模块130、一分群模块140、一比较模块150、一事件数据库160。
[0025]根据本发明一实施例,新闻数据库110用以存储及提供多个数据,且新闻数据库110所存储的数据可即时地更新,其中在此所述的数据可包含各类型的新闻事件,像是国际新闻、政治新闻、社会新闻、体育新闻、演艺新闻等,也可包含各类不同的专题报导或文字数据。
[0026]根据本发明一实施例,预处理模块110,用以将新闻数据库110所存储的多个数据预先经过一前处理运算,也就是将多个数据的多个特征进行一向量化处理,使数据可以转换成一空间模型,方便之后数据分群的处理,其中在此所述的特征是指数据中所包含的内容经过断词或断句后所萃取出来的不同关键字,举例来说,由“全球暖化造成了北极冰山溶化,因而使得海平面上升”这句子,可将“全球暖化”、“北极”、“冰山”、“还平面上升”等关键字萃取出来,关键字粹取出来后,再将这些关键字经过向量化处理,转换为具有不同加权值的向量点,因此,经由这样的向量化处理后,就可使得原来的数据可由文字形式转换成以向量表示的空间模型。
[0027]根据本发明一实施例,计算模块130用以接收经由预处理模块110前处理过后的数据,并根据数据在空间模型间的距离关系,用以建立一整体侧影样式表(GlobalSilhouette Pattern),再根据所建立的整体侧影样式表,取得一初步分群参考数目。更明确来说,在此实施例中,计算模块130用以建立一整体侧影样式表取得初步分群参考数目的步骤包括:首先,先以侧影公式(如下所示),依据群集中数据间距离的关系计算多个侧影系数,其中在此所述的侧影系数是一种用以评估分群效度及状态的指标,其可用以呈现群集状态的优良程度。接着,针对不同群集数的分群结果,以产生对应一群集数目范围的不同群集数目所具有的多个整体侧影值(Global Silhouette value, GSu),其中上述群集数目范围介于2到上述数据的总数之间。最后,计算模块130会根据多个整体侧影值,建立整体侧影样式表,用以记录对应每一群集数目数的整体侧影值(GSu),并将对应侧影值的最大值的群集数目设定为初步分群参考数目,详细的计算流程将在底下说明。
[0028]Silhouette 公式:
[0029]运算某笔ith数据的Silhouette系数:
[0030]1.计算ith数据点对同一群集中所有其他数据点的平均距离(?)。
[0031]2.针对ith数据点和其他群集,计算此数据对其他每一群集所有数据的平均距离,并取其最小值(匕)。
[0032]3.计算ith的Silhouette系数(Si),其公式定义如下:
[0033]
【权利要求】
1.一种数据分群装置,包括: 一新闻数据库,用以存储多个数据; 一计算模块,根据上述数据间的一距离关系,用以建立一整体侧影样式表,再根据上述整体侧影样式表,取得一初步分群参考数目; 一分群模块,根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集,再计算每一上述群集的一群内平均距离,以及 一比较模块,用以比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库中。
2.如权利要求1所述的数据分群装置,还包括一预处理模块,用以将上述多个数据经过一前处理运算,以将上述数据的多个特征进行一向量化处理,使上述数据转换成一空间模型。
3.如权利要求1所述的数据分群装置,其中若上述群内平均距离未小于上述门槛值,则将对应上述群内平均距离的上述群集重新传回上述计算模块,以建立上述整体侧影样式表,而取得上述初步分群参考数目。
4.如权利要求1所述的数据分群装置,其中上述计算模块建立上述整体侧影样式表的步骤包括: 根据上述数据间的上述距离关系,利用一侧影公式计算多个侧影系数,以产生对应一群集数目范围的不同群集数目的多个整体侧影值,其中上述群集数目范围介于2到上述数据的总数之间; 记录上述侧影值至上述整体分群侧影样式表;以及 将对应上述整体侧影值的最大值的上述群集数目设定为上述初步分群参考数目。
5.如权利要求1所述的数据分群装置,其中上述分群模块计算每一上述群集的上述群内平均距离的步骤包括: 取得每一上述群集中所包括的上述数据的一中心点;以及 取得每一上述群集中所包括的上述数据到上述中心点的一平均距离,上述平均距离即上述群内平均距离。
6.如权利要求1所述的数据分群装置,其中上述分群演算法为一阶层式分群演算法。
7.一种数据分群方法,包括以下步骤: 由一新闻数据库取得多个数据; 根据上述数据间的一距离关系,建立一整体侧影样式表,以取得一初步分群参考数目; 根据上述初步分群参考数目利用一分群演算法将多个数据分为多个群集; 取得每一上述群集的一群内平均距离;以及 比较上述群内平均距离是否小于一门槛值,其中若上述群内平均距离小于上述门槛值,则将对应上述群内平均距离的上述群集存入一事件数据库。
8.如权利要求7所述的数据分群方法,其中在建立上述整体侧影样式表前,还包括,对上述数据,执行一前处理运算以将上述数据的多个特征进行一向量化处理,使上述数据转换成一空间模型。
9.如权利要求7所述的数据分群方法,其中若上述群内平均距离未小于上述门槛值,则将对应上述群内平均距离的上述群集重新建立上述整体侧影样式表以取得上述初步分群参考数目。
10.如权利要求7所述的数据分群方法,其中建立上述整体侧影样式表的步骤包括:根据上述数据间的上述距离关系,利用一侧影公式计算多个侧影系数,以产生对应一群集数目范围的不同群集数目的多个整体侧影值,其中上述群集数目范围介于2到上述数据的总数之间; 记录上述侧影值至上述整体侧影样式表;以及 将对应上述整体侧影值的最大值的上述群集数目设定为上述初步分群参考数目。
【文档编号】G06F17/30GK103631809SQ201210305587
【公开日】2014年3月12日 申请日期:2012年8月24日 优先权日:2012年8月24日
【发明者】庄惟尧 申请人:宏碁股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1