新闻分类方法、装置、设备及介质

文档序号:29809186发布日期:2022-04-27 02:22阅读:84来源:国知局
新闻分类方法、装置、设备及介质

1.本发明涉及计算机技术领域,尤其涉及一种新闻分类方法、装置、设备及介质。


背景技术:

2.随着互联网的繁荣,新闻业和媒体业正在蓬勃发展,读者每天会阅读海量的新闻。如何将这些新闻按照其描述的不同事件进行分类,来提高读者的阅读效率,帮助读者理解整个事件脉络具有重要意义。现有技术的新闻分类方法采用的聚类方法无法检测细粒度事件,只是在粗粒度范围内检测新闻主题并将新闻文本放在同一个主题下的聚类里。现有技术的新闻分类方法,准确率较低,用户体验不好。
3.由于新闻体裁的多样性,内容的复杂性和时间的衰减性,因此,如何在复杂多样化的新闻数据中对新闻数据进行精准分类是目前业界亟待解决的重要课题。


技术实现要素:

4.本发明提供一种新闻分类方法、装置、设备及介质,用以解决现有技术中新闻分类的准确率较低的缺陷,实现新闻数据的精准分类。
5.本发明提供一种新闻分类方法,包括:
6.获取当前新闻数据;
7.对所述当前新闻数据进行向量化处理,得到当前向量;
8.确定所述当前向量和各历史聚类中心的第一距离中的最小距离;
9.当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;
10.计算所述待处理聚类中心中任意两个向量之间的第二距离;
11.当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;
12.将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。
13.根据本发明提供的一种新闻分类方法,所述方法还包括:
14.基于预先设定的事件滤除策略,计算所述各历史聚类中心对应的权重;
15.将所述权重小于预设权重时对应的历史聚类中心,从所述各历史聚类中心中滤除,并将滤除后剩余的历史聚类中心作为所述各历史聚类中心。
16.根据本发明提供的一种新闻分类方法,所述当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心,包括:
17.基于分割参数,确定所述待处理聚类中心对应的至少两个核心向量;
18.将所述待处理聚类中心中的向量对应性的划分至各自对应的核心向量,得到所述至少两个子聚类中心;
19.其中,每个所述子聚类中心中任意两个向量之间的第二距离小于所述预设值。
20.根据本发明提供的一种新闻分类方法,所述方法还包括:
21.当所述最小距离大于或等于所述预设值时,生成新的聚类中心,将所述当前向量添加到所述新的聚类中心;
22.确定所述新的聚类中心的类别,将所述新的聚类中心的类别作为所述当前新闻数据的类别。
23.根据本发明提供的一种新闻分类方法,所述方法还包括:
24.当不存在所述第二距离大于或等于所述预设值时,将所述待处理聚类中心的类别作为所述当前新闻数据的类别。
25.根据本发明提供的一种新闻分类方法,所述确定所述当前向量和各历史聚类中心的第一距离中的最小距离,包括:
26.通过第一预设计算公式,计算所述当前向量和所述各历史聚类中心的第一距离;
27.确定计算得到的各所述第一距离中的最小距离。
28.根据本发明提供的一种新闻分类方法,所述计算所述待处理聚类中心中任意两个向量之间的第二距离,包括:
29.通过第二预设计算公式,计算所述待处理聚类中心中任意两个向量之间的所述第二距离。
30.本发明还提供一种新闻分类装置,包括:
31.获取模块,用于获取当前新闻数据;
32.处理模块,用于对所述当前新闻数据进行向量化处理,得到当前向量;
33.确定模块,用于确定所述当前向量和各历史聚类中心的第一距离中的最小距离;
34.添加模块,用于当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;
35.计算模块,用于计算所述待处理聚类中心中任意两个向量之间的第二距离;
36.分割模块,用于当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;
37.判定模块,用于将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。
38.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述新闻分类方法的步骤。
39.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述新闻分类方法的步骤。
40.本发明提供的新闻分类方法、装置、设备及介质,通过获取当前新闻数据;对当前新闻数据进行向量化处理,得到当前向量;确定当前向量和各历史聚类中心的第一距离中的最小距离;当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心,可见,本发明将当前新闻数据添加到与自身距离最小的历史聚类中心,有效的保证了当前新闻数据划分的准确性;进而,计算待处理聚类中心中任意两个向量之间的第二距离;当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别,可
见,本发明在得到待处理聚类中心之后,通过判断待处理聚类中心中任意两个向量之间的第二距离,对待处理聚类中心进行进一步的细粒度分割,将最终包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别,解决了现有技术中新闻分类准确率较低的问题,实现了新闻数据的精准分类,提高了用户体验。
附图说明
41.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本发明提供的新闻分类方法的流程示意图之一;
43.图2是本发明提供的新闻分类方法的流程示意图之二;
44.图3是本发明提供的新闻分类方法的流程示意图之三;
45.图4是本发明提供的新闻分类装置的结构示意图;
46.图5是本发明提供的电子设备的结构示意图。
具体实施方式
47.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.下面结合图1-图3描述本发明的新闻分类方法。
49.本发明实施例提供了一种新闻分类方法,该方法可以应用在智能终端,例如,手机、电脑、平板等,也可以应用在服务器中。下面,以该方法应用在服务器中为例进行说明,但需要说明的是仅为举例说明,并不用于对本发明的保护范围进行限定。本发明实施例中的一些其他说明,也是举例说明,并不用于对本发明的保护范围进行限定,之后便不再一一说明。
50.在本发明中,提出了基于迭代严格密度的聚类方法,这是一种在动态的新闻流中根据新闻所描述的事件检测并且聚合不同新闻的新方法。该聚类方法的主要思想是通过迭代将新闻划分到最相似的事件类,并拆分低密度的事件类来达到每个事件类只含有一个细粒度事件新闻的目的。与其他算法相比,我们所提出的方法在发现细粒度事件方面具有较好的性能,同时保持其简单性。
51.其中,事件类用于指示聚类中心。
52.其中,其他方法包括传统的聚类方法,例如:基于网格的方法、基于划分的方法和基于层次的聚类方法。基于网格的方式试图将所有的样本特征投射到一个多维空间中,根据样本映射到不同网格来进行聚类。这类算法的缺点是只能发现边界是水平或者垂直的簇。另外,这种方式不适合处理高维数据。基于划分的方法的典型算法就是kmeans算法,它利用不断的迭代使得聚类的结果趋于稳定。但是,这种方法的缺点就是需要提前确定事件的数目,但是实践中事件检测中无法确定事件的数目,因此不适用于细粒度事件检测的任
务。基于层次的方法拥有结构化,灵活性好等优点,但是其容易受到离群点的影响。
53.本发明的新闻分类方法能够有效进行细粒度的事件检测,具体如图1所示:
54.步骤101,获取当前新闻数据。
55.具体地,新闻数据随时都会产生,并以新闻流的形式产生。
56.其中,使用g表示新闻流,其中,g={s1,s2,s3…
sn},其中,si表示第i篇新闻,i为1至n之间的任意一个整数,n为整数。
57.具体地,本发明最终的目标是将g中的新闻通过无监督的聚类方法,合成若干个聚类中心,通过c表示聚类中心,其中,c={c1,c2,c3…cm
},其中,cj代表时刻j生成的聚类中心,j为1至m之间的任意一个整数,m为整数,cj包括能够描述该新闻主题的所有新闻。
58.其中,该新闻主题即为该聚类中心的类别,在页面中进行显示时,在聚类中心中随机挑选一条新闻数据进行显示即可。
59.步骤102,对当前新闻数据进行向量化处理,得到当前向量。
60.具体地,为了能够对新闻数据进行向量化处理,本发明使用multilingual-sentence-bert模型对新闻数据进行向量化处理,其中,multilingual-sentence-bert模型是一个多语言的预训练语言模型,可以用来对文本进行编码并得到文本对应的向量表示。
61.具体地,首先我们将新闻的标题和内容连接到一起作为起始文本,然后我们获取文本的前512个字符,输入到multilingual-sentence-bert模型里得到一个768维的向量作为该篇新闻的向量。即,将当前新闻数据的标题和内容连接到一起得到当前文本,获取当前文本中的前512个字符,将获取的512个字符输入到multilingual-sentence-bert模型,得到通过multilingual-sentence-bert模型输出的当前向量。
62.具体地,multilingual-sentence-bert模型只能输入512个字符,并且,由于新闻数据的特殊性,新闻数据的前512个字符便可以指示新闻的关键信息。
63.步骤103,确定当前向量和各历史聚类中心的第一距离中的最小距离。
64.具体地,当获取到第一条新闻数据时,即根据第一条新闻数据对应的生成第一个聚类中心;当获取到第二条新闻数据时,第一条新闻数据即为历史新闻数据,当第二条新闻数据没有添加到第一聚类中心时,则会生成与第二条新闻数据对应的第二个聚类中心,第一条新闻数据对应生成的第一个聚类中心则为历史聚类中心;依次类推,随着时间得到推移,新闻数据的增多,历史新闻数据和历史聚类中心会越来越多,其中,处于当前时刻之前的新闻数据均被定义为历史新闻数据,处于当前时刻之前的聚类中心均被定义为历史聚类中心。
65.一个具体实施例中,通过第一预设计算公式,计算当前向量和各历史聚类中心的第一距离;确定计算得到的各第一距离中的最小距离。
66.具体地,第一预设计算公式见公式(1):
[0067][0068]
其中,ck表示第k个历史聚类中心的向量,s0表示当前向量,cs
ki
表示第一距离。
[0069]
可见,第一距离为当前向量和各历史聚类中心的余弦距离。
[0070]
其中,历史聚类中心的向量可以通过公式(2)得到:
[0071][0072]
其中,pk表示任一一个历史聚类中心中的一个向量,n表示该历史聚类中心中向量的总数。
[0073]
可见,历史聚类中心的向量通过计算该历史聚类中心的多个向量的平均值得到。
[0074]
一个具体实施例中,基于预先设定的事件滤除策略,计算各历史聚类中心对应的权重;将权重小于预设权重时对应的历史聚类中心,从各历史聚类中心中滤除,并将滤除后剩余的历史聚类中心作为各历史聚类中心。
[0075]
具体地,由于新闻的时效性会随着时间的流逝而改变,本发明为了提高新闻分类效率和准确率,设计了过滤机制,即将发生时间过去很久的细粒度的历史聚类中心滤除,例如,将其滤除在过时事件队列中。
[0076]
具体地,获取各个历史聚类中心的生成时间,计算生成时间距离当前时刻的时间长度,基于各个历史聚类中心的时间长度,对应的计算历史聚类中心的权重,可以通过公式(3)计算各历史聚类中心对应的权重:
[0077]wp
=w
p
*2-1*σ
ꢀꢀ
(3)
[0078]
其中,σ表示时间长度,w
p
表示任一一个历史聚类中心对应的权重。
[0079]
具体地,当w
p
小于预设权重时,认为该细粒度的历史聚类中心的权重已经过低,该历史聚类中心中的新闻数据已经过时了,需要将该历史聚类中心放到过时事件队列中。其中,通常来说一个细粒度事件会在五天之内发生,因此,可以将σ设置为5,当然,用户根据实际情况进行设置即可。
[0080]
本发明将发生时间久远的新闻滤除,能够很大的提高新闻分类的效率,并将降低了计算机的计算负荷,有效的提高了用户体验。
[0081]
步骤104,当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心。
[0082]
一个具体实施例中,当最小距离大于或等于预设值时,生成新的聚类中心,将当前向量添加到新的聚类中心;确定新的聚类中心的类别,将新的聚类中心的类别作为当前新闻数据的类别。
[0083]
步骤105,计算待处理聚类中心中任意两个向量之间的第二距离。
[0084]
一个具体实施例中,通过第二预设计算公式,计算待处理聚类中心中任意两个向量之间的第二距离。
[0085]
具体地,第二预设计算公式见公式(4):
[0086][0087]
其中,k和i分别属于1至n之间的整数,pk和pi表示待处理聚类中心的任意两个向量,ss
ki
表示第二距离;
[0088]
可见,第二距离为待处理聚类中心的两个任意向量的余弦距离。
[0089]
另外,本发明利用一个时间衰减函数来表示随着时间的流逝新闻之间的相似度变化,该时间衰减函数见公式(5):
[0090][0091]
其中,ti表示新闻i的发生时间,tj表示新闻j的发生时间,h是一个常数,γ表示新闻相似度。
[0092]
其中,从公式(5)可以看到,γ随着两个新闻发生时间的差异增加而减少。
[0093]
具体的,判断是否存在第二距离大于或等于预设值时,利用第二距离与新闻相似度的乘积和预设值进行比较,判断乘积是否存在大于或等于预设值的情况,当存在乘积大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;当不存在乘积大于或等于预设值时,将待处理中心对应的类别作为当前新闻数据的类别。
[0094]
本发明采用相似度与第二距离的乘积和预设值进行比较,充分考虑了新闻的相似度,使得新闻分类结果更精确。
[0095]
步骤106,当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心。
[0096]
一个具体实施例中,当不存在第二距离大于或等于预设值时,将待处理聚类中心的类别作为当前新闻数据的类别。
[0097]
一个具体实施例中,基于分割参数(eps),确定待处理聚类中心对应的至少两个核心向量;将待处理聚类中心中的向量对应性的划分至各自对应的核心向量,得到至少两个子聚类中心;其中,每个子聚类中心中任意两个向量之间的第二距离小于预设值。
[0098]
具体的,本发明利用基于密度的聚类算法(density-based spatial clustering of applications with noise,简称dbscan)进行待处理聚类中心的分割。其中,dbscan的分割参数越大,待处理聚类中心得到的子聚类中心的个数越多。但是,也不能无限的分割下去,需要设置分割边界条件,分割边界条件为:每个子聚类中心中任意两个向量之间的第二距离小于预设值。
[0099]
具体地,利用初始分割参数,确定待处理聚类中心对应的初始核心向量,然后,调整初始分割参数,即,按照预设差量,依次递增初始分割参数,确定核心向量;将待处理聚类中心中的向量对应性的划分至各自对应的核心向量,得到至少两个子聚类中心。
[0100]
其中,划分标准为待处理聚类中心中的向量与对应的核心向量的第二距离小于预设值。
[0101]
步骤107,将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别。
[0102]
具体地,判断当前新闻数据的类别的具体实现,可参见图2;滤除历史聚类中心的具体实现,可参见图3。
[0103]
其中,图2表示的具体含义为:每当获得一个新的新闻数据并且将其向量化以后,将其与所有现有的聚类中心计算余弦距离,然后找到最近的聚类中心。如果和最近的聚类中心的距离小于δ,那么,将新的新闻加入最近的聚类中心。然后,计算最近的聚类中心是否满足核心距离的约束。如果不满足,需要迭代使用ε0逐渐减小的dbscan算法得到核心的子事件的新闻。最后,将非核心的新闻按照余弦距离分配到最近的核心新闻所属的事件中,这样以来就完成了整个算法。
[0104]
其中,di:即新的新闻与最近的聚类中心的距离;ε0:是eps,表示是dbscan的eps参
数,逐渐将其缩小,使得聚类内部更加紧密;sub:表示运行ε0为参数的dbscan算法后获得的聚类的集合(不包括离群点),可以认为这些是核心新闻。当然,随着ε0不断变小,sub里的新闻数量也会逐渐变小,但是新闻事件类别却是可能上升的;line5:表示判别将新的新闻数据加入到最近的聚类中心后能否满足我们的核心距离的约束。其中,核心距离为第二距离;δ表示第一距离;c表示所有聚类中心;c0表示当前新闻,iso表示核心新闻;p表示非核心的新闻。
[0105]
其中,图3表示的具体含义为:每经过一定的时间间隔p(如48小时,72小时)我们就对于c中的所有聚类中心的权重进行衰减的操作,当衰减后的权重小于w后,我们将这个聚类从c中移动到u中。其中,w为预设权重,u为过时事件队列。
[0106]
本发明提供的新闻分类方法,通过获取当前新闻数据;对当前新闻数据进行向量化处理,得到当前向量;确定当前向量和各历史聚类中心的第一距离中的最小距离;当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心,可见,本发明将当前新闻数据添加到与自身距离最小的历史聚类中心,有效的保证了当前新闻数据划分的准确性;进而,计算待处理聚类中心中任意两个向量之间的第二距离;当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别,可见,本发明在得到待处理聚类中心之后,通过判断待处理聚类中心中任意两个向量之间的第二距离,对待处理聚类中心进行进一步的细粒度分割,将最终包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别,解决了现有技术中新闻分类准确率较低的问题,实现了新闻数据的精准分类,提高了用户体验。
[0107]
具体的,为了说明本发明的新闻分类方法的准确度高,进行了比对说明:
[0108]
步骤一:数据集介绍。为了验证本发明实施例的全面性和有效性,在两个数据分布截然不同的数据集上进行了实验。第一个数据集是来自在线新闻分析网站。第一个数据集收集了一周之内关于政治人物的新闻,然后我们的专业人员将这些新闻分类成了若干种细粒度事件。第二个数据集是来自论文growing story forest online from massive breaking news。新闻的总数量是11748,新闻的平均长度是1210.5个字。其中,第一个数据的新闻长度集中在400-450个字符,而第二个数据的新闻长度则更加的分散,从0到5000不等。
[0109]
步骤二:与基线算法的对比。我们在这两个数据集上进行多种聚类算法的对比。我们将本发明的新闻分类方法(isdc)和综合层次的聚类算法(birch),文本聚类算法(singlepass),基于密度的数据流聚类算法(denstream),流式算法(sostream)四种基线算法进行了对比。为了公平起见,我们使用网格搜索(grid serach)的方法获取每一个算法的最佳效果。
[0110]
我们的实验方法分为两步:第一步我们根据聚类算法将聚合在一起的样本点作为聚类;第二步我们将每个孤立点都当作一个单独的类(结合实际的任务需求)。我们使用了multilingual-sentence-bert模型作为文本的编码器。
[0111]
具体地,基于纯度(purity)和轮廓系数(silhouette coefficients)指标下多种聚类算法的对比。purity的公式见公式(6):
[0112][0113]
其中,n是样本数,ω={w1,w2,

wk}是预测的结果,c={c1,c2,
…cj
}是标准答案。从公式(6)可以得到,purity越高说明预测的聚类内部的一致性越高。因为isdc控制样本数据之间的距离,所以本发明在purtiy这个指标上比其他算法表现得更加出色。
[0114]
为了排除标注人员的主观因素带来的评价影响,利用另一种无监督的聚类评价指标:silhouette coefficient,见公式(7)和公式(8):
[0115][0116][0117]
其中,sc是总的silhouette coefficient,sc(di)是第i个聚类的silhouette coefficient,a是一个样本与其集群内其他样本的平均距离,b是一个样本与其他集群样本的平均距离。silhouette coefficient越大,聚类中的实例更加紧凑。本发明的silhouette coefficient在所有算法中是最高的。
[0118]
另外,比较两个相对全面均衡的指标:聚类评估系数(v-measure)和聚类评估精度(fmi score)。v-measure完全基于两个簇之间的条件熵,即在划分某个类别后,确定另一个类别的不确定性。不确定性越小,两个类别的划分就越接近。v-measure是同质性和完备性的调和平均数,可以更全面地反映聚类的效果。由于,本发明存在滤除策略,因此本发明在v-measure方面优于其他方法。
[0119]
其中,fowlkes-mallows指数(fmi)被定义为成对精度和召回率的几何平均值,具体见公式(9):
[0120][0121]
其中,tp是真阳性的数量,fp是假阳性的数量,fn是假阴性的数量。这里sostream算法在所有算法中表现最好。这是因为fmi鼓励样本生成大型聚类,而sostream凭借其宽松的聚类标准,在该指标上表现良好。
[0122]
为了测试isdc的鲁棒性,测试参数逐渐变化下四种算法的性能。不同的算法具有不同的鲁棒性。sostream的性能取决于参数的正确性,较小的相似度阈值会导致算法性能急剧下降。singlepass和denstream算法在相似度阈值小时性能较差,但在相似度阈值较大时性能上升。相比之下,本发明在不同参数下都能稳定达到最优效果,可见其较强的鲁棒性。
[0123]
预训练模型的消融研究。我们在表1中为我们的新闻主题检测任务尝试了三种嵌入模型。在使用isdc作为我们的聚类算法的同时,我们测试了神经网络模型(word2vec)、无监督方式学习单词的向量表示(glove)、multilingual-sentence-bert模型并比较了它们的性能。word2vec模型、glove、模型在(新闻网络)newsminer系统中的新闻语料库上进行了预训练。基于自然处理(bert),使用语义文本相似性(sts)和自然语言推理(nli)对多语言句子进行了微调。word2vec和glove的性能几乎相同,而multilingual-sentence-bert明显优于两者。
[0124]
下面对本发明提供的新闻分类装置进行描述,下文描述的新闻分类装置与上文描
述的新闻分类方法可相互对应参照,重复之处不再赘述,具体如图4所示,该装置包括:
[0125]
获取模块401,用于获取当前新闻数据;
[0126]
处理模块402,用于对当前新闻数据进行向量化处理,得到当前向量;
[0127]
确定模块403,用于确定当前向量和各历史聚类中心的第一距离中的最小距离;
[0128]
添加模块404,用于当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心;
[0129]
计算模块405,用于计算待处理聚类中心中任意两个向量之间的第二距离;
[0130]
分割模块406,用于当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;
[0131]
判定模块407,用于将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别。
[0132]
一个具体实施例中,该装置还包括滤除模块,用于基于预先设定的事件滤除策略,计算各历史聚类中心对应的权重;将权重小于预设权重时对应的历史聚类中心,从各历史聚类中心中滤除,并将滤除后剩余的历史聚类中心作为各历史聚类中心。
[0133]
一个具体实施中,分割模块406,具体用于基于分割参数,确定待处理聚类中心对应的至少两个核心向量;将待处理聚类中心中的向量对应性的划分至各自对应的核心向量,得到至少两个子聚类中心;其中,每个子聚类中心中任意两个向量之间的第二距离小于预设值。
[0134]
一个具体实施例中,该装置还包括:生成模块,用于当最小距离大于或等于预设值时,生成新的聚类中心,将当前向量添加到新的聚类中心;确定新的聚类中心的类别,将新的聚类中心的类别作为当前新闻数据的类别。
[0135]
一个具体实施例中,该装置还包括:识别模块,用于当不存在第二距离大于或等于预设值时,将待处理聚类中心的类别作为当前新闻数据的类别。
[0136]
一个具体实施例中,确定模块403,具体用于通过第一预设计算公式,计算当前向量和各历史聚类中心的第一距离;确定计算得到的各第一距离中的最小距离。
[0137]
一个具体实施例中,计算模块405,具体用于通过第二预设计算公式,计算待处理聚类中心中任意两个向量之间的第二距离。
[0138]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(communications interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行新闻分类方法,该方法包括:获取当前新闻数据;对当前新闻数据进行向量化处理,得到当前向量;确定当前向量和各历史聚类中心的第一距离中的最小距离;当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心;计算待处理聚类中心中任意两个向量之间的第二距离;当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别。
[0139]
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0140]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的新闻分类方法,该方法包括:获取当前新闻数据;对当前新闻数据进行向量化处理,得到当前向量;确定当前向量和各历史聚类中心的第一距离中的最小距离;当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心;计算待处理聚类中心中任意两个向量之间的第二距离;当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别。
[0141]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的新闻分类方法,该方法包括:获取当前新闻数据;对当前新闻数据进行向量化处理,得到当前向量;确定当前向量和各历史聚类中心的第一距离中的最小距离;当最小距离小于预设值时,将当前向量添加到最小距离对应的历史聚类中心,得到待处理聚类中心;计算待处理聚类中心中任意两个向量之间的第二距离;当存在第二距离大于或等于预设值时,分割待处理聚类中心,得到至少两个子聚类中心;将包括有当前向量的子聚类中心对应的类别,作为当前新闻数据的类别。
[0142]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0143]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0144]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1