对多个稿件进行聚类的方法和设备的制作方法

文档序号:6507442阅读:166来源:国知局
对多个稿件进行聚类的方法和设备的制作方法
【专利摘要】本申请涉及对多个稿件进行聚类的方法和设备。该方法包括:根据新闻分类法的分类建立稿件分类空间;提取每个稿件中的关键词;根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点;计算稿件之间的距离,将距离小于距离阈值的稿件确定为一类。通过本申请的方法,能够对大量的新闻稿件自动进行聚类,节省了人力。
【专利说明】对多个稿件进行聚类的方法和设备

【技术领域】
[0001]本申请涉及对多个稿件进行聚类的方法和设备。

【背景技术】
[0002]当今社会,信息量呈几何数量增长,每天都会产生大量的记录、研究各种领域诸如新闻、历史、科技等等的文档或稿件,有些时候需要对这些稿件进行分类。
[0003]例如,对于报社、新闻网站等来说,每天会收到大量的新闻稿件,并且为了更准确的报导可能需要对新闻稿件进行分类。由于新闻稿件的时效性很强,尽快地对新闻稿件进行分类是十分重要的。如果通过人工对所有稿件进行分类,则会产生繁重的工作量,从而导致新闻的时效性难以保证。如果通过自动聚类的方法先将大量的新闻稿件分为几类,再经过人工调整,则会节省大量的人工工作量。
[0004]因此,存在对多个稿件自动进行聚类的方法和设备的需求。


【发明内容】

[0005]为了解决上述问题,本申请提供了对多个稿件进行聚类的方法和设备,从而能够对大量的新闻稿件自动进行聚类,节省了人力。
[0006]根据本申请的第一方面,提供了一种对多个稿件进行聚类的方法,包括:
[0007]根据新闻分类法的分类建立稿件分类空间;
[0008]提取每个稿件中的关键词;
[0009]根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点;
[0010]计算所述多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值;以及
[0011]如果存在,则将小于所述第一距离阈值的值所对应的稿件确定为和所述第一稿件属于相同的第一类。
[0012]根据本申请的第二方面,提供了一种对多个稿件进行聚类的设备,包括:
[0013]建立模块,被配置以根据新闻分类法的分类建立稿件分类空间;
[0014]提取模块,被配置以提取每个稿件中的关键词;
[0015]映射模块,被配置以根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点;
[0016]计算模块,被配置以计算所述多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值;以及
[0017]聚类模块,被配置以将小于所述第一距离阈值的值所对应的稿件确定为和所述第一稿件属于相同的第一类。
[0018]附图简要说明
[0019]图1是根据本申请实施方式的对多个稿件进行聚类的方法的流程图;以及
[0020]图2是根据本申请实施方式的对多个稿件进行聚类的设备的示意图。

【具体实施方式】
[0021]下面结合实施例和附图对根据本申请实施方式的对多个稿件进行聚类的方法和设备进行详细描述。
[0022]在本申请中,“新闻分类法”是指根据新闻的种类对稿件进行分类的方法,例如,可以将稿件分类为财经、体育、科技、政治、娱乐类等,还可以将体育分类为足球、篮球、网球、体操等。
[0023]在本申请中,“稿件分类空间”是指以新闻分类法所划分的类别作为维度建立的空间。
[0024]在本申请中,“不相关词库”中的词条是指在稿件中通常出现稿件中、但与按照新闻分类法进行的分类无关的词条,例如,“我们”、“但是”等。
[0025]在本申请中,“聚类”是指将具有一定相关性的稿件划分为同一类,例如,将多个稿件分为政治、娱乐类等。
[0026]首先参照图1,将描述根据本申请实施方式的对多个稿件进行聚类的方法。
[0027]在步骤101中,按照新闻分类法的分类建立稿件分类空间。
[0028]在示例性实施方式中,新闻分类法可以包括例如财经、体育、科技、政治、娱乐等多个类别。在某些实施方式中,可以将财经、体育、科技、政治、娱乐等每个类别都作为稿件分类空间的一个维度。例如,新闻分类法包括N个类别,则稿件分类空间可以是N维空间,稿件分类空间中的点的坐标可以表示为(Tl,Wl, T2,W2……,Tn, Wn),其中,Ti为新闻分类法的第i类别对应的稿件分类空间的第i个维度,Wi为Ti的权重。
[0029]在步骤102中,提取每个稿件中的关键词。
[0030]在某些实施方式中,步骤102可以包括:计算词条在稿件中出现的频率,并将高于预设的频率阈值(例如,五次)的词条作为候选关键词;以及去掉不相关的候选关键词(例如,常用的“我们”、“然而”等),从而获得关键词。
[0031]在示例性实施方式中,可以预设不相关词库,其中记录稿件中出现频率较高但无法按照新闻分类法进行分类的词,例如,“我们”、“然而”等。例如,在获取候选关键词“我们”、“足球”后,判断出词条“我们”存在于预设的不相关词库,则将“我们”从候选关键词中去掉;并判断出词条“足球”未存在于预设的不相关词库,则将其确定为关键词。
[0032]在步骤103中,根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点。
[0033]在示例性实施方式中,根据提取的关键词的频率建立稿件可以包括:将稿件中提取的关键词都归属至新闻分类法对词条进行的分类,即,对应于稿件分类空间的一个维度,Ti ;并且计算稿件中的属于该分类的所有关键词的频率和,将该频率和作为稿件在该维度上的值,Wi,从而将每个稿件映射为稿件分类空间中的点。
[0034]例如,稿件中出现足球8次、网球6次、美元6次,按新闻分类法将足球和网球都归属至体育类,将美元归属至经济类,从而在稿件分类空间中,其体育类维度的值为8+6=14,经济类维度的值6次。以此方式,可以将每个稿件映射为稿件分类空间中的点。
[0035]在示例性实施方式中,当稿件的频在各个维度上的值Wl-Wi都小于频率阈值,则将该稿件归入“未分类”中。
[0036]在步骤104中,计算多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值。
[0037]在示例性实施方式中,可以根据稿件形成的时间确定第一稿件,例如,可以将时间最早的稿件作为第一稿件。
[0038]在另一示例性实施方式中,从多个稿件中随机选择一个稿件作为第一稿件。
[0039]在又一示例性实施方式中,通过工作人员从多个稿件中随机选择一个稿件作为第一稿件。
[0040]在步骤105中,如果确定所计算出的距离中存在小于预定的第一距离阈值的值,则将小于第一距离阈值的值所对应的稿件确定为和第一稿件属于相同的第一类。
[0041]在示例性实施方式中,第一距离阈值的大小可以根据实际需要由操作人员设定。例如,如果将第一距离阈值设置的相对较小,使得同一类的稿件的相关性相对较强;相反,如果将第一距离阈值设置的相对较大,使得同一类的稿件的相关性相对较弱。
[0042]在某些实施方式中,对多个稿件进行聚类的方法还可以包括步骤:
[0043]确定多个稿件中是否存在未被确定为第一类的多个稿件,如果存在,则从中选择第二稿件,并计算第二稿件所映射的点在稿件分类空间中与其他未被确定为第一类的稿件所映射的点之间的距离;
[0044]确定所计算出的距离中是否存在小于预定的第二距离阈值的值;以及
[0045]如果存在,则将小于第二距离阈值的值所对应的稿件确定为和第二稿件属于相同的第二类。
[0046]在某些实施方式中,通过重复类似的步骤,可以使所有稿件都进行分类,即:确定多个稿件中是否存在未被确定为第一类或第二类的多个稿件,如果存在,则从中选择第三稿件,并计算第三稿件所映射的点在稿件分类空间中与其他未被确定为第一类或第二类的稿件所映射的点之间的距离;确定所计算出的距离中是否存在小于预定的第三距离阈值的值;以及如果存在,则将小于第三距离阈值的值所对应的稿件确定为和第三稿件属于相同的第三类,直至所有稿件都进行了分类。
[0047]通过上述根据本申请实施方式的对多个稿件进行聚类的方法,可以对大量的稿件进行自动聚类,从而节省了的人力。
[0048]下面参照图2,将描述根据本申请实施方式的对多个稿件进行聚类的设备。
[0049]如图所示,该设备可以包括以下部件。
[0050]建立模块201,其可以根据新闻分类法的分类建立稿件分类空间。在某些实施方式中,建立模块201可以按照历史分类法对词条进行的每个分类建立稿件分类空间。
[0051]提取模块202,其可以提取每个稿件中的关键词。在某些实施方式中,提取模块202可以包括统计部件和删除部件。统计部件可以统计词条在稿件中出现的频率,并将高于频率阈值的词条作为候选关键词。删除部件可以从候选关键词中删除不相关的词条,从而获得关键词。在示例性实施方式中,删除部件可以判断候选关键词是否存在于预设的不相关词库,如果是,则将该候选关键词删除,剩余的候选关键词则作为关键词。
[0052]映射模块203,其可以根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点。在某些实施方式中,映射模块203可以包括归属部件以及求和部件。归属部件可以将提取的关键词归属至根据新闻分类法的分类,即,稿件分类空间的维度。求和部件可以对该分类(即,某一维度)中的所有关键词在稿件中出现的频率和,并将该频率和作为稿件在该分类所对应的稿件分类空间的维度上的值。
[0053]计算模块204,被配置以计算多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值。
[0054]聚类模块205,被配置以将小于第一距离阈值的值所对应的稿件确定为和第一稿件属于相同的第一类。在某些实施方式中,聚类模块205还可以确定多个稿件中是否存在未被确定为第一类的多个稿件,如果存在,则从中选择第二稿件,并计算第二稿件所映射的点在稿件分类空间中与其他未被确定为第一类的稿件所映射的点之间的距离;确定所计算出的距离中是否存在小于预定的第二距离阈值的值;以及如果存在,则将小于第二距离阈值的值所对应的稿件确定为和第二稿件属于相同的第二类,直至所有稿件都进行了分类。
[0055]应当理解,本文以上实施方式仅仅是示例性的,而非在于限制本申请的范围。对于本领域的技术人员而言,在不脱离本申请的精神和实质的情况下,可以做出各种变型和改进,但是这些变型和改进也应视为落入本申请的保护范围之中。
【权利要求】
1.一种对多个稿件进行聚类的方法,包括: 根据新闻分类法的分类建立稿件分类空间; 提取每个稿件中的关键词; 根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的占.计算所述多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值;以及如果存在,则将小于所述第一距离阈值的值所对应的稿件确定为和所述第一稿件属于相同的第一类。
2.如权利要求1所述的方法,其中,提取每个稿件中的关键词的步骤包括: 计算词条在稿件中出现的频率,并将高于频率阈值的词条作为候选关键词;以及 从候选关键词中去掉不相关的词条,从而获得关键词。
3.如权利要求2所述的方法,其中,从候选关键词中去掉不相关的词条,从而获得关键词的步骤包括: 判断候选关键词是否存在于预设的不相关词库;以及 如果是,则将该候选关键词去掉;如果否,则将该候选关键词作为关键词。
4.如权利要求1所述的方法,其中,根据新闻分类法的分类建立稿件分类空间的步骤包括: 将新闻分类法的每个分类作为稿件分类空间的维度。
5.如权利要求1所述的方法,其中,根据提取的关键词的频率建立稿件坐标的步骤包括: 将提取的关键词归属至根据新闻分类法的每个分类; 计算该分类中的所有关键词在稿件中出现的频率和,并将该频率和作为稿件在该分类所对应的稿件分类空间的维度上的值。
6.如权利要求1所述的方法,其中,所述第一稿件是根据稿件形成的时间确定的,或者随机选择的,或者通过工作人员选择的。
7.如权利要求6所述的方法,还包括: 确定所述多个稿件中是否存在未被确定为第一类的多个稿件,如果存在,则从中选择第二稿件,并计算第二稿件所映射的点在稿件分类空间中与其他未被确定为第一类的稿件所映射的点之间的距离; 确定所计算出的距离中是否存在小于预定的第二距离阈值的值;以及如果存在,则将小于所述第二距离阈值的值所对应的稿件确定为和所述第二稿件属于相同的第二类。
8.一种对多个稿件进行聚类的设备,包括: 建立模块,被配置以根据新闻分类法的分类建立稿件分类空间; 提取模块,被配置以提取每个稿件中的关键词; 映射模块,被配置以根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点; 计算模块,被配置以计算所述多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值;以及 聚类模块,被配置以将小于所述第一距离阈值的值所对应的稿件确定为和所述第一稿件属于相同的第一类。
9.如权利要求8所述的设备,所述提取模块包括: 统计部件,被配置以统计词条在稿件中出现的频率,并将高于频率阈值的词条作为候选关键词;以及 删除部件,被配置以从候选关键词中删除不相关的词条,从而获得关键词。
10.如权利要求8所述的设备,所述映射模块包括: 归属部件,被配置以将提取的关键词归属至根据新闻分类法的分类, 求和部件,被配置以计算该分类中的所有关键词在稿件中出现的频率和,并将该频率和作为稿件在该分类所对应的稿件分类空间的维度上的值。
【文档编号】G06F17/30GK104346411SQ201310346857
【公开日】2015年2月11日 申请日期:2013年8月9日 优先权日:2013年8月9日
【发明者】王露 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1