一种推送微博的方法及装置的制作方法

文档序号:6378653阅读:309来源:国知局
专利名称:一种推送微博的方法及装置的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种推送微博的方法及装置。
背景技术
近年来,伴随着互联网的普及,网络媒体已经被公认为是继报纸、广播、电视之后的“第四媒体”,网络已经成为反映社会热点舆情的主要载体之一,特别是借助微博的兴起与发展,通过微博即时、快速传播、便捷的特点,进一步推动了网络舆情的发展,微博上的舆情也成为了网络舆情中最具影响力的一种。通过微博,用户既可以将自己发现的舆情发布到微博上,也可以将其他用户发布的微博进行转发,对于一些可以引起大量用户关注的热点舆情,一旦将其在微博上发布,则短时间内该微博就会被大量用户转发、关注。因此,相关部门和企业均已经开始重视微博中·反映的热点舆情,以根据热点舆情进行及时的应对。例如,将病危婴儿送往医院的信息发布到微博上,该微博会在短时间内被大量转发,以引起交管部门的关注,交管部门则及时采取为该婴儿所在的车辆进行开路等相应对策,以保证婴儿可以被及时的送到医院。然而,由于微博的信息量十分巨大,仅依靠人工的方法确定海量微博中所反映的热点舆情是非常困难的,因此,如何确定海量微博中所反映的热点舆情成为一个亟待解决的问题。在现有技术中,主要是采用基于k-means算法的文本聚类技术来确定海量微博中所反映的热点舆情,并将反映该热点舆情的至少一条微博推送给相应用户,该用户具体可以是相关部门或相关企业等用户。基于k-means算法的文本聚类需要预先设定聚类的个数,也即需要预先设定海量微博中所反映的热点舆情的数量,才能根据k-means算法对这些海量微博进行文本聚类。得到的每个聚类就是反映每个热点舆情的微博聚类,也即确定的热点舆情的数量就是预先设定的聚类的个数。然而,海量微博中所反映的热点舆情的数量往往是不可预估的。如果预先设定的聚类的个数过少,就会遗漏微博中反映的某些热点舆情,导致反映遗漏的热点舆情的微博不能被及时的推送给相应用户。

发明内容
本发明实施例提供一种推送微博的方法及装置,用以解决现有技术中反映某些热点舆情的微博不能被及时的推送给相应用户的问题。本发明实施例提供的一种推送微博的方法,包括接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词;根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合;
根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合;针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。本发明实施例提供的一种推送微博的装置,包括接收分词模块,用于接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词;关键词集合确定模块,用于根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合;
·
增量聚类模块,用于根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合;判断推送模块,用于针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。本发明实施例提供一种推送微博的方法及装置,该方法确定在设定时间间隔内接收到的各微博中的关键词,采用在各关键词中任选两个关键词构成关键词集合的方法确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。通过上述方法,得到的聚类关键词集合就是该设定时间间隔内发布的各微博所反映的热点舆情对应的热点舆情关键词集合,而由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。


图I为本发明实施例提供的推送微博的过程;图2为本发明实施例提供的推送微博的装置结构示意图。
具体实施例方式本发明实施例提供一种推送微博的方法及装置,该方法确定在设定时间间隔内接收到的各微博中的关键词,采用在各关键词中任选两个关键词构成关键词集合的方法确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。通过上述方法,得到的聚类关键词集合就是该设定时间间隔内发布的各微博所反映的热点舆情对应的热点舆情关键词集合,而由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。下面结合说明书附图,对本发明实施例进行详细描述。图I为本发明实施例提供的推送微博的过程,具体包括以下步骤SlOl :接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词。
在本发明实施例中,服务器在每个设定时间间隔结束时,确定在当前时间间隔内接收到的各微博中包含的关键词。其中,该设定时间间隔可以根据需要进行设定,例如设定为2个小时。在确定接收到的各微博中包含的关键词时,可以对接收到的各微博进行分词处理,并在通过分词处理得到的各分词中,确定指定类型的分词,作为确定出的关键词。具体的,可以在通过分词处理得到的各分词中,先去掉停用词,再针对剩余的每个分词,将该分词分别与预先保存的指定类型的分词词库中的分词进行匹配,如果匹配成功,则说明该分词是该指定类型的分词,将该分词确定为关键词。其中,指定类型包括名词类型、动词类型、形容词类型等分词类型。S102:根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用该设定方法所能确定出的所有关键词集合。其中,该设定方法为在各关键词中任意选择两个关键词构成一个关键词集合。例如,假设在步骤SlOl中确定出的该设定时间间隔内接收到的各微博中包含的关键词为关键词X、关键词Y、关键词Z,则服务器采用任意选择两个关键词构成一个关键词集合的方法,所能确定出的关键词集合为{关键词X,关键词Y}、{关键词Y,关键词Z}、{关键词X,关键词Z}共3个关键词集合。S103 :根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合。具体的,服务器在对各关键词集合进行增量聚类时,可以先按照一定规则对各关键词进行排序,并按照排序的先后顺序,依次针对每个关键词集合执行下述步骤A、步骤A、将当前针对的关键词集合作为待聚类关键词集合,确定排在待聚类关键词集合之前的每个关键词集合,作为前序关键词集合;步骤B、针对确定的每个前序关键词集合,确定待聚类关键词集合与该前序关键词集合的交集中包含的关键词的第一数量,确定待聚类关键词集合与该前序关键词集合的并集中包含的关键词的第二数量,当第一数量与第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中,其中,满足第一指定条件的关键词为包含在该待聚类关键词集合中、且未包含在该前序关键词集合中的关键词。当按照排序的先后顺序,依次针对每个关键词集合都进行了上述步骤A、后,则增量聚类结束,得到的聚类后的各关键词集合就是聚类关键词集合。继续沿用上例,步骤S102中确定出的关键词集合为{关键词X,关键词Y}、{关键词Y,关键词Z}、{关键词X,关键词Z},共3个关键词集合,假设将这3个关键词集合任意进行排序,排序为{关键词X,关键词Y}、{关键词Y,关键词Z}、{关键词X,关键词Z},则
按照排序的 先后顺序,先针对关键词集合{关键词X,关键词Y},将关键词集合{关键词X,关键词Y}作为待聚类关键词集合,而由于不存在排在关键词集合{关键词X,关键词Y}之如的关键词集合,因此对关键词集合{关键词X,关键词Y}的处理结束,按照排序的先后顺序,继续针对关键词集合{关键词Y,关键词Z}进行处理。针对关键词集合{关键词Y,关键词Z},将关键词集合{关键词Y,关键词Z}作为待聚类关键词集合,排在关键词集合{关键词Y,关键词Z}之前的是关键词集合{关键词X,关键词Y},因此将关键词集合{关键词X,关键词Y}作为前序关键词集合。待聚类关键词集合{关键词Y,关键词Z}与前序关键词集合{关键词X,关键词Y}的交集中包含的关键词的第一数量为1,并集中包含的关键词的第二数量为3,第一数量与第二数量的比值为1/3,假设设定比值为1/5,则第一数量与第二数量的比值大于设定比值。并且,满足第一指定条件的关键词为关键词Z (关键词Z只包含在待聚类关键词集合中,未包含在前序关键词中),因此,将待聚类关键词集合{关键词Y,关键词Z}中的关键词Z添加到如序关键词集合{关键词X,关键词Y}中。此时,关键词集合{关键词X,关键词Y}就变成了关键词集合{关键词X,关键词Y,关键词Z}。至此,对关键词集合{关键词Y,关键词Z}的处理结束。按照排序的先后顺序,继续针对关键词集合{关键词X,关键词Z}进行处理。针对关键词集合{关键词X,关键词Z},将关键词集合{关键词X,关键词Z }作为待聚类关键词集合,排在关键词集合{关键词X,关键词Z}之前的是关键词集合{关键词X,关键词Y,关键词Z}和关键词集合{关键词Y,关键词Z},因此,将关键词集合{关键词X,关键词Y,关键词Z}和关键词集合{关键词Y,关键词Z}都作为前序关键词集合。针对前序关键词集合{关键词X,关键词Y,关键词Z},虽然待聚类关键词集合{关键词X,关键词Z}与该前序关键词集合{关键词X,关键词Y,关键词Z}的交集中包含的关键词的第一数量与并集中包含的关键词的第二数量的比值大于设定比值,但是,由于该待聚类关键词集合{关键词X,关键词Z}中的所有关键词均包含在前序关键词集合{关键词X,关键词Y,关键词Z}中,因此该待聚类关键词集合{关键词X,关键词Z}中不存在可以添加到该前序关键词集合{关键词X,关键词Y,关键词Z}中的关键词。针对如序关键词集合{关键词Y,关键词Z},该待聚类关键词集合{关键词X,关键词Z}与该前序关键词集合{关键词Y,关键词Z}的交集中包含的关键词的第一数量与并集中包含的关键词的第二数量的比值大于设定比值,且相对于该前序关键词集合{关键词Y,关键词Z}来说,该待聚类关键词集合{关键词X,关键词Z}中满足第一指定条件的关键词为关键词X,因此将关键词X添加到该前序关键词集合{关键词Y,关键词Z}中。此时,关键词集合{关键词Y,关键词Z}就变成了关键词集合{关键词X,关键词Y,关键词Z}。至此,已经对3个关键词集合都进行了处理,因此增量聚类结束,得到的3个聚类关键词集合分别为关键词集合{关键词X,关键词Y,关键词Z}、关键词集合{关键词X,关键词Y,关键词Z}、关键词集合{关键词X,关键词Z}。可见,得到的这3个聚类关键词集合中,有两个聚类关键词集合是相同的,因此本发明实施例中对于得到的若干个相同的聚类关键词集合,则只保留一个。在本发明实施例中,通过增量聚类得到的每个聚类关键词集合实际上就是该设定时间间隔内发布的微博所反映的每个热点舆情对应的热点舆情关键词集合。S104:针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,若是,则进行步骤S105,否则进行步骤S106。在本发明实施例中,服务器中维护一个热点舆情库,该热点舆情库中保存了每个热点舆情对应的热点舆情关键词集合,一个热点舆情对应的热点舆情关键词集合实际上就是该热点舆情的各关键词所构成的集合。服务器每次发现新的热点舆情时,就将该热点舆情对应的热点舆情关键词集合保存在该热点舆情库中。上述步骤S104中针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的想速度大于设定相似度的热点舆情关键词集合,实际上就是判断在该设定时间间隔内发布的微博所反映的热点舆情对应的热点舆情关键词集合是否为一个新的热点舆情对应的热点舆情关键词集合。S105 :在热点舆情库中确定与该聚类关键词集合的相似度最大的热点舆情关键词集合,将与该聚类关键词集合相关的微博作为与确定的该热点舆情关键词集合相关的微博保存。
如果热点舆情库中存在至少一个与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,则说明该聚类关键词集合对应的热点舆情并非是一个新的热点舆情。因此,本发明实施例中在热点舆情库中确定与该聚类关键词集合的相似度最大的热点舆情关键词集合,确定的该热点舆情关键词对应的热点舆情则可以认为是与该聚类关键词集合对应的热点舆情相同,因此将与该聚类关键词集合相关的微博作为与确定的该热点舆情关键词集合相关的微博保存。S106 :在接收到的各微博中,选择与该聚类关键词相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在热点舆情库中。如果热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,则说明该聚类关键词集合对应的热点舆情是一个新的热点舆情。因此,将在该设定时间间隔内接收到的各微博中,选择与该聚类关键词相关的微博推送给相关用户,并将该聚类关键词集合作为一个新的热点舆情对应的热点舆情关键词保存在热点舆情库中。通过上述步骤S106可知,本发明实施例中服务器针对增量聚类得到的聚类关键词集合,一旦发现该聚类关键词集合对应的热点舆情是新的热点舆情,就将与聚类关键词集合相关的微博推送给相关用户,因此,如果该聚类关键词集合对应的热点舆情不是新的热点舆情,则可以进一步说明反映该聚类关键词集合对应的热点舆情的微博已经在之前被推送给了相关用户,从而当该聚类关键词集合对应的热点舆情不是新的热点舆情时,无需向相关用户推送与聚类关键词集合相关的微博,可以减少网络资源的消耗。通过上述方法,服务器通过增量聚类得到的每个聚类关键词集合就是该设定时间间隔内发布的各微博所反映的热点舆情对应的热点舆情关键词集合,由于本发明实施例在进行增量聚类时,无需预先设定聚类的个数,因此不会遗漏该时间间隔内发布的各微博所反映的任何热点舆情对应的热点舆情关键词集合,从而,服务器一旦发现新的热点舆情,就可以及时的将相关的微博推送给相关用户。并且,上述增量聚类的复杂度也远低于现有技术中的k-means聚类算法的复杂度,因此本发明实施例提供的上述推送微博的方法可以进一步减少推送微博的延时,提高了推送微博的实时性。
在本发明实施例中,由于图I所示的步骤SlOl中在接收到的各微博中确定出的关键词出现的频率各不相同,因此为了提高后续确定的反映某个热点舆情的聚类关键词集合的准确性,图I所示的步骤S102中服务器根据确定出的各关键词,采用设定方法确定关键词集合的方法具体为针对确定出的每个关键词,根据该关键词在接收到的每个微博中出现的次数的和、接收到的微博的数量,以及预先保存的该关键词的逆文档频率,采用公式
/7
=log(f )x7#确定该关键词的权重,其中,Hword为该关键词在接收到的每个微
博中出现的次数的和,N为接收到的微博的数量,Idf为预先保存的该关键词的逆文档频率,Wordweight为确定的该关键词的权重;根据确定的每个关键词的权重,按照权重从大到小的顺序依次选择第一设定数量的关键词,采用设定方法确定关键词集合。其中,上述第一设定数量可以根据需要进行设定,例如可以设定为200。上述公式
中的^1实际上是该关键词的词频。也即,服务器在接收到的各微博中确定出关键词后,确·
定每个关键词的权重,假设第一设定数量为200,则服务器取权重最大的前200个关键词,根据这200个关键词,以在这200个关键词中任意选择两个关键词构成一个关键词集合的方法,确定关键词集合,并确定采用该方法所能确定出的所有关键词集合,采用该方法所能确定出的所有关键词集合则共有CL个。相应的,在确定出关键词集合之后,图I所示的步骤S103中对确定出的各关键词集合进行增量聚类之前,也要计算确定出的各关键词集合的权重,并仍然取权重较大的若干个关键词集合进行增量聚类。具体的,在对确定出的各关键词集合进行增量聚类之前,还要针对确定出的每个关键词集合,确定该关键词集合中包含的两个关键词的互信息,根据确定的该关键词集合中包含的两个关键词的互信息,以及该两个关键词的权重,采用公式确定该关键词集合的权重,其中,i表示该关键词集合中包含的关键词i,j表示该关键词集合中包含的关键词关键词i的权重,
为关键词j的权重,Dweight为确定的该关键词集合的权重,I (i, j)为关键词i和关
键词j的互信息,KHiJ) = log,.:).、Φ⑴为接收到的一个微博包含该关键词i的概率,
P(I)P(J)
p(j)为接收到的一个微博包含该关键词j的概率,p(i,j)为接收到的一个微博同时包含该关键词i和关键词j的概率;根据确定的每个关键词集合的权重,按照权重从大到小的顺序依次选择第二设定数量的关键词集合。在选择出第二设定数量的关键词集合之后,则可以根据选择的第二设定数量的关键词集合中每两个关键词集合的交集和并集中包含的关键词,对选择的第二设定数量的关键词进行增量聚类。其中,第二设定数量可以根据需要进行设定,例如设定为300。也即,确定出各关键词集合之后,确定每个关键词集合的权重,假设第二设定数量为300,则选择权重最大的前300个关键词集合,根据这300个关键词集合中每两个关键词集合的交集和并集中包含的关键词,对这300个关键词集合进行增量聚类。在本发明实施例中,图I所示的步骤S103对选择的第二设定数量的关键词集合进行增量聚类的方法具体为根据选择的每个关键词集合的权重,将选择的第二设定数量的关键词集合按照权重从大到小的顺序进行排序;按照关键词集合排序的先后顺序,依次针对每个关键词集合,执行下述步骤A、
步骤A、将当前针对的关键词集合作为待聚类关键词集合,确定排在待聚类关键词集合之前的每个关键词集合,作为前序关键词集合;步骤B、针对确定的每个如序关键词集合,确定待聚类关键词集合与该如序关键词集合的交集中包含的关键词的第一数量,确定待聚类关键词集合与该前序关键词集合的并集中包含的关键词的第二数量,当第一数量与第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中,其中,满足第一指定条件的关键词为包含在该待聚类关键词集合中、且未包含在该前序关键词集合中的关键词。上述增量聚类方法与图I所示的步骤S103的增量聚类方法基本相同,只是对关键词集合的排序顺序是按照权重从大到小的顺序排序的。例如,假设选择的关键词集合共有3个,分别为集合I、集合2、集合3。假设按 照权重从大到小的顺序排序为集合I、集合2、集合3,则由于没有任何关键词集合排在集合I之前,因此从集合2开始处理,先将集合2作为待聚类关键词集合,将集合I作为前序关键词集合,如果集合2和集合I的交集中包含的关键词的第一数量与并集中包含的关键词的第二数量大于设定比值(例如20%),则将集合2中满足第一指定条件的关键词添加到集合I中,类似的,再对集合3进行处理,这里就不再一一赘述。需要说明的是,上例中在对集合3进行处理时,作为前序关键词集合的集合I是添加了集合2中满足第一指定条件的关键词之后的集合I。可见,本发明实施提供的上述增量聚类是具有一定的方向性的,聚类的方向即为将权重较小的关键词集合中满足第一指定条件的关键词添加到权重较大的关键词集合中。这是由于通常的来说,反映热点舆情的关键词集合的权重相较于反映一般舆情的关键词集合的权重较大,因此将上述增量聚类方法可以更加准确的确定出该设定时间间隔内接收到的各微博所反映的热点舆情。上述增量聚类的方法是以当待聚类关键词集合与前序关键词集合的交集中包含的关键词的第一数量与并集中包含的关键词的第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到前序关键词集合中为例进行说明的。在实际应用中,还可以确定待聚类关键词集合与前序关键词集合的交集中包含的关键词的第一数量,将待聚类关键词集合中包含的关键词的数量与前序关键词集合中包含的关键词的数量中的较小的数量确定为第二数量,当第一数量与第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到前序关键词集合中。为了进一步提高确定该设定时间间隔内接收到的各微博所反映的热点舆情的准确性,上述增量聚类方法中,服务器将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中之前,还要在接收到的各微博中,确定同时包含满足第一指定条件的关键词,以及该前序关键词集合中的每个关键词的微博的数量大于第三设定数量。也即,当待聚类关键词集合与前序关键词集合的交集中包含的关键词的第一数量与并集中包含的关键词的第二数量的比值大于设定比值,且,同时包含满足第一指定条件的关键词以及前序关键词集合中的每个关键词的微博的数量大于第三设定数量时,才将待聚类关键词集合中满足第一指定条件的关键词添加到前序关键词集合中,只要上述一个条件不满足,则不将待聚类关键词集合中满足第一指定条件的关键词添加到前序关键词集合中。
具体的,实现上述增量聚类的方法的伪代码如下
//输入选择的关键词集合 //输出最终的聚类关键词集合
//iterations:迭代次数,实验设置为3; N—clusters:第二设定数量int CTopicExtract::cliiSterWords(int iterations) {
forii = O;i<iterations;i-+)
权利要求
1.一种推送微博的方法,其特征在于,包括 接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词; 根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合; 根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合; 针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。
2.如权利要求I所述的方法,其特征在于,确定接收到的各微博中的关键词,具体包括 对接收到的各微博进行分词处理,在得到的各分词中确定指定类型的分词,作为确定出的关键词。
3.如权利要求I所述的方法,其特征在于,根据确定出的各关键词,采用设定方法确定关键词集合,具体包括 针对确定出的每个关键词,根据该关键词在接收到的每个微博中出现的次数的和、接收到的微博的数量,以及预先保存的该关键词的逆文档频率,采用公式=Iog(^ii)X緣确定该关键词的权重,其中,nWOTd为该关键词在接收到的每个微博中出现的次数的和,N为接收到的微博的数量,Idf为预先保存的该关键词的逆文档频率,Wordweight为确定的该关键词的权重; 根据确定的每个关键词的权重,按照权重从大到小的顺序依次选择第一设定数量的关键词,根据选择出的第一设定数量的关键词,采用设定方法确定关键词集合。
4.如权利要求3所述的方法,其特征在于,根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类之前,所述方法还包括针对确定出的每个关键词集合,确定该关键词集合中包含的两个关键词的互信息,根据确定的该关键词集合中包含的两个关键词的互信息,以及该两个关键词的权重,采用公式从_ =瓜/)><,0<,_确定该关键词集合的权重,其中,i表示该关键词集合中包含的关键词i,j表不该关键词集合中包含的关键词为关键词i的权重,为关键词j的权重,Dweight为确定的该关键词集合的权重,I (i, j)为关键词i和关键词j的互信息,且ZUi)= Iogf^ P⑴为接收到的一个微博包含该关键词i的概率,p(j)为接收到的一个微博包含该关键词j的概率,p(i,j)为接收到的一个微博同时包含该关键词i和关键词j的概率; 根据确定的每个关键词集合的权重,按照权重从大到小的顺序依次选择第二设定数量的关键词集合;根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,具体包括 根据选择的第二设定数量的关键词集合中每两个关键词集合的交集和并集中包含的关键词,对选择的第二设定数量的关键词集合进行增量聚类。
5.如权利要求4所述的方法,其特征在于,对选择的第二设定数量的关键词集合进行增量聚类,具体包括 根据选择每个关键词集合的权重,将选择的 第二设定数量的关键词集合按照权重从大到小的顺序进行排序; 按照关键词集合排序的先后顺序,依次针对每个关键词集合,执行下述步骤A、 步骤A、将当前针对的关键词集合作为待聚类关键词集合,确定排在待聚类关键词集合之前的每个关键词集合,作为前序关键词集合; 步骤B、针对确定的每个前序关键词集合,确定待聚类关键词集合与该前序关键词集合的交集中包含的关键词的第一数量,确定待聚类关键词集合与该前序关键词集合的并集中包含的关键词的第二数量,当第一数量与第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中,其中,满足第一指定条件的关键词为包含在该待聚类关键词集合中、且未包含在该前序关键词集合中的关键词。
6.如权利要求5所述的方法,其特征在于,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中之前,所述方法还包括 在接收到的各微博中,确定同时包含满足第一指定条件的关键词,以及该前序关键词集合中的每个关键词的微博的数量大于第三设定数量。
7.如权利要求5所述的方法,其特征在于,针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合之前,所述方法还包括 在得到的各聚类关键词集合中,提取满足第二指定条件的聚类关键词集合,所述第二指定条件包括包含的关键词的数量不少于第四设定数量,且,与该聚类关键词集合相关的微博的数量大于第五设定数量; 其中,与该聚类关键词集合相关的微博具体包括包含有该聚类关键词集合中的至少m个关键词的微博,m为第六设定数量。
8.如权利要求7所述的方法,其特征在于,针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,具体包括 针对提取的满足所述第二指定条件的每个聚类关键词集合,采用公式,/(土\A u /j确定该聚类关键词集合分别与热点舆情库中的每个热点舆情关键词集合的相似度,并判断所述热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,其中,A为提取的该聚类关键词集合,B为所述热点舆情库中的热点舆情关键词集合,J(A, B)为确定的该聚类关键词集合与热点舆情关键词集合的相似度。
9.如权利要求8所述的方法,其特征在于,当所述热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,所述方法还包括针对与该聚类关键词集合相关的每个微博,确定该微博的情感倾向值; 根据确定的与该聚类关键词集合相关的每个微博的情感倾向值,分别确定其中情感倾向值大于O、小于O、等于O的微博所占的百分比,将确定的百分比发送给所述相关用户;其中,确定该微博的情感倾向值具体包括 对该微博进行断句处理,得到该微博中的每个分句; 针对每个分句,对该分句进行分 词处理,得到该分句中的每个分词,根据预先保存的每个分词对应的情感倾向值,确定该分句中每个分词的情感倾向值,根据该分句中每个分词的情感倾向值以及该分句的类型,确定该分句的情感倾向值; 将确定的该微博中每个分句的情感倾向值的和值,确定为该微博的情感倾向值。
10.如权利要求8所述的方法,其特征在于,当所述热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,所述方法还包括 针对与该聚类关键词集合相关的每个微博,确定该微博在所述设定时间间隔内的热度; 确定与该聚类关键词集合相关的每个微博在所述设定时间间隔内的热度的和值,并将确定的和值发送给所述相关用户; 其中,确定该微博在所述设定时间间隔内的热度具体包括 确定该微博在所述设定时间间隔内被转发的次数与被评论的次数的和值,作为确定的该微博在所述设定时间间隔内的热度。
11.如权利要求8 10任一所述的方法,其特征在于,所述方法还包括 针对在所述设定时间间隔内发布的各微博,以在该微博中确定出的各关键词构成监控关键词集合; 如果所述热点舆情库中不存在与该监控关键词集合的相似度大于设定相似度的热点舆情关键词集合、且该监控关键词集合中包含指定关键词、且该微博的情感倾向值小于O、且该微博在所述设定时间间隔内的热度大于设定热度,则将该微博推送给所述相关用户。
12.一种推送微博的装置,其特征在于,包括 接收分词模块,用于接收在设定时间间隔内发布的各微博,确定接收到的各微博中的关键词; 关键词集合确定模块,用于根据确定出的各关键词,采用设定方法确定关键词集合,并确定采用所述设定方法所能确定出的所有关键词集合,其中,所述设定方法为在各关键词中任意选择两个关键词构成一个关键词集合; 增量聚类模块,用于根据确定出的各关键词集合中每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,得到各聚类关键词集合; 判断推送模块,用于针对得到的每个聚类关键词集合,判断热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,当不存在时,在接收到的各微博中,选择与该聚类关键词集合相关的微博推送给相关用户,并将该聚类关键词集合作为热点舆情关键词集合保存在所述热点舆情库中。
13.如权利要求12所述的装置,其特征在于,所述接收分词模块具体用于,对接收到的各微博进行分词处理,在得到的各分词中确定指定类型的分词,作为确定出的关键词。
14.如权利要求12所述的装置,其特征在于,所述关键词集合确定模块具体用于,针对确定出的每个关键词,根据该关键词在接收到的每个微博中出现的次数的和、接收到的微博的数量,以及预先保存的该关键词的逆文档频率,采用公式^=log(^)x/#确定该关键词的权重,其中,nWOTd为该关键词在接收到的每个微博中出现的次数的和,N为接收到的微博的数量,Idf为预先保存的该关键词的逆文档频率,Wordireight为确定的该关键词的权重;根据确定的每个关键词的权重,按照权重从大到小的顺序依次选择第一设定数量的关键词,根据选择出的第一设定数量的关键词,采用设定方法确定关键词集合。
15.如权利要求14所述的装置,其特征在于,所述关键词集合确定模块还用于,针对确定出的每个关键词集合,确定该关键词集合中包含的两个关键词的互信息,根据确定的该关键词集合中包含的两个关键词的互信息,以及该两个关键词的权值,采用公式^weight = 7(4 j)xQVordweight + Wordwelght)确定该关键词集合的权重,其中,i表不该关键词集合中包含的关键词i,j表不该关键词集合中包含的关键词为关键词i的权重,_/^丨_为关键词j的权重,Dweight为确定的该关键词集合的权重,I (i, j)为关键词i和关键词j的互信息,且Z(D)=为接收到的一个微博包含该关键词i的概率,P(J)为接收到的一个微博包含该关键词j的概率,p(i,j)为接收到的一个微博同时包含该关键词i和关键词j的概率;根据确定的每个关键词集合的权重,按照权重从大到小的顺序依次选择第二设定数量的关键词集合; 所述增量聚类模块具体用于,根据选择的第二设定数量的关键词集合中每两个关键词集合的交集和并集中包含的关键词,对选择的第二设定数量的关键词集合进行增量聚类。
16.如权利要求15所述的装置,其特征在于,所述增量聚类模块具体用于,根据选择的每个关键词集合的权重,将选择的第二设定数量的关键词集合按照权重从大到小的顺序进行排序,按照关键词集合排序的先后顺序,依次针对每个关键词集合执行将当前针对的关键词集合作为待聚类关键词集合,确定排在待聚类关键词集合之前的每个关键词集合,作为前序关键词集合,针对确定的每个前序关键词集合,确定待聚类关键词集合与该前序关键词集合的交集中包含的关键词的第一数量,确定该待聚类关键词与该前序关键词集合的并集中包含的关键词的第二数量,当第一数量与第二数量的比值大于设定比值时,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中;其中,满足第一指定条件的关键词为包含在该待聚类关键词集合中、且未包含在该前序关键词集合中的关键词。
17.如权利要求16所述的装置,其特征在于,所述增量聚类模块还用于,将待聚类关键词集合中满足第一指定条件的关键词添加到该前序关键词集合中之前,在接收到的各微博中,确定同时包含满足第一指定条件的关键词,以及该如序关键词集合中的每个关键词的微博的数量大于第三设定数量。
18.如权利要求16所述的装置,其特征在于,所述增量聚类模块还用于,在得到的各聚类关键词集合中,提取满足第二指定条件的聚类关键词集合,所述第二指定条件包括包含的关键词的数量不少于第四设定数量,且,与该聚类关键词集合相关的微博的数量大于第五设定数量;其中,与该聚类关键词集合相关的微博具体包括包含有该聚类关键词集合中的至少m个关键词的微博,m为第六设定数量。
19.如权利要求18所述的装置,其特征在于,所述判断推送模块具体用于,针对提取的满足所述第二指定条件的每个聚类关键词集合,采用公式·/(及扪确定该聚类关键|U|词集合分别与热点舆情库中的每个热点舆情关键词集合的相似度,并判断所述热点舆情库中是否存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合,其中,A为提取的该聚类关键词集合,B为所述热点舆情库中的热点舆情关键词集合,J(A, B)为确定的该聚类关键词集合与热点舆情关键词集合的相似度。
20.如权利要求19所述的装置,其特征在于,所述判断推送模块还用于,当所述热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,针对与该聚类关键词集合相关的每个微博,确定该微博的情感倾向值,根据确定的与该聚类关键词集合相关的每个微博的情感倾向值,分别确定其中情感倾向值大于O、小于O、等于O的微博所占的百分比,将确定的百分比发送给所述相关用户;其中,确定该微博的情感倾向值具体包括对该微博进行断句处理,得到该微博中的每个分句,针对每个分句,对该分句进行分词处理,得到该分句中的每个分词,根据预先保存的每个分词对应的情感倾向值,确定该分句中每个分词的情感倾向值,根据该分句中每个分词的情感倾向值以及该分句的类型,确定该分句的请改倾向值,将确定的该微博中每个分句的情感倾向值的和值,确定为该微博的情感倾向值。
21.如权利要求19所述的装置,其特征在于,所述判断推送模块还用于,当所述热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,针对与该聚类关键词集合相关的每个微博,确定该微博在所述设定时间间隔内的热度,确定与该聚类关键词集合相关的每个微博在所述设定时间间隔内的热度的和值,并将确定的和值发送给所述相关用户;其中,确定该微博在所述设定时间间隔内的热度具体包括确定该微博在所述设定时间间隔内被转发的次数与被评论的次数的和值,作为确定的该微博在所述设定时间间隔内的热度。
22.如权利要求1^21任一所述的装置,其特征在于,所述判断推送模块还用于,针对在所述设定时间间隔内发布的各微博,以在该微博中确定出的各关键词构成监控关键词集合,如果所述热点舆情库中不存在与该监控关键词集合的相似度大于设定相似度的热点舆情关键词集合、且该监控关键词集合中包含指定关键词、且该微博的情感倾向值小于O、且该微博在所述设定时间间隔内的热度大于设定热度,则将该微博推送给所述相关用户。
全文摘要
本发明公开了一种推送微博的方法及装置,用以解决现有技术中反映某些热点舆情的微博不能被及时的推送给相应用户的问题。该方法确定在设定时间间隔内接收到的各微博中的关键词,据此确定关键词集合,并根据每两个关键词集合的交集和并集中包含的关键词,对确定出的各关键词集合进行增量聚类,针对得到的聚类关键词集合,当热点舆情库中不存在与该聚类关键词集合的相似度大于设定相似度的热点舆情关键词集合时,将与该聚类关键词相关的微博推送给相关用户。上述方法由于在聚类时无需预先设定聚类的个数,因此不会遗漏该设定时间间隔内的任何热点舆情关键词集合,可以将反映热点舆情的微博及时的推送给相应用户。
文档编号G06F17/30GK102968439SQ20121038503
公开日2013年3月13日 申请日期2012年10月11日 优先权日2012年10月11日
发明者伏圣国 申请人:微梦创科网络科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1