1.一种将微博话题词分类到具体领域的方法,包括:
获取代表微博话题词的表意文本;以及
利用针对具体分类体系的分类模型,对所述表意文本进行分类;
其中,对所述表意文本的分类结果作为对所述微博话题词的分类结果。
2.如权利要求1所述的方法,其中,所述获取代表微博话题词的表意文本包括:
获得包含微博话题词的多个微博;
对所获得的多个微博进行聚类;
将聚类结果中包含最多数量微博的簇内的微博确定为代表微博话题词的表意文本。
3.如权利要求2所述的方法,其中,将聚类结果中包含最多数量微博的簇内的所有微博作为代表微博话题词的表意文本。
4.如权利要求2所述的方法,其中,将聚类结果中包含最多数量微博的簇内的距离簇中心最近的一个或多个微博作为代表微博话题词的表意文本。
5.如权利要求1所述的方法,其中,所述分类模型通过如下步骤训练得到:
收集已分类文本数据及其分类信息;
利用所收集的已分类文本数据及其分类信息,训练所述分类模型。
6.如权利要求5所述的方法,其中,所述已分类文本数据包括新闻文本,所述分类信息包括新闻文本的分类信息。
7.如权利要求1所述的方法,还包括:针对给定类别,对被分类到该类别内的微博话题词进行热度排序。
8.如权利要求7所述的方法,其中所述针对给定类别,对被分类到该类别内的微博话题词进行热度排序包括:
根据包含微博话题词的微博的数量、发表时间、以及微博话题词属于该给定类别的概率中的至少一个,计算该微博话题词在该给定类别内的热 度评价值;
根据该给定类别内的所有微博话题词的热度评价值,对微博话题词进行热度排序。
9.一种将微博话题词分类到具体领域的设备,包括:
表意文本获取装置,被配置为:获取代表微博话题词的表意文本;以及
针对具体分类体系的分类模型,用于对所述表意文本进行分类;
其中,对所述表意文本的分类结果作为对所述微博话题词的分类结果。
10.如权利要求9所述的设备,还包括:热度排序装置,被配置为:针对给定类别,对被分类到该类别内的微博话题词进行热度排序。