技术特征:
技术总结
本发明提供一种基于K‑均值聚类算法的初始聚类中心确定方法及装置,能够快速、准确地从大量的微博数据中发现舆情热点话题。所述方法包括:获取数据对象集合,其中,所述数据对象集合包括:微博文档集合;确定数据对象集合中每个数据对象与其它数据对象间的平均相似度,获取平均相似度大于等于预先设定的密度阈值的数据对象作为核心对象;从核心对象中选取彼此间最不相似的多个核心对象作为K‑均值聚类算法的初始聚类中心,以便K‑均值聚类算法根据得到的初始聚类中心进行聚类。本发明涉及机器学习领域。
技术研发人员:周成成;杨兵强;安凤平
受保护的技术使用者:雷恩友力数据科技南京有限公司
技术研发日:2019.05.24
技术公布日:2019.09.10