一种面向海量互联网文本数据的流式聚类及展现的方法与流程

文档序号:13422010阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:步骤1、提取互联网中的新闻信息并存入数据库;步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果;本发明解决了传统聚类算法只能对固定大小的数据集合进行聚类的问题,并设法降低了层次聚类应用于实时增大的数据集时所需的计算资源,能够对不断更新和增长的数据集进行聚合处理以实现更加精确和灵敏的相似内容推荐功能。

技术研发人员:陈云浩;胡华;胡雯蔷;杨绪升
受保护的技术使用者:武汉烽火普天信息技术有限公司
技术研发日:2017.08.28
技术公布日:2018.01.09
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1