文本聚类的方法及系统与流程

文档序号:12748167阅读:来源:国知局
技术总结
本发明涉及一种文本聚类的方法及系统,一种文本聚类的方法,包括以下步骤:在接收到待分类文本时,提取待分类文本的关键词;根据获取的最终词袋中的关键词,对待分类文本的关键词进行匹配,得到待分类文本的类型标签;最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。本发明通过已有标签的记录来提取每个标签对应的核心词,得到最终词袋,然后通过最终词袋中的核心词来分类每个待分类的文本,对于噪音数据有着很好的适应性,不会出现在有较多噪音情况下,准确率大幅下降的情况;通过质心大范围阈值化,大大提高模糊匹配的效果。

技术研发人员:李贤;陈振安;王鹏
受保护的技术使用者:广州视源电子科技股份有限公司
文档号码:201610830223
技术研发日:2016.09.18
技术公布日:2017.01.25

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1