技术特征:
技术总结
本发明公开了一种建立数据分类模型的方法和装置,包括:获取指定业务类型的源数据及该源数据的类别信息,建立多个分类模型;将测试分数最高的分类模型作为最优分类模型;其中,建立每个分类模型包括:从源数据中随机抽取部分数据;对所述部分数据进行分词;利用特征选择算法计算各词与各类别信息之间的关联值,将关联值高于第一预设值的词放入该类别信息的特征词集中;将各特征词集及其类别信息一同输入分类器中建立相应的分类模型。上述得到的多个分类模型之间的差别在于:从源数据中抽取出的数据、特征选择算法和/或分类器,因此从多个分类模型中选择得到的最优分类模型是综合考虑以上变化参数而得的最优分类策略,具有很高的准确性和稳定性。
技术研发人员:赵磊;吕伟胜;梁德兴
受保护的技术使用者:北京神州泰岳软件股份有限公司
技术研发日:2015.12.30
技术公布日:2017.07.07