一种优化机器学习文本中词语分类的方法与流程

文档序号：12271617阅读：来源：国知局

技术总结
本发明涉及数据处理与机器学习分类领域，尤其是一种优化机器学习文本中词语分类的方法。本发明所述的方法是在文本分类基础上，以正则表达式为基础的特征选择规则器过滤出自定义的与语义相关的特征，在特征选择后用户自定义训练数据中的分类类别，进而利用这些特征与类别根据朴素贝叶斯模型来进行分类训练；当完成训练后，在应用阶段时，需词语分类的文本中如果存在符合特征选择规则器的语句时，结合已经训练完成的模型完成分类。本发明使得模型处理词语分类的能力不仅限于训练样本中的单词数据；可以应用于机器学习文本词语分类及其衍生功能的优化与应用中。

技术研发人员：郭宇;李永波;季统凯
受保护的技术使用者：国云科技股份有限公司
文档号码：201610881132
技术研发日：2016.10.08
技术公布日：2017.02.22