技术特征:
技术总结
本发明涉及基于堆叠降噪自编码机的广告博文识别方法,属于自然语言处理技术领域。首先爬取微博数据,通过人工标注得到训练集和测试集语料。其次,对广告博文分析构建微博的文本特征向量表示、人工定义的特征向量表示,再使用堆叠降噪自编码机对两种特征向量进行特征选择,获得处理后的两种特征向量,将这两种特征向量放入最大熵中,分别得到基于文本特征向量和基于人工定义特征向量的最优广告识别模型。然后,把以上两个最优模型的特征向量进行组合得到组合特征向量,再得到基于组合特征向量的广告识别模型。最后,找出分类效果最好的模型识别广告博文。本发明解决了特征冗余的问题,提高了模型的识别率,降低了应用的难度。
技术研发人员:黄青松;李帅彬;栾杰;郎冬冬;郭勃;刘骊;付晓东;宋莉娜
受保护的技术使用者:昆明理工大学
技术研发日:2017.09.04
技术公布日:2018.02.09