一种文本的向量化方法以及装置与流程

文档序号:15517854发布日期:2018-09-25 18:46阅读:来源:国知局

技术特征:

技术总结
本发明公开一种文本的向量化方法以及装置,涉及文本向量化领域。其中,所述方法包括:获取待处理的文本,并确定所述文本的应用类型,得到所述文本的样本;提取所述样本的所有单字符元素,得到所述样本的单字符集合;根据所述样本的应用类型提取所述样本的双字符元素,得到所述样本的双字符集合;将所述单字符集合和所述双字符集合进行合并,得到词表;根据所述词表构建得到所述文本的文本向量。本发明去除了中文切词,避免了切词针对舆情等口语化句子引入的误差及其后续的误差级联效应,并且对舆情等口语化句子的错别字具有较好的容错能力。

技术研发人员:刘家兵;刘永波;吴春龙;张少松
受保护的技术使用者:北京嘀嘀无限科技发展有限公司
技术研发日:2017.03.08
技术公布日:2018.09.25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1