结合词袋模型和深度学习模型的电商文本聚类方法及系统与流程

文档序号:31450430发布日期:2022-09-07 13:07阅读:来源:国知局

技术特征:
1.结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,包括如下步骤;s1,获取原始文本,并对原始文本进行清洗处理;s2,对清洗后的文本进行预处理,所述预处理为对文本进行分词和生成深度学习模型所需要的最小单元token;s3,利用词袋模型对文本分词后的内容构建词频向量,同时将生成的最小单元token输入到深度学习模型并得到句向量;s4,将获得的词频向量和句向量进行叠加,得到叠加后的向量;s5,将叠加后的向量输入到自编码网络得到低维向量;s6,采用聚类算法对获得的低维向量进行聚类,获得文本的聚类;s7,将每一类文本分别看作一篇长文本,对每一篇长文本使用词袋模型进行关键词的提取;s8,将提取到的关键词抽取并展示。2.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s1中所述清洗处理包括去除无效内容;所述无效内容包括空值、乱码和问候语。3.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s2中所述最小单元token为词语或单字。4.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s3中所述将生成的最小单元token输入到深度学习模型并得到句向量包括如下步骤:s31,采用bert预训练模型为深度学习模型,将生成的最小单元token输入到bert预训练模型中,取bert预训练模型中最后四层隐向量的均值,得到句向量。5.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s4包括如下步骤:s41,将m维的词频向量和n维的句向量叠加,得到m+n维的向量。6.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s5包括如下步骤:s51,对自编码网络进行训练,将一组向量输入到自编码网络先降维,再进行升维,通过调整自编码网络参数,使得自编码网络的输出与输入相等;s52,训练完成后,将从步骤s4中获得的叠加后的向量,输入自编码网络中的降维部分,得到低维向量。7.根据权利要求1所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s6包括如下步骤:s61,设定超参数为k,通过调整评价指标,对低维向量进行聚类,将所有低维向量对应的文本分为k组;其中超参数为类别数;所述评价指标包括困惑度。8.根据权利要求7所述的结合词袋模型和深度学习模型的电商文本聚类方法,其特征在于,步骤s7包括如下步骤:s71,对聚类完成的文本按照分类标签进行组合得到k篇长文本,并使用词袋模型对k篇长文本进行词频统计,提取出每篇长文本中辨识度排名靠前的词,作为关键词。
9.结合词袋模型和深度学习模型的电商文本聚类系统,其特征在于,包括:预处理模块,用于获取原始文本,并对原始文本进行清洗处理,并对清洗后的文本进行预处理,同时利用词袋模型对文本分词后的内容构建词频向量,将获得的词频向量和句向量进行叠加,得到叠加后的向量;其中,所述预处理为对文本进行分词和生成深度学习模型所需要的最小单元token;预训练模型模块,用于将生成的最小单元token输入到深度学习模型并得到句向量;自编码网络模块,用于对自编码网络进行训练,将一组向量输入到自编码网络先降维,再进行升维,通过调整自编码网络参数,使得自编码网络的输出与输入相等;训练完成后,将叠加后的向量,输入自编码网络中的降维部分,得到低维向量;聚类、后处理模块,用于采用聚类算法对获得的低维向量进行聚类,获得文本的聚类,并将每一类文本分别看作一篇长文本,对每一篇长文本使用词袋模型进行关键词的提取。

技术总结
本发明属于文本分类技术领域,具体涉及结合词袋模型和深度学习模型的电商文本聚类方法及系统。方法包括S1,获取原始文本,并进行清洗处理;S2,对清洗后的文本进行预处理;S3,利用词袋模型对文本分词后的内容构建词频向量,同时将最小单元token输入到深度学习模型得到句向量;S4,将词频向量和句向量进行叠加,得到叠加后的向量;S5,将叠加后的向量输入到自编码网络得到低维向量;S6,采用聚类算法对低维向量进行聚类,获得文本的聚类;S7,进行关键词的提取;S8,将提取到的关键词抽取并展示。本发明具有节省人工成本,且对文本能够实现精准表示,并对文本进行主题词抽取并进行直观展示的特点。特点。特点。


技术研发人员:汪东瑶 孙林君 张军燕
受保护的技术使用者:杭州实在智能科技有限公司
技术研发日:2022.08.08
技术公布日:2022/9/6
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1