一种基于语义分析过滤化妆品互联网虚假评论的方法

文档序号：33197006发布日期：2023-02-04 12:56阅读：来源：国知局

技术特征：
1.基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：通过对预处理后的化妆品评论数据进行正负样本的筛选与标注，利用textcnn、bert和bilstm对评论文本特征提取并融合提取的文本语义特征，对特征赋予权重并训练分类器判定评论是否虚假，并训练调优得到最终模型用于化妆品虚假评论的检测。2.如权利要求1所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：包括以下步骤：s1：化妆品互联网评论数据收集及数据集预处理；s2：对预处理后的化妆品评论数据进行正负样本的筛选与标注；s3：利用textcnn、bert和bilstm模型对化妆品评论文本进行特征提取；s4：融合textcnn、bert和bilstm三种模型提取的文本语义特征；s5：对特征赋予权重并训练分类器判定评论是否虚假，并训练调优得到最终模型；s6：通过最终模型过滤化妆品互联网虚假评论。3.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s1包括：s101：收集化妆品互联网评论数据；s102：对化妆品评论数据集进行预处理。4.如权利要求3所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s101收集化妆品互联网评论数据：利用爬虫程序抓取电商网站的化妆品评论数据，包括评论内容、评论分数和评论者信息。5.如权利要求3所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s102对化妆品评论数据集进行预处理：设定评论长度阈值为θ，删除评论文本长度小于θ的评论；过滤非法字符和无含义的字符，并进行分词处理；分词处理后得到的数据去停用词。6.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s2对预处理后的化妆品评论数据进行正负样本的筛选与标注，包括：s201：利用基于bert的电商评论情感分析模型，对预处理后的数据进行行化妆品评论的情感分析，判断文本内容为正向情绪或负向情绪；结合评分进一步判定评论是否为虚假评论，如果评论判断为正向情绪并且评分小于评判标准，则判定此评论为虚假评论；如果评论判断为负向情绪并且评分大于评判标准，则判定此评论亦为虚假评论；筛选并标注为虚假评论，作为负样本1；s202：利用基于bert的通用文本匹配模型，将s201中未标注的数据进行化妆品评论的文本匹配，来寻找与虚假评论相似的文本，将大于相似度阈值ε的评论判定为虚假评论；筛选并标注为虚假评论，作为负样本2；s203：利用基于bert的文本内容反垃圾模型，将s202中未标注的数据进行化妆品评论的垃圾文本内容识别，其分类为正常、辱骂、涉政或恶意推广标签，将大于设定阈值的评论判定为虚假评论；筛选并标注为虚假评论，作为负样本3；
s204：对s203中未标注数据进行过评论的用户的所有评论数量降序排列，将前k％的所有用户的评论判定为虚假评论；筛选并标注为虚假评论，作为负样本4；s205：将s204中未标注的数据根据化妆品评论对其他用户的有用程度降序排列，提取与已经筛选的负样本总数量相等的评论；筛选并标注为正常评论，作为正样本；s206：将上述s201-s205得到的所有正负样本汇总，得到一个正常评论和虚假评论条数相等的样本集，作为训练集。7.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述基于textcnn、bert和bilstm的化妆品评论文本特征提取方法包括：(1)基于textcnn的化妆品评论文本特征提取方法具体包括：卷积层特征公式为：c
i
＝f(w
·
x
i:i+h-1
+b)卷积层输出矩阵为：c＝[c1,c2,c3,
…
,c
n-h+1
]其中，c
i
表示特征，f表示激活函数，w表示卷积核矩阵，x
i:j
表示输入矩阵x的第i行第j列，h表示卷积核高度，b表示偏置参数，n表示输入行数；池化层使用maxpool最大值池化方法，在不定长的卷基层的输出上获得一个定长的全连接层的输入；采用正则化的方法在倒数第二层加入dropout方法，防止隐藏层过拟合，并用l2范数约束权重向量；将训练集数据输入到textcnn模型，得到其文本特征矩阵；(2)基于bert的化妆品评论文本特征提取方法具体包括：bert模型设置如下：l＝12，h＝768，a＝12，t＝110*106；其中，l表示层数，即transformer blocks块的数量，h表示隐藏层的大小，a为自注意力的数量，t为所有参数的数量；第一个输入的token是特殊的符号[cls]，它的含义是分类(class的缩写)；bert将一串词向量作为输入，词向量在编码器encoder的栈中不断向上流动；每一层都会经过self-attention层，并通过一个前馈神经网络，然后将结果传给下一个编码器encoder；将训练集数据输入到bert预训练模型，得到其文本特征矩阵；(3)基于bilstm的化妆品评论文本特征提取方法具体包括：lstm加入了输入门、遗忘门、输出门和一个内部记忆单元c
t
；输入门控制当前计算新状态以多大程度更新到记忆单元；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘；输出门控制当前输出有多大程度上取决于当前的记忆单元；前向的lstm与后向的lstm结合成双向bilstm；假设化妆品互联网评论通过分词处理后，得到n个词为：{x1,x2,
…
,x
n
}，每个词经过词向量的映射得到对应的词向量e
i
，假设经过lstm后正向的输出为h
nr
，逆向的输出为h
nl
，则第n个词经过bilstm后得到的向量为：其中，表示的是对应向量元素相加；
在bilstm的模型上加入attention层，在bilstm中用最后一个时序的输出向量作为特征向量。attention首先计算每个时序的权重，然后将所有时序的向量进行加权求和作为特征向量；假设h是所有词经过bilstm后得到的向量的集合：h＝[h1,h2,
…
,h
n
]，则attention计算方法如下：首先将h通过一个tanh激活函数，得到m＝tanh(h)，然后与一个维度为文本序列长度的参数矩阵p相乘，并通过softmax操作得到权值q＝softmax(p
t
·
m)；将q加到bilstm的输出结果上，得到句子最终的向量表示：v＝h
·
q
t
；将训练集数据输入到bilstm模型，得到其文本特征矩阵。8.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s4融合三种模型提取的文本语义特征包括：将得到基于textcnn模型的文本特征、基于bert预训练模型的文本特征和基于bilstm模型的文本特征，融合到同一维度，具体使用向量拼接concatenate方式实现；融合公式如下：e
i
＝concat(c
i
,t
i
,b
i
)其中，e
i
表示三种模型拼接融合后的向量，c
i
表示基于textcnn模型的特征向量，t
i
表示基于bert模型的特征向量，b
i
表示基于bilstm模型的特征向量。9.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s5对特征赋予权重并训练分类器判定评论是否虚假，并训练调优得到最终模型，包括：在全连接层前引入attention机制，给特征向量分配权重，公式如下：z
g
＝ω
z
·
e
i
+b
z
其中，z
g
表示attention的输出序列，ω
z
表示权重矩阵，e
i
表示attention输入向量，b
z
表示偏差；将上述结果输入到全连接层训练，经过softmax层分类器，将化妆品评论分为正常评论和虚假评论两类，并进行反复训练调优模型，直到获得最终模型。10.如权利要求2所述的基于语义分析过滤化妆品互联网虚假评论的方法，其特征在于：所述s6通过最终模型过滤化妆品互联网虚假评论，将所有未标注的化妆品评论输入到s5所得的最终模型，进行化妆品虚假评论的检测，若为虚假评论则过滤掉。

技术总结
本发明通过对预处理后的化妆品评论数据进行正负样本的筛选与标注，利用textCNN、BERT和BiLSTM模型对评论文本特征提取并融合提取的文本语义特征，对特征赋予权重并训练分类器判定评论是否虚假，并训练调优得到最终模型用于化妆品虚假评论的检测。融合textCNN、BERT和BiLSTM三种模型基于监督学习的思想训练一种完整的自然语言处理模型，来过滤化妆品互联网虚假评论，能够有效地识别和筛选欺骗性评论、破坏性评论、非法评论等虚假评论，防止虚假评论误导其他用户消费和恶意攻击商家，为互联网化妆品商家和用户提供一个健康公平的电商平台。台。台。

技术研发人员：舒晓红李利王曦华薇熊丽丹唐洁汤莹邹琳李朝霞霍维
受保护的技术使用者：四川大学华西医院
技术研发日：2022.11.09
技术公布日：2023/2/3

完整全部详细技术资料下载

当前第2页1 2