本发明涉及社交媒体的立场检测及社交网络数据处理,具体涉及一种用户生成内容目标立场联合检测方法及系统。
背景技术:
1、现如今,社交媒体平台的兴起改变了人们的生活方式,使得人们能够更快速、便捷地获取信息、分享观点、交流感情,促进了信息的快速传播和知识的广泛分享。面向社交媒体的立场检测可以帮助相关人员更好地理解和分析社会舆论、观点和态度,从而在政治、商业、社会等领域做出更明智的决策。通过分析大众对某一话题的立场,可以帮助政府了解民意、制定更合理的政策;帮助企业了解消费者对产品或服务的看法,进行市场定位和营销策略制定;帮助媒体和新闻机构了解公众对新闻事件的反应,提高报道的准确性和质量。综上所述,立场检测技术在现实场景中具有重要的研究意义和应用价值。
2、针对面向社交媒体的立场检测任务,学者们开展了大量相关研究。yuan等人[1]将人类立场推理过程作为任务知识引入了立场检测计算中,使得模型可以有效过滤文本数据自身的冗余特征,从而更加依赖于目标特征。面向气候变化相关的推文,upadhyaya等人[2]等引入细粒度情绪识别和攻击性识别作为辅助任务,并且利用社交媒体中的表情符号作为多模态信息以提供更加丰富的语义信息。ko等人[3]采用分层注意网络来学习三种不同级别的语义信息之间的关系,通过构建政治知识图谱以及知识编码将现实世界的外部知识纳入政治立场预测的过程中,有效提升了模型性能。在传统立场检测研究的基础上,li等人[4]提出了一种面向无标注目标信息的两阶段立场检测方法,首先在第一阶段识别社交媒体文本所面向的目标,然后在第一阶段基础上进行第二阶段的立场检测。该研究大大减少了立场检测中的人工成本,为立场检测领域提供了的新思路。
3、文献号为cn118070774a的现有技术提供了一种基于目标信息识别的用户生成内容立场检测方法及系统,其为了解决现有的用户生成内容立场检测或识别方法需要花费大量人工成本去标注目标信息,并且仅有的类似方法在目标识别阶段往往需要大规模数据对模型进行训练或微调,导致样本数据质量会直接影响目标识别的性能和准确率的问题。其技术要点为:首先从给定社交媒体文本中抽取出具有代表性的关键词;然后通过余弦相似度计算关键词与目标集合中特定目标之间的相似度,并根据相似度将确定文本所针对的目标对象;最后基于识别出的目标对象,采用多任务bertweet模型来检测文本与该目标对象之间的立场关系。所提出的基于目标信息识别的用户生成内容立场检测方法可有效减少人工成本,从而提高了立场检测方法在实际应用中的可行性和实用性。
4、文献号为cn116992873a的现有技术公开了一种基于对比学习与一致性检测的多目标立场检测方法及系统,该现有技术使模型能够学习目标的更多特征信息,并加强目标之间语义信息的联系,使目标之间互相辅助检测自身立场。此外,该现有技术中微调bert并嵌入bilstm作为编码器,以更充分地利用隐藏上下文之间的语义信息。该现有技术还将联合训练作为一种多任务学习方法,允许模型基于数据集共享特定领域的信息。其解决了多目标立场检测中数据集嘈杂、目标孤立、特定领域信息不足的问题。不仅提高了该任务上性能的精度,对于其他具有类似问题的多目标文本分类任务同样有借鉴意义。
5、文献号为cn114330360a的现有技术公开一种针对特定目标的立场检测方法,该现有技术使用深度网络抽取句子的语义特征,并在立场检测时充分考虑目标特征,实现目标特征与句子特征的交互,模型使用稠密连接的bilstm网络和嵌套的lstm网络抽取句子的语义特征,在捕捉句子深层的语义信息的同时,能够解决梯度消失问题和长期依赖问题;其使用注意力机制获取特定目标对于句子各部分的重要度,从而得到融入特定目标信息的句子向量表示,帮助模型在进行立场检测时充分考虑给定的特定目标。
6、上述研究及现有技术虽然在立场检测任务上取得了不同程度的突破,但仍存在以下缺陷:(1)传统的立场检测方法往往同时依赖于社交媒体文本以及人工标注的目标信息,在进行检测计算之前需要人工对待检测文本进行手动标注,消耗的人力成本过高;(2)而当前面向用户生成内容的目标-立场检测方法通常采用两阶段方法,该种方法虽然降低了立场检测任务的人工成本,但是第一阶段目标识别任务中所产生的误差会对第二阶段立场检测任务的性能造成负面影响,从而产生错误级联现象。
技术实现思路
1、本发明要解决的技术问题为:
2、本发明针对上述问题,提出了一种基于编解码结构的用户生成内容目标立场联合检测方法及系统,该方法既解决了立场检测任务的人工依赖问题,又消除了错误级联现象,有效提高了立场检测方法在实际应用中的可行性和准确率。
3、本发明为解决上述技术问题所采用的技术方案为:
4、1、一种基于编解码结构的用户生成内容目标立场联合检测方法,其特征在于,所述方法的实现过程为:
5、步骤一、对用户生成内容数据进行预处理:
6、数据预处理分为以下两个步骤:(1)数据清洗:用于消除用户生成内容中包含的表情符号和网络链接等网络元素;(2)网络用语转化:使用预定义的缩略语词典将社交媒体文本中常见的网络用语转化为书面用语;
7、步骤二、使用经过预处理的情感分析数据集对bert模型进行微调,所述数据集有两种情感标签:“positive”(积极情感)和“negative”(消极情感);所述数据集包括训练集、验证集、测试集,数据格式包括表示数据编号、输入文本序列、该文本所对应的真实情感标签;
8、步骤三、将预处理后的社交媒体文本数据输入编码器,编码器由序列子编码器和经过微调的情感子编码器构成,序列子编码器和情感子编码器均基于bert模型;序列子编码器用于获取文本上下文信息构成的序列特征,而情感子编码器则用于获取文本序列中所隐含的情感信息,为后续计算提供更加丰富的语义特征。
9、步骤四、随机初始化m个查询嵌入向量,首先在查询嵌入向量内部注意力层,对查询嵌入向量使用自注意力机制,使查询嵌入向量之间可以进行有效地交互和信息传递,以捕捉不同查询嵌入向量之间的依赖关系;自注意力机制中的查询向量、键向量和值向量均来自于查询嵌入向量自身;
10、然后在推文特征注意力层,将编码器输出的序列特征输入解码器中,与交互后的查询嵌入向量做交叉注意力机制,以促进两种特征的交互与融合;
11、在交叉注意力机制中,将查询嵌入向量作为查询向量,将序列特征作为键向量和值向量。
12、步骤五、将所有融合了序列特征的查询向量输入目标-立场聚合层,该层主要目的是令模型关注对当前任务更为重要或相关的特征,从而提高模型的预测性能;
13、为不同的查询向量分配相应的权重,并对所有查询向量进行加权求和,从而获得综合所有查询特征的向量表示;
14、步骤六、将聚合后的查询向量与编码器输出的情感特征输入目标立场对解码层,首先为查询向量与情感特征赋值权重,之后将两种特征进行拼接,得到最终的特征向量;将最终特征表示输入由两个全连接神经网络组成的解码器中以输出目标以及立场的预测结果。
15、进一步地,在步骤二中,使用经过预处理的sst-2情感分析数据集对bert模型进行微调,该数据集有两种情感标签:“positive”(积极情感)和“negative”(消极情感)。该数据集的训练集,验证集,测试集分别包含67349条,872条,1821条数据,具体数据格式包括:表示数据编号idx、表示输入文本序列sentence、表示该文本所对应的真实情感标签label。
16、进一步地,在步骤三中,所述编码器由序列子编码器和经过微调的情感子编码器构成,具体公式如下所示:
17、hsent=bertsent(t)
18、hseq=bertseq(t)
19、其中,hsent和hseq分别代表序列特征以及情感特征,t={w1,w2,w3,...,wn}代表输入的文本序列,wi(1≤i≤n)代表序列中的单词。
20、进一步地,在步骤四中,具体公式如下所示:
21、
22、qr=attention(qorg,qorg,qorg)
23、q=attention(qr,hseq,hseq)
24、其中,attention表示注意力机制,qorg代表随机初始化的原始查询嵌入向量,qr代表查询嵌入向量内部注意力层的输出向量,q代表了推文特征注意力层的输出向量;q,k,v分别代表注意力机制中的查询参数、键参数和值参数;dk代表键参数的向量维度。
25、进一步地,在步骤五中,具体公式如下所示:
26、α=softmax(wq tanh(q))
27、qall=qαt
28、其中,α表示最终的查询向量权重,qall表示聚合了所有查询特征的向量表示。
29、进一步地,在步骤六中,具体公式如下所示:
30、
31、其中,pair表示包含了目标以及立场的最终预测结果,wo表示不同特征向量的权重,fcnt和fcns分别表示面向目标和立场的全连接解码层。
32、一种基于编解码结构的用户生成内容目标立场联合检测系统,所述系统具有与所述技术方案的步骤对应的程序模块,运行时执行所述的基于编解码结构的用户生成内容目标立场联合检测方法中的步骤。
33、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现所述的基于编解码结构的用户生成内容目标立场联合检测方法的步骤。
34、本发明具有以下有益技术效果:
35、本发明所述的基于编解码结构的用户生成内容目标立场联合检测方法实现了无需人工标注目标的社交媒体文本立场检测,解决了立场检测任务对人工依赖,避免了错误级联现象的产生,提高了立场检测的准确率。目前,面向用户生成内容的目标-立场检测方法通常采用两阶段方法,首先在第一阶段识别用户生成内容所针对的目标对象,然后基于识别出的目标对象进行第二阶段的立场检测。该种两阶段方法虽然有效地缓解了立场检测任务对人工标注目标信息的依赖性,但是第一阶段目标识别任务中产生的误差会直接影响到第二阶段立场检测任务的性能,从而产生明显的错误级联现象。现有技术中根本没有人发现并提出这样的亟需解决的技术问题。本发明发现了现有技术客观存在的技术问题及产生技术问题的原因,针对上述问题及产生的原因,本发明有针对性的提出一种基于编解码结构的用户生成内容目标-立场联合检测方法,通过端到端的方式对用户生成内容中隐含的目标信息和立场信息进行建模,不仅避免了错误级联,并且有效地提升了目标-立场检测的性能,从而进一步提高了立场检测方法在实际应用中的可行性、准确率和实用性。
36、本发明应用于社交网络分析,更具体地是应用于无需人工标注目标的社交媒体文本立场检测及相关研究中。