网络论坛的用户发文说服力预测方法、装置、设备和介质

文档序号:32599272发布日期:2022-12-17 14:50阅读:65来源:国知局
网络论坛的用户发文说服力预测方法、装置、设备和介质

1.本公开涉及自然语言处理领域,特别是涉及一种用于网络论坛的用户发文说服力预测方法、装置、计算机设备和存储介质。


背景技术:

2.随着互联网的发展,网络论坛成为一种重要的信息交换渠道,发帖和评论是在论坛中最常见的两个用户行为。用户在论坛中进行信息分享和互动时,一方(即说服者)常常会试图利用带有目的性的发帖或评论促使另一方(被说服者)相信或不相信某事,做或不做某事的目标。例如在网络论坛中,用户通过发文促使其他用户衍生出实际的行动(投票、捐款、转发、甚至购买商品等)。例如,在众筹论坛(kiva、reddit网站的borrow论坛等)中,用户通过发文成功得到了论坛中其他用户的捐赠,即可定义为该用户的发文具有说服力;在changemyview论坛中要求用户在被其他用户的评论成功说服时,必须在论坛中明确发文说明其观点被成功改变;在debate.org在线论坛中采用投票方式对辩论双方的发文进行投票,得票高的一方即可认为其文本更具有说服力。
3.现有的关于说服力的专利文件《基于前序评论的推荐解释说服力判定方法》(cn114663195a)、《用于基于人工智能的计算机辅助说服系统的方法和装置》(cn112488239a),分别针对音频数据、网络电商购物场景。
4.通过对评论的文本进行说服力预测,一方面可以识别出潜在的能够改变用户观点的帖子,另一方面通过具有说服力的文本进行分析,有助于分析对不同场景、人群、文本内容的条件下影响说服效果的因素,此技术能广泛应用线上的商品营销、品牌公关和舆论引导等领域。
5.针对网络论坛的用户发文说服力的预测,尚未提出有效的解决方案。


技术实现要素:

6.基于此,有必要针对上述技术问题,提供用于网络论坛的用户发文说服力预测方法、装置、计算机设备和存储介质。
7.在已有的心理学研究中,影响用户说服的一大因素是与说服相关的两方用户的性格特点。对于说服力判断的可解释性上,相同的文本描述从不同的用户发出,对于不同的受众影响应当是不同的。
8.本公开重点在解决论坛中某用户发表的有争议性的文章能否被其他用户的发文说服的预测问题。
9.例如:用户a发表帖子pa,用户b针对帖子pa发表带有对立观点的评论cb,本方法可用于预测cb能否成功说服用户a发的帖子pa。
10.针对于传统技术的缺点,本方法分别对发文(贴子和评论)的文本提取语义、说服策略、主题等信息,对发文(贴子或评论)的作者提取心理属性、爱好等特征。将用户和不同类型的发文(帖子和评论)定义为不同类型的节点并利用其相互关系构建异构图,将提取的
各类特征作为节点的属性,在异构图网络中应用注意力机制对各类节点进行信息聚合。
11.根据本公开的第一方面,提供了一种用于网络论坛的用户发文说服力预测方法,其特征在于,包括:进行数据采集,数据采集包括从论坛中获取用户数据;进行用户特征提取;进行文本特征提取,文本特征提取包括对帖子和评论的文本特征进行提取;进行各类节点信息聚合,各类节点信息聚合包括异构节点、边构建的异构图神经网络,异构节点的类型包括用户、评论、帖子,边包括帖子、评论、用户间相互关系形成的边,获得包含节点信息的节点嵌入向量;进行说服力预测,说服力预测包括利用节点嵌入向量作为输入,预测评论节点与帖子节点之间的说服关系。
12.本公开还提供了一种用于网络论坛的用户发文说服力预测方法,其特征在于,包括:进行数据采集,数据采集包括从论坛中获取用户数据;进行用户特征提取,用户特征提取包括获得用户心理特征;进行文本特征提取,文本特征提取包括对帖子和评论的文本特征进行提取;进行说服力预测,说服力预测包括利用用户特征、文本特征作为输入,预测评论与帖子之间的说服关系。
13.在一些实施例中,进行各类节点信息聚合包括:在包含异构图神经网络的模型中计算不同类型的节点信息聚合权重,按照对应权重进行各类节点信息的聚合得到聚合后的节点信息。
14.在一些实施例中,计算不同类型的节点信息聚合权重包括利用注意力机制计算不同类型的节点信息聚合权重。
15.在一些实施例中,节点嵌入向量中的节点信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系。
16.在一些实施例中,获取用户数据包括从论坛中获取用户发文以及相关用户的历史发文。
17.在一些实施例中,用户特征提取包括获得用户心理特征。
18.在一些实施例中,用户特征提取包括获取该用户在网络论坛上的历史发贴、评论的文本数据,并对文本数据进行处理获得用户特征,输出包含用户人格、心理分析和兴趣爱好等固有属性的用户特征向量。
19.在一些实施例中,对文本数据进行处理,包括利用基于liwc文本内容词典和大五人格文本分析模型进行处理。
20.在一些实施例中,对帖子和评论的文本特征进行提取包括文本语义特征提取、文本说服特征提取;优选包括文本语义特征提取、文本说服特征提取、文本主题特征提取。
21.在一些实施例中,文本语义特征提取包括利用bert双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;文本说服特征提取包括提取文本中与说服相关的词语特征,计算文本说服特征向量x
p
;作为优选文本主题特征提取进一步包括提取文本中的主题特征向量x
t

22.在一些实施例中,异构图为异构图g,异构图g定义如下:
23.g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
24.每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、
帖子,优选进一步包含主题;
25.定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论的关系集,优选进一步包含用户-主题、评论-主题的关系集。
26.在一些实施例中,说服力预测包括通过如下公式计算说服概率:
27.定义节点k是否说服对应的f
p
(k)节点的概率为predk;
28.定义评论节点k对应的post帖子类型的节点j关系表示:
29.j=f
p
(k),φ(j)∈posts,φ(k)∈comments
30.predk计算公式:
[0031][0032]
在一些实施例中,异构节点的类型包括用户、评论、帖子、主题。
[0033]
在一些实施例中,边包括帖子、评论、用户、主题间相互关系形成的边。
[0034]
在一些实施例中用户特征作为用户类型节点属性,文本语义特征位于评论类型节点、帖子类型节点属性中,文本说服特征位于评论类型节点、帖子类型节点属性中,文本主题特征位于主题类型节点属性中,各节点嵌入向量也将通过异构图模型进行的信息聚合,包含与该节点相连的边以及联通节点的信息。
[0035]
根据本公开的第二方面,提供了一种用于网络论坛的用户发文说服力预测装置,包括:数据采集模块,用于进行数据采集,包括从论坛中获取用户数据;用户特征提取模块,用于进行用户特征提取;文本特征提取模块,用于进行文本特征提取,包括对帖子和评论的文本特征进行提取;节点信息聚合模块,用于进行各类节点信息聚合,各类节点信息聚合包括异构节点、边构建的异构图神经网络,异构节点的类型包括用户、评论、帖子,边包括帖子、评论、用户间相互关系形成的边,获得包含节点信息的节点嵌入向量;说服力预测模块,用于进行说服力预测,包括利用节点嵌入向量作为输入,预测评论节点与帖子节点之间的说服关系。
[0036]
本公开实施例还提供了另一种用于网络论坛的用户发文说服力预测装置,包括:数据采集模块,用于进行数据采集,包括从论坛中获取用户数据;用户特征提取模块,用于进行用户特征提取,用户特征提取包括获得用户心理特征;文本特征提取模块,用于进行文本特征提取,文本特征提取包括对帖子和评论的文本特征进行提取;说服力预测模块,用于进行说服力预测,说服力预测包括利用用户特征、文本特征作为输入,预测评论与帖子之间的说服关系。
[0037]
在一些实施例中,进行各类节点信息聚合包括:在包含异构图神经网络的模型中计算不同类型的节点信息聚合权重,按照对应权重进行各类节点信息的聚合得到聚合后的节点信息。
[0038]
在一些实施例中,计算不同类型的节点信息聚合权重包括利用注意力机制计算不同类型的节点信息聚合权重。
[0039]
在一些实施例中,节点嵌入向量中的节点信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系。
[0040]
在一些实施例中,获取用户数据包括从论坛中获取用户发文以及相关用户的历史发文。
[0041]
在一些实施例中,用户特征提取包括获得用户心理特征。
[0042]
在一些实施例中,用户特征提取包括获取该用户在网络论坛上的历史发贴、评论的文本数据,并对文本数据进行处理获得用户特征,输出包含用户人格、心理分析和兴趣爱好等固有属性的用户特征向量。
[0043]
在一些实施例中,对文本数据进行处理,包括利用基于liwc文本内容词典和大五人格文本分析模型进行处理。
[0044]
在一些实施例中,对帖子和评论的文本特征进行提取包括文本语义特征提取、文本说服特征提取;优选包括文本语义特征提取、文本说服特征提取、文本主题特征提取。
[0045]
在一些实施例中,文本语义特征提取包括利用bert双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;文本说服特征提取包括提取文本中与说服相关的词语特征,计算文本说服特征向量x
p
;作为优选文本主题特征提取进一步包括提取文本中的主题特征向量x
t

[0046]
在一些实施例中,异构图为异构图g,异构图g定义如下:
[0047]
g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
[0048]
每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、帖子,优选进一步包含主题;
[0049]
定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论的关系集,优选进一步包含用户-主题、评论-主题的关系集。
[0050]
在一些实施例中,说服力预测包括通过如下公式计算说服概率:
[0051]
定义节点k是否说服对应的f
p
(k)节点的概率为predk;
[0052]
定义评论节点k对应的post帖子类型的节点j关系表示:
[0053]
j=f
p
(k),φ(j)∈posts,φ(k)∈comments
[0054]
predk计算公式:
[0055][0056]
在一些实施例中,异构节点的类型包括用户、评论、帖子、主题。
[0057]
在一些实施例中,边包括帖子、评论、用户、主题间相互关系形成的边。
[0058]
在一些实施例中用户特征作为用户类型节点属性,文本语义特征位于评论类型节点、帖子类型节点属性中,文本说服特征位于评论类型节点、帖子类型节点属性中,文本主题特征位于主题类型节点属性中,各节点嵌入向量也将通过异构图模型进行的信息聚合,包含与该节点相连的边以及联通节点的信息。
[0059]
根据本公开的第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一实施例方法的步骤。
[0060]
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例方法的步骤。
[0061]
通过实施本公开的上述方案,可以得到以下有益效果:
[0062]
1.利用文本特征、用户心理特征相结合的方法对在论坛中帖子的直接评论进行是
否具有说服力的预测,通过对用户的人格、情感等信息进行了挖掘,将用户心理特征与文本特征输入到文本说服力预测模型中,提高了预测的准确性。
[0063]
2.利用异构图注意力模型将不同特征进行聚合,通过异构图能更好的利用不同类型特征,结合注意力机制优化特征信息对说服目标用户的预测结果。通过各类节点实际具有的关联关系方式构建网络论坛异构图,能够直观的表示用户、文本和说服目标,相较于传统技术中不同类型的特征直接拼接,更具有可解释性。
[0064]
3.传统技术在利用特征进行模型训练时,没有考虑不同的特征在预测说服力时存在权重差异,本方法对特征赋予了不同权重,使预测结果更加准确。
[0065]
4.本方法提供了一个通用处理框架,可适用于不同场景的在线论坛评论说服力预测,在数据处理上,仅需获取帖子、对应评论和相关用户的历史发文即可获得所需的文本特征、用户心理特征以及各类节点的关系,无需借助额外的人工标注手段进行数据预处理。
附图说明
[0066]
图1是示出本公开的用于网络论坛的用户发文说服力预测方法的一些实施例的流程图;
[0067]
图2是示出本公开的基于changemyview论坛的评论说服力异构图示意;
[0068]
图3是示出本公开的用于网络论坛的用户发文说服力预测方法的另一些实施例的流程图;
[0069]
图4是示出本公开一些实施例的用于网络论坛的用户发文说服力预测装置的结构示意图;
[0070]
图5是示出用于实现本公开一些实施例的计算机设备的内部结构图。
具体实施方式
[0071]
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
[0072]
图1示出本公开的用于网络论坛的用户发文说服力预测方法的一些实施例的流程图。
[0073]
如图1所示,该方法包括:
[0074]
步骤102,进行数据采集,包括从论坛中获取用户数据;
[0075]
步骤104,进行用户特征提取,包括获得用户心理特征;
[0076]
步骤106,进行文本特征提取,包括对帖子和评论的文本特征进行提取;
[0077]
步骤108,进行各类节点信息聚合,所述各类节点信息聚合包括将用户、评论、帖子、主题作为异构节点类型,将论坛中的帖子、评论、用户以及主题间相互关系作为边,构建异构图神经网络,在包含所述异构图神经网络的模型中计算不同类型的节点信息聚合权重,获得节点嵌入向量;
[0078]
步骤110,进行说服力预测,所述说服力预测包括利用所述节点嵌入向量作为输
入,预测评论节点与帖子节点之间的说服关系。
[0079]
在其中一些实施例中,获取用户数据包括从论坛中获取用户发文以及相关用户的历史发文。
[0080]
在其中一些实施例中,用户特征提取采用自动化程序处理,不依赖人工标注。为了较为全面地利用用户人格、心理和兴趣等固有属性,在分析某一用户心理特征时,首先获取该用户在网络论坛上的历史发贴、评论的文本数据,并对文本数据进行预处理(去掉特殊符号、将网址、引用等内容替换为标签),利用基于liwc(linguistic inquiry and word count)文本内容词典和大五人格文本分析模型获得用户属性。处理完成之后,将输出包含用户人格、心理分析和兴趣爱好等固有属性的用户特征向量。
[0081]
在其中一些实施例中,文本特征提取主要是对帖子和评论的文本特征进行提取,先将输入地文本进行预处理,提取网页链接、去除标点符号、缩写还原为原型,然后分别处理三种文本特征:
[0082]
文本语义特征提取:利用bert(bidirectional encoder representation from transformers)双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;
[0083]
文本说服特征提取:提取文本中对冲词、人称代词、情感词、引用、等与说服相关的词语特征,计算文本说服特征向量x
p

[0084]
文本主题特征提取:提取文本中的主题特征向量x
t

[0085]
在其中一些实施例中,异构图为异构图g,异构图g定义如下:
[0086]
g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
[0087]
每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、帖子、主题;
[0088]
定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论、用户-主题、评论-主题的关系集;
[0089]
在其中一些实施例中,节点嵌入向量中的信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系;计算不同类型的节点信息聚合权重为利用注意力机制计算不同类型的节点信息聚合权重。
[0090]
在其中一些实施例中,以changemyview在线论坛作为网络论坛进行各类节点信息聚合,具体如下:
[0091]
changemyview是全球访问排名前十的网站reddit上的在线讨论开放论坛,互联网用户可以在此平台上发表自己的观点和推断,并且允许其他用户对已发出帖子或回复的观点进行挑战,论坛规则要求如果其他用户的评论成功改变了原始发帖用户的观点,原始发帖用户需要对这些评论进行明确的确认,并说明观点是如何被改变的。该论坛设置了规则,要求原始发帖用户用delta(δ)标记任何成功改变其观点的评论,并简要解释改变观点的原因。基于此规则可以将(δ)标记作为文本具有说服力的ground truth(事实标准),在使用基于此论坛的数据进行预测时,无需再人工额外标注文本是否说服的标签。
[0092]
u表示用户类型节点,p表示原始发帖类型节点,c表示评论类型节点,t表示主题节
点,各类节点间存在如下关系:
[0093]
表示用户与原始发帖节点关系,
[0094]
表示用户与评论节点关系,
[0095]
表示评论与原始发帖节点关系,
[0096]
表示评论与主题节点关系,
[0097]
表示原始发帖与主题节点的关系;
[0098]
图2示出本公开的基于changemyview论坛的评论说服力异构图示意。
[0099]
在其中一些实施例中,说服力预测通过如下公式计算说服概率:
[0100]
定义节点k是否说服对应的f
p
(k)节点的概率为predk;
[0101]
定义评论节点k对应的post帖子类型的节点j关系表示:
[0102]
j=f
p
(k),φ(j)∈posts,φ(k)∈comments
[0103]
predk计算公式:
[0104][0105]
图3示出本公开的用于网络论坛的用户发文说服力预测方法的另一些实施例的流程图;
[0106]
如图3所示,该方法包括:
[0107]
步骤202,在网络论坛中,采集拟进行文本说服力分析相关帖子、评论文本和对应用户的历史发文数据;
[0108]
步骤204,利用用户属性处理模块获取用户心理属性;
[0109]
步骤206,利用文本属性处理模块获取原始帖子、评论的文本属性;
[0110]
步骤208,构建异构体注意力网络模型,输入各异质节点属性、关系,输出包含用户特征、文本语义特征、文本说服特征和节点关系的融合信息嵌入向量;
[0111]
步骤210,说服力预测模块处理发起说服的文本节点的融合信息嵌入向量和说服目标节点的融合信息嵌入向量,预测发起说服的文本节点对说服目标节点的说服概率。
[0112]
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0113]
基于相同的发明构思,本公开还提供了用于网络论坛的用户发文说服力预测装置。
[0114]
下面结合图4描述本公开用于网络论坛的用户发文说服力预测装置的一些实施例。
[0115]
图4示出了本公开一些实施例的用于网络论坛的用户发文说服力预测装置的结构示意图。
[0116]
如图4所示,实施例中的用于网络论坛的用户发文说服力预测装置包括:
[0117]
数据采集模块302,用于进行数据采集,所述数据采集包括从论坛中获取用户数据;
[0118]
用户特征提取模块304,用于进行用户特征提取,所述用户特征提取包括获得用户心理特征;
[0119]
文本特征提取模块306,用于进行文本特征提取,所述文本特征提取包括对帖子和评论的文本特征进行提取;
[0120]
节点信息聚合模块308,用于进行各类节点信息聚合,所述各类节点信息聚合包括将用户、评论、帖子、主题作为异构节点类型,将论坛中的帖子、评论、用户以及主题间相互关系作为边,构建异构图神经网络,在包含所述异构图神经网络的模型中计算不同类型的节点信息聚合权重,获得节点嵌入向量;
[0121]
说服力预测模块310,用于进行说服力预测,所述说服力预测包括利用所述节点嵌入向量作为输入,预测评论节点与帖子节点之间的说服关系。
[0122]
在其中一些实施例中,获取用户数据包括从论坛中获取用户发文以及相关用户的历史发文。
[0123]
在其中一些实施例中,获得用户特征包括获取该用户在网络论坛上的历史发贴、评论的文本数据,并对文本数据进行预处理利用基于liwc(linguistic inquiry and word count)文本内容词典和大五人格文本分析模型获得用户特征,输出包含用户人格、心理分析和兴趣爱好等固有属性的用户特征向量。
[0124]
在其中一些实施例中,对帖子和评论的文本特征进行提取包括文本语义特征提取、文本说服特征提取、文本主题特征提取。
[0125]
在其中一些实施例中,文本语义特征提取包括利用bert(bidirectional encoder representation from transformers)双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;所述文本说服特征提取包括提取文本中与说服相关的词语特征,计算文本说服特征向量x
p
;所述文本主题特征提取包括提取文本中的主题特征向量x
t

[0126]
在其中一些实施例中,计算不同类型的节点信息聚合权重包括利用注意力机制计算不同类型的节点信息聚合权重;节点嵌入向量中的信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系;
[0127]
异构图为异构图g,异构图g定义如下:
[0128]
g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
[0129]
每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、帖子、主题;
[0130]
定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论、用户-主题、评论-主题的关系集;
[0131]
在其中一些实施例中,说服力预测包括通过如下公式计算说服概率:
[0132]
定义节点k是否说服对应的f
p
(k)节点的概率为predk;
count)文本内容词典和大五人格文本分析模型获得用户特征,输出包含用户人格、心理分析和兴趣爱好等固有属性的用户特征向量。
[0143]
在其中一些实施例中,对帖子和评论的文本特征进行提取包括文本语义特征提取、文本说服特征提取、文本主题特征提取。
[0144]
在其中一些实施例中,文本语义特征提取包括利用bert(bidirectional encoder representation from transformers)双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;所述文本说服特征提取包括提取文本中与说服相关的词语特征,计算文本说服特征向量x
p
;所述文本主题特征提取包括提取文本中的主题特征向量x
t

[0145]
在其中一些实施例中,计算不同类型的节点信息聚合权重包括利用注意力机制计算不同类型的节点信息聚合权重;节点嵌入向量中的信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系;
[0146]
异构图为异构图g,异构图g定义如下:
[0147]
g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
[0148]
每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、帖子、主题;
[0149]
定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论、用户-主题、评论-主题的关系集;
[0150]
在其中一些实施例中,说服力预测包括通过如下公式计算说服概率:
[0151]
定义节点k是否说服对应的f
p
(k)节点的概率为predk;
[0152]
定义评论节点k对应的post帖子类型的节点j关系表示:
[0153]
j=f
p
(k),φ(j)∈posts,φ(k)∈comments
[0154]
predk计算公式:
[0155][0156]
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:进行数据采集,包括从论坛中获取用户数据;进行用户特征提取,包括获得用户心理特征;进行文本特征提取,包括对帖子和评论的文本特征进行提取;进行各类节点信息聚合,包括将用户、评论、帖子、主题作为异构节点类型,将论坛中的帖子、评论、用户以及主题间相互关系作为边,构建异构图神经网络,在包含所述异构图神经网络的模型中计算不同类型的节点信息聚合权重,获得节点嵌入向量;进行说服力预测,包括利用所述节点嵌入向量作为输入,预测评论节点与帖子节点之间的说服关系。
[0157]
在其中一些实施例中,获取用户数据包括从论坛中获取用户发文以及相关用户的历史发文。
[0158]
在其中一些实施例中,获得用户特征包括获取该用户在网络论坛上的历史发贴、评论的文本数据,并对文本数据进行预处理利用基于liwc(linguistic inquiry and word count)文本内容词典和大五人格文本分析模型获得用户特征,输出包含用户人格、心理分
析和兴趣爱好等固有属性的用户特征向量。
[0159]
在其中一些实施例中,对帖子和评论的文本特征进行提取包括文本语义特征提取、文本说服特征提取、文本主题特征提取。
[0160]
在其中一些实施例中,文本语义特征提取包括利用bert(bidirectional encoder representation from transformers)双向编码变换表示文本预训练模型对文本数据进行向量化处理,获得语义信息嵌入向量xw;所述文本说服特征提取包括提取文本中与说服相关的词语特征,计算文本说服特征向量x
p
;所述文本主题特征提取包括提取文本中的主题特征向量x
t

[0161]
在其中一些实施例中,计算不同类型的节点信息聚合权重包括利用注意力机制计算不同类型的节点信息聚合权重;节点嵌入向量中的信息包括用户特征、文本语义特征、文本说服特征、评论与帖子节点关系;
[0162]
异构图为异构图g,异构图g定义如下:
[0163]
g={v,e,φ,ψ},其中v为节点集合,e为边集合,φ为节点属性集合,ψ为边属性集合;
[0164]
每个节点v属于类型φ(v):每个节点v属于类型φ(v):是节点类型集合,包含用户、评论、帖子、主题;
[0165]
定义每个边e属于类型ψ(e):定义每个边e属于类型ψ(e):是边类型集合,包含用户-帖子、用户-评论、帖子-评论、用户-主题、评论-主题的关系集;
[0166]
在其中一些实施例中,说服力预测包括通过如下公式计算说服概率:
[0167]
定义节点k是否说服对应的f
p
(k)节点的概率为predk;
[0168]
定义评论节点k对应的post帖子类型的节点j关系表示:
[0169]
j=f
p
(k),φ(j)∈pists,φ(k)∈comments
[0170]
predk计算公式:
[0171][0172]
本公开在使用了文本信息的同时,也通过对用户的人格、情感等信息进行了挖掘,将用户心理特征与文本特征输入到文本说服力预测模型中;采用带有注意力机制的异构图神经网络对不同类型的节点特征进行挖掘,计算出带有各类特征的节点嵌入向量;在构建异构图网络模型时,采用注意力机制对于不同类型的节点特征的注意力权重进行计算。
[0173]
本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)、直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0174]
至此,已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
[0175]
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1