一种舆论制造群体识别方法、装置、设备及存储介质与流程

文档序号:31626712发布日期:2022-09-24 00:48阅读:40来源:国知局
一种舆论制造群体识别方法、装置、设备及存储介质与流程

1.本发明涉及自然语言处理技术领域,尤其是涉及一种舆论制造群体识别方法、装置、设备及计算机可读存储介质。


背景技术:

2.随着互联网时代的发展,网络已成为人们传播信息的重要媒介,然而在繁杂的网络信息中难免存在负面的舆论,因此亟需一种能够对舆论制造群体进行识别的方法,以及时对舆论制造群体进行监控,避免舆论继续在网络上散播。
3.目前,舆论制造群体通常先在其所处的组织内部进行负面舆论的散播,然而现有的舆论制造群体识别方法难以准确地对组织内部的舆论制造群体进行识别,从而难以及时对组织内部的舆论制造群体进行监控。


技术实现要素:

4.本发明提供一种舆论制造群体识别方法、装置、设备及存储介质,以解决现有的舆论制造群体识别方法针对组织内部的舆论制造群体的识别准确率不高的技术问题,能够基于组织内部成员的社交网络关系图谱,首先利用余弦相似度算法进行舆论制造成员初次识别,确定初始舆论制造成员集合,然后针对初始舆论制造成员集合中的组织成员,基于每个组织成员的特征信息,利用朴素贝叶斯模型进行舆论制造成员再次识别,确定组织内的舆论制造群体,在舆论制造群体识别的过程中,充分考虑了每个组织成员的特征信息,从而能够准确地对组织内部的舆论制造群体进行识别,有助于及时对组织内部的舆论制造群体进行监控。
5.为了解决上述技术问题,本发明实施例第一方面提供一种舆论制造群体识别方法,包括如下步骤:
6.基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;
7.基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;
8.对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;
9.基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;
10.利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起
始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;
11.基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
12.作为优选方案,所述利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合,具体包括如下步骤:
13.利用所述余弦相似度算法,通过如下表达式获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度:
[0014][0015]
其中,cosθ表示舆论互动数据特征向量b与初始舆论互动数据特征向量a的相似度,n表示一个舆论互动数据特征向量中所包含的舆论互动数据特征的数量,ai表示初始舆论互动数据特征向量a中的第i个舆论互动数据特征值,bi表示舆论互动数据特征向量b中的第i个舆论互动数据特征值;
[0016]
根据所述相似度大于所述预设相似度阈值的舆论互动数据特征向量所对应的组织成员,确定所述初始舆论制造成员集合。
[0017]
作为优选方案,所述基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,具体包括如下步骤:
[0018]
基于所述初始舆论制造成员集合中每个组织成员之间的舆论互动数据,确定所述初始舆论制造成员集合中最后接收舆论的组织成员;
[0019]
基于所述待识别组织内每个组织成员的特征信息,通过所述朴素贝叶斯模型,采用如下表达式获取任意一个所述最后接收舆论的组织成员为舆论制造成员的概率:
[0020][0021]
其中,p(x1,x2,...,xm|c)表示当前最后接收舆论的组织成员为舆论制造成员的概率,c表示预设条件,xi表示当前最后接收舆论的组织成员的第i个特征信息,m表示特征信息的数量,p(xi|c)表示具备特征信息xi的最后接收舆论的组织成员为舆论制造成员的概率;
[0022]
将所述概率大于预设概率阈值的最后接收舆论的组织成员识别为所述舆论制造成员。
[0023]
作为优选方案,所述互动数据至少包括时间戳、发送方、接收方、文本数据和图片数据;
[0024]
则,所述对所述互动数据进行预处理,获得舆论互动数据,具体包括如下步骤:
[0025]
通过ocr方法对所述图片数据中的文本数据进行提取,获得提取文本数据;
[0026]
基于预设的词库,利用结巴分词法分别对所述文本数据和所述提取文本数据进行分词,获得第一分词结果和第二分词结果;
[0027]
分别对所述第一分词结果和所述第二分词结果进行清洗处理;
[0028]
分别对进行清洗处理后的第一分词结果和进行清洗处理后的第二分词结果进行标准化处理,获得所述文本数据的第一关键词和所述提取文本数据的第二关键词,并将所述时间戳、所述发送方、所述接收方、所述第一关键词和所述第二关键词作为所述舆论互动数据。
[0029]
作为优选方案,所述基于所述社交网络平台,获取每个组织成员之间的互动数据,具体包括如下步骤:
[0030]
在获得预设的授权许可信息的情况下,基于所述社交网络平台,获取每个组织成员之间的互动数据。
[0031]
作为优选方案,所述方法还包括如下步骤:
[0032]
基于确定的所述舆论制造群体,将所述舆论制造群体内的舆论制造成员在所述社交网络关系图谱上进行标记。
[0033]
作为优选方案,所述待识别组织内每个组织成员的特征信息至少包括性别、年龄、职位、岗位类别、职等、司龄、技术等级、奖惩记录、教育程度和社交活跃度。
[0034]
本发明实施例第二方面提供一种舆论制造群体识别装置,包括:
[0035]
社交网络关系图谱构建模块,用于基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;
[0036]
舆论互动数据获取模块,用于基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;
[0037]
特征向量获取模块,用于对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;
[0038]
搜索成员集合构建模块,用于基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;
[0039]
舆论制造成员初次识别模块,用于利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;
[0040]
舆论制造成员再次识别模块,用于基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
[0041]
本发明实施例第三方面提供一种舆论制造群体识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算
机程序时实现如第一方面任一项所述的舆论制造群体识别方法。
[0042]
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的舆论制造群体识别方法。
[0043]
相比于现有技术,本发明实施例的有益效果在于,能够基于组织内部成员的社交网络关系图谱,首先利用余弦相似度算法进行舆论制造成员初次识别,确定初始舆论制造成员集合,然后针对初始舆论制造成员集合中的组织成员,基于每个组织成员的特征信息,利用朴素贝叶斯模型进行舆论制造成员再次识别,确定组织内的舆论制造群体,在舆论制造群体识别的过程中,充分考虑了每个组织成员的特征信息,从而能够准确地对组织内部的舆论制造群体进行识别,有助于及时对组织内部的舆论制造群体进行监控。
附图说明
[0044]
图1是本发明实施例提供的一种舆论制造群体识别方法的流程示意图;
[0045]
图2是本发明实施例提供的一种舆论制造群体识别装置的结构示意图。
具体实施方式
[0046]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
参见图1,本发明实施例第一方面提供一种舆论制造群体识别方法,包括如下步骤s1至步骤s6:
[0048]
步骤s1,基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;
[0049]
步骤s2,基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;
[0050]
步骤s3,对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;
[0051]
步骤s4,基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;
[0052]
步骤s5,利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;
[0053]
步骤s6,基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
[0054]
需要说明的是,社交网络平台包括但不仅限于微信、qq、微博等第三方社交网络平台。本发明实施例基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,利用如networkx、gephi等软件构建所述待识别组织的社交网络关系图谱。
[0055]
进一步地,基于所述社交网络平台,获取每个组织成员之间的互动数据,由于互动数据当中包含与当前待调查舆论无关的标签、特殊符号和停用词等,因此需要对所述互动数据进行预处理,获得舆论互动数据。
[0056]
进一步地,本发明实施例利用如tf-idf(term frequency-inverse document frequency,词频-逆文本频率指数)、bigram(二元分词模型)和word2vec等方法对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量。值得说明的是,以采用tf-idf方法为例,本发明实施例对所述舆论互动数据进行特征提取,主要是获取每个关键词的词频以及tf-idf值,利用sklearn库中的tfidfvectorizer类对每个关键词的tf-idf值进行计算,计算表达式如下:
[0057][0058]
tf-idf(x)=tf(x)*idf(x)
[0059]
其中,tf(x)表示词x在当前文本中的词频,n表示语料库中文本的总数,n(x)表示语料库中包含词x的文本总数。
[0060]
进一步地,本发明实施例基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合。可以理解的是,每个舆论肯定是某个人先提出,然后再得以传播的,因此根据每个组织成员之间的舆论互动数据,能够获取最早出现舆论关键词或舆论关键词组的互动发起点,该互动发起点所对应的发起者即为舆论起始成员,互动发起点有可能不止一个,将互动发起点的集合记为:vi{v1,v2,v3,...,vi},将所有互动发起点在社交网络关系图谱中进行标记。
[0061]
然后以所述若干个舆论起始成员(即互动发起点)为起点进行广度优先搜索,搜索出与任意一个舆论起始成员进行舆论互动的组织成员,以及在后续舆论传播过程中所有参与舆论互动的组织成员,根据若干个舆论起始成员和若干个参与舆论互动的组织成员,构建搜索成员集合,具体地,由于社交网络关系图谱中已记录了各个节点之间的互动关系,从而将待识别组织中所有组织成员组成一连通图,因此从互动发起点开始,逐一识别出以该互动发起点为起点,参与了与舆论相关的互动的互动接收点,将所有互动发起点和所有互动接收点组成上述的搜索成员集合。
[0062]
进一步地,本发明实施例利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合。可以理解的是,在搜索成员集合当中,并非所有的组织成员都参与了舆论的传播,因此需要利用余弦相似度算法对每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度进行分析,然后以相似度和预设相似
度阈值的比较结果进行舆论制造成员初次识别,确定初始舆论制造成员集合。例如,舆论起始成员a和组织成员b之间的初始舆论互动数据特征向量为a1,组织成员b和组织成员c之间的舆论互动数据特征向量为b1,利用余弦相似度算法计算a1与b1的相似度,若该相似度大于预设相似度阈值,则判定组织成员b已向组织成员c传播舆论,因此舆论起始成员a、组织成员b和组织成员c均被纳入初始舆论制造成员集合中。
[0063]
进一步地,本发明实施例基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
[0064]
可以理解的是,假设舆论起始成员a向组织成员b传播了舆论,但组织成员b不存在和除舆论起始成员a之外的其他组织成员进行与舆论相关的互动,在这种情况下,组织成员b有可能属于舆论制造成员,也有可能不属于舆论制造成员,因此需要基于组织成员b的特征信息,通过预设的朴素贝叶斯模型对组织成员b进行舆论制造成员再次识别,分析其为舆论制造成员的概率。
[0065]
本发明实施例提供的一种舆论制造群体识别方法,能够基于组织内部成员的社交网络关系图谱,首先利用余弦相似度算法进行舆论制造成员初次识别,确定初始舆论制造成员集合,然后针对初始舆论制造成员集合中的组织成员,基于每个组织成员的特征信息,利用朴素贝叶斯模型进行舆论制造成员再次识别,确定组织内的舆论制造群体,在舆论制造群体识别的过程中,充分考虑了每个组织成员的特征信息,从而能够准确地对组织内部的舆论制造群体进行识别,有助于及时对组织内部的舆论制造群体进行监控。
[0066]
作为优选方案,所述利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合,具体包括如下步骤:
[0067]
利用所述余弦相似度算法,通过如下表达式获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度:
[0068][0069]
其中,cosθ表示舆论互动数据特征向量b与初始舆论互动数据特征向量a的相似度,n表示一个舆论互动数据特征向量中所包含的舆论互动数据特征的数量,ai表示初始舆论互动数据特征向量a中的第i个舆论互动数据特征值,bi表示舆论互动数据特征向量b中的第i个舆论互动数据特征值;
[0070]
根据所述相似度大于所述预设相似度阈值的舆论互动数据特征向量所对应的组织成员,确定所述初始舆论制造成员集合。
[0071]
可以理解的是,当初始舆论互动数据特征向量a与舆论互动数据特征向量b之间的夹角θ越接近0
°
,则判定这两个特征向量越相似,当这两个特征向量完全相同时,cosθ=1。
[0072]
作为优选方案,所述基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,具体包括如下步骤:
[0073]
基于所述初始舆论制造成员集合中每个组织成员之间的舆论互动数据,确定所述初始舆论制造成员集合中最后接收舆论的组织成员;
[0074]
基于所述待识别组织内每个组织成员的特征信息,通过所述朴素贝叶斯模型,采用如下表达式获取任意一个所述最后接收舆论的组织成员为舆论制造成员的概率:
[0075][0076]
其中,p(x1,x2,...,xm|c)表示当前最后接收舆论的组织成员为舆论制造成员的概率,c表示预设条件,xi表示当前最后接收舆论的组织成员的第i个特征信息,m表示特征信息的数量,p(xi|c)表示具备特征信息xi的最后接收舆论的组织成员为舆论制造成员的概率;
[0077]
将所述概率大于预设概率阈值的最后接收舆论的组织成员识别为所述舆论制造成员。
[0078]
可以理解的是,基于某一组织成员的特征信息,例如性别、年龄、职位、岗位类别、职等、司龄、技术等级、奖惩记录、教育程度、社交平台关注度、社交平台发帖数、发帖主题类别、社交活跃度等,能够分析出每个特征信息所对应的舆论制造概率。例如,一个教育程度良好且社交活跃度较低的组织成员,通常判定其为舆论制造成员的概率较低。每个特征信息所对应的舆论制造概率通过利用预先的训练集对原始朴素贝叶斯模型进行训练后得到,训练集中的数据为针对每个特征信息进行舆论制造概率标注的数据。
[0079]
作为优选方案,所述互动数据至少包括时间戳、发送方、接收方、文本数据和图片数据;
[0080]
则,所述对所述互动数据进行预处理,获得舆论互动数据,具体包括如下步骤:
[0081]
通过ocr方法对所述图片数据中的文本数据进行提取,获得提取文本数据;
[0082]
基于预设的词库,利用结巴分词法分别对所述文本数据和所述提取文本数据进行分词,获得第一分词结果和第二分词结果;
[0083]
分别对所述第一分词结果和所述第二分词结果进行清洗处理;
[0084]
分别对进行清洗处理后的第一分词结果和进行清洗处理后的第二分词结果进行标准化处理,获得所述文本数据的第一关键词和所述提取文本数据的第二关键词,并将所述时间戳、所述发送方、所述接收方、所述第一关键词和所述第二关键词作为所述舆论互动数据。
[0085]
具体地,本发明实施例预先根据待调查舆论所可能出现的关键词、待识别组织内每个组织成员的常用语制定词库,然后利用结巴分词法分别对所述文本数据和所述提取文本数据进行分词,获得第一分词结果和第二分词结果。需要说明的是,结巴分词法采用基于汉字成词能力的hmm模型,并使用了viterbi算法实现对输入文本进行分词。
[0086]
值得说明的是,在分词过程中,能够通过python指令:add_word(word,freq=none,tag=none)和del_word(word)对词库进行动态修改。
[0087]
进一步地,分别对所述第一分词结果和所述第二分词结果进行清洗处理,以将与当前待调查舆论无关的标签、特殊符号、停用词等文本数据去除。
[0088]
进一步地,分别对进行清洗处理后的第一分词结果和进行清洗处理后的第二分词
结果进行标准化处理。标准化处理的目的是统一习惯用语和实体指代,例如第一分词结果和第二分词结果中出现电科集团、中电科、中国电科等用词,则通过标准化处理将这些用词统一为中电科。
[0089]
作为优选方案,所述基于所述社交网络平台,获取每个组织成员之间的互动数据,具体包括如下步骤:
[0090]
在获得预设的授权许可信息的情况下,基于所述社交网络平台,获取每个组织成员之间的互动数据。
[0091]
具体地,授权许可信息包括但不仅限于法院执法文书编号、执法机关的ca证书、律师调查令编号。
[0092]
作为优选方案,所述方法还包括如下步骤:
[0093]
基于确定的所述舆论制造群体,将所述舆论制造群体内的舆论制造成员在所述社交网络关系图谱上进行标记。
[0094]
具体地,本发明实施例将舆论制造群体内的舆论制造成员在社交网络关系图谱上进行标记,能够实现舆论制造成员的可视化,从而更直观地对待识别组织内的舆论制造群体进行展现。
[0095]
作为优选方案,所述待识别组织内每个组织成员的特征信息至少包括性别、年龄、职位、岗位类别、职等、司龄、技术等级、奖惩记录、教育程度和社交活跃度。
[0096]
参见图2,本发明实施例第二方面提供一种舆论制造群体识别装置,包括:
[0097]
社交网络关系图谱构建模块201,用于基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;
[0098]
舆论互动数据获取模块202,用于基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;
[0099]
特征向量获取模块203,用于对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;
[0100]
搜索成员集合构建模块204,用于基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;
[0101]
舆论制造成员初次识别模块205,用于利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;
[0102]
舆论制造成员再次识别模块206,用于基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
[0103]
作为优选方案,所述舆论制造成员初次识别模块205用于利用余弦相似度算法获
得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合,具体包括如下步骤:
[0104]
利用所述余弦相似度算法,通过如下表达式获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度:
[0105][0106]
其中,cosθ表示舆论互动数据特征向量b与初始舆论互动数据特征向量a的相似度,n表示一个舆论互动数据特征向量中所包含的舆论互动数据特征的数量,ai表示初始舆论互动数据特征向量a中的第i个舆论互动数据特征值,bi表示舆论互动数据特征向量b中的第i个舆论互动数据特征值;
[0107]
根据所述相似度大于所述预设相似度阈值的舆论互动数据特征向量所对应的组织成员,确定所述初始舆论制造成员集合。
[0108]
作为优选方案,所述舆论制造成员再次识别模块206用于基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,具体包括如下步骤:
[0109]
基于所述初始舆论制造成员集合中每个组织成员之间的舆论互动数据,确定所述初始舆论制造成员集合中最后接收舆论的组织成员;
[0110]
基于所述待识别组织内每个组织成员的特征信息,通过所述朴素贝叶斯模型,采用如下表达式获取任意一个所述最后接收舆论的组织成员为舆论制造成员的概率:
[0111][0112]
其中,p(x1,x2,...,xm|c)表示当前最后接收舆论的组织成员为舆论制造成员的概率,c表示预设条件,xi表示当前最后接收舆论的组织成员的第i个特征信息,m表示特征信息的数量,p(xi|c)表示具备特征信息xi的最后接收舆论的组织成员为舆论制造成员的概率;
[0113]
将所述概率大于预设概率阈值的最后接收舆论的组织成员识别为所述舆论制造成员。
[0114]
作为优选方案,所述互动数据至少包括时间戳、发送方、接收方、文本数据和图片数据;
[0115]
则,舆论互动数据获取模块202用于对所述互动数据进行预处理,获得舆论互动数据,具体包括如下步骤:
[0116]
通过ocr方法对所述图片数据中的文本数据进行提取,获得提取文本数据;
[0117]
基于预设的词库,利用结巴分词法分别对所述文本数据和所述提取文本数据进行分词,获得第一分词结果和第二分词结果;
[0118]
分别对所述第一分词结果和所述第二分词结果进行清洗处理;
[0119]
分别对进行清洗处理后的第一分词结果和进行清洗处理后的第二分词结果进行
标准化处理,获得所述文本数据的第一关键词和所述提取文本数据的第二关键词,并将所述时间戳、所述发送方、所述接收方、所述第一关键词和所述第二关键词作为所述舆论互动数据。
[0120]
作为优选方案,所述舆论互动数据获取模块202用于基于所述社交网络平台,获取每个组织成员之间的互动数据,具体包括如下步骤:
[0121]
在获得预设的授权许可信息的情况下,基于所述社交网络平台,获取每个组织成员之间的互动数据。
[0122]
作为优选方案,所述装置还包括标记模块,用于:
[0123]
基于确定的所述舆论制造群体,将所述舆论制造群体内的舆论制造成员在所述社交网络关系图谱上进行标记。
[0124]
作为优选方案,所述待识别组织内每个组织成员的特征信息至少包括性别、年龄、职位、岗位类别、职等、司龄、技术等级、奖惩记录、教育程度和社交活跃度。
[0125]
需要说明的是,本发明实施例所提供的一种舆论制造群体识别装置,能够实现上述任一实施例所述的舆论制造群体识别方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的舆论制造群体识别方法的作用以及实现的技术效果对应相同,这里不再赘述。
[0126]
本发明实施例第三方面提供一种舆论制造群体识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的舆论制造群体识别方法。
[0127]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0128]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-prog rammable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
[0129]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0130]
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所
在设备执行如第一方面任一实施例所述的舆论制造群体识别方法。
[0131]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0132]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1