基于传播结构的微博谣言识别方法和系统与流程

文档序号：12748140阅读：来源：国知局

技术特征：

1.一种基于传播结构的微博谣言识别系统，其特征在于，包括如下装置：

数据采集模块：用于收集和提取微博的信息特征、用户特征以及传播特征；

模型建立模块：用于通过支持向量机的机器学习的方法，以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型，以用于识别谣言；其中，建立模型时所使用的微博数据为数据库中的微博，即已经提前人工标记好是否为谣言的微博；每条微博用一棵传播树和一个特征向量表示，其中，传播树用以表示传播特征中的传播结构，将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维；

模型识别模块：用于利用模型建立模块已建立好的模型，分析待识别微博，从而判断待识别微博是否为谣言；其中，待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。

2.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于：

所述信息特征包括：微博是否包含多媒体、微博所包含的情感倾向、微博是否包含URL链接、微博的发布时间相距用户的注册时间、微博发布的客户端、微博的话题种类、微博通过搜索引擎返回的结果数；

所述用户特征包括：发微博用户是否经过大V认证、发微博用户是否含有个人描述、发微博用户的性别、发微博用户的账号注册地点、发微博用户的粉丝数、发微博用户的关注数、发微博用户的发微博数、发微博用户的注册时间、发微博用户的用户种类；

所述传播特征包括：微博的传播结构、微博的转发数、微博的评论数、他人转发微博时的情感倾向、他人转发微博时候所使用的表情、转发微博的时间分数。

3.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于，模型建立模块得到一个分类器模型，该分类器模型用于接收对应于一条微博的一棵传播树和一个特征向量作为输入，并给出该微博是否为谣言作为输出；

模型识别模块在识别一条待识别微博是否为谣言时，将该微博构建成一个特征向量和一棵传播树，再将该微博的特征向量和传播树代入到已建立的分类器模型中计算相似性，从而得到该微博是否为谣言。

4.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于，传播树中的结点均表示一个网络用户；

根结点代表微博的发布者，传播树中的父子关系代表子结点表示的网络用户直接转发了父结点表示的网络用户的微博；

传播树中的结点均标记为p或n；若一个网络用户的粉丝数除以该网络用户的关注数的商值超过阈值即标记为p，否则标记为n；其中，p代表意见领袖，n代表普通用户；

传播树的边上也有标记，为一个三元组v＝(θ(a),θ(d),θ(s))，表示了子结点表示的网络用户在转发父结点表示的网络用户微博的情感倾向；其中，a代表赞成情感分数，d代表反对情感分数，s代表总情感分数，θ(x)＝2^-ρtx为衰减函数，其中，t为时间，ρ为一个取值在0-1之间的参数，在模型建立过程中进行调节。

5.根据权利要求4所述的基于传播结构的微博谣言识别系统，其特征在于，传播树经如下简化：

从根节点开始，将相邻的同标记为n的父子结点不断合并，直到不能合并为止。

6.根据权利要求4所述的基于传播结构的微博谣言识别系统，其特征在于，两条微博信息m_i和m_j间的支持向量机的核函数K(m_i,m_j)用下式表示：

K(m_i,m_j)＝βK(T_i,T_j)+(1-β)K(X_i,X_j)

其中，m_i和m_j为两条微博信息，β为分配系数，用于决定传播树和特征向量的相对重要程度，β值在0-1之间变化，T_i、T_j分别为微博信息m_i、微博信息m_j对应的传播树，X_i、X_j分别为微博信息m_i、微博信息m_j对应的特征向量，K(T_i,T_j)为两棵传播树T_i、T_j间的核函数，K(X_i,X_j)为两个特征向量X_i、X_j间的核函数。

7.根据权利要求6所述的基于传播结构的微博谣言识别系统，其特征在于，K(T_i,T_j)采用随机游走法进行计算，其计算公式如下：

K(T_i,T_j)＝e^T(I-λA_×)^-1e

其中，e表示所有元素均为1的行向量，上标T表示转置，I表示单位矩阵，λ表示为小于1的常数，用于使计算结果收敛，A_×为传播树T_i、T_j的直积图所对应的邻接矩阵；

对于两棵传播树T＝(V,E)和T′＝(V′,E′)，该两棵传播树的直积图G_×为G_×＝(T×T′)＝(V_×,E_×)，其中

V_×＝{(v,v′)∈V×V′:label(v)＝label(v′)}

V表示传播树T的顶点集，E表示传播树T的边集，V′表示传播树T′的顶点集，E′表示传播树T′的边集，v表示顶点集V中的任意顶点，v′表示顶点集V'中的任意顶点，label(v)表示边v的标记，label(v′)表示边v′的标记，u表示顶点集V中的不同于v的另一顶点，u′表示顶点集V'中的不同于v′的另一顶点。

8.根据权利要求2所述的基于传播结构的微博谣言识别系统，其特征在于，

所述他人转发微博时的情感倾向，为所有转发微博的情感分数的平均值；对于转发微博，首先进行中文分词和剔除停用词，其次采用以下公式计算：

$<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <msub> <mi>NP</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>NN</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>$

其中，n是转发微博的数目，NP_i和NN_i分别是微博信息m_i的积极词汇和消极词汇，|m_i|是微博信息m_i所有词汇的个数；积极词汇表示赞成情感，消极词汇表示反对情感；

所述转发微博的时间分数，是通过转发微博和原始微博之间所相差的天数来进行计算，计算公式如下：

$<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mn>2</mn> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> </mrow>$

其中，n是转发微博的数目，t_i是第i条转发微博的发布时间，t₀是原创微博的发布时间。

9.一种基于传播结构的微博谣言识别方法，其特征在于，利用权利要求1所述的基于传播结构的微博谣言识别系统对微博谣言进行识别，包括如下步骤：

收集和提取微博的信息特征、用户特征以及传播特征；

通过支持向量机的机器学习的方法，以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型，以用于识别谣言；其中，建立模型时所使用的微博数据为数据库中的微博，即已经提前人工标记好是否为谣言的微博；每条微博用一棵传播树和一个特征向量表示，其中，传播树用以表示传播特征中的传播结构，将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维；

利用已建立好的模型，分析待识别微博，从而判断待识别微博是否为谣言；其中，待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。

完整全部详细技术资料下载

当前第2页1 2 3