一种基于假设检验的舆情主题数识别方法及系统与流程

文档序号:14257569阅读:331来源:国知局

本发明涉及人工智能领域,具体涉及一种基于假设检验的舆情主题数识别方法及系统。



背景技术:

网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发展,同时也影响着现实中人们对事件的看法和判断。为了通过海量的社交网络数据及时的掌握热点话题和舆情的态势变化,需要对话题进行提取、追踪和预测,这也使得从网络中获取热点话题成为近年来研究的热点。在海量文本信息中提出若干需要的主题是对自然语言文档处理的重要问题,如何确定主题数得到正确的分类,一直是开发人员、应用人员和管理人员所面临的首要问题。准确的主题数是自然语言文档正确分类的关键。主题数过大或过小都会导致分类的不准确。通常的做法是在降维过程中缩减保留奇异值数目,使得保留的奇异值的平方和达到所有奇异值平方和的90%。但这是从矩阵能量角度进行分析,并不十分准确有效。

本发明根据网络文本数据特点,提出利用基于假设检验的方法来解决这一问题。



技术实现要素:

本发明提出了一种基于假设检验的网络舆情主题数识别技术,能够解决目前对于网络舆情主题数目难以自动估计,需要人工调整的问题。

本发明的一个目的是提供了一种舆情主题数识别方法,包括以下步骤:

(a)构建词项文档矩阵a并计算其tf-idf值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵k和自相关矩阵r的特征值集合,记为{λ1≥λ2≥…≥λl}和其中l为关键字或文档数;

(b)求得第l个文档的近似噪声方差值其中n表示矩阵中元素的个数;

(c)计算概率密度函数

(d)给定虚警概率pf,根据虚警概率和检测率定义求得τ;

(e)基于neyman-pearson理论,当时表明有信号源的存在,对l个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。

其中,构建词项文档矩阵a并计算其tf-idf值为:构建词项文档矩阵a,a中的每一个元素aij表示第i个词项与第j篇文章构成的tf-idf值,具体计算步骤如下:

s01:计算词频termfrequency

s02:计算逆文档频率

s03:计算tf-idf:tf-idf=词频(tf)*逆文档频率(idf),

词项文档矩阵a是稀疏向量组成的行矩阵,每个向量代表一个文档。

进一步的,通过以下公式计算词项文档矩阵a的协方差矩阵k和自相关矩阵r:

k=e{(a-e(a))(a-e(a))t}

r=e{aat}

其中,e表示求数学期望,at表示求a转置。

设噪声是均值为零的白噪声,确定主题数个数的问题归结为二元假设检验问题:

当假设h1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,即还有其它舆情主题存在,主题数加1。

与λ1的差值看作是基于h0和h1的条件概率分布,相应的条件概率密度函数为:

其中μl为未知常量,定义虚警率pf和检测率pd分别为:

pf=∫τp0(z)dz,pd=∫τp1(z)dz。

给定虚警概率pf,根据虚警率和检测率定义由以下公式求得τ:

本发明的另一个目的是提供一种舆情主题数识别系统,系统包括以下模块:

文档重构模块,用于构建词项文档矩阵a并计算其tf-idf值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵k和自相关矩阵r的特征值集合,记为{λ1≥λ2≥…≥λl}和其中l为关键字或文档数;

二元假设检验模块,用于求得第l个文档的近似噪声方差值其中n表示矩阵中元素的个数;计算概率密度函数给定虚警概率pf,根据虚警概率和检测率定义求得τ;

舆情主题数识别模块,用于基于neyman-pearson理论,当时表明有信号源的存在,对l个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。

本发明提出的基于假设检验的舆情主题数识别技术,通过对网络文本构建词项-文档矩阵、特征值分解与提取、二元假设检验计算,最终实现网络话题数目的计算。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明的一个实施例中的基于假设检验的舆情主题数识别方法,将稀疏矩阵分解和主题模型相结合,主要分为构建词项-文档矩阵、特征值分解、二元假设检验三个步骤,具体包括:

构建词项-文档矩阵(termfrequencytimesinversedocumentfrequency,tf-idf),在该矩阵中,每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于这篇文章来说的重要程度;

计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵和自相关矩阵的特征值集合,记为{λ1≥λ2≥…≥λl}和其中l为关键字/文档数;

求得第l个文档的近似噪声方差值其中n表示矩阵中元素的个数;计算概率密度函数

给定虚警概率pf,根据虚警率和检测率定义求得τ;

基于neyman-pearson理论,当时表明有信号源的存在,对l个关键字/文档都进行这样的检测判断,最后得出信号源的总数即为vd的值,也就是舆情主题数。

具体地,首先构建词项-文档矩阵a,a中的每一个元素aij表示第i个词项与第j篇文章构成的ti-idf值,具体计算步骤如下:

s01:计算词频termfrequency

s02:计算逆文档频率

s03:计算tf-idf:tf-idf=词频(tf)*逆文档频率(idf)

由于词项的数目非常之大,而文档数目远远小于词项,所以词项-文档矩阵应该是一个稀疏向量组成的行矩阵,每个向量代表一个文档。

对词项-文档矩阵a的协方差矩阵k及自相关矩阵r分别进行特征值分解,得到特征值分别为{λ1≥λ2≥…≥λl}和l表示关键字/文档的数目。

其中,计算协方差矩阵k和自相关矩阵r的公式如下:

k=e{(a-e(a))(a-e(a))t}

r=e{aat}

其中,e表示求数学期望,at表示求a转置。

设噪声是均值为零的白噪声,确定主题数个数的问题可以归结为一个二元假设检验问题:

当假设h1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,因此主题数加1。

与λ1的差值看作是基于h0和h1的条件概率分布,相应的条件概率密度函数为:

其中μl为未知常量。定义虚警率pf和检测率pd分别为:

pf=∫τp0(z)dz

pd=∫τp1(z)dz

据此方程定义,给定虚警概率pf,根据虚警率和检测率定义求得τ,具体求解过程如下。

基于neyman-pearson理论,当时表明有信号源的存在,对l个关键字/文档都进行这样的检测判断,最后得出信号源的总数即为vd的值,同时也就是舆情主题的数目。

本发明的另一个实施例中的基于假设检验的舆情主题数识别方法,主要包括以下几个步骤:

第一步:构建词项-文本矩阵。对于网络海量文本,计算词频、逆文档频率,得到计算词项-文本矩阵。

第二步:计算词项-文本矩阵的协方差矩阵和自相关矩阵,并求解其特征值,分别为{λ1≥λ2≥…≥λl}和

第三步:将舆情主题数求解问题转化为二元假设检验问题,

当假设h1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,因此主题数加1。

第四步:根据此假设检验,求解得到舆情主题数。

本发明的另一个实施例中的基于假设检验的舆情主题数识别系统,系统包括以下模块:

文档重构模块,用于构建词项文档矩阵a并计算其tf-idf值,计算该矩阵的协方差矩阵和自相关矩阵,分别求出协方差矩阵k和自相关矩阵r的特征值集合,记为{λ1≥λ2≥…≥λl}和其中l为关键字或文档数;

二元假设检验模块,用于求得第l个文档的近似噪声方差值其中n表示矩阵中元素的个数;计算概率密度函数给定虚警概率pf,根据虚警概率和检测率定义求得τ;

舆情主题数识别模块,用于基于neyman-pearson理论,当时表明有信号源的存在,对l个关键字或文档均进行上述检测判断,最后得出信号源的总数即为舆情主题数。

在一个实施例中,文档重构模块根据如下方式构建词项文档矩阵a并计算其tf-idf值:

构建词项文档矩阵a,a中的每一个元素aij表示第i个词项与第j篇文章构成的tf-idf值,具体计算步骤如下:

s01:计算词频termfrequency

s02:计算逆文档频率

s03:计算tf-idf:tf-idf=词频(tf)*逆文档频率(idf);

其中,词项文档矩阵a是稀疏向量组成的行矩阵,每个向量代表一个文档。

在一个实施例中,文档重构模块通过以下公式计算词项文档矩阵a的协方差矩阵k和自相关矩阵r:

k=e{(a-e(a))(a-e(a))t}

r=e{aat}

其中,e表示求数学期望,at表示求a转置。

在一个实施例中,舆情主题数识别模块采用如下方式计算主题数:

设噪声是均值为零的白噪声,确定主题数个数的问题归结为二元假设检验问题:

当假设h1为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,即还有其它舆情主题存在,主题数加1。

其中,将与λ1的差值看作是基于h0和h1的条件概率分布,相应的条件概率密度函数为:

其中μl为未知常量,定义虚警率pf和检测率pd分别为:

pf=∫τp0(z)dz,pd=∫τp1(z)dz。

其中,给定虚警概率pf,根据虚警率和检测率定义由以下公式求得τ:

本发明提出的基于假设检验的舆情主题数识别方法和系统,建立舆情主题数目的二元假设检验问题,并基于neyman-pearson理论,对于舆情主题数目进行求解判断,由于利用特征值分解方法,避免传统降维方法中仅仅利用矩阵能量的缺陷,对网络舆情监测具有重要意义。

应当理解,在本说明书中描述的功能单元或能力可被称为或标示为组件、模块或系统,以便更具体地强调它们的实现独立。例如,组件、模块或系统可被实现为硬件电路,其包括定制超大规模集成(vlsi)电路或门阵列、现成的半导体,诸如逻辑芯片、晶体管,或其他分立组件。组件或模块还可在可编程硬件设备中实现,诸如场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等。组件或模块还可以在用于由各种类型的处理器执行的软件中实现。例如,可执行代码的识别的组件或模块可以包括一个或多个物理或逻辑的计算机指令,其可以,例如,被组织为对象、程序或功能。然而,所识别的组件或模块不必在物理上定位在一起,而是可以包含存储在不同位置的全异指令,其当逻辑上接合在一起时,包含组件或模块并实现对于组件或模块的规定目的。

应该理解由本领域技术人员通过本发明能够实现的效果并不局限于在上文已特别描述的内容,并且本发明的其它优点从上面的详细描述中将更清楚地理解。

对于本领域技术人员,显然可以在不脱离本发明的精神或范围的情况下在本发明中做出各种修改和变型。因此,本发明旨在如果本发明的修改和变型落入附随权利要求和它们的等同形式的范围内,那么本发明覆盖这些修改和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1