用于舆情分析的系统和方法与流程

文档序号:25423728发布日期:2021-06-11 21:36阅读:114来源:国知局
用于舆情分析的系统和方法与流程

本发明涉及一种用于舆情分析的系统和方法。



背景技术:

舆情,特别是网络舆情,有数量大、来源多样等特征,通过舆情系统进行存储及分析,方能将数据进行应用,但由于舆情汇整于多来源,其内容长短及涉及情绪的叙事方式等特征也有所不同,难以通过单一情绪分析模型满足所有情绪判定的需求。



技术实现要素:

本发明提供一种用于舆情分析的系统和方法,可提升舆情分析系统在情绪分析上的可靠度,优化舆情分析系统内舆情文本的情绪计算结果,经由集成运算一个以上情绪分析模型的舆情分析结果,优化整体舆情文本情绪分析的准确度。

本发明的一种用于舆情分析的系统,包括处理器、存储介质以及收发器。存储介质存储多个模块。处理器耦接存储介质和收发器,并且接入和执行多个模块,其中多个模块包括数据库模块、数据收集模块以及运算模块。数据库模块存储多个情绪分析模型。数据收集模块通过收发器接收训练数据以及舆情数据。运算模块根据训练数据产生选择模型,根据选择模型以及舆情数据而从多个情绪分析模型中选出至少一个情绪分析模型,并且使用至少一个情绪分析模型以根据舆情数据产生舆情分析结果。

在本发明的一实施例中,上述的运算模块基于多个情绪分析模型的数量而根据多元逻辑回归和二元逻辑回归中的一个建立对应于选择模型的回归模型,根据最大似然估计法产生对应于回归模型的参数,并且根据参数和回归模型建立选择模型。

在本发明的一实施例中,上述的运算模块将舆情数据输入选择模型以产生分别对应于多个情绪分析模型的多个机率值。

在本发明的一实施例中,上述的运算模块响应于对应于至少一个情绪分析模型的机率值为多个机率值中的最大者而选择至少一个情绪分析模型。

在本发明的一实施例中,上述的运算模块根据至少一个情绪分析模型产生对应于舆情数据的输出数据,并且以至少一个情绪分析模型的至少一个机率值为权重来产生舆情分析结果。

在本发明的一实施例中,上述的舆情数据包括数据源、文本内容、文本长度、主回文类别以及用户回授信息中的至少一个。

在本发明的一实施例中,上述的运算模块根据训练数据从情绪分析模型集合中选出多个情绪分析模型。

在本发明的一实施例中,上述的多个情绪分析模型包括长短期记忆模型。

在本发明的一实施例中,上述的至少一个情绪分析模型根据分支熵正规化变异从舆情资料的文本内容中取得词块,根据二项式检定判断词块的极性,并且基于最大熵模型而根据文本内容和极性产生舆情分析结果。

本发明的一种用于舆情分析的方法,包括:取得多个情绪分析模型;接收训练数据以及舆情数据;根据训练数据产生选择模型;根据选择模型以及舆情数据而从多个情绪分析模型中选出至少一个情绪分析模型;以及使用至少一个情绪分析模型以根据舆情数据产生舆情分析结果。

基于上述,本发明可产生用来选择的情绪分析模型的选择模型,并且基于舆情资料的不同而根据选择模型选出最适用的情绪分析模型,从而产生准确的舆情分析结果。

附图说明

包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与说明书一起用于解释本发明的原理。

图1根据本发明的实施例示出一种用于舆情分析的系统的示意图。

图2根据本发明的实施例示出一种用于舆情分析的方法的流程图。

具体实施方式

现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同附图标记在附图和说明书中用来表示相同或相似部分。

图1根据本发明的实施例示出一种用于舆情分析的系统100的示意图。系统100可包括处理器110、存储介质120以及收发器130。

处理器110例如是中央处理单元(centralprocessingunit,cpu),或是其他可程序化的一般用途或特殊用途的微控制单元(microcontrolunit,mcu)、微处理器(microprocessor)、数字信号处理器(digitalsignalprocessor,dsp)、可程序化控制器、特殊应用集成电路(applicationspecificintegratedcircuit,asic)、图形处理器(graphicsprocessingunit,gpu)、算数逻辑单元(arithmeticlogicunit,alu)、复杂可程序逻辑装置(complexprogrammablelogicdevice,cpld)、现场可程序化逻辑门阵列(fieldprogrammablegatearray,fpga)或其他类似组件或上述组件的组合。处理器110可耦接至存储介质120以及收发器130,并且接入和执行存储于存储介质120中的多个模块和各种应用程序。

存储介质120例如是任何型态的固定式或可移动式的随机接入内存(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、闪存(flashmemory)、硬盘(harddiskdrive,hdd)、固态硬盘(solidstatedrive,ssd)或类似组件或上述组件的组合,而用于存储可由处理器110执行的多个模块或各种应用程序。在本实施例中,存储介质120可存储包括数据收集模块121、运算模块122以及数据库模块123等多个模块,其功能将于后续说明。

收发器130以无线或有线的方式传送及接收信号。收发器130还可以执行例如低噪声放大、阻抗匹配、混频、向上或向下频率转换、滤波、放大以及类似的操作。

系统100可接收舆情数据、对舆情数据进行分析并且产生对应舆情数据的舆情分析结果。舆情分析具有至少一个种特征,且该特征包括数据源(xsource)、文本长度(xlength)、主回文(xmaintext/reply)、文本涉及的人、事、时、地、物情境特征(xscenarios)、用户针对文本判断情绪的修正与建议(xsystemfeedback)以及其他特征(xotherfeatures)等,例如新闻网站内容、社群网站内容、论坛内容、app内容及影音视频网站中的文字内容、长度(文章长度)、主文或留言类别、文本涉及的人、事、时、地、物情境(scenarios),及用户于系统的反馈因素等。为了适应具有各类型特征的舆情数据,数据库模块123可预存多个情绪分析模型,以针对不同类型的舆情数据进行分析。举例来说,长短期记忆(longshort-termmemory)模型对文本长度较长的舆情数据具有优异的分析准确率。因此,运算模块122可从可用的情绪分析模型的集合中选出长短期记忆模型,并将所选出的长短期记忆模型预存于数据库模块123之中。

数据库模块123中的各个情绪分析模型例如是基于深度学习方法或基于统计学习方法所产生的,但本发明不限于此。举例来说,数据库模块123中的基于统计学习方法所产生的情绪分析模型可根据分支熵正规化变异(normalizedvariationofbranchingentropy,nvbe)从舆情资料的文本内容中取得词块,并且根据二项式检定(binomialtest)判断所述词块的极性。接着,该情绪分析模型可基于最大熵模型而根据该文本内容和该极性产生所述舆情分析结果。

数据收集模块121可通过收发器130接收训练数据以及舆情数据,其中训练数据可为多笔历史舆情数据,并且包括数据源、文本内容、文本长度、主回文类别或用户回授信息等信息。运算模块122可根据训练数据产生选择模型,其中该选择模型用于从数据库模块123中的多个情绪分析模型中选出最适用于舆情资料的至少一个情绪分析模型。具体来说,运算模块122可基于多个情绪分析模型的数量而根据多元逻辑回归(multinomiallogisticregression)或二元逻辑回归(binarylogisticregression)来建立对应于选择模型的回归模型。若数据库模块123中的情绪分析模型的数量为2个,则运算模块122根据二元逻辑回归来建立对应于选择模型的回归模型。若数据库模块123中的情绪分析模型的数量为n个并且n为超过2的正整数,则运算模块122根据多元逻辑回归来建立对应于选择模型的回归模型,其中回归模型如方程式(1)所示,其中ymodeli为第i个情绪分析模型的回归模型、n为特征的数量、βi,j为第i个情绪模型的对应于第j个特征的参数并且xj为第j个特征。

接着,运算模块122可根据最大似然估计法(maximumlikelihoodestimation,mle)来确定回归模型的参数,并且根据该参数和该回归模型建立选择模型。在建立完选择模型后,运算模块122可根据选择模型以及舆情数据从存储在数据库模块123中的多个情绪分析模型中选出至少一个情绪分析模型,并且使用该至少一个情绪分析模型以根据舆情数据产生舆情分析结果。具体来说,运算模块122可将舆情数据输入至选择模型来产生分别对应于多个情绪分析模型的多个机率值。在计算完各个情绪分析模型对舆情数据的机率值后,运算模块122可根据机率值从存储在数据库模块123中的多个情绪分析模型中选出至少一个情绪分析模型,从而利用至少一个情绪分析模型产生舆情分析结果。

在一实施例中,情绪分析模型的数量为2个。假设2个情绪分析模型分别为modeli和modeli+1,则运算模块122可定义modeli的机率为pi且modeli+1的机率为pi+1,从而根据如方程式(1)所示的回归模型建立对应于modeli和modeli+1的二元逻辑回归,如方程式(2)所示。

接着,运算模块122可基于mle而计算出方程式(2)中的参数,并且根据参数计算出modeli(或modeli+1)所对应的机率,如方程式(3)所示。

在一实施例中,情绪分析模型的数量为m个,并且m为超过2的正整数。假设多个情绪分析模型分别为modeli、modeli+1、…、modeli+m,则运算模块122可定义modeli的机率为pi、modeli+1的机率为pi+1、…、modeli+m的机率为pi+m,从而根据如方程式(1)所示的回归模型建立对应于modeli、modeli+1、…、modeli+m的多元逻辑回归,如方程式(4)所示,其中β(i,k),j为对应于modeli、modelk以及第j个特征的参数。

接着,运算模块122可基于mle而计算出方程式(4)中的参数,并且根据参数计算出modeli、modeli+1、…、modeli+m所对应的机率,如方程式(5)所示。

在计算完对应于各个情绪分析模型的机率后,运算模块122可根据该些机率挑选情绪分析模型。在一实施例中,运算模块122可响应于对应于至少一个情绪分析模型的机率值为多个机率值中的最大者而选择该至少一个情绪分析模型。举例来说,假设存储介质120存储了n个情绪分析模型yi(i=1~n,其中n为大于或等于2的正整数),则选择模型可根据舆情数据输出分别对应于n个情绪分析模型yi的机率pi(i=1~n)。接着,运算模块122可根据如下所示的方程式(6)挑选出一情绪分析模型ya来分析舆情数据。

ya=argmaxyi(pi)…(6)

在一实施例中,运算模块122可根据至少一个情绪分析模型产生对应于舆情数据的输出数据,并且以至少一个情绪分析模型的至少一个机率值为权重来产生舆情分析结果。举例来说,假设存储介质120存储了n个情绪分析模型yi(i=1~n,其中n为大于或等于2的正整数),则选择模型可根据舆情数据输出分别对应于n个情绪分析模型yi的机率pi(i=1~n)。接着,运算模块122可根据如方程式(7)所示的方式来产生舆情分析结果,其中y为舆情分析结果并且oi为情绪分析模型yi产生的对应于舆情数据(即:情绪分析模型yi的输入数据)的输出数据。

图2根据本发明的实施例示出一种用于舆情分析的方法的流程图,其中所述方法可由如图1所示的系统实施。在步骤s210中,取得多个情绪分析模型。在步骤s220中,接收训练数据以及舆情数据。在步骤s230中,根据训练数据产生选择模型。在步骤s240中,根据选择模型以及舆情数据而从多个情绪分析模型中选出至少一个情绪分析模型。在步骤s250中,使用至少一个情绪分析模型以根据舆情数据产生舆情分析结果。

综上所述,本发明可预先从众多的情绪分析模型中挑选出适用于舆情数据的各类型特征的多个情绪分析模型,并且根据游训练数据所产生的选择模型来选择最适用于舆情数据的情绪分析模型。换句话说,本发明可根据舆情数据的内容动态地挑选出最适用的情绪分析模型产生准确的舆情分析结果。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

附图标号说明

100:用于舆情分析的系统;

110:处理器;

120:存储介质;

121:数据收集模块;

122:运算模块;

123:数据库模块;

130:收发器;

s210、s220、s230、s240、s250:步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1