舆情风险预警方法、装置及计算机存储介质与流程

文档序号:24379756发布日期:2021-03-23 11:14阅读:92来源:国知局
舆情风险预警方法、装置及计算机存储介质与流程

本发明涉及舆情预警技术领域,尤其涉及舆情风险预警方法、装置及存储介质。



背景技术:

证券行业的舆情信息来源众多,包括:公司公告、政府公告、研究报告、工商行政处罚信息、海量的新闻以及社交媒体信息等等,这些信息都对证券行业的情况变化有着极为重要的影响。

在面对海量的舆情数据时,一般通过纯人工搜集、处理、监控的方式进行舆情预警,效率较低。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种舆情风险预警方法、装置及存储介质x,旨在实现舆情预警的自动化,提高预警效率。

为实现上述目的,本发明提供一种舆情风险预警方法,所述舆情风险预警方法包括以下步骤:

获取舆情事件集合;

确定所述舆情事件集合中的关联舆情事件;

根据关联的所述舆情事件生成舆情事件子集;

获取所述舆情事件子集的传播主体,并根据所述传播主体的历史互动数据获取所述舆情事件子集的影响力数值;

根据所述影响力数值生成并输出预警信息。

可选地,所述历史互动数据包括点赞次数、转发次数以及评论次数中的至少一个。

可选地,所述获取舆情事件集合的步骤包括:

通过预设网络平台采集预设时间段内产生的舆情数据,其中,所述舆情数据包括多个文本;

获取所述文本之间的相似度;

根据所述相似度确定多个所述文本之间的内聚性数值;

根据所述内聚性数值确定多个文本集合,其中,所述文本集合包括多个所述文本;

将所述文本集合作为所述舆情事件;

根据多个所述舆情事件组成所述舆情事件集合。

可选地,所述根据所述内聚性数值确定多个文本集合的步骤之后,所述舆情风险预警方法包括:

获取所述文本集合包含的文本的数量;

获取所述文本集合的半径;

根据所述数量和所述半径获取所述文本集合的密度;

根据所述密度增加或删除所述文本集合中的文本,其中,将修正后的所述文本集合作为所述舆情事件。

可选地,所述确定所述舆情事件集合中的关联舆情事件的步骤包括:

确定所述舆情事件集合中舆情事件所包含的文本集合对应的质心;

根据所述质心之间的距离确定所述舆情事件集合中的关联舆情事件。

可选地,所述根据所述传播主体的历史互动数据获取所述舆情事件子集的影响力数值的步骤包括:

根据所述历史互动数据生成所述传播主体对应的互动信息矩阵;

按照预设函数对所述互动信息矩阵进行迭代处理,得到影响力数值矩阵;

根据所述影响力数值矩阵获取所述影响力数值。

可选地,所述根据所述影响力数值矩阵获取所述影响力数值的步骤包括:

获取所述舆情事件子集的事件特征,其中,所述事件特征包括所述舆情事件子集包含的舆情事件数量;

获取所述舆情事件子集对应的发布时间的时间跨度;

根据所述事件特征、所述时间跨度以及所述影响力数值矩阵获取所述影响力数值。

可选地,所述获取舆情事件集合的步骤包括:

获取预设事件主体;

获取与所述预设事件主体对应的舆情事件集合,其中,向所述预设事件主体对应的终端设备输出所述预警信息。

可选地,所述根据所述影响力数值生成并输出预警信息的步骤包括:

在所述影响力数值大于预设阈值时,获取所述舆情事件子集对应的事件主体;

获取所述事件主体对应的标的金额;

根据所述舆情事件子集、所述影响力数值以及所述标的金额生成并输出所述预警信息。

此外,为实现上述目的,本发明还提供一种舆情风险预警装置,所述舆情风险预警装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的舆情风险预警程序,所述舆情风险预警程序被所述处理器执行时实现如上所述中任一项所述的舆情风险预警方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有舆情风险预警程序,所述舆情风险预警程序被处理器执行时实现如上所述中任一项所述的舆情风险预警方法的步骤。

本发明实施例提出的舆情风险预警方法、装置及存储介质,获取舆情事件集合,确定所述舆情事件集合中的关联舆情事件,根据关联的所述舆情事件生成舆情事件子集,获取所述舆情事件子集的传播主体,并根据所述传播主体的历史互动数据获取所述舆情事件子集的影响力数值,根据所述影响力数值生成并输出预警信息。本发明通过获取舆情事件合集中的关联事件,作为同一舆情事件,并通过事件传播主体的历史互动数据计算该事件的影响力数值,根据影响力数值进行舆情预警,实现了舆情风险预警的自动化,提高了舆情风险预警的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明舆情风险预警方法的一实施例的流程示意图;

图3为本发明舆情风险预警方法另一实施例的流程示意图;

图4为本发明舆情风险预警方法再一实施例的流程示意图;

图5为本发明舆情风险预警方法又一实施例的流程示意图;

图6为本发明中舆情事件脉络的示意图;

图7为基于伽马分布的跳跃扩散过程的示意图;

图8为影响力数值的传播以及消散过程的示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例提供一种解决方案,通过获取舆情事件合集中的关联事件,作为同一舆情事件,并通过事件传播主体的历史互动数据计算该事件的影响力数值,根据影响力数值进行舆情预警,实现了舆情风险预警的自动化,提高了舆情风险预警的效率。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端为pc等终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及舆情风险预警程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的舆情风险预警程序,并执行以下操作:

获取舆情事件集合;

确定所述舆情事件集合中的关联舆情事件;

根据关联的所述舆情事件生成舆情事件子集;

获取所述舆情事件子集的传播主体,并根据所述传播主体的历史互动数据获取所述舆情事件子集的影响力数值;

根据所述影响力数值生成并输出预警信息。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

所述历史互动数据包括点赞次数、转发次数以及评论次数中的至少一个。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

通过预设网络平台采集预设时间段内产生的舆情数据,其中,所述舆情数据包括多个文本;

获取所述文本之间的相似度;

根据所述相似度确定多个所述文本之间的内聚性数值;

根据所述内聚性数值确定多个文本集合,其中,所述文本集合包括多个所述文本;

将所述文本集合作为所述舆情事件;

根据多个所述舆情事件组成所述舆情事件集合。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

获取所述文本集合包含的文本的数量;

获取所述文本集合的半径;

根据所述数量和所述半径获取所述文本集合的密度;

根据所述密度增加或删除所述文本集合中的文本,其中,将修正后的所述文本集合作为所述舆情事件。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

确定所述舆情事件集合中舆情事件所包含的文本集合对应的质心;

根据所述质心之间的距离确定所述舆情事件集合中的关联舆情事件。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

根据所述历史互动数据生成所述传播主体对应的互动信息矩阵;

按照预设函数对所述互动信息矩阵进行迭代处理,得到影响力数值矩阵;

根据所述影响力数值矩阵获取所述影响力数值。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

获取所述舆情事件子集的事件特征,其中,所述事件特征包括所述舆情事件子集包含的舆情事件数量;

获取所述舆情事件子集对应的发布时间的时间跨度;

根据所述事件特征、所述时间跨度以及所述影响力数值矩阵获取所述影响力数值。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

获取预设事件主体;

获取与所述预设事件主体对应的舆情事件集合,其中,向所述预设事件主体对应的终端设备输出所述预警信息。

进一步地,处理器1001可以调用存储器1005中存储的舆情风险预警程序,还执行以下操作:

在所述影响力数值大于预设阈值时,获取所述舆情事件子集对应的事件主体;

获取所述事件主体对应的标的金额;

根据所述舆情事件子集、所述影响力数值以及所述标的金额生成并输出所述预警信息。

参照图2,在一实施例中,所述舆情风险预警方法包括以下步骤:

步骤s10,获取舆情事件集合;

在本实施例中,舆情风险预警装置中运行的舆情风险预警系统采集舆情数据,并根据舆情数据生成舆情事件,将包括多个舆情事件的集合作为舆情事件集合。

可选地,舆情风险预警系统对接多个数据平台,以从多个数据平台中获取多种类型的舆情数据。例如,在对证券市场进行舆情风险预警时,舆情数据可包括内部数据和外部数据,内部数据包括证券市场的内部行情数据、上市公司信息、证券交易结算数据、会员信息等,外部数据包括场外的公司公告、新闻报道、自媒体信息和工商信息等,其中,新闻报道可来自于各个媒体平台、公众号以及官方的财经新闻发布平台等。单个舆情数据一般以单个文本的形式呈现。

可选地,计算多个文本之间的相似度,在相似度大于预设相似度时,判定该多个文件均代表同一事件,因此,可将该多个文件的合集作为单个舆情事件,从而确定多个舆情事件,将多个舆情事件作为舆情事件集合,例如,在多个文本包括文本a、文本b、文本c以及文本d时,若文本a与文本c的相似度大于预设相似度,则将文本a与文本c作为第一舆情事件,若文本b与文本d的相似度大于预设相似度,则将文本b与文本d作为第二舆情事件,第一舆情事件与第二舆情事件的组合作为舆情事件集合。其中,在计算多个文本之间的相似度时,可根据多个文本对应的事件主体之间的相似度,以及多个文本对应的事件内容之间的相似度来综合确定。

可选地,在证券行业中,很多客户存在舆情风险预警的需求,因此,在获取舆情事件合集时,还可获取在舆情风险预警系统中事先设置的预设事件主体,进而筛选出包含该预设事件主体的文本,根据筛选出的文本之间的相似度确定单个舆情事件,进而确定预设事件主体对应的舆情事件合集,实现对于预设事件主体的舆情风险预警,进而可根据预警信息、与该客户利益关联的其他市场主体以及风险的传导链路,分析舆情态势、舆情等级、舆情走向,判别舆情事件对客户的影响程度,识别较高影响力的的风险事件,进而向客户提供监测预警服务。例如,可获取预警信息中的关联舆情事件,根据预存的证券行业的知识图谱,确定与关联舆情事件具有因果关系的其他事件,其中,在图书情报界中,知识图谱被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。例如,在知识图谱中,发生事件a之后,通常会再发生事件b,因此,舆情风险预警在输出预警信息后,还可输出包含事件b的预测信息,以预测事件走向。

步骤s20,确定所述舆情事件集合中的关联舆情事件;

步骤s30,根据关联的所述舆情事件生成舆情事件子集;

在本实施例中,在确定舆情事件集合中的关联舆情事件时,多个舆情事件之间的关联程度确定关联舆情事件,并将关联的多个舆情事件作为舆情事件子集。

可选地,舆情事件合集包括多个不同时间段内的舆情事件,例如,以每一天作为一个时间段,舆情事件合集可包括今天的舆情事件、昨天的舆情事件以及前天的舆情事件。单个舆情事件对应的时间段可根据舆情事件中文本的产生时间来确定,例如,在舆情事件中的文本均是昨天发布到网络上的,则将昨天作为该舆情事件对应的时间段。在确定舆情事件集合中的关联舆情事件时,计算不同时间段内的舆情事件的相似度,将相似度大于相似度阈值的多个舆情事件作为关联舆情事件,例如,在舆情事件集合包括第一时间段内的舆情事件a与舆情事件b,以及第二时间段内的舆情事件c与舆情事件d时,若舆情事件a与舆情事件c的相似度大于相似度阈值,则将舆情事件a与舆情事件c作为关联舆情事件,并将舆情事件a与舆情事件c的组合作为舆情事件子集,若舆情事件b与舆情事件d的相似度大于相似度阈值,则将舆情事件b与舆情事件d作为关联舆情事件,并将舆情事件b与舆情事件d的组合作为舆情事件子集。

步骤s40,获取所述舆情事件子集的传播主体,并根据所述传播主体的历史互动数据获取所述舆情事件子集的影响力数值;

在本实施例中,由于舆情数据均是在网络中进行传播,由传播主体发布舆情数据,以供其他网络主体查看、评论、转发、点赞等,因此,在确定舆情事件子集后,可确定舆情事件子集中的舆情事件的文本的发布主体,将该发布主体作为舆情事件子集的传播主体,其中,舆情事件的文本可能存在多个,且由不同的主体进行发布,因此舆情事件子集的传播主体可以同时存在多个。

由于传播主体在发布舆情数据之后,网络上的其他主体可以对该舆情数据进行查看、评论、转发、点赞以及关注等,因此在确定传播主体后,根据该传播主体历史发布的舆情数据中,其他网络主体的浏览次数、点赞次数、转发次数、评论次数以及关注人数中的至少一个确定该传播主体的历史互动数据。历史互动数据包括浏览次数、点赞次数、转发次数、评论次数以及关注人数中的至少一个。

可选地,在根据历史互动数据获取舆情事件子集的影响力数值时,根据浏览次数、点赞次数、转发次数、评论次数以及关注人数等对该传播主体进行评分,将分值作为该舆情事件子集的影响力数值。在进行评分时,可获取多个不同的预设次数范围,以分别确定浏览次数、点赞次数、转发次数、评论次数以及关注人数所在的预设次数范围,将浏览次数、点赞次数、转发次数、评论次数以及关注人数所在的预设次数范围对应的分值作为该项的评分,将浏览次数、点赞次数、转发次数、评论次数以及关注人数这几项的评分之和作为舆情事件子集的影响力数值。需要说明的是,在舆情事件子集的传播主体同时存在多个时,分别根据多个传播主体对应的历史互动数据获取评分,进而将多个传播主体对应的评分之和作为舆情事件子集的影响力数值。

步骤s50,根据所述影响力数值生成并输出预警信息。

在本实施例中,在获取到影响力数值后,根据舆情事件子集所包含的文本以及影响力数值生成预警信息,并通过舆情风险预警装置输出该预警信息,以提示用户该舆情事件子集的舆情情况。

可选地,在获取到影响力数值后,判断影响力数值是否大于预设阈值,若影响力数值大于预设阈值,表明该舆情风险较高,执行根据舆情事件子集所包含的文本以及影响力数值生成并输出预警信息的步骤。

可选地,针对目前证券行业的在市场风险监测的应用需求,在影响力数值大于预设阈值时,还可获取舆情事件子集对应的事件主体,该事件主体为发生该舆情的对象,获取该事件主体在证券行业中对应的标的金额,根据舆情事件子集所包含的文本、影响力数值以及标的金额生成并输出预警信息,实现对于证券市场中客户的舆情风险状况的检测和预警。通过该预警信息,可确定该事件主体在产业链或债务链中存在的风险,构建可视化的风险视图,进行风险识别、风险监控预警等。舆情风险预警系统中的管理分析平台可根据影响力数值实现风险指标测算、舆情事件推荐、事件趋势分析等功能,以及对根据以往的历史舆情事件子集实际产生的影响力数值,对舆情风险预警系统的算法的准确度进行性能评估和回归测试,以便于对算法进一步优化。

在本实施例公开的技术方案中,通过获取舆情事件合集中的关联事件,作为同一舆情事件,并通过事件传播主体的历史互动数据计算该事件的影响力数值,根据影响力数值进行舆情预警,实现了舆情风险预警的自动化,提高了舆情风险预警的效率。

在另一实施例中,如图3所示,在上述图2所示的实施例基础上,步骤s10包括:

步骤s11,通过预设网络平台采集预设时间段内产生的舆情数据,其中,所述舆情数据包括多个文本;

在本实施例中,在获取舆情事件集合时,首先通过舆情风险预警系统对接多个预设网络平台,以从多个预设网络平台中采集大量的舆情数据。采集舆情数据的步骤可周期性进行,这样,每次采集时采集该周期对应的预设时间段内的舆情数据,例如,每天零点采集一次舆情数据,采集到的舆情数据为前一天内发布的舆情数据。舆情数据一般以文本的形式通过网络进行传播,因此,采集到的舆情数据可包括多个文本。

步骤s12,获取所述文本之间的相似度;

在本实施例中,在计算文本之间的相似度时,可通过余弦相似度、杰卡德(jaccard)距离等方式实现。

可选地,计算文本之间的加权jaccard距离,将加权jaccard距离作为文本之间的相似度,在加权jaccard距离越小时,文本之间的相似度越高。具体地,确定文本中的事件主体和事件内容,根据事件主体和事件内容的出现频次计算加权jaccard距离。例如,在文本d包括多个事件主体ε(d)与多个事件内容s(d)时,文本d可表示为f(d)=ε(d)∪s(d),在文本d'包括多个事件主体ε'(d)与多个事件内容s'(d)时,文本d'可表示为f(d')=ε(d')∪s(d'),此时,文本d与文本d'之间的加权jaccard距离δ(d,d')的表达式如下:

其中,weight(e)表示事件主体或事件内容e在文本中出现的频次。

在文本d和文本d'的相似度越低时,f(d)∩f(d')应当很小,甚至为空集,f(d)∩f(d')远小于f(d)∪f(d'),此时,加权jaccard距离δ(d,d')很大,δ(d,d')最大可以取值为1;在文本d和文本d'的相似度越高时,f(d)∩f(d')与f(d)∪f(d')越接近,使得加权jaccard距离δ(d,d')取值较小,δ(d,d')最小可取值为0。

可选地,在确定文本中的事件主体和事件内容时,可将从多个数据平台获取到大量的舆情数据对应的文本进行数据预处理,包括统一资源定位系统(url,uniformresourcelocator)去重、分词、无效信息剔除、文本去重中的至少一个。在进行url去重时,确定文本对应的url地址,并将相同url地址的文本作为相同的文本,因此,删除该重复文本中的任一个。分词是将连续的字序列按照一定的规范重新组合成词序列的过程,具体可通过基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法来实现。文本对应的文本内容中可能包括无意义的内容,无意义内容包括停用词、无意义的符号等,例如,无意义内容可以是“啊啊啊啊啊啊”,因此需要对无效信息进行剔除,得到包括主语、谓语、宾语的多个词汇的序列。在进行文本去重时,可通过simhash算法实现,simhash算法包括五个过程:分词、hash、加权、合并、降维。

可选地,在对文本进行数据预处理,得到包括主语、谓语、宾语的多个词汇的序列后,需要确定词汇序列中的事件主体和事件内容。在确定词汇序列中的事件主体时,可通过预设匹配规则实现,例如,预设匹配规则可包括多个预存事件主体,在词汇序列也包含该预存事件主体时,将该预存事件作为该词汇序列中的事件主体,在证券行业,事件主体一般为公司名称,例如,某有限责任公司、某股份有限公司等。此外,在生成预设匹配规则时,根据汉语语言模型(n-gram)确定多个预存事件主体中,共现性较大的关联预存事件主体,并将该关联预存事件主体作为同一事件主体,生成对应的预设匹配规则。

可选地,在确定词汇序列中的事件主体时,还可先对序列中的词汇进行词义消歧(wsd,wordsensedisambiguation),再对词义消歧后的词汇序列进行事件主体的匹配。在计算机语言学,词义消歧是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。与确定词汇序列中的事件主体的方式类似,同样可确定词汇序列中的事件内容,在此不再赘述。

可选地,文本一般包括标题和正文内容,标题为正文内容的浓缩总结。在对文本进行数据预处理时,优先对标题内容进行预处理,得到标题对应的词汇序列,若根据预设匹配规则无法确定标题对应的词汇序列中的事件主体和事件内容,则再对正文内容进行数据预处理,将正文内容对应的词汇序列中的事件主体作为该文本对应的事件主体,将正文内容对应的词汇序列中的事件内容作为该文本对应的事件内容,提高数据处理的效率。需要说明的是,若正文内容对应的词汇序列中的事件主体和事件主体仍无法确定,则认为该文本为无用数据,并丢弃该文本。

可选地,对于篇幅较长的正文内容,还可对正文内容进行截断处理,将正文内容分为多个部分,由于文本的主要内容一般集中在正文内容的开头部分,因此可优先根据正文内容的开头部分进行数据预处理,并将开头部分对应的事件主体和事件内容作为文本对应的事件主体和事件内容。

步骤s13,根据所述相似度确定多个所述文本之间的内聚性数值;

步骤s14,根据所述内聚性数值确定多个文本集合,其中,所述文本集合包括多个所述文本;

步骤s15,将所述文本集合作为所述舆情事件;

步骤s16,根据多个所述舆情事件组成所述舆情事件集合。

在本实施例中,在根据相似度确定多个文本之间的内聚性数值时,相似度可代表不同文本之间的相对距离,此时,可以用一个点代表一个文本,进而将多个文本转化为平面上处于不同位置的多个点,且点与点之间的距离固定。因此,可通过内聚性数值的计算公式计算多个点的内聚性数值,内聚性数值用于表示多个点之间的关联程度,在内聚性数值越大时,多个点之间的关联程度越高,该多个点对应的文本越相似。例如,在文本之间的距离为加权jaccard距离δ(d,d')时,多个文本组成的集合c的内聚性数值φ的表达式如下:

其中,|c|代表集合c所包含的文本数量,δ(d,d')为集合c中两个不同文本d与d'的加权jaccard距离,表达式中的分母表示集合c所有文本的距离之和。

将舆情数据中的所有文本随机划分到不同的集合中,并计算不同划分方式得到的集合的内聚性数值,在使得所有集合的内聚性数值之和最大时,则将舆情数据中的所有集合均作为文本合集,从而得到多个文本合集,并且每一文本合集中均包括多个文本。在得到多个文本合集后,将单个文本合集作为单个舆情事件,根据舆情数据生成的所有舆情事件的集合为舆情事件集合。

可选地,在根据内聚性数值确定多个文本集合之后,还可对文本合集进行修正,以避免文本合集中的异常文本对文本合集的划分的影响。具体地,由于文本合集中的文本可转化为平面上相对位置固定的点,因此,可根据文本合集中的所有文本对应的点生成一个最小面积的圆,使得文本合集中的所有文本对应的点均处于圆内,且圆的面积尽可能小。可以理解的是,该圆的大小是固定的,因此可确定出圆的圆心和半径,圆的半径即为文本合集的半径,圆的圆心即为文本合集的质心,以文本合集c包括文本d和d'为例,文本集合的质心γc的表达式为:

文本合集的半径ρ的表达式为:

获取文本合集包含的文本数量k,根据文本数量k和文本合集的半径ρ获取文本合集的密度ψ,密度ψ的表达式为:

对应的文本合集的大小s的表达式为:

其中,ρk表示文本数量为k的文本合集的半径。

获取文本合集的大小s对应的阈值,通过增加或删除文本合集中的文本,使得修正后的文本合集的大小s大于阈值,同时修正后的文本合集的密度ψ尽可能大。一般来说,在增加文本合集中的文本时,文本合集的大小s会增大,在删除文本合集中的文本时,文本合集的大小s会减小。因此,首先,判断文本合集的大小s是否大于阈值,若小于阈值,则增加文本合集中的文本,以使文本合集的大小s大于阈值,若文本合集的大小s大于阈值,则在保证文本合集的大小s始终大于阈值的前提下,根据文本合集的密度增加或删除文本合集中的文本,以确定密度最大时的文本合集,即修正后的文本合集,并将修正后的文本合集作为舆情事件,避免异常文本使得文本合集的划分不合理。

在本实施例公开的技术方案中,通过预设网络平台采集预设时间段内产生的舆情数据,将舆情数据划分为多个舆情事件,多个舆情事件形成舆情事件合集,实现了从大量舆情数据中提取舆情事件的目的。

在再一实施例中,如图4所示,在图2至图3任一实施例所示的基础上,步骤s20包括:

步骤s21,确定所述舆情事件集合中舆情事件所包含的文本集合对应的质心;

步骤s22,根据所述质心之间的距离确定所述舆情事件集合中的关联舆情事件。

在本实施例中,与图3所示实施例中的文本集合的质心γc的表达式类似,舆情事件集合中舆情事件所包含的文本集合对应的质心的表达式如下:

其中,文本d和d'为舆情事件所包含的文本集合中的文本,δ(d,d')为文本d和d'之间的加权jaccard距离。

如图6所示,图6为舆情事件脉络的示意图,图6中的每一圆圈的范围均为一个舆情事件,所有舆情事件组成舆情事件合集,每一圆圈中的点为该舆情事件包含的文本,圆圈的圆心为舆情事件对应的质心。由于文本合集中的文本可转化为平面上相对位置固定的点,因此,不同舆情事件的质心之间的距离也是相对固定的,因此可获取到不同舆情事件的质心之间的距离,例如,舆情事件c的质心与舆情事件c'的质心之间的距离为δ(c,c')。

在根据质心之间的距离后,获取不同时间段对应的舆情事件,得到多个舆情事件,计算该多个舆情事件的时间特征数值,该时间特征数值表示该多个舆情事件的关联程度,根据该时间特征数值即可确定多个舆情事件集合中的关联舆情事件。例如,如图6所示,以一天为一个时间段,且今天为第t天,获取第i天对应的舆情事件ci,i≤t,因此,获取不同时间段对应的多个舆情事件的时间特征数值ηc(c)的表达式为:

其中,s(ci)为舆情事件ci的大小,s(ci)的具体表达式可参照图3所示实施例中文本合集的大小s的表达式,δ(ci,ci-1)为第i天对应的舆情事件ci的质心与第i-1天对应的舆情事件ci-1的质心之间的距离,α和β为预先设置的超参数,e为自然对数的底数,e属于无理数。δ(ci,ci-1)的大小衡量了舆情事件的存续情况,在δ(ci,ci-1)超过一定的阈值时,表示该日的舆情事件的质心与前一日的舆情事件的质心的距离过大,这两日的舆情事件的相关性较差,这也意味着随着时间变化,该舆情事件没能继续下去,或是逐渐失去热度,或是发生了主题偏移。在不同的时间段内,从每一时间段对应的多个舆情事件中随机采集一个舆情事件,得到一组舆情事件,计算采集到的多组舆情事件对应的多个时间特征数值,在使得所有组的舆情事件对应的时间特征数值之和最大时,则可将该组中的多个舆情事件作为关联舆情事件,图6中双向箭头指向的两个舆情事件即为关联舆情事件,多个关联事件组成舆情事件子集,舆情事件子集中的舆情事件为相似事件。

在本实施例公开的技术方案中,确定舆情事件集合中舆情事件所包含的文本集合对应的质心,通过质心之间的距离确定存在关联的舆情事件,实现了从大量舆情事件中找出舆情事件脉络的目的。

在又一实施例中,如图5所示,在图2至图4任一实施例所示的基础上,步骤s40包括:

步骤s41,根据所述历史互动数据生成所述传播主体对应的互动信息矩阵;

在本实施例中,在根据历史互动数据获取舆情事件子集的影响力数值时,首先根据历史互动数据生成舆情事件子集的传播主体对应的互动信息矩阵。互动信息矩阵m(t)的表达式如下:

m(t)=(μij(t))n*n,

其中,舆情事件子集包括n个传播主体,构成n*n的矩阵,i和j为舆情事件子集中的传播主体,i∈n,j∈n,μij(t)表示在时间段t内,主体j向主体i的互动比例,例如,在第t天中,主体j向主体i进行了25次互动(关注、评论、转发以及点赞等),若主体i在第t天中通过网络发布了40个文本,那么,此时主体j向主体i的互动比例μij(t)为25/40,即0.625。

步骤s42,按照预设函数对所述互动信息矩阵进行迭代处理,得到影响力数值矩阵;

在本实施例中,在获取到互动信息矩阵m(t)后,通过迭代算法构建影响力数值矩阵g(t)。g(t)的表达式如下:

g(t)=(gij(t))n*n,

其中,gij(t)为在时间段t内,主体i对于主体j的影响力数值。

在确定gij(t)时,可分三种情况进行计算:

1、在i≠j时,gij(t)表示不同传播主体之间的影响力数值,首先根据互动信息矩阵m(t)获取中间矩阵p,中间矩阵p的表达式如下:

p=(pij(tl))n*n=(i+λi-m(tl)t)-1

其中,pij(tl)表示在时间段l内,主体i对于主体j的中间影响力数值,i为虚数单位,m(tl)t表示在时间段l内的互动信息矩阵m(tl)的转置,λ为用于估计在网络罗传播中影响力数值递减的超参数。

gij(t)的表达式如下:

其中,pji(t)表示在时间段t内,主体j对于主体i的中间影响力数值,可由中间矩阵p得到,pii(t)表示在时间段t内,主体i的中间自信程度(self-influence),可由中间矩阵p得到,gii(t)表示在时间段t内,主体i的自信程度(self-influence),gii(t)的具体计算方式可参照第二种情况和第三种情况中的内容;

2、在i=j,且t=0时,即在初始时刻,并不存在互动信息矩阵,gij(t)的表达式为:

gij(t)=gii(0)=1,

其中,gii(0)表示在初始时刻传播主体i的自信程度(self-influence)为1。

3、在i≠j,且t>0时,其他网络主体k与该网络传播i进行互动,因此存在互动信息矩阵,传播主体i的自信程度gii(t)由信息传导矩阵m(t)和传播主体i与其他网络主体k的影响力数值得到,gii(t)的表达式如下:

其中,λ为用于估计在网络罗传播中影响力数值递减的超参数,μki(t)为在时间段t内,主体k向主体i的互动比例,gik(t-1)表示在时间段(t-1)内,主体i对于主体k的影响力数值。通过时间段t与时间段(t-1)的迭代,实现计算舆情事件子集的传播主体的影响力数值,进而构建影响力数值矩阵。

步骤s43,根据所述影响力数值矩阵获取所述影响力数值。

在本实施例中,在获取到影响力数值矩阵g(t)后,根据影响力数值矩阵g(t)计算舆情事件子集的影响力数值。具体地,获取舆情事件子集的事件特征,事件特征包括舆情事件子集包含的舆情事件数量,舆情事件数量可以是舆情事件子集包含的文本数量。通过影响力数值矩阵中各个传播主体之间的影响力数值和事件特征计算该舆情事件子集在时间段t内的瞬间影响力sat,sat的表达式如下:

其中,di(t)为传播主体i在时间段t内发布的文本数量,即事件特征;gij(t)表示在时间段t内主体i对于主体j的影响力数值。可以看出,瞬时影响力由传播主体本身的影响力和舆情事件子集的事件特征共同决定。

如图7所示,引入基于伽马(gamma)分布的跳跃扩散过程的函数η(t),以模拟影响力数值在网络传播中随时间的变化,函数η(t)的表达式如下:

其中,e为自然对数的底数,κ和τ为跳跃过程中预设的超参数,κ一般取值为1.5,τ一般取值为42.24。

如图8所示,根据函数η(t)计算影响力数值的传播以及消散过程的函数h(t),函数h(t)的表达式如下:

计算舆情事件子集对应的发布时间的时间跨度w,即舆情事件子集中文本发布的最早时间段tl与最晚时间段tf之间的差值,w=tf-tl。

根据瞬间影响力sat、时间跨度w,再基于函数h(t)或函数η(t),计算出舆情事件子集的影响力数值pcdsatf,w,pcdsatf,w的表达式如下:

该影响力数值表示在tf时刻,在过去w长度的时间跨度内,与舆情事件子集对应的事件累积产生的影响力数值。该影响力数值包括瞬时影响力sat,以及该瞬时影响力在传播网络中传导和扩散时产生的累积影响力。

在本实施例公开的技术方案中,根据历史互动数据生传播主体对应的互动信息矩阵,再通过迭代处理,得到影响力数值矩阵,以确定舆情事件子集的影响力数值,实现了对舆情的风险进行自动预估的目的,提高了舆情风险预警的效率。

此外,本发明实施例还提出一种舆情风险预警装置,所述舆情风险预警装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的舆情风险预警程序,所述舆情风险预警程序被所述处理器执行时实现如上各个实施例所述的舆情风险预警方法的步骤。

此外,本发明实施例还提出一种计算机存储介质,所述计算机存储介质上存储有舆情风险预警程序,所述舆情风险预警程序被处理器执行时实现如上各个实施例所述的舆情风险预警方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1