舆情处理方法、装置及计算机可读存储介质与流程

文档序号:19376228发布日期:2019-12-10 23:53阅读:163来源:国知局
舆情处理方法、装置及计算机可读存储介质与流程

本申请涉及舆情处理技术领域,具体而言,本申请涉及一种舆情处理方法、装置及计算机可读存储介质。



背景技术:

随着社交网络的发展和积累,舆情的产生以及传播已经融入人们的日常生活中,通常情况下,一个事件的发生会产生大量的舆情,如何对大量的舆情进行处理成为了关键性问题。

目前,针对大量的舆情的处理方式通常是先确定大量的舆情中词频升高的词语,再基于词频升高的词语获取候选短语,然后对候选短语进行聚类处理,从聚类处理后的候选短语中提取目标短语。上述处理方式至少存在两个缺陷,其一,可能针对一个事件存在多个词频升高的词语,针对各个词频升高的词语均需要提取一次目标短语,从而导致提取目标短语的流程较多,工作量较大;其二,提取出的目标短语反映的信息有限,无法反映出事件本身。

因此,有必要提供一种针对大量的舆情的处理方式。



技术实现要素:

本申请提供了一种舆情处理方法、装置及计算机可读存储介质,可以解决以上至少一种技术问题。

第一方面,提供了一种舆情处理方法,该方法包括:

基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,多个热点预定类型舆情为从预定类型舆情库中提取得到的;

基于预定类型舆情库确定各个第一关键词对应的第二词频;

基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果;

基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情。

在另一个可能的实现方式中,基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,包括:

基于多个热点预定类型舆情确定多个关键词,并确定各个关键词的词向量;

基于各个关键词的词向量对多个关键词进行分类,得到多个关键词类别;

确定各个关键词类别分别对应的第一关键词及各个第一关键词针对多个热点预定类型舆情的第一词频。

在另一个可能的实现方式中,基于多个热点预定类型舆情确定多个关键词,包括以下至少一项:

对多个热点预定类型舆情进行分词,基于分词结果确定多个关键词;

对多个热点预定类型舆情进行分词,并对分词结果进行组合,基于组合后的分词结果确定多个关键词。

在另一个可能的实现方式中,确定任一关键词类别对应的第一关键词及第一关键词针对多个热点预定类型舆情的第一词频,包括:

基于预定类型舆情库确定任一关键词类别中各个关键词对应的词频;

从各个关键词对应的词频中确定词频最大值对应的第一关键词;

针对多个热点预定类型舆情,将任一关键词类别对应的各个关键词替换为第一关键词,得到替换后的多个热点预定类型舆情;

基于替换后的多个热点预定类型舆情,确定第一关键词对应的第一词频。

在另一个可能的实现方式中,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,包括:

依据第一词频对多个第一关键词进行排序,将排序前预定个数的第一关键词作为第二关键词,并确定各个第二关键词分别对应的目标第一词频;

确定各个第二关键词针对预定类型舆情库中的目标第二词频;

计算预定个数的目标第一词频的第一词频平均值,以及预定个数的目标第二词频的第二词频平均值;

基于第一词频平均值、第二词频平均值、各个第一关键词的第一词频以及各个第一关键词的第二词频,分别确定各个第一关键词的得分结果。

在另一个可能的实现方式中,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,包括:

基于各个第一关键词的得分结果确定至少一个目标关键词,以及各个目标关键词对应的得分结果;

基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果;

基于各个热点预定类型舆情的得分结果确定至少一个目标预定类型舆情。

在另一个可能的实现方式中,基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果,包括:

确定各个热点预定类型舆情中存在的目标关键词对应的得分结果,以及各个热点预定类型舆情中存在的目标关键词对应的权重系数;

基于各个热点预定类型舆情中存在的目标关键词对应的得分结果、各个热点预定类型舆情中存在的目标关键词对应的权重系数,以及预设的各个热点预定类型舆情对应的调整项,计算各个热点预定类型舆情的得分结果。

在另一个可能的实现方式中,确定任一目标关键词对应的权重系数,包括以下至少一项:

根据任一目标关键词的互信息确定任一目标关键词的权重系数;

根据任一目标关键词的左右熵信息确定任一目标关键词的权重系数;

确定任一目标关键词对应的常见程度等级,并根据常见程度等级确定任一目标关键词对应的权重系数;

确定任一目标关键词对应的分词个数,并根据分词个数确定任一目标关键词对应的权重系数。

第二方面,提供了一种舆情处理装置,该装置包括:

第一确定模块,用于基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,多个热点预定类型舆情为从预定类型舆情库中提取得到的;

第二确定模块,用于基于预定类型舆情库确定各个第一关键词对应的第二词频;

第三确定模块,用于基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果;

第四确定模块,用于基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情。

在另一个可能的实现方式中,第一确定模块包括第一确定单元、分类单元以及第二确定单元,其中,

第一确定单元,用于基于多个热点预定类型舆情确定多个关键词,并确定各个关键词的词向量;

分类单元,用于基于各个关键词的词向量对多个关键词进行分类,得到多个关键词类别;

第二确定单元,用于确定各个关键词类别分别对应的第一关键词及各个第一关键词针对多个热点预定类型舆情的第一词频。

在另一个可能的实现方式中,第一确定单元包括第一处理子单元和第二处理子单元中的至少一项,其中,

第一处理子单元,用于对多个热点预定类型舆情进行分词,基于分词结果确定多个关键词;

第二处理子单元,用于对多个热点预定类型舆情进行分词,并对分词结果进行组合,基于组合后的分词结果确定多个关键词。

在另一个可能的实现方式中,第二确定单元包括第一确定子单元、第二确定子单元、替换子单元以及第三确定子单元,其中,

第一确定子单元,用于基于预定类型舆情库确定任一关键词类别中各个关键词对应的词频;

第二确定子单元,用于从各个关键词对应的词频中确定词频最大值对应的第一关键词;

替换子单元,用于针对多个热点预定类型舆情,将任一关键词类别对应的各个关键词替换为第一关键词,得到替换后的多个热点预定类型舆情;

第三确定子单元,用于基于替换后的多个热点预定类型舆情,确定第一关键词对应的第一词频。

在另一个可能的实现方式中,第三确定模块包括排序确定单元、第三确定单元、第一计算单元以及第四确定单元,其中,

排序确定单元,用于依据第一词频对多个第一关键词进行排序,将排序前预定个数的第一关键词作为第二关键词,并确定各个第二关键词分别对应的目标第一词频;

第三确定单元,用于确定各个第二关键词针对预定类型舆情库中的目标第二词频;

第一计算单元,用于计算预定个数的目标第一词频的第一词频平均值,以及预定个数的目标第二词频的第二词频平均值;

第四确定单元,用于基于第一词频平均值、第二词频平均值、各个第一关键词的第一词频以及各个第一关键词的第二词频,分别确定各个第一关键词的得分结果。

在另一个可能的实现方式中,第四确定模块包括第五确定单元、第二计算单元以及第六确定单元,其中,

第五确定单元,用于基于各个第一关键词的得分结果确定至少一个目标关键词,以及各个目标关键词对应的得分结果;

第二计算单元,用于基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果;

第六确定单元,用于基于各个热点预定类型舆情的得分结果确定至少一个目标预定类型舆情。

在另一个可能的实现方式中,第二计算单元包括第四确定子单元和计算子单元,其中,

第四确定子单元,用于确定各个热点预定类型舆情中存在的目标关键词对应的得分结果,以及各个热点预定类型舆情中存在的目标关键词对应的权重系数;

计算子单元,用于基于各个热点预定类型舆情中存在的目标关键词对应的得分结果、各个热点预定类型舆情中存在的目标关键词对应的权重系数,以及预设的各个热点预定类型舆情对应的调整项,计算各个热点预定类型舆情的得分结果。

在另一个可能的实现方式中,第四确定子单元,具体用于以下至少一项:

根据任一目标关键词的互信息确定任一目标关键词的权重系数;

根据任一目标关键词的左右熵信息确定任一目标关键词的权重系数;

确定任一目标关键词对应的常见程度等级,并根据常见程度等级确定任一目标关键词对应的权重系数;

确定任一目标关键词对应的分词个数,并根据分词个数确定任一目标关键词对应的权重系数。

第三方面,提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的舆情处理方法对应的操作。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所示的舆情处理方法。

本申请提供的技术方案带来的有益效果是:

本申请提供了一种舆情处理方法、装置及计算机可读存储介质,与现有技术相比,本申请通过基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的,基于预定类型舆情库确定各个第一关键词对应的第二词频,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,实现了针对预定类型事件的发生所产生的多个热点预定类型舆情,从中一次性地提取出至少一个目标预定类型舆情,减少提取目标舆情的繁琐过程步骤,提高了提取处理效率,且提取得到的目标预定类型舆情精确性较高,能够反映针对事件的更多信息,能够反映出事件本身,提高了提取准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种舆情处理方法的流程示意图;

图2为本申请实施例提供的一种显示页面示意图;

图3为本申请实施例提供的一种舆情处理装置的结构示意图;

图4为本申请实施例提供的一种电子设备的结构示意图;

图5为本申请提供的一种提取目标短语的流程示意图;

图6为本申请提供的终端设备与舆情处理系统的交互流程示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

目前,如图5所示,针对大量的舆情的处理方式是先进行热词提取,即先确定大量的舆情中词频升高的词语,如提取出热词“巴黎”,再基于词频升高的词语获取候选短语,如基于热词“巴黎”获取到7个候选短语(即候选词组),分别为:“巴黎球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”、“巴黎逆转巴萨”以及“巴黎时装周”,然后对候选短语进行聚类处理,从聚类处理后的候选短语中提取目标短语,如对7个候选短语中提取到的目标短语(即话题精筛)分别为“巴黎逆转巴萨”和“巴黎时装周”。但是,针对一个事件可能存在多个词频升高的词语,由于需要从一个事件产生的海量数据中筛选出词频升高的词语,且针对各个词频升高的词语均需要提取一次目标短语,从而导致提取目标短语的流程较多,工作量较大;另外,提取出的目标短语反映的信息有限,无法反映出事件本身,如目标短语为“出了bug”,该目标短语无法帮助运营商定位事件本身。

本申请提供的舆情处理方法、装置及计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请实施例提供了一种舆情处理方法,如图1所示,该方法包括:

步骤s101,基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频。

其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的。

对于本申请实施例,利用舆情处理系统从网络上实时抓取舆情,并利用训练好的神经网络模型对抓取到的舆情进行分析分类,训练好的神经网络模型可以根据舆情的分析结果对舆情进行分类。

例如,舆情处理系统利用网络爬虫实时抓取舆情,并利用训练好的文本分类模型textcnn对抓取到的舆情进行分析分类,若舆情的分析结果为玩家反映游戏掉线问题的舆情,则将该舆情分入“掉线舆情库”。

对于本申请实施例,多个热点预定类型舆情为在预设时间段内分入预定类型舆情库中的舆情,且该预设时间段内分入预定类型舆情库中的舆情数量超过了预设数量阈值,如预设数量阈值为5,将最近3分钟内分入预定类型舆情库中的7个舆情作为7个热点预定类型舆情,又如,2019年9月8日12:00-2019年9月8日16:00这个时间段内分入预定类型舆情库中的10个舆情作为10个热点预定类型舆情。

对于本申请实施例,各个第一关键词针对多个热点预定类型舆情的第一词频,为多个热点预定类型舆情中含有各个第一关键词的舆情数量。如,针对第一关键词“巴黎”,“巴黎”针对多个热点预定类型舆情的第一词频为多个热点预定类型舆情中含有第一关键词“巴黎”的舆情数量,如1000个热点预定类型舆情中含有“巴黎”的舆情数量为320个,则“巴黎”的第一词频为320。

步骤s102,基于预定类型舆情库确定各个第一关键词对应的第二词频。

对于本申请实施例,各个第一关键词对应的第二词频为预定类型舆情库中含有各个第一关键词的舆情数量,如,针对第一关键词“巴黎”,“巴黎”对应的第二词频为预定类型舆情库中含有第一关键词“巴黎”的舆情数量,如,预定类型舆情库中有10000个舆情,其中,有1004个舆情中含有“巴黎”,则“巴黎”对应的第二词频为1004。

步骤s103,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果。

对于本申请实施例,任一关键词的得分结果均基于至少两个第一关键词对应的第一词频以及该至少两个第一关键词对应的第二词频计算得到的。例如,基于“巴黎”对应的第一词频以及第二词频、“球员”对应的第一词频以及第二词频,和“巴萨”对应的第一词频以及第二词频,计算得到“巴黎”的得分结果。

步骤s104,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情。

对于本申请实施例,确定出的至少一个目标预定类型舆情可以发送至预设终端设备,以便用户从至少一个目标预定类型舆情中了解发生的事件,如确定出至少一个目标预定类型舆情为“2月份即将在纽约举办巴黎时装周”,将“2月份即将在纽约举办巴黎时装周”通过即时通信的方式发送至预设终端设备。

本申请实施例提供了一种舆情处理方法,与现有技术相比,本申请实施例通过基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的,基于预定类型舆情库确定各个第一关键词对应的第二词频,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,实现了针对预定类型事件的发生所产生的多个热点预定类型舆情,从中一次性地提取出至少一个目标预定类型舆情,减少提取目标舆情的繁琐过程步骤,提高了提取处理效率,且提取得到的目标预定类型舆情精确性较高,能够反映针对事件的更多信息,能够反映出事件本身,提高了提取准确度。

本申请实施例的另一种可能实现方式,步骤s101具体可以包括:基于多个热点预定类型舆情确定多个关键词,并确定各个关键词的词向量;基于各个关键词的词向量对多个关键词进行分类,得到多个关键词类别;确定各个关键词类别分别对应的第一关键词及各个第一关键词针对多个热点预定类型舆情的第一词频。

对于本申请实施例,可以将各个关键词输入至训练好的神经网络模型,该训练好的神经网络模型可以计算并输出各个关键词的词向量,其中,相似词语的词向量距离比较接近。在本申请实施例中,训练好的神经网络模型可以为word2vec模型,也可以为fasttext模型,在本申请实施例中不做限定。

对于本申请实施例,可以根据任两个关键词对应的词向量,计算任两个关键词之间的相似度,若任两个关键词之间的相似度大于或者等于预设相似度阈值,则将任两个关键词分为一类;若任两个关键词之间的相似度小于预设相似度阈值,则将任两个关键词分为两类。

对于本申请实施例,针对任一关键词类别可以确定第一关键词及该第一关键词针对热点预定类型舆情的第一词频。如,针对由关键词“切分”、关键词“分开”、关键词“分解”以及关键词“分为”组成的关键词类别,可以确定第一关键词为分为”,并基于多个热点预定类型舆情,确定第一关键词“分为”对应的第一词频。

本申请实施例的另一种可能实现方式,基于多个热点预定类型舆情确定多个关键词,具体可以包括对多个热点预定类型舆情进行分词,基于分词结果确定多个关键词;以及对多个热点预定类型舆情进行分词,并对分词结果进行组合,基于组合后的分词结果确定多个关键词中的至少一项。

对于本申请实施例,可以针对任一热点预定类型舆情进行分词,基于分词结果确定多个关键词。其中,可以对分词结果进行筛选,基于筛选后的分词结果确定多个关键词。如:针对热点预定类型舆情“巴黎逆转巴萨”进行分词,分词结果为“巴黎”、“逆转”和“巴萨”,可以确定三个关键词分别为“巴黎”、“逆转”和“巴萨”,也可以对分词结果进行筛选,基于筛选后的分词结果确定关键词为两个,分别为“巴黎”和“巴萨”。

对于本申请实施例,可以针对任一热点预定类型舆情进行分词,对分词结果进行组合,计算组合后的分词结果的互信息以及左右熵信息中的至少一项,以确定多个关键词。例如,针对两个分词结果“巴黎”和“时装周”进行组合,得到组合后的分词结果“巴黎时装周”,计算“巴黎时装周”的互信息以及左右熵信息中的至少一项,以确定“巴黎时装周”是否可以作为一个关键词。其中,可以对分词结果进行筛选,对筛选后的分词结果进行组合,计算组合后的分词结果的互信息以及左右熵信息中的至少一项,以确定多个关键词。

其中,假设组合后的分词结果ab由分词结果a以及分词结果b组成,则,组合后的分词结果ab共同出现的概率越大,表明组合后的分词结果ab的内部聚合度越大,即组合后的分词结果ab的互信息值越大。具体地,按照如下公式计算组合后的分词结果ab的互信息值:

其中,mi(a,b)表示组合后的分词结果ab的互信息值,p(a,b)表示组合后的分词结果ab共同出现的概率,p(a)表示分词结果a出现的概率,p(b)表示分词结果b出现的概率。

组合后的分词结果ab的左右熵信息表示组合后的分词结果ab左右两边的信息丰富程度,信息丰富程度越高,则左右熵信息越大。

本申请实施例的另一种可能实现方式,确定任一关键词类别对应的第一关键词及第一关键词针对多个热点预定类型舆情的第一词频,具体可以包括:基于预定类型舆情库确定任一关键词类别中各个关键词对应的词频;从各个关键词对应的词频中确定词频最大值对应的第一关键词;针对多个热点预定类型舆情,将任一关键词类别对应的各个关键词替换第一关键词,得到替换后的多个热点预定类型舆情;基于替换后的多个热点预定类型舆情,确定第一关键词对应的第一词频。

例如,针对由关键词“切分”、关键词“分开”、关键词“分解”以及关键词“分为”组成的关键词类别,基于预定类型舆情库分别确定关键词“切分”、关键词“分开”、关键词“分解”以及关键词“分为”对应的词频,并从中确定词频最大值,将词频最大值对应的关键词确定为第一关键词,如将词频最大值对应的关键词“分为”确定为第一关键词。

对于本申请实施例,针对多个热点预定类型舆情,从各个热点预定类型舆情中确定存在的任一关键词类别中的各个关键词,将确定存在的任一关键词类别中的各个关键词替换为任一关键词类别对应的第一关键词,得到替换后的多个热点预定类型舆情。如,针对热点预定类型舆情“xx可以切分xxx1和xxx2,xxx1可以分解xxxx1和xxxx2”,确定该热点预定类型舆情中存在关键词类别中的“切分”和“分解”,将该热点预定类型舆情中的“切分”和“分解”替换为第一关键词“分为”,得到替换后的热点预定类型舆情“xx可以分为xxx1和xxx2,xxx1可以分为xxxx1和xxxx2”。

本申请实施例的另一种可能实现方式,步骤s103具体可以包括:依据第一词频对多个第一关键词进行排序,将排序前预定个数的第一关键词作为第二关键词,并确定各个第二关键词分别对应的目标第一词频;确定各个第二关键词针对预定类型舆情库中的目标第二词频;计算预定个数的目标第一词频的第一词频平均值,以及预定个数的目标第二词频的第二词频平均值;基于第一词频平均值、第二词频平均值、各个第一关键词的第一词频以及各个第一关键词的第二词频,分别确定各个第一关键词的得分结果。

对于本申请实施例,依据各个第一关键词的第一词频对多个第一关键词进行排序,将排序前预定个数的第一关键词作为第二关键词,如将排序前20个第一关键词作为第二关键词;将各个第一关键词的第一词频确定为各个第一关键词对应的第二关键词的目标第一词频,如,第一关键词“巴黎”的第一词频320确定为第二关键词“巴黎”的目标第一词频320;确定各个第一关键词对应的第二关键词针对预定类型舆情库中的目标第二词频,如将第一关键词“巴黎”的第二词频1004确定为第二关键词“巴黎”的目标第二词频1004;并计算预定个数的目标第一词频的第一词频平均值,以及预定个数的目标第二词频的第二词频平均值,如根据前20个第二关键词分别对应的目标第一词频计算第一词频平均值,以及根据该前20个第二关键词分别对应的目标第二词频计算第二词频平均值。

对于本申请实施例,按照如下公式计算各个第一关键词的得分结果:

其中,score(a)表示第一关键词a的得分结果,count(a)表示第一关键词a的第一词频,all_count(a)表示第一关键词a的第二词频,avg_count表示第一词频平均值,avg_all_count表示第二词频平均值。

本申请实施例的另一种可能实现方式,步骤s104具体可以包括:基于各个第一关键词的得分结果确定至少一个目标关键词,以及各个目标关键词对应的得分结果;基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果;基于各个热点预定类型舆情的得分结果确定至少一个目标预定类型舆情。

对于本申请实施例,可以根据各个第一关键词的得分结果对各个第一关键词进行排序,取排序后的前预设数量第一关键词作为目标关键词,如将前10个第一关键词作为目标关键词;将各个第一关键词对应的得分结果作为各个第一关键词对应的目标关键词的得分结果;基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果,如根据10个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果;根据各个热点预定类型舆情的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情。

对于本申请实施例,可以根据各个热点预定类型舆情的得分结果,对多个热点预定类型舆情进行排序,按照预设选取方式,从多个热点预定类型舆情中选取排序后的前至少一个目标预定类型舆情。其中,预设选取方式可以为选取排序后的前预定个数的热点预定类型舆情,也可以当确定任一热点预定类型舆情的得分结果大于或者等于预设得分阈值时,则确定该任一热点预定类型舆情为目标预定类型舆情。

本申请实施例的另一种可能实现方式,基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果,具体可以包括:确定各个热点预定类型舆情中存在的目标关键词对应的得分结果,以及各个热点预定类型舆情中存在的目标关键词对应的权重系数;基于各个热点预定类型舆情中存在的目标关键词对应的得分结果、各个热点预定类型舆情中存在的目标关键词对应的权重系数,以及预设的各个热点预定类型舆情对应的调整项,计算各个热点预定类型舆情的得分结果。

其中,预设的各个热点预定类型舆情对应的调整项可以包括以下至少一项:热点预定类型舆情中的字数对应的调整项;热点预定类型舆情中存在的目标关键词的个数对应的调整项;热点预定类型舆情的回帖数对应的调整项;热点预定类型舆情的点赞数对应的调整项。

例如,存在10个目标关键词,其中,热点预定类型舆情“巴黎逆转巴萨”中存在两个目标关键词“巴黎”以及“巴萨”,利用“巴黎”对应的得分结果和权重系数、“巴萨”对应的得分结果和权重系数、以及热点预定类型舆情“巴黎逆转巴萨”对应的调整项,计算热点预定类型舆情“巴黎逆转巴萨”的得分结果。

对于本申请实施例,可以按照如下公式计算各个热点预定类型舆情的得分结果:

其中,

其中,score(s)表示热点预定类型舆情s的得分结果,w(b)表示热点预定类型舆情s中存在的目标关键词b对应的权重系数,score(b)表示热点预定类型舆情s中存在的目标关键词b对应的得分结果,l表示热点预定类型舆情s中的字数,p表示字数l对应的调整项,m表示热点预定类型舆情s中存在的目标关键词的个数,z表示个数m对应的调整项。

本申请实施例的另一种可能实现方式,确定任一目标关键词对应的权重系数,具体可以包括以下至少一项:根据任一目标关键词的互信息确定任一目标关键词的权重系数;根据任一目标关键词的左右熵信息确定任一目标关键词的权重系数;确定任一目标关键词对应的常见程度等级,并根据常见程度等级确定任一目标关键词对应的权重系数;确定任一目标关键词对应的分词个数,并根据分词个数确定任一目标关键词对应的权重系数。

对于本申请实施例,可以按照如下方式调整目标关键词对应的权重系数:目标关键词的互信息值越大,该目标关键词对应的权重系数值越大;目标关键词的左右熵信息值越大,该目标关键词对应的权重系数值越大;目标关键词对应的常见程度等级越大,该目标关键词对应的权重系数值越大;目标关键词对应的分词个数越多,该目标关键词对应的权重系数值越大。在本申请实施例中,该权重系数的调整方式仅为示意性的,还可以包括其他的调整方式,在本申请实施例中不做限定。

对于本申请实施例,上述实施例可以由终端设备执行,也可以由服务器执行,也可以部分由终端设备执行,部分由服务器执行。在本申请实施例中不做限定。

上述实施例详细介绍了从多个热点预定类型舆情中确定至少一个目标预定类型舆情的舆情处理方法,下述结合具体的应用场景(即从七个热点异常舆情中提取一个目标异常舆情),介绍本申请的具体实现方式,具体如下所示:

若在预设时间段内分入异常舆情库中的舆情数量超过预设数量阈值,则从异常舆情库中提取在预设时间段内分入异常舆情库中的舆情,并将提取到的舆情作为热点异常舆情。

如,在最近15内分入异常舆情库中的舆情数量为7,超过预设数量阈值5,则提取这7个舆情。针对从异常舆情库中提取出的这7个热点异常舆情:“天地战场异常你们不管管吗天地战场异常你们不管管吗”、“十连抽异常什么高级忍者碎片都没有”、“出现异常的集合一下”、“一进天地战场就提示发生异常”、“我们组织为什么都出异常”、“天地战场bug能解决好了再推出吗魔方上周是赢了然后被人点战斗主页面还是擂台打都打不了这周是赢了自动返回页面擂台竟然不是我的自动换忍者第二场都还没打就算输了魔方用点心好吗一堆bug”以及“新bug新bug”。基于这7个热点异常舆情确定5个第一关键词分别为:“天地战场”、“提示”、“异常”、“bug”以及“忍者”,分别确定5个第一关键词针对7个热点异常舆情的第一词频,以及5个第一关键词针对异常舆情库的第二词频。基于至少两个第一关键词对应的第一词频以及第二词频,分别确定5个第一关键词的得分结果,并基于5个第一关键词的得分结果,从7个热点异常舆情中确定一个目标异常舆情:“一进天地战场就提示发生异常”。

上述介绍了从七个热点异常舆情中提取一个目标异常舆情的具体应用场景,下面从舆情处理系统与终端设备进行交互的角度介绍本申请的具体实现方式,具体如下所示:

如图6所示,舆情处理系统63可以利用网络爬虫实时从网络62中抓取舆情,并对抓取到的舆情进行分析,根据分析结果对舆情进行分类,得到预定类型舆情库631,若在预设时间段内分入预定类型舆情库631中的舆情数量超过预设数量阈值,则舆情处理设备632从预定类型舆情库631中提取在预设时间段内分入预定类型舆情库631中的舆情,并将提取到的舆情作为热点预定类型舆情。舆情处理设备632从多个热点预定类型舆情中提取至少一条目标预定类型舆情。

进一步地,舆情处理系统63可以通过网络62将提取到的目标预定类型舆情发送至预设终端设备61,预设终端设备61基于目标预定类型舆情生成显示页面并显示该显示页面;或者,舆情处理系统63可以基于目标预定类型舆情生成显示页面并将该显示页面通过网络62发送至预设终端设备61,预设终端设备61显示该显示页面。如图2所示,目标预定类型舆情为:“七日登录奖励提示该事件已过期”,根据目标预定类型舆情生成的显示页面为“游戏异常通知”页面,该页面包括:发生时间项“发生时间:08:47:00”、影响业务项“影响业务:nba2kol2”、影响情况项“最近15分钟共6条活动类异常舆情,超过动态阈值5,热点舆情:七日登录奖励提示该事件已过期”、可能原因项“可能原因:八爪鱼未发现网络、主机、数据库、gcloud和周边系统等相关异常告警,怀疑是程序问题或者玩家行为导致,请知晓”,以及预设控件“details”。进一步地,终端设备61获取用户60基于显示页面的操作生成反馈信息,并将反馈信息通过网络62发送至舆情处理系统63。

上述从方法步骤的角度具体阐述了舆情处理方法,下面从虚拟模块或者虚拟单元的角度介绍舆情处理装置,具体如下所示:

本申请实施例提供了一种舆情处理装置,如图3所示,该舆情处理装置30可以包括:第一确定模块301、第二确定模块302、第三确定模块303以及第四确定模块304,其中,

第一确定模块301,用于基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频。

其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的。

第二确定模块302,用于基于预定类型舆情库确定各个第一关键词对应的第二词频。

第三确定模块303,用于基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果。

第四确定模块304,用于基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情。

对于本申请实施例,第一确定模块301、第二确定模块302、第三确定模块303以及第四确定模块304可以为同一个确定模块,也可以其中任两个为同一个确定模块,也可以其中任三个为同一个确定模块,也可以为四个不同的确定模块,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第一确定模块301具体可以包括第一确定单元、分类单元以及第二确定单元,其中,

第一确定单元,用于基于多个热点预定类型舆情确定多个关键词,并确定各个关键词的词向量。

分类单元,用于基于各个关键词的词向量对多个关键词进行分类,得到多个关键词类别。

第二确定单元,用于确定各个关键词类别分别对应的第一关键词及各个第一关键词针对多个热点预定类型舆情的第一词频。

对于本申请实施例,第一确定单元和第二确定单元可以为同一个确定单元,也可以为两个不同的确定单元,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第一确定单元包括第一处理子单元和第二处理子单元中的至少一项,其中,

第一处理子单元,用于对多个热点预定类型舆情进行分词,基于分词结果确定多个关键词。

第二处理子单元,用于对多个热点预定类型舆情进行分词,并对分词结果进行组合,基于组合后的分词结果确定多个关键词。

对于本申请实施例,第一处理子单元和第二处理子单元可以为同一个处理子单元,也可以为两个不同的处理子单元,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第二确定单元包括第一确定子单元、第二确定子单元、替换子单元以及第三确定子单元,其中,

第一确定子单元,用于基于预定类型舆情库确定任一关键词类别中各个关键词对应的词频。

第二确定子单元,用于从各个关键词对应的词频中确定词频最大值对应的第一关键词。

替换子单元,用于针对多个热点预定类型舆情,将任一关键词类别对应的各个关键词替换为第一关键词,得到替换后的多个热点预定类型舆情。

第三确定子单元,用于基于替换后的多个热点预定类型舆情,确定第一关键词对应的第一词频。

对于本申请实施例,第一确定子单元、第二确定子单元以及第三确定子单元可以为同一个确定子单元,也可以其中任两个为同一个确定子单元,也可以为三个不同的确定子单元,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第三确定模块303包括排序确定单元、第三确定单元、第一计算单元以及第四确定单元,其中,

排序确定单元,用于依据第一词频对多个第一关键词进行排序,将排序前预定个数的第一关键词作为第二关键词,并确定各个第二关键词分别对应的目标第一词频。

第三确定单元,用于确定各个第二关键词针对预定类型舆情库中的目标第二词频。

第一计算单元,用于计算预定个数的目标第一词频的第一词频平均值,以及预定个数的目标第二词频的第二词频平均值。

第四确定单元,用于基于第一词频平均值、第二词频平均值、各个第一关键词的第一词频以及各个第一关键词的第二词频,分别确定各个第一关键词的得分结果。

对于本申请实施例,第三确定单元以及第四确定单元可以为同一个确定单元,也可以为两个不同的确定单元,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第四确定模块304包括第五确定单元、第二计算单元以及第六确定单元,其中,

第五确定单元,用于基于各个第一关键词的得分结果确定至少一个目标关键词,以及各个目标关键词对应的得分结果。

第二计算单元,用于基于至少一个目标关键词以及各个目标关键词对应的得分结果,计算各个热点预定类型舆情的得分结果。

第六确定单元,用于基于各个热点预定类型舆情的得分结果确定至少一个目标预定类型舆情。

对于本申请实施例,第五确定单元以及第六确定单元可以为同一个确定单元,也可以为两个不同的确定单元,在本申请实施例中不做限定。

本申请实施例的另一种可能实现方式,第二计算单元包括第四确定子单元和计算子单元,其中,

第四确定子单元,用于确定各个热点预定类型舆情中存在的目标关键词对应的得分结果,以及各个热点预定类型舆情中存在的目标关键词对应的权重系数。

计算子单元,用于基于各个热点预定类型舆情中存在的目标关键词对应的得分结果、各个热点预定类型舆情中存在的目标关键词对应的权重系数,以及预设的各个热点预定类型舆情对应的调整项,计算各个热点预定类型舆情的得分结果。

本申请实施例的另一种可能实现方式,第四确定子单元,具体用于以下至少一项:

根据任一目标关键词的互信息确定任一目标关键词的权重系数;根据任一目标关键词的左右熵信息确定任一目标关键词的权重系数;确定任一目标关键词对应的常见程度等级,并根据常见程度等级确定任一目标关键词对应的权重系数;确定任一目标关键词对应的分词个数,并根据分词个数确定任一目标关键词对应的权重系数。

本申请实施例中的舆情处理装置可以用于执行上述方法实施例中的舆情处理方法对应的操作,其实现原理类似,在本申请实施例中不再赘述。

本申请实施例提供了一种舆情处理装置,与现有技术相比,本申请实施例通过基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的,基于预定类型舆情库确定各个第一关键词对应的第二词频,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,实现了针对预定类型事件的发生所产生的多个热点预定类型舆情,从中一次性地提取出至少一个目标预定类型舆情,减少提取目标舆情的繁琐过程步骤,提高了提取处理效率,且提取得到的目标预定类型舆情精确性较高,能够反映针对事件的更多信息,能够反映出事件本身,提高了提取准确度。

上述从虚拟模块或者虚拟单元的角度介绍本申请的舆情处理装置,下面从实体装置的角度介绍本申请的电子设备。

本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci总线或eisa总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:本申请通过基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的,基于预定类型舆情库确定各个第一关键词对应的第二词频,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,实现了针对预定类型事件的发生所产生的多个热点预定类型舆情,从中一次性地提取出至少一个目标预定类型舆情,减少提取目标舆情的繁琐过程步骤,提高了提取处理效率,且提取得到的目标预定类型舆情精确性较高,能够反映针对事件的更多信息,能够反映出事件本身,提高了提取准确度。

上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请通过基于多个热点预定类型舆情确定多个第一关键词以及各个第一关键词针对多个热点预定类型舆情的第一词频,其中,多个热点预定类型舆情为从预定类型舆情库中提取得到的,基于预定类型舆情库确定各个第一关键词对应的第二词频,基于至少两个第一关键词对应的第一词频以及第二词频,确定各个第一关键词的得分结果,基于各个第一关键词的得分结果,从多个热点预定类型舆情中确定至少一个目标预定类型舆情,实现了针对预定类型事件的发生所产生的多个热点预定类型舆情,从中一次性地提取出至少一个目标预定类型舆情,减少提取目标舆情的繁琐过程步骤,提高了提取处理效率,且提取得到的目标预定类型舆情精确性较高,能够反映针对事件的更多信息,能够反映出事件本身,提高了提取准确度。

在一些实施例中,上述终端或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(p2p,peertopeer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1