企业舆情监测方法、装置、计算机设备和存储介质与流程

文档序号:17131200发布日期:2019-03-16 01:15阅读:154来源:国知局
企业舆情监测方法、装置、计算机设备和存储介质与流程
本申请涉及计算机
技术领域
,特别是涉及一种企业舆情监测方法、装置、计算机设备和存储介质。
背景技术
:舆情是指在出现特定事件时,民众所持的社会态度。近年来,随着互联网技术的发展,网络资源处于高度的共享之中,因此,网络中出现的舆情,传播范围之广,受众面积之大,往往对企业的经营状况造成影响。如何有效的监测企业在网络中的舆情,是人们研究的重点,舆情一般分为积极舆情、消极舆情和中性舆情,不同的舆情可以直接或间接反映企业的经营状况,在对网络中舆情进行分类时,主要通过人为对文本中情感词进行分析,从而确定该文本是何种舆情。然而网络中舆情文本数量之大,若全面对企业舆情进行监测,则需要耗费大量的人力物力,使得对企业舆情监测效率低下。技术实现要素:基于此,有必要针对上述技术问题,提供一种能够解决全面监测企业舆情时效率低下的企业舆情监测方法、装置、计算机设备和存储介质。一种企业舆情监测方法,所述方法包括:获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句的第一舆情特征,根据舆情文本中舆情语句的第一舆情特征,得到所述舆情文本的第二舆情特征;通过所述舆情文本的第二舆情特征,对待监测企业进行舆情监测。在其中一个实施例中,还包括:设置每一舆情文本对应一监测点,获取当前监测点的舆情特征,根据所述舆情特征,得到当前监测点的舆情评分,获取历史监测点的舆情评分,根据历史监测点的舆情评分和当前监测点的舆情评分,生成舆情评分曲线,根据所述舆情评分曲线对待监测企业进行舆情监测。在其中一个实施例中,还包括:根据历史监测点的舆情评分,得到各历史监测点的舆情得分;获取前一监测点的舆情得分,根据前一监测点的舆情得分和当前监测点的舆情评分求和,得到当前监测点的舆情得分;根据当前监测点的舆情得分和历史监测点的舆情得分,生成舆情评分曲线。在其中一个实施例中,还包括:获取各个所述监测点的时间标签;将当前监测点的舆情特征与前一监测点的舆情特征进行对比,若二者一致,则根据当前监测点的时间标签和前一监测点的时间标签,得到当前监测点的时间系数;根据当前监测点的舆情评分乘以所述时间系数后与前一监测点的舆情得分求和,得到当前监测点的舆情得分。在其中一个实施例中,还包括:获取预先设置的所述舆情特征对应的舆情词库,所述舆情词库包括积极词库,消极词库以及中性词库;根据所述舆情词库对所述舆情语句进行匹配,得到所述舆情语句中积极词、消极词或者中性词的频率;根据所述频率与积极词、消极词或者中性词的预设评分的乘积得到所述舆情语句的评分;根据所述舆情文本中舆情语句的评分求均值得到当前监测点的舆情评分。在其中一个实施例中,还包括:根据所述舆情语句在所述舆情文本中的位置,给各个舆情语句设置权值;将所述舆情文本中各舆情语句的评分乘以所述权值后求均值,得到当前监测点的舆情评分。在其中一个实施例中,还包括:获取所述舆情语句对应于同一词向量模型的词向量组;所述词向量组是多个所述词向量的集合;根据所述词向量组中词向量的均值,得到所述舆情语句对应于舆情分类的特征向量。一种企业舆情监测装置,所述装置包括:特征提取模块,用于获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;向量构建模块,用于根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;舆情预测模块,用于将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到所述舆情文本对应的第二舆情特征;监测模块,用于通过所述舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到所述舆情文本对应的第二舆情特征;通过所述舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到所述舆情文本对应的第二舆情特征;通过所述舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。上述企业舆情监测方法、装置、计算机设备和存储介质,通过获取包含待监测企业实体的舆情文本,然后对舆情文本进行分句处理得到舆情语句,获取舆情语句中的特征词,以此完成舆情文本中特征词的提取。根据预先设置各个舆情分类对应的词向量模型,得到特征词的词向量,根据舆情语句中特征词的词向量,得到舆情语句对应各个舆情分类的特征向量,完成特征向量的构建;将特征向量分别输入预先设置的预测模型中,得到舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为舆情语句对应的第一舆情特征,根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征;通过舆情文本的第二舆情特征,对待监测企业进行舆情监测。本发明实施例,通过对舆情文本进行分句处理,将单个舆情语句作为分类的对象,通过预测模型对舆情语句进行分类,然后根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征,从而对企业舆情特征进行监测,上述过程无需人工干涉,分析与计算过程快速准确,在对企业进行全面舆情监测时,可以提高舆情监测的效率。附图说明图1为一个实施例中企业舆情监测方法的应用场景图;图2为一个实施例中企业舆情监测方法的流程示意图;图3为一个实施例中舆情监测步骤的流程示意图;图4为一实施例中舆情监测曲线的示意图;图5为一个实施例中得到监测点的舆情评分步骤的流程示意图;图6为一个实施例中企业舆情监测装置的结构框图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的企业舆情监测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体的,终端102可以通过互联网访问服务器104,服务器中存储了包含了待监测企业实体的舆情文本,终端102通过服务器104可以获取服务器中的舆情文本,同时,终端102也可以处于等待状态,服务器104通过互联网将包含待监测企业实体的舆情文本发送给终端102。终端102接收舆情文本后,需要对舆情文本依次进行分句、分词处理,从而根据终端内设置的词向量模型构建每个舆情语句的特征向量。以此根据特征向量对舆情语句的舆情进行分类,从而确定整个舆情文本的第二舆情特征,以此对待监测企业进行舆情监测。在一个实施例中,如图2所示,提供了一种企业舆情监测方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:步骤202,获取包含待监测企业实体的舆情文本。企业实体指的是企业名称的文本表达形式,例如,华为公司是华为技术有限公司的一种文本表达形式,同样可以表示华为技术有限公司的还可以是:huaweitechnologiesco.ltd等。因此,对应的舆情文本可以是:华为回应被澳大利亚禁止参与该国5g建设:极度失望。舆情文本用于描述新闻事件,因此根据新闻事件,可以判断该新闻事件对企业的影响,从而根据舆情文本,可以分析该新闻事件是否对企业有利。步骤204,对舆情文本进行分句处理得到舆情语句。舆情文本包含的信息量大,从文本结构上,一般分为多个信息层次,因此,需要对舆情文本进行分句处理,以完成每个信息层次的信息提取。对舆情文本进行分句处理,即将文本进行解构。通常而言,可以根据文中标点符号作为分句的依据,完成分句处理。步骤206,获取舆情语句中的特征词。特征词是指能体现舆情语句中信息的词语,特征词可以从舆情语句中提取。具体的,可以通过分词处理,然后进行筛选获取舆情语句中的特征词,例如舆情语句是:华为回应被澳大利亚禁止参与该国5g建设:极度失望,分词处理后,得到的特征词可以是:禁止、参与、5g建设、失望。步骤208,根据预先设置各个舆情分类对应的词向量模型,得到特征词的词向量。舆情分类是指对舆情文本的情感分类,舆情分类可以是消极舆论、积极舆论、中性舆论等,针对每个舆情分类,均设置了词向量模型。具体的,词向量模型可以通过标注舆情语句进行训练得到,通过提取每一条标注语句中的特征词,然后统计每个舆情分类的关键词的词频,可以根据词频的顺序,建立词向量模型。另外,将特征词输入词向量模型,即匹配各个词向量模型的特征词,若匹配到特征词,且该特征词的词频排序为第五,则词向量为(0,0,0,0,1,0,0,0,0,0…..0)。步骤210,根据舆情语句中特征词的词向量,得到舆情语句对应各个舆情分类的特征向量。在得到特征词的词向量,可以得到舆情语句的特征向量,从而完成舆情语句到向量的转化,便于进行下一步模型的识别。具体的,可以采用求平均值的方法,得到舆情语句的特征向量,即对舆情语句中每个特征词的词向量计算平均值,以此得到舆情语句的特征向量。步骤212,将所特征向量分别输入预先设置的预测模型中,得到舆情语句对应各个舆情分类的概率。预测模型可以对特征向量进行分类,并且得到特征向量属于每个舆情分类的概率。在进行概率时,实质时预测舆情语句与词向量模型的相似性,由于词向量模型已采用特征词的词频进行排序,因此,训练预测模型时,只需要根据向量进行排序进行训练即可,而无需对语料进行其他标注再进行训练,从而提高分类效率。具体的,某一舆情分类对应的特征向量为(1,1,1,1,1,0..),则可以认为舆情与该舆情分类对应的词向量模型的相似度达到100%,特征向量(0,1,0,1,1,0..)对应的词向量模型的相似度为50%,特征向量(0,0,0,0,0,0..)对应的词向量模型的相似度为0%,因此通过训练预测模型,可以输出各个舆情分类对应特征向量的概率,从而得到舆情语句对应各个舆情分类的概率。步骤214,选择概率最大的舆情分类作为舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到舆情文本对应的第二舆情特征。通过对舆情语句对应各个舆情分类的概率从大到小进行排序,选择概率最大的舆情分类作为舆情语句的第一舆情特征,以同样的方式获取舆情文本中所有舆情语句中的舆情特征,从而融合得到舆情文本的第二舆情特征。具体的,通过统计舆情文本中属于各个舆情分类的舆情语句的频次,得到频次最高的舆情分类,从而确定舆情文本的第二舆情特征。步骤216,通过舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。舆情监测可以采取可视化监测、数据监测等方式。可视化监测可以根据舆情特征的走势,将舆情特征的走势反映在显示界面上,从而对舆情进行监测。数据监测可以是通过统计舆情特征的数据,通过设置预警值、告警值、报警值等,对企业的舆情进行监测。上述企业舆情监测方法中,通过获取包含待监测企业实体的舆情文本,然后对舆情文本进行分句处理得到舆情语句,获取舆情语句中的特征词,以此完成舆情文本中特征词的提取。根据预先设置各个舆情分类对应的词向量模型,得到特征词的词向量,根据舆情语句中特征词的词向量,得到舆情语句对应各个舆情分类的特征向量,完成特征向量的构建;将特征向量分别输入预先设置的预测模型中,得到舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为舆情语句的第一舆情特征,根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征;通过舆情文本的第二舆情特征,对待监测企业进行舆情监测。本发明实施例,通过对舆情文本进行分句处理,将单个舆情语句作为分类的对象,通过预测模型对舆情语句进行分类,然后根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征,从而对企业舆情特征进行监测,上述过程无需人工干涉,分析与计算过程快速准确,在对企业进行全面舆情监测时,可以提高舆情监测的效率。在一实施例中,如图3所示,提供一种舆情监测步骤的示意性流程图,具体步骤如下:步骤302,设置每一舆情文本对应一监测点。在对企业的舆情进行监测时,需要持续不断的获取企业相关的舆情文本,因此,获取到一条舆情文本时,可以记录为一个监测点,以便后续监测使用。步骤304,获取当前监测点对应的第三舆情特征,根据第三舆情特征,得到当前监测点的舆情评分。可以预先建立第三舆情特征与舆情评分的对应关系,即对当前监测点的舆情文本进行分析,得到当前监测点的舆情评分。步骤306,获取历史监测点的舆情评分,根据历史监测点的舆情评分和当前监测点的舆情评分,生成舆情评分曲线,根据所述舆情评分曲线对待监测企业进行舆情监测。通过持续的获取各个监测点的舆情评分,可以采用实时舆情评分曲线生成舆情评分曲线,从而根据舆情评分曲线对企业进行舆情监测。本发明实施例,将舆情文本转化为监测点,然后针对每一个监测点,分析监测点的舆情文本,便于后续的监测分析。在一实施例中,可以根据历史监测点的舆情评分,得到各历史监测点的舆情得分,获取前一监测点的舆情得分,根据前一监测点的舆情得分和当前监测点的舆情评分求和,得到当前监测点的舆情得分;根据当前监测点的舆情得分和历史监测点的舆情得分,生成舆情评分曲线。具体的,得到各历史监测点的舆情得分,可以是:采用累加的方式,即,当前监测点的舆情得分,为前一监测点的舆情得分与当前监测点的舆情得分的和,以此得到所有历史监测点的舆情得分,根据各个监测点的舆情得分,生成舆情评分曲线。本实施例中,由于舆情基本呈现爆发式增长,因此,通过累加的方式,可以体现舆情的累加效应,从而可以真实的体现企业舆情的发展情况,提到企业舆情监测的准确性。在一实施例中,还可以获取各个监测点的时间标签,将当前监测点的第三舆情特征与前一监测点的第三舆情特征进行对比,若二者一致,则根据当前监测点的时间标签和前一监测点的时间标签,得到当前监测点的时间系数,根据当前监测点的舆情评分乘以时间系数后与前一监测点的舆情得分求和,得到当前监测点的舆情得分。本发明实施例,可以在通过爬虫脚本获取的舆情文本时,提高企业舆情监测的准确性。爬虫脚本的特点是可以获取大量的数据,而且,网络中针对同一新闻事件,舆情文本呈大规模的增长,因此,需要抑制此方面的影响,即通过时间系数,降低企业舆情得分的持续降低,以真实监测企业舆论。另外,由于本实施例在获取舆情文本时,是按照一定采样频率执行的,因此,时间标签为当前采样的次数,例如第140次采样的时间标签为t140,具体的,各个监测点的舆情得分如表1所示,每个监测点设置为单位时间,单位时间可以自行设置。监测点12345舆情评分323-31表1根据表1中的信息,生成的舆情监测曲线见图4。在一实施例中,如图5所示,提供一种得到监测点的舆情评分步骤的示意性流程图,具体步骤如下:步骤502,获取预先设置的第三舆情特征对应的舆情词库。舆情词库包括:积极词库,消极词库以及中性词库。舆情词库中的词是预先设置的,可以根据知网的词典,获取企业所在行业的舆情词库。具体的,基于上述基于知网词典的舆情词库,可以对其进行人为增强,具体,删除积极词库中的:要、用、开通、需、向、应、欲、通、深、对、会、长、常、上、经济、主要、红、幽、灵、颖、硬、不变、是、明显、约、刚、刚刚、到、事实上、基、基部、基础、基础性、固、固定、可乐、谨、主导、自行等,同时增加了:坚挺、新高、利好、放宽、提升、看好、优于、高于、扭转、买超、强劲、反弹、增、缓解、微升、划算、升高、进展、上升、落实、涨、回升、高开、上涨等。对于消极词库,删除消极词库中的:大、怊、悭、悱、愦、胜、偏等,增加了:倒退、下试、不利因素、紧缩、劝退、乏力、齐挫、贸易矛盾、矛盾、拖累、回落、负债、跌、跳水、鸡肋、沙尘暴、阴霾、钱荒、压力、贬值、利淡、下降、造淡、极端、欠佳、走低、急跌、重挫、周跌、月跌、连跌、背驰、缩减、妨碍、强拆、批评、故障、致歉、减速、减弱、恶化、下滑、严重、急转直下、灰飞烟灭、偏软、丑闻、贪污、倒退、急挫、挫、低见、跌、冲击、大跌、涉嫌、亏损、下跌、纪律处分、处分、赤字、缩水、打击、开门黑、降低、追讨、违法、警告、阴影、变数、不佳、落幕、违法行为、违约金、欺诈、隐患、暴跌、跌穿、受压、连累等。对于中性词库,由于中性舆情的评分可以设置为0,所以可以不对中性词库进行处理。步骤504,根据舆情词库对舆情语句进行匹配,得到舆情语句中积极词、消极词或者中性词的频率。进行匹配指的是进行全匹配,即舆情语句中包括一个舆情词库中的词,则记一次词频,通过总共匹配到舆情词库中的词,得到舆情语句中舆情词库中的词在另一实施例中,为了使评分更加丰富,可以检测舆情文本中的程度词,通过程度词,进一步舆情评分的细则,具体的,程度词可以包括:百分之百、非常、重大、大幅、半点、小幅。在舆情文本中检测到舆情词库中的词时,检测是否存在其限定的特征词,若有,则根据程度词,为其进行加权,例如,舆情文本中匹配到积极词库中的“利好”,记作一次积极词词频,检测到其限定词“非常”后,为其加权,可以设置“非常利好”为两次积极词词频,即匹配到程度词,可以适应性的改变频率,以展示舆情语句的实际舆情,从而提高舆情监测的准确性。步骤506,根据频率与积极词、消极词或者中性词的预设评分的乘积得到舆情语句的评分。在一实施例中,分别匹配到舆情语句匹配舆情词库,得到积极词、消极词以及中性词的频率分别为3、0、2,可以确定该舆情语句为积极舆情语句,积极词的预设评分为1,则该舆情语句的舆情评分为3。步骤508,根据舆情文本中舆情语句的评分求均值得到当前监测点的舆情评分。监测点的舆情评分,需要考虑到整个舆情文本,因此,可以根据各个舆情语句的评分,求均值得到监测点的舆情评分。在另一实施例中,还需要对舆情文本进行分区,其中,每个分区包括多个舆情语句。从而根据分区在舆情文本中的位置,给分区中的舆情语句设置权值。在计算监测点的舆情评分时,根据各个分区中舆情语句的评分乘以权值后,求均值,得到监测点的舆情评分。具体的,可以设置舆情文本中第一个分区的权值为1.1-1.3,若第一个分区中的舆情语句的评分为4,则在计算监测点的舆情评分时,其实际评分为4.4-5.2之间。设置最后一个分区的权值为1.4-1.5,其他分区的权值设置为1。通过为各个分区设置不同的权值,可以体现舆情文本中舆情语句位置对舆情的重要性,从而提高舆情监测的准确性。在一实施例中,可以预先训练词向量模型,训练词向量模型包括:积极词向量模型、消极词向量模型以及中性词向量模型,因此可以根据大量标注语句,分别建立积极词向量模型、消极词向量模型以及中性词向量模型。将舆情语句中每个特征词依次输入词向量模型,得到每个特征词的词向量,针对同一词向量模型,可以建立词向量组,因此,对于一舆情语句,可以建立三个次向量组。针对每个词向量组,可以求词向量组中词向量的均值,得到舆情语句对于各个舆情分类的特征向量。在一实施例中,可以将上述实施例中的企业舆情监测方法,运用在企业股价监测中。由于企业股价受社会舆论的影响,通过实时监测企业股价的走势与企业舆情走势,拟合两个曲线之间的联系,联系包括上升点、下降点以及平缓点,其中,上升点指的是曲线中由于曲线持续下降时产生上升趋势的点,下降点指的曲线持续上升时产生下降趋势的点,平缓点指的是上升率或者下降率保持在一定范围内的点。通过建立上述点的联系,可以建立两个曲线之间的联系,从而在监测企业舆情曲线时,可以有效的预测企业股价。应该理解的是,虽然图2、3和5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3和5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图6所示,提供了一种企业舆情监测装置,包括:特征提取模块602、向量构建模块604、舆情预测模块606和监测模块608,其中:特征提取模块602,用于获取包含待监测企业实体的舆情文本,对舆情文本进行分句处理得到舆情语句,获取舆情语句中的特征词。向量构建模块604,用于根据预先设置各个舆情分类对应的词向量模型,得到特征词的词向量,根据舆情语句中特征词的词向量,得到舆情语句对应各个舆情分类的特征向量。舆情预测模块606,用于将特征向量分别输入预先设置的预测模型中,得到舆情语句对应各个舆情分类的概率,选择概率最大的舆情分类作为舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到舆情文本对应的第二舆情特征。监测模块608,用于通过舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。上述企业舆情监测装置中,通过特征提取模块602用于获取包含待监测企业实体的舆情文本,然后对舆情文本进行分句处理得到舆情语句,获取舆情语句中的特征词,以此完成舆情文本中特征词的提取。向量构建模块604用于根据预先设置各个舆情分类对应的词向量模型,得到特征词的词向量,根据舆情语句中特征词的词向量,得到舆情语句对应各个舆情分类的特征向量,完成特征向量的构建;舆情预测模块606用于将特征向量分别输入预先设置的预测模型中,得到舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为舆情语句的第一舆情特征,根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征;监测模块608用于通过舆情文本的第二舆情特征,对待监测企业进行舆情监测。本发明实施例,通过对舆情文本进行分句处理,将单个舆情语句作为分类的对象,通过预测模型对舆情语句进行分类,然后根据舆情文本中舆情语句的第一舆情特征,得到舆情文本的第二舆情特征,从而对企业舆情特征进行监测,上述过程无需人工干涉,分析与计算过程快速准确,在对企业进行全面舆情监测时,可以提高舆情监测的效率。在其中一个实施例中,监测模块608还用于设置每一舆情文本对应一监测点;获取当前监测点的第三舆情特征,根据第三舆情特征,得到当前监测点的舆情评分;获取历史监测点的舆情评分,根据历史监测点的舆情评分和当前监测点的舆情评分,生成舆情评分曲线,根据所述舆情评分曲线对待监测企业进行舆情监测。在其中一个实施例中,监测模块608还用于根据历史监测点的舆情评分,得到各历史监测点的舆情得分;获取前一监测点的舆情得分,根据前一监测点的舆情得分和当前监测点的舆情评分求和,得到当前监测点的舆情得分;根据当前监测点的舆情得分和历史监测点的舆情得分,生成舆情评分曲线。在其中一个实施例中,监测模块608还用于获取各个所述监测点的时间标签;将当前监测点的第三舆情特征与前一监测点的第三舆情特征进行对比,若二者一致,则根据当前监测点的时间标签和前一监测点的时间标签,得到当前监测点的时间系数;根据当前监测点的舆情评分乘以所述时间系数后与前一监测点的舆情得分求和,得到当前监测点的舆情得分。在其中一个实施例中,监测模块608还用于获取预先设置的第三舆情特征对应的舆情词库,所述舆情词库包括积极词库,消极词库以及中性词库;根据所述舆情词库对所述舆情语句进行匹配,得到所述舆情语句中积极词、消极词或者中性词的频率;根据所述频率与积极词、消极词或者中性词的预设评分的乘积得到所述舆情语句的评分;根据所述舆情文本中舆情语句的评分求均值得到当前监测点的舆情评分。在其中一个实施例中,权值设置模块,用于根据所述舆情语句在所述舆情文本中的位置,给各个舆情语句设置权值。监测模块608还用于将所述舆情文本中各舆情语句的评分乘以所述权值后求均值,得到当前监测点的舆情评分。在其中一个实施例中,向量构建模块604还用于获取所述舆情语句对应于同一词向量模型的词向量组;所述词向量组是多个所述词向量的集合;根据所述词向量组中词向量的均值,得到所述舆情语句对应于舆情分类的特征向量。关于企业舆情监测装置的具体限定可以参见上文中对于企业舆情监测方法的限定,在此不再赘述。上述企业舆情监测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储企业舆情监测方法中涉及到的舆情文本、舆情语句、特征词以及词向量等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业舆情监测方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到所述舆情文本对应的第二舆情特征;通过所述舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。在另一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个方法实施例中的步骤。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取包含待监测企业实体的舆情文本;对所述舆情文本进行分句处理得到舆情语句;获取所述舆情语句中的特征词;根据预先设置各个舆情分类对应的词向量模型,得到所述特征词的词向量;根据所述舆情语句中特征词的词向量,得到所述舆情语句对应各个舆情分类的特征向量;将所述特征向量分别输入预先设置的预测模型中,得到所述舆情语句对应各个舆情分类的概率;选择概率最大的舆情分类作为所述舆情语句对应的第一舆情特征,根据舆情文本中舆情语句对应的第一舆情特征,得到所述舆情文本对应的第二舆情特征;通过所述舆情文本对应的第二舆情特征,对待监测企业进行舆情监测。在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1