智能化新闻主题情感分析方法、装置、设备及存储介质与流程

文档序号:31345586发布日期:2022-08-31 11:39阅读:61来源:国知局
智能化新闻主题情感分析方法、装置、设备及存储介质与流程

1.本发明涉及人工智能领域,涉及语义情感识别技术,尤其涉及一种智能化新闻主题情感分析方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着社会的不断进步和发展,社交媒体的出现大大的丰富的我们的生活,各类新闻层出不穷。
3.基于人工智能领域的发展,基于深度学习的情感分析已经运用到了舆情分析,产品分析等各个领域。相对与传统的机器学习算法如svg,深度学习尤其是预训练模型拥有更高的准确度与精确度,召回率。但不管是传统的机器学习算法还是现在的深度学习方案,都是对一段文本进行的文字分析,但是很多时候,不管是人还是模型,都很难把控该文章的情感。比如“某某企业在某年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。”对于该文本通常会将其标记成中性;但是中性对于商业之间的舆情分析意义较低,假设某公司想要分析自己公司的舆情,以及竞争对手的舆情,将无法快速的对自身企业或其他企业的新闻进行锁定。
4.因此,亟需一种基于主体识别模型实现的智能化新闻主题情感分析方法、装置、电子设备、计算机可读存储介质。


技术实现要素:

5.本发明提供一种智能化新闻主题情感分析方法,以解决标点添加不准确的问题。
6.为实现上述目的,本发明提供的一种智能化新闻主题情感分析方法,包括:
7.采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
8.将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型;其中,所述主体分析模型的训练过程包括:采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型;
9.通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
10.可选地,所述采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,包括:
11.对预采集的标注语料进行长度统计,对统计后的所述标注语料进行数据清洗以获取清洁语料,并采用预设的抽取标注方法对所述清洁语料进行标注以获取标注语料;将所
述标注语料按照比例划分为训练数据集和验证数据集;
12.将所述训练数据集输入预搭建的bert/xlnet+crf主体模型中,使所述bert/xlnet+crf主体模型对所述训练集进行自动主体抽取以获取训练新闻主体;
13.将所述验证集与所述训练新闻主体相对比以获取所述bert/xlnet+crf主体模型的准确率和召回率;
14.根据所述准确率和所述召回率对所述bert/xlnet+crf主体模型进行调整以进行持续、反复训练。
15.可选地,所述对统计后的所述标注语料进行数据清洗以获取清洁语料的步骤,包括:
16.对所述统计后的标注语料进行表情剔除,以去除链接、制表符、表情符和不成文字符编码,形成清洁文本;
17.将所述清洁文本全部转换为中文文字以获取清洁语料。
18.可选地,所述采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,包括:
19.预搭建bert架构,将所述bert架构中的bert输入长度限制在限制阈值以内,并对所述bert架构中的segmentembeddings主体的新闻参数和主体参数进行定义以形成bert主体模型;
20.将训练样本输入所述bert主体模型中形成特征向量;
21.将所述特征向量输入预设的self-attention部分作循环处理以形成编码向量;
22.对所述编码向量进行降维处理以形成预设数量个目标向量;
23.根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率;
24.根据所述准确率对所述bert主体模型进行反馈调整以对所述bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值。
25.可选地,所述根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率,包括:
26.按照预设的循环轮次,在每一循环轮次中通过对所述目标向量与测试样本进行对比以获取精确度和召回率,并对所述目标向量与测试样本进行交叉熵计算以形成交叉熵损失;
27.基于所述熵损失、所述精确度和召回率计算所述被训练的bert主体模型的准确率。
28.可选地,所述通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据,包括:
29.通过预设的爬虫软件在新闻客户端、网页端、媒体服务端爬取新闻稿件;
30.对所述新闻稿件进行数据清洗以获取目标数据;其中,所述进行数据清洗以获取目标数据,包括:
31.对所述新闻稿件进行表情剔除,以去除链接、制表符、表情符和不成文字符编码,形成清洁数据;
32.将所述清洁数据全部转换为中文文字以获取目标数据。
33.可选地,所述新闻主体为所述目标数据中的名词关键词、语气关键词、句式和语法;
34.所述新闻主体对应的情感分析数据包括情感总结关键词和情感分析语句;所述情感总结关键词为所述目标数据的主体情感;所述情感分析语句为所述目标数据的情感介绍。
35.为了解决上述问题,本发明还提供一种智能化新闻主题情感分析装置,所述装置包括:
36.抽取模型建立单元,用于采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
37.分析模型建立单元,用于将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型;其中,所述主体分析模型的训练过程包括:采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型;
38.数据获取单元,用于通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;
39.情感分析单元,用于将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
40.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
41.存储器,存储至少一个指令;及
42.处理器,执行所述存储器中存储的指令以实现上述所述的智能化新闻主题情感分析方法中的步骤。
43.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的智能化新闻主题情感分析方法。
44.本发明实施例首先采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;再采用预设的分析标注方法通过标注语料的情感词条对预设的bert主体模型进行反复训练,直至bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将主体分析模型与主体抽取模型相联系以形成主体情感分析模型;而后通过预设的爬虫软件爬取新闻稿件,对新闻稿件进行数据清洗以获取目标数据;再将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体,并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据,如此,能够轻易获取新闻的主题情绪、主体情感,进而能够根据各类新闻中的词条获取目标企业的舆情。
附图说明
45.图1为本发明一实施例提供的智能化新闻主题情感分析方法的流程示意图;
46.图2为本发明一实施例提供的智能化新闻主题情感分析装置的模块示意图;
47.图3为本发明一实施例提供的智能化新闻主题情感分析方法的电子设备的内部结构示意图;
48.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
49.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
50.基于人工智能领域的发展,基于深度学习的情感分析已经运用到了舆情分析,产品分析等各个领域。相对与传统的机器学习算法如svg,深度学习尤其是预训练模型拥有更高的准确度与精确度,召回率。但不管是传统的机器学习算法还是现在的深度学习方案,都是对一段文本进行的文字分析,但是很多时候,不管是人还是模型,都很难把控该文章的情感。比如“某某企业在某年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。”对于该文本通常会将其标记成中性;但是中性对于商业之间的舆情分析意义较低,假设某公司想要分析自己公司的舆情,以及竞争对手的舆情,将无法快速的对自身企业或其他企业的新闻进行锁定。
51.为解决上述问题,本发明实施例提供一种智能化新闻主题情感分析方法。
52.在本实施例中,执行主体为整个服务器集群的智能化新闻主题情感分析系统,该智能化新闻主题情感分析系统集成在服务器集群中,即服务器集群下的智能化新闻主题情感分析系统的不同模块分别进行不同的操作步骤,其中,该服务器集群的架构包括多个服务器,在每个服务器下运行有多个集群实例,在每个集群实例下存储有多个定时任务,如此,通过下述步骤实现该定时任务的有序执行。
53.需要说明的是,本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
54.如图1所示,在本实施例中,智能化新闻主题情感分析方法,包括:
55.s1:采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
56.s2:将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型;其中,所述主体分析模型的训练过程包括:采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型;
57.s3;通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
58.在图1所示的实施例中,步骤s1为采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型的过程;在该过程中:
59.采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,包括:
60.s11:对预采集的标注语料进行长度统计,对统计后的所述标注语料进行数据清洗以获取清洁语料,并采用预设的抽取标注方法对所述清洁语料进行标注以获取标注语料;将所述标注语料按照比例划分为训练数据集和验证数据集;
61.,s12:将所述训练数据集输入预搭建的bert/xlnet+crf主体模型中,使所述bert/xlnet+crf主体模型对所述训练集进行自动主体抽取以获取训练新闻主体;
62.s13:将所述验证集与所述训练新闻主体相对比以获取所述bert/xlnet+crf主体模型的准确率和召回率;
63.s14:根据所述准确率和所述召回率对所述bert/xlnet+crf主体模型进行调整以进行持续、反复训练。
64.其中,对统计后的所述标注语料进行数据清洗以获取清洁语料的步骤,包括:
65.对所述统计后的标注语料进行表情剔除,以去除链接、制表符、表情符和不成文字符编码,形成清洁文本;
66.将所述清洁文本全部转换为中文文字以获取清洁语料。
67.在一个具体的实施例中,该主体抽取模型旨在抽取出新闻中带情感的主体。所以采用预设的抽取标注方法,该预设的抽取标注方法为bio标注的方法;其中,b代表begin代表主体的开头,i代表inside,主体的中间,o代表outside,代表不属于主体。具体如下:
68.{"text":"某某企业在2021年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。","label":{"sentiment":{"某某企业":[[0,3]],"某某平台":[[20,25]],"某某公司":[[36,40]]}}}
[0069]
最终转换的训练数据为[“b-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,“b-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,“b-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”i-sentiment”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”,”o”];
[0070]
在一个更为具体的实施例中,训练该bert/xlnet+crf主体模型的具体过程为:
[0071]
首先按文章分类(娱乐,体育,财经,科技,社会,汽车等)各取3w条数据,统计训练新闻文章长度阈值,删除最小长度占比5%,最大长度占比5%文章,而后进行数据清洗,即去除[偷笑]、去除制表符,去除uncode编码,去除url,去除emoji,去除链接,去除unicode编码等,而后将繁体或英文转化成简体中文;之后人工标注清洗好的数据,标注好新闻中的主体,再基于标注语料开始训练bert/xlnet+crf主体抽取模型,先把训练数据按8:1:1分成训练数据,验证数据,测试数据,进行反复训练,根据标签通过交叉熵计算损失,其中,每100轮循环通过验证集验证一次数据。得到验证集的准确度,精度,召回率,以及验证集的损失,记
录损失值。保留每100轮每次验证集损失最低的模型参数,训练结束,通过测试集测试模型的性能,准确度,精度,召回率,泛化能力,如果模型未达标,分析判断错误的语料,调整语料,再继续通过语料来训练模型,若模型达标,则停止训练,将最后一次训练的bert/xlnet+crf主体抽取模型作为主体抽取模型。
[0072]
在图1所示的实施例中,步骤s2为采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将所述主体分析模型与所述主体抽取模型相联系以形成主体情感分析模型的过程;其中,
[0073]
采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,包括:
[0074]
s21:预搭建bert架构,将所述bert架构中的bert输入长度限制在限制阈值以内,并对所述bert架构中的segmentembeddings主体的新闻参数和主体参数进行定义以形成bert主体模型;
[0075]
s22:采用预设的分析标注方法对标注语料进行情感分析标注以形成样本数据,将所述样本数据按照比例划分为训练样本和测试样本,并将所述训练样本输入所述bert主体模型中形成特征向量;其中,所述情感分析标注至少包括情感分析词;
[0076]
s23:将所述特征向量输入预设的self-attention部分作循环处理已形成编码向量;
[0077]
s24:对所述编码向量进行降维处理以形成预设数量个目标向量;
[0078]
s25:根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率;
[0079]
s26:根据所述准确率对所述bert主体模型进行反馈调整以对所述bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值。
[0080]
根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率,包括:
[0081]
按照预设的循环轮次,在每一循环轮次中通过对所述目标向量与测试样本进行对比以获取精确度和召回率,并对所述目标向量与测试样本进行交叉熵计算以形成交叉熵损失;
[0082]
基于所述熵损失、所述精确度和召回率计算所述被训练的bert主体模型的准确率。
[0083]
具体的,在一个实施例中,标注语料设计为:0代表中性,1-代表正面,2-代表负面;
[0084]
{"text":"[cls]某某企业[sep]某某企业在2021年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。","label":”1”};
[0085]
{,"text":"[cls]某某平台[sep]某某企业在2021年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。","label":”2”};
[0086]
{"text":"[cls]某某公司[sep]某某企业在2021年取得了非常好的成绩,某某平台取得了非常差的成绩,某某公司取得了一般的成绩。","label":”0”};
[0087]
具体的训练bert主体模型的过程为:
[0088]
用之前训练主体的语料,标注基于主体的情感分析语料;
[0089]
扩充语料,即由于要让语料均衡。让模型学会同一篇文章,不同主体有不能情感的能力,希望同一篇文章,不同主体的不能情感的语料能多一些。所以可以同分类(比如股
票),不同情感的文章随机拼接。具体示例如下:
[0090]
文章1
[0091]
某公司2022财年第一财季净利润346.3亿美元,同比增长20%。按区域划分,某公司第一财季美洲部门营收为514.96亿美元,同比增11%;欧洲部门营收为297.49亿美元,同比增9%;大中华区营收为257.83亿美元,同比增21%;亚太其他地区营收为98.1亿美元,同比增19%。按产品划分,某公司第一财季来自iphone的营收为716.28亿美元,同比增9%;来自mac的营收为108.52亿美元,同比增25%;
[0092]
文章2
[0093]
拒绝和拖延承保车辆交强险富邦财险合计被罚款20万元。2月8日,某平台公布了某行政处罚信息公开表显示,某有限公司因拒绝和拖延承保车辆交强险,某平台保监局依据《中华人民共和国保险法》第一百六十一条、第一百七十一条,对某有限公司处以罚款十五万元;对
××
给予警告,并处罚款五万元。公司和个人合计被罚20万元。(责任编辑:某某某)
[0094]
拼接后:
[0095]
某公司2022财年第一财季净利润346.3亿美元,同比增长20%。按区域划分,某公司第一财季美洲部门营收为514.96亿美元,同比增11%;欧洲部门营收为297.49亿美元,同比增9%;大中华区营收为257.83亿美元,同比增21%;亚太其他地区营收为98.1亿美元,同比增19%。按产品划分,某公司第一财季来自phone的营收为716.28亿美元,同比增9%;来自平板的营收为108.52亿美元,同比增25%;拒绝和拖延承保车辆交强险富邦财险合计被罚款20万元。2月8日,某平台公布了厦门银保监局行政处罚信息公开表显示,某有限公司(以下简称“富邦财险”)因拒绝和拖延承保车辆交强险,某平台依据《中华人民共和国保险法》第一百六十一条、第一百七十一条,对某有限公司处以罚款十五万元;对
××
给予警告,并处罚款五万元。公司和个人合计被罚20万元。(责任编辑:某某某)
[0096]
其中,某公司主体情感为正面1。某有限公司为2。
[0097]
更为具体的,在对bert主体模型进行训练时,首先按8:1:1分成训练样本,验证样本,测试样本,其中各样本之间尽量保证中性,正面,负面的数据1:1:1;而后bert输入为的长度限制为512;其中segmentembeddings主体的segment为0,新闻的segment为1,这样模型就能区分输入数据哪个是主体,哪个是新闻。然后在一个具体实施例中,得到输入的特征向量开始做循环self-attention,得到编码向量得个为512个,再去除[cls]的编码向量,做全连接层,bert的编码向量为768维,为了转化成3分类问题,把768降维到3维;也就是把[cls]的编码向量降维到3为;经过softmax转化成3分类的概率问题;而后再根据标签通过交叉熵计算损失,其中每100轮循环通过验证集验证一次数据,得到验证集的准确度,精度,召回率,以及验证集的损失,记录损失值,保留每100轮每次验证集损失最低的模型参数;再训练结束后,通过测试集测试模型的性能,准确度,精度,召回率,泛化能力;如果模型未达标,先分析判断错误的语料,比如增加某个分类的语料等,再通过语料来训练模型,如此反复训练,直至bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型;之后将主体分析模型与所述主体抽取模型相联系以形成完整的主体情感分析模型。
[0098]
在图1所示的实施例中,步骤s3为通过预设的爬虫软件爬取新闻稿件,对所述新闻
稿件进行数据清洗以获取目标数据,将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体,并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据的过程;其中,通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据,包括:
[0099]
s31:通过预设的爬虫软件在新闻客户端、网页端、媒体服务端爬取新闻稿件;
[0100]
s32:对所述新闻稿件进行数据清洗以获取目标数据;其中,所述进行数据清洗以获取目标数据,包括:
[0101]
s33:对所述新闻稿件进行表情剔除,以去除链接、制表符、表情符和不成文字符编码,形成清洁数据;
[0102]
s34:将所述清洁数据全部转换为中文文字以获取目标数据。
[0103]
该爬虫的具体形式不做限制,可以为任意具有爬虫功能的组件或插件。
[0104]
将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体,并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据的过程中,该主体情感分析模型为主体抽取模型与主体分析模型的组合,新闻主体为目标数据中的名词关键词、语气关键词、句式和语法;
[0105]
新闻主体对应的情感分析数据包括情感总结关键词和情感分析语句;该情感总结关键词为目标数据的主体情感;该情感总结关键词比如为“积极”“消极”“中性”,该情感分析语句为目标数据的情感介绍,比如一段描述性文字,某某企业以正向积极的舆情
……
如此,能够便捷、精准、快速的掌握本企业或对方企业的舆情。
[0106]
在本实施例中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0107]
如上所述,本发明实施例提供的智能化新闻主题情感分析方法,首先采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;再采用预设的分析标注方法通过标注语料的情感词条对预设的bert主体模型进行反复训练,直至bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将主体分析模型与主体抽取模型相联系以形成主体情感分析模型;而后通过预设的爬虫软件爬取新闻稿件,对新闻稿件进行数据清洗以获取目标数据;再将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体,并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据,如此,能够轻易获取新闻的主题情绪、主体情感,进而能够根据各类新闻中的词条获取目标企业的舆情。
[0108]
如图2所示,本发明提供一种智能化新闻主题情感分析装置100,本发明可以安装于电子设备中。根据实现的功能,该智能化新闻主题情感分析装置100可以包括抽取模型建立单元101、分析模型建立单元102、数据获取单元103、情感分析单元104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0109]
在本实施例中,关于各模块/单元的功能如下:
[0110]
抽取模型建立单元101,用于采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
[0111]
分析模型建立单元102,用于将所述主体抽取模型与预训练的主体分析模型相联系以形成主体情感分析模型;其中,所述主体分析模型的训练过程包括:采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型;
[0112]
数据获取单元103,用于通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;
[0113]
情感分析单元104,用于将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
[0114]
抽取模型建立单元101采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型的过程中;
[0115]
采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,包括:
[0116]
预搭建bert/xlnet+crf主体模型;
[0117]
对预采集的标注语料进行长度统计,对统计后的所述标注语料进行数据清洗以获取清洁语料,并采用预设的抽取标注方法对所述清洁语料进行标注以获取标注语料;将所述标注语料按照比例划分为训练数据集和验证数据集;其中,所述训练数据集用于输入所述bert/xlnet+crf主体模型中,使所述bert/xlnet+crf主体模型对所述训练集进行自动主体抽取以获取训练新闻主体;所述验证集用于与所述训练新闻主体相对比以获取所述bert/xlnet+crf主体模型的准确率和召回率;
[0118]
根据所述准确率和所述召回率对所述bert/xlnet+crf主体模型进行调整以进行持续、反复训练。
[0119]
分析模型建立单元102,用于采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将所述主体分析模型与所述主体抽取模型相联系以形成主体情感分析模型的过程中;
[0120]
采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,包括:
[0121]
预搭建bert架构,将所述bert架构中的bert输入长度限制在限制阈值以内,并对所述bert架构中的segmentembeddings主体的新闻参数和主体参数进行定义以形成bert主体模型;
[0122]
采用预设的分析标注方法对标注语料进行情感分析标注以形成样本数据,将所述样本数据按照比例划分为训练样本和测试样本,并将所述训练样本输入所述bert主体模型中形成特征向量;其中,所述情感分析标注至少包括情感分析词;
[0123]
将所述特征向量输入预设的self-attention部分作循环处理已形成编码向量;
[0124]
对所述编码向量进行降维处理以形成预设数量个目标向量;
[0125]
根据所述目标向量与所述测试样本进行交叉熵计算以获取准确率;
[0126]
根据所述准确率对所述bert主体模型进行反馈调整以对所述bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值。
[0127]
数据获取单元103通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据的过程中;
[0128]
通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据,包括:
[0129]
通过预设的爬虫软件在新闻客户端、网页端、媒体服务端爬取新闻稿件;
[0130]
对所述新闻稿件进行数据清洗以获取目标数据;其中,所述进行数据清洗以获取目标数据,包括:
[0131]
对所述新闻稿件进行表情剔除,以去除链接、制表符、表情符和不成文字符编码,形成清洁数据;
[0132]
将所述清洁数据全部转换为中文文字以获取目标数据。
[0133]
情感分析单元104将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据的过程中;
[0134]
新闻主体为目标数据中的名词关键词、语气关键词、句式和语法;
[0135]
新闻主体对应的情感分析数据包括情感总结关键词和情感分析语句;情感总结关键词为目标数据的主体情感;情感分析语句为所述目标数据的情感介绍。
[0136]
如上所述,本发明提供的智能化新闻主题情感分析装置100,首先通过抽取模型建立单元101采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;再通过分析模型建立单元102采用预设的分析标注方法通过标注语料的情感词条对预设的bert主体模型进行反复训练,直至bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将主体分析模型与主体抽取模型相联系以形成主体情感分析模型;而后利用数据获取单元103通过预设的爬虫软件爬取新闻稿件,对新闻稿件进行数据清洗以获取目标数据;再利用情感分析单元104将目标数据输入主体情感分析模型以通过主体抽取模型对目标数据进行主体抽取操作以获取新闻主体,并将新闻主体输入至主体情感分析模型以获取与新闻主体对应的情感分析数据,如此,能够轻易获取新闻的主题情绪、主体情感,进而能够根据各类新闻中的词条获取目标企业的舆情。
[0137]
如图3所示,本发明提供一种智能化新闻主题情感分析方法的电子设备1。
[0138]
该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序,如智能化新闻主题情感分析程序12。
[0139]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如智能化新闻主题情感分析的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0140]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如智能化新闻主题情感分析程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0141]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0142]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0143]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0144]
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0145]
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0146]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0147]
所述电子设备1中的所述存储器11存储的智能化新闻主题情感分析程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
[0148]
采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
[0149]
采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将所述主体分析模型与所述主体抽取模型相联系以形成主体情感分析模型;
[0150]
通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;
[0151]
将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
[0152]
需要强调的是,为进一步保证上述智能化新闻主题情感分析的私密和安全性,上述智能化新闻主题情感分析的数据存储于本服务器集群所处区块链的节点中。
[0153]
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0154]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0155]
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:
[0156]
采用预设的抽取标注方法通过预采集的标注语料对预设的bert/xlnet+crf主体模型进行反复训练,直至所述bert/xlnet+crf主体模型的准确率达到预设的抽取准确阈值,将最后一次训练更新的bert/xlnet+crf主体抽取模型作为主体抽取模型;
[0157]
采用预设的分析标注方法通过所述标注语料的情感词条对预设的bert主体模型进行反复训练,直至所述bert主体模型的准确率达到预设的分析准确阈值,将最后一次训练更新的bert主体模型作为主体分析模型,并将所述主体分析模型与所述主体抽取模型相联系以形成主体情感分析模型;
[0158]
通过预设的爬虫软件爬取新闻稿件,对所述新闻稿件进行数据清洗以获取目标数据;
[0159]
将所述目标数据输入所述主体情感分析模型以通过所述主体抽取模型对所述目标数据进行主体抽取操作以获取新闻主体,并将所述新闻主体输入至所述主体情感分析模型以获取与所述新闻主体对应的情感分析数据。
[0160]
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例智能化新闻
主题情感分析方法中相关步骤的描述,在此不赘述。
[0161]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0162]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0163]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0164]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0165]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0166]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0167]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0168]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1