文本情感分析系统及方法、存储介质与流程

文档序号:15019960发布日期:2018-07-25 00:28阅读:201来源:国知局

本发明实施例涉及在线教育领域,尤其涉及一种文本情感分析系统及方法、存储介质。



背景技术:

文本情感分析,也就是分析文本所携带的主观性意见,通过对文本的情感分析,可以帮助人们快速了解文本的主观意见,以便进行统计或及时反馈。

例如:在教育领域的直播课堂(利用直播平台进行教育的一种在线教育方式)上,在教学过程中,教师通过人为观看弹幕文本的方式获取学生的实时反馈,进行师生之间的互动,这种方式很简单,但容易分散老师教学的注意力,影响教学质量,且如果弹幕文本很多,老师也没有精力同时去处理多条弹幕文本,没法把关注点分散到每一个学生身上。同时,为提高教学质量,还需了解学生对于直播课堂的反馈,目前采用的是根据学生的课后评价和反馈的方式,这种方式的信息获得需要在课后一段时间才能完成,是滞后的,不利于及时了解情况并进行相应的调整。

现有技术中,为了辅助教师把握上述情况,就需要对文本进行情感分析,然后通过筛选或统计的方式输出给教师,然而,由于直播课堂的特殊性,学生所发出的弹幕文本大都为短文本,这就直接影响了分析结果的准确性。

因此,如何提高文本情感分析的准确性,成为亟需解决的技术问题。



技术实现要素:

本发明实施例解决的技术问题是提供一种文本情感分析系统和方法,以提高文本情感分析的准确性。

为解决上述问题,本发明实施例提供一种文本情感分析系统,包括:

获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻;

基于所述待分析文本时刻和所述语义关联文本时刻,对所述待分析文本和所述语义关联文本按照时间顺序进行排序,得到排序文本;

对所述排序文本进行分词处理,获得排序文本分词;

对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

可选地,还包括:

对所述排序文本分词进行场景关联筛选,得到场景关联文本分词;

所述对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数,包括:对所述场景关联文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

可选地,所述对所述排序文本分词进行场景关联筛选,得到场景关联文本分词,包括:

计算所述排序文本分词与场景文本库中的场景文本的相似度;

筛选出所述相似度大于相似度阈值的所述排序文本分词,得到所述场景关联文本分词。

可选地,对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数,包括:

在情感分词词典中的查找所述排序文本分词的情感极性分数,所述情感分词词典中包括情感词和修饰所述情感词的修饰词;

计算所述情感词和所述修饰词的加权情感分数,获得所述待分析文本的情感极性分数。

可选地,所述获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻,包括:

获取所述待分析文本和所述待分析文本时刻;

根据所述待分析文本和所述待分析文本时刻,从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,所述动态文本库的文本时刻位于所述待文本时刻前的时间阈值内。

可选地,所述根据所述待分析文本和所述待分析文本时刻,从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,包括:

将所述待分析文本转化为待分析文本特征向量,将所述动态文本库中的文本1转化为文本特征向量1,……,文本n转化为文本特征向量n,n≥1,n为整数;

设定存储关联向量的关联向量库,所述关联向量包括所述待分析文本特征向量和已获得的语义关联文本特征向量,所述关联向量库包括关联向量库1、关联向量库2、……、关联向量库n,n≥1,n为整数;

计算所述文本特征向量1和所述关联向量库1中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量1,将所述语义关联文本特征向量1存储至所述关联向量库1,得到关联向量库2;

以此类推,计算所述文本特征向量n和所述关联向量库n中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量n,将所述语义关联文本特征向量n存储至所述关联向量库n-1,得到关联向量库n;

从所述关联向量库n中获取所有语义关联文本特征向量、所述语义关联文本和所述语义关联文本时刻。

可选地,所述动态文本库中的所述文本包括字符文本和语音文本。

可选地,所述语音文本通过语音识别算法识别为字符文本。

可选地,所述关联度为余弦距离的倒数。

为解决所述问题,本发明实施例还提供一种文本情感分析系统,包括:

文本及文本时刻获取装置,适于获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻;

文本排序装置,适于基于所述待分析文本时刻和所述语义关联文本时刻,对所述待分析文本和所述语义关联文本按照时间顺序进行排序,得到排序文本;

分词装置,适于对所述排序文本进行分词处理,获得排序文本分词;

情感极性分数计算装置,适于对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

可选地,还包括:

场景文本确定装置,适于对所述排序文本分词进行场景关联筛选,得到场景关联文本分词;

所述情感极性分数计算装置对所述场景关联文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

可选地,所述文本确定装置,包括:

相似度计算装置,适于计算所述排序文本分词与场景文本库中的场景文本的相似度;

文本筛选装置,适于筛选出所述相似度大于相似度阈值的所述排序文本分词,得到所述场景关联文本分词。

可选地,所述情感极性分数计算装置包括:

分词情感极性分数查找装置,适于在情感分词词典中的查找所述排序文本分词的情感极性分数,所述情感分词词典中包括情感词和修饰所述情感词的修饰词;

情感极性分数加权计算装置,适于计算所述情感词和所述修饰词的加权情感分数,获得所述待分析文本的情感极性分数。

可选地,文本及文本时刻获取装置包括:

待分析文本及待分析文本时刻获取装置,适于获取所述待分析文本和所述待分析文本时刻;

语义关联文本及语义关联文本时刻获取装置,适于根据所述待分析文本和所述待分析文本时刻从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,所述动态文本库中的文本时刻位于所述待文本时刻前的时间阈值内。

可选地,语义关联文本及语义关联文本时刻获取装置,包括:

特征向量转化装置,适于将所述待分析文本转化为待分析文本特征向量,将所述动态文本库中的文本1转化为文本特征向量1,……,文本n转化为文本特征向量n,n≥1,n为整数;

关联向量库设定装置,适于设定存储关联向量的关联向量库,所述关联向量包括所述待分析文本特征向量和已获得的语义关联文本特征向量,所述关联向量库包括关联向量库1、关联向量库2、……、关联向量库n,n≥1,n为整数;

语义关联文本筛选装置,适于计算所述文本特征向量1和所述关联向量库1中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量1,将所述语义关联文本特征向量1存储至所述关联向量库1,得到关联向量库2;

以此类推,计算所述文本特征向量n和所述关联向量库n中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量n,将所述语义关联文本特征向量n存储至所述关联向量库n-1,得到关联向量库n;

从所述关联向量库n中获取所有语义关联文本特征向量、所述语义关联文本和所述语义关联文本时刻。

可选地,所述动态文本库中的所述文本包括字符文本和语音文本。

可选地,所述语音文本通过语音识别算法识别为字符文本。

可选地,所述关联度为余弦距离的倒数。

为解决所述问题,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上述任一项所述的文本情感分析方法。

与现有技术相比,本发明的技术方案具有以下优点:

采用本发明实施例所提供的文本情感分析系统及方法、存储介质,在进行待分析文本的情感分析时,不仅获取了待分析文本本身,还获取了与待分析文本语义相关联的语义关联文本,并将其按照时间顺序进行排序,进而通过文本分词处理得到排序文本分词,再进行排序文本分词的情感分析,最终得到待分析文本的情感极性分数。这样,在进行待分析文本的情感分析时,通过语义关联文本的结合,在一定程度上解决了仅有一个文本而造成的文本不完整、缺少评价对象和评价主体的问题,同时,将语义关联文本和待分析文本按照时间顺序进行排列,可以提高所补充的评价主体和评价对象与待分析文本结合的准确性,同时经过分析最终得到情感极性分数,不仅了解了待分析文本的情感极性,还可以了解情感极性的强度,在提高了对待分析文本情感分析的准确性的基础上可以及时地获得情感分析的结果。

可选方案中,本发明实施例所提供的文本情感分析系统及方法、存储介质,还对排序文本分词进行场景关联筛选,找出与所在场景相关的文本分词,仅对场景关联文本分词进行情感分析,去除了与场景不相关的文本分词,从而达到对特定场景下特定对象情感分析的目的,进一步提升情感预测的准确性,也提高基于需要而进行统计的统计结果准确性。

可选方案中,本发明实施例所提供的文本情感分析系统及方法、存储介质,还根据所待分析文本和待分析文本时刻,从动态文本库中筛选获得语义关联文本及语义关联文本时刻,将动态文本库中的文本1转化为文本特征向量1,……,文本n转化为各文本特征向量n;并设定关联向量库,关联向量库中存储待分析特征向量和经分析得到的语义关联文本特征向量,然后计算文本特征向量1和关联向量库中的各个关联向量的关联度,得到关联度最大值,计算其与关联度阈值的大小,得到最大关联度大于关联度阈值的语义关联文本特征向量、语义关联文本和语义关联文本时刻,并将所述语义关联文本特征向量存储至所述关联向量库,成为关联向量中的一个,作为判断后续的文本特征向量是否为语义关联特征向量的基础,依此类推,直至动态文本库中的所有文本都确定完毕,得到所有的语义关联文本和语义关联文本时刻。本发明实施例所提供的语义关联文本的确定方式,不仅与待分析文本进行关联度计算,而且与前一步确定的语义关联文本进行关联度计算,提高了语义关联文本确定的准确性,同时通过将文本转化为特征向量进行计算的方式,也简化了计算过程。

附图说明

图1是本发明实施例一种文本情感分析方法的流程示意图;

图2是本发明实施例另一种文本情感分析方法的部分流程示意图;

图3是本发明实施例另一种文本情感分析方法的部分流程示意图;

图4是本发明实施例另一种文本情感分析方法的部分流程示意图;

图5是本发明实施例另一种文本情感分析方法的部分流程示意图;

图6是本发明实施例另一种文本情感分析方法的部分流程示意图;

图7是本发明实施例一种文本情感分析系统的结构示意图;

图8是本发明实施例另一种文本情感分析系统的结构示意图;

图9是本发明实施例另一种文本情感分析系统的结构示意图;

图10是本发明实施例另一种文本情感分析系统的结构示意图;

图11是本发明实施例另一种文本情感分析系统的结构示意图;

图12是本发明实施例另一种文本情感分析系统的结构示意图。

具体实施方式

由背景技术可知,现有技术的文本情感分析系统,不能很准确地进行文本情感的分析。例如直播课堂的短文本,进而也难以准确地了解学生对课堂的评价。

为了能够提高文本情感分析的准确性,本发明提供了一种文本情感分析系统和方法、存储介质,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例中一种文本情感分析系统的流程示意图。

如图1所示,本发明实施例所提供的文本情感分析方法,包括以下步骤:

步骤S11:获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻。

获取待分析文本、待分析文本时刻、与待分析文本语义相关联的语义关联文本,以及语义关联文本时刻,为后续的待分析文本情感极性分数的获取提供初始材料。

比如:在直播的过程中,直接获取用户(比如:学生)所发出的待分析文本,同时获取待分析文本发出的时刻,并且利用算法获取与待分析文本语义相关联的语义关联文本和语义关联文本时刻。

具体地,语义关联文本只要是在某个主题范围内发出的文本即可,比如:在直播课堂过程中发出的文本。为提高语义关联文本的有效性,可以选择由同一学生发出的字符文本和教师的语音文本。

请参考图2和图3,图2是本发明实施例另一种文本情感分析方法的部分流程示意图;图3是本发明实施例另一种文本情感分析方法的部分流程示意图。

如图2所示,本发明所提供的文本情感分析方法,获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻步骤,具体可以包括以下步骤:

步骤S211:获取所述待分析文本和所述待分析文本时刻。

待分析文本以及待分析文本时刻可以基于用户所发出的文本直接获取,无需进行复杂的运算。

步骤S212:根据所述待分析文本和所述待分析文本时刻,从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,所述动态文本库的文本时刻位于所述待文本时刻前的时间阈值内。

为保证在相关信息获取的基础上,减小运算量,在一种具体实施例中,动态文本库中的文本选择待分析文本时刻前时间阈值内的文本,即动态文本库中的文本时刻在待文本时刻前的时间阈值内;在其他具体实施例中,可以选择处于待分析文本时刻前时间阈值内的文本和处于待分析文本时刻后时间阈值内的文本,甚至整个主题范围内的所有文本。

具体地,动态文本库中的文本可以包括字符文本和语音文本,从而可以获得更多地相关信息。

语音文本可以通过语音识别算法识别为字符文本,进而通过字符文本的处理方式进行处理即可。

基于待分析文本,从动态文本库中找出与其语义相关联的文本,进而获得语义关联文本时刻,为后续补充文本对象或者文本主体的补充做好准备。

比如:学生M在10分30秒发了一条弹幕“讲的真好”,假设我们的设定的时间阈值为1分钟,如果学生M在9分40秒时发了一条“老师上数学课了”,10分钟时老师讲的内容为“今天同学们学一元二次方程组”,那么这些文本都将成为我们的输入数据,因为他们都是1分钟的间隔以内。

如图3所示,本发明所提供的文本情感分析方法,根据所述待分析文本和所述待分析文本时刻,从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,具体包括以下步骤:

步骤S3121:将所述待分析文本转化为待分析文本特征向量,将所述动态文本库中的文本1转化为文本特征向量1,……,文本n转化为文本特征向量n,n≥1,n为整数。

要从动态文本库中找出与待分析文本语义相关的文本,提供文本对象或则文本主体的补充,就需要进行文本语义关联度运算,但是,单纯的文本难以通过机器进行关联度的运算,因此,本发明提供的一种实施例中,通过将文本转化为特征向量的方式进行,当然,在其他实施例中,可以通过其他方式进行。

为保证后续步骤的进行,首先将待分析文本转化为待分析文本特征向量,将动态文本库中的文本分别转化为文本特征向量,动态文本库中有多少文本,就要转化成多少文本特征向量。

比如“讲的真好”转化为“0.1,0.1,0.2,0.1”。“老师上数学课了”转化为“0.2,0.1,0.2,0.1”,“今天同学们学一元二次方程组”转化为“0.3,0.4,0.4,0.2”。

步骤S3122:设定存储关联向量的关联向量库,所述关联向量包括所述待分析文本特征向量和已获得的语义关联文本特征向量,所述关联向量库包括关联向量库1、关联向量库2、……、关联向量库n,n≥1,n为整数。

设定关联向量库,其中存储待分析特征向量,以及与待分析文本语义相关联的语义关联文本所对应的语义关联文本特征向量,语义关联文本特征向量随着分析的进行不断得到,因此,关联向量库内部所包含的特征向量也会随着计算分析的进行而不断变化,比如,最初的关联向量库1中仅包含待分析文本特征向量,而随着运算的进行,其中的特征向量数量不断地增加,直至对动态文本库中的所有文本都预算完。

步骤S3123:依次计算所述文本特征向量1和所述关联向量库1中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量1,将所述语义关联文本特征向量1存储至所述关联向量库1,得到关联向量库2;以此类推,依次计算所述文本特征向量n和所述关联向量库n中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量n,将所述语义关联文本特征向量n存储至所述关联向量库n-1,得到关联向量库n;从所述关联向量库n中获取所有语义关联文本特征向量、所述语义关联文本和所述语义关联文本时刻。

依次计算动态文本库中的各个文本所对应的文本特征向量与各个关联向量的关联度,得到最大关联度,再将最大关联度与关联度阈值比较,如果大于关联度阈值,则作为语义关联文本特征向量,最终得到所有的语义关联文本特征向量,以及对应的语义关联文本和语义关联文本时刻。

经过与关联向量库中的各个关联向量的关联度的计算,得到多个关联度,找出其中最大的关联度,将最大的关联度与关联度阈值比较,可以尽可能地获得语义关联文本,提高分析的准确性。

可以看出,本发明实施例所提供的语义关联文本的确定方式,不仅与待分析文本进行关联度计算,而且与前一步确定的语义关联文本进行关联度计算,提高了语义关联文本确定的准确性,同时通过将文本转化为特征向量进行计算的方式,也简化了计算过程。

在一种具体实施例中,关联度具体可以为余弦距离的倒数,即余弦距离越小,余弦距离的倒数越大,两文本的语义关联越好。

比如:假设该学生还有一条弹幕”今天天气真好”,那么这条弹幕转化为了向量将是”0.8,0.9,0.8,0.7”,通过计算向量之间的关联度,计算机就会发现这条信息与我们弹幕的信息差别较大,这样若余弦距离的倒数大于我们预先设定的关联度阈值,就可以排除这条信息。

步骤S12:基于所述待分析文本时刻和所述语义关联文本时刻,对所述待分析文本和所述语义关联文本按照时间顺序进行排序,得到排序文本。

得到待分析文本和语义关联文本后,将其按照待分析文本时刻和语义关联文本时刻的时间先后顺序进行排序,得到排序文本。

比如:我们将前述获得的语义关联文本按照发生的时间顺序,组成序列:

9分40秒-老师上数学课了

10分:-今天同学们学一元二次方程组

10分30秒–讲的真好

最终形成:老师上数学课了今天同学们学一元二次方程组讲的真好这样一个排序文本。

步骤S13:对所述排序文本进行分词处理,获得排序文本分词。

得到排序文本后,需对其进行文本分词,以获得排序文本分词,为后续的处理做好准备。

比如:对于前述的排序文本,我们将得到文本分析结果,其中情感对象,情感词,谓语等基本元素信息,这里我们可能得到:{老师,讲,真好},{同学们,学,方程组}。

具体对排序文本进行分词处理时,可以选择分词NLP网络(自然语言处理深度神经网络)进行。

在进行待分析文本的文本情感分析之前,首先需要对NLP网络进行训练,使其获得相应的分词网络参数,在一种具体实施例中,对NLP网络的训练是利用语料库和分词规则进行的。

语料库也就是存放真实文本的数据库,其中包含词,短语,句子,甚至是文章,为提高应用的顺畅性,可以基于应用场景,增加预料库中的文本,比如:基于直播课堂,增加直播课堂相关的语料;而分词规则则为结构化的文本,比如:主谓宾三元组的形式。

比如:直播课堂环境下,有特色的语料有“老师讲课声音真清楚。”这句话就可以作为语料加入语料库。而从这句话,我们可以建立多条分词规则{老师,在,上课},{讲课,有,声音},{声音,有,清楚}等,有了语料库和分词规则,才能解析输入的文本。

可见,经过对于语义关联文本的排序和分词,补充了文本的主体和对象。

步骤S14:对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

在得到排序文本分词后,就可以对情感极性分数进行计算,并最终得到待分析文本的情感极性分数了。

请参考图4,图4是本发明实施例另一种文本情感分析方法的部分流程示意图。

在本发明所提供的文本情感分析方法的一种具体实施例中,对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数,包括:

步骤S441:在情感分词词典中的查找所述排序文本分词的情感极性分数,所述情感分词词典中包括情感词和修饰所述情感词的修饰词。

首先在情感分词词典中查找排序文本分词的情感极性分数,情感分词词典中不仅包含情感词,还包括用于修改情感词的修饰词。也就是,经过在情感分词词典中的查找,所得到的文本分析即为情感词和修饰词。

具体修饰词可以是程度词或是非词,这样可以对待分析文本的情感极性的把握更为准确。

步骤S442:计算所述情感词和所述修饰词的加权情感分数,获得所述待分析文本的情感极性分数。

在得到情感词和修饰词分别的情感极性分数后,通过加权运算,得到加权情感分数,最终得到待分析文本的情感极性分数。

比如:我们有了三元信息组{老师,讲,真好},{同学们,学,方程组},我们也有原始文本{讲的真好},我们可以根据情感分词词典,得到情感信息词”真好”,得到情感词“好”的情感极性分数,同时也可以检测修饰词“真”来加权“好”的情感极性分数,分数是二分类,即正向情感和负面情感,通过加权计算,我们可以得到当前文本的“讲的真好”的情感分数,比如正向+0.91,负向-0.09。同时还可以输出情感的对象信息,{老师讲课},方便今后进一步的细化分析。

可见,在进行待分析文本的情感分析时,通过语义关联文本的结合,在一定程度上解决了仅有一个文本而造成的文本不完整、缺少评价对象和评价主体的问题,同时,将语义关联文本和待分析文本按照时间顺序进行排列,可以提高所补充的评价主体和评价对象与待分析文本结合的准确性,同时经过分析最终得到情感极性分数,不仅了解了待分析文本的情感极性,还可以了解情感极性的强度,在提高了对待分析文本情感分析的准确性的基础上可以及时地获得情感分析的结果。

请参考图5和图6,图5是本发明实施例另一种文本情感分析方法的部分流程示意图;图6是本发明实施例另一种文本情感分析方法的部分流程示意图。

在一种具体实施例中,本发明所提供的文本情感分析方法,还包括:

步骤S55:对所述排序文本分词进行场景关联筛选,得到场景关联文本分词。

由于语义关联文本的获得仅是对与待分析文本语义相关的文本的筛选,如果待分析文本本身与场景无关,仍然可以进行后续的计算。

比如:在直播课程中,待分析文本为“真开心”,前一条的文本为“我们出去玩”,经语义关联,这样两条信息也是可以进行后续分析的,但这两条信息与课堂内容没有关系。

为此,本发明所提供的文本情感分析方法对得到的排序文本分词,还进行场景关联筛选,找出与所分析的场景相关联的文本分词,再进行后续的分数计算,这样减少了后续运算的运算量,减少了运算资源的浪费,同时,也降低了与场景无关的分析结果对于后续运算的影响。

步骤S54:对所述场景关联文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

得到场景关联文本分词后,仅需要对场景关联文本分词进行情感极性分数计算,最终得到待分析文本的情感极性分数。

当然,场景关联筛选也可以在前面步骤进行,但是在分词过程中仍有产生与场景无关的分词的可能性。

如图6所示,在一具体实施例中,所述对所述排序文本分词进行场景关联筛选,得到场景关联文本分词,包括:

步骤S651:计算所述排序文本分词与场景文本库中的场景文本的相似度。

具体可以通过文本特征向量的方式进行计算。

步骤S652:筛选出所述相似度大于相似度阈值的所述排序文本分词,得到所述场景关联文本分词。

比如:对于“我们出去玩真开心”我们可以分析出三元组{我们,玩,开心},我们可以将这个三元组与我们预先定义的场景如{课堂,老师…}等信息做相似度检测,相似度是一个数值,比如这里网络输出相似度只有0.1,小于我们设定的相似度阈值的0.5,这条信息就被筛掉了。

可见,对排序文本分词进行场景关联筛选,找出与所在场景相关的文本分词,仅对场景关联文本分词进行情感分析,去除了与场景不相关的文本分词,从而达到对特定场景下特定对象情感分析的目的,进一步提升情感预测的准确性,也提高基于需要而进行统计的统计结果准确性。

为解决所述问题,本发明还提供了一种文本情感分析系统,具体请参考图7,图7是本发明实施例一种文本情感分析系统的结构示意图。

为了提高文本情感分析的准确性,本发明所提供的文本情感分析系统,包括文本及文本时刻获取装置11,适于获取待分析文本、待分析文本时刻、与所述待分析文本语义相关联的语义关联文本,以及语义关联文本时刻;文本排序装置12,适于基于所述待分析文本时刻和所述语义关联文本时刻,对所述待分析文本和所述语义关联文本按照时间顺序进行排序,得到排序文本;分词装置13,适于对所述排序文本进行分词处理,获得排序文本分词;情感极性分数计算装置14,适于对所述排序文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

文本及文本时刻获取装置11获取待分析文本、待分析文本时刻、与待分析文本语义相关联的语义关联文本,以及语义关联文本时刻,为后续的待分析文本情感极性分数的获取提供初始材料。

比如:在直播的过程中,直接获取用户(比如:学生)所发出的待分析文本,同时获取待分析文本发出的时刻,并且利用算法获取与待分析文本语义相关联的语义关联文本和语义关联文本时刻。

具体地,语义关联文本只要是在某个主题范围内发出的文本即可,比如:在直播课堂过程中发出的文本。为提高语义关联文本的有效性,可以选择由同一学生发出的字符文本和教师的语音文本。

本发明所提供的文本情感分析系统,在进行待分析文本的情感分析时,通过语义关联文本的结合,在一定程度上解决了仅有一个文本而造成的文本不完整、缺少评价对象和评价主体的问题,同时,将语义关联文本和待分析文本按照时间顺序进行排列,可以提高所补充的评价主体和评价对象与待分析文本结合的准确性,同时经过分析最终得到情感极性分数,不仅了解了待分析文本的情感极性,还可以了解情感极性的强度,在提高了对待分析文本情感分析的准确性的基础上可以及时地获得情感分析的结果。

请参考图8和图9,图8是本发明实施例另一种文本情感分析系统的结构示意图;图9是本发明实施例另一种文本情感分析系统的结构示意图。

如图8所示,本发明所提供的文本情感分析系统的文本及文本时刻获取装置11包括:待分析文本及待分析文本时刻获取装置211,适于获取所述待分析文本和所述待分析文本时刻;语义关联文本及语义关联文本时刻获取装置212,适于根据所述待分析文本和所述待分析文本时刻从动态文本库中筛选获得所述语义关联文本及所述语义关联文本时刻,所述动态文本库中的文本时刻位于所述待文本时刻前的时间阈值内。

待分析文本及待分析文本时刻获取装置211可以基于用户所发出的文本直接获取待分析文本以及待分析文本时刻,无需进行复杂的运算。

语义关联文本及语义关联文本时刻获取装置212获取语义关联文本及语义关联文本时刻则需要从动态文本库中进行筛选。

为保证在相关信息获取的基础上,减小运算量,在一种具体实施例中,动态文本库中的文本选择待分析文本时刻前时间阈值内的文本,即动态文本库中的文本时刻在待文本时刻前的时间阈值内;在其他具体实施例中,可以选择处于待分析文本时刻前时间阈值内的文本和处于待分析文本时刻后时间阈值内的文本,甚至整个主题范围内的所有文本。

具体地,动态文本库中的文本可以包括字符文本和语音文本,从而可以获得更多地相关信息。

语音文本可以通过语音识别算法识别为字符文本,进而通过字符文本的处理方式进行处理即可。

基于待分析文本,从动态文本库中找出与其语义相关联的文本,进而获得语义关联文本时刻,为后续补充文本对象或者文本主体的补充做好准备。

比如:学生M在10分30秒发了一条弹幕“讲的真好”,假设我们的设定的时间阈值为1分钟,如果学生M在9分40秒时发了一条“老师上数学课了”,10分钟时老师讲的内容为“今天同学们学一元二次方程组”,那么这些文本都将成为我们的输入数据,因为他们都是1分钟的间隔以内。

如图9所示,本发明所提供的文本情感分析系统,语义关联文本及语义关联文本时刻获取装置312,包括:

特征向量转化装置3121,适于将所述待分析文本转化为待分析文本特征向量,将所述动态文本库中的文本1转化为文本特征向量1,……,文本n转化为文本特征向量n,n≥1,n为整数;

关联向量库设定装置3122,适于设定存储关联向量的关联向量库,所述关联向量包括所述待分析文本特征向量和已获得的语义关联文本特征向量,所述关联向量库包括关联向量库1、关联向量库2、……、关联向量库n,n≥1,n为整数;

语义关联文本筛选装置3123,适于计算所述文本特征向量1和所述关联向量库1中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量1,将所述语义关联文本特征向量1存储至所述关联向量库1,得到关联向量库2;

以此类推,计算所述文本特征向量n和所述关联向量库n中的各所述关联向量的关联度,比较各所述关联度得到最大关联度,所述最大关联度与关联度阈值比较,得到所述最大关联度大于所述关联度阈值的语义关联文本特征向量n,将所述语义关联文本特征向量n存储至所述关联向量库n-1,得到关联向量库n;

从所述关联向量库n中获取所有语义关联文本特征向量、所述语义关联文本和所述语义关联文本时刻。

要从动态文本库中找出与待分析文本语义相关的文本,提供文本对象或则文本主体的补充,就需要进行文本语义关联度运算,但是,单纯的文本难以通过机器进行关联度的运算,因此,本发明提供的一种实施例中,利用特征向量转化装置3121将文本转化为特征向量的方式进行,当然,在其他实施例中,可以通过其他装置进行。

特征向量转化装置3121要将待分析文本转化为待分析文本特征向量,将动态文本库中的文本分别转化为文本特征向量,动态文本库中有多少文本,就要转化成多少文本特征向量。

比如“讲的真好”转化为“0.1,0.1,0.2,0.1”。“老师上数学课了’转化为“0.2,0.1,0.2,0.1”,“今天同学们学一元二次方程组”转化为“0.3,0.4,0.4,0.2”。

关联向量库设定装置3122所设定的关联向量库中存储待分析特征向量,以及与待分析文本语义相关联的语义关联文本所对应的语义关联文本特征向量,语义关联文本特征向量随着分析的进行不断得到,因此,关联向量库内部所包含的特征向量也会随着计算分析的进行而不断变化,比如,最初的关联向量库1中仅包含待分析文本特征向量,而随着运算的进行,其中的特征向量数量不断地增加,直至对动态文本库中的所有文本都预算完。

语义关联文本筛选装置3123依次计算动态文本库中的各个文本所对应的文本特征向量与各个关联向量的关联度,得到最大关联度,再将最大关联度与关联度阈值比较,如果大于关联度阈值,则作为语义关联文本特征向量,最终得到所有的语义关联文本特征向量,以及对应的语义关联文本和语义关联文本时刻。

利用语义关联文本筛选装置3123,将动态文本库中的文本与关联向量库中的各个关联向量的关联度的计算,得到多个关联度,找出其中最大的关联度,将最大的关联度与关联度阈值比较,可以尽可能地获得语义关联文本,提高分析的准确性。

可以看出,本发明实施例所提供的语义关联文本及语义关联文本时刻获取装置312,不仅与待分析文本进行关联度计算,而且与前一步确定的语义关联文本进行关联度计算,提高了语义关联文本确定的准确性,同时通过将文本转化为特征向量进行计算的方式,也简化了计算过程。

在一种具体实施例中,关联度具体可以为余弦距离的倒数,即余弦距离越小,余弦距离的倒数越大,两文本的语义关联越好。

比如:假设该学生还有一条弹幕”今天天气真好”,那么这条弹幕转化为了向量将是”0.8,0.9,0.8,0.7”,通过计算向量之间的关联度,计算机就会发现这条信息与我们弹幕的信息差别较大,这样若余弦距离大于我们预先设定的关联度阈值,就可以排除这条信息。

经过文本及文本时刻获取装置11得到待分析文本和语义关联文本后,文本排序装置12将其按照待分析文本时刻和语义关联文本时刻的时间先后顺序进行排序,得到排序文本。

比如:我们将前述获得的语义关联文本按照发生的时间顺序,组成序列:

9分40秒-老师上数学课了

10分:-今天同学们学一元二次方程组

10分30秒–讲的真好

最终形成:老师上数学课了今天同学们学一元二次方程组讲的真好这样一个排序文本。

然后,分词装置13得到排序文本后,对其进行文本分词,以获得排序文本分词,为后续的处理做好准备。

比如:对于前述的排序文本,我们将得到文本分析结果,其中情感对象,情感词,谓语等基本元素信息,这里我们可能得到:{老师,讲,真好},{同学们,学,方程组}。

具体对排序文本进行分词处理时,可以选择NLP网络(自然语言处理深度神经网络)进行。

在进行待分析文本的文本情感分析之前,首先需要对NLP网络进行训练,使其获得相应的分词网络参数,在一种具体实施例中,对NLP网络的训练是利用语料库和分词规则进行的。

语料库也就是存放真实文本的数据库,其中包含词,短语,句子,甚至是文章,为提高应用的顺畅性,可以基于应用场景,增加预料库中的文本,比如:基于直播课堂,增加直播课堂相关的语料;而分词规则则为结构化的文本,比如:主谓宾三元组的形式。

比如:直播课堂环境下,有特色的语料有“老师讲课声音真清楚。”这句话就可以作为语料加入语料库。而从这句话,我们可以建立多条分词规则{老师,在,上课},{讲课,有,声音},{声音,有,清楚}等,有了语料库和分词规则,才能解析输入的文本。

可见,经过对于语义关联文本的排序和分词,补充了文本的主体和对象。

请参考图10,图10是本发明实施例另一种文本情感分析系统的结构示意图。

在本发明所提供的文本情感分析系统的一种具体实施例中,情感极性分数计算装置44包括:

分词情感极性分数查找装置441,适于在情感分词词典中的查找所述排序文本分词的情感极性分数,所述情感分词词典中包括情感词和修饰所述情感词的修饰词;

情感极性分数加权计算装置442,适于计算所述情感词和所述修饰词的加权情感分数,获得所述待分析文本的情感极性分数。

分词情感极性分数查找装置441首先在情感分词词典中查找排序文本分词的情感极性分数,情感分词词典中不仅包含情感词,还包括用于修改情感词的修饰词。也就是,经过在情感分词词典中的查找,所得到的文本分析即为情感词和修饰词。

具体修饰词可以是程度词或是非词,这样可以对待分析文本的情感极性的把握更为准确。

情感极性分数加权计算装置442在得到情感词和修饰词分别的情感极性分数后,通过加权运算,得到加权情感分数,最终得到待分析文本的情感极性分数。

比如:我们有了三元信息组{老师,讲,真好},{同学们,学,方程组},我们也有原始文本{讲的真好},我们可以根据情感分词词典,得到情感信息词”真好”,得到情感词“好”的情感极性分数,同时也可以检测修饰词“真”来加权“好”的情感极性分数,分数是二分类,即正向情感和负面情感,通过加权计算,我们可以得到当前文本的“讲的真好”的情感分数,比如正向+0.91,负向-0.09。同时还可以输出情感的对象信息,{老师讲课},方便今后进一步的细化分析。

请参考图11和图12,图11是本发明实施例另一种文本情感分析系统的结构示意图;图12是本发明实施例另一种文本情感分析系统的结构示意图。

在一种具体实施例中,本发明所提供的文本情感分析系统,还包括:

场景文本确定装置55,适于对所述排序文本分词进行场景关联筛选,得到场景关联文本分词;

情感极性分数计算装置54对所述场景关联文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

由于语义关联文本及语义关联文本时刻获取装置212(如图8所示)仅是对与待分析文本语义相关的文本的筛选,如果待分析文本本身与场景无关,仍然可以进行后续的计算。

比如:在直播课程中,待分析文本为“真开心”,前一条的文本为“我们出去玩”,经语义关联,这样两条信息也是可以进行后续分析的,但这两条信息与课堂内容没有关系。

为此,本发明所提供的文本情感分析系统对得到的排序文本分词,还利用场景文本确定装置55进行场景关联筛选,找出与所分析的场景相关联的文本分词,再进行后续的分数计算,这样减少了后续运算的运算量,减少了运算资源的浪费,同时,也降低了与场景无关的分析结果对于后续运算的影响。

情感极性分数计算装置54得到场景关联文本分词后,仅需要对场景关联文本分词进行情感极性分数计算,最终得到待分析文本的情感极性分数。

当然,场景关联筛选也可以在前面进行,但是在分词过程中仍有产生与场景无关的分词的可能性。

具体地,场景文本确定装置65,包括:

相似度计算装置651,适于计算所述排序文本分词与场景文本库中的场景文本的相似度;

文本筛选装置652,适于筛选出所述相似度大于相似度阈值的所述排序文本分词,得到所述场景关联文本分词。

情感极性分数计算装置64再对场景关联文本分词进行情感极性分数计算,获得所述待分析文本的情感极性分数。

比如:对于“我们出去玩真开心”我们可以分析出三元组{我们,玩,开心},我们可以将这个三元组与我们预先定义的场景如{课堂,老师…}等信息做相似度检测,相似度是一个数值,比如这里网络输出相似度只有0.1,小于我们设定的相似度阈值的0.5,这条信息就被筛掉了。

可见,对排序文本分词进行场景关联筛选,找出与所在场景相关的文本分词,仅对场景关联文本分词进行情感分析,去除了与场景不相关的文本分词,从而达到对特定场景下特定对象情感分析的目的,进一步提升情感预测的准确性,也提高基于需要而进行统计的统计结果准确性。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如前述的文本情感分析方法。保证了在进行待分析文本的情感分析时,通过语义关联文本的结合,在一定程度上解决了仅有一个文本而造成的文本不完整、缺少评价对象和评价主体的问题,同时,将语义关联文本和待分析文本按照时间顺序进行排列,可以提高所补充的评价主体和评价对象与待分析文本结合的准确性,同时经过分析最终得到情感极性分数,不仅了解了待分析文本的情感极性,还可以了解情感极性的强度,在提高了对待分析文本情感分析的准确性的基础上可以及时地获得情感分析的结果。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1