一种多维度情感分析系统的制作方法

文档序号:11918487阅读:194来源:国知局
一种多维度情感分析系统的制作方法与工艺

本发明自然语言处理领域,特别涉及一种多维度情感分析系统。



背景技术:

随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。

而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。

基于词典的情感分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果。

此外,随着情感分析需求的维度越来越多,对同一目标群体的分析角度也越来越细致,目前还缺乏能够进行快速多维度情感分析相关工具。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供一种多维度情感分析系统,可以根据目标对象的相关文本,快速的分析出多个维度的情感倾向,为多维度全方位的情感分析提供有力工具。

为了实现上述发明目的,本发明提供了以下技术方案:一种多维度情感分析系统,包括词典构建系统和情感分析系统;所述词典构建系统在多个领域种子词的基础上实现多个领域词典的自动构建,所述情感分析系统根据所述词典构建系统所构建的多个领域词典来抽取待分析目标的对应领域特征,并在特征抽取的基础上结合已存储的情感分析计算模型,计算出各个领域的情感倾向判断结果。

具体的,所述词典构建系统的词典构建包括以下实现步骤:

(1)根据输入词典构建系统中的初始文本集,提取出初始文本集中各文本的关键词;

(2)对初始文本集进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(3)根据输入词典构建系统中各领域种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;

(4)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。根据上述过程,构建起了M个领域的领域词典。

所述情感分析系统的情感分析包含以下实现步骤:

(5-1)对同一分析对象,依次使用所述词典构建系统所构建的词典来抽取相关文本对应的特征;将文本中属于领域词典的词作为特征词抽取出来;

(5-2)根据抽取的词,结合已存储的计算模型,计算出对应领域的情感倾向,最终得到该分析文本在各领域的情感倾向判断结果。

进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性,r是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:

(2-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。

作为一种优选,所述步骤(4)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。

作为一种优选:所述步骤(4)中候选词与种子词的关联度计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。

进一步的,所述系统还包括文本输入系统和预处理系统;所述文件输入系统将需要分析的文件输入所述文本预处理系统中;所述文本预处理系统对文本进行包括:分词、去高频词、去停用词的文本的预处理;所述文本预处理系统将经过预处理后的文本输入到词典构建系统和情感分析系统中。

进一步的,所述词典构建系统从预处理系统输入文本中,随机抽取设置数量的文本,构成初始文本集。

进一步的,本多维度情感分析系统为加载有上述多维度情感分析功能的计算机或服务器。

与现有技术相比,本发明的有益效果:本发明提供一种多维度情感分析系统,所述词典构建系统实现多个领域词典的自动构建;所述目标对象情感倾向分析系统根据所述词典构建系统所构建的多个领域词典,结合对应的模型计算出待分析对象的多维度情感倾向判断结果。本发明系统在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;根据分析方向构建M个领域,选取各领域的种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为对应领域词存入对应的词典中。词典构建的准确性更强,构建效率更高。

本发明系统种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明系统所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。

本发明系统在较短的时间内可以构建数个词典,并在词典的基础上,逐一依次自动抽取目标文本的相关特征,并结合相关的算法模型计算出各领域的情感倾向。

本发明系统实现的情感分析是多维度,分析的效率更高,对同一目标对象的情感倾向分析更加全面客观,刻画更为细致。在商业调查和个体异常情感倾向预判提供有力工具。

附图说明:

图1为本多维度情感分析系统的系统结构示意简图。

图2为本多维度情感分析系统的系统结构示意图。

图3为本多维度情感分析系统的优选系统结构图示意。

图4为本多维度情感分析系统步骤(4)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供一种多维度情感分析系统如图1所示,包括词典构建系统和情感分析系统;所述词典构建系统在多个领域种子词的基础上实现多个领域词典的自动构建;所述情感分析系统根据所述词典构建系统所构建的多个领域词典来抽取待分析目标的对应领域特征,并在特征抽取的基础上结合已存储的情感分析计算模型,计算出各个领域的情感倾向。

具体的,本发明系统如图2,图3所示,还包括:文件输入系统和文本预处理系统,所述文件输入系统将需要分析的文件输入所述文本预处理系统中进行包括:分词、去高频词、去停用词的文本的预处理,所述文本预处理系统将经过预处理后的待分析文本分别输入到词典构建系统和情感分析系统中;

其中所述词典构建系统根据在待分析文本中随机抽取部分文本(初始文本集)来进行词典构建;所述词典构建系统在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集。根据输入(或存储于词典构建系统)的M个领域的种子词(所述种子词可以根据分析需要人工选取),逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为对应领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。通过上述步骤快速构建出M个领域词典。本发明系统,词典构建系统在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,本发明系统根据用户需要分析的方向,选定相关的种子词,领域的针对性很强。

所述情感分析系统使用所述词典构建系统多构建的各个领域词典来抽取待分析对象的相关文本特征,结合计算模型计算出各领域方向的情感倾向。

具体的,所述词典构建系统,今天词典构建包含以下实现步骤:

(1)通过textrank方法提取出初始文本集中各文本的关键词;采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性。r是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。

(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;聚类过程包括以下实现步骤:

(2-1)初始时,每个文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。

(3)根据输入的各个领域的种子词(第一领域种子词,第二领域种子词,第三领域种子词……第M领域种子词),其中M为≤N的正整数;依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集。通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。

(4)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中,计算过程如图4所示。

候选词与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。

作为一种优选,所述步骤(4)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(4)的计算过程如图4所示;经过上述过程得到M个领域词典(第一领域词典,第二领域词典,第三领域词典……第M领域词典)。

所述情感分析系统实现多维度情感分析包含如下实现过程:

(5-1)对同一分析对象,逐一使用构建好的领域词典来抽取文本对应的领域词,将文本中属于领域词典的词作为特征词抽取出来;

(5-2)根据抽取出的特征词,结合情感分析系统中所存储的对应计算模型(如图2中的第一模型、第二模型、第三模型……第四模型,各个领域情感分析的计算模型根据实际情况而构建,将构建好的计算模型存储于情感分析系统中,在进行对应方向情感分析时,调用对应的模型),计算出分析在对应领域的情感倾向,最终得到该分析对象在各领域的情感倾向。

经过本分析系统得到同一目标的多纬度情感倾向;本发明系统实现的情感分析在各方向的分析更有针对性,方向更加多元化,分析结果更加全面。为相关商业分析和目标群体监督提供有力分析工具。

进一步的,本多维度情感分析系统为加载有上述情感分析功能的计算机或服务器。

实施例1

假如有如下分析需要:对处于青春期的学生的相关文本(例如网络言论、日志、说说、微博等)进行情感分析,以及时发现个别个体异常情绪倾向,以便进行进行合理的引导。选择恋爱、暴力、轻生、不文明为主要分析方向。根据所分析的方向,分别选取恋爱,暴力,轻生、不文明更领域的种子词;将需要分析的青少年群体网络言论经过文本输入系统输入到预处理系统中;预处理系统对文本进行分词,去高频词,去停用词等处理后,随机抽取部分文本作为初始文本输入到词典构建系统中。下面以恋爱和暴力倾向判断为例来说明本发明系统的实现过程,应该理解本发明系统不限于本实施例。

随机选取1000件青少年相关言论和状态文本作为初始文本集;所述词典构建系统在此基础上通过textrank算法来提取初始文本集各文本中的关键词;根据各文本关键词对初始文本集中的文本进行聚类,经过迭代聚类后剩下3个主题,假如第一主题集中包含350件文本,第二主题文本集中包含350件文本;第三主题文本集中包含300件文本。根据分析需要,欲设置两个领域词典,通过人工挑选,在恋爱领域挑选30个种子词;在暴力领域中挑选出40个种子词。

先计算恋爱词典与聚类后主题集之间的远近:统计恋爱种子词在第一主题文本集中的出现频率;假设在第一主题文本集所包含的关键字总数为1000个,其中属于恋爱种子词的个数为350个,那么种子词出现的频率为350/1000=35%;第二主题集包含的关键字总数为1500个,其中属于恋爱种子词的个数为200个,对应的种子词的出现频率为200/1500≈13.33%;第三主题集中所包含的关键字总数为1200个,其中属于恋爱种子词的个数为100个,对应的种子词的出现概率为:100/1200≈8.33%;经过比较认为只有第一主题文本集与恋爱的相关度最高,将第一主题文本集作为恋爱词典扩展的源文本集;计算第一主题文集中各文本中各候选词与恋爱各种子种子词的关联程度,将关联程度大于阈值的候选词添加到恋爱词典中。

计算暴力词典与聚类后主题集之间的远近,假设第一主题文本集中关键字属于暴力词典领域的种子词的个数为100个,对应的种子词的出现频率为150/1000=15%;第二主题文本集中关键字属于暴力词典的种子词的个数为600个,对应的种子词的出现频率为600/1500=40%;第三主题文本集中关键字属于暴力词典的种子词的个数为80个,对应的种子词的出现频率为80/1200≈6.67%;经过比较认为只有第二主题文本集与暴力词典的相关度最高,将第二主题文本集作为暴力词典扩展的源文本集;计算第二主题文集中各文本中各候选词与暴力词典各种子种子词的关联程度,将关联程度大于阈值的候选词添加到暴力词典中。经过上面的分析过程,自动建立了恋爱和暴力词典。

在词典的基础上进行情感分析,具体的过程包括:将经预处理后的相关文本输入到情感分析系统中;所述情感分析系统根据所构建的词典来获取同一待分析目标对象一时间段内的相关言论或者日志文本的特征,将属于词典中的词汇作为特征词保留词,将不属于词典中的词舍弃。

结合一下模型公式,计算该目标的恋爱倾向程度。

根据相关测试,模型可采用如下公式来进行表示:

q:用户所发表日志中,出现恋爱词汇的天数。

p:用户所发表日志中,统计得到的总天数。

t:用户所发表日志中,有恋爱词汇出现的日志条数。

d:用户所发表日志中,统计得到的总日志条数。

scale:归一化系数,取的所有计算结果中的,大于其最大值的整数。

Wi为特征词,W(k):wi在W集中的k值,L(k):wi在L集中的k值,W集计算以待用户为单位;W(tfi)=Wi出现次数/该用户总词数,W(idfi)=log((总用户数+1)/(包含Wi的用户数+1)),L集计算以日志条数为记录;L(tfi)=Wi出现次数/所有用户、所有日志总词数,L(idfi)=log((总日志条数+1)/(包含Wi的日志条数+1))。

通过上述模型,可以计算出目标的恋爱倾向。类似的,根据暴力倾向词典,并结合相关模型可计算出目标的暴力倾向值,具体的过程不再赘述。最终,得到待分析目标对象的多维度情感分析结果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1