基于词典的多维度情感分析方法与流程

文档序号:11063478阅读:644来源:国知局
基于词典的多维度情感分析方法与制造工艺

本发明自然语言处理领域,特别涉及基于词典的多维度情感分析方法。



背景技术:

随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。

而情感分析主要有两大类方法,一类是基于机器学习的方法,另一类是基于词典的方法。基于机器学习的方法首先是构建分类器,将待分析文本输入到分类器中进行进行分析。这种方法的局限在于,构建分类器,需要大规模语料来对分类器进行训练,而且分类特征的选择也非常具有挑战,特征选择的优劣将直接影响分类器的性能。基于词典的方法,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。

基于词典的情感分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果。

此外,现阶段的情感分析需求的维度越来越多,对同一目标群体的分析方向也越来越细致,针对不同的分析维度需要构建不同的词典来进行相应的特征抽取,现有的方法中不同分析方向的词典都是分开进行构建的,逐一手动构建词典的方式非常的耗时耗力,增加了对目标群体进行全面多方位分析的难度,从技术实现上来说增加了项目的工时,延长了项目的交期。



技术实现要素:

本发明的目的在于克服现有技术中所存在的上述不足,提供基于词典的多维度情感分析方法,在初始文本集中自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中;在词典的基础上对目标对象相关文本进行对应特征抽取,并且结合模型算法判断出目标对象各个方向的情感倾向。

为了实现上述发明目的,本发明提供了以下技术方案:基于词典的多维度情感分析方法,包含以下实现步骤:

(1)构建初始文本集;

(2)提取出初始文本集中各文本的关键词;

(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;

(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;

(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

(7)利用的构建的领域词典对待分析文本进行特征抽取,结合权重模型计算出对应领域方向的情感倾向。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性,r是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:

(3-1)初始时,每个待处理文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。

作为一种优选,所述步骤(4)中,各领域所选取的种子词的个数为30-150个。

进一步的,所述步骤(4)顺序可移到所述步骤(1)、步骤(2)和,或者步骤(3)之前。

作为一种优选,所述步骤(5)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。

作为一种优选:所述步骤(6)中候选词与种子词的关联度计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。

进一步的,所述步骤(7)包含以下实现过程:

(7-1)对所要分析的文本进行包括分词、去高频词、去停用词的预处理步骤;

(7-2)对同一分析对象,逐一使用构建好的领域词典来抽取相关文本对应的特征;将文本中属于领域词典的词作为特征词抽取出来;

(7-3)根据抽取的词,结合计算模型,计算出对应领域的情感倾向,最终得到该分析对象在各领域的情感倾向。

与现有技术相比,本发明的有益效果:本发明提供基于词典的多维度情感分析方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;根据分析方向构建M个领域,选取各领域的种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。词典构建的准确性更强,构建效率更高。本发明方法种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明方法所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。

本发明方法在较短的时间内可以构建数个词典,并在词典的基础上,逐一依次自动抽取目标文本的相关特征,并结合相关的算法模型计算出各领域的情感倾向。本发明方法实现的情感分析是多维度,分析的效率更高,对同一目标对象的情感倾向分析更加全面客观,刻画更为细致。在商业调查和个体异常情感倾向预判有重要的应用。

附图说明:

图1为本基于词典的多维度情感分析方法的实现步骤图。

图2为本基于词典的多维度情感分析方法步骤(6)的实现过程图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

提供基于词典的多维度情感分析方法,在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的对应领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。本发明方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;此外本发明方法根据需要分析的方向,选定相关的种子词,在较短的时间内可以构建数个对应领域的词典,在多个词典的基础上抽取对应的特征,结合对应的权重算法对到对应领域的情感倾向;使得分析的视角更加全面,分析的结果更加准确。

为了实现上述发明目的,本发明提供了以下技术方案:基于词典的多维度情感分析方法,包含如图1所示的以下实现步骤:

(1)构建初始文本集,所述初始文本集的可以在待分析对象的相关文本中随机选取;

(2)通过textrank方法提取出初始文本集中各文本的关键词;

(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;

(4)构建M个领域,选取各领域的种子词,其中M为整数,且M≤N;根据分析方向选取种子词,对于具体领域或者问题的针对性更强,所构建的词典的适用更加灵活;

(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。

通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。

(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。

(7)利用的构建的领域词典对待分析文本进行特征抽取,结合权重模型计算出各领域方向的情感倾向。

具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。

进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:

TR(vi)是文本中词vi的重要性。r是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。

通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。

进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:

(3-1)初始时,每个文本各自为一个类;

类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:

其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:

Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}

其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb

(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;

(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;

(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。

作为一种优选,所述步骤(4)中,所抽取的领域种子词的数量为30-150个。选取的种子词过少,将影响领域词典扩展的准确性,过多则将增加选取的人力和时间成本。

作为一种优选;所述步骤(5)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;

作为一种优选:所述步骤(6)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:

其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。

作为一种优选,所述步骤(6)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(6)的计算过程如图2所示。

进一步的,所述步骤(7)包含以下实现过程:

(7-1)对各待分析目标对象的相关文本(比如评价,日志,说说,微博,博客内容等文本)进行包括分词、去高频词、去停用词的预处理步骤;

(7-2)对同一分析对象,逐一使用构建好的领域词典来抽取文本对应的领域词,将文本中属于领域词典的词作为特征词抽取出来;

(7-3)根据抽取出的特征词,结合计算模型,计算出对应领域的情感倾向,最终得到该分析对象在各领域的情感倾向。

经过本分析方法得到同一目标的多纬度情感倾向;相比于单一情感分析,本发明方法实现的情感分析在各方向的分析更有针对性,方向更加多元化,分析结果更加全面。使用本发明方法可以快速分析出用户全面的兴趣喜好,提供更符合用户需求和喜好的产品或服务;通过本发明方法也可以快速分析出目标对象的各个方向的情感倾向,建立多角度,全方位的情感倾向图,可以及时发现个体异常倾向,以便做出合理的引导。

实施例1

假如有如下分析需要:处于青春期的学生,由于多方面的因素,在与家长、老师的沟通方面,部分会表现得很消极,要么逃避、要么拒绝、实在不行就敷衍。这种不良沟通让长辈无法掌握到学生的思想动态,更不能及时的给予正确的引导。随着互联网的发展,网络社交已经融入到了每个人的生活之中。与现实不同的是,网络社交是以虚拟技术为基础的,人与人之间的交往是以间接交往为主,青少年在网络社交中能够充分地释放自己,能够轻松地、自在地吐露自己的心声、表达自己的观点。通过对青少年网络言论文本的情绪分析,可以从多个维度对学生在网络上所呈现的思想动态进行勾勒,当发现个别个体异常情况,可以针对性的进行合理的引导,使青少年的成长更加健康。

经过分析,青春期学生情绪分析的重要方面,主要以发现个体异常为主,可以选择为恋爱、暴力、自闭、社交障碍等方向。本发明方法可以构建多个专属领域词典,在多个维度对青少年情感倾向进行全自动分析。下面以恋爱和暴力倾向判断为例来说明本发明方法的实现过程,应该理解本发明方法不限于本实施例。

随机初步选取1000件青少年相关言论和状态文本作为初始文本集;对初始文本集中的文本进行分词,去高频词和去停用词的预处理;在此基础上通过textrank算法来提取初始文本集各文本中的关键词;根据各文本关键词对初始文本集中的文本进行聚类,经过迭代聚类后剩下3个主题,假如第一主题集中包含350件文本,第二主题文本集中包含350件文本;第三主题文本集中包含300件文本。根据分析需要,欲设置两个领域词典,通过人工挑选,在恋爱领域挑选30个种子词;在暴力领域中挑选出40个种子词。

先计算恋爱词典与聚类后主题集之间的远近:统计恋爱种子词在第一主题文本集中的出现频率;假设在第一主题文本集所包含的关键字总数为1000个,其中属于恋爱种子词的个数为350个,那么种子词出现的频率为350/1000=35%;第二主题集包含的关键字总数为1500个,其中属于恋爱种子词的个数为200个,对应的种子词的出现频率为200/1500≈13.33%;第三主题集中所包含的关键字总数为1200个,其中属于恋爱种子词的个数为100个,对应的种子词的出现概率为:100/1200≈8.33%;经过比较认为只有第一主题文本集与恋爱的相关度最高,将第一主题文本集作为恋爱词典扩展的源文本集;计算第一主题文集中各文本中各候选词与恋爱各种子种子词的关联程度,将关联程度大于阈值的候选词添加到恋爱词典中。

计算暴力词典与聚类后主题集之间的远近,假设第一主题文本集中关键字属于暴力词典领域的种子词的个数为100个,对应的种子词的出现频率为150/1000=15%;第二主题文本集中关键字属于暴力词典的种子词的个数为600个,对应的种子词的出现频率为600/1500=40%;第三主题文本集中关键字属于暴力词典的种子词的个数为80个,对应的种子词的出现频率为80/1200≈6.67%;经过比较认为只有第二主题文本集与暴力词典的相关度最高,将第二主题文本集作为暴力词典扩展的源文本集;计算第二主题文集中各文本中各候选词与暴力词典各种子种子词的关联程度,将关联程度大于阈值的候选词添加到暴力词典中。

经过上面的分析过程,自动建立了恋爱和暴力词典。

在恋爱和暴力词典的基础上,进行情感分析,具体的过程包括:获取待分析目标对象一时间段内的相关言论或者日志文本,通过所构建的词典来进行特征抽取,将属于词典中的词汇作为保留词,将不属于词典中的词舍弃。

结合一下模型公式,计算该目标的恋爱倾向程度。

根据相关测试,模型可采用如下公式来进行表示:

q:用户所发表日志中,出现恋爱词汇的天数。

p:用户所发表日志中,统计得到的总天数。

t:用户所发表日志中,有恋爱词汇出现的日志条数。

d:用户所发表日志中,统计得到的总日志条数。

scale:归一化系数,取的所有计算结果中的,大于其最大值的整数。

Wi为特征词,W(k):wi在W集中的k值,L(k):wi在L集中的k值,W集计算以待用户为单位;W(tfi)=Wi出现次数/该用户总词数,W(idfi)=log((总用户数+1)/(包含Wi的用户数+1)),L集计算以日志条数为记录;L(tfi)=Wi出现次数/所有用户、所有日志总词数,L(idfi)=log((总日志条数+1)/(包含Wi的日志条数+1))。

通过上述模型,可以计算出目标的恋爱倾向。类似的,根据暴力倾向词典,并结合相关模型可计算出目标的暴力倾向值,具体的过程不再赘述。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1