一种评价信息的抽取方法、装置及设备与流程

文档序号:15588341发布日期:2018-10-02 18:39阅读:227来源:国知局

本发明涉及计算机领域,特别涉及一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质。



背景技术:

评价信息抽取,是指将人们关心的评价信息从评价文本中抽取出来的过程。评价信息抽取属于情感信息抽取的范畴,情感信息抽取是情感分析的底层任务,情感分析是一个对带有情感色彩的主观性文本进行提取、分析、处理、归纳和推理的过程,在情感分析的过程当中,情感信息的抽取效果与上层情感分析的结果有直接关系,如果关于情感的关键信息没有被抽取出来,无论上层的分析工具如何完备,其结果都会不同于原文所表达的情感,可见,如何从评价文本中抽取出评价信息非常具有研究意义。

目前,一种常见的评价信息抽取方法是基于条件随机场模型的序列标注的抽取方法。该方法将已知评价信息的评论文本作为训练集,以未知评价信息的评论文本作为预测集,通过分词工具将训练集中的每条评论文本由句子切分成若干个有序的词,得到词序列,并对词序列进行标注。利用标注后的训练集对模型进行训练,然后把预测集输入到训练好的模型,模型将输出对预测集的标注结果,最后,标注结果将被输入到若干个被称为特征模版的自定义函数中,由特征模版筛选出评价信息。

但是,基于条件随机场模型的序列标注的抽取方法为了达到较好的抽取效果,常常在上述标注操作之后为每个词构建词特征,如当前词的词性、当前词的前一个词或后一个词的词性等等,和词关系特征,如当前词与上一个词是定语关系等,模型训练耗时巨大,而处理标注结果带来的特征模版定制也非常复杂,在大量文本数据下的评价信息抽取的情况下模型几乎无法训练。

另一种常见的评价信息抽取方法,基于语法规则或句法依存结构的抽取方法,基于语法规则的抽取方法通过挖掘评论文本的语法规律,建立若干语法规则构成规则模版库,然后以规则模板库为参考在评论文本中进行匹配搜索,符合规则模版的词则输出为评价信息。基于语法依存结构的抽取方法先通过对评论文本进行依存结构分析,识别出可能含有评价信息单元,最后通过一定的规则对信息单元进行筛选处理,输出评价信息。

但是,基于语法规则的抽取方法严重依赖规则模版库,但规则模版库是难以穷尽评论文本的信息表达规律的,其抽取效果存在很大的实操局限性。而基于句法依存结构的抽取方法需要进行复杂的句法分析,对于信息单元的处理同样也需要建立复杂的规则,这使得整体的抽取模型更加复杂。

可见,如何降低抽取评价信息的复杂度,是丞待本领域技术人员解决的问题。



技术实现要素:

本发明的目的是提供一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质,用以解决传统评价信息抽取复杂度较高的问题。

为解决上述技术问题,本发明提供了一种评价信息的抽取方法,包括:

对评论文本进行分词,得到由多个词组成的词序列;

遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词;

计算各个所述词对中词与词之间的相似度,得到多个相似度值;

确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

其中,所述对评论文本进行分词,得到由多个词组成的词序列包括:

根据参考词典对评论文本进行分词,得到由多个词组成的词序列;

过滤所述词序列中的停用词。

其中,所述根据参考词典对评论文本进行分词,得到由多个词组成的词序列包括:

预先确定需要抽取的评价对象,和/或评价用语,并构建观测词典;

构建命名实体词典;

根据所述观测词典和所述命名实体词典对评论文本进行分词,得到由多个词组成的词序列。

其中,所述遍历所述词序列,将所述词与满足预设条件的词组成词对包括:

遍历所述词序列,确定所述词序列中满足预设要求的词;

将所述满足预设要求的词与满足预设条件的词组成词对。

其中,所述遍历所述词序列,确定所述词序列中满足预设要求的词包括:

遍历所述词序列,计算所述词序列中的所述词的近似词集合相似度;

确定所述词序列的中所述近似词集合相似度大于预设阈值的词。

其中,所述遍历所述词序列,确定所述词序列中满足预设要求的词包括:

遍历所述词序列,确定所述词序列中词性为预设词性的词;

所述将所述满足预设要求的词与满足预设条件的词组成词对包括:

将词性为所述预设词性的词,与满足预设条件的词组成词对;

判断各个所述词对是否满足预设词性搭配要求;

若所述词对不满足预设词性搭配要求,则删除该词对。

其中,所述遍历所述词序列,将所述词与满足预设条件的词组成词对包括:

分别根据多种抽取规则,遍历所述词序列,将所述词与满足预设条件的词组成分别与所述抽取规则相对应的词对;

所述计算各个所述词对中词与词之间的相似度,得到多个相似度值包括:

分别计算根据各种所述抽取规则得到的词对中词与词之间的相似度,得到与所述抽取规则相对应的多个相似度值;

所述确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来包括:

预先为各个所述抽取规则设置对应的权重值,并为所述相似度值赋予与所述相似度值相对应的所述抽取规则的所述权重值;

将根据各种所述抽取规则得到的词对进行合并,并判断是否存在相同的词对,若存在,则将所述词对对应的相似度值进行叠加,并删除所述词对;

确定合并后的词对的所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

本发明还提供了一种评价信息的抽取装置,包括:

分词模块:用于对评论文本进行分词,得到由多个词组成的词序列;

组词模块:用于遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词;

相似度值计算模块:用于计算各个所述词对中词与词之间的相似度,得到多个相似度值;

评价信息抽取模块:用于确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

此外,本发明还提供了一种评价信息的抽取设备,包括:

存储器:用于存储计算机程序;

处理器:用于执行计算机程序,以实现如上所述的一种评价信息的抽取方法的步骤。

最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种评价信息的抽取方法的步骤。

本发明所提供的一种评价信息抽取方法,通过对评论文本进行分词,得到由多个词组成的词序列,在得到词序列之后,只需要将词分别与该词相邻的预设个数的词组成词对,然后计算各个词对的相似度,并从中确定相似度最大的预设个数的词对,最后将其作为评价信息抽取出来,避免了对整句评论文本的分析,不需要预先已标注的训练词序列,也不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度。

此外,本发明还提供了一种评价信息的抽取装置、设备以及一种计算机可读存储介质,其作用与上述方法相对应,这里不再赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种评价信息的抽取方法实施例一的实现流程图;

图2为本发明提供的分词以及停用词过滤的过程示意图;

图3为本发明提供的候选窗口式抽取的过程示意图;

图4为本发明提供的一种评价信息的抽取方法实施例二的实现流程图;

图5为本发明提供的一种评价信息的抽取装置的实施例的结构框图。

具体实施方式

本发明的核心是提供一种评价信息的抽取方法、装置、设备以及一种计算机可读存储介质,显著降低了抽取评价信息的复杂度。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面对本发明提供的一种评价信息的抽取方法实施例一进行介绍,参见图1,实施例一包括:

步骤s110:对评论文本进行分词,得到由多个词组成的词序列。

对于评论文本的内容,可以依据具体的场景需求去确定,例如,为了了解用户对于某产品的喜好,该评论文本可以为关于产品的评论信息。对于评论文本的获取途径,可以从微博、论坛、博客等途径来获取,本发明对此不做限定。

在本发明实施例中,关于词序列的定义,具体为,将评论文本从句子的形式切割成若干个有序的词,词和词之间按照在句子中出现的先后顺序进行排列,这个排列称为词序列。

对于步骤s110,具体的,为了保证分词的准确率,可以根据参考词典对评论文本进行分词。

为了进一步保证分词的效果,同时,也为了使得本发明具有更好的文本场景适应性,可以根据多种参考词典进行分词。例如,对于步骤s110,可以具体为预先确定需要抽取的评价对象,和/或评价用语,并构建观测词典,并构建命名实体词典,然后,根据所述观测词典和所述命名实体词典对评论文本进行分词,得到由多个词组成的词序列。需要说明的是,这里的观测词典指的是,在抽取评价信息之前,先确定此次抽取比较关心的评价对象或者是评价用语,将这些评价对象或评价用语组成的词典就叫做观测词典,因此,根据参考词典进行分词,可以使分词效果更加理想化。另外,观测词典还可以通过人工直接进行干预,使得分词过程得到更直观的控制。

作为一种更加优选的方式,在本发明实施例中,可以预先构建评价对象词典、倾向观测词典和命名实体词典三种词典,然后根据评价对象词典、倾向观测词典和命名实体词典对评论文本进行分词。其中,评价对象词典指的是包括一系列评价对象、以及评价对象属性的词典,这样一来,假设想要抽取的是关于手机的评价信息,那么,可以预先构建包括一系列手机、以及手机屏幕、续航能力等手机属性的词典,那就可以保证分词过程中能够将关于手机和手机属性的词识别出来;倾向观测词典,指的是包含一种或多种评价倾向的评价用语的词典,例如,如果抽取信息时,我们比较关心的是关于a时间的正面评价,那么我们可以构建包括同一系列正面形容词的词典,而且,还可以对倾向观测词典直接进行人工干预,从而更加直观的影响分词效果;命名实体词典,是一种通用的为了识别文本场景中的专用词或特殊名词而构建的词典,这次不再详细介绍。

在分词完成之后,为了减小后续步骤的复杂程度,可以对词序列进行停用词过滤。这里的停用词指的是评论文本中的一些功能词,也就是只是为了组织句子但并无实际含义的词。例如,参见图2,评论文本为“这次发布的iphonex的屏幕很特别”,经过分词之后,得到“这次发布的iphonex的屏幕很特别”,过滤停用词之后,就会得到“发布iphonex屏幕很特别”。

另外,关于评论文本的文本长度,可以根据实际需求,对其进行限定,本实施例对此不做具体描述。

步骤s120:遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词。

需要说明的是,这里所提及的第一预设个数和第二预设个数可以相等,也可以不相等,甚至,第一预设个数或第二预设个数可以为零,但是不能同时为零。

具体的,可以采用候选窗口式,例如,如图3所示,窗口大小设置为2,词序列为{这次、的、发布、iphonex、屏幕、很、特别},当遍历到“屏幕”这个词时,将“屏幕”与在词序列中“屏幕”前的两个词,即“发布”、“iphonex”,以及“屏幕”后的两个词,即“很”、“特别”,分别组成词对。也可以采用滑动窗口式,这里不再详细描述。这种方式,避免了对整句评论文本的分析,同时,窗口大小可以调整,使得本发明具有更好的文本场景适应性。

另外,这里组成的词对的形式,可以进一步限定为“评价对象,评价用语”的形式。

作为一种优选方式,为了进一步简化算法,步骤s120可以进一步具体为,遍历词序列,确定词序列中满足预设要求的词,将满足预设要求的词与满足预设条件的词组成词对。例如,遍历词序列,确定词序列中在评价对象词典中的词,将该词与满足预设条件的词组成词对;再例如,遍历词序列,计算词的近似词集合相似度,确定词序列中近似词集合相似度大于预设阈值的词,将该词与满足预设条件的词组成词对;最后,还可以遍历词序列,确定词序列中词性为名词的词,将该词与满足预设条件的词组成词对。对于其他预设要求,本实施例不再一一列举。

甚至,在上述优选方式的基础之上,还可以对组成的词对进行进一步筛选,从而进一步简化后续算法复杂度。当然,即便不采取上述优选方式,也可以对组词后得到的词对进行筛选。

步骤s130:计算各个所述词对中词与词之间的相似度,得到多个相似度值。

具体的,可以预先利用较为全面的中文语料库以及文本场景下的评论文本对word2vec模型进行训练,然后利用该模型计算词对中词与词之间的相似度。需要说明的是,这里的相似度指的是,基于概率统计得到的一个0到1之间的实数,反映了词与词在上下文同时出现的关联程度。

作为优选方式,经过步骤s130之后,结果可以为一个信息对集合,其中,信息对可以为“评价对象,评价用语,相似度值”的形式。

步骤s140:确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

对于步骤s140,具体可以先将上述步骤得到的信息对集合,按照相似度值由大到小的顺序排列,并预先确定第三预设个数,从排列中选出前第三预设个数的词对,并将其作为评价信息抽取出来。

需要特别注意的是,评价信息抽取不一定一次就能抽取到满意的结果,当抽取结果不理想时,可以调整一些参数,例如本实施例中的第一预设个数、第二预设个数以及第三预设个数等,具体操作可以根据实际情况而定,本实施例对此不再详细说明。

本实施例所提供一种评价信息抽取方法,通过对评论文本进行分词,得到由多个词组成的词序列,在得到词序列之后,只需要将词分别与该词相邻的预设个数的词组成词对,然后计算各个词对的相似度,并从中确定相似度最大的预设个数的词对,最后将其作为评价信息抽取出来,避免了对整句评论文本的分析,不需要预先已标注的训练词序列,也不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度。

考虑到在进行评价信息抽取的过程中,不同的抽取规则可能有各自的偏向性,导致只依赖一种抽取规则可能得到的结果不够准确,因此,本发明提供了一种评价信息的抽取方法实施例二。

下面开始详细介绍本发明提供的一种评价信息的抽取方法实施例二,参见图4,实施例二具体包括:

步骤s410:根据评价词典、观测词典以及命名实体词典对评论文本进行分词,得到由多个词组成的词序列。

步骤s420:对词序列进行标注,得到与词序列相对应的词性序列。

标注指的是为每个词打上标签,例如,是否为形容词,是否为名词等等。

步骤s431:对词序列进行基于评价词典的候选窗口式抽取,得到第一信息对集合。

对于步骤s431,具体可以分为以下七步:

1)设置候选窗口大小,记为i,i可以根据抽取效果进行调整,初始化第一信息对集合,记为c1,此时c1为空集;

2)输入词序列,记为w1,w2,……wn,……wp,其中,p为词序列包含的总词数,n=1,2,……,p,利用评价词典对词序列进行逐词的匹配搜索;

3)遍历词序列,判断wn是否属于评价词典,若属于,执行下一步,否则执行第6)步;

4)以wn为中心,候选窗口i为半径,以上下文两个方向生成一个包含共2i+1个词的信息提取窗口,并以wn作为评价对象,其余所有词(记为im1,im2,……im2i)作为评价用语,构成2i个“评价对象,评价用语”对;

5)用word2vec模型计算每对“评价词,信息词”中评价对象与评价用于的相似度(记为asim,且0<asim<1),记为(wnim1asim1)、(wnim2asim2)……(wnim2iasim2i),并添加到信息对集合c1中;

6)判断词序列中是否还存在未做匹配处理的词,是则回到第3)步,否则执行下一步;

7)保存信息对集合c1。

步骤s432:对词序列进行基于近似词集合相似度的候选窗口式抽取,得到第二信息对集合。

这里的,近似词集合是由若干词构成的集合,该集合中的所有词都为某个词的近似词。近似词由word2vec模型计算得出,近似词数量可由人为指定,而某个词与哪些词近似与训练word2vec模型的语料库有关。而某个词的近似词集合相似度,是指近似词集合中同时被评价词典收录过的词的数量与近似词集合总数的比值,介于0~1之间,它反映了词与评价词典的相似度,即是否可以将该词视作评价对象的可能性。

对于步骤s432,具体可以分为以下七步:

1)设置候选窗口大小,记为j,j可以根据抽取效果进行调整;设置近似词集合相似度阈值,记为tv;初始化第二信息对集合,记为c2,此时c2为空集;

2)输入词序列,记为w1,w2,……wn,……wp,p为词序列包含的总词数,n=1,2,……,p;

3)利用word2vec模型计算wn的近似词集合相似度,记为tn;

4)判断tn是否大于阈值tv,是则执行下一步,否则执行第6)步;

5)同基于评价词典的抽取方式计算出wn相关的相似度,记为bsim,且0<bsim<1,生成信息对,记为(wnim1bsim1)、(wnim2bsim2)……(wnim2jbsim2j),并加入到第二信息对集合c2中;

6)判断词序列是否还存在为做匹配处理的词,是执行3)步,否则执行下一步

7)保存第二信息对集合c2。

步骤s433:根据词性序列,对词序列进行基于词性搭配的滑动窗口式抽取,得到第三信息对集合。

对于步骤s433,具体可以分为以下四步:

1)设置滑动窗口大小,记为k,k可以根据抽取效果进行调整,初始化第三信息对集合,记为c3,此时c3为空集;

2)输入词序列,记为w1,w2,……wn,……wp,p为词序列包含的总词数,n=1,2,……,p;

3)从头至尾提取词序列的k个词,以词性搭配为规则,利用word2vec模型计算词相似度,记为csim,且0<csim<1,生成信息对,记为(wnim1csim1)、(wnim2csim2)……(wnimkbsimk),最后添加到第三信息对集合c3中。

4)保存第三信息对集合c3。

步骤s440:对第一信息对集合、第二信息对集合和第三信息对集合进行合并同类项,得到第四信息对集合。

预先为各个上述抽取规则设置对应的权重值,记为α、β、γ,其中α、β、γ的大小可以根据抽取效果进行调整,并设置以下约束条件:

α+β+γ=1;

α>0,β>0,γ>0;

然后,并为上述三个信息对集合中的相似度值赋予与该相似度值相对应的抽取规则的权重值,也就是,将第一信息对集合中的相似度值乘以α,第二信息对集合中的相似度值乘以β,第三信息对集合中的相似度值乘以γ。

最后,将根据各种抽取规则得到的词对进行合并,也就是合并上述三个信息对集合,同时判断是否存在相同的词对,若存在,则将该词对对应的相似度值进行叠加,并删除所述词对,最终得到第四信息对集合,从而保证第四信息对集合中不存在重复的词对。

步骤s450:将第四信息对集合中相似度值最大的预设个数的词对作为评价信息抽取出来。

值得一提的是,对于各个抽取规则对应的权重值,三个权重值的和不一定为1,也就是说,α+β+γ=1是非必要条件。在进行权重的分配的时候,可以参考各个抽取规则的适用性,例如,若在本次评价信息抽取中,第一个抽取规则的抽取结果更加适用,那么可以将第一个抽取规则的权重设置的相对大一些。

另外,在将评价信息抽取出来以后,可以对评价信息进行审核,如果评价信息不是非常理想,可以对上述权重值进行调整。

可见,本实施例提供的评价信息抽取方法,在实施例一的基础上,采用了多种抽取规则对评价信息进行抽取,并且将根据各个抽取规则得到的抽取结果进行加权求和,从而使得抽取结果更加的科学,更加可靠。

下面对本发明实施例提供的一种评价信息的抽取装置进行介绍,下文描述的评价信息的抽取装置与上文描述的评价信息的抽取方法可相互对应参照。

参见图5,该装置包括:

分词模块510:用于对评论文本进行分词,得到由多个词组成的词序列。

组词模块520:用于遍历所述词序列,将所述词与满足预设条件的词组成词对,其中,满足所述预设条件的词为在所述词序列中与该词相邻的且位于该词前的第一预设个数的词、以及位于该词后的第二预设个数的词。

相似度值计算模块530:用于计算各个所述词对中词与词之间的相似度,得到多个相似度值。

评价信息抽取模块540:用于确定所述相似度值中最大的第三预设个数的相似度值,并将所述相似度值所对应的词对作为评价信息抽取出来。

本实施例的一种评价信息的抽取装置,用于实现前述的一种评价信息的抽取方法,因此该装置中的具体实施方式可见前文中的一种评价信息的抽取方法的实施例部分,例如,分词模块510、组词模块520、相似度值计算模块530以及评价信息抽取模块540,分别用于实现上述评价信息的抽取方法中步骤s110,s120,s130以及s140。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。

另外,由于本实施例提供的一种评价信息抽取装置用于实现前述一种评价信息抽取方法,因此,其作用与上述一种评价信息的抽取方法的作用相对应,这里不再赘述。

此外,本发明还提供了一种评价信息的抽取设备,包括:

存储器:用于存储计算机程序;

处理器:用于执行计算机程序,以实现如上所述的一种评价信息的抽取方法的步骤。

最后,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的一种评价信息的抽取方法的步骤。

由于本发明提供的一种评价信息抽取设备以及一中计算机可读存储介质用于实现前述一种评价信息抽取方法,因此,其作用与上述一种评价信息的抽取方法的作用相对应,在此也不再展开介绍。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种评价信息的抽取方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1