文本处理方法、装置和存储介质与流程

文档序号:17741019发布日期:2019-05-24 20:05阅读:161来源:国知局
文本处理方法、装置和存储介质与流程

本发明涉及文本情感分析技术领域,尤其涉及一种文本处理方法、装置和存储介质。



背景技术:

用户评论文本(ugc文本)是用户体验过产品后对产品进行评价的文本,其文本中的情感观点抽取至关重要;如自动评论文本为对一家餐厅的评论文本,包括“这家餐馆的味道不错”、“我好喜欢这里的味道”和“这家的牛肉汤很好喝”,对上述评论文本的情感观点的抽取结果为“味道、不错、积极”;对文本中的情感观点抽取结果可以使得商家看到用户对于自家产品的印象,更有针对性的进行产品优化,且还使得用户可以通过对比不同商家的评论,更好的进行消费决策。

现有技术中,能够实现通用技术领域的情感观点抽取,但由于通用技术领域中的情感观点的属性词为了普适各个领域,其中的情感观点的属性词过于单一,并不适用于垂直领域;如通用技术领域的情感观点的抽取结果为“设计、不错、积极”,并不适用美食领域的评论文本“这家餐馆的味道不错”。



技术实现要素:

本发明提供一种文本处理方法、装置和存储介质,根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。

本发明的第一方面一种提供文本处理方法,包括:

根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;

根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。

可选的,所述目标情感搭配组包括维度词和评价词,所述维度词为所述已有的用户评论文本中的评论对象的属性;所述根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,包括:

对每个所述已有的用户评论文本进行分词处理,获取每个所述已有的用户评论文本的多个词语;

根据每个所述已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个所述已有的用户评论文本的第一候选情感搭配组,所述词性搭配规则包括:维度词的确定规则和评价词的确定规则;

根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典。

可选的,所述目标情感搭配组还包括情感词,所述情感词为所述已有的用户评论文本的情感极性;所述获取每个所述已有的用户评论文本的第一候选情感搭配组之后,还包括:

对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词;

所述根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典,包括:

根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典。

可选的,所述根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典,包括:

将每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个所述第二候选情感搭配组包括所述维度词、所述评价词和所述情感词;

根据每个所述第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;

根据每个所述第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照所述数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为所述目标领域的情感搭配词典。

可选的,所述对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词之前,还包括:

对多个所述第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组,所述预设依存规则为:所述第一候选情感搭配组中的评价词与维度词存在动宾关系,和/或,所述第一候选情感搭配组中的维度词与所述第一候选情感搭配组对应的已有的用户评论文本中的评论对象存在主谓关系。

可选的,所述根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组,包括:

若所述待处理用户评论文本中包括所述情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将所述第一目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第一目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组;

若所述待处理用户评论文本中仅包括所述情感搭配词典中第二目标情感搭配组中的维度词,且所述待处理用户评论文本的情感极性和所述第二目标情感搭配组的情感极性相同,则将所述第二目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第二目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组。

可选的,所述根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组,包括:

若所述待处理用户评论文本中不包括所述情感搭配词典中任意一个目标情感搭配组中的维度词,则将与所述待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组。

本发明的第二方面提供一种文本处理装置,包括:

情感搭配词典获取模块,用于根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;

情感搭配组获取模块,用于根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。

可选的,所述目标情感搭配组包括维度词和评价词,所述维度词为所述已有的用户评论文本中的评论对象的属性。

可选的,所述情感搭配词典获取模块,具体用于对每个所述已有的用户评论文本进行分词处理,获取每个所述已有的用户评论文本的多个词语;根据每个所述已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个所述已有的用户评论文本的第一候选情感搭配组,所述词性搭配规则包括:维度词的确定规则和评价词的确定规则;根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典。

可选的,所述目标情感搭配组还包括情感词,所述情感词为所述已有的用户评论文本的情感极性。

可选的,所述装置还包括:情感词获取模块;

所述情感词获取模块,用于对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词。

可选的,情感搭配词典获取模块,具体用于根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典。

可选的,情感搭配词典获取模块,具体用于将每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个所述第二候选情感搭配组包括所述维度词、所述评价词和所述情感词;根据每个所述第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;根据每个所述第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照所述数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为所述目标领域的情感搭配词典。

可选的,所述装置还包括:删除模块;

所述删除模块,用于对多个所述第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组,所述预设依存规则为:所述第一候选情感搭配组中的评价词与维度词存在动宾关系,和/或,所述第一候选情感搭配组中的维度词与所述第一候选情感搭配组对应的已有的用户评论文本中的评论对象存在主谓关系。

可选的,所述情感搭配组获取模块,具体用于若所述待处理用户评论文本中包括所述情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将所述第一目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第一目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组;若所述待处理用户评论文本中仅包括所述情感搭配词典中第二目标情感搭配组中的维度词,且所述待处理用户评论文本的情感极性和所述第二目标情感搭配组的情感极性相同,则将所述第二目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第二目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组。

可选的,所述情感搭配组获取模块,具体用于若所述待处理用户评论文本中不包括所述情感搭配词典中任意一个目标情感搭配组中的维度词,则将与所述待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组。

本发明的第三方面提供一种文本处理装置,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述文本处理装置执行上述文本处理方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述文本处理方法。

本发明提供一种文本处理方法、装置和存储介质,该方法包括:根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论;根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。本发明提供的文本处理方法根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。

附图说明

图1为本发明提供的文本处理方法的流程示意图一;

图2为现有技术和本发明提供的文本处理方法的结果对比示例图;

图3为本发明提供的文本处理方法的流程示意图二;

图4为本发明提供的文本处理装置的结构示意图一;

图5为本发明提供的文本处理装置的结构示意图二;

图6为本发明提供的文本处理装置的结构示意图三。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

情感评论观点的挖掘旨在抽取用户评论中的情感观点信息。对于给定的产品(包括商品和服务)的用户评论文本,自动分析文本的灌注维度(如酒店的服务、房间、交通)和评论观点(如不错、简陋、便利),输出评论观点标签(服务不错、房间简陋、交通便利),以及评论观点的情感极性(好评或者差评)。基于情感评论观点挖掘可以帮助商家进行产品分析,辅助用户进行消费决策。

用户评论文本(usergeneratedcontent,ugc)作为一种特殊形式的文本,其情感观点的展现也具备很多特殊性。首先,不同垂直领域下维度多种多样,维度即该垂直领域的评论属性;如“美食”垂类中用户关心的维度主要在于“味道”、“环境”、“服务”等;而在“教育”垂类下用户更多关心的是维度在于“教育质量”、“性价比”等。其次,对于同一维度词的描述,其情感观点的表达方式是多种多样的。如“美食”垂类中表达“味道不错”的情感观点,其文本描述可以是“这家餐厅的味道真不错”、“我好喜欢这里的味道”、“这家的牛肉汤很好喝”等。

现有技术中的对用户评论文本的情感观点的抽取往往体现在通用技术领域,而由于通用技术领域的情感观点的抽取无法有效识别特定领域中的维度词,因而导致召回率无法达到要求。图2为现有技术和本发明提供的文本处理方法的结果对比示例图,如图2所示,“汽车”垂类下的用户评论文本为“这款车结合汽车拍档位外观和结构而设计,是一款自主品牌且汽车安全性高的车,这款车的燃油经济性很出色,运转也更加平顺和宁静。但相对来说这个车的越野性能最强,提供极具个性的suv敞篷车式驾乘体验,车的改装性也是相当大的”,采用现有技术中的通用技术领域的情感观点的抽取结果为“设计、不错”和“安全性能、高”。其无法抽取出“汽车”垂类下用户关心的维度,如“越野性能”、“燃油经济性”和“驾乘体验”等。

为了更为准确的对用户评论文本中的情感观点进行抽取,本发明提供了一种文本处理方法,图1为本发明提供的文本处理方法的流程示意图一,图1所示方法流程的执行主体可以为文本处理装置,该文本处理装置可由任意的软件和/或硬件实现。如图1所示,本实施例提供的文本处理方法可以包括:

s101,根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论。

本实施例中的目标领域可以为通用领域中的任意一个领域,如“美食”领域、“汽车”领域、“旅游”领域等;本实施例中的文本处理方法在每一个领域的处理过程相同。其中,目标领域的已有的用户评论文本可以来自不同的数据库,即本实施例中的文本处理装置可以与目标领域的存储用户评论文本的数据库连接,其可以获取各数据库中的已有的用户评论文本;或者,目标领域的已有的用户评论文本可以是技术人员搜集导入至该文本处理装置的。

如:“美食”领域的已有的用户评论文本可以为“xx点评”应用程序对应的服务器中的用户评论文本,和/或,“xx米”应用程序对应的服务器中的用户评论文本,和/或任何社交软件中的用户对于“美食”领域的评论文本。

已有的用户评论文本可以是用户编辑的一句话、一段话,或者是由文本处理装置根据输入的一段录音或者一段影像转换的文本,可以想到的是,将录音或者影像转换为文本可以采用现有技术中的转换方式;本实施例中文本处理装置根据已有的用户评论文本,获取目标领域的情感搭配词典,该情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论。

具体的,文本处理装置将用户评论文本转化为目标情感搭配组的方式,形成目标领域的情感搭配词典。每个目标情感搭配组是对评论对象的属性的情感评论;示例性的,在“美食”领域中,评论对象可以为具体的某一餐厅,评论对象的属性可以为“味道”、“环境”、“服务”等;而对评论对象的属性的情感评论构成的目标情感搭配组可以为“味道、不错”、“环境、差”、“服务、一般”。

可以想到的是,每个目标情感搭配组中还可以包括对用户评论文本的情感极性分析结果,如本实施例中的文本处理装置中设置有情感极性模板,情感极性可以分为“积极”和“消极”,对应的,“积极”模板和“消极”模板中分别包括多个词语,若用户评论文本中的词语在“积极”模板中存在,则将用户评论文本对应的目标情感搭配组的情感极性设置为“积极”;同理地,若用户评论文本中的词语在“消极”模板中存在,则将用户评论文本对应的目标情感搭配组的情感极性设置为“消极”;则本实施例中获取的情感搭配词典中的每个目标情感搭配组包含有情感极性。

示例性的,上述“味道、不错”、“环境、差”、“服务、一般”分别对应的目标情感搭配组为“味道、不错、积极”、“环境、差、消极”、“服务、一般、消极”。

s102,根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。

本实施例中,文本处理装置在构建目标领域的情感搭配词典后,采用该情感搭配词典可以获取待处理的文本对应的情感搭配组。具体的,由于待处理用户评论文本和情感搭配词典属于同一目标领域,本实施例中获取的情感搭配词典对于该目标领域的用户评论文本具有较好的适用性。

其中,由于情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组中包含有用户的情感评论,若待处理用户评论文本中包含有任意一个目标情感搭配组中的情感评论词语时,将该目标情感搭配组作为待处理用户评论文本的情感搭配组。

若待处理用户评论文本中不包含有任意一个目标情感搭配组中的情感评论词语时,可以获取待处理用户评论文本与每个目标情感搭配组的语义相似度,将最大相似度对应的目标情感搭配组作为待处理用户评论文本的情感搭配组。

示例性的,若待处理用户评论文本为“这家味道真不错”,情感搭配词典中的目标情感搭配组为“味道、不错、积极”、“环境、差、消极”、“服务、一般、消极”,则可以将“味道、不错、积极”作为该待处理用户评论文本的情感搭配组;若待处理用户评论文本为“上菜速度慢,等了好半天”,由于待处理用户评论文本中不包含有目标情感搭配组中的词语,则根据语义相似度,可以将“服务、一般、消极”作为该待处理用户评论文本的情感搭配组。

如图2所示,采用本实施例中的文档处理方法进行情感观点的抽取结果为“设计、不错”、“安全性能、高”、“越野性能、强”、“燃油经济性、出色”、“运转、平顺”、“驾乘体验、不错”和“改装性、大”。

本实施例提供的文本处理方法包括:根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论;根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。本实施例提供的文本处理方法根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。

在上述实施例的基础上,下面结合图3对本发明提供的文本处理方法中如何构建目标领域的情感搭配词典和获取待处理文本的情感搭配组进行详细说明,图3为本发明提供的文本处理方法的流程示意图二,如图3所示,本实施例提供的文本处理方法可以包括:

s301,对每个已有的用户评论文本进行分词处理,获取每个已有的用户评论文本的多个词语。

本实施例中,目标领域的已有的用户评论文本为多个,为了获取目标领域的情感搭配词典,需要获取每个已有的用户评论文本对应的情感搭配组;具体的,文本处理装置对每个已有的用户评论文本进行分词处理,其中,若已有的用户评论文本为长句或者一段话,可以根据现有技术中的切分方式先将长句或者一段话切分成短句;将已有的用户评论文本切分成短句后再进行分词处理,获取每个已有的用户评论文本的多个词语。

值得注意的是,本实施例中为了获取用户评论文本正确的情感搭配组,还可以在进行分词处理前对用户评论文本中的句式进行过滤;如将用户评论文本中的疑问句和否定句删除,再将处理后的用户评论文本进行分词处理。

示例性的,已有的用户评论文本为“这家餐厅的味道真不错,不知道会不会有人来呢?”,文本处理装置先对用户评论文本中的句式进行过滤,将问句“不知道会不会有人来呢”删除,将处理后的“这家餐厅的味道真不错”进行分词处理,如获取该已有的用户评论文本的多个词语为“这家餐厅”、“的”、“味道”和“真不错”。

s302,根据每个已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个已有的用户评论文本的第一候选情感搭配组,词性搭配规则包括:维度词的确定规则和评价词的确定规则。

本实施例中,文本处理装置在获取每个已有的用户评论文本的多个词语后,可以获取每个词语的词性;如多个词语“这家餐厅”、“的”、“味道”和“真不错”对应的词性分别为名词、连词、名词、形容词。

本实施例中的目标情感搭配组包括维度词和评价词,其中,维度词为已有的用户评论文本中的评论对象的属性。本实施例中获取已有的用户评论文本中的维度词和评价词,即组成用户评论文本中的第一候选情感搭配组。

具体的,文本处理装置中预先存储有词性搭配规则,具体的,该词性搭配规则包括:维度词的确定规则和评价词的确定规则;示例性的,本实施例中的词性搭配规则可以为:将两个字及以上的名词作为维度词,将一个字及以上的形容词作为评价词。其中,维度词的确定规则为两个字及以上的名词,评价词的确定规则为一个字及以上的形容词。可以想到的是,本领域的技术人员也可采用其他的词性搭配规则获取已有的用户评论文本中的维度词和评价词。

示例性的,如上述多个词语“这家餐厅”、“的”、“味道”和“真不错”对应的词性分别为名词、连词、名词、形容词;其中,两个字及以上的名词为“这家餐厅”、“味道”,一个字及以上的形容词为“真不错”,因此可以将“真不错”作为评价词,而由于“这家餐厅”为该已有的用户评论文本中的评论对象,因此将“味道”作为维度词,因此获取的该已有的用户评论文本的第一候选情感搭配组为“味道、真不错”。

s303,对多个第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组。

本实施例中,文本处理装置在获取每个已有的用户评论文本的第一候选情感搭配组后,可以根据预设的依存规则对多个第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组。

具体的,依存规则为约束维度词和评价词的依存关系,以及维度词的评价对象的依存关系的规则。示例性的,本实施例中的依存规则为:第一候选情感搭配组中的评价词与维度词存在动宾关系,和/或,第一候选情感搭配组中的维度词与第一候选情感搭配组对应的已有的用户评论文本中的评论对象存在主谓关系。文本处理装置将不符合该依存规则的第一候选情感搭配组进行删除。可以想到的是,本领域的技术人员也可采用其他依存规则对情感搭配组中的维度词和评价词的依存关系,以及维度词的评价对象等关系进行约束。

示例性的,第一候选情感搭配组为“味道、真不错”,其中的维度词为“味道”,评价词为“真不错”,其中维度词“味道”与评价词“真不错”之间为动宾关系,而维度词“味道”与评价对象“这家餐厅”之间为主谓关系;该第一候选情感搭配组符合该预设依存规则。

s304,对每个第一候选情感搭配组进行情感极性分析,获取每个第一候选情感搭配组对应的情感词。

本实施例中的目标情感搭配组还包括情感词,其中,情感词为已有的用户评论文本的情感极性,具体的,本实施例中的情感极性可以包括“积极”和“消极”。

其中,在文本处理装置中预先存储有情感极性词语库,如情感极性为“积极”的词语库包括多个词语,情感极性为“消极”的词语库也包括多个词语;具体的,情感极性词语库是采用有监督、无监督或者半监督的分类方法,将包含有情感极性的样本词语进行极性分析,如进行词性、词形等分析,获取情感极性词语库。

具体的,本实施例中对每个第一候选情感搭配组进行情感极性分析,可以采用预先获取的情感极性词语库对第一候选情感搭配组进行分类,获取每个第一候选情感搭配组对应的情感词。

示例性的,第一候选情感搭配组为“味道、真不错”,其对应的情感词为“积极”。

s305,根据多个第一候选情感搭配组,获取目标领域的情感搭配词典。

本实施例中,在文本处理装置获取每个第一候选情感搭配组对应的情感词后,可以根据每个第一候选情感搭配组和每个第一候选情感搭配组对应的情感词,获取目标领域的情感搭配词典。

具体的,可以将每个第一候选情感搭配组和每个第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个第二候选情感搭配组包括维度词、评价词和情感词。

示例性的,第一候选情感搭配组为“味道、真不错”,其对应的情感词为“积极”,则第一候选情感搭配组对应的第二候选情感搭配组为“味道、真不错、积极”。

在获取每个第一候选情感搭配组对应的第二候选情感搭配组后,文本处理装置根据每个第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组。

示例性的,如“美食”领域的第二候选情感搭配组为“服务、不错、积极”、“态度、很好、积极”,由于在“美食”领域的维度词“服务”和“态度”的评价对象均为服务人员,因此根据维度词的第一语义和评价词的第二语义,该两个第二候选情感搭配组具有相同的第一语义和第二语义,因此,可以将该两个第二候选情感搭配组进行聚类,获取第三候选情感搭配组,如该两个第二候选情感搭配组进行聚类后的第三候选情感搭配组可以为“服务、不错、积极”。

进一步的,本实施例中,文本处理装置对所有的第二候选情感搭配组进行聚类后,获取该目标领域的目标情感搭配组;具体的,文本处理装置根据每个第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为目标领域的情感搭配词典。

示例性的,如第三候选情感搭配组“服务、不错、积极”是由100个第二候选情感搭配组进行聚类获取的,则第三候选情感搭配组对应的第二候选情感搭配组的数量为100,在文本处理装置中预设有预设数量,在按照数量从大到小的顺序进行排序后,将排列在前预设数量个的第三候选情感搭配组作为目标领域的情感搭配词典。可见,本实施例获取的情感搭配词典中的目标情感搭配组具有较高的词频,在该目标领域具有较好的普适性。

本实施例中,文本处理装置在获取目标领域的情感搭配词典后,需要获取待处理用户评论文本对应的情感搭配组,具体的,本实施例中分为三种情况对如何获取待处理用户评论文本对应的情感搭配组进行说明,具体包括s306-s308。

s306,若待处理用户评论文本中包括情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将第一目标情感搭配组作为待处理用户评论文本对应的情感搭配组。

一种获取待处理用户评论文本对应的情感搭配组的方式为:在获取目标领域的情感搭配词典后,待处理用户评论文本中包括情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将第一目标情感搭配组作为待处理用户评论文本对应的情感搭配组,其中,第一目标情感搭配组为情感搭配词典中的任意一个目标情感搭配组。

示例性的,目标情感搭配组为“服务、不错、积极”,而待处理用户评论文本为“这家餐厅的服务很不错,我很喜欢”,该待处理用户评论文本包括目标情感搭配组中的维度词“服务”和评价词“不错”,则将“服务、不错、积极”作为该待处理用户评论文本对应的情感搭配组。

s307,若待处理用户评论文本中仅包括情感搭配词典中第二目标情感搭配组中的维度词,且待处理用户评论文本的情感极性和第二目标情感搭配组的情感极性相同,则将第二目标情感搭配组作为待处理用户评论文本对应的情感搭配组。

另一种获取待处理用户评论文本对应的情感搭配组的方式为:在获取目标领域的情感搭配词典后,待处理用户评论文本中包括情感搭配词典中第一目标情感搭配组中的维度词,且待处理用户评论文本的情感极性和第二目标情感搭配组的情感极性相同,则将第二目标情感搭配组作为待处理用户评论文本对应的情感搭配组;其中,第二目标情感搭配组为情感搭配词典中的任意一个目标情感搭配组。

示例性的,目标情感搭配组为“服务、不错、积极”,而待处理用户评论文本为“这家餐厅的服务真好,五星级水准”,该待处理用户评论文本包括目标情感搭配组中的维度词“服务”,而该待处理用户评论文本的情感极性为“积极”,与目标情感搭配组中的情感极性相同,因此可以将该“服务、不错、积极”作为该待处理用户评论文本对应的情感搭配组。

s308,若待处理用户评论文本中不包括情感搭配词典中任意一个目标情感搭配组中的维度词,则将与待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为待处理用户评论文本对应的情感搭配组。

又一种获取待处理用户评论文本对应的情感搭配组的方式为:在获取目标领域的情感搭配词典后,待处理用户评论文本中不包括情感搭配词典中第一目标情感搭配组中的维度词,则获取待处理文本的语义,以及每个目标情感搭配组的语义,具体的,每个目标情感搭配组的语义可以为其中的维度词的第一语义和评价词的第二语义的总和。

本实施例中文本处理装置采用隐式语义计算的方法获取述待处理用户评论文本和每个目标情感搭配组的语义相似度,其中,学习隐式语义计算的方法可以包括word2vec、phrase2vec、cnn、lstm等方式,本实施例中不作具体限制。

具体的,文本处理装置将与待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为待处理用户评论文本对应的情感搭配组;可以想到的是,若大于相似度阈值的目标情感搭配组为多个时,可以将最大值相似度对应的目标情感搭配组作为待处理用户评论文本对应的情感搭配组。

本实施例中的s306-s308不具有先后顺序的区别,三者是三种分别独立实施的方案。

本实施例中,对每个已有的用户评论文本进行分词处理,获取每个已有的用户评论文本的多个词语,再根据每个已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个已有的用户评论文本的第一候选情感搭配组,且对每个第一候选情感搭配组进行情感极性分析,获取每个第一候选情感搭配组对应的情感词,将每个第一候选情感搭配组和每个第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组;进一步的,根据第二候选情感搭配组维度词的第一语义和评价词的第二语义,对第二候选情感搭配组进行聚类,获取目标领域的情感搭配词典,本实施例中避免了人工构建情感搭配词典造成的浪费大量的人力,效率低的问题;且本实施例中在待处理用户评论文本包括情感搭配组中的维度词、或维度词和评价词,或者待处理用户评论文本不包括情感搭配组中的维度词时,分别获取待处理用户评论文本对应的情感搭配组,能够准确获取目标领域的文本的情感观点。

图4为本发明提供的文本处理装置的结构示意图一,如图4所示,该文本处理装置400包括:情感搭配词典获取模块401和情感搭配组获取模块402。

情感搭配词典获取模块401,用于根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论。

情感搭配组获取模块402,用于根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。

本实施例提供的文本处理装置与上述文本处理方法实现的原理和技术效果类似,在此不作赘述。

可选的,图5为本发明提供的文本处理装置的结构示意图二,如图5所示,该文本处理装置400还包括:情感词获取模块403和删除模块404。

情感词获取模块403,用于对每个第一候选情感搭配组进行情感极性分析,获取每个第一候选情感搭配组对应的情感词。

删除模块404,用于对多个第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组,预设依存规则为:第一候选情感搭配组中的评价词与维度词存在动宾关系,和/或,第一候选情感搭配组中的维度词与第一候选情感搭配组对应的已有的用户评论文本中的评论对象存在主谓关系。

可选的,目标情感搭配组包括维度词和评价词,维度词为已有的用户评论文本中的评论对象的属性。

可选的,情感搭配词典获取模块401,具体用于对每个已有的用户评论文本进行分词处理,获取每个已有的用户评论文本的多个词语;根据每个已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个已有的用户评论文本的第一候选情感搭配组,词性搭配规则包括:维度词的确定规则和评价词的确定规则;根据多个第一候选情感搭配组,获取目标领域的情感搭配词典。

可选的,目标情感搭配组还包括情感词,情感词为已有的用户评论文本的情感极性。

可选的,情感搭配词典获取模块401,具体用于根据每个第一候选情感搭配组和每个第一候选情感搭配组对应的情感词,获取目标领域的情感搭配词典。

可选的,情感搭配词典获取模块401,具体用于将每个第一候选情感搭配组和每个第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个第二候选情感搭配组包括维度词、评价词和情感词;根据每个第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;根据每个第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为目标领域的情感搭配词典。

可选的,情感搭配组获取模块402,具体用于若待处理用户评论文本中包括情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将第一目标情感搭配组作为待处理用户评论文本对应的情感搭配组,第一目标情感搭配组为情感搭配词典中的任意一个目标情感搭配组;若待处理用户评论文本中仅包括情感搭配词典中第二目标情感搭配组中的维度词,且待处理用户评论文本的情感极性和第二目标情感搭配组的情感极性相同,则将第二目标情感搭配组作为待处理用户评论文本对应的情感搭配组,第二目标情感搭配组为情感搭配词典中的任意一个目标情感搭配组。

可选的,情感搭配组获取模块402,具体用于若待处理用户评论文本中不包括情感搭配词典中任意一个目标情感搭配组中的维度词,则将与待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为待处理用户评论文本对应的情感搭配组。

图6为本发明提供的文本处理装置的结构示意图三,该文本处理装置例如可以是终端设备,比如智能手机、平板电脑、计算机等。如图6所示,该文本处理装置600包括:存储器601和至少一个处理器602。

存储器601,用于存储程序指令。

处理器602,用于在程序指令被执行时实现本实施例中的文本处理方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。

该文本处理装置600还可以包括及输入/输出接口603。

输入/输出接口603可以包括独立的输出接口和输入接口,也可以为集成输入和输出的集成接口。其中,输出接口用于输出数据,输入接口用于获取输入的数据,上述输出的数据为上述方法实施例中输出的统称,输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质,可读存储介质中存储有执行指令,当文本处理装置的至少一个处理器执行该执行指令时,当计算机执行指令被处理器执行时,实现上述实施例中的文本处理方法。

本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。文本处理装置的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得文本处理装置实施上述的各种实施方式提供的文本处理方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取存储器(英文:randomaccessmemory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1