一种目标对象的摘要生成方法和装置与流程

文档序号:26588961发布日期:2021-09-10 20:15阅读:50来源:国知局
一种目标对象的摘要生成方法和装置与流程

1.本发明涉及计算机技术领域,尤其涉及一种目标对象的摘要生成方法和装置。


背景技术:

2.为了让用户快速全面的获取目标对象的特点以及相关信息,互联网网站通常会对目标对象添加文字描述信息,以向用户展示目标对象。本技术中将这一文字描述信息称为摘要。现有技术中摘要生成的方式一般使用textrank算法对目标对象的简介进行摘要提取,或者通过将用户对目标对象的评论数据进行拆分,统计出现频率高的句子,之后将出现频率高的句子进行拼装得到。
3.在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
4.上述方式生成的摘要,过于死板,句子同质化问题严重,无法控制句子长度,而且会提取出一些非常主观或者包含特定词的句子。


技术实现要素:

5.有鉴于此,本发明实施例提供一种目标对象的摘要生成方法和装置,先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
6.为实现上述目的,根据本发明实施例的一个方面,提供了一种目标对象的摘要生成方法。
7.本发明实施例的一种目标对象的摘要生成方法,包括:提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类;计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类;计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要。
8.可选地,计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,包括:统计所述基础分类中所包含的第一分类组的数量之和,得到全部分类组的数量;统计所述第二分类组中所有关键句的出现次数之和,得到所述第二分类组的出现次数;以所述全部分类组的数量为分子,所述第二分类组的出现次数加1为分母进行对数运算,得到逆文档频率。
9.可选地,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,包括:按照设定权重,将所述逆文档频率和所述第二分类组的出现次数加权相加,得到所述第二分类组的分值。
10.可选地,根据所述分值从所述最终分类中选取关键句,包括:按照所述分值大小,对所述最终分类所包含的第二分类组进行倒序排序,以选取出前k个第二分类组;其中,k为正整数;按照所述第二分类组中关键句的出现次数,对归属于所述前k个第二分类组的关键句分别进行排序,分别选取所述前k个第二分类组中出现次数最多的关键句。
11.可选地,提取目标区域内多个目标对象的评论数据的关键句,包括:将所述评论数据所包含的每个句子分别看作一个节点,计算所述节点之间的相似性,根据所述相似性,构建节点连接图;根据所述节点连接图和所述相似性,迭代计算所述节点的权重,直至所述权重收敛,选取收敛时权重最高的节点对应的句子作为关键句。
12.可选地,提取目标区域内多个目标对象的评论数据的关键句的步骤之前,所述方法还包括:对多条所述评论数据分别进行预处理;其中,所述预处理包括按照设定第一过滤规则进行的过滤处理和合并处理,所述合并处理包括:对所述评论数据所包含的句子分别进行句法分析,得到所述句子的句法成分;以设定符号为分割标识,判断所述符号后第一个句子的句法结构,将非主谓结构和非定中结构的句子向上合并;所述提取目标区域内多个目标对象的评论数据的关键句,包括:提取预处理后的评论数据的关键句。
13.可选地,计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度的步骤之前,所述方法还包括:对所述多个目标对象对应的基础分类所包含的关键句分别进行情感分析;根据情感分析结果和设定的第二过滤规则,过滤所述关键句,得到所述目标对象维度下的优化分类;其中,所述第二过滤规则用于保留正向情感的关键句数量大于负向情感的关键句数量的第一分类组,且保留的关键句为正向情感的关键句;所述计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,包括:计算归属于不同目标对象的优化分类所包含的分类组之间的相似度,根据得到的相似度对所述优化分类所包含的分类组进行聚类。
14.可选地,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要的步骤之后,所述方法还包括:判断所述摘要中是否包含设定的关键词,或者所述摘要对应的正则表达式是否为设定格式;如果所述摘要中包含所述关键词,或者所述摘要对应的正则表达式为所述设定格式,则使用设定的替换信息修正所述摘要。
15.可选地,提取目标区域内多个目标对象的评论数据的关键句的步骤之后,所述方法还包括:按照设定第三过滤规则,过滤所述关键句;其中,所述第三过滤规则用于中限制所述关键句的长度。
16.为实现上述目的,根据本发明实施例的另一方面,提供了一种目标对象的摘要生成装置。
17.本发明实施例的一种目标对象的摘要生成装置,包括:提取聚类模块,用于提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类;二次聚类模块,用于计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类;摘要生成模块,用于计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要。
18.可选地,所述摘要生成模块,还用于:统计所述基础分类中所包含的第一分类组的数量之和,得到全部分类组的数量;统计所述第二分类组中所有关键句的出现次数之和,得到所述第二分类组的出现次数;以所述全部分类组的数量为分子,所述第二分类组的出现次数加1为分母进行对数运算,得到逆文档频率。
19.可选地,所述摘要生成模块,还用于:按照设定权重,将所述逆文档频率和所述第二分类组的出现次数加权相加,得到所述第二分类组的分值。
20.可选地,所述摘要生成模块,还用于:按照所述分值大小,对所述最终分类所包含的第二分类组进行倒序排序,以选取出前k个第二分类组;其中,k为正整数;按照所述第二分类组中关键句的出现次数,对归属于所述前k个第二分类组的关键句分别进行排序,分别选取所述前k个第二分类组中出现次数最多的关键句。
21.可选地,所述提取聚类模块,还用于:将所述评论数据所包含的每个句子分别看作一个节点,计算所述节点之间的相似性,根据所述相似性,构建节点连接图;根据所述节点连接图和所述相似性,迭代计算所述节点的权重,直至所述权重收敛,选取收敛时权重最高的节点对应的句子作为关键句。
22.可选地,所述装置还包括:预处理模块,用于对多条所述评论数据分别进行预处理;其中,所述预处理包括按照设定第一过滤规则进行的过滤处理和合并处理,所述合并处理包括:对所述评论数据所包含的句子分别进行句法分析,得到所述句子的句法成分;以设定符号为分割标识,判断所述符号后第一个句子的句法结构,将非主谓结构和非定中结构的句子向上合并;所述提取聚类模块,还用于:提取预处理后的评论数据的关键句。
23.可选地,所述装置还包括:优化模块,用于对所述多个目标对象对应的基础分类所包含的关键句分别进行情感分析;根据情感分析结果和设定的第二过滤规则,过滤所述关键句,得到所述目标对象维度下的优化分类;其中,所述第二过滤规则用于保留正向情感的关键句数量大于负向情感的关键句数量的第一分类组,且保留的关键句为正向情感的关键句;所述二次聚类模块,还用于:计算归属于不同目标对象的优化分类所包含的分类组之间的相似度,根据得到的相似度对所述优化分类所包含的分类组进行聚类。
24.可选地,所述装置还包括:修正模块,用于判断所述摘要中是否包含设定的关键词,或者所述摘要对应的正则表达式是否为设定格式;如果所述摘要中包含所述关键词,或者所述摘要对应的正则表达式为所述设定格式,则使用设定的替换信息修正所述摘要。
25.可选地,所述装置还包括:过滤模块,用于在提取目标区域内多个目标对象的评论数据的关键句之后,按照设定第三过滤规则,过滤所述关键句;其中,所述第三过滤规则用于中限制所述关键句的长度。
26.为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
27.本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种目标对象的摘要生成方法。
28.为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
29.本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种目标对象的摘要生成方法。
30.上述发明中的一个实施例具有如下优点或有益效果:
31.1、先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
32.2、基于第二分类组的出现次数计算逆文档频率,之后结合权重计算第二分类组的分值,以降低出现次数高的关键句的分值。对逆文档频率和第二分类组的出现次数进行加权求和运算,能够降低出现次数高的关键句的分值,提高出现次数低的关键句的分值,使得最终选取出的关键句为出现次数居中的数据,进一步保证所生成摘要的质量和差异性。
33.3、基于分值和第二分类组中关键句的出现次数,选取关键句作为摘要,进一步突出了目标对象的特点。通过节点间的相似度构建节点连接图,进而计算节点权重,基于权重从评论数据中选取关键句,实现了关键句的自动提取,保证提取出的关键句能够反映评论数据的核心意思。通过对评论数据进行过滤、合并的预处理,保证后续进行处理的数据满足生成摘要所需的数据格式要求。
34.4、对基础分类所包含的关键句进行情感分析,根据情感分析结果过滤关键句,使得生成的摘要反映正向情感,便于吸引用户。使用设定的替换信息修正摘要中表达不够书面的句子,保证生成的摘要更加书面化、正式化。通过第三过滤规则限定关键句的长度,防止生成的摘要过长或者过短,灵活性好。
35.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
36.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
37.图1是根据本发明实施例一的目标对象的摘要生成方法的主要步骤的示意图;
38.图2是根据本发明实施例二的目标对象的摘要生成方法的主要流程示意图;
39.图3是根据本发明实施例二的目标对象维度下评论数据的头、中、底三部分分类示意图;
40.图4是根据本发明实施例二的关键句提取的主要流程示意图;
41.图5是根据本发明实施例三的目标对象的摘要生成方法的主要流程示意图;
42.图6是根据本发明实施例三的句法分析结果示意图;
43.图7是根据本发明实施例的目标对象的摘要生成装置的主要模块的示意图;
44.图8是本发明实施例可以应用于其中的示例性系统架构图;
45.图9是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
46.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
47.目前一些企业旗下拥有数十万家酒店,在客户端的酒店列表中展示的酒店描述内容一般不够丰富,为了丰富列表内容、突出酒店特点,以使得用户能够更快更全面的获取该
酒店的特点,需要提取该酒店的描述信息对用户进行展示。由于酒店数量庞大,人工手写的方式工作量很大,需要一种能够批量生成酒店摘要的方式,突出酒店卖点。
48.背景技术中提到的现有方式,提取的摘要过于死板,句子同质化问题严重。其中,同质化是指重复度比较高,比如“酒店卫生干净”、“交通方便”以及类似出现频率高的句子。而且会提取一些基于用户主观或者包含特定词的句子,例如“故宫距离我很近”、“床很舒服,我很喜欢”。另外,现有技术中摘要中所包含句子的长度无法确定,存在句子过长或者过短的问题,对用户的吸引力差。
49.本发明为了解决上述问题,提供了一种目标对象的摘要生成方法。该方法在提取酒店特色信息的同时,大大减少了出现频率高的句子,降低了同质化问题;同时可以控制句子字数,防止句子过长或者过短。
50.另外,从用户的评论数据中提取关键句,可能会出现错别字问题,基于错别字虽然在某个酒店的评论数据中出现,但是在目标区域(比如全省、全市)范围内出现的次数会大大降低,在生成摘要时设置目标区域范围内的出现次数阈值,避免摘要中出现错别字。下面结合实施例进行详细说明。
51.图1是根据本发明实施例一的目标对象的摘要生成方法的主要步骤的示意图。如图1所示,本发明实施例一的目标对象的摘要生成方法,主要包括如下步骤:
52.步骤s101:提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类。
53.获取目标区域内多个目标对象的多条评论数据,使用相同的方式分别提取每条评论数据中关键句,之后使用文本相似度算法,计算归属于同一目标对象的任意两个关键句之间的相似度,将相似度大于第一阈值的关键句聚为一类,即可得到目标对象维度下的基础分类。其中,每个目标对象的基础分类中包含至少一个第一分类组。
54.下面对如何提取其中一条评论数据的关键句进行说明:将该评论数据所包含的每个句子分别看作一个节点,计算节点间的相似性,以构建节点连接图,之后根据节点连接图和节点间的相似性,迭代计算节点的权重,直至权重收敛,选取收敛时权重最高的节点对应的句子作为该评论数据的关键句。
55.步骤s102:计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类。
56.使用文本相似度算法,计算目标区域内任意两个目标对象的基础分类所包含的第一分类组之间相似度,将相似度大于第二阈值的第一分类组聚为一类,得到目标区域维度下的最终分类。需要注意的是,在计算相似度时,是计算目标区域内每个目标对象的每个第一分类组,与其他目标对象的每个第一分类组之间的相似度。
57.步骤s103:计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要。
58.最终分类中包含至少一个第二分类组,分别计算每个第二分类组相对于总体分类的逆文档频率,之后按照设定权重,将逆文档频率与该第二分类组的出现次数加权相加,得
到每个第二分类组的分值。按照分值大小对最终分类所包含的第二分类组进行倒序排序,选取前k个第二分类组,从前k个第二分类组中分别选取出现次数最多的关键句,作为目标对象的摘要,能够更好地突出目标对象的特点。
59.由于目标对象的摘要是基于用户的评论数据得出的,直接对评论数据进行实施例一的处理,可能会由于不满足生成摘要所需的数据格式要求,导致生成的摘要存在质量问题。为了解决该问题需要对评论数据进行预处理,下面结合实施例二进行详细说明。
60.图2是根据本发明实施例二的目标对象的摘要生成方法的主要流程示意图。如图2所示,本发明实施例二的目标对象的摘要生成方法,主要包括如下步骤:
61.步骤s201:获取目标区域内多个目标对象的评论数据,对多条评论数据进行预处理。将目标区域内全部目标对象的评论数据进行预处理,以使其满足为生成摘要而设定的数据格式要求。本实施例中,目标对象可以是存在评论数据的任意一个对象,如酒店、物品、服务等。
62.实施例中,预处理包括对评论数据的过滤处理和合并处理。其中,过滤处理基于设定第一过滤规则实现,包括合并处理之前的预过滤和合并处理之后的二次过滤。预过滤用于滤除不符合要求的评论数据。二次过滤是对每条评论数据的合并结果再次进行过滤。
63.对评论数据进行预过滤后,需要对所得的每条评论数据进行合并处理。在合并时,可以使用句法分析工具,对评论数据中每个句子进行句法分析,得到每个句子的句法成分(即主语、谓语、宾语、定语、状语、补语等);之后以设定符号(比如标点符号)为分割标识,判断设定符号后第一个句子的句法结构,以将“非主谓/定中”结构的句子向上合并。
64.步骤s202:提取预处理后的每条评论数据的关键句。关键句提取的原理为:拟定一个权重的评分标准,为每个句子打分,之后将分值靠前的句子作为关键句。实施例中可以基于textrank算法实现。该步骤的具体实现请参见关于图4的说明。
65.步骤s203:计算归属于同一目标对象的关键句之间的相似度,得到每个目标对象包含的关键句之间的第一相似度。在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,利用文本之间的相似性对大规模语料进行去重预处理,或者找寻某一实体名称的相关名称。
66.两个关键句之间的相似度计算方式如下:将两个关键句分别进行分词,之后计算每个词语的词频-逆文档频率,最后根据词频-逆文档频率和余弦相似度算法计算出两个关键句之间的夹角。夹角值越小,说明两个关键句的相似度越高。下面进行举例说明。
67.假设某个目标对象下的关键句为:句子一:“服务很热情”和句子二:“服务特别热情”。首先对句子一和句子二分别进行分词,可以得到句子一的分词结果为:{服务、很、热情},句子二的分词结果为:{服务、特别、热情}。由此可知分词所得词集为:{服务、很、热情、特别}。
68.之后计算每个词语的词频-逆文档频率(tf-idf,term frequency-inverse document frequency)。具体地,分别计算词集中每个词语在句子a、句子b的词频,句子a的词频为:服务1、很1、热情1、特别0,句子b的词频为:服务1、很0、热情1、特别1;之后将词频向量化,可以得到句子a的词频向量为(1,1,1,0),句子b的词频向量为(1,0,1,1)。
69.最后基于词频向量化结果,计算上述两个词频向量夹角间的余弦值。余弦值越大,相似度越高。其中,两个向量夹角间的余弦值的计算公式如下:
[0070][0071]
该式中,cosθ即向量a和向量b夹角间的余弦值。
[0072]
由上述公式,可以计算出上述两个词频向量夹角间的余弦值为:
[0073][0074]
步骤s204:根据第一相似度,将归属于同一目标对象的关键句进行聚类,得到目标对象维度下的基础分类。在聚类时,可以预先设置一个相似度阈值,本文称为第一阈值。实施例中,第一阈值可以设置为0.6、0.7、0.8等。以第一阈值为0.6为例,将第一相似度大于0.6的关键句聚为一类,将每类中出现次数最多的关键句作为本分类组的组名,即可得到目标对象维度下的基础分类。
[0075]
步骤s205:计算归属于不同目标对象的基础分类中第一分类组之间的相似度,得到第二相似度。其中,第二相似度为目标区域内每个目标对象的每个第一分类组,与其他目标对象的每个第一分类组之间的相似度。该步骤的相似度计算方式与步骤s203相同,此处不再赘述。
[0076]
步骤s206:根据第二相似度,将归属于不同目标对象的第一分类组进行聚类,得到目标区域维度下的最终分类。计算出第二相似度后,根据预设相似度阈值(本文称为第二阈值),比如0.5,将第二相似度大于第二阈值的分类组聚合为一类,即可得到目标区域维度下的最终分类。其中,最终分类中包括至少一个第二分类组。
[0077]
步骤s207:计算最终分类的每个第二分类组对于总体分类的逆文档频率,以根据逆文档频率和设定权重,计算最终分类的每个第二分类组的分值。为了计算为逆文档频率,需要先统计全部分类组的数量和每个第二分类组的出现次数,之后即可按照公式2计算每个第二分类组对于总体分类的逆文档频率。
[0078]
一个第二分类组对于总体分类的逆文档频率的计算公式如下:
[0079][0080]
该式中,全部分类组的数量为基础分类所包含的第一分类组数量之和,第二分类组的出现次数为最终分类的该第二分类组中所有关键句的出现次数之和。
[0081]
一个第二分类组的分值计算公式如下:
[0082]
第二分类组的分值=
[0083]
该第二分类组的出现次数*权重1+该第二分类组的idf*权重2
[0084]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3
[0085]
该式中,权重1+权重2=1,权重1>权重2,具体值可以设置为权重1为0.7,权重2为0.3(该值由试验得出)。
[0086]
步骤s208:根据最终分类的每个第二分类组的分值和该第二分类组中各关键句的
出现次数,确定目标对象的摘要。对最终分类的每个第二分类组的分值进行倒序排序,选择前k个第二分类组。之后按照出现次数,对归属于这k个第二分类组的关键句进行排序,选取每个第二分类组中出现次数最多的关键句作为目标对象的摘要。其中,k的取值可以自定义设置。
[0087]
参见图3,目标对象维度下的评论数据的分类可以分为头、中、底三部分。头、中、底基于一个句子出现次数的占比决定。如图3所示,“卫生干净”是占比最高的,底部是该目标对象所具有的特色风格。
[0088]
对于一个目标对象的“问题性评论”,理论上会出现在底部或者中部中,但如果将这部分评论放大到目标区域维度就会很低,只可能出现在底部分类中。头部分类通过逆文档频率的方式解决,出现次数高的在头部,逆文档频率高的在尾部,所以按照公式3计算就能取得中部的那一部分数据,以使得最终得到的摘要信息是从中部分类中获得的,保证所得摘要信息的高质量和差异性。
[0089]
此处的“问题性评论”是指有错别字的句子,或者句子中包含该目标对象特定的词语。比如“这家酒店旁边就是天安门”,再比如图3的“故宫得确很近”,这句话在这家酒店的评论数据中的出现次数可能会很高,但是如果把这句话放到全省维度来看,出现次数就会降低。
[0090]
图4是根据本发明实施例二的关键句提取的主要流程示意图。如图4所示,本发明实施例二的关键句提取的实现方法(即步骤s202),以提取预处理后的一条评论数据(下文称为给定文本)的关键句为例,主要包括如下步骤:
[0091]
步骤s401:将给定文本所包含的每个句子分别看作一个节点,计算节点之间的相似性。衡量节点之间的相似性的公式如下:
[0092][0093]
式中,s
i
、s
j
分别表示给定文本的第i个、第j个句子,ω
k
表示句子中的词,log(|s
i
|)、log(|s
j
|)分别表示对第i个、第j个句子中词的个数求对数,分子部分表示同时出现在第i个和第j个句子中的同一个词的数量。
[0094]
步骤s402:根据节点之间的相似性,构建节点连接图。预先设置连接阈值,如果节点之间的相似性大于等于连接阈值,则认为对应的两个句子相似,节点之间存在一条无向有权边;如果节点之间的相似性小于连接阈值,则节点之间不存在连接边。节点连接图可以用g=(v,e,w)表示,其中,v为节点集合,e为节点间各个边的集合,w为各边上权重的集合。
[0095]
步骤s403:迭代计算每个节点的权重,直至收敛。其中,节点权重的计算公式如下:
[0096][0097]
式中,v
i
、v
j
分别表示节点集合v的第i个、第j个节点;ws(v
i
)表示上次迭代后节点v
i
的权重;d为阻尼系数,一般设置为0.85;in(v
i
)表示指向v
i
的节点集合;out(v
j
)表示v
j
指向的其他节点集合;ω
ij
表示节点v
i
和节点v
j
之间的相似性。
[0098]
计算节点的权重首次迭代时需要自定义设置节点初始权重,经过多次迭代后,每个节点的权重趋于稳定,此时即认为收敛。
[0099]
步骤s404:对节点的权重进行排序,将权重最高的节点对应的句子作为关键句。假设给定文本包括“这家酒店服务很好”和“这是很难得的”这两个句子,“这家酒店服务很好”具有代表意义,重要性程度高,就会有较高的权重,“这是很难得的”因为没有意义,重要性程度地低,权重就低,最终提取出的关键句即“这家酒店服务很好”。
[0100]
实施例二对评论数据的格式进行了限制,但是有些评论数据属于负面评价,如果基于负面评价生成摘要,将无法起到吸引用户的作用。为了解决该问题,实施例三中对提取的关键句进行了情感分析,以过滤负向情感的句子。下面进行详细说明。
[0101]
图5是根据本发明实施例三的目标对象的摘要生成方法的主要流程示意图。如图5所示,本发明实施例三的目标对象的摘要生成方法,主要包括如下步骤:
[0102]
步骤s501:获取目标区域内多个目标对象的评论数据,对多条评论数据进行预处理。本实施例中,目标对象为酒店。预处理包括对酒店的评论数据进行预过滤、合并、二次过滤等处理。
[0103]
其中,预过滤用于滤除不符合要求的评论数据,比如短句子、重复句子和包含指定字符的句子。此处的短句子,可以为总字数小于指定数值的句子,指定字符后字数小于指定数值的句子。其中,指定字符可自行定义,比如为归属于过滤库的词语、标点符号、数学符号、特殊符号等。过滤库中保存有需要滤除的词语。
[0104]
此处的重复句子,可以为重复字、重复词大于指定数值的句子。比如“好好好酒店非常好”、“这个酒店啊这个酒店啊这个酒店啊一般”。包含指定字符的句子,可以为包含过滤词语的句子,标点符号、数学符号、特殊符号连续出现的次数大于指定次数的句子。比如“环境很好,,,”、“还可以~~~~”。
[0105]
将预过滤后所得的每条评论数据进行合并。在实际应用时,由于句法分析工具本身对标点符号的识别存在误差,因此本发明实施例提供了一种优选的合并方式。即在句法分析之前,先将评论数据中每个句子的标点符号全部替换为空格,对替换后的句子进行句法分析,得到每个句子的句法成分(即主语、谓语、宾语、定语、状语、补语等);之后以空格为分割标识,判断空格后第一个句子的句法结构,以将“非主谓/定中”结构的句子向上合并。下面进行举例说明。
[0106]
假设预过滤后所得的某条评论数据为:“工作人员服务很好,连外面非住客来大厅借厕所都会热心的指引,可见他们的服务是还蛮到位的。窗户都会先有纱窗,通风,这是很难得的。”,将该段文字的标点符号均替换为空格后,进行句法分析,所得结果如图6所示。
[0107]
之后以空格为分割标识,对图6所得各个句子进行向上合并。以图6的前6行句子为例,前5行句子分别为:【工作人员】、【服务】、【很】、【好】、【】,由于第5行为空格,但是第6行的【连】被标记为状中结构,非主谓/定中结构,因此需要向上合并。所以经合并后所得的句子为:“工作人员服务很好,连外面非住客来大厅借厕所都会热心的指引”。
[0108]
二次过滤是对每条评论数据的合并结果再次进行过滤。比如,对合并所得到的多个句子进行重复字/词的过滤、过滤字数小于等于2的句子等。仍旧结合上述例子,二次过滤的结果如下:
[0109]
工作人员服务很好,连外面非住客来大厅借厕所都会热心的指引可见他们的服务
是还蛮到位的
[0110]
窗户都会先有纱窗
[0111]
这是很难得的
[0112]
步骤s502:提取预处理后的每条评论数据的关键句。该步骤的具体实现请参见关于图4的说明。
[0113]
步骤s503:计算归属于同一目标对象的关键句之间的相似度,得到每个目标对象包含的关键句之间的第一相似度。该步骤的实现方式与步骤s203相同,此处不再赘述。
[0114]
步骤s504:根据第一相似度,将归属于同一目标对象的关键句进行聚类,得到目标对象维度下的基础分类。将第一相似度大于第一阈值的关键句聚为一类,将每类中出现次数最多的关键句作为本分类组的组名,即可得到目标对象维度下的基础分类。下面进行举例说明。
[0115]
假设某个酒店下的关键句包括:出租车很少、性价比很高、性价比很高、性价比很好、服务也挺到位、周围有便利商店。按照上述聚类处理后,即可得到该酒店对应的基础分类,具体结果见表1。由表1可知,该基础分类中包括4个第一分类组。
[0116]
表1为酒店对应的基础分类结果
[0117][0118]
步骤s505:对多个目标对象对应的基础分类中的关键句分别进行情感分析,按照设定的第二过滤规则进行过滤处理,得到目标对象维度下的优化分类。分别对每个目标对象的基础分类中每个关键句进行情感分析,以判定每个关键句的情感倾向,之后按照设定的第二过滤规则对关键句进行过滤处理,得到多个目标对象对应的优化分类,统计每个第一分类组的出现次数。
[0119]
其中,第二过滤规则为:如果一个第一分类组中负向情感的关键句数量大于等于正向情感的关键句数量,则丢弃该第一分类组;如果一个第一分类组中负向情感的关键句数量小于正向情感的关键句数量,则保留该第一分类组中正向情感的关键句。该第二过滤规则用于保留正向情感的关键句数量大于负向情感的关键句数量的第一分类组中,正向情感的关键句。
[0120]
对关键句进行情感分析有两种方式,一种方式基于词库实现,另一种方式基于机器学习算法实现。机器学习需要准备训练集和测试集,之后使用分类算法训练分类模型,模型训练好之后即可进行情感分析。下面以基于词库实现为例进行说明。
[0121]
预先根据酒店的评论数据这一实际场景构建词库,该词库中包括下面几个词典:停顿词词典、正面评价词词典、负面评价词词典、程度词词典和否定词词典。其中,停顿词比如:的、和、得、之间等,正面评价词比如:价格便宜、干净、美丽、物美价廉等,负面评价词比
如:脏、差、坏等,程度词比如:非常好、特别、还行、凑合、一般等,否定词比如:不、难道、非等。
[0122]
每个正面评价词、负面评价词和程度词均具有分值,正面评价词的分值为1,负面评价词的分值为-1,程度词的分值比如3.0、2.0、0.8、0.5、0.5(分别对应上述5个程度词)。
[0123]
基于上述词库,按照下述方式计算关键词的情感倾向:对关键句进行分词,之后根据分词得到的每个词语计算该关键句的情感分值,由情感分值即可得到情感倾向。其中,情感分值的计算公式可以如下:
[0124]
情感分值=(-1)
否定词的个数
*程度词的分值*评价词的分值
[0125]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式6以“性价比很高”为例,否定词的个数为0,程度词“很高”的分值为1,评价词“高”的分值为1,则情感分值为1*1*1=1,是正向情感的关键句。
[0126]
步骤s506:计算归属于不同目标对象的优化分类中各分类组之间的相似度,根据相似度将优化分类的各分类组进行聚类,得到目标区域维度下的最终分类。该步骤的相似度计算方式与步骤s203相同,此处不再赘述。下面进行举例说明。
[0127]
假设目标区域为一个省,目标对象为酒店,该省共有n家酒店,每家酒店有m条评论数据,则共有n*m条评论数据。按照步骤s501-步骤s505对这n*m条评论数据进行预处理、关键句提取、聚类、情感分析和过滤,得到x个分类组。对这x个分类组的组名进行相似度计算,如果两个组名的相似度大于0.5,则聚为一类。
[0128]
为了便于说明,设定该省有2家酒店,按照步骤s501-步骤s505对酒店1、2的评论数据分别进行处理后,所得的优化分类结果如表2和表3所示。
[0129]
表2为酒店1的评论数据的优化分类结果
[0130][0131]
表3为酒店2的评论数据的优化分类结果
[0132][0133][0134]
经计算“性价比很高”与“性价比很好”的相似度大于0.5,故可以将这两个分类组归为一类;“服务也挺到位”与“服务很到位”的相似度大于0.5,故可以将这两个分类组归为一类。因此,最终得到省维度下的最终分类结果如表4所示。
[0135]
表4为省维度下评论数据的最终分类结果
[0136][0137]
步骤s507:计算最终分类的每个第二分类组对于总体分类的逆文档频率,以根据逆文档频率和设定权重,计算最终分类的每个第二分类组的分值。该步骤的实现过程与步骤s207相同,此处不再赘述。但是由于该实施例中经过步骤s505的情感分析,得到了优化分类,因此公式2中全部分类组的数量修改为优化分类所包含的分类组数量之和。
[0138]
步骤s508:根据最终分类的每个第二分类组的分值和该第二分类组中各关键句的出现次数,确定目标对象的摘要。该步骤的实现过程与步骤s208相同,此处不再赘述。该实施例能够批量生成酒店的摘要,大程度减轻运营人员的工作量,提高了摘要生成效率。
[0139]
在一优选的实施例中,如果出现次数最多的关键句不满足设定条件限制,该条件一般是字数长度,则按顺序选取出现次数排序第二的关键句,依此类推,即可得到目标对象的摘要信息。
[0140]
在另一优选的实施例中,目标对象为同样等级的酒店,比如,某公司旗下的同样星级的xx连锁酒店、xx快捷酒店等。用户对同一省市,不同位置的上述酒店进行评论时,由于不同酒店的位置、服务、价格等的差异,可能会导致用户有不同的体验,最终产生不同的评论数据。通过步骤s501-步骤s508的处理,即可基于上述评论数据为上述酒店生成高质量、有差异的摘要。
[0141]
在实际业务场景下,步骤s203、步骤s503对关键句进行相似度计算时,优选使用满足业务规则、且删除附加词的句子。因此,在一优选的实施例中,需要使用预先设定的第三过滤规则,对步骤s202、步骤s502提取到的关键句进行过滤处理,之后再对过滤所得的关键句进行相似度计算。
[0142]
上述第三过滤规则由用户自定义设置,可以是:过滤只包含主谓/定中关系,以及不以主谓/定中关系开头的句子,过滤句子中的右附加词,过滤长度大于8或者小于4的句子,过滤包含敏感词的句子等。需要注意的是,限制句子长度、过滤敏感词属于业务规则,保留句子的长度由用户自行定义。
[0143]
该实施例的敏感词由用户在数据库中人工维护。步骤s201、步骤s501的预处理仅对评论数据进行了较粗粒度的过滤,此处的敏感词用于进行更细粒度的过滤。对于酒店这一应用场景,此处的敏感词比如不好、吵、乱、蚊子、在装修、施工、凑合等。
[0144]
比如,步骤s202中提取到的关键句为:出租车很少哦、性价比很高了、性价比很高、性价比不错、总体来说不错、服务也挺到位的、周围有便利商店;按照上述规则过滤后,得到的关键句为:出租车很少(删除了句末右附加词)、性价比很高(删除了句末右附加词)、性价比很高、性价比不错、服务也挺到位(删除了句末右附加词)、周围有便利商店。“总体来说不
错”这一关键句中,由于“总体”为敏感词,故弃用该关键句。
[0145]
由于摘要是从用户的评论数据中提取的,有些表达可能不够书面化。因此,在另一优选的实施例中,在步骤s208、步骤s508得到摘要之后,可以对摘要进行润色。润色主要是使用指定词语替换摘要信息中包含的关键词,以使得到的摘要信息更加书面化。其中,关键词由系统内部维护。
[0146]
具体地,判断摘要中是否包含设定的关键词,或者摘要对应的正则表达式是否为设定格式;如果摘要中包含关键词,或者摘要对应的正则表达式为设定格式,则使用设定的替换信息修正摘要。
[0147]
比如,如果摘要信息中包含“相当、真心、的确”等关键词,则可以替换为“很”;如果摘要信息中包含“旁边就是、出门就是”等关键词,则可以替换为“附近有”;如果摘要信息中包含“孩子、儿子、女儿、宝宝、宝贝”等关键词,则可以将该句摘要信息直接替换为“亲子服务很好”;如果将摘要信息对应的正则表达式的句式为“.*(火车|动车).*(近|不.*远)、.*(出门|旁边|周边).*(火车|动车)”等,则可以将该句摘要信息直接替换为“临近火车站”。
[0148]
通过本发明实施例的目标对象的摘要生成方法可以看出,先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
[0149]
图7是根据本发明实施例的目标对象的摘要生成装置的主要模块的示意图。如图7所示,本发明实施例的目标对象的摘要生成装置700,主要包括:
[0150]
提取聚类模块701,用于提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类。
[0151]
获取目标区域内多个目标对象的多条评论数据,使用相同的方式分别提取每条评论数据中关键句,之后使用文本相似度算法,计算归属于同一目标对象的任意两个关键句之间的相似度,将相似度大于第一阈值的关键句聚为一类,即可得到目标对象维度下的基础分类。其中,每个目标对象的基础分类中包含至少一个第一分类组。
[0152]
下面对如何提取其中一条评论数据的关键句进行说明:将该评论数据所包含的每个句子分别看作一个节点,计算节点间的相似性,以构建节点连接图,之后根据节点连接图和节点间的相似性,迭代计算节点的权重,直至权重收敛,选取收敛时权重最高的节点对应的句子作为该评论数据的关键句。
[0153]
二次聚类模块702,用于计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类。
[0154]
使用文本相似度算法,计算目标区域内任意两个目标对象的基础分类所包含的第一分类组之间相似度,将相似度大于第二阈值的第一分类组聚为一类,得到目标区域维度下的最终分类。需要注意的是,在计算相似度时,是计算目标区域内每个目标对象的每个第一分类组,与其他目标对象的每个第一分类组之间的相似度
[0155]
摘要生成模块703,用于计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值
从所述最终分类中选取关键句作为所述目标对象的摘要。
[0156]
最终分类中包含至少一个第二分类组,分别计算每个第二分类组相对于总体分类的逆文档频率,之后按照设定权重,将逆文档频率与该第二分类组的出现次数加权相加,得到每个第二分类组的分值。按照分值大小对最终分类所包含的第二分类组进行倒序排序,选取前k个第二分类组,从前k个第二分类组中分别选取出现次数最多的关键句,作为目标对象的摘要,能够更好地突出目标对象的特点。
[0157]
另外,本发明实施例的目标对象的摘要生成装置700还可以包括:预处理模块、优化模块、修正模块和过滤模块(图7中未示出),上述各个模块的功能如前所述。
[0158]
从以上描述可以看出,先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
[0159]
图8示出了可以应用本发明实施例的目标对象的摘要生成方法或目标对象的摘要生成装置的示例性系统架构800。
[0160]
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0161]
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0162]
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0163]
服务器805可以是提供各种服务的服务器,例如管理员利用评论数据进行处理的后台管理服务器。后台管理服务器可以提取评论数据的关键句,进行聚类、计算逆文档频率、打分等处理,并将处理结果(例如生成的摘要)反馈给终端设备。
[0164]
需要说明的是,本技术实施例所提供的目标对象的摘要生成方法一般由服务器805执行,相应地,目标对象的摘要生成装置一般设置于服务器805中。
[0165]
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0166]
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
[0167]
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种目标对象的摘要生成方法。
[0168]
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种目标对象的摘要生成方法。
[0169]
下面参考图9,其示出了适用于来实现本发明实施例的电子设备的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0170]
如图9所示,计算机系统900包括中央处理单元(cpu)901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而
执行各种适当的动作和处理。在ram 903中,还存储有计算机系统900操作所需的各种程序和数据。cpu 901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0171]
以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0172]
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时,执行本发明的系统中限定的上述功能。
[0173]
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0174]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0175]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括提取聚类模块、二次聚类模块和摘要生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,提取聚类模块还可以被描述为“提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类的模块”。
[0176]
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类;计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类;计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要。
[0177]
根据本发明实施例的技术方案,先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点
[0178]
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0179]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1