一种辅助工具的评论分析方法和装置

文档序号:35070440发布日期:2023-08-09 12:55阅读:24来源:国知局
一种辅助工具的评论分析方法和装置

本发明涉及计算机处理,尤其涉及一种辅助工具的评论分析方法和装置。


背景技术:

1、传统的开源项目开发中,代码的提交、检查、测试、集成、部署等工作均需要人工完成。近年来,越来越多的开源项目使用辅助工具来自动化地协助开发者完成这些工作。例如,travis等持续集成类辅助工具可以帮助项目自动合并代码、自动编译、运行测试。codacy等静态分析工具检查代码中的错误,代码是否符合编码标准规范。持续交付工具和持续部署辅助工具可以使项目在较短的循环中可靠的发布。研究和实践表明,辅助工具能够显著加快项目开发过程,协助改善开源软件质量,减少缺陷数量。然而,现有辅助工具应用商店或辅助工具官方网站,都缺少用户对于辅助工具的评价及打分。因此项目管理者和开发者无法了解各个辅助工具的优缺点和实际使用评价,在相似工具之间难以进行有效选择,从而不利于开源项目的高效开发和辅助工具的推广应用。

2、在软件问答社区上存在大量辅助工具相关问答,辅助工具评论分散在这些回答之中。对这些辅助工具评论进行总结,既能解决现有辅助工具缺少评论的问题,又能帮助开发者快速获取关于辅助工具的有价值且简洁的信息。同时,辅助工具评论往往涉及不同方面,如工具的易用性、性能、功能等,如果能针对各辅助工具的不同方面进行总结,可突出各工具的优缺点,帮助开发者进行工具选择。综上,需要一种方法,对软件问答社区上的辅助工具评论,并针对不同方面进行摘要总结。

3、在方面提取阶段,现有软件评论的方面提取方法主要有基于规则、有监督学习和无监督学习三种方式。其中基于规则和有监督学习的方面提取方法需要很高的人工成本去总结规则、关键词或标注数据集,且难以跨应用场景进行应用,具有较大的使用限制。无监督学习的方式难以对方面进行约束,往往无法获得软件质量属性等软件评论中通常考虑的内容,难以实用。因此,拟采用弱监督学习的方式,使用方面相关的关键词作为监督数据,来完成方面提取的任务。既节省了人工标注成本,又能输出与关键词内容相关的方面,方便下一步分析总结。

4、然而,现有弱监督方面提取方法存在如下不足之处:

5、1、现有方法通过标注数据提取关键词,基于人工标注方面的样本句子抽取每个方面的关键词,这仍需人工标注成本;

6、2、现有方法通过固定权重对关键词加权求和去拟合不同的样本。然而,描述同一方面的不同句子,侧重点也很可能不同,例如对辅助工具的性能这一方面的讨论,可能包含讨论时间效率的句子和讨论资源利用效率的句子。对于讨论时间效率的句子,时间效率相关的关键词信息(如响应时间等)更加重要;对于讨论资源利用效率的句子,资源利用效率相关的关键词信息(如内存占用等)更加重要。现有方法用同一个方面嵌入向量去拟合侧重点不同的样本,没有考虑到针对样本的方面信息,可能导致模型在拟合侧重点不同的句子时重组误差加大,影响学习效果;

7、3、同样,现有方法在计算句子表示时忽略了关键词的作用,无法突出样本中的方面信息。例如,对于辅助工具讨论句子“it took almost 1hour for travis to respond,when i ran it last night.”后半句主要描述时间背景,与评价方面无关。类似的无关信息会加大后续句子重构过程中的误差,降低模型的学习能力。

8、在评论总结阶段,现有软件评论的摘要总结工作往往采用情感词典、机器学习等通用方法对软件评论进行情感分析或摘要。相关研究综述同时表明,软件工程相关语境下词的语义和通用语境中词的语义相差较大,导致采用通用方法的情感分析效果不理想。这一问题在辅助工具讨论语境下同样存在,例如,辅助工具评价语境中,“travis”指travisci这一持续集成工具,而通用语境中“travis”一般指人名。直接采用通用语境的词向量或其他语言模型会导致技术术语的表示存在误差,从而影响之后的分类、聚类任务。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种辅助工具的评论分析方法和装置,用以解决现有方法忽略关键词的作用,无法突出样本中的方面信息,不考虑样本的方面信息会导致模型在拟合侧重点不同的句子时加大重组误差,影响学习效果等的问题。

2、一方面,本发明实施例提供了一种辅助工具的评论分析方法,包括:利用方面提取模型对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子,其中,对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子包括:根据方面相关的关键词计算所述评价句子属于每个方面的概率分布;利用bert模型对按方面分类的评价句子进行情感分类和摘要提取以获得所述辅助工具的不同方面的方面级总结。

3、上述技术方案的有益效果如下:本技术通过根据方面相关的关键词计算所述评价句子属于每个方面的概率分布,既节省了人工标注成本,又能输出与关键词内容相关的方面,便于后续的分析总结。

4、基于上述方法的进一步改进,根据方面相关的关键词计算所述评价句子属于每个方面的概率分布进一步包括:基于方面信息注意力利用词向量计算句子向量;基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量;以及对全部方面嵌入向量进行加权求和以得到句子重构向量,其中,通过减小所述句子向量和所述句子重构向量之间的内积训练所述方面提取模型,以及通过所述方面提取模型预测所述评价句子属于每个方面的概率分布。

5、基于上述方法的进一步改进,基于方面信息注意力利用词向量计算句子向量进一步包括:通过词集与词向量矩阵的乘积获取所述词向量并且通过方面的关键词集与所述词向量矩阵的乘积获取关键词向量,其中,根据所述辅助工具的评价句子生成所述词集;基于所述方面信息注意力利用所述词向量与所述关键词向量的相似度计算单词注意力权重,其中,所述词向量与关键词向量的相似度由所述词向量、注意力参数矩阵和所述关键词向量的求和平均值的乘积获得;以及通过对所述词向量与所述单词注意力权重进行加权求和来获得所述句子向量。

6、基于上述方法的进一步改进,基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量进一步包括:基于tf-idf从k个方面的评价句子中提取m个关键词集,其中,k与m均为正整数;基于所述关键词向量与所述句子向量的相似度计算关键词的注意力权重,其中,所述关键词向量与所述句子向量的相似度由所述关键词向量、关键词注意力参数矩阵和当前句子向量的乘积获得;以及基于所述关键词的注意力权重对方面中每个关键词向量进行加权求和计算方面嵌入向量。

7、基于上述方法的进一步改进,通过所述方面提取模型中的线性层预测所述评价句子属于每个方面的概率分布;所述方面提取模型根据所述评价句子属于每个方面的概率分布与相应的方面嵌入向量计算句子重构向量。

8、基于上述方法的进一步改进,所述辅助工具的评价句子的方面包括兼容性、易学性、功能、性能、可靠性、易用性。

9、基于上述方法的进一步改进,利用bert模型进行情感分析和摘要提取以获得辅助工具不同方面的方面级总结进一步包括:基于所述bert模型将按方面分类的评价句子分类为带有情感极性的评价句子,其中,所述情感极性包括正面、负面或中性;以及对带有情感极性为正面情感和负面情感的评价句子提取摘要句,作为所述辅助工具的方面级总结。

10、另一方面,本发明实施例提供了一种辅助工具的评论分析装置,包括:方面分类模块,用于利用方面提取模型对所述辅助工具的评价句子进行方面提取以获得所述辅助工具按方面分类的评价句子,其中,所述方面分类模块进一步用于根据方面相关的关键词计算所述评价句子属于每个方面的概率分布;情感分析模块,用于利用bert模型对按方面分类的评价句子进行情感分类;以及摘要提取模块,用于对情感分类的评价句子进行摘要提取以获得所述辅助工具的不同方面的方面级总结。

11、基于上述装置的进一步改进,所述方面分类模块进一步包括:句子向量计算模块、方面嵌入向量计算模块和句子重构模块,其中,所述句子向量计算模块,用于基于方面信息注意力利用词向量计算句子向量;所述方面嵌入向量计算模块,用于基于关键词注意力对方面中每个关键词向量进行加权求和计算方面嵌入向量;以及所述句子重构模块,用于对全部方面嵌入向量进行加权求和以得到句子重构向量,其中,通过减小所述句子向量和所述句子重构向量之间的内积训练所述方面提取模型,以及通过所述方面提取模型预测所述评价句子属于每个方面的概率分布。

12、基于上述方法的进一步改进,所述句子向量计算模块进一步包括:词向量子模块、关键词向量子模块、单词注意力子模块,句子向量子模块,其中,所述词向量子模块,用于通过词集与词向量矩阵的乘积获取所述词向量,其中,根据所述辅助工具的评价句子生成所述词集;所述关键词向量子模块,用于通过方面的关键词集与所述词向量矩阵的乘积获取关键词向量;所述单词注意力子模块,用于基于所述方面信息注意力利用所述词向量与所述关键词向量的相似度计算单词注意力权重,其中,所述词向量与关键词向量的相似度由所述词向量、注意力参数矩阵和所述关键词向量的求和平均值的乘积获得;以及所述句子向量子模块,用于通过对所述词向量与所述单词注意力权重进行加权求和来获得所述句子向量。

13、与现有技术相比,本发明至少可实现如下有益效果之一:

14、1、提出开源开发辅助工具用户评价的方面提取方法,该方法从软件工程领域描述文本中提取关键词,进一步减少对人工标注的依赖;加入方面信息的注意力和关键词注意力机制改进模型。显著提高了对辅助工具用户评价进行方面提取的准确率;2、提出开源开发辅助工具用户评价的总结方法,基于bert在辅助工具语境的文本上进行预训练,能使训练得到的语言模型更好地表示辅助工具相关专业术语的语义,基于更准确的语义信息进行情感分析和摘要总结,从而提高用户评论总结的效果;3、本发明可形成对不同辅助工具的方面级总结,帮助用户了解不同工具不同方面的特点以进行工具选择,同时也能对辅助工具用户使用评价进行摘要以协助辅助工具开发者进行工具的改进。

15、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1