一种缺陷报告与邮件列表语义关联挖掘方法与流程

文档序号:11155305阅读:来源:国知局

技术特征:

1.一种缺陷报告与邮件列表语言关联挖掘方法,其步骤为:

1)对获取的目标项目的缺陷报告与邮件列表进行解析,得到缺陷报告的堆栈信息、代码片段、正文文本和邮件列表的堆栈信息、代码片段、正文文本;

2)文档显式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的显式语义关联,包括引用关联和共同代码元素关联;

3)文档隐式语义关联挖掘单元根据解析结果识别缺陷报告和邮件列表之间的隐式语义关联,包括相似关联和潜在语义关联。

2.如权利要求1所述的方法,其特征在于,所述引用关联包括缺陷报告引用的关联和邮件引用的关联。

3.如权利要求2所述的方法,其特征在于,获取所述缺陷报告引用的关联的方法为:对邮件列表的正文文本进行模式匹配,判断是否包含对缺陷报告的引用链接或缺陷报告的关键名;若包含,则识别关键名或提取引用链接中的关键名信息;然后根据关键名定位相应的缺陷报告,并建立引用关联。

4.如权利要求2所述的方法,其特征在于,获取所述邮件引用的关联的方法为:对缺陷报告的正文文本进行模式匹配,判断是否包含对邮件的引用信息;若包含,则提取引用链接中的Message-ID信息;然后根据Message-ID定位相应的邮件,并建立引用关联。

5.如权利要求1所述的方法,其特征在于,若一封邮件的正文文本中与一缺陷报告的正文文本中存在相同的代码元素,即认为两者存在所述共同代码元素关联。

6.如权利要求5所述的方法,其特征在于,根据代码元素的来源挖掘所述共同代码元素关联;首先对代码元素进行解析,其中,如果代码元素来源为目标项目的代码元素,且为长代码元素,则:1)将该长代码元素解析成AST;2)遍历AST节点,读取节点上的元素;3)对每个节点,提取其所在包名信息并连接,则得到长代码元素集合;如果代码元素来源为目标项目的代码元素,且为短代码元素,则1)采用将该短代码元素解析成AST;2)遍历AST节点,读取节点上的元素,得到初始代码元素集合;3)对该初始代码元素集合中的元素去重,并过滤停用词;如果代码元素来源为其他项目的代码元素,则采用命名规则的方法进行解析;然后根据上述解析结果,判定封邮件的正文文本中与缺陷报告的正文文本中是否存在共同代码元素关联。

7.如权利要求1所述的方法,其特征在于,挖掘所述隐式语义关联的方法为:

1)根据邮件和缺陷报告中的堆栈信息,计算邮件和缺陷报告的相似度SIM1;

2)根据邮件和缺陷报告的正文文本,计算邮件和缺陷报告的相似度SIM2;

3)基于相似度SIM1和SIM2,得到邮件和缺陷报告的综合相似度SIM;然后根据综合相似度SIM确定存在相似关联的邮件和缺陷报告;

4)获取每一文档的查询向量;其中,第i个文档的查询向量为n为所有文档出现词汇总数,Wi,k指第k个词汇在该文档i中出现的次数;所述文档包括邮件和缺陷报告;

5)按照文档i对应的查询向量,计算文档i与其他所有文档的余弦相似度,并按照降序进行排序;然后取排序结果前若干个文档为与文档i存在潜在语义关联的文档。

8.如权利要求7所述的方法,其特征在于,利用公式计算查询向量Vi=<Wi,1,Wi,2,...,Wi,n>和文档j的查询向量Vj=<Wj,1,Wj,2,...,Wj,n>的余弦相似度Similarituy(Vi,Vj)。

9.如权利要求7所述的方法,其特征在于,采用图数据Neo4j表现挖掘出的缺陷报告与邮件列表之间的语义关联。

10.如权利要求1所述的方法,其特征在于,对缺陷报告与邮件列表进行解析的方法为:

21)首先过滤掉缺陷报告与邮件列表中的冗余文本内容;

22)根据堆栈信息特征,从步骤21)处理后的缺陷报告与邮件列表中提取堆栈信息;

23)从步骤22)处理后的缺陷报告与邮件列表中提取代码片段;然后将剩余文本为正文文本。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1