用于通过本体模型的比较进行一致性检查的方法和装置的制造方法_2

文档序号:9929388阅读:来源:国知局
被认为是非描述性的。停止词列表可以存储在存储器13中,诸 如服务器的存储器、数据库、比较数据库或者另一个相应的数据库或存储器。去除从存储器 13获得的停止词列表中所识别出的作为需求中提取的信息的一部分的停止词。维持是关键 术语的一部分的停止词,并且删除不是关键术语的一部分的仅各别停止词以维持文档的正 确意义。
[0036] 在方框14中,将词性(P0S)和n元语法构造应用于来自方框12的剩余提取的术语或 从其输出的短语,这在图2中详细示出。
[0037]在方框15中,确定数据中n元语法的位置,这在图3中详细示出。
[0038] 在方框16中,识别关键术语的不同和公共P0S标签(tag),这在图4和图5中详细示 出。
[0039]在方框17中,如果P0S标签是公共的,则例程进行到方框18;否则,例程进行到方框 20 〇
[0040]在方框18中,估计字典式交互信息。
[0041 ]在方框19中,基于朴素贝叶斯网分类器估计上下文概率。
[0042]在方框20中,将术语分类为用于构建本体比较引擎的零件、症状、事件、故障模式 或动作术语中的一个。
[0043] 在方框21中,产生并识别需求子系统。在方框22中,产生本体比较引擎并且将其用 来执行相应需求子系统之间的一致性检查。可以在两个或更多个需求文档之间、需求文档 与软件代码之间、不同子系统的软件代码之间应用一致性检查,并且用于检测软件代码之 间的故障可追溯性。
[0044] 图2示出词性标注器,其中需求文档内的逐字数据被标注。如图2中所示,词性由相 应标识符来标注,其中诸如"are"、"see"、"24HR"、"purge"、"evap"、"selenoid"的短语被分 配下面的P〇S标签:"are/VBP"、"see/VB"、"24HR/JJ"、"purge/NNP"、"evap/NNP" 以及 "selenoid/NNP"。
[0045] 使用POS标注模块来将标签应用于术语。可以在Penn Treebank Project ( http://www.ling.upenn.edu/courses/Fall_2007/ling001/penn_treebank_pos.html) 中找到这些标签的实例,所述实例包括但不限于此。标签可以包括但不限于CC(并列连词)、 CD(基数)、JJ(形容词)、JJR(形容词比较级)、NN(名词、单个或块)、NNS(名词复数)、NNP(适 当的名词单数)、NNPS(适当的名词复数)、RB(副词)、RBR(副词比较级)、RBS(副词最高级)、 VB(动词、基本形式)、VBD(动词过去式)、VBD(动词,现在分词)、VBN(动词,过去分词)、VBP (动词,非第三人称单数现在式)、VBZ(动词,第三人称单数现在式)。应理解,本文的P0S标签 是示例性的,并且可以使用不同的P0S标识符。
[0046]识别与所提取的短语相关的N元语法(n-gram)。术语"语法(gram)"指代作为整体 的短语的(一个或多个)术语并且"n"指代与短语相关的术语的数量。
[0047]图3是n元语法表的示例性图示。从每个需求文档,构建以下类型的n元语法:包括 具有单个词的短语的一元语法(例如,电池、变速器);包括具有两个词的短语的二元语法 (例如,电池没电);包括具有三个词的短语的三元语法(例如,主体控制模块、仪表板群集、 动力总成控制模块);包括具有四个词的短语的四元语法(例如,主体控制模块不工作、变速 器控制模块组件);以及包括具有五个词的短语的五元语法(例如,变速器控制模块组件故 障)。潜在地使用可能五个词长的n元语法的基本原理是因为在含有五个词的一些实例中的 短语(例如,燃料箱压力传感器模块)的关键性质。例如,关键术语的长度可以是五个词,这 些术语是零件的名称、症状、事件、动作和故障模式。
[0048]当所使用的技术不使用将会提供术语的起源或数据库以从每个需求文档识别关 键术语的任何域特定本体时(即,分类法),构建并使用n元语法。因此,可以使用自然语言处 理(NLP)方法,由此在技术的这个阶段构建的n元语法随后被标注有其词性以用于识别术语 的正确分类。
[0049]图4示出识别数据中的n元语法的位置的表。识别短语在每个其P0S标签的开始和 结束位置以用于确定其逐字长度。如以下所展示,在相应n元语法的每一侧上设置三个词的 词窗。词窗是变量,其应基于文档的性质来决定。
[0050 ] XXXXTiXX [ T2xxStartIndex {Phrase i} EndindexT3XT4 ] XXX 左边的上下文信息=(Phrasei T2) 右边的上下文信息=((PhraseiT3), (Phrasei, T4)) 与词窗中的n元语法一起出现的术语被收集作为上下文信息。这有助于识别公共短语 和关键短语。
[0051]图5示出识别与短语相关的公共和不同的P0S标签的表。通过分析分配给第一子系 统的P0S来识别公共P0S标签,其中P0S被分配给第二子系统。P0S标签的分组帮助识别子系 统之间公共的那些相应P0S标签。图6示出图形逻辑交叉,也称为分段之间的连接。如图6中 所示,可以区别开在两个子系统之间具有公共P0S标签的那些相应短语。
[0052]如果发现与不同子系统相关的P0S标签是公共的,则应用字典式交互信息(LMI)概 率技术。LMI概率技术帮助确定P0S标签应被拣选到的分类。例如,以下短语"不应被启动 (shall not be activated)"与症状和故障模式短语"MD RB VB VBN"一起出现。确定用于 潜在分类的以下短语的LMI概率:
以及
[0053] 使用以下公式来确定用于每个相应短语的LIM:
在确定相应概率时,进行一起观察的凝議_義的概率与在数据中独立地观察的 的概率的比较,其中鍵氣:::E裏蜗。因此,具有较高LMI概率的相应 标签或)被分配给用于各别短语的分类。
[0054] 此外,可以使用基于朴素贝叶斯网模型的上下文概率,该模型捕获其中指定特定 短术语的上下文。朴素贝叶斯网模型预测分类成员概率。使用以下步骤来确定上下文概率: 步骤1: 在训练数据中使得T为具有特定标签的标注的n元语法的组,
_类别、(齡%-,焉I:和给定T组,我们估计T是否属于具有最大后验概率的特定类 另IJ,即,
步骤2: 与当前标注的术语一起出现的术语为根据朴素贝叶斯网模型的上下文'c'提供具有独 立于对应于先前术语的标签的当前标签的术语。
步骤3: 如下计算最大似然估计:
[0055]在确定用于公共P0S标签的LMI和上下文概率之后,术语或短语被分类在其相应收 集器(例如,类别)中。分类后的收集器可以用于需求文档之间、软件代码之间或者需求文档 与软件代码之间的一致性检查。此外,可以将分类后的收集器输入到可以与试验数据一起 使用的训练表中。
[0056]图7示出与试验数据合作的训练表的使用。在方框30中,将试验数据输入到引擎 中。在方框31中,识别试验数据中的N元语法,并且从试验数据识别出关键n元语法。
[0057]在方框33中,与训练表32合作使用来自方框31的关键n元语法以用于匹配试验数 据中的n元语法模式。在方框34中,将所得匹配分类到其相应的收集器中。
[0058]在方框35中,主题专家(SME)分析所分类的收集器以用于确定是否误分类任何术 语或短语。在方框36中,SME产生修订的收集器。
[0059]在方框37中,从相应分类的收集器构建本体。形成软件代码的相应本体可以从可 用于软件代码与需求文档之间的一致性检查的结果来构建。所示本体模型优于其他类型的 建模(诸如有限状态建模(FSM))的优点在于FSM主要用于过程流程建模而本体可以用于形 式化话语的域。也就是说,本体区分领域的类别级和实例级视图。因此,本体不需要应用
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1