一种将中文流程模型自动转换为英文自然语言文本的方法与流程

文档序号:13332133阅读:509来源:国知局
一种将中文流程模型自动转换为英文自然语言文本的方法与流程

本发明属于流程挖掘领域,具体涉及一种将中文流程模型自动转换为英文自然语言文本的方法。



背景技术:

当前由中文的流程模型生成英文的自然语言文本主要包括两类方案:一类是借助流程专家的帮助,使其对中文的流程模型进行阅读和理解,然后生成英文的自然语言文本。第二类就是先使用现有流程模型生成中文自然语言文本的技术,先由中文的流程模型生成中文的自然语言文本,然后使用在线翻译工具将中文自然语言文本翻译成英文的自然语言文本。

第一类方法是借助流程专家的帮助,通过其对中文流程模型的理解,然后使用英文表达流程模型,进而生成英文的自然语言文本,这种方法生成自然语言文本的质量高,可读性强,但是人工翻译的效率低,当流程模型复杂时翻译的周期长。

第二类方法首先使用现有流程模型生成中文自然语言文本的方法,由中文的流程模型生成中文的自然语言文本,然后使用在线翻译工具,将中文自然语言文本翻译成英文,这种方法实现简单,实现效率高,但是通用翻译工具不能保证领域词汇的翻译正确,也不能保证生成文本与流程模型的一致性。

综合分析两类方法,第一类生成的中文自然语言文本更正确,但是寻找这种流程专家的难度大。第二类方法使用在线翻译工具中文自然语言文本进行翻译,但是这样并不能保证领域词汇翻译的正确性,不能保证文本和模型的一致性。从整体来看本发明所提出的技术与思路是创新的,是现有自然语言文本生成方法无法实现的。

现有从中文流程模型生成英文自然语言文本包括传统人工生成,在线翻译工具生成等方案。其技术缺点主要体现在以下几个方面:

传统人工生成方案无法解决时间周期长,生成效率低的问题。随着流程模型规模的增大,对于流程专家来说,不能充分的理解流程模型的含义,无法保证每次生成的文本都正确,而且人工生成的成本高,效率低。

在线翻译工具生成方案首先使用流程模型生成中文自然语言文本,然后使用在线翻译工具将中文自然语言文本翻译成英文,使用通用的在线翻译工具对中文文本翻译,不能保证领域词汇翻译正确,而且不能保证生成的英文文本与流程模型的一致性,影响用户对流程模型的理解。



技术实现要素:

针对现有技术中存在的上述技术问题,本发明提出了一种将中文流程模型自动转换为英文自然语言文本的方法,可以生成语法结构正确,可读性强的英文自然语言文本,设计合理,克服了现有技术的不足,具有良好的效果。

为了实现上述目的,本发明采用如下技术方案:

一种将中文流程模型自动转换为英文自然语言文本的方法,采用标签文本信息解析模块、流程模型结构转换模块、领域词库构建模块、标签文本信息翻译模块、翻译文本筛选模块、跨语言语法结构转换模块以及自然语言文本生成模块;

标签文本信息解析模块,被配置为用于获取流程模型中模型元素的文本信息,并对模型元素的文本信息解析,获取包括主语、动词、宾语在内的标签文本信息;

流程模型结构转换模块,被配置为用于将流程模型结构转换成流程结构树;

领域词库构建模块,被配置为用于根据流程的行业领域,构建领域词库;根据流程模型的行业领域,对所有该领域的词汇汇总,并根据所属行业对领域词汇翻译,其中,领域词库中每一项描述了某个领域的某个词汇和该词汇的解释翻译;

标签文本信息翻译模块,被配置为用于对解析之后的标签文本信息进行翻译,将中文的标签文本翻译成英文的标签文本;

翻译文本筛选模块,被配置为用于筛选翻译的文本,使用从流程模型构建的领域词库,对翻译的结果筛选,根据流程模型的领域和领域词库中文本的解释翻译,选择最合适的翻译文本;

跨语言语法结构转换模块,被配置为用于对翻译之后的英文标签文本进行语法结构转换,转换成英文的语法结构和表达习惯,然后使用语法树和这些语法结构单元生成语法结构正确的描述节点的自然语言短文本;

自然语言文本生成模块,被配置为用于使用流程结构树和自然语言短文本构建带注释的流程结构树,然后通过带注释的流程结构树生成英文自然语言文本;

所述的将中文流程模型自动转换为英文自然语言文本的方法,包括如下步骤:

步骤1:通过标签文本信息解析模块,获取并解析流程模型中模型元素的文本信息;

步骤2:通过流程模型结构转换模块,将流程模型结构转换成流程结构树;

步骤3:通过领域词库构建模块,构建流程模型的领域词库;

步骤4:通过标签文本信息翻译模块,将中文的标签文本翻译成英文的标签文本;

步骤5:通过翻译文本筛选模块,根据领域词库筛选正确的文本翻译;

步骤6:通过跨语言语法结构转换模块,将中文的语法结构转换成英文的语法结构,并使用深度语法树生成描述节点行为的自然语言短文本;

步骤7:通过自然语言文本生成模块,生成英文自然语言文本。

优选地,在步骤2中,具体包括如下步骤:

步骤2.1:流程结构遍历;

使用深度优先搜索遍历历程模型中的节点和边;

步骤2.2:流程结构划分;

使用rpst算法划分流程模型的结构;

步骤2.3:流程结构树构造;

将流程模型分解成具有层次关系的子流程片断;根据子流程片断之间的关系构造流程结构树;其中,树中节点表示子流程片断,树的层次关系表示子流程片断之间的包含嵌套关系。

本发明所带来的有益技术效果:

(1)标签文本信息的解析技术:现有自然语言分析方法生成文本的过程没有考虑文本的内容和语法结构,生成文本的成分简单,并且不能保证模型文本的一致性;本发明通过对标签文本信息的获取和解析,保证了模型文本的一致性。

(2)基于流程结构树的流程结构转换技术:自然语言分析方法和人工生成文本的方法基于流程模型的局部结构描述流程模型,没有将流程模型作为一个整体结构;本发明使用流程结构树来表示流程模型的结构。将流程模型划分成具有层次的流程片断,每个流程片段表示模块化的子流程,这样可以更准确的刻画流程模型的结构。

(3)领域词库的构建技术:本发明根据流程模型的领域,构建领域词库,对流程模型中的领域词汇汇总解释,根据词汇的领域对词汇翻译和解释,使文本的含义更正确、更清楚的表达出来,这是人工生成和在线翻译工具不能完成的。

(4)标签文本翻译技术:本发明将流程模型中的标签文本进行解析,获取了主语、动词、宾语、从句等信息,然后使用百度翻译接口对这些信息进行翻译,实现了中文到英文的自动翻译;和人工翻译相比,能够生成高效率的生成中文对应的英文文本。

(5)翻译文本的筛选技术:现有的通用翻译接口会将文本翻译成多个目标文本,本发明可以从多个翻译结果中选择最优的翻译,通过使用翻译文本筛选技术,根据领域词库中文本的含义,从多个翻译文本中选择最优的翻译。

(6)跨语言语法结构转换技术:本发明使用跨语言语法结构转换技术对中文的语法结构进行转换,使得生成的文本符合英文的语法结构和表达习惯;和人工转换相比,能够提高效率,而且生成语法结构正确的标签文本。

(7)基于语法树的自然语言生成技术:本发明使用语法树和跨语言语法结构转换之后的文本信息生成描述模型元素的的短文本,和之前的技术相比,能够生成语法正确,语义完整的语句;通过对流程结构树中的结构描述,可以保证模型文本的一致性,这样生成的文本能正确的描述流程模型模型元素,也能正确表达流程模型的结构。

附图说明

图1为本发明方法的流程图。

图2为自行车厂商bpmn流程图。

图3为实验结果图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明:

本发明从中文流程模型生成英文自然语言文本,基于方案的基本内容,从功能角度出发给出详细的功能模块,并对每个功能模块给出详细的实现技术方案。本发明的主要功能模块包括:流程模型标签文本信息解析模块、流程模型结构转换模块、领域词库的构建模块、标签文本的翻译模块、翻译文本筛选模块、跨语言语法结构转换模块和自然语言文本生成模块,如图1所示。

1、流程模型标签文本信息解析模块

该模块主要是获取和解析流程模型中模型元素文本信息。流程模型中节点和边上都会携带标签文本信息,需要对这些信息进行获取和解析,这些信息是自然语言文本的原始数据来源。为了生成语法正确的自然语言文本,使用语义角色标注解析文本信息,获得模型元素的的主语、动词、宾语、从句等信息。

2、流程模型结构转换模块

该模块主要完成流程模型结构的转换。流程模型是以图的形式表示的,通过对图的深度优先遍历,在遍历过程中使用rpst(therefinedprocessstructuretree)算法将流程模型划分成具有层次的流程片断,每流程片断有一个开始节点和一个结束节点。通过流程片断之间的关系,将其组织成具有层次关系的树,也就是流程结构树。

3、领域词库的构建模块

该模块主要完成流程模型领域词库的构建,流程模型描述了行业领域的操作细节和规范,根据流程模型所属的行业,构建行业领域的领域词词库。在构建领域词库时,根据领域词汇所属的领域,使用词汇和词性对词汇进行对照翻译,对于词库中的每一项,包含词汇的中文表示和在本领域下若干英文表示,领域词库中的每一项代表领域中的一个词汇,例如餐饮行业的部分领域词如表1所示。

表1餐饮行业领域词库

4、标签文本的翻译模块

该模块主要完成标签文本信息的翻译,因为流程模型中节点和边上的信息都是中文的,而需要生成的自然语言文本是英文的,所以需要将这些文本中的信息进行翻译。经过流程模型标签文本信息的获取解析之后。节点和边上的文本信息被解析成主语、动词、宾语、从句等信息,使用百度翻译等提供的接口,对这些信息进行翻译,可以完成中文到英文的自动翻译。

5、翻译文本筛选模块

该模块主要完成翻译文本的筛选,使用标签文本的翻译模块对流程模型中的中文文本信息翻译,翻译工具会返回中文文本对应的多个英文文本,这里使用领域词库,从多个英文文本翻译中选择一个最优的翻译。

6、跨语言语法结构转换模块

中文与英文之间的表达方式,语法习惯有很多不同,例如中文多使用短句进行文本的表达,而英文中多使用长句进行文本的表达。再比如中文是有因到果,由事实到结论,而英文是判断和结论在前,描述在后。在进行标签文本的翻译之后,语法结构仍然是中文的,为了获取语法正确的文本,需要使用跨语言语法结构转换技术,对其语法结构进行调整,进行语法调整之后,使用深度语法树生成对应某一个节点的短文本。这些短文本描述的是流程模型中的一个节点或一条边,这些信息是最后自然语言文本的基本组成部分。

7、自然语言表达文本生成技术模块

在跨语言语法结构转换之后,生成的短文本描述的流程模型中的一个节点或一条边,这些短文本,没有描述流程模型的结构。在流程结构树中包含流程结构的所有信息,流程结构树中的树叶节点表示的流程模型中的一条边,可以使用跨语言语法结构生成的短文本进行描述,这样就生成了既包含结构信息,又包含文本信息的带注释的流程结构树。

在带注释的流程结构树,文本信息存在与叶子节点中,描述的是流程模型中的节点和边的行为,这些文本并没有描述流程模型的结构信息,因此需要通过对带注释的流程结构树进行遍历,根据非叶子节点的类型对流程结构和其孩子节点的文本进行描述,并保证文本的顺序和流程模型中节点出现的顺序一致。因此本模块也是本发明的核心也是关键。

领域词库的构建技术:本发明根据流程模型中的文本信息构建领域词库。通过流程模型所属的领域,存储领域中的词汇及其含义,构建与流程模型相关的领域词库,保证领域词汇的翻译正确。

标签文本的翻译技术:本发明没有对整段的文本翻译,而是对标签文本信息中所包含的主语、动词、宾语、从句、等单独进行翻译,并接入百度翻译等接口,完成了中文到英文的自动翻译。

翻译文本的筛选技术:在进行标签文本的翻译中,翻译接口会将文本翻译成多个含义,为了从多个翻译结果中选取最优的结果,使用翻译文本筛选技术,根据领域词库中文本的含义,从标签文本翻译结果中选择一个最优的结果。

跨语言语法结构转换技术:本发明可以进行中文到英文的语法结构的转换,通过对中文中的各个语法结构进行对应转换,能够保证对应的英文的语法结构的正确性。这样能够为生成语法正确的自然语言文本提供保证。

本发明是否经过实验、模拟、使用而证明可行,结果如何

本发明以bpmn流程模型为例,通过实验的方式,将自行车厂商的bpmn流程模型转换成英文自然语言表达。对于如图2所示的中文流程,使用本发明的转换方法,将中文bpmn流程模型转换成英文自然语言表法,实验结果如图3所示。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1