一种将流程模型自动转换为多语言文本的方法与流程

文档序号:15399611发布日期:2018-09-11 17:10阅读:187来源:国知局

本发明属于流程挖掘领域,具体涉及一种将流程模型自动转换为多语言文本的方法。



背景技术:

当前流程模型生成多语言文本主要包括两类方案:一类是让流程专家阅读和理解流程模型,然后生成多语言文本。第二类就是先使用翻译工具将模型元素文本翻译成统一语言,然后使用现有的流程模型文本生成方法生成单一语种的文本,然后使用翻译工具将单一语种文本翻译成多语言文本。

第一类方法是让流程专家阅读和理解流程模型,然后使用多种语言表达流程模型的结构和含义。使用这种方法生成的多语言文本可读性强,语法正确,但是这样的多语言流程专家非常稀少且价格昂贵,其次当流程模型结构复杂、包含节点众多时,流程专家阅读和理解的效率非常低,而且流程专家生成多语言文本时,并不能保证生成文本语法等完全正确、流程信息没有遗漏。

第二类方法首先使用翻译工具将模型元素的文本信息翻译成统一的语言,然后使用现有的流程模型文本生成方法生成流程模型的单一语种文本,最后使用翻译工具将单语种文本翻译成多语言文本。这种方法实现简单,文本生成效率高,但是实现过程冗长,且通用翻译工具并不能保证领域词汇的翻译质量,也不能保证生成多语言文本的语义完整,语法正确。

综合分析两类方法,第一类方法生成的多语言文本可读性更强,语法更加正确,但是寻找多语言流程专家难度大,而且生成多语言文本质量取决于流程专家对模型的理解程度和流程专家的语言文本表达能力。第二类方法生成多语言文本效率高,可以处理复杂的流程模型,但生成文本质量取决于翻译工具的翻译质量和翻译工具的多语言语法结构调整能力,从整体来看本发明所提出的技术与思路是创新的,是现有流程模型的文本生成方法无法实现的。

现有流程模型生成多语言文本的方法包括人工生成方法、翻译工具与流程模型的单语言文本生成结合的方法。其技术缺点主要体现在一下几个方面:

人工生成方法无法解决多语言文本生成周期长,效率低下的问题。首先寻找多语言流程专家是很困难的,而使用流程专家生成多语言文本的成本也是非常高的。除此之外,流程专家根据自己对流程模型的理解,结合自身的语言表达习惯,生成流程模型的多语言文本,但是随着流程模型结构复杂度的增大,业务专家理解流程模型会越来越困难,因此生成的多语言文本具有很强的主观性,流程专家并不能保证流程模型的信息完整准确的表达出来。

翻译工具与流程模型的文本生成结合的方法使用现有的翻译工具统一模型元素文本信息的语种,然后使用流程模型文本生成和翻译工具生成流程模型的多语言文本,这种方法无法保证在领域词汇的翻译准确性,而且由于需要使用翻译工具将一种语言的文本翻译成多种其他语言,翻译工具的跨语言语法结构理解和调整能力直接决定了生成的多语言文本的质量,最后翻译工具生成的文本含有大量的重复信息,使得生成的文本结构松散,影响用户对流程模型的理解。



技术实现要素:

针对现有技术中存在的上述技术问题,本发明提出了一种将流程模型自动转换为多语言文本的方法,设计合理,克服了现有技术的不足,具有良好的效果。

为了实现上述目的,本发明采用如下技术方案:

一种将流程模型自动转换为多语言文本的方法,采用流程模型预处理模块、带注释流程结构树生成模块和流程模型多语言文本生成模块;

流程模型预处理模块,被配置为识别模型元素文本的语种,构建多语言文本模板和构建多语言领域词库;

带注释流程结构树生成模块,被配置为解析模型元素的文本信息,解析流程模型的结构信息,构建流程模型的带注释流程结构树;

流程模型多语言文本生成模块,被配置为使用深度语法树从带注释流程结构树中生成多语言文本,然后使用主语聚合、动词聚合、宾语聚合处理多语言文本,生成结构紧密的多语言文本;

所述的将流程模型自动转换为多语言文本的方法,包括如下步骤:

步骤1:流程模型预处理;

步骤2:带注释流程结构树生成;

步骤3:流程模型多语言文本生成。

优选地,在步骤1中,具体包括如下步骤:

步骤1.1:模型元素文本语种识别;

通过查找特有字母或字母组合、查找变音符号的种类及标记数量、查找特有语法词汇和查找特有标点符号四种方法确定模型元素文本的语种;

步骤1.2:多语言文本模板构建;

构建可以正确描述流程模型结构的多语言文本模板,流程模型中包含选择、并发、循环多种结构;

步骤1.3:多语言领域词库构建;

收集和整理专业术语的多语言表达方式。

优选地,在步骤2中,具体包括如下步骤:

步骤2.1:模型元素文本解析;具体包括如下步骤:

步骤2.1.1:获取流程模型中的文本信息;

步骤2.1.2:通过多语言语义依存技术解析文本,获得包括主语、动词、宾语、从句在内的信息;

步骤2.1.3:通过多语言翻译技术翻译文本信息,通过翻译结果筛选技术和跨语言语法结构调整优化翻译结果;

步骤2.1.4:生成模型元素文本的多语言文本信息;

步骤2.2:模型结构解析;具体包括如下步骤:

步骤2.2.1:获取流程模型的结构;

步骤2.2.2:对流程模型结构遍历,使用rpst(therefinedprocessstructuretree)算法划分流程模型结构,生成流程结构树;

步骤2.2.3:将模型元素文本解析的多语言文本信息加入流程结构树,生成带注释的流程结构树。

优选地,在步骤3中,具体包括如下步骤:

步骤3.1:多语言文本生成;

对带注释的流程结构树遍历,使用深度语法树组织多语言文本信息,并使用多语言模板描述流程模型结构,生成流程模型的多语言文本;

步骤3.2:多语言文本聚合;

对生成的多语言文本聚合,包括主语聚合、动词聚合、宾语聚合,生成结构紧密、语法正确的多语言文本。

本发明所带来的有益技术效果:

(1)流程模型的文本语种识别技术:现有的多语言翻译技术在翻译过程中可以自动识别文本的语言,但是有的语言之间很难区分,这使得多语言文本翻译时准确率低;本发明使用流程模型的文本语种识别技术识别流程模型中文本的语种,可以正确的设置翻译参数,保证文本翻译的准确性。

(2)多语言文本模板构建技术:流程专家生成流程模型的多语言文本时,具有很强的主观性,流程专家会根据自己的表达习惯对流程模型结构加以描述,因此非业务人员需要适应不同专家的表达习惯,本发明定义了描述流程模型结构的多语言文本模板,使用固定的、容易理解的模板对流程模型结构进行描述,增强了文本的一致性和可读性。

(3)多语言语义依存分析技术:现有的方法只能处理部分语种的流程模型,本发明根据文本语种识别的结果,使用多语言语义依存技术解析流程模型中的文本,可以识别的语种种类大大提升,这是现有的流程模型的文本生成方法无法实现的。

(4)多语言文本聚类技术:本发明对深度语法树生成的多语言文本进行聚类处理,包括主语聚类、动词聚类、宾语聚类,这样可以减少文本冗余,使多语言文本结构紧密,提高文本的可读性。

附图说明

图1为本发明的基本原理图。

图2为主语聚类结果示意图。

图3为自行车制造企业bpmn流程模型示意图。

图4为实验结果图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明:

本发明自动生成流程模型的多语言文本,基本原理如图1所示,从功能角度出发给出详细的功能模块,并对每个功能模块给出详细的实现技术方案。本发明的主要功能模块包括:流程模型的预处理模块,带注释流程结构树生成模块和流程模型的多语言文本生成模块

1、流程模型的预处理模块

流程模型的预处理模块,主要完成模型元素文本语种识别、多语言文本模板构建和多语言领域词库构建。

模型元素文本语种识别是识别模型元素文本的语言,识别出语种之后才能根据不同的句法依存方法模型元素解析文本,根据模型元素文本的语言将文本翻译成多种语言。本发明通过查找特有字母或字母组合、查找变音符号的种类及标记数量、查找特有语法词汇和查找特有标点符号四种方法确定模型元素文本的语种。

多语言文本模板构建主要构建可以正确描述流程模型结构的多语言文本模板,流程模型中包含选择、并发、循环等多种结构,不同的流程结构表示不同业务流程需求,流程结构的选择路径也决定了流程结构的复杂度。为了正确表达流程的执行过程,根据流程结构类型、分支数目和执行条件等定义多语言文本模板,在生成流程模型的多语言文本时,根据需要向多语言文本中添加句子模板,使生成多语言文本条理清晰,结构紧密。

多语言领域词库构建主要构建专业术语的多语言表达,专业术语表示特定领域对一些特定事物的统一的业内称谓,因其特殊性而不能使用通用翻译工具翻译,通过收集专业术语对照表,可以完成多语言领域词库的构建,构建的多语言领域词库可以在翻译过程中对翻译结果进行调整,保证专业术语的翻译准确。

2、带注释流程结构树生成模块

带注释流程结构树生成模块,主要完成模型元素文本解析和模型结构解析。

模型元素文本解析,首先提取和解析模型元素的文本信息,根据模型元素文本语种识别的结果,使用斯坦福的语义依存方法来解析文本信息,不同的语种有不用的解析方法,也有不同的语法单元提取方法,经过模型元素文本信息的提取解析和提取,可以获得模型元素的主语、动词、宾语、从句等信息;然后使用多语言翻译技术译将语义依存结果翻译成多语言表达,通过设置要翻译的源语言(即模型元素文本语种识别结果)、要翻译的目标语言,使用百度翻译完成文本的翻译;在翻译过程中,一个文本的翻译结果有多个,借助于流程模型的领域、文本的上下文和多语言领域词库,从翻译结果中选择最佳翻译;最后为了减小不同语种之间语法结构和表达习惯的差异,使用跨语言语法结构调整优化翻译结果,最终生成模型元素文本的多语言文本信息。

流程模型结构解析遍历流程模型,首先将流程模型转换为由节点和有向边组成的有向图;然后使用rpst算法,将流程模型划分成若干子流程,子流程是流程模型的一个片段,每个子流程都具有一个开始节点和一个结束节点,任意两个子流程之间相互嵌套或互不相交;根据子流程之间的嵌套包含关系,使用流程结构树存储子流程,流程结构树中树叶节点表示流程模型中的一条边,流程结构树中父子关系表示子流程之间的嵌套关系;流程结构树中包含流程模型的结构信息,为提高多语言文本生成的效率,将模型元素文本解析的结果存入流程结构树中的树叶节点中,形成带注释的流程结构树,带注释流程结构树中包含了流程模型的所有信息。

3、流程模型多语言文本生成模块

流程模型多语言文本生成模块,主要是从带注释流程结构树中生成多语言文本,并使用聚类方法使生成的多语言文本简洁明了。在带注释流程结构树中,树的层次表示子流程及其包含关系,树中树叶节点包含了流程模型的多语言文本信息;首先使用深度语法树来组织模型元素的多语言文本信息单元,并使用深度语法树的文本生成方法生成多语言文本;然后根据非树叶节点的流程结构、孩子节点多语言文本、孩子节点数目和多语言模板生成非树叶节点的多语言文本。因此带注释流程结构树遍历完毕即可生成流程模型的多语言文本,但是在生成的多语言文本中,存在大量的重复信息,使用主语聚类、动词聚类合宾语聚类处理多语言文本,生成最终的多语言文本。

在带注释流程结构树中,树叶节点中包含了流程模型的多语言文本信息,首先使用深度语法树来组织多语言文本信息单元,然后从深度语法树生成多语言文本,为了使生成的多语言文本语法正确、语义完整,结构紧密,使用主语聚类、动词聚类合宾语聚类处理多语言文本,其中主语聚类结果如图2所示,如果没有主语聚类,生成的文本是“销售部接受订单,销售部检查订单,销售部通知仓库部和工程部”,对其进行主语聚类,可以得到“销售部接受订单,检查订单,通知仓库部和工程部”,可以缩短文本长度,减少文本冗余,提高文本可读性。因此本模块也是本发明的核心。

模型元素文本的语种识别技术:模型元素文本的语种识别对文本语义依存分析,多语言文本翻译和跨语言语法结构调整等有重要作用,是生成流程模型多语言文本的保证。本发明根据流程模型中的模型元素的文本信息,通过查找特有字母或字母组合、查找变音符号的种类及标记数量、查找特有语法词汇和查找特有标点符号四种方法确定模型元素文本的语种,保证了模型元素文本语种识别的正确性。

模型元素文本的多语言语义依存分析:语义依存分析句子各个语言单位之间的语义关联,并将语义关联和依存结构呈现。不同的语种有不同的表达方式和语义结构,因此需要根据模型元素文本的语种,使用多语言语义依存分析模型元素文本。本发明通过使用斯坦福语义依存方法分析模型元素的文本,获取模型元素对应的主语、动词、宾语、从句等信息,确保了模型元素文本的正确解析。

多语言文本模板构造技术:流程模型描述了业务流程的执行过程,流程模型中存在分支、选择、循环等多种结构,这些结构需要使用自然语言文本描述,本发明通过多语言文本模板构造技术定义大量的文本模板,用于在生成流程模型的多语言文本过程中描述流程模型的结构,确保了流程结构被正确表达。

多语言文本聚类:流程模型的多语言文本生成过程以流程模型的节点为单位,因此生成的多语言文本中有大量的重复信息,本发明通过主语聚类、动词聚类、宾语聚类,使生成的多语言文本内容准确,结构紧密。

本发明以bpmn流程模型为例,通过实验的方式,生成自行车制造企业的bpmn流程模型的多语言表达。对于如图3所示的流程模型,使用本发明方法,将生成流程模型的多语言文本,实验结果如图4所示。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1