多语言工卡生成系统及方法

文档序号:6365468阅读:221来源:国知局
专利名称:多语言工卡生成系统及方法
技术领域
本发明涉及数据管理技术领域,尤其涉及一种多语言工卡生成系统及方法。
背景技术
航空业是一个竞争激烈的行业。为了提供有竞争力的全球航空服务,智能化情境感知数据管理服务 是不可或缺的。如何为航空工作人员构建一个更高效、及时、自适应、辅助性的、用来处理日常功能和服务的工作环境提上了议程。根据统计,每年航空工业在维修上花费惊人,仅次于燃油费用。2007年,全球维护、维修、大修(Maintenance Repair &Overhaul, MR0)服务花费450亿美元,2017年预计将扩大为610亿美元。航空公司预计从2010到2017年十年间,航空业的客流将会增加近50%,刺激了航空飞机MRO服务的快速增长。在全球经济衰退的情况下,MRO面临着航空业的疲软。MRO从业者面临提供工作效率和减少工作成本的巨大压力。在航空领域,工卡是记录着所有在维修飞机时需要信息的文档,其提供给所有飞机维修的技术人员。生成双语工卡是一个很耗时的工作,例如,要生成一个600页的双语工卡需耗时近一个月。Enigma公司提供了一种工卡生成器系统,该系统提高了飞机维修工卡制作工作的效率。但该生成系统不支持生成双语工卡。

发明内容
(一 )要解决的技术问题本发明要解决的技术问题是提供一种能够高效生成多语言工卡的多语言工卡生成系统及方法。( 二 )技术方案为解决上述问题,本发明提供了一种多语言工卡生成系统,该系统包括工卡匹配模块,用于根据输入条件,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块;工卡生成模块,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块;工卡输出模块,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库;所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储。优选地,该系统还包括工卡库,与所述工卡匹配模块以及所述工卡输出模块相连,用于存储工卡;所述工卡输出模块进一步包括输出单元,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出;语料库更新单元,用于根据所述插入了译文的单一语种工卡信息更新所述语料库;工卡库更新单元,用于将所述多语言工卡同步到所述工卡库。
优选地,所述工卡生成模块进一步包括译文查找单元,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文;译文插入单元,用于将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块。优选地,该系统还包括语料库抽取存储模块,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出,并对每个翻译单元建立索引,存储到所述语料库中。
优选地,所述语料库抽取存储模块进一步包括抽取单元,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;存储单元,用于对每个所述翻译单元建立索引,并存储到所述语料库中。本发明还提供了一种多语言工卡生成方法,该方法包括步骤SI.根据输入条件,在工卡库中进行工卡匹配,若存在与所述输入条件对应的多语言工卡信息,则执行步骤S3,否则,执行步骤S2 ;S2.对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中;S3.将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库,将所述多语言工卡同步到工卡库;所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储;所述工卡库用于存储工卡。优选地,步骤S2进一步包括步骤S2. I对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找每条工卡信息对应的一种或多种语言译文;S2. 2若所述语料库中存在对应的译文,则将所述对应的译文插入到所述单一语种工卡信息中,否则,执行步骤S2. 3 ;S2. 3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,并将所述相似度最高的译文插入到所述单一语种工卡信息中。优选地,在步骤S2. 3中,所述相似度最高的译文以突出标记的形式插入到所述单一语种工卡信息中,且后缀其相似度分值。优选地,该方法还包括步骤S0. I对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出;S0. 2对每个所述翻译单元建立索引,并存储到所述语料库中。优选地,所述翻译单元及其索引以TMX文件格式存储在所述语料库中。(三)有益效果本发明的系统及方法通过将记忆翻译技术融合到多语言工卡生成中,不仅实现了多语言工卡的生成,且生成效率高、成本低。


图I为依照本发明一种实施方式的多语言工卡生成系统的结构图;图2为WORD格式的双语工卡示意图;图3为依照本发明一种实施方式的多语言工卡生成方法的流程图。
具体实施例方式本发明提出的多语言工卡生成系统及方法,结合附图及实施例详细说明如下。 记忆翻译使用现存已经翻译好的句子来翻译新句子,将英文和中文译文以一个翻译单元的形式进行存储,是近年来提出的一种语言翻译技术,目前有10种标准(TMX、TBX、UTX、SRX、GMX、OLIF、XLIFF, TransffS, XML: TM、PO),TMX 的标准被业届公认为是最佳选择。采用记忆翻译技术能有效的提高翻译工作的工作效率。本发明即将记忆翻译技术融合到多语目工卡生成中。根据用户条件自动查找工卡库中现存的工卡,利用现存的工卡资源,构建自己的语料库。根据该语料库能对单一语种工卡进行多语言译文生成。多语言生成工作直接在非结构化工卡上进行修改。插入的译文将标注相似度信息,以便于用户进行审阅及修改。经过人工审阅后的多语言工卡,可以用来对现存语料库进行完善,从而不断提高语料库的完备性及准确性。本实施方式以针对中英文双语工卡的工卡生成系统为例进行说明,但不限于此,本发明的系统也适用于其它任意两种或多种语言开卡的生成。依照本发明一种实施方式的双语工卡生成系统有助于提高MRO中英文工卡双语生成效率,并降低成本。如图I所示,该系统包括工卡匹配模块、工卡生成模块、工卡输出模块、以及语料库抽取存储模块。在本实施方式的系统中,用户在需要生成工卡时,首先需要输入与维修信息相关的条件,例如,查询对某型号飞机发动机的相关维修信息,输入飞机型号以及发动机对应的英文。工卡匹配模块用于从工卡库中查询与用户输入条件最为接近的工卡,如果存在与用户输入条件最相近的中英文双语工卡,则将其直接发送至工卡输出模块,由用户确定该现有的工卡信息是否需要进一步修改,或直接转换为结构化的双语工卡输出。如果与用户输入条件最相近的工卡是单一语种(中文或英文,本实施方式为英文)的工卡,则将该查询到的该单一语种工卡发送至工卡生成模块进一步处理。工卡生成模块进一步包括译文查找单元以及译文插入单元,译文查找单元根据工卡匹配模块发送的对单一语种的工卡信息进行解析,提取每条信息的英文原文,并在语料库中根据记忆翻译的匹配策略进行对应中文译文的查找,从而获取相应的中文译文,并由译文插入单元将其插入到该英文工卡信息中。当语料库中不存在相应的中文译文时,译文查找单元则利用编辑距离进行匹配,获取相关译文的相似度信息,将由译文插入单元将相似度最高的译文插入到该英文工卡信息中。优选地,该译文插入单元突出标记出该插入的译文(例如以红色字体显示)并后缀其相似度分值以提示用户,通过交互界面由用户根据需要(经验或相关知识等)进行修改或确认,并将修改或确认后的非结构化文档信息发送至工卡输出模块。工卡输出模块根据工卡生成模块进一步包括输出单元、语料库更新单元、以及工卡库更新单元。输出单元用于将带有译文的工卡信息转换成结构化文本的双语工卡后输出(如图2所示为一个双语工卡Word格式示例)。工卡库更新单元将该工卡信同步到工卡库,更新工卡库。语料库更新单元将工卡生成模块发送的带有译文的工卡信息同步到语料库,对语料库进行更新。如果语料库存在相应的翻译单元,则跳过该翻译单元的处理。语料库为记忆翻译库,其中存有工卡的维修信息,同一条工卡信息对应的中英文译文作为一个翻译单元,每个翻译单元对应一个索引,所有翻译单元及索引以TMX文件标准进行存储(TMX标准是记忆翻译领域的一种翻译规范)。语料库抽取存储模块用于生成并维护该语料库,为工卡的生成做准备。该模块包括抽取单元以及存储单元,抽取单元通过对工卡库内现存的双语工卡进行解析,按照工卡文档中的工作流程项目分解,将每个条目对应的中文及其英文译文作为一个翻译单元抽取出;存储单元对抽取单元抽取的翻译单元进行索引,并以TMX文件标准进行存储,从而形成该语料库。语料库基于记忆翻译技术来不断更新,在建立初期,工卡库中没有工卡时,可以根据常识以及技术经验等初步建立该语料库。如图3所示,依照本发明一种实施方式的基于上述系统的多语言工卡生成方法包括步骤SI.工卡匹配模块根据用户的输入条件,在工卡库中进行工卡匹配,若存在与输入条件对应的双语工卡信息,则执行步骤S3,否则,执行步骤S2 ;S2.工卡生成模块对该输入条件对应的英文工卡信息进行解析,在语料库中查找该英文工卡信息对应的中文译文,并将查找到的中文译文插入到该英文工卡信息中;S3.工卡输出模块将双语信息或插入了中文译文的英文工卡信息转换成结构化的双语工卡并输出,根据插入了中文译文的英文工卡信息更新语料库,将该双语工卡同步到工卡库。在本实施方式的方法中,步骤S2进一步包括步骤S2. I译文查找单元对该输入条件对应的英文语种工卡信息进行解析,在语料库中查找每条工卡信息对应的中文译文;S2. 2若语料库中存在对应的中文译文,则译文插入单元将该对应的中文译文插入到英文工卡信息中,否则,执行步骤S2. 3 ;S2. 3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,译文插入单元以突出标记的形式插入到该英文工卡信息中,且后缀其相似度分值,供用户参考,用户对其进行修改或确认后输出。
该方法还包括步骤S0. I语料库抽取存储模块的抽取单元对工卡进行解析,将每条英文工卡信息对应的中文译文作为一个翻译单元抽取出;S0. 2存储单元对每个翻译单元建立索引,并存储到语料库中。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
权利要求
1.一种多语言工卡生成系统,其特征在于,该系统包括 工卡匹配模块,用于根据输入条件,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块; 工卡生成模块,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块; 工卡输出模块,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库; 所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储。
2.如权利要求I所述的系统,其特征在于,该系统还包括 工卡库,与所述工卡匹配模块以及所述工卡输出模块相连,用于存储工卡; 所述工卡输出模块进一步包括 输出单元,用于将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出; 语料库更新单元,用于根据所述插入了译文的单一语种工卡信息更新所述语料库; 工卡库更新单元,用于将所述多语言工卡同步到所述工卡库。
3.如权利要求I所述的系统,其特征在于,所述工卡生成模块进一步包括 译文查找单元,用于对所述单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文; 译文插入单元,用于将所述译文插入到所述单一语种工卡信息中,发送至工卡输出模块。
4.如权利要求2所述的系统,其特征在于,该系统还包括 语料库抽取存储模块,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出,并对每个翻译单元建立索引,存储到所述语料库中。
5.如权利要求4所述的系统,其特征在于,所述语料库抽取存储模块进一步包括 抽取单元,与所述工卡库相连,用于对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出; 存储单元,用于对每个所述翻译单元建立索引,并存储到所述语料库中。
6.一种多语言工卡生成方法,其特征在于,该方法包括步骤 S1.根据输入条件,在工卡库中进行工卡匹配,若存在与所述输入条件对应的多语言工卡信息,则执行步骤S3,否则,执行步骤S2 ; S2.对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找所述单一语种工卡信息对应的一种或多种语言译文,并将所述译文插入到所述单一语种工卡信息中; SS3.将所述多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据所述插入了译文的单一语种工卡信息更新所述语料库,将所述多语言工卡同步到工卡库;所述语料库为记忆翻译库,用于存储多语言工卡信息,同一条工卡信息对应的多种语言译文作为一个翻译单元存储; 所述工卡库用于存储工卡。
7.如权利要求6所述的方法,其特征在于,步骤S2进一步包括步骤 S2.I对所述输入条件对应的单一语种工卡信息进行解析,在语料库中查找每条工卡信息对应的一种或多种语言译文; S2.2若所述语料库中存在对应的译文,则将所述对应的译文插入到所述单一语种工卡信息中,否则,执行步骤S2. 3; S2.3根据编辑距离进行匹配,查找与对应的译文相似度最高的译文,并将所述相似度最高的译文插入到所述单一语种工卡信息中。
8.如权利要求7所述的方法,其特征在于,在步骤S2.3中,所述相似度最高的译文以突出标记的形式插入到所述单一语种工卡信息中,且后缀其相似度分值。
9.如权利要求6所述的方法,其特征在于,该方法还包括步骤 SO. I对工卡进行解析,将每条工卡信息对应的多语言译文作为一个翻译单元抽取出; S0. 2对每个所述翻译单元建立索引,并存储到所述语料库中。
10.如权利要求9所述的方法,其特征在于,所述翻译单元及其索引以TMX文件格式存储在所述语料库中。
全文摘要
本发明公开了一种多语言工卡生成系统及方法,涉及数据管理技术领域。该系统包括工卡匹配模块,将对应的多语言工卡信息发送至工卡输出模块,或将对应的单一语种工卡信息发送至工卡生成模块;工卡生成模块,对单一语种工卡信息进行解析,在语料库中查找对应的一种或多种语言译文,并将译文插入到工卡信息中;工卡输出模块,将多语言工卡信息或插入了译文的单一语种工卡信息转换成结构化的多语言工卡并输出,并根据插入了译文的单一语种工卡信息更新所述语料库;语料库为记忆翻译库,存储多语言工卡信息。本发明的系统及方法通过将记忆翻译技术融合到多语言工卡生成中,不仅实现了多语言工卡的生成,且生成效率高、成本低。
文档编号G06F17/30GK102629244SQ20121004787
公开日2012年8月8日 申请日期2012年2月27日 优先权日2012年2月27日
发明者冯铃, 刘青伟, 王昊 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1