一种建筑工程多模态双语平行语料库的构建方法与流程

文档序号:18257984发布日期:2019-07-24 10:26阅读:722来源:国知局
一种建筑工程多模态双语平行语料库的构建方法与流程

本发明属于数据处理技术领域,具体涉及一种建筑工程多模态双语平行语料库的构建方法。



背景技术:

建筑英语是建筑行业与英语的结合,涉及到建筑业的各个环节,如资格预审、招投标、建筑施工、质量评估等。建筑英语的文体特征上属于科技文本,有自己的专业词汇和表达习惯,话语方式为书面体,话语基调为正式体。随着我国在国外建筑市场份额的不断扩大以及国内建筑市场与国外建筑市场的接轨,建筑英语的使用越来越普遍,建筑英语的翻译也大量出现,而语料库语言学的观点和方法为建筑英语翻译及教学的研究提供一种工具性的方法,建设建筑英语语料库,服务建筑专业英语教学和建筑领域的应用研究是一项十分紧迫和有意义的任务,鉴于此,有必要设计一种建筑工程多模态双语平行语料库的构建方法。

计算机辅助翻译(CAT)是指译员进行翻译工作时,后台不断自动储存译员录入的译文,从而建立数据库,这样在以后的翻译过程中,再次出现相同或相近的短语或句段时,系统就能自动搜索数据库中已存储的相同或类似的内容,为译员提供参考译文,使其避免重复的翻译劳动,因此,采用建筑工程多模态语料库与CAT结合的模式,可以极大地提高翻译效率。但是,目前仍然存在一些问题:国内外建筑专门语料库本身极为罕见,而建筑类多模态语料库更是前所未有;现有的建筑类语料库语料收集整理校对较少,甚至没有校对,造成语料格式和内容不规范;语料来源不够权威,一些语料不加区分地搜集网络上的各种文本,造成语料噪声大、纯度低,无法真正的运用至CAT软件中;目前平行语料多为段落对齐,但翻译时,最有参考价值的是句子,其次是语言片段、短语和术语,对整段翻译的精准度较低。



技术实现要素:

本语料库的发明的目的在于克服现有技术存在的缺点,提出设计一种建筑工程多模态双语平行语料库的构建方法,即切分精细,精准度高,检索出的词汇或句法含义都是建筑相关领域,因此排除了一些无用的含义,为使用者提供了数量巨大的建筑类双语对译样本。

本发明涉及的建筑工程多模态双语平行语料库的构建方法,具体包括以下步骤:

(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片等;

(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字等),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;

(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;

(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;

(5)标注与转写:根据研究对象和研究需要设计合理、充分的数据挖掘方案,在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注,例如对建筑合同语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频等多种形式结果输出;

(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;

(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定,如同一个单词弹出5次,即权重记为5,当该权重超过10时,即将该单词写入语料库,实现语料库的更新和扩容。

本发明所述步骤(1)的语料筛选过程中,所述网络爬虫的方法采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取相关领域文件下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载相关领域文件,对相关文件的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息,然后对转换后的文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本。

本发明步骤(1)中所述国家级出版社包括中国建筑工业出版社等,所述政府公文报告包括会议公报等,官方认证材料包括合同文本等,其他形态的材料包括建筑行业正式会议的音频、视频、图纸、图片;语料主要涉及的领域包括:绿色建筑、建设理论、建筑标书、建筑合同、建筑材料和城市规划等。

本发明所述步骤(2)中,通过计算机中的“文本整理器”软件将不符合英文文本规范的全角字符和数值、全角空格多余的回车键进行整理和替换,以对文本中存在的不合规范的符号、格式进行整理,实现原始语料进行数据的清洗和去除,保持文本的清洁性。

本发明所述步骤(3)中,每一对双语平行句对,在Word的可视文档中不超过四行的具体步骤如下:

S31:首先统计待翻译文本第一至三行的字符,并检测第三行倒数第一个句号或逗号或分号,当检测到第三行倒数第一个句号或逗号或分号时,在句号或逗号或分号处进行换行操作,然后执行步骤S34;若未检测到,执行步骤S32;

S32:检测第二行倒数第一个句号或逗号或分号,在第二行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;若第二行未检测到,则执行步骤S33;

S33:同样步骤检测第一行,在第一行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;

S34:继续检测待翻译文本换行后的第一至三行的字符,并重复S31-S33的步骤,有效的实现了语料句段的切分,保证了每一对双语平行句对,在Word的可视文档中不超过四行。

本发明的有益效果是:与现有技术相比,本发明涉及的建筑工程多模态双语平行语料库的构建方法,为建筑词汇提供了丰富的对比样本,检索出的词汇或句法的含义都是与建筑相关的,排除了一些无用的含义;为使用者提供数量巨大的双语对译样本,不仅使教师在教学中可以有大量的例证进行教学,提升教学质量,也可以使学生在课外学习与研究中收益良多;可为使用者提供丰富的可用专业型文本资料,以此作为进一步教学、学习、研究和实践的参考;为建筑领域提供了更加专业的翻译平台,且语料库来源权威,切分精细,专业性强,能做到行业精准对接,提升了语料的匹配度,从而满足建筑工程的要求。

附图说明

图1为本发明的翻译结果示例图;

图2、图3为本发明的多模态材料翻译结果示例图;

图4为市场占有率较高的某在线翻译平台的翻译结果示例图;

图5为本发明的语料库+CAT翻译的结果示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

下面通过具体实施例对本发明作进一步说明。

实施例:

本实施例涉及的建筑工程多模态双语平行语料库的构建方法,具体包括以下步骤:

(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片等;

(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字等),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;

(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;

(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;

(5)标注与转写:根据研究对象和研究需要设计合理、充分的数据挖掘方案,在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注,例如对建筑合同语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频等多种形式结果输出;

(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;

(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定,如同一个单词弹出5次,即权重记为5,当该权重超过10时,即将该单词写入语料库,实现语料库的更新和扩容。

本实施例所述步骤(1)的语料筛选过程中,所述网络爬虫的方法采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取相关领域文件下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载相关领域文件,对相关文件的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息,然后对转换后的文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本。

本发明所述步骤(1)中所述国家级出版社包括中国建筑工业出版社等,所述政府公文报告包括会议公报等,官方认证材料包括合同文本等,其他形态的材料包括建筑行业正式会议的音频、视频、图纸、图片等;语料主要涉及的领域包括:绿色建筑、建设理论、建筑标书、建筑合同、建筑材料和城市规划等。

本发明所述步骤(2)中,通过计算机中的“文本整理器”软件将不符合英文文本规范的全角字符和数值、全角空格多余的回车键进行整理和替换,以对文本中存在的不合规范的符号、格式进行整理,实现原始语料进行数据的清洗和去除,保持文本的清洁性。

本实施例所述步骤(3)中,每一对双语平行句对,在Word的可视文档中不超过四行的具体步骤如下:

S31:首先统计待翻译文本第一至三行的字符,并检测第三行倒数第一个句号或逗号或分号,当检测到第三行倒数第一个句号或逗号或分号时,在句号或逗号或分号处进行换行操作,然后执行步骤S34;若未检测到,执行步骤S32;

S32:检测第二行倒数第一个句号或逗号或分号,在第二行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;若第二行未检测到,则执行步骤S33;

S33:同样步骤检测第一行,在第一行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;

S34:继续检测待翻译文本换行后的第一至三行的字符,并重复S31-S33的步骤,有效的实现了语料句段的切分,保证了每一对双语平行句对,在Word的可视文档中不超过四行。

本实施例所述的语料库格式包括能够直接导入CAT软件中的TMX格式以及TXT格式,同时还能够提供可视化EXCEL格式。

本实施例所述的建筑工程多模态双语平行预料库在使用时,将所述语料库作为翻译记忆库(TM)导入计算机辅助翻译软件中,当翻译文本遇到与语料库相对应的句对或词汇表(Glossary)时,计算机辅助翻译软件将自动匹配,因此,在保证建筑行业翻译质量的同时,大大节省了时间;所述的翻译过程采用“语料库+CAT”模式的翻译,并整合CAT与MT,建立“CAT+机器翻译(MT)+译后编辑(PE)”的模式,提升翻译的效率,确保翻译质量;对语料库和CAT设置翻译准确率置信度,由于CAT技术的核心是翻译记忆技术,每当相同或相近的短语出现时,系统会自动提示用户使用记忆库中最接近的译法,用户需要根据实际需要采用、舍弃或编辑重复出现的文本,因此,设置翻译准确率置信度,若翻译时,翻译准确率置信度不低于90时,则采用翻译的结果,若翻译准确率置信度低于90时,则需要舍弃此时翻译的结果,并采用人工翻译进行校正,利用人工翻译的结果代替语料库和CAT翻译的结果,人工翻译在可编辑区域进行编辑输入并保存至语料库,实现“CAT+机器翻译(MT)+译后编辑(PE)”的翻译模式,翻译准确率置信度是预设在系统内部的设定程序,用于判断翻译的准确度;语料库的不断更新扩容,保证了语料的更新速度,确保语料的平稳延续,确保为术语和译者风格的统一提供更多的语料参考,为建筑术语提取工作准备了可靠的资源本实施例所述的语料库;将所述语料库作为翻译记忆库(TM)导入计算机辅助翻译软件中,实现了多模态语料直接入库,以便多模态材料录入计算机后,计算机辅助翻译软件能够直接调取图片、图表、图纸、视频、音频等格式的语料进行翻译以及教学研究等。

本实施例所述的语料库已入库以下内容:《建筑环境与能源应用工程概论》(汉译英)、《绿色北欧:可持续发展的城市与建筑》(汉译英)、FIDIC合同翻译(汉译英)、《生态城市和绿色建筑》(汉译英)、《弗莱彻建筑史》(英译汉)、《建筑材料》(英译汉)、《杆作:一个原理、多种形式》(汉译英)、《反高潮的诗学坂本一成的建筑》(汉译英)、《设计概念》(英译汉)、《城市可持续发展原理》(汉译英)、《从概念到建筑2》(汉译英)、《可持续发展城市与建筑设计》(汉译英)、《国际土木工程建筑承包合同》(汉译英);另外,本实施例所述的语料库参与了多个翻译项目试验,这些项目设计大量的建筑、电力等行业专业知识,能够较完善的处理翻译专业行业语言准确性以及科学性文本语言逻辑性问题,确保了翻译服务的效率和质量。

本实施例提供了利用本语料库导入CAT翻译软件中的翻译结果,如图1所示,通过图1可以看出本实施例所述的语料库保证了语料在CAT翻译软件中的精准匹配;图2和图3展示的是本语料库采用多模态技术对屋顶构造图的翻译结果;图4和图5为对照图,通过图4和图5的对比,可以看出,本实施例所述的语料库在建筑类文本中,匹配精度高以及翻译结果更加准确。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式的产品形态和式样,任何符合本发明权利要求书且任何所属技术领域的普通技术人员对其所做的适当变化或修饰,皆应落入本发明的专利保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1