一种建筑工程多模态双语平行语料库的构建方法与流程

文档序号:18257984发布日期:2019-07-24 10:26阅读:来源:国知局

技术特征:

1.一种建筑工程多模态双语平行语料库的构建方法,其特征在于:具体包括以下步骤:

(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片;

(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;

(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;

(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;

(5)标注与转写:在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频多种形式结果输出;

(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;

(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定。

2.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述步骤(1)的语料筛选过程中,所述网络爬虫的方法采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术第三方网站爬取相关领域文件下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载相关领域文件,对相关文件的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息,然后对转换后的文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本。

3.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述步骤(1)中所述国家级出版社包括中国建筑工业出版社,所述政府公文报告包括会议公报,官方认证材料包括合同文本,其他形态的材料包括建筑行业正式会议的音频、视频、图纸、图片;语料主要涉及的领域包括:绿色建筑、建设理论、建筑标书、建筑合同、建筑材料和城市规划。

4.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述步骤(2)中,通过计算机中的“文本整理器”软件将不符合英文文本规范的全角字符和数值、全角空格多余的回车键进行整理和替换,以对文本中存在的不合规范的符号、格式进行整理,实现原始语料进行数据的清洗和去除,保持文本的清洁性。

5.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述步骤(3)中,每一对双语平行句对,在Word的可视文档中不超过四行的具体步骤如下:

S31:首先统计待翻译文本第一至三行的字符,并检测第三行倒数第一个句号或逗号或分号,当检测到第三行倒数第一个句号或逗号或分号时,在句号或逗号或分号处进行换行操作,然后执行步骤S34;若未检测到,执行步骤S32;

S32:检测第二行倒数第一个句号或逗号或分号,在第二行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;若第二行未检测到,则执行步骤S33;

S33:同样步骤检测第一行,在第一行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;

S34:继续检测待翻译文本换行后的第一至三行的字符,并重复S31-S33的步骤,有效的实现了语料句段的切分,保证了每一对双语平行句对,在Word的可视文档中不超过四行。

6.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述的语料库格式包括能够直接导入CAT软件中的TMX格式以及TXT格式,同时还能够提供可视化EXCEL格式。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1