文本信息的翻译方法、装置及终端设备与流程

文档序号:15999269发布日期:2018-11-20 19:14阅读:239来源:国知局

本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种文本信息的翻译方法、装置、终端设备及计算机可读存储介质。



背景技术:

文本是指用书面语言的表达形式来对某一事件进行记载,可以分为科技文本、纪实文本、叙事文本等类型,其中,科技文本是一种记录科研活动和研究方法的重要载体,是科研人员获取科技经验和了解业界前沿技术的主要文献资料。目前,大量的科技文本采用英、日、德、法、中等语言来呈现,面对海量的科技文本资源,依靠人力来了解最新的前沿技术进展越来越困难,于是利用计算机来处理和抽取科技文本中的有效信息,成为当前自然语言处理研究的核心工作。

其中,为了从大量的外文科技文本中获取有效信息,利用计算机进行多语种科技文本的机器翻译是必不可少的前提工作。虽然目前已有的机器翻译方法,在翻译质量方面已有一定改善,但是在对待翻译文本,例如外文科技文本,进行翻译的过程中,依然存在翻译准确性低的问题。



技术实现要素:

本申请的目的旨在至少能解决上述的技术缺陷之一,特别是翻译准确性较低的技术缺陷。

第一方面,提供了一种文本信息的翻译方法,包括:

对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息;

基于主题文本与版式信息,确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素;

通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对所述主题文本进行分主题框架翻译或分主题要素翻译。

第二方面,提供了一种文本信息的翻译装置,包括:

解析模块,用于对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息;

确定模块,用于基于主题文本与版式信息,确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素;

第一翻译模块,用于通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对所述主题文本进行分主题框架翻译或分主题要素翻译。

第三方面,提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的文本信息的翻译方法。

第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的文本信息的翻译方法。

本申请实施例提供的文本信息的翻译方法,对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息,为后续确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素提供前提保障;基于主题文本与版式信息,确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素,从而实现对待翻译文本信息的更精细粒度的内容抽取,便于后续基于与更精细粒度的主题框架和/或主题要素匹配的翻译模型,对主题文本进行具有更强的针对性的翻译;通过训练后的与各主题框架和/或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译和/或分主题要素翻译,从而实现对主题文本进行与主题框架和/或主题要素高度相关的翻译,即实现对待翻译文本的针对性翻译,不仅使得翻译结果具有明确的主题,而且使得翻译结果具有很强的主题描述特性,极大提高翻译准确性。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例的文本信息的翻译方法的流程示意图;

图2为本申请实施例的抽取模块的结构示意图;

图3为本申请实施例对文本信息进行翻译的过程示意图;

图4为本申请实施例镜像式双语版式对齐的翻译结果的展示示意图;

图5为本申请实施例的文本信息的翻译装置的基本结构示意图;

图6为本申请实施例的文本信息的翻译装置的详细结构示意图;

图7为本申请实施例的终端设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

目前,科技论文、专利文本等文本信息大多以PDF的格式保存,因此为了实现大规模科技论文或专利文本的机器翻译,通常的方案是从PDF的科技论文或专利文本中解析出主题文本、版式信息和元数据,接着将其中的主题文本和元数据进行机器翻译,接着利用版式信息恢复PDF源论文的版式。这里主要涉及到两个方面的工作,一方面是对科技论文或专利文本进行内容抽取,另一方面是对抽取的内容进行机器翻译。上述方案在对科技论文或专利文本进行内容抽取时,是不加区分地抽取出科技论文或专利文本的所有内容,并将其发送给机器翻译引擎进行翻译,因而无法针对科技论文或专利文本进行有针对性的翻译,导致翻译准确性很低。

本申请提供的文本信息的翻译方法、装置、终端设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种文本信息的翻译方法,如图1所示,包括:

步骤S100,对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息。

具体地,本实施例中的待翻译文本可以是论文文本,也可以是专利文本,当然也可以是其它记录形式的文本,其中,论文文本与专利文本主要指记录科研活动和研究方法的科技文本,即本实施例中的待翻译文本主要是指科技论文文本或科技专利文本,该科技文本可以是PDF格式保存,也可以是word格式保存,还可以其它的已有保存方式,例如.txt格式,本申请不对其做限制。

进一步地,本实施例以待翻译文本信息是科技论文文本为例,进行示例性说明:

目前,科技论文普遍使用PDF文件格式,将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。而且科技论文本身在内容布局上有一定的规律性,比如包括标题、摘要、关键词、正文、参考文献等几个部分,论文版面一般为单栏、双栏或三栏等,这给文档解析提供了便利,又例如科技论文的正文部分包括引言、方法、实验以及结论等必不可少的组成部分,每一部分内容又由具体的主题要素构成,这些主题要素相互作用,形成了结构化的语篇知识网络。

其中,在对科技论文进行翻译之前,需要预先对待翻译的科技论文进行解析,确定待翻译科技论文的主题文本与版式信息,便于后续基于上述主题文本与版本信息,对待翻译科技论文进行针对性翻译。具体的,主题文本是整个科技论文的正文部分,包括引言内容、方法内容、实验内容、结论内容等;版式信息含有科技论文中每个字、词、句、段等结构的位置、字体、缩进、断行以及分页等信息。

步骤S200,基于主题文本与版式信息,确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素。

具体地,可以根据科技论文的主题文本与版式信息,确定待翻译科技论文的多个主题框架,主题框架是科技论文的基本语篇结构,可以包括引言、方法、实验和结论等。此外,也可以根据科技论文的主题文本与版式信息,确定待翻译科技论文的各主题框架中的至少一个主题要素,主题要素是科技论文的基本语篇结构中的子结构,可以包括立题背景、研究意义、研究现状、实现基础、改进完善、实施要素、工具设施、资源材料、操作步骤、支撑条件、效果指标、问题分析及提升策略等。

步骤S300,通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译或分主题要素翻译。

具体地,可以通过训练后的与各主题框架分别对应的翻译模型,对主题文本进行分主题框架翻译,得到主题文本的翻译结果;也可以通过训练后的与各个主题要素分别对应的翻译模型,对主题文本进行分主题要素翻译,得到主题文本的翻译结果。

本申请实施例提供的文本信息的翻译方法,与现有技术相比,对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息,为后续确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素提供前提保障;基于主题文本与版式信息,确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素,从而实现对待翻译文本信息的更精细粒度的内容抽取,便于后续基于与更精细粒度的主题框架和/或主题要素匹配的翻译模型,对主题文本进行具有更强的针对性的翻译;通过训练后的与各主题框架和/或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译或分主题要素翻译,从而实现对主题文本进行与主题框架或主题要素高度相关的翻译,即实现对待翻译文本的针对性翻译,不仅使得翻译结果具有明确的主题,而且使得翻译结果具有很强的主题描述特性,极大提高翻译准确性。

实施例二

本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,

步骤S100包括步骤S1001(图中未标注)、步骤S1002(图中未标注)、步骤S1003(图中未标注)及步骤S1004(图中未标注),其中,

步骤S1001:确定待翻译文本信息的全文字符及各字符的位置信息,并根据各字符的位置信息对全文字符进行单词划分及成行组合,得到相应的行片段。

步骤S1002:确定长度差值小于预设长度阈值的行片段的数量。

步骤S1003:根据行片段的拓扑结构将行片段合并成相应的段落,并记录段落的位置信息及段落包含的文字信息。

步骤S1004:基于确定得到的长度差值小于预设长度阈值的行片段的数量、段落的位置信息及段落包含的文字信息,确定待翻译文本信息的主题文本与版式信息。

具体地,在对科技论文进行翻译之前,需要通过对待翻译的科技论文的解析以及对其布局的自动分析,获取其文字、文字位置等主题文本与版式信息,为后续基于得到的主题文本与版本信息,对待翻译科技论文进行针对性翻译奠定基础。

进一步地,本实施例以待翻译文本信息是科技论文为例,给出获取主题文本与版式信息的示例性说明:

a)抽取科技论文的全文字符及全文字符的位置信息,按照每个字符的位置排序以及字符间距来划分单词,得到科技论文的文字信息,并得到的文字信息组合成行,得到相应的行片段;

b)统计计算长度近似的行片段的数量,即统计计算若干行片段之间的长度差值小于预设长度阈值的行片段的数量,其中,数量最多的为科技论文的正文(即上述的主题文本),根据正文行片段在同一水平线分布的情况,确定科技论文的排版是一栏、双栏或三栏,即得到科技论文的版式信息中的版面;

c)根据行片段的拓扑结构进行段落合并,将文字信息按照段落进行合并,并记录段落的位置信息和当前段落中包含的文字信息,即得到科技论文中每个字、词、句、段等结构的位置、字体、缩进、断行以及分页等版式信息。

对于本申请实施例,通过上述的对科技论文的初步解析,得到以连续文本块为单位的数据结构,其中,在每个文本块中包含该文本块在科技论文的页面中的位置信息以及该文本块包含的文本内容,为后续基于段落内容及其位置信息的主题框架抽取和/或对主题框架中的至少一个主题要素的抽取奠定基础。

实施例三

本申请实施例提供了另一种可能的实现方式,在实施例一与实施例二的基础上,还包括实施例三所示的方法,其中,

步骤S200包括步骤S2001(图中未标注)与步骤S2002(图中未标注)其中,

步骤S2001:根据预先建立的文献内容组织框架模板,对主题文本与版式信息进行内容模块划分,得到待翻译文本信息的多个主题框架。

步骤S2002:基于预设主题单元表述模式及多个主题框架,通过正则模式匹配,确定各主题框架中包括的至少一个主题要素。

具体地,当步骤S200具体为基于主题文本与版式信息,确定待翻译文本信息的多个主题框架时,步骤S200只需要包括步骤S2001(根据预先建立的文献内容组织框架模板,对主题文本与版式信息进行内容模块划分,得到待翻译文本信息的多个主题框架)即可。当步骤S200具体为基于主题文本与版式信息,确定待翻译文本信息的各主题框架中的至少一个主题要素时,步骤S200需要包括步骤S2001与步骤S2002,这是因为只有通过步骤S2001得到了待翻译文本信息的多个主题框架后,才能进一步确定待翻译文本信息的各主题框架中的至少一个主题要素。当步骤S200具体为基于主题文本与版式信息,确定待翻译文本信息的多个主题框架和各主题框架中的至少一个主题要素时,步骤S200需要同时包括步骤S2001与步骤S2002,即先通过步骤S2001得到待翻译文本信息的多个主题框架,再通过步骤S2002得到各主题框架中的至少一个主题要素。

进一步地,主题框架的解析以表1所列的文献内容组织框架为总纲,也即表1所列的文献内容组织框架即为预先建立的文献内容组织框架模板,该框架结构通过xml配置文件的形式保存,主题框架抽取时动态加载。

表1科技论文主题框架和主题要素特征(以中文为例)

进一步地,主题框架和主题要素将关键词、要素句和主题段落等融合成多层级的语篇结构,其中的模式特征描述了主题框架和主题要素的抽取方法和使用的规则模式库,利用模式特征建立规则模式库,由特征词汇和版式结构组成正则表达式实现抽取,获得语篇知识网络,其中,语篇知识网络包括主题框架和主题要素。

进一步地,整个主题框架和主题要素的抽取由2个处理模块组成:(1)内容模块划分;(2)主题要素抽取。下面以表1中的文献内容组织框架为例来说明整个抽取流程,如下所示:

(1)内容模块划分,将主题文本解析为引言、方法、实验和结论等多个主题框架。其中,

a)解析模块读入主题文本和版式信息;

b)系统加载文献内容组织框架及其模式特征;

c)按行读取主题文本,直到文本结束;

c1)获取当前行,从版式信息中获取样式信息;

c2)如果样式信息为粗体,并以<引言|前言|引子|…>,或含有<概述|简介|…>等特征词,则标记当前行为引言主题框架;

d)按c)的方法和步骤获取方法主题框架,则引言主题框架的内容为引言主题框架后第一行与方法主题框架之间的文本;

e)按d)的步骤和方法依次获取方法主题框架的内容、实验主题框架的内容和结论主题框架的内容;

f)将引言主题框架、引言主题框架的内容及其他主题框架和主题框架的内容填充到语篇框架中,得到主题文本的多个主题框架。

(2)主题要素抽取,抽取引言、方法、实验和结论等主题框架的至少一个主题要素。其中,

a)抽取模块加载上述的多个主题框架;

b)遍历所有的主题框架;

b1)获取当前主题框架的名称和当前主题框架的内容;

b2)加载主题框架名称所对应的主题要素模式;

b3)按句读取当前主题框架的内容,直到文本结束;

b3a)获取当前句与主题要素模式中的正则模式匹配;

b3b)如果当前包中含有研究背景特征,则标记该句为引言主题框架的立题背景要素;

b4)按b3)的方法和步骤获取研究意义、研究现状和立题目的等的主题要素;

b5)将立题背景、研究意义、研究现状和立题目的等主题要素填充到主题框架中的引言主题框架中;

c)按b)的步骤和方法获取其他主题框架所包含的主题要素,并填充到相应的主题框架中。

对于本申请实施例,给出了分别主题框架和主题要素的具体抽取过程,使得本领域技术人员能够根据本申请实施例中的抽取步骤,快速准确地完成主题框架和主题要素的抽取,便于后续基于与更精细粒度的主题框架和/或主题要素匹配的翻译模型,对主题文本进行具有更强的针对性的翻译。

实施例四

本申请实施例提供了另一种可能的实现方式,在实施例三的基础上,还包括实施例四所示的方法,其中,

在步骤S300之前还包括步骤S201(图中未标注):基于预先确定的分类模型,对所述各主题框架中包括的至少一个主题要素进行校正。

具体地,通过标注语料学习特征模式对抽取的主题要素进行优化和校正。其中,分类模型包括K最近邻分类模型和朴素贝叶斯分类模型;确定分类模型的方式,包括:

依据预先建立的知识元标识语料,通过K最近邻分类器KnnClassifier和朴素贝叶斯分类器NaiveBayesClassifier对各主题框架中包括的至少一个主题要素进行特征训练,得到K最近邻分类模型和朴素贝叶斯分类模型。

示例的,主题要素的优化和校正过程如下所示:

a)加载标注语料,利用LingPipe文本处理工具包的K最近邻分类器KnnClassifier和朴素贝叶斯分类器NaiveBayesClassifier进行要素特征训练,特征分类参数为15(即表1中所列的主题要素的数量),生成K最近邻分类模型和朴素贝叶斯分类模型;

b)特征识别模块加载主题框架;文献内容组织框架

c)遍历主题框架中的所有主题框架和主题要素;

c1)获取当前主题框架和当前主题框架的主题要素,分别利用K最近邻分类模型和朴素贝叶斯分类模型对主题要素语句进行分类,分类结果记作K最近邻分类结果和朴素贝叶斯分类结果;

c2)如果K最近邻分类结果和朴素贝叶斯分类结果与主题要素相同,则将抽取的主题要素作为最终结果保存;如果K最近邻分类结果或朴素贝叶斯分类结果与该主题要素不同,则以分类最多的要素标签作为最终结果保存;如果三种分类结果都不相同,则将抽取的主题要素作为最终结果保存;

d)按c)的步骤和方法检验其他主题框架的主题要素,并将最终结果保存为结构化语篇网络。

进一步地,主题框架抽取模块由Java语言开发实现,按代码的功能和组织结构可将整个系统分为系统界面、文本处理、数据存取3个部分,通过多个模块的相互作用,平面型的科技论文转化为结构化的知识单元。抽取模块的结构如图2所示。其中,系统界面负责抽取结果展示、规则模式定制以及系统参数配置等功能;文本处理负责框架结构解析、版式特征抽取、主题单元识别以及规则模式匹配等功能;数据存取负责读取语料库资源、存储抽取结果和对知识单元进行结构化组织。其中:

(1)文本处理是整个抽取模块的核心,该层整合了词性标记、句子分割、词汇搭配、词语定位、停用词过滤等算法。文本处理单元负责抽取文献标题、作者、摘要等元数据以及语篇主题要素,并对科技论文中的版式信息进行标注。

(2)前端的系统界面采用Swing组件进行开发,用于浏览抽取后的知识单元以及对系统运行所需的环境进行配置。

(3)数据存储通过统一的主题框架,使离散分布的知识条目与文档结构建立映射关联,从词汇、短语、句子、段落、章节层面对科技论文主题进行描述,形成多层级的语篇知识网络。

对于本申请实施例,通过对抽取到的主题要素的优化和校正,进一步提高了抽取的主题要素的准确度,确保了后续对主题文本中主题要素的翻译质量。

实施例五

本申请实施例提供了另一种可能的实现方式,在实施例四的基础上,还包括实施例五所示的方法,其中,

在步骤S300之前还包括步骤S202(图中未标注)与步骤S203(图中未标注),其中,

步骤S202:依据任一主题框架或任一主题要素,分别筛选出与任一主题框架或任一主题要素对应的翻译模型的训练语料。

步骤S203:通过与任一主题框架或任一主题要素对应的翻译模型的训练语料,对相应的翻译模型进行训练。

具体地,依据主题框架或主题要素,筛选翻译模型的训练语料,并分主题框架或分主题要素训练对应的翻译模型,得到分主题框架的翻译模型或分主题要素的翻译模型,其中,该翻译模型可以为神经机器翻译模型,神经机器翻译模型是基于深度学习的机器翻译模型。

进一步地,可以将解析出来的主题框架和主题要素,提交给神经机器翻译模型,例如开放源代码神经机器翻译模型Opennmt、基于自注意力机制的神经机器翻译模型Transformer等,获取翻译结果。其中,为了使得神经机器翻译模型更有针对性,这里采用两种粒度来分类别训练翻译模型:(1)粒度一:主题框架;例如标题、摘要、引言、方法、实验和结论等。(2)粒度二:主题要素,例如立题背景、研究意义、研究现状、实现基础、改进完善、实施要素、工具设施、资源材料、操作步骤、支撑条件、效果指标、问题分析及提升策略等。对于双语语料,可以选取这两个粒度中的任一种,对训练语料进行筛选。

进一步地,以粒度一(主题框架)为例,将语料分为引言、方法、实验和结论四类,再增加通用这一类,用来翻译标题和摘要等元数据以及其他无法被分到前四类的句子。为了对训练语料的每个平行句对进行分类,可以选用前述的主题框架抽取技术,也可以利用机器学习中的句子分类机制。这样训练语料的每个句对会得到一个标签,例如“引言”标签、“方法”标签、“实验”标签、“结论”标签或“通用”标签,并利用前四类的句子对,分类训练对应的子翻译模型,同时利用所有的平行句对训练“通用”机器翻译模型。这样就得到了分主题框架的神经机器翻译模型,从而可以充分利用科技论文的主题特征,提升翻译质量。

对于本申请实施例,通过与任一主题框架或任一主题要素对应的训练语料,来得到与任一主题框架或任一主题要素对应的翻译模型,使得可以对待翻译的科技论文进行具有针对性的分主题框架翻译和/或分主题要素的翻译,从而可以充分利用科技论文的主题特征,提升翻译质量。

实施例六

本申请实施例提供了另一种可能的实现方式,在实施例五的基础上,还包括实施例六所示的方法,其中,

在步骤S300之后还包括步骤S301(图中未标注)、步骤S302(图中未标注)与步骤S303(图中未标注),其中,

步骤S301:对待翻译文本信息进行解析,确定待翻译文本信息的元数据;其中,元数据包括以下至少一项:文本标题;文本作者;文本摘要;文本关键词;文本分类号;文本出版日期;文本基金资助信息。

步骤S302:通过不加分类的训练语料,训练通用翻译模型,并利用训练后的通用翻译模型对元数据进行翻译。

步骤S303:根据版式信息,依据翻译后的文本主题及翻译后的元数据生成翻译文本信息,其中,翻译文本信息与待翻译文本信息为镜像版式对齐。

具体地,可以通过对待翻译的科技论文的解析以及对其布局的自动分析,获取待翻译的科技论文的文本标题、文本作者、文本摘要、文本关键词、文本分类号、文本出版日期及文本基金资助信息等元数据。

进一步地,在获取到科技论文的元数据后,可以通过前述的通用翻译模型对该科技论文的元数据进行翻译,得到科技论文元数据的翻译结果,从而完成整个科技论文的翻译工作,得到完整科技论文的翻译结果。其中,通用翻译模块是通过不加分类的训练语料训练得到的。

进一步地,根据待翻译的科技论文的版式信息,将通过步骤S300得到的待翻译科技论文的分属于各个主题框架或主题要素的主题文本翻译结果,即依据翻译后的主题文本,以及翻译后的元数据生成与待翻译文本信息呈镜像式双语版式对齐的翻译文本,即将主题文本的翻译结果利用原始的版式信息生成与原始文档布局相同的界面呈现给用户,便于用户直观地对比翻译前后的科技论文。

进一步地,利用前述得到的多个主题框架,生成新科技论文文档及结构框架,并将原科技论文的翻译结果填充到上述的新科技论文文档的结构框架中,然后根据版式信息调整字体、字号,生成与原文布局相同的译文。现以科技论文是PDF科技论文为例,介绍镜像式双语版式对齐的翻译文本的生成过程,具体包括:

(1)以段落为单位提取文字内容,根据上文主题内容分类,发送至相应的机器翻译引擎进行翻译,得到翻译后的结果;

(2)复制原始的PDF科技论文(即待翻译的科技论文)为新文件,对每一个段落依据其(x,y)位置坐标、长度和宽度信息,使用白色图层覆盖本段落位置原始的文字内容;

(3)根据使用字体的高度、宽度、文字数量,对比段落区域的长度和宽度,调整翻译后段落内容的字体大小,使全部文本内容能够嵌入本段落区域,将文字按照确定的字体大小写入上一步覆盖后的段落区域;

(4)在网页端,基于pdf.js嵌入两栏PDF科技论文的展示框架,实现源PDF科技论文与翻译后的PDF科技论文的镜像展示。

进一步地,结合本申请实施例一至实施例六的方法,图3以PDF科技论文为例,给出了对PDF科技论文进行翻译的基本过程,在图3中,根据知识元标注语料对主题要素进行特征抽取或模式识别,即为本申请实施四中对各主题框架中包括的至少一个主题要素进行校正的过程。

进一步地,图4给出了上述源PDF科技论文与翻译后的PDF科技论文的镜像展示,即将源PDF科技论文与翻译后的PDF科技论文生成镜像式双语版式对齐的翻译文本。

对于本申请实施例,完成了对整个待翻译的科技论文的完整翻译,得到完整科技论文的翻译结果,而且将主题文本的翻译结果利用原始的版式信息生成与原始文档布局相同的界面呈现给用户,便于用户直观地对比翻译前后的科技论文。

本申请上述实施例一至实施例六中的方法,通过先解析待翻译的文本信息,并结合版式信息对待翻译的文本信息进行更细粒度的内容抽取,得到待翻译的文本信息中的主题框架和主题要素,进而针对每个主题框架或主题要素分别训练机器翻译模型,使得翻译模型中的训练句式更为集中,翻译效果更有适应性,另外,参考原始版式信息恢复翻译结果的版式,得到镜像式双语版式对齐的翻译结果,便于用户直观地对比翻译前后的文本信息。

另外,本申请上述实施例一至实施例六中的方法,具有如下的技术效果:对待翻译的文本信息进行更为精细粒度的内容抽取,获取其中的主题框架和主题要素,形成语篇知识网络,便于更为深入地对待翻译的文本信息进行知识挖掘和信息抽取;利用主题框架或主题要素抽取技术对翻译模型的训练语料进行语料筛选,保留与主题框架或主题要素相关度更高的双语句对作为训练语料,使得各个分主题框架翻译模型间具有较强的区分性;另外,利用分主题框架或分主题要素的翻译模型来翻译各个主题框架或各个主题要素,使得机器翻译本身具有较明确的主题,从而使得翻译结果有很强的主题描述性。

实施例七

图5为本申请实施例提供的一种文本信息的翻译装置的结构示意图,如图5所示,该文本信息的翻译装置50可以包括:解析模块51、确定模块52与第一翻译模块53,其中:

解析模块51,用于对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息;

确定模块52,用于基于主题文本与版式信息,确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素;

第一翻译模块53,用于通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译或分主题要素翻译。

具体地,解析模块51可以包括第一确定子模块511、第二确定子模块512、记录子模块513以及第三确定子模块514,如图6所示,其中:

第一确定子模块511用于确定待翻译文本信息的全文字符及各字符的位置信息,并根据各字符的位置信息对全文字符进行单词划分及成行组合,得到相应的行片段;

第二确定子模块512用于确定长度差值小于预设长度阈值的行片段的数量;

记录子模块513用于根据行片段的拓扑结构将行片段合并成相应的段落,并记录段落的位置信息及段落包含的文字信息;

第三确定子模块514用于基于确定得到的长度差值小于预设长度阈值的行片段的数量、段落的位置信息及段落包含的文字信息,确定待翻译文本信息的主题文本与版式信息。

进一步地,确定模块52可以包括主题框架确定子模块521与主题要素确定子模块522,如图6所示,其中:

主题框架确定子模块521用于根据预先建立的文献内容组织框架模板,对主题文本与版式信息进行内容模块划分,得到待翻译文本信息的多个主题框架;

主题要素确定子模块522用于基于预设主题单元表述模式及多个主题框架,通过正则模式匹配,确定各主题框架中包括的至少一个主题要素。

进一步地,该装置还可以包括校正模块54,如图6所示,其中:

校正模块54用于基于预先确定的分类模型,对各主题框架中包括的至少一个主题要素进行校正。

进一步地,分类模型包括K最近邻分类模型和朴素贝叶斯分类模型;校正模块54具体用于依据预先建立的知识元标识语料,通过K最近邻分类器KnnClassifier和朴素贝叶斯分类器NaiveBayesClassifier对各主题框架中包括的至少一个主题要素进行特征训练,得到K最近邻分类模型和朴素贝叶斯分类模型。

进一步地,该装置还可以包括筛选模块55与第一训练模块56,如图6所示,其中:

筛选模块55用于依据任一主题框架或任一主题要素,分别筛选出与任一主题框架或任一主题要素对应的翻译模型的训练语料;

第一训练模块56用于通过与任一主题框架或任一主题要素对应的翻译模型的训练语料,对相应的翻译模型进行训练。

进一步地,解析模块51还用于对待翻译文本信息进行解析,确定待翻译文本信息的元数据;元数据包括以下至少一项:文本标题;文本作者;文本摘要;文本关键词;文本分类号;文本出版日期;文本基金资助信息。

进一步地,该装置还可以包括第二训练模块57与第二翻译模块58,如图6所示,其中,第二训练模块57用于通过不加分类的训练语料,训练通用翻译模型;第二翻译模块58用于通过训练后的通用翻译模型对元数据进行翻译。

进一步地,该装置还包括翻译文本生成模块59,如图6所示,其中:

翻译文本生成模块59用于根据版式信息,依据翻译后的文本主题及翻译后的元数据生成翻译文本信息,翻译文本信息与待翻译文本信息为镜像版式对齐。

本申请实施例提供的装置,与现有技术相比,对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息,为后续确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素提供前提保障;基于主题文本与版式信息,确定待翻译文本信息的多个主题框架和/或各主题框架中的至少一个主题要素,从而实现对待翻译文本信息的更精细粒度的内容抽取,便于后续基于与更精细粒度的主题框架或主题要素匹配的翻译模型,对主题文本进行具有更强的针对性的翻译;通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译或分主题要素翻译,从而实现对主题文本进行与主题框架或主题要素高度相关的翻译,即实现对待翻译文本的针对性翻译,不仅使得翻译结果具有明确的主题,而且使得翻译结果具有很强的主题描述特性,极大提高翻译准确性。

实施例八

本申请实施例提供了一种终端设备,如图7所示,图7所示的终端设备7000包括:处理器7001和收发器7004。其中,处理器7001和存储器7003相连,如通过总线7002相连。可选的,终端设备7000还可以包括收发器7004。需要说明的是,实际应用中收发器7004不限于一个,该终端设备7000的结构并不构成对本申请实施例的限定。

其中,处理器7001应用于本申请实施例中,用于实现图5所示的解析模块、确定模块及翻译模块的功能。收发器7004包括接收机和发射机。

处理器7001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器7001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线7002可包括一通路,在上述组件之间传送信息。总线7002可以是PCI总线或EISA总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器7003用于存储执行本申请方案的应用程序代码,并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码,以实现图5所示实施例提供的文本信息的翻译装置的动作。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一所示的方法。

本申请实施例提供了一种计算机可读存储介质,与现有技术相比,对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息,为后续确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素提供前提保障;基于主题文本与版式信息,确定待翻译文本信息的多个主题框架或各主题框架中的至少一个主题要素,从而实现对待翻译文本信息的更精细粒度的内容抽取,便于后续基于与更精细粒度的主题框架或主题要素匹配的翻译模型,对主题文本进行具有更强的针对性的翻译;通过训练后的与各主题框架或各主题要素分别对应的翻译模型,对主题文本进行分主题框架翻译或分主题要素翻译,从而实现对主题文本进行与主题框架或主题要素高度相关的翻译,即实现对待翻译文本的针对性翻译,不仅使得翻译结果具有明确的主题,而且使得翻译结果具有很强的主题描述特性,极大提高翻译准确性。

本申请实施例提供的计算机可读存储介质适用于上述方法实施例。在此不再赘述。

本技术领域技术人员可以理解,本申请包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1