数据的处理方法与装置与流程

文档序号:12063659阅读:234来源:国知局
数据的处理方法与装置与流程

本发明涉及计算机技术,尤其涉及一种数据的处理方法与装置。



背景技术:

机器翻译是利用计算机将一种自然语言翻译为另一种自然目标语言的过程,其核心是实现双语在各个层次的对齐,即从平行双语语料中的多个网络文本中获得与待翻译文本的相似度最大的目标网络文本。

目前,通常采用篇章对齐的方法来获得待翻译文本的目标网络文本,具体是,获得待翻译文本的各特征值(例如,数字、标点和名称等),判断每个网络文本中是否存在上述各特征值匹配的特征值,进而获得待翻译文本与每个网络文本的相似度,从上述各相似度中获得一个最大的相似度,将该相似度最大的网络文本作为待翻译文本的目标翻译文本。

但是上述的双语对齐方法都是针对篇章的整体对齐,其对齐误差较大,使得翻译结果不准确。



技术实现要素:

本发明提供一种数据的处理方法与装置,用于解决现有的篇章对齐方法以整个文本为对象进行文本的整体对齐而造成的对齐误差大,翻译不准确的问题。

第一方面,本发明提供一种数据的处理方法,包括:

获取待翻译文本;

根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度;

根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本。

在第一方面的第二种可能的实现方式中,所述根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的平行双语语料库中的每个网络文本的相似度,具体包括:

根据所述待翻译文本的语句顺序和预设的语句比对类型,从所述待翻译文本中获取第一语句,以及,从所述第一平行双语语料库中的每个网络文本中获取与所述第一语句对应的第二语句;其中,所述语句比对类型为所述第一语句中包括的句子数目与所述第二语句中包括的句子数目的比值;

获取所述第一语句与每个所述网络文本的第二语句的第一相似度;

根据所述第一语句与每个所述网络文本的第二语句的第一相似度,确定所述待翻译文本与每个所述网络文本的相似度。

结合第一种实现方式,在第一方面的第三种可能的实现方式中,所述获取所述第一语句与每个所述网络文本的第二语句的第一相似度,具体包括:

根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与每个所述网络文本的第二语句的长度归一化参数;

根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度。

结合第二种实现方式,在第一方面的第四种可能的实现方式中,所述根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度,具体包括:

根据公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),确定所述第一语句与每个所述第二语句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)为所述第一语句与所述第二语句的长度归一化参数,所述ls为所述第一语句的字符长度,所述lt为所述第二语句的字符长度,所述r为所述待翻译文本的语言长度与所述网络文本的语言长度的比值,所述type为所述语句比对类型。

结合第三种实现方式,在第一方面的第四种可能的实现方式中,所述根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本,具体包括:

根据第一预设数目和所述待翻译文本与每个所述网络文本的相似度,从所述第一平行双语语料库中确定所述待翻译文本的第一网络文本集合,所述第一网络文本集合包括多个第一网络文本;

获取所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度;

根据所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

根据所述第一语句与每个所述第一网络文本的第二语句的第二相似度,确定所述目标网络文本。

结合第一种实现方式,在第一方面的第五种可能的实现方式中,所述根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度之前,所述方法还包括:

将所述待翻译文本与预设的第二平行双语语料库中的每个网络文本进行篇章对齐,获取所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度;

根据所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度,从所述第二平行双语语料库中确定所述第一平行双语语料库。

结合第三种实现方式,在第一方面的第六种可能的实现方式中,,所述根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与所述第二语句的长度归一化参数,具体包括:

根据公式确定所述第一语句与所述第二语句的长度归一化参数δ(ls,lt);

其中,所述σ2是所述待翻译文本的语言与所述网络文本的语言的样本方差。

结合第五种实现方式,在第一方面的第七种可能的实现方式中,,所述根据所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度,具体包括:

根据公式获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

其中,所述s为所述第一语句中的字符,所述t为所述第二语句中与所述s对应的字符,所述l为所述第一语句中字符的个数,所述m为所述第二语句中字符的个数,所述ε为常量。

第二方面,本发明提供一种数据的处理装置,包括:

获取模块,用于获取待翻译文本;

第一计算模块,用于根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度;

确定模块,用于根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本。

进一步的,所述第一计算模块包括:第一获取单元、第一计算单元、第一确定单元:

所述第一获取单元,用于根据所述待翻译文本的语句顺序和预设的语句比对类型,从所述待翻译文本中获取第一语句,以及,从所述第一平行双语语料库中的每个网络文本中获取与所述第一语句对应的第二语句;其中,所述语句比对类型为所述第一语句中包括的句子数目与所述第二语句中包括的句子数目的比值;

所述第一计算单元,用于获取所述第一语句与每个所述网络文本的第二语句的第一相似度;

所述第一确定单元,用于根据所述第一语句与每个所述网络文本的第二语句的第一相似度,确定所述待翻译文本与每个所述网络文本的相似度。

进一步的,所述第一计算单元,具体用于根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与每个所述网络文本的第二语句的长度归一化参数;并根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度。

可选的,所述第一计算单元,还具体用于

根据公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),确定所述第一语句与每个所述第二语句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)为所述第一语句与所述第二语句的长度归一化参数,所述ls为所述第一语句的字符长度,所述lt为所述第二语句的字符长度,所述r为所述待翻译文本的语言长度与所述网络文本的语言长度的比值,所述type为所述语句比对类型。

进一步的,所述确定模块包括:第二获取单元、第二计算单元;

所述第获取单元,用于根据第一预设数目和所述待翻译文本与每个所述网络文本的相似度,从所述第一平行双语语料库中确定所述待翻译文本的第一网络文本集合,所述第一网络文本集合包括多个第一网络文本;

所述第二计算单元,用于获取所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度;并根据所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

所述确定模块,还用于根据所述第一语句与每个所述第一网络文本的第二语句的第二相似度,确定所述目标网络文本。

进一步的,所述装置还包括第二计算模块;

所述第二计算模块,用于在所述第一计算模块根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度之前,将所述待翻译文本与预设的第二平行双语语料库中的每个网络文本进行篇章对齐,获取所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度;并根据所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度,从所述第二平行双语语料库中确定所述第一平行双语语料库。

可选的,所述第一计算单元,具体用于:

根据公式确定所述一语句与所述第二语句的长度归一化参数δ(ls,lt);

其中,所述σ2是所述待翻译文本的语言与所述网络文本的语言的样本方差。

可选的,所述第二计算模块,具体用于:

根据公式获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

其中,所述s为所述第一语句中的字符,所述t为所述第二语句中与所述s对应的字符,所述l为所述第一语句中字符的个数,所述m为所述第二语句中字符的个数,所述ε为常量。

本发明提供的数据的处理方法与装置,通过待翻译文本的语句顺序和待翻译文本的语句,获取待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度,并根据待翻译文本与每个网络文本的相似度,确定待翻译文本的目标网络文本。即本实施例的方法,以语句为单位进行待翻译文本与网络文本的相似度计算,进而提高了获得待翻译文本的目标网络文本的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的数据的处理方法实施例一的流程示意图;

图2为本发明提供的数据的处理方法实施例二的流程示意图;

图3为本发明提供的数据的处理方法实施例三的流程示意图;

图4为本发明提供的数据的处理方法实施例四的流程示意图;

图5为本发明提供的数据的处理方法实施例五的流程示意图;

图6为本发明提供的数据的处理装置实施例一的结构示意图;

图7为本发明提供的数据的处理装置实施例二的结构示意图;

图8为本发明提供的数据的处理装置实施例三的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

平行语料(Parallel Texts)是指使用不同语言撰写、相互间具有翻译关系的文本。平行双语语料为使用两种语言撰写、相互间具有翻译关系的文本集合。

本发明提供一种数据的处理方法与装置,适用于平行双语语料库,用于解决现有的篇章对齐方法以整个文本为对象进行文本的整体对齐而造成的对齐误差大,翻译不准确的问题。

本发明提供的方法,以文本的语句为单位进行语句的长度对齐,进而提高了获得待翻译文本的目标网络文本的准确性。

需要说明的是,本实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明提供的数据的处理方法实施例一的流程示意图。本实施例的执行主体可以是数据的处理装置,该数据的处理装置可以通过软件和/或硬件实现,该数据的处理装置可以设置在处理器中,或者为单独的处理器,为了便于阐述,以下将本实施例的执行主体简称为处理装置。本实施例涉及的是处理装置根据待翻译文本的语句顺序,获取待翻译文本与每个网络文本的相似度,根据该相似度确定待翻译文本的目标网络文本的具体过程。如图2所示,本实施例的方法可以包括:

S101、获取待翻译文本。

具体的,处理装置获取待翻译文本,该待翻译文本可以是用户向处理装置临时输入的,还可以是保存在其他的存储设备中的文本,用户指示处理装置通过网络等方法从该存储设备中获取的。

S102、根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度。

具体的,预设译文类型的第一平行双语语料库中的网络文本的语言类型均为待翻译文本的目标语言类型,例如需要将中文的待翻译文本翻译成英文文本时,则预设的第一平行双语语料库中的每个网络文本均为英文文本。处理装置根据待翻译文本的语句顺序,以语句问单位计算待翻译文本与第一平行双语语料库中每个网络文本的相似度。可选的,处理装置可以逐句计算待翻译文本与每个网络文本的相似度,例如,处理装置根据待翻译文本的语句顺序,计算待翻译文本的第一个句子与网络文本A的第一个句子的相似度,记为p1,计算待翻译文本的第二个句子与网络文本A的第二个句子的相似度,记为p2,……计算待翻译文本的第10个句子与网络文本A的第10个句子的相似度,记为p10。接着,处理装置可以根据上述10个相似度,确定待翻译文本与网络文本A的相似度,例如可以将上述10个相似度的和作为待翻译文本与网络文本A的相似度,或者将上述10个相似度的加权平均值作为待翻译文本与网络文本A的相似度。参照上述方法,即可获得待翻译文本与第一双语语料库中每个网络文本的相似度。

参照上述例子,处理装置还可以将待翻译文本中的一个句子与网络文本中的两个句子进行相似度的计算,可选的,还可以将待翻译文本中的两个句子作为一个单位与网络文本中的两个句子进行相似度的计算,可选的,还可以将待翻译文本中的多个句子作为一个单位与网络文本中的一个或者多个句子进行相似度的计算。

上述第一平行双语语料库中的每个网络文本都是经过规范化处理的,例如经过NekoHTML和XPath处理过的。其中,NekoHTML是一个简单的HTML扫描器(scanner)和标签补偿器(tag balancer),使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。简单的讲它可以解析、修整和净化HTML文档,可以自动关闭标记,修补一些常见的错误,也可以用NekoHTML从HTML文档里抽取文本。XPath是一门在XML文档中查找信息的语言,它可用来在XML文档中对元素和属性进行遍历,进而获取比较规范的网络文本,便于后边的对齐。同时,在该步骤中,处理装置根据各网络文本和待翻译文本,构建词典,以便后续使用,其构建词典过程为现有技术在此不再赘述。

S103、根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本。

具体的,根据上述S102的方法即可获得待翻译文本与每个网络文本之间的相似度,接着,处理装置从上述各相似度中获取最大的相似度,将该最大相似度对应的网络文本作为该待翻译文本的目标翻译文本。可选的,还可以根据用户的需求,对上述相似度进行顺序排列,获得一定数目的目标网络文件。

本发明提供的数据的处理方法,通过待翻译文本的语句顺序和待翻译文本的语句,获取待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度,并根据待翻译文本与每个网络文本的相似度,确定待翻译文本的目标网络文本。即本实施例的方法,以语句为单位进行待翻译文本与网络文本的相似度计算,进而提高了获得待翻译文本的目标网络文本的准确性。

图2为本发明提供的数据的处理方法实施例二的流程示意图。在上述实施例的基础上,本实施例涉及的是处理装置根据待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的平行双语语料库中的每个网络文本的相似度的具体过程。即上述S102具体可以包括:

S201、根据所述待翻译文本的语句顺序和预设的语句比对类型,从所述待翻译文本中获取第一语句,以及,从所述第一平行双语语料库中的每个网络文本中获取与所述第一语句对应的第二语句;其中,所述语句比对类型为所述第一语句中包括的句子数目与所述第二语句中包括的句子数目的比值。

具体的,本实施例预设的语句比对类型可以是用户根据实际需求输入给处理装置的,也可以是处理装置根据待翻译文本和网络文本的特征自行确定的,例如,当待翻译文本的篇章较长时,可以将该语句比对类型设置大一点,例如可以设置成2:2,即用待翻译文本中的两个句子与网络文本中的两个句子进行对齐。

本实施例的方法,处理装置根据待翻译文本的语句顺序和预设的语句比对类型,从待翻译文本中获取第一语句,从每个网络文本中获取语句顺序与第一语句对应的第二语句。假设,预设的语句比对类型为1:2时,按照语句顺序,将待翻译文本中的每个句子作为第一语句,将每个网络文件中与第一语句对应的两个句子作为第二语句,例如将待翻译文本的第一个句子作为第一语句,将每个网络文件的第一个句子和第二个句子作为该第一语句对应的第二语句。

S202、获取所述第一语句与每个所述网络文本的第二语句的第一相似度。

具体的,处理装置根据上述步骤选取的第一语句的第二语句,获取第一语句与每个网络文件的第二语句的第一相似度。其中,处理装置可以根据第一语句包括的字符数目和第二语句包括的字符数目来确定第一语句与第二语句的第一相似度,例如当第一语句包括的字符与第二语句包括的字符数目相等时,认为该第一语句与该第二语句的相似度高,可选的,处理装置还可以根据其他的方法确定第一语句与每个网络文本的第二语句的第一相似度。

S203、根据所述第一语句与每个所述网络文本的第二语句的第一相似度,确定所述待翻译文本与每个所述网络文本的相似度。

具体的,处理装置根据上述S202的方法计算待翻译文本中的第一语句与每个网络文本的第二语句的第一相似度,接着,处理装置将待翻译文本中的第一语句与某一网络文本的第二语句的第一相似度进行求和或者平均等处理,获得待翻译文本与该网络文本的相似度。根据上述方法即可获得待翻译文本与每个网络文本的相似度。

为了进一步阐释本发明的技术方案,特此举例说明:

参照上述例子,假设待翻译文本有10个句子,预设的语句比对类型为1:2。则处理装置将待翻译文本的第一个句子作为第一语句,将网络文件A的第一句子和第二句子作为第二语句,根据上述方法获得第一语句与第二语句的第一相似度,记为P1。接着,将待翻译文本的第二个句子作为新的第一语句,将网络文本A的第二个句子和第三个句子作为新的第二语句,获得此时的第一语句与第二语句的第一相似度,记为记为P2…..,最后,将待翻译文本的第10个句子作为第一语句,将网络文本A的第10个句子和第二11个句子作为第二语句,获取第一语句与第二语句的第一相似度,记为P10。处理装置根据上述P1、P2……P10,确定待翻译文本与网络文本A的相似度,例如,将P1、P2……P10的和作为待翻译文本与网络文本A的相似度,或者将P1、P2……P10的加权平均值等作为待翻译文本与网络文本A的相似度。参照上述步骤,即可准确获得待翻译文本与每个网络文本的相似度,接着,

本发明提供的数据的处理方法,处理装置根据待翻译文本的语句顺序和预设的语句比对类型,从所述待翻译文本中获取第一语句,从所述第一平行双语语料库中的每个网络文本中获取与所述第一语句对应的第二语句,计算第一语句与每个网络文本的第二语句的第一相似度,并根据第一语句与每个网络文本的第二语句的第一相似度,准确获得待翻译文本与每个所述网络文本的相似度,进而提高了获得待翻译文本的目标网络文本的准确性。

图3为本发明提供的数据的处理方法实施例三的流程示意图。在上述实施例的基础上,本实施例涉及的处理装置获取所述第一语句与每个所述网络文本的第二语句的第一相似度的具体过程。即上述S202具体可以包括:

S301、根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与每个所述网络文本的第二语句的长度归一化参数。

具体的,处理装置根据第一语句的字符长度、第二语句的字符长度,以及待翻译文本的语言长度和网络文本的语言长度的比值,来确定第一语句与每个网络文本的第二语句的长度归一化参数。例如,假设第一语句为“打了他”,第二语句为“hit,him”,第一语句的字符长度为6,第二语句的字符长度也为6,而中文的语言长度与英文的语言长度为1.6,处理装置根据上述各参数,借助现有的长度归一化方法(例如使用R语言归一化函数)获得第一语句“打了他”和第二语句为“hit,him”的长度归一化参数。

可选的,处理装置根据公式确定所述第一语句与所述第二语句的长度归一化参数δ(ls,lt),其中,所述σ2为所述待翻译文本的语言与所述网络文本的语言的样本方差,所述ls为所述第一语句的字符长度,所述lt为所述第二语句的字符长度,所述r为所述待翻译文本的语言长度与所述网络文本的语言长度的比值。而其中,为所用网络文件的第二语句的平均字符长度,N为第一平行双语语料库中的网络文件的数目。

参照上述例子,第一语句“打了他”的字符长度为ls=6,第二语句“hit,him”的字符长度为lt=6,而中文与英文的语言长度比值为r=1.6,中文与英文的样本方差σ2=3.4。将上述各参数带入上式,得

根据上述公式获得第一语句“打了他”和第二语句为“hit,him”的长度归一化参数为0.49。参照上述步骤,即可获得第一语句与每个网络文件的第二语句的长度归一化参数。

S302、根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度。

具体的,处理装置根据上述获得的第一语句与每个网络文件的第二语句的长度归一化参数和预设的比对类型,确定第一语句与每个网络文本的第二语句的第一相似度。

可选的,处理装置根据公式

p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),确定所述第一语句与每个所述第二语句的第一相似度p(δ(ls,lt)|type),所述type为所述语句比对类型。

参照上述例子,将上述步骤获得的各参数带入上述公式中,即可获得

可选的,处理装置在根据上述公式计算第一语句与每个网络文本的第二语句的第一相似度之前,处理装置还可以使用高斯公式:或者使用泊松分布公式:计算第一语句和每个网络文本的第二语句的相似度,对第一平行双语语料库中的网络文本进行一次过滤,进而降低处理装置的计算量。

本发明提供的数据的处理方法,处理装置根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与每个所述网络文本的第二语句的长度归一化参数,并根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度,其整个过程简单,可以准确获得第一语句与每个网络文件的第二语句的第一相似度。

图4为本发明提供的数据的处理方法实施例四的流程示意图。在上述实施例的基础上,本实施例涉及的是处理装置根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本的具体过程。即上述S101具体包括:

S401、根据第一预设数目和所述待翻译文本与每个所述网络文本的相似度,从所述第一平行双语语料库中确定所述待翻译文本的第一网络文本集合,所述第一网络文本集合包括多个第一网络文本。

具体的,处理装置对上述获得的翻译文本与每个网络文本的相似度进行排序(例如从大到小排序),并根据第一预设数目(例如10),从第一平行双语语料库中获取相似度前10的第一网络文本,将该10个第一网络文本作为第一网络文本集合。

S402、获取所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度。

S403、根据所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度。

具体的,为了进一步提高获取目标网络文本的准确性,则处理装置获取第一网络文件集合中的每个第一网络文本的第二语句的每个字符,根据翻译关系,判断每个第一网络文本的第二语句的字符是否是第一语句的字符的翻译字符,进而获取所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度。

接着,处理装置根据获取的第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,即可获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度。例如,处理装置可以根据IBM模型确定第一语句与每个所述第一网络文本的第二语句的第二相似度。

可选的,处理装置还可以根据公式

获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

其中,所述s为所述第一语句中的字符,所述t为所述第二语句中与所述s对应的字符,所述l为所述第一语句中字符的个数,所述m为所述第二语句中字符的个数,所述ε为常量。

S404、根据所述第一语句与每个所述第一网络文本的第二语句的第二相似度,确定所述目标网络文本。

具体的,处理装置根据上述步骤获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度,并根据第二相似度来确定待翻译文本的目标网络文本。

本发明提供的数据的处理方法,通过第一预设数目和所述待翻译文本与每个所述网络文本的相似度,从第一平行双语语料库中获取多个第一网络文本,获取第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,并根据第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度,进而根据第一语句与每个所述第一网络文本的第二语句的第二相似度,确定待翻译文本的目标网络文本,进一步提高了获取目标网络文本的准确性。

图5为本发明提供的数据的处理方法实施例五的流程示意图。在上述实施例的基础上,本实施例涉及的是处理装置在获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度之前,确定第一平行双语语料库的具体过程。即在上述S102之前,本实施例的方法还可以包括:

S501、将所述待翻译文本与预设的第二平行双语语料库中的每个网络文本进行篇章对齐,获取所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度。

在本实施例中,为了降低处理装置的计算复杂性,使用篇章对齐方法,对平行双语料库中的网络文本进行一次过滤,获得与待翻译文本的匹配度较高的网络文本,使用该匹配度较高的网络文本进行上述步骤的相似度计算。

例如,处理装置可以使用Cosine相似度法,获得待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度cos(v1,v2):

其中v是矢量,包含了文档中常见的数字、标点、和命名实体这些特征值(feature values),使用上述各特征值对篇章进行对齐。

S502、根据所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度,从所述第二平行双语语料库中确定所述第一平行双语语料库。

接着,根据待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度,从所述第二平行双语语料库中确定第一平行双语语料库,例如获得50个第三相似度较大的网络文本,使用该50个网络文本组成第一平行双语语料库。

进一步的,当本实施例的第一语句与第二语句为同一个语系(例如英语和法语)时,本实施例的方法还可以再次进行单词之间的相似性对齐。

可选的,处理装置可以利用下列公式进行单词之间的对齐:

该方法是从句子之间的词中,找出共同出现的字母,然后根据上述Dice相似度计算单词之间的相似度。

例如使用上述公式对下列短语进行对齐:

whitehOuse

|||///

vitahuset

其2-gram中的对齐现象为:

本发明的方法,从词典的构建到最后的对齐,都没有人工干预,而且可以不针对语言对的智能对齐平台,这种自动化的对齐方法在实际中有很大的优势。极大的减少了人工工作量(例如,不需要人工编制词典)。

本实施例的方法,充分利用IBM对齐模型、自然语言处理和信息检索中的相关技术,自动获取成千上万级别的词典。

构建的语料库涵盖多领域的平行语料库,主要包括:新闻(News)、小说(Novels)、法律(Laws)、教育(Education)、科学术语(Science)、口语对话字幕(Speech/Dialog/Subtitle)、微博(Twitter)、议会(Parliament)。

语料库获取后,文件的存储格式也是相当重要。为了适用不同后续的平台搭建,本发明可以采取两种格式进行存放,所有的文本以UTF-8格式编码:

(1)纯文本格式。这种存储格式主要用于机器翻译的训练数据。

(2)标记文本格式。该种标记语言的存储格式主要分为XML和SGML两种格式。同时为了方便术语库和记忆库的采用,同时把纯文本文件生成TMX格式文本。这种标记文本可以方便的查询文本资源的一些其他属性,包括文本的创建时间、作者、问题内容等更加细化的内容,方便数据库查询和索引。

本发明提供的数据的处理方法,通过篇章对齐放,对平行双语料库中的网络文本进行一次过滤,进而降低处理装置的计算复杂性。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图6为本发明提供的数据的处理装置实施例一的结构示意图。本实施例的数据的处理装置可以是单独的处理器,也可以集成在处理器中,例如集成在计算机等设备的处理器中。如图6所示,本实施例的处理装置可以包括:

获取模块10,用于获取待翻译文本;

第一计算模块20,用于根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度;

确定模块30,用于根据所述待翻译文本与每个所述网络文本的相似度,确定所述待翻译文本的目标网络文本。

本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图7为本发明提供的数据的处理装置实施例二的结构示意图。在上述实施例的基础上,本实施例的第一计算模块20包括:第一获取单元201、第一计算单元202。

所述第一获取单元201,用于根据所述待翻译文本的语句顺序和预设的语句比对类型,从所述待翻译文本中获取第一语句,以及,从所述第一平行双语语料库中的每个网络文本中获取与所述第一语句对应的第二语句;其中,所述语句比对类型为所述第一语句中包括的句子数目与所述第二语句中包括的句子数目的比值;

所述第一计算单元202,用于获取所述第一语句与每个所述网络文本的第二语句的第一相似度;并用于根据所述第一语句与每个所述网络文本的第二语句的第一相似度,确定所述待翻译文本与每个所述网络文本的相似度。

进一步的,上述第一计算单元202,还具体用于根据所述第一语句的字符长度、第二语句的字符长度、和所述待翻译文本的语言长度与所述网络文本的语言长度的比值,确定所述第一语句与每个所述网络文本的第二语句的长度归一化参数;并根据所述第一语句与每个所述网络文本的第二语句的长度归一化参数和预设的比对类型,确定所述第一语句与每个所述网络文本的第二语句的第一相似度。

可选的,上述第一计算单元202,还具体用于

根据公式p(δ(ls,lt)|type)=p(|X|≥|δ(ls,lt)|)=2(1-p(X<|δ(ls,lt)|)),确定所述第一语句与每个所述第二语句的第一相似度p(δ(ls,lt)|type);

其中,所述δ(ls,lt)为所述第一语句与所述第二语句的长度归一化参数,所述ls为所述第一语句的字符长度,所述lt为所述第二语句的字符长度,所述r为所述待翻译文本的语言长度与所述网络文本的语言长度的比值,所述type为所述语句比对类型。

本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图8为本发明提供的数据的处理装置实施例三的结构示意图。在上述实施例的基础上,本实施例的确定模块30包括:第二获取单元301、第二计算单元302、确定单元303。

所述第二获取单元301,用于根据第一预设数目和所述待翻译文本与每个所述网络文本的相似度,从所述第一平行双语语料库中确定所述待翻译文本的第一网络文本集合,所述第一网络文本集合包括多个第一网络文本;

所述第二计算单元302,用于获取所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度;并根据所述第一语句的每个字符与每个所述第一网络文本的第二语句的每个字符的相似度,获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

所述确定单元303,用于根据所述第一语句与每个所述第一网络文本的第二语句的第二相似度,确定所述目标网络文本。

进一步的,所述第二计算模块302,用于在所述第一计算模块20根据所述待翻译文本的语句顺序和所述待翻译文本的语句,获取所述待翻译文本与预设译文类型的第一平行双语语料库中的每个网络文本的相似度之前,将所述待翻译文本与预设的第二平行双语语料库中的每个网络文本进行篇章对齐,获取所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度;并根据所述待翻译文本与所述第二平行双语语料库中的每个网络文本的第三相似度,从所述第二平行双语语料库中确定所述第一平行双语语料库。

可选的,上述第一计算单元202,具体用于:

根据公式确定所述一语句与所述第二语句的长度归一化参数δ(ls,lt);

其中,所述σ2是所述待翻译文本的语言与所述网络文本的语言的样本方差。

可选的,上述第二计算模块302,具体用于:

根据公式获得所述第一语句与每个所述第一网络文本的第二语句的第二相似度;

其中,所述s为所述第一语句中的字符,所述t为所述第二语句中与所述s对应的字符,所述l为所述第一语句中字符的个数,所述m为所述第二语句中字符的个数,所述ε为常量。

本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1