建立分词模型的方法及装置与流程

文档序号：11133916阅读：344来源：国知局

本发明实施例涉及机器翻译技术领域，尤其涉及一种建立分词模型的方法及装置。

背景技术：

当今自然语言处理界普遍认为，由于中文的词与词之间没有空格区分边界，一个更高质量的分词是中文语言处理中的关键所在。多项实验证明，中文分词的精准性将直接影响统计机器翻译的效果。而主流的统计机器模型也基于分词后的平行语料，这表明，任何训练语句都将会被分词。对于中文，最大的障碍在于，使用的训练语料都来自被标记好的语法树。而显然，这些分词标准仅仅考虑到了单语种的特征，并不符合统计机器学习基于平行双语语料的特点。

近年来，很多研究人员意识到了这个问题，大量的分词工作将重心转到了研究一个适用于统计机器翻译的分词系统，而非只针对单一的语种。不同于传统的分词方法，如：最大匹配法或是监督机器学习分类方法，基于统计机器翻译的分词都依赖于对齐方法，一个英文单词对齐一个或多个中文单词，将英文的词边界直接映射到中文端。然而这些方法通常都忽略了中文分词本身的准确性，并且还要承受错误的对齐给分词带来的负面效果。

技术实现要素：

本发明实施例提供一种建立分词模型的方法及装置，用以建立一种分词准确性较高的分词模型。

本发明实施例第一方面提供一种建立分词模型的方法，该方法包括：

将第一语料中的每个字符与第二语料中的单词进行对齐，获得第一语料和所述第二语料之间的对齐关系，其中所述第一语料为词与词之间没有空格划分边界的语料；

根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中词的边界信息；

根据所述第一语料中词的边界信息，训练生成分词模型。

本发明实施例第二方面提供一种建立分词模型的装置，该装置包括：

对齐模块，用于将第一语料中的每个字符与第二语料中的单词进行对齐，获得第一语料和所述第二语料之间的对齐关系，其中所述第一语料为词与词之间没有空格划分边界的语料；

确定模块，用于根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中词的边界信息；

训练模块，用于根据所述第一语料中词的边界信息，训练生成分词模型。

本发明实施例，通过将无空格划分词边界的第一语料中的每个字符与有空格划分词边界的第二语料中的每个单词进行对齐，获得单词与字符之间的对齐关系，并根据第一语料和第二语料之间，单词与字符的对齐关系，确定第一语料中词的边界信息，从而根据该边界信息训练生成分词模型。本发明实施例区别于现有技术的是，该分词模型在分词处理过程中，综合了对齐语料对分词的影响，因此，能够达到提高分词准确率的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的建立分词模型的方法的流程示意图；

图2为本发明实施例二提供的建立分词模型的方法的流程示意图；

图3本发明实施例三提供的建立分词模型的装置的结构示意图；

图4本发明实施例四提供的建立分词模型的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

图1为本发明实施例一提供的建立分词模型的方法的流程示意图，该方法可以由一分词模型的建立装置(以下简称建立装置)来执行。如图1所示，该方法包括如下步骤：

步骤S101、将第一语料中的每个字符与第二语料中的单词进行对齐，获得第一语料和所述第二语料之间的对齐关系，其中所述第一语料为词与词之间没有空格划分边界的语料。

本实施例中，第一语料可以被具体为语法树资源匮乏的语言的语料，例如，中文语料、韩文语料、日文语料等。第二语料可以被具体为语法树资源丰富的语言的语料。例如英文语料，德文语料等。

以第一语料为中文语料，第二语料为英文语料为例。实际应用中，首先将中文语料中的每个中文字符用空格符或其他符号进行分词，并将分词后的每个中文字符作为一个词语单位。在此之后，采用诸如GIZA++等词语对齐方法，将中文语料中的每个中文字符与英文语料中的单词进行对齐，确定中文语料与英文语料之间的对齐关系。

这里需要说明的是，本实施例中，中文语料与英文语料之间是按照N到1的原则进行对齐的，即一个英文单词对齐一个或多个中文字符，例如英文单词“Olympus”可以分别对应中文字符“奥”、“运”、“会”。

步骤S102、根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中词的边界信息。

具体的，本实施例中基于字符的三元词组(即通过三种标识标记字符在词组中位置，例如用B标记词组起始字符，用E标记词组最后一个字符，用M标记词组中间位置的字符，当然此处仅为示例说明，并不是对其的唯一限定。)，确定第一语料库中词的边界信息，其中，上述词的边界信息包括词中各字符的边界位置以及词的边界概率。其中，基于字符的三元词组确定第一语料库中词的边界信息的方法，与现有技术类似在这里不再赘述。

步骤S103、根据所述第一语料中词的边界信息，训练生成分词模型。

实际应用中，在确定的第一语料中词的边界信息后，优选的，本实施例采用图传导的方法将该边界信息在第一语料和第二语料之间进行传递。并根据图传播的限制条件，训练形成分词模型，优选的，本实施例中训练形成的分词模型为随机条件场模型。具体的，本实施例中采用的图传导的方法和随机条件场训练方法，分别与现有技术中的图传导的方法和随机条件场的训练方法类似，在这里不再赘述。

本实施例，通过将无空格划分边界的第一语料中的每个字符与有空格划分边界的第二语料中的每个单词进行对齐，获得第一语料和第二语料间单词与字符之间的对齐关系，并根据第一语料和第二语料之间的对齐关系，确定第一语料中词的边界信息，从而根据该边界信息训练生成分词模型。区别于现有技术的是，该分词模型在分词处理过程中，综合了对齐语料对分词的影响，因此，能够达到提高分词准确率的效果。

图2为本发明实施例二提供的建立分词模型的方法的流程示意图，如图2所示，在图1所示实施例的基础上，本实施例提供的方法包括：

步骤S201、将第一语料中的每个字符与第二语料中的单词进行对齐，获得第一语料和所述第二语料之间的对齐关系，其中所述第一语料为词与词之间没有空格划分边界的语料。

步骤S202、根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中词的边界信息。

本实例中，步骤S201-步骤S202的执行方式和有益效果分别与图1实施例中的步骤S101和步骤S102类似，在这里不再赘述。

步骤S203、通过相似图的传导方法，将所述第一语料中词的边界信息在所述第一语料和第二语料之间进行传导，并训练生成分词模型。

与直接将边界信息作为分词边界的传统做法相比不同的是，本实施例在获得第一语料中词的边界信息后，通过图传导的方法来传递边界信息，并根据图传导的约束条件来训练形成分词模型。

实际应用中，首先根据包括语法树，以及第一语料和第二语料在内的资源，构建一个相似图G＝(V,E)。相似图中的每一个顶点V都具有一个|T|维度的估量v来代表第一语料中每个词的边界概率。而经过推导的词的概率r，则是相应M图顶点的经验值，其中，|T|为正整数。相似图中的边的集合E∈V_i*V_j连接了图中的所有顶点，其中V_i和V_j表示相似图中互相连接的两个顶点对。图中顶点对之间的权重w_ij指两个顶点之间的语法相似程度。具体来说，就是将每个顶点具化为一个稀疏向量，并通过余弦函数计算两个向量之间的相似程度来获得两个顶点之间的语法相似程度。总的来说，相似图的目的在于使得在不同文本中抽取出的顶点根据其边权重w_ij的高低进行连接。算法中，高权重的顶点之间才能互联，导致图中相邻的顶点都具有相似的词边界概率。

相似图的质量(平滑程度)可被用一个标准的传播算法估算出来，公式如下所示。

在公式等号的右边中，左起第一个“+”前边的部分主要用于计算预测量v_i和实证概率r_i之间的距离。左起第一个“+”和左起第二个“+”之间的部分表示的是相似图中边的平滑算法，用来衡量顶点V_i相对于图的平滑程度。而两个顶点之间通过高权重的边进行连接，并且顶点之间被赋予相似的词边界概率。左起第二个“+”之后的部分是一个范式，用来估算每个顶点的概率分布稀疏度。通常情况下，图传导过程相当于一个优化过程，在此过程中，上述公式中的参数v_i被最小化。这个传播函数被用来反映图平滑，获得的p(v)值越高，则平滑度越低。

本实施例中，相似图的构建方法与现有技术类似，在这里不再详述。

进一步的，在建立相似图之后，根据相似图的传播限制条件进行模型训练，生成分词模型，其中，本实施例中，优选训练生成随机条件场模型。随机条件场模型的训练生成方法与现有技术类似，在这里不再赘述。

图3本发明实施例三提供的建立分词模型的装置的结构示意图。如图3所示，本实施例提供的装置包括：

对齐模块11，用于将第一语料中的每个字符与第二语料中的单词进行对齐，获得第一语料和所述第二语料之间的对齐关系，其中所述第一语料为词与词之间没有空格划分边界的语料；

确定模块12，用于根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中词的边界信息；

训练模块13，用于根据所述第一语料中词的边界信息，训练生成分词模型。

其中，所述第一语料包括如下语料中的任意一种：

中文语料，韩文语料，日文语料；

所述第二语料包括如下语料中的任意一种：

英文语料，德文语料。

所述确定模块12，具体用于：

根据所述第一语料和所述第二语料之间的对齐关系，确定所述第一语料中每个三元词组的边界位置和边界概率。

本实施例提供的装置能够用于执行图1所示实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

图4本发明实施例四提供的建立分词模型的装置的结构示意图。如图4所示，本实施例提供的装置在图3所示结构的基础上，所述训练模块13，包括：

第一训练子模块131，用于通过相似图的传导方法，将所述第一语料中词的边界信息在所述第一语料和第二语料之间进行传导，并训练生成分词模型。

本实施例提供的装置能够用于执行图2所示实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田亮;
技术所有人：新译信息科技（深圳）有限公司;
我是此专利的发明人

上一篇：短信翻译方法和短信翻译装置与制造工艺
上一篇：中文汉字自动标注拼音的系统及方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。