一种音字转换方法及装置的制作方法

文档序号:6430150阅读:299来源:国知局
专利名称:一种音字转换方法及装置的制作方法
一种音字转换方法及装置技术领域
本发明涉及自然语言处理技术领域,特别涉及一种音字转换方法及装置。
背景技术
音字转换方法,是输入法的一种,指的是将用户通过输入设备输入的表示文字读音的代码序列,转换为实际需要的文字序列的方法。在音字转换过程中,需要通过转换模型计算与读音代码序列对应的文字序列的合理性,在现有技术中,该合理性的计算依据之一为转换模型中词与词在大规模语料中的共现概率。例如输入的读音代码序列为“mianduixianshi”,可以转换为“面对现实”或“面对闲事”等等文字序列,在判断这些文字序列的合理性时,由于在大规模语料中统计得到“面对”与“现实”的共现概率远高于“面对”与“闲事”的共现概率,因此“面对现实”这个文字 序列就比“面对闲事”这个文字序列合理。在这种转换方法中,假设转换模型的词典中包含的词条数为N,仅以考虑词与词的二元共现为例,相应的共现概率信息的规模就达到了 N2,如果词条的数目很大,就会造成输入法规模的急剧膨胀,所以,在这种方法下,为了使输入法的规模达到一个合理的程度,就必须对词典进行裁剪,而这必然导致一些信息量丢失,使得在转换过程中,不得不使用插值估计的方式来获取相应的文字序列,从而降低了输入法的转换精度。此外,这种方式下为词典添加新的词条也比较困难,因为当添加新词时,该新词与其他词之间的共现概率信息比较难获得,如果失去了这一共现概率信息,就会导致转换的效果变差,而即使采用估计算法获取这一共现概率信息,也很难达到真实的精度。由于现有技术的音字转换方法存在添加新词困难的缺陷,从而影响了输入法的扩展性。

发明内容本发明所要解决的技术问题是提供一种音字转换的方法和装置,以解决现有的音字转换方法中存在的输入法转换精度降低和扩展性较差的缺陷。本发明为解决技术问题而采用的技术方案是提供一种音字转换方法,包括:A.获取用户输入的读音代码序列;B.对所述读音代码序列进行划分,得到各读音节点;C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为前一个或多个词类出现的条件下后一个词类相邻出现的概率;D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;E.选择得分排在前NI个的文字序列转换结果作为最终结果输出,NI为正整数。
根据本发明之一优选实施例,所述转换模型是通过下列方式获得的a.为训练语料标注各词条及各词条的词性;b.确定各词条在对应词性下的词类;c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率;e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。根据本发明之一优选实施例,所述步骤b包括以下方式中的SI,或者,SI与S2的组合且S2的执行优先级高于SI S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。根据本发明之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。 根据本发明之一优选实施例,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。根据本发明之一优选实施例,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。根据本发明之一优选实施例,所述步骤D包括从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转换词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。本发明还提供了一种音字转换装置,包括接收单元,用户获取用户输入的读音代码序列;切分单元,用于对所述读音代码序列进行划分,得到各读音节点;节点生成单元,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为前一个或多个词类出现的条件下后一个词类相邻出现的概率;计算单元,用于根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;输出单元,选择得分排在前NI个的文字序列转换结果作为最终结果输出,NI为正整数。根据本发明之一优选实施例,所述装置进一步包括模型生成单元,所述模型生成单元包括标注子单元,用于为训练语料标注各词条及各词条的词性;词类确定子单元,用于确定各词条在对应词性下的词类;训练子单元,用于利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;概率合并子单元,用于确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并得到各词条的生成概率;添加单元,用于根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。根据本发明之一优选实施例,所述词类确定子单元包括聚类子单元,或者,包括所述聚类子单元与词频统计子单元的组合且所述词频统计子单元的处理优先级高于所述聚类子单元;其中所述聚类子单元,用于根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;所述词频统计子单元,用于在大规模语料中统计各词条在对应词性下的词频,并 为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。根据本发明之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。根据本发明之一优选实施例,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。根据本发明之一优选实施例,所述节点生成单元根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个的词条与所述读音节点结合生成所述音字节点,其中N2为正整数。根据本发明之一优选实施例,所述计算单元包括查找子单元,用于从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转换词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;得分生成子单元,用于将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。由以上技术方案可以看出,通过将词与词之间的共现关系降维处理为词类与词类之间的共现关系,可以在缩减转换模型的词典规模的基础上,保留转换模型所有的词典信息,从而提高输入法的转换精度,同时由于词类与词类之间的共现关系信息一旦获取后相对稳定,在添加新词时只需要添加词条的生成信息而不用再额外获取词类与词类之间的共现关系信息,所以也大大提高了输入法的可扩展性。

图I为本发明中音字转换方法的实施例的流程示意图;图2为本发明中音字节点形成的各种转换结果示意图;图3为本发明中建立转换模型的实施例的流程示意图;图4为本发明中音字转换装置的实施例的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。请参考图1,图I为本发明中音字转换方法的实施例的流程示意图。如图I所示,所述方法包括步骤101 :获取用户输入的读音代码序列。步骤102 :对读音代码序列进行划分,得到各读音节点。步骤103 :根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述转换模型包括音字词典与转移词典。步骤104 :根据音字词典中的词条的生成概率与转移词典中词类间的转移概率计算读音代码序列对应的各文字序列转换结果的得分。步骤105 :选择得分排在前NI个的文字序列转换结果作为最终结果输出,NI为正整数。下面对上述步骤进行具体说明。 在步骤101中,读音代码序列指的是能表示用户欲输入文字的读音符号,以中文为例,这个读音代码可以为拼音,以日文为例,这个读音代码可以为罗马字符表示的假名
曰 步骤102中,对读音代码序列进行划分,就是对用键盘字符表示的读音代码序列进行所有符合语言学规则的切分,例如在中文的拼音中,声母应该与韵母组合,因此在切分时就不会出现多个声母组合的读音节点。请参考图2,图2为本发明中音字节点形成的各种转换结果示意图。如图 2 所示,图中的 “xian”、“shizhang”、“xi”、“an”、“shi”、“zhang”、“anshi”就是对读音代码序列xianshizhang”进行各种切分后得到的读音节点。步骤103中,转换模型是音字转换过程中依赖的模型,其包括音字词典与转移词典,音字词典中记录了各个词条、词条的读音及其相关概率,转移词典中记录了各个词类及其相关概率。请参考图3,图3为本发明中建立转换模型的实施例的流程示意图。如图3所示,建立转换模型的方法包括步骤201 :为训练语料标注各词条及各词条的词性。对训练语料标注各词条,就是对连续的文本语料,标注出分词得到的各词条及其词性。例如“我爱北京天安门”这样一个文本,经过标注后可以得到“我〈代词>/爱〈动词>/北京/〈地名.地区>/天安门〈地名.地点〉”这样一个标注后的文本。在这里,当一个词是专有名词时,词性还指具体的专有名词属性。例如上面的“地名.地区”和“地名.地点”等都是具体的专有名词属性。步骤202 :确定各词条在对应词性下的词类。本发明为了改变传统音字转换模型中由于考虑词与词的共现概率而导致的词典规模膨胀的问题,将词与词之间的关系简化为词性与词性之间的关系,但是以北大中文标注体系中的词性为例,中文的词性数量仅为四十多种,这样,如果仅采用词性与词性之间的关系来替代词与词之间的关系,那么又会使信息量损失过大,因此,在本实施例中,将通过获取各词条在对应词性下的词类,来提高词性的维度。确定各词条在对应词性下的词类,可通过下列方式1,或方式I与方式2的组合来实现,在采用方式I与方式2的组合实现时,方式2的执行优先级高于方式I。方式I :根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类。聚类特征可以采用词条在大规模语料中的上下文特征。大规模语料不限于上文所说的已标注的训练语料,还可包括更大范围的未标注语料,例如各种来源的文本。
对于具有同一词性的不同词条,由于词条内涵的区别,该词语出现时,其上下文会出现一些与其内涵相关联的词。例如“北京”和“海淀”,虽然都为“地名.地区”,但是前者内涵是“行政市”,后者内涵是“行政区”,表现在词条的外延上,即前者往往和“市”、“市长”等词共现较多,后者往往和“区”、“区政府”等词共现较多。统计词条在大规模语料中的上下文特征,然后根据这些上下文特征之间的相似度,就可以将相同词性下的不同词条,聚为若干类,从而形成相应的词类。在本实施例中,上下文特征指一定上下文范围内最频繁共现的若干个词及其次数,例如表I所示表I
权利要求
1.一种音字转换方法,其特征在于,所述方法包括 A.获取用户输入的读音代码序列; B.对所述读音代码序列进行划分,得到各读音节点; C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为前一个或多个词类出现的条件下后一个词类相邻出现的概率; D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列; E.选择得分排在前NI个的文字序列转换结果作为最终结果输出,NI为正整数。
2.根据权利要求I所述的方法,其特征在于,所述转换模型是通过下列方式获得的 a.为训练语料标注各词条及各词条的词性; b.确定各词条在对应词性下的词类; c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率; d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率; e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
3.根据权利要求2所述的方法,其特征在于,所述步骤b包括以下方式中的SI,或者,SI与S2的组合且S2的执行优先级高于SI 51.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类; 52.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
4.根据权利要求3所述的方法,其特征在于,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。
5.根据权利要求2所述的方法,其特征在于,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
6.根据权利要求I所述的方法,其特征在于,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
7.根据权利要求I所述的方法,其特征在于,所述步骤D包括 从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转换词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率; 将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
8.一种音字转换装置,其特征在于,所述装置包括 接收单元,用户获取用户输入的读音代码序列; 切分单元,用于对所述读音代码序列进行划分,得到各读音节点; 节点生成单元,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移 词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为前一个或多个词类出现的条件下后一个词类相邻出现的概率; 计算单元,用于根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列; 输出单元,选择得分排在前NI个的文字序列转换结果作为最终结果输出,NI为正整数。
9.根据权利要求8所述的装置,其特征在于,所述装置进一步包括模型生成单元,所述模型生成单元包括 标注子单元,用于为训练语料标注各词条及各词条的词性; 词类确定子单元,用于确定各词条在对应词性下的词类; 训练子单元,用于利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率; 概率合并子单元,用于确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并得到各词条的生成概率; 添加单元,用于根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
10.根据权利要求9所述的装置,其特征在于,所述词类确定子单元包括聚类子单元,或者,包括所述聚类子单元与词频统计子单元的组合且所述词频统计子单元的处理优先级高于所述聚类子单元; 其中所述聚类子单元,用于根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类; 所述词频统计子单元,用于在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
11.根据权利要求10所述的装置,其特征在于,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。
12.根据权利要求9所述的装置,其特征在于,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
13.根据权利要求8所述的装置,其特征在于,所述节点生成单元根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个的词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
14.根据权利要求8所述的装置,其特征在于,所述计算单元包括 查找子单元,用于从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转换词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率; 得分生成子单元,用于将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
全文摘要
本发明提供一种音字转换方法及装置,其中音字转换的方法包括A.获取用户输入的读音代码序列;B.对所述读音代码序列进行划分,得到各读音节点;C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点;D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分;E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。通过上述方式,可以在缩减转换模型的词典规模的基础上,提高音字转换输入法的转换精度。
文档编号G06F17/28GK102929864SQ20111022382
公开日2013年2月13日 申请日期2011年8月5日 优先权日2011年8月5日
发明者何径舟, 黄鋆, 吴中勤 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1