1.一种实现领域自适应的统计机器翻译方法,其特征是:包括以下步骤,
a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;
所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;
b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:
由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;
c、计算每个领域位置点的领域影响权重之和;
d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;
e、在该知识领域内,根据名词词典,确定对应的翻译词汇。
2.根据权利要求1所述的实现领域自适应的统计机器翻译方法,其特征是:在步骤b中,针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。
3.根据权利要求1所述的实现领域自适应的统计机器翻译方法,其特征是:所述的k=-0.5。