一种针对中文社交网络中中英文混合文本的规范方法

文档序号:6620339阅读:1047来源:国知局
一种针对中文社交网络中中英文混合文本的规范方法
【专利摘要】本发明属于机器翻译【技术领域】,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。
【专利说明】一种针对中文社交网络中中英文混合文本的规范方法

【技术领域】
[0001] 本发明属于机器翻译【技术领域】,具体涉及一种针对中文社交网络中中英文混合文 本的规范方法。

【背景技术】
[0002] 近些年来,随着科技的进步,越来越多的人们开始使用互联网。人们在互联网上浏 览并且发表信息,各大网站每天都能接收到大量的用户提交信息。很多自然语言处理工作 已经开始关注网络文本,通过网路文本的分析,可以得到许多用户聚类,用户情感倾向,用 户喜好等信息,这些海量信息具有巨大的价值。
[0003] 用户生成信息最多的地方之一便是社交网络。二十年来,国内外有许多著名社交 网络应运而生。社交网络上每天都能产生海量的用户文本,这些文本最大的特点就是不规 范。用户文本中可能夹杂着诸如多语言混合,表情,特殊符号,缩略语等,这些文本给现存的 自然语言处理工作带来了很大的障碍。国内外已有很多研究专注于文本纠错工作,试图将 非规范文本中混合的非规范词替换成相同含义的规范词,这样能极大地方便后续的自然语 言处理工作。
[0004] 在中国,网民数目在2014年已经超过了 6亿,这就致使每天中文社交网络也会产 生海量的用户文本。而这些年来信息的国界性越来越不明显,许多人倾向于在社交网络中 使用更有特点的文字来表达自己的看法。作为网民中最活跃也是数目最多的年轻人来说, 他们发表的文本本身就更具有特点。新的语法,词汇等往往在这个时候产生,这些都给传统 的自然语言处理工作带来了障碍。其中最显著的现象就是中文中混杂入其他语言,例如英 文,日文,法文等。
[0005] 国内外有许多文本纠错方面的研究。英文文本纠错工作中很早便有人将该工作看 作是翻译工作,即将非规范英文词汇看作是源语言,将其对应的规范英文词汇看作是目标 语言,通过传统的机器翻译模型完成工作。后来由于发现到英文非规范词的产生形式往往 具有一定规则,便利用到了音位和字形上的特点为规范的英文词生成不规范词,从而逆向 解决了这个问题。上下文信息往往对于两个相同含义词的识别有重要参考作用,一些工作 针对规范词和非规范词共同出现的上下文信息来建立两者之间的联系,从而完成规范化工 作。在中国,也有一些工作通过搜索的方式,构建非规范词字典,从而将这些未登录词转换 为登陆词。
[0006] 与英文不同,中文往往在形式,发音,组合上有更多的变种,许多英文文本纠错的 工作在中文上并不适用,这也致使中文文本规范化工作更具有挑战性。


【发明内容】

[0007] 为了克服现有技术的不足,本发明的目的在于提供一种针对中文社交网络中中英 混合文本的规范方法,其将英文词翻译成对应含义的中文词,这样在方便阅读的同时,也为 后续自然语言处理工作提供了很好的数据预处理工作。
[0008] 本发明提供一种针对中文社交网络中中英混合文本的规范方法,其利用噪声信道 模型的思路,将改进的话题翻译模型和神经网络语言模型进行结合,把社交网络中用户提 交文本包含的英文单词看作是非规范词,而将该英文单词对应的中文翻译看作是规范词, 从而进行文本规范化。具体步骤如下:
[0009] (1)非规范词识别
[0010] 通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英 文单词的用户文本;
[0011] (2)非规范词对应规范词的生成
[0012] 利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训 练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话 题翻译概率。
[0013] (3)非规范词对应规范词的选择
[0014] 首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模 型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的 话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大 的非规范词对应规范词。
[0015] 本发明中,所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义 空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话 题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交 网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题 翻译概率。

【专利附图】

【附图说明】
[0016] 图1为用户历史相关信息的神经网络语言模型图。

【具体实施方式】
[0017] 针对中文社交网络中的中英文混合文本,主要分三个部分来实现对英文词的规范 化工作。
[0018] 1、非规范词识别
[0019] 通过人为网络爬取的方式,构建英汉电子词典。词典中包含绝大部分英文单词和 其对应的中文翻译。这样可以有效的筛选出目标文本,即中文社交网络中混杂英文单词的 用户文本。
[0020] 2、非规范英文词对应中文翻译词生成
[0021] 传统的机器翻译方法根据双语对齐语料,可以生成双语对齐概率表。概率表中包 含了每个源语言词与目标语言词的对齐概率。这里由于社交网络语义空间中缺乏双语对齐 训练语料,我们可以通过更容易获取的非社交网络语义空间(例如新闻语义空间,电影电 视语义空间等)的双语对齐语料来生成对齐概率表。与此同时,考虑到数据的特性,我们在 这里结合了话题模型来产生非规范词的翻译词。那么英文词翻译成中文词的概率计 算可以用如下公式表示:
[0022]
[0023] ?表示需要进行翻译的英文词,a表示对应的翻译中文词,t。表示某一话题, φ(?乂 |?)表示英文单词对应中文单词及其话题的概率;|表示英文单词在中文话题 下翻译成对应中文单词的概率;P(Cl 〇灰示英文词对应的中文话题的分布。整个公式可以 理解为英文词翻译成中文词的概率^:|?)等于该英文词的话题分布结合该英文词在某一话 题分布下对应中文词的翻译概率。
[0024] 但是由于不同的语义空间有不同的措辞方式和表达方式,可以理解为不同语义空 间的话题空间不同。所以这样的对齐概率表不能直接应用在社交网络语义空间中,我们就 需要对非网络文本语义空间的双语对其概率进行社交网络语义空间的话题适配。最后我们 可以根据第一步识别的英文词在社交网络语义空间的话题分布,计算出该英文词在非社交 网络语义空间的话题分布,再根据该英文词在不同话题下对应的翻译概率,来获取对应的 翻译词。整个过程可以用如下公式来表示:
[0025]

【权利要求】
1. 一种针对中文社交网络中中英文混合文本的规范方法,其特征在于,其把社交网络 中用户提交文本包含的英文单词看作是非规范词,将该英文单词对应的中文翻译看作是规 范词进行文本规范化;具体步骤如下: (1) 非规范词识别 通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单 词的用户文本; (2) 非规范词对应规范词的生成 利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出 经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻 译概率。 (3) 非规范词对应规范词的选择 首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型, 对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话 题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的 非规范词对应规范词。
2. 根据权利要求1所述的规范方法,其特征在于:所述话题翻译模型利用中文社交网 络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文 词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空 间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共 同出现的频率,计算出单词的话题翻译概率。
3. 根据权利要求1所述的规范方法,其特征在于:所述用户历史信息是指用户在社交 网络中发表过的文本列表。
4. 根据权利要求1或2所述的规范方法,其特征在于:单词的话题翻译概率多(C? i ?) 通过下式计算得得到:
其中:丨表示英文单词在中文话题下对应的翻译成中文单词的概率; Ρ(1_|?^η).表示社交网络和非社交网络两个语义空间的话题映射关系;€?表示 英文词在某个话题下翻译成中文词的概率;?表示需要进行翻译的英文词,纟表示对应的翻 译中文词,t。^表示非社交网络语义空间的话题,t。^表示社交网络语义空间的话题。
5. 根据权利要求4所述的规范方法,其特征在于:英文词在社交网络语义空间的话题 分布#( A 通过下式计算得到:
式中cwt表示非社交网络语义空间双语对齐语料,<e,c>表示一个对齐的中英句子对, (?〇表示在对齐句子中英文词和中文词共同出现的次数,p(tc;()ut|c)表示中文句 子对应的话题分布。
6. 根据权利要求4所述的规范方法,其特征在于:社交网络和非社交网络两个语义空 间的话题映射关系P (t。wt 11。in) ·通过下式计算:
count。(c)表示在一个句子中,公有词c的出现次数。
7. 根据权利要求4所述的规范方法,其特征在于:英文词在某个话题下翻译成中文词 的概率 4计算方法如下所示:
其中表示在一个社交网络文本句子中,英文单词出现的次数。
【文档编号】G06F17/28GK104102630SQ201410339719
【公开日】2014年10月15日 申请日期:2014年7月16日 优先权日:2014年7月16日
【发明者】陈欢, 张奇, 黄萱菁 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1