从汉语文本到手语机译方法

文档序号:2647058阅读:526来源:国知局
专利名称:从汉语文本到手语机译方法
技术领域
本发明属于计算语言学领域的应用技术,具体的说涉及到中文信息处理、汉语语 言学、计算语言学、手语语言学、翻译学等多个领域以及计算机编程技术实现。
背景技术
1、灵感来源曾经一夜之间红遍大江南北的舞蹈节目《千手观音》震撼了无数人的心灵,梦幻般 的完美艺术表现力深深的感染了我,当得知他们是一群失聪的聋人时,更加敬佩他们,因此 也开始关注聋人。后来了解到,由于沟通不畅,很多聋人不愿与听人进行交流,手语翻译人 才也奇缺,不能很好的融入社会。造成了聋人就业率低,犯罪率高等一系列社会问题。我自 感有责任有义务也应该尽自己的绵薄之力去帮助他们。2、手语简介手语分为文法手语和自然手语,文法手语是以汉语语序为基础的一种手语,听人 容易学习使用,但是汉语基础差的聋人根本看不懂,汉语基础好的的聋人也不愿接受;自然 手语是聋人生活中自然习得的一种语言,是他们的母语,但是自然手语中虚词较少,语序与 汉语也有很大不同,常常省略掉很多句子成分,听人学习起来较为困难。因此聋人如果想与 听人交流,就要学好汉语语法知识。作为以汉语为第二语言的人深知汉语的复杂性,根据以 上情况有必要发明一种使聋人也能和听人一样轻松理解汉语的计算机翻译方法,也为聋人 学习汉语提供辅助性的手段。3、同类
背景技术
中科院计算机技术研究所开发了一套“中国手语合成系统”,该系统能够将汉语文 本翻译为文法手语,其手语表现采用虚拟现实技术,用三维模型来演示手语最终实现翻译 过程。中科院计算机技术研究多开发的“中国手语合成系统”,技术上具有一定的先进 性,但是该系统仅对汉语文本进行了分同处理,之后逐词对应手语单词,而没有进行深入的 汉语解析。“中国手语合成系统”由于没有深入的对汉语进行解析,所以也未能根据手语规则 进行自然手语翻译,和中央电视台的手语新闻同样是文法手语。面部表情是手语不可或缺的有机组成部分,“中国手语合成系统”将翻译结果采用 虚拟现实的三维模型来演示,由于三维模型在虚拟现实中的表情处理度较大,未能对三维 模型进行表情处理。中央电视台新闻节目所配手语,虽然是人工手语翻译所打,但也均为文法手语。有 情况表明这种新闻节目很大一部分聋人看不太明白。事实表明没有扎实的汉语基础的聋人 看不懂文法手语,更不愿接受没有表情的文法手语。为了聋人这个弱势群体能够更好的融 入和谐社会,我对计算机手语翻译技术进行了研发,期望得到一个完关的真正的自然手语 翻译系统。

发明内容
本发明旨在解决聋人与听人之间的沟通,以及降低聋人接受知识的难度。具体表 现为将汉语文本翻译为中国自然手语视频,克服文法手语不能够被聋人广泛接受的难题, 避开了三维模型难以表现人物表情这一难点,造福于聋人这一弱势群体。现对本发明的基本原理做如下描述计算机作为翻译的角色,必然需要懂两种语言的语法,本发明针对汉语和手语分 别构建知识库,并对汉语进行深入的解析,使得计算机翻译手语成为可能。1、汉语分词及分词消歧先将汉语文本进行分词处理,具体的方法是首先构建一个汉语词典,然后将汉语 句子逐字到汉语词典中查询,得出所有可能构成词的词。分词之后,会有大量的歧义存在,那么,我们先根据静态知识库、汉语词典、汉语语 法规则库、常识、动态知识库、上下文信息语法知识库等多个知识库中的知识,将不可能搭 配的词间关系过滤掉,如果得到的结果还有歧义存在,那么将分词歧义保留。2、词性标注及词性消歧将分词后的汉语文本进行再次汉语词典查询,获取每个词的所有可能的词性。对 有多个词性的词语,进入静态知识库、汉语语法规则库、常识、动态知识库、上下文信息语法 知识库等多个知识库中,逐一查询,去除不合语法规则的词性。如果结果中还有词性的歧义 存在,那么将歧义保留。3、句法分析及句法消歧根据汉语语法知识库对所有词和词性,进行相邻的词进行搭配,得到所有的词间 关系,逐层进行语法分析,最终得到语法分析树。分词和词性标注两个步骤都有可能留有歧 义,句法分析步骤也可能会有歧义,因此句法分析之后的结果可能是多个的,排除结果中没 有完全覆盖所有词的句树,得到真正的歧义句树。这些歧义句树仍然可能是多个的,错误的歧义必须在这个步骤完全消解,那么我 们再次复查搭配结果,逐一进入静态知识库、汉语词典、常识、动态知识库、上下文信息语法 知识库等几个知识库中,进行对照,消除常识性错误、上下文信息对应语法错误等。这时如果仍然有歧义存在,那么我们再次查询汉语词典,获取词汇的使用频率,再 次查询汉语语法规则库,获取搭配频率,最后根据各个频率进行一定算法运算评估,评估出 可能性最高的句树作为最终结果。4、手语语法规则计算机毕竟是机器,它无论如何也不能真正读懂语义。我们已经对手语的规则进 行总结,形成了一个手语语法知识库,这个知识库与汉语知识库一一对应。手语规则分为三 类,第一类为剪除规则,在自然手语中几乎没有虚词,所以,在剪除规则中虚词占有较大的 比例;第二类为交换位置规则,在自然手语中,倒置现象较多,符合倒置规则的相关短语或 词汇,相互颠倒位置;第三位为后置规则,在自然手语中,有一部分句子成分,需要放到句子 末尾,尤其是疑问词和表示意愿的能愿动词,通常都是后置的。有了手语的语法和规则,分析好的句树转换为手语文本就非常容易了,无非先将 符合交换位置的规则进行交换,将符合后置的规则的放置到句尾,得到手语文本。
5、剪枝处理和补充成分自然手语中,通常省略很多句子成分。除手语规则中的剪除规则外,还要根据当前 所处的环境进行分析,对一部分当前环境中不言自明的一些句子成分进行省略。对场景中 的事物用方向指代,对场景中的人物的人称代词用指向替代,充分显示手语的间接性。自然手语是聋人手语,我们不能否认自然手语的成熟性不足,事实上手语远不能 和汉语英语等语言完全对等,因此一些抽象的复杂的事物用手语来表达起来不那么容易。 根据手语的特点,通常会对手语文本结果对事物描述不清的句子进行句于成分补充,以便 聋人能够更好的理解翻译结果。6、视频合成处理首先对手语文本进行对应手语单词视频,对每一个单词的头位进行识别,根据对 每个词识别的结果,计算出脑袋的中间位置,每一个词中脑袋位置都对准中间位置。然后 对相邻的连个词中前词的最后一帧和后词的第一帧中双手的位置进行识别,得到手位后, 如果位置差别较远,那么进行补帧处理,以得到手的连贯动作。最后进行视频的平滑编码合 成,输出到播放器。根据以上对发明的原理描述可以看出,本翻译方法克服了计算机对汉语理解的难 点——歧义,并且不过分依赖概率去简单解决问题,大大增加了总体翻译结果的准确性。本 发明还对翻译结果进行视频表现方面的创新,实现翻译结果的人性化。中国有两千多万聋人,解决聋人的沟通问题,关注聋人,让聋人融入和谐社会,不 是一句空的口号。聋人虽然是非常小的群体,但中国人口基数较大,聋人总量甚至大于一些 小国家的人口总量。中国对聋人乃至残疾人的关注程度远远不能与西方发达国家相比,我 们有义务有责任帮助他们。本发明中的翻译方法,不仅存在着较好的社会价值,也存在一定程度上的经济价 值。覆盖率按聋人的计算,每套软件按一百元的价格计算,那么市场价值为两千万。除 此之外,公共场所、社会团体、各大电视台、网络视频媒体、出版厂商、手机厂商等都需要此 类技术。


图1翻译原理图本发明的基本原理和示例,表现了汉语文本输入,经过分词标注和句法分析等步 骤,最终得到合成视频的整个翻译的过程。图2脑袋对位图本发明中,翻译结果中的每个视频词汇的脑袋位置不尽相同,识别位置后进行调 整,最终得到一个稳定的视频图像。
具体实施例方式本方法是计算机编程方式实现的,因此在实施方式上有很多种,下边举几个实际 应用示例来说明1、电视翻译伴侣 掌上电脑或类似微型电脑产品,配以中文语音输入法,嵌入本翻译方法,构成电视翻译伴侣,放置在电视旁边。电视机声音被语音输入法识别为汉语文字,本翻译方法对文本进行翻译,翻译后的视频结果显示在小屏幕上,聋人就可以看懂电视了。2、聋人手机对聋人手机中嵌入本翻译方法,当聋人手机接收到短信息后,自动翻译为手语视 频,聋人将轻松看懂短信内容。3、阅读助手软件扫描设备可以将书本上的文字扫描到电脑中以文本形式保存,再采用本方法进行 翻译,聋人也可以看懂中文书籍。
权利要求
一种从汉语文本到手语机译方法,该方法是将汉语文本翻译为手语视频的过程,其特点是在汉语分词、词性标注、句法分析等环节分别采用了自主研发的算法,该算法以静态知识库、词典、语法知识库、常识、动态知识库、上下文信息和概率等作为主要依据,对各环节进行综合方式消除歧义。
2.根据权利要求1所属的方法其主要特点在于知识库、词典、语法信息作为主要消歧 手段,配合以概率为辅助消歧手段的综合消歧方法。
3.本方法是先基于文本进行翻译,然后采用视频词汇进行合成的,最终得到的是自然 手语的视频表现。
4.在视频合成过程中进行了头位识别、脑袋对位、手位识别、前词尾到后词头手位差补 帧等过程。
全文摘要
“从汉语文本到手语机译方法”是计算语言学领域的技术应用。手语分为文法手语和自然手语,文法手语与汉语语序相同,汉语基础差的聋人看不懂,汉语基础好的聋人也不愿接受;自然手语是聋人生活中自然习得的一种语言,是他们的母语。本方法首先对汉语文本进行分词、词性标注和句法分析,并对这几步分别消歧,然后用对应手语语法规则,翻译为聋人自然手语文本。最后对应事先录制好的单词视频,经过头位识别、脑袋对位、手位识别、手位补差之后合成聋人很容易接受的自然手语视频,从而使聋人能够轻松理解第二语言汉语。
文档编号G09B21/00GK101877189SQ20101018725
公开日2010年11月3日 申请日期2010年5月31日 优先权日2010年5月31日
发明者张红光 申请人:张红光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1