默声音符编码字符输入方法和装置的制作方法

文档序号:2823710阅读:295来源:国知局
专利名称:默声音符编码字符输入方法和装置的制作方法
技术领域
本发明涉及一种字符输入方法和装置,特别涉及一种使用默声音符编码的字符输 入方法和装置,属于字符输入、人机交互等技术领域。
背景技术
常用的计算机字符输入和手机字符输入方法是使用键盘,还有写字板、笔式和手 势等其它输入装置和方法。为了提高字符输入效率,做到解放双手,出现了以人类语言为媒 介的语音输入技术。由于语音是人类可以自然表达的模式,语音输入技术被认为是人机交 互技术发展的主要方向。然而,语音输入技术面临着许多问题,比如在嘈杂环境、不清晰发 音和多人发音等情况下,语音输入效果很差,甚至不能工作。另外,语音输入技术需要发出 一定强度的声音,不仅会干扰周围环境,也难以实现信息保密。语音输入技术也无法适用于 发音残障人员。以上问题存在的主要原因在于,计算机获取语言信息的手段是先使用麦克风捕捉 语音在空气中的传播信号,然后再进行处理解析出语义。为了克服以上问题,研究人员已 经开发出捕获非空气传播的语言信息装置和语言信息解析方法。Denby等人在综述论文 ((Silent speech interfaces))(Speech Communication52 pp. 270-287)中报道了基于这禾中 思想获取“无声语言”(silent speech)的七类方法,其中Nakajima等人使用接触式听诊器 获取人在发出“听不见的喃喃自语”(Non-audible murmur,NAM)时,经由身体组织传导的声 道振动信号,以此信号为输入,将其加强为用于人_人交流的自然语音,并对NAM连续语音 进行识别,用于人-机交流。使用NAM连续语音识别的结果进行人机交互存在以下困难1)在声带不振动的情况下,一些自然语音中的音素很难被识别,比如鼻音;2)说话人个体差异。用户可能使用不同的语言,正常说话时声道器官运动习惯可 能有显著差别,这就导致识别系统运行前要依据用户个人进行针对性训练;3)训练量大,需要的计算与储存资源多。训练量的大小与识别装置的字典所包含 的内容有关。扩大字典包含的词汇表会使可交互的内容更丰富,但同时也会导致识别准确 率下降,计算与储存资源消耗过多,训练过程繁琐等困难。而连续语音识别对于实时交互的 便携系统而言,其本身就是一项困难的任务。

发明内容
本发明的目的是提供一种字符输入方法和装置,能在任意场合下通过发默声音来 实现字符输入。本发明不会对环境产生声干扰,并且能保密说话内容。本发明的另一个目的是提供一种不受环境噪声影响的声音字符输入方法和装置。 由于采用接触式测量组织传导的声道振动信号,外界噪声很难进入测量系统,故本发明可 以在任意环境噪声场合下使用。本发明的另一个目的是提供一种无需双手和眼睛的介入就可实现字符输入方法和装置,并通过听觉实现字符的校对。本发明的基本思想是测量用户发出默声音(silent voice)时经身体组织传导的 声道振动信号,从中识别出默声音符(silent voice symbol),对默声音符进行编码,实现 字符输入。默声音是指声带不振动时,声道对喉气管狭窄处的气流噪声所产生的共鸣振动。 默声音是一种用户发出的轻耳语声,发声时周围的人很难听到的声音。选择容易发声且容 易精准识别的音素作为默声音符,用默声音符对字符进行编码,编码方式类似摩尔斯电码, 每一码对应一个字符。使用接触式振动传感器在声道外壁测量发默声音时的声道振动信 号,连续从信号中识别出不同的默声音符,从默声音符序列中解码出字符。在整个输入过程 中,将默声音符和字符转换成对应的语音,通过听觉反馈实现默声音符和字符的校对。本发明提供了一种默声音符编码字符输入方法使用默声音符对字符进行编码, 编码方式为使用默声音符作为码元集合,每一码对应一个字符;使用接触式传感器测量发 出默声音时经身体组织传导的声道振动信号,从中识别出默声音符,将默声音符序列解码 为字符,实现字符输入。本发明的方法还可以把默声音符和字符转换成对应的语音,通过听觉反馈实现默 声音符和字符的校对。默声音符在默声音特征空间中差别大且容易分类;可以使用多个传感器贴在声道 外壁不同部位,得到不同部位的振动信号,形成时序空间默声音符编码;编码还可以包括对 控制指令的编码;控制指令包括开始、确认输入、停顿、结束;所述对控制指令的编码为默 声音符编码,或采用身体的动作以及皮肤和肌肉的运动来实现。本发明还提供了一种默声音符编码字符输入装置,包括默声音信号获取模块和默 声音解码装置,默声音信号获取模块和默声音解码装置之间通过数据线或无线通讯技术连 接。默声音信号获取模块将声道外壁振动的测量结果转化为数字信号传输到默声音 解码装置。默声音信号获取模块包含声道振动传感器和模-电转换模块两部分。用一个 或多个声道振动传感器从声道外壁获得振动默声音信号,同时抑制和过滤非默声音信号, 模_电转换模块对默声音信号进行数字化的采样与量化,将模拟信号转换为数字信号传递 给默声音信号处理模块;默声音解码装置包括默声音信号处理模块、默声音特征提取模块、默声音符识别 模块、字符解码模块、字符处理模块和知识库,其中默声音信号处理模块对默声音信号进行增强、降噪、复原,使得默声音信号更容易 识别。进行端点检测,分割出含有默声音符的默声音段;默声音特征提取模块从含默声音符的默声音段中提取包括幅值、相位、频率等波 形的时域、频域特征;知识库包括各种默声音符的特征模型、默声音符串对应的字符表、字符联想表、字 符对应的合成语音与数据关系模型等;默声音符识别模块基于知识库和默声音符特征实现默声音符分类和识别;字符处理模块根据知识库与当前输入的上下文,完成包括字符删减、字符联想、字 符缓存及字符置换等操作,并将字符输入到计算机;本发明所述装置还可以包括字符语音生成模块和耳机,字符语音生成模块将字符处理结果或默声音符识别结果合成对应的语音,并输出到耳机。通过耳机播放语音,帮助用 户对输入内容进行校对。有益效果本发明的优点在于1)不会让语言内容外泄出去,保密性强;2)不会对周围环境产生噪声;3)在任意嘈杂的环境中实现可靠的语音文字输入;4)在字符输入过程中,完全解放双手和眼睛;5)对于失语者,或身体极其虚弱无法言语者,只要有能力控制呼吸,即可实现语言 交流。6)本发明是一种使用便于识别的通讯编码方式实现的字符输入方法。用于字符编 码的默声音符,选自于声道器官处在极端位置时产生的元音,这些元音又广泛存在于众多 语言中,易于识别,易于训练。本发明适用于使用不同语言的用户,通过很少的训练即可完 成字符输入。7)本发明的实现所需计算资源少,方便应用于移动便携设备中。


图1为单传感器默声音符编码字符输入装置示意图。图2为多传感器默声音符编码字符输入装置示意图。图3为默声音符编码字符输入装置模块结构图。图4为默声音符编码字符输入装置使用方法流程图。
具体实施例方式下面结合附图,说明本发明的优选实施方式。图一所示为使用单个传感器的默声音符编码字符输入装置。该装置使用的默声音 符编码字符输入方法包括三个步骤步骤一、使用默声音符对字符进行编码,编码方式为使用默声音符作为码元集合, 每一码对应一个字符;步骤二、使用接触式传感器测量发出默声音时经身体组织传导的声道振动信号, 从中识别出默声音符,将默声音符序列解码为字符,实现字符输入;步骤三、把默声音符和字符转换成对应的语音,通过听觉反馈实现默声音符和字 符的校对。步骤一实现的是使用默声音符对字符进行编码。其中默声音符应该选择那些在特 征空间中类间距离大的默声音类别作为默声音符。我们采用国际音标中的音八、6、1、3、11五 个元音作为字符编码的基本默声音符(分别记作a、e、i、0、u),这也是人类语言中最普遍出 现的五个元音。五个元音在发音空间中,都处于发音的极端位置,其中低元音、前中元音、前 高元音、后中元音、后高元音,这五个元音之间的类间距离较大。将默声音符按发声持续的时间分为短符和长符,短符a、e、i、0、U对应的长符用A、 E、I、0、U 表示。
6
用默声音符对字符进行编码,编码方式采用类似摩尔斯电报编码思想。默声音 符在时序上进行不同类型和不同数量的组合,就可以对许多字符进行编码,比如a、aaa和 aeuo三个默声音符编码可以对应任何三种字符;如果不考虑编码所用默声音符的数量,则 能实现所有字符的编码和输入。默声音符编码字符输入装置还需要许多控制命令,包括开始、确认输入、停顿、结 束等等,可以采用身体的动作以及皮肤和肌肉的运动来实现,包括脸部、耳根以及脖子等部 位的运动都可以作为控制指令。也可以将这些指令加入到默声音符编码表中,由装置自动 解码完成。步骤二使用接触式振动传感器在声道外壁测量发默声音时的声道振动信号,连续 从信号中识别出不同的默声音符,从默声音符序列中解码出字符。步骤三将默声音符和字符转换成对应的语音,通过耳机直接反馈给用户,实现字 符输入的校对或纠错。下面详细说明本发明中默声音符输入方法的一个优选实施方案。该方案使用默声 音符^丨、0、11、43、1、0』的组成长度不超过2的代码,共有100+10个代码。选择其中 容易记忆的26个代码来表示26个英文字母,选择另外10个代码来表示阿拉伯数字0-9,就 可以实现英文字符的输入。选择28个代码表示28个汉字偏旁部首,实现汉字字符的输入。下面是一种26个英文字母和10个阿拉伯数字的默声音符编码表a (a) b(io) c(ii) d(oi) e (e) f (eu) g(oo)h(eo) i(i) j (ei) k(Iu) I(Ii) m(uu) n(ou)o(o) p(ia) q(ai) r (A) s (E) t(I)u(u) v(ui) w(uU) x(uu) y(ue) ζ (ia)I(II) 2(aa) 3 (oe) 4(iE) 5 (uo) 6 (Io) 7(al) 8 (oa) 9(oI) 0(00)(空格)(0),(ee)· (U)一段文字 “ I am on the way home.,,的编码是I (i) (O)am(auu) (0)on(o ou) (0) the (I eo e) (0) way (uU a ui) (0) home (eo ο uu e) (U)。汉字的笔画一般分为五类横(一)、竖(丨)、撇(j )、捺或点(、)、折(乙), 可以用a、i、U、e、ο来表示。一段文字“我在回家的路上”的编码是豸(uaieu) ^ (auiaai) [Hi (ioioa)暮(euoauouuue)的(eioaaeoe)路(ioaiaiauoeioa)上(iaa)。还可以定义其它标点符号和控制字符的编码,比如删除等控制字符。不同汉字会有相同笔画,比如,同样的横竖横三个笔画对应五个字工、土、干、士 和上,可以采用短符和长符的先后次序来区分工(aia)、土(aiA)、干(aai)、士(Aia)和上 (iaa) ο再比如九、几,人、入、八、义,太、犬等,其编码分别是九(u0)几(uo) ’人(Ue)入 (eU) A (ue)义(UE);太(auee)犬(aueE)。图二所示为多传感器默声音符编码字符输入装置示意图。用多个振动传感器贴在 声道外壁不同部位,得到不同部位的振动信号,形成时序空间默声音符编码。由传感器空间差异所造成振动信号的差异,可用来增加默声音符的数量,例如,可测量位于左右脸颊处传 感器与腭下传感器的信号差,作为新的默声音符或控制命令。图3所示为本发明所述装置的一个优选实施方案,由默声音信号获取、默声音信 号处理、默声音特征提取、知识库、默声音符识别、字符解码、字符处理、字符语音生成和耳 机等模块组成。默声音信号获取模块由声道振动传感器与模_数转换模块实现。一个声道振动传 感器包括主体、填充物、振动膜、压电转换器、电缆。主体为刚体材质空腔结构,其一面开口 处由振动膜密封,另一开口处放入电缆,为压电转换器提供能力以及数据传出通道;压电转 换器将自身受到的压力变化情况转换为变化的电压,可以使用驻极体电容传声器作为压力 转换器,将其包裹在软合成材料中,密封在主体空腔中;作为填充物的软合成材料需选用与 人体软组织具有相近声学阻抗的材料,如软硅或聚氨酯合成橡胶;压电转换器传出的模拟 信号经模_数转换模块进行数字化采样量化后,传送至默声音信号处理模块。使用本装置 时,主体上的振动膜紧贴用户面部声道外壁,声道中的气体振动经声道壁传递至振动膜,振 动膜的振动通过空腔内软填充物硅传递给压电转换器,转化为变化的电信号,对信号进行 频率不低于8. OkHz的采样电路执行采样操作,完成对信号的模-数转换后传输至默声音信 号处理模块。默声音信号处理模块对接收到的来自于默声音信号获取模块的电信号进行处理。 针对默声音信号的频率范围,对信号进行IOOHz 4000Hz带通滤波以进一步降低非默声音 信号干扰。然后进行端点检测,从中截取出的包含默声音符的默声音符段。默声音特征提取模块从默声音符段的信号上不分帧地计算它的LPC-10编码系 数,再加上这个此段默声音段持续时间、平均能量等时域特征,构成表征此段默声音的特征 矢量。知识库所含内容与构建方法如下默声音符的特征模板通过训练产生,先录制每 个默声音符各10个,构成训练集。在对训练集样本提取特征后,使用线性判别分析(Linear discriminant analysis, LDA)方法,得到映射函数F,将特征空间经F映射后的新空间定 义为“默声音空间”,当需要对一个新的默声音符样本进行识别时,将其提取出的特征通过 F映射后,在默声音空间中计算新样本到各个默声音符训练样本集合的Mahalanobis距离, 选择距离最近的默声音符类别,作为对新样本的识别结果;字符编码表是一个一对一的映 射,将一个默声音符串对应于一个字符;联想表中包含字符编码表和字符所在字典的上下 文统计关系,默声音符的上下文关系统计自字符编码表及默声音空间,字符字典上下文统 计关系统计自网络上公开的语料库。每次需要识别默声音符依据当前的输入上下文辅助识 别,例如,在字符编码表示例中,在a的后继位置没有出现过e,则在之前缓存a的时候,将下 一个默声音符优先识别为除e以外的音符。对于新产生的默声音符,使用知识库中的知识实现默声音符的分类和识别,将默 声音符对应的正常语音通过耳机发送给用户进行确认。验证解码条件(解码条件为“在没 有产生新的默声音符的情况下确认输入”),若不满足解码条件,则缓存默声音符,继续接受 输入;若满足解码条件,则查找默声音符编码表,将之前缓存的默声音符组成的序列解码为 字符输入,并将输入的字符合成为知识库中的语音,通过耳机告知用户,以使用户确认输入 结果,同时清空默声音符缓存。用户每次确认输入后(无论是输入默声音符还是输入解码命令),查找知识库中的联想表,得到在此刻的输入环境上下文中用户下一个输入的联想结 果,以备用户快速输入下一个期望的默声音符或字符。 图4所示为使用本发明所述装置实现默声音符编码字符输入的工作流程声道振 动传感器测量声道振动信号并进行去噪和增强处理,获取默声音信号;然后从默声音信号 中提取默声音符特征并识别默声音符;连续发默声音符,形成默声音符串,构成一个字符的 编码。若满足解码条件,则对已获得的默声音符串进行解码,将字符缓存并生成语音传给用 户判断是否正确。如果正确,继续发下一个字符对应的默声音符;如果不正确,则发删除字 符对应的默声音符,删除最新缓存的字符。
权利要求
一种默声音符编码字符输入方法,其特征在于,包括以下步骤步骤一、使用默声音符对字符进行编码,编码方式为使用默声音符作为码元集合,每一码对应一个字符;步骤二、使用接触式传感器测量发出默声音时经身体组织传导的声道振动信号,从中识别出默声音符,将默声音符序列解码为字符,实现字符输入;其中,默声音是指声带不振动时,声道对喉气管狭窄处的气流噪声所产生的共鸣振动,即用户发出的轻耳语声,发声时周围的人很难听到的声音;默声音符是指默声音中容易发声且容易被精准识别的音素。
2.根据权利要求1所述的一种默声音符编码字符输入方法,其特征在于,在步骤二之 后还包括把默声音符和字符转换成对应的语音,通过听觉反馈实现默声音符和字符的校对。
3.根据权利要求1或2所述的一种默声音符编码字符输入方法,其特征在于,所述默声 音符在默声音特征空间中差别大且容易分类。
4.根据权利要求1或2所述的一种默声音符编码字符输入方法,其特征在于,在步骤二 中使用多个传感器贴在声道外壁不同部位,得到不同部位的振动信号,形成时序空间默声 音符编码。
5.根据权利要求1或2所述的一种默声音符编码字符输入方法,其特征在于,步骤一中 的编码还包括对控制指令的编码;所述控制指令包括开始、确认输入、停顿、结束;所述对 控制指令的编码为默声音符编码,或采用身体的动作以及皮肤和肌肉的运动来实现。
6.一种默声音符编码字符输入装置,其特征在于包括默声音信号获取模块和默声音解 码装置,默声音信号获取模块和默声音解码装置之间通过数据线或无线通讯技术连接;默声音信号获取模块将声道外壁振动的测量结果转化为数字信号传输到默声音解码 装置;默声音解码装置包括默声音信号处理模块、默声音特征提取模块、默声音符识别模块、 字符解码模块、字符处理模块和知识库,其中默声音信号处理模块对默声音信号进行增强、降噪、复原,使得默声音信号更容易识 别,进行端点检测,分割出含有默声音符的默声音段;默声音特征提取模块从含默声音符的默声音段中提取包括幅值、相位、频率波形的时 域、频域特征;知识库包括默声音符的特征模型、默声音符串对应的字符表;默声音符识别模块基于知识库和默声音符特征实现默声音符分类和识别;字符处理模块根据知识库与当前输入的上下文,完成包括字符删减、字符联想、字符缓 存及字符置换操作,并将字符输入到计算机;
7.根据权利要求6所述的一种默声音符编码字符输入装置,其特征在于所述默声音 解码装置还字符语音生成模块和耳机,其中字符语音生成模块将字符处理结果或默声音符识别结果合成对应的语音,并输出到耳机。
8.根据权利要求6或7所述的一种默声音符编码字符输入装置,其特征在于默声音 信号获取模块包含声道振动传感器和模_电转换模块;声道振动传感器从声道外壁获得振动默声音信号,同时抑制和过滤非默声音信号,模_电转换模块对默声音信号进行数字化 的采样与量化,将模拟信号转换为数字信号传递给默声音信号处理模块。
9.根据权利要求8所述的一种默声音符编码字符输入装置,其特征在于所述声道振动 传感器为一个或多个。
全文摘要
本发明涉及一种默声音符编码字符输入方法,包括以下步骤1)使用默声音符对字符进行编码;2)使用接触式传感器测量发出默声音时经身体组织传导的声道振动信号,从中识别出默声音符,将默声音符序列解码为字符,实现字符输入;其中,默声音是指用户发出的轻耳语声,发声时周围的人很难听到的声音;默声音符是指默声音中容易发声且容易被精准识别的音素。本发明还提供了一种默声音符编码字符输入装置。本发明所述输入方法不会让语言内容外泄出去,保密性强;不会对周围环境产生噪声;可以在任意嘈杂的环境中实现可靠的语音文字输入;在字符输入过程中,完全解放双手和眼睛;应用广泛、使用方便,并可应用于移动便携设备中。
文档编号G10L15/02GK101950249SQ20101022598
公开日2011年1月19日 申请日期2010年7月14日 优先权日2010年7月14日
发明者縢鹏, 贾云得 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1