合成式语言训练系统的制作方法

文档序号：2638051阅读：168来源：国知局

专利名称：合成式语言训练系统的制作方法
本申请是美国申请顺序号为08/068,390，申请日为1990年5月28日名为“合成式语言训练系统”的部分继续申请。
本发明涉及语言训练系统，更具体地说，涉及允许语言障碍的学生键入他或她想要学习的任何单词或句子，并且，在CRT屏上观察产生该单词或句子所要求的关节模型运动的一种语言训练系统，这种关节模型采取舌—腭接触模型的形式。本系统特别适合不能接收听觉信息并倾向在幼小年龄即学习打字的耳聋儿童。本发明也能用来帮助听力正常的学生学说外国语。
教耳聋儿童说话的最基本方法由教员使用他们自身的发音器官表现正确发音姿势。当教员发音讲话时，儿童能观察到嘴唇，领颚和(在一定程度上)舌的外形。有时候儿童被训练使用触觉反馈把他们自己的与教员的发音器官作比较。这种方法的明显缺限在于在语言中的许多关节姿势在外部看不到。
近年来，教员已经有可能籍助仪器的帮助和分析语言的计算机程序表演怎样产生语言。这些仪器和程序允许看到许多语言的特征，包括语言正在产生时传声的表现形式。这种系统在计算机综合语言训练设备(CISTA)(由松下Matsushita开发)演示得最好。C1STA提供由几个传感器聚集来的多通道数据。
1.动态腭示器。这种仪器(其使用在1962年由一位苏联研究者Y.Kuzmin最先报告)用一些戴在嘴里的人造腭上的电极指明舌与腭之间的接触。当舌接触这些电极中的一个时，一低电路被闭合，并被在嘴外的仪器记录。出现接触或没有接触的指示则提供在一个CRT上显示器上。
2.鼻传感器。一驻电极拾音器，用头戴受话器或临时用粘胶带贴附，固定在鼻的一边提供指示鼻振动。
3.喉传感器。一驻电极拾音器，用一弹性衣领固定在喉部，提供指示声门振动。
4.气流传感器。已经使用了几种方法传感气流，使用由儿童在嘴前握着的装置。
5.一标准拾音器提供输入以便声学分析。
给耳聋儿童教授语言的困难在于儿童跟着语言教员的时间有限。当一个有听力的孩子接收语言输入和关于自己发音的声音反馈每天许多小时的时候，耳聋儿童一般仅在训练期间接收这种反馈，训练可以少至每周一期。
把如CISTA仪器的这样的语言训练装置与计算机结合，允许儿童接收他们自己的训练而不用教员的介入，这极大地增加了训练所能用的时间。不过，类似象CISTA这样给孩子们直接提供反馈的语言训练装置被限于仅教单个的声音或一组有限的预先编制的发音。本发明的目的是允许儿童在没有教员的帮助下能接受关于产生任何发音的信息。
先有技术中的其他文本—语言系统许可任何被键入的发音自动合成。一种叫“DECTalk”的装置，由数字设备公司Digital Equipment Corp.)生产，是近来最知名的英语的文本—语言的例子。所有这些文本—语言系统都局限于只产生可听到的声音。
人类的发声道的形状决定了共鸣，共鸣反过来又控制了人的语言输出。有关发声道形状与产生的声输出之间关系的电子和计算模型，多年来一直是语言研究的一个重要部分。在这一工作中，发声道的形状由研究人员提供，并测量声输出。
最近，研究人员已经开发了关节合成技术，其中，发声道形状的生成是自动进行的。在此情况下，输入由一音素信息串组成。这一信息串被转化成发声道形状说明信息串。然后，发声道形状被用于产生语言的发声道模型中。
从音素自动生成发声道形状这一早期工作中不包括舌—腭接触模型的生成。使用合成的舌—腭接触模型以教授说话，在此以前尚未被仔细考虑过。
本发明的一个目的是提供一语言训练系统，允许学生键入计算机任何想要学习的发音，并且具有采用舌—腭模型的形式的关节模式，显示于屏幕上。
本发明的另一个目的是允许学生试着说出键入的发音，并在CRT屏上接收关于他或她的努力与显示屏上的模式产生的相似性的反馈。
这是由系统先编辑键入的发音，然后送至一个合成单元完成的。合成单元分析该发音，把它分解成一音素串，并每隔10毫秒产生出说明该发音的声学特征的一组参数。这些参数送回装置中，转换成一组指示关节模式、舌—腭模型的参数，后二者是产生键入的发音所要求的。舌—腭模型随后示于显象屏上。
通过使用一组传感器测量学生的鼻振动，声门振动、呼出气流、舌接触，和可听见的声音，语言训练系统评价学生的发音与舌—腭接触模型的相似性。然后，评价结果显示于CRT屏上。
本发明的确切性质，以及其目的和优点在参照下文连同附图一起的详细说明之后将变得显而易见。各图中相同标号标示相同的部件，其中

图1是一方框图，表示把一单词的ASCII正视表示法转变成音素、重音和语言的部分(parts—of—speech)信息；图2是一方框图，表示语言训练系统；图3是一声谱图，表示在发出一种声音期间产生的鼻零和鼻极参数；图4是一声谱图，表示在发声期间舌与腭相接触模型的参数；图5是发声期间实际舌触模型的演示。
以下的说明能使任何本领域的技术人员制造和使用本发明，并提出实行本发明的发明人预想的最佳模式。不过，对于本领域的技术人员来说，各种改进仍然显而易见，因为本发明的普便性原理已经在这当中被详细说明，并专门提供了一种合成式语言训系统，该系统按照在图1—5中所示的本发明的教示，以下文中更详尽地描述方式构筑。
合成式语言训练系统可以在实验室数字计算机上执行。该系统包括一种输入要学的发音的装置，最好为键盘1，与语言训练系统相连(图2)。输入的发音用ASCII表示法传送到语言训练系统。该系统随后使用文本—语言系统自动合成键入的发音。当前最著名的英语文本—语言系统的例子是一种叫“DECTalk”的装置，由数字设备公司生产。更新的文本—语言系统“STLtalk”由松下(Panasonic)技术公司下属的语言技术实验室开发，并且实际上正在本发明中实施。
合成单元3和语言训练系统之间的通信通过RS—232端口。RS—232的线路接法设定用于XONl/XOFF规程，传送置位为9600波特，8数据比特，1停止比特，奇偶检验为0。合成单元3接收音素的文本串输入，并将其放在一输入缓冲器中。
在第二阶段中，文本—语言系统分析输入的发音。该系统根据任一表音法符号之位置执行句法分析，以及在字典匹配处理中检测到的功能字和动词的句法规则。
下一步，如图1所示那样得到一个音素表示法。每个单词与一小发音词典12的条目相比较。如果没找到相配的，在第14阶段通过去掉通用的后缀例如“ed”和“ing”等，该词被分解成小块(词素)。然后余下的词根再与音素字典16的条目比较。如果仍然没有相配的，则使用一套文字—音素规则在第18阶段预言其发音。此外，一部分音素转变程序考虑了单词音节的重读模式的派生关系。如果该单词不在系统的词典中，或者如果表音字分解成词根加前缀而前缀改变了该词根的重读模式，重音必须预告。音节的重童高度将以插入的重音符号(就在表示音素的元音之前)表示，没有重音符号表明该字符不重读。
英语系统利用音素作为基本语言单元。其他语言，例如日语，使用音节作为基本语言单元。
因此，应该理解，虽然本说明书描述的申请人优选的实施例是英语系统，以音素为语言单元，但所述的原理同样可用于利用音节为基本语言单元的非英语系统。
合成单元3处理这个缓冲存储器，每10毫秒产生一组20个声学参数音素串。声学参数说明要演示的发音的出声特征。通过将传输的信息与预先规定值对比产生这些参数，预先规定的数值以频率和波幅、共振峰频率和频带宽度、以及被演示发音的语言产生噪声源为基础。下面列出了声学参数的一个例子。
有两组相同的声学参数被制造出。收到发音的词尾字符后持续一段时间，第一组声学参数被存入一阵列中。然后，第二组声参数被送至一共振峰合成器4(图1)，后者把声学参数转变成以模拟语言信号的形式的输出信号。然后，共振峰合成器4的输出经一扬声器5给那些尚有残余听力的学生放出。
然后，阵列于合成单元3中的第一组声学参数经过RS—232端口被送回到语言训练系统。语言训练系统读出这些数值，并把它们存入另外的阵列内。语言训练系统随后又把声学参数在第六阶段转变成关节参数。关节参数以三种形式表示被键入的发音。
语言训练系统把一组声学参数转变成表示被键入的发音的各种属性的关节参数。所用的声学参数包括声音的基频、波幅、出现或不出现的话音，及其振峰1、2和3的频率。文本—语言系统把这些参数加到语言训练系统周频放大10倍。在它们显示于CRT屏之前语言训练系统又把这些参数缩小10倍。
语言训练系统也产生表示被键入发音的鼻音性的关节参数。语言中的鼻音化对于如/m/、/n/，及其他声音是适合的，并且经常出现于耳聋说话人的语言中以求发声，而这都是不合适的，妨碍交流。在频率范畴内鼻音化的声学特征在于同时出现鼻极和鼻零值。一般说来，只有一个鼻极值(nasalpolel)和鼻零(Nasal zero)值在声学上有特殊意义。这些仅在软腭(鼻和嘴之间的阀门)处于其降低的打开位置才出现。当软腭关闭时消失。
文本—语言系统提供测量被键入发音的鼻音性的各种声学参数。语言训练系统使用声参数产生鼻音指数。文本—语言系统对于非鼻音的声音产生声学参数，是通过把鼻极和鼻零设置于同一频率和波幅，使它们互相抵消。本发明中所用的文本—语言系统，对于非鼻音的声音，把鼻极和鼻零都置在250Hz。产生鼻音时，鼻极和鼻零的频率移动到不同值，从而它们各自对声谱的不同部分产生影响。鼻零的频率暂时增加到330或360赫，以声音是/n/或/m/34、36而定。这见于图3所示。文本—语言系统也提供鼻音共振峰30、32的波幅。一般说来，鼻共振峰波幅值的范围在30至60之间，但如果它等于0，则没有鼻音化30、32。使用由文本—语言系统提供的声学参数。语言训练系统利用一个方程或制造出鼻音化指数，给学生指出要产生被键入的发音所需的鼻音量。该方程式的一种形式为NI＝((｜Fnf—Fnz｜)/(｜Fnf—Fnz｜)max*((AN-1)-|(AN-1)|2+1)]]>其中，NI＝鼻音化指数Fnf＝鼻共振峰频率Fnz＝鼻零的频率AN＝鼻共振峰波幅全部输入变量是整数方程的右边第二部分包括了乘以零的值，如果鼻音化的波幅是零的话，如果不是则该值乘以1。
语言训练系统也制造表示产生键入的发音所要求的舌—腭接触关节参数。除了提供声学参数之外，文本—语言系统还用来提供四点处的定时声音开始、达到最大波幅、波幅开始衰减和结束时刻。然后这些时刻与一组腭位图样相配合，每个语言单元(它可以是一音素或一音节)的最大接触区域在第6阶段被储存，并被处理成该语言单元的目标模型。由于语言声音的接触模型会随内容变化，对于每种内容以及每一声音而言，需要储存一定数量的不同的接触模型。
每一语言单元被指定出开始，结束和中部稳定段的持续时间。舌与腭之间的接触区域由一组63个点限定。一种等级制度规定了各点在开始和结束段进入接触和脱离接触的顺序。一般说来，首先进入接触的点为那些接近腭后部的点，而首先脱离接触的点是接近腭前部的点。
由于从文本—语言系统产生的声学参数转变为人们必须学会的舌—腭接触模型是困难的，本发明利用了开始和结束的辅音合成的舌—腭接触模型。例如，在发音“She said”时，文本—语言系统根据合成参数提供了声音/SH/的开始和结束以及声音/S/所开始和结束。这可以从图4中看出，图4示出了发音“She said”的所有参数。对于腭接触来说，本训练系统只利用开始和结束时间提供实际的接触模型。
本发明显示给学生的舌—腭接触模型包括在语言训练系统中。一个典型的模型示于图5中，该图表示围绕在“Shesaid”中/S/的元音的舌—腭接触模型。大的圆点代表接触，小的圆点代表不接触。每50到104帧表示10毫秒。
图5的帧顺序表示从在“She”内的元音起、随后是/s/和在“said”中的元音的进展，即58至104帧10毫秒系列。前7帧，58、60、62、64、66、68和70表示在“She”中的元音进到后边“said”中的/S/帧104的接触情况。整个/S/开始于帧8，72，九幅帧后，在帧90处开始脱离，到第24帧104处止，完全脱离接触，以便发出“Said”中的元音。
在教授程序中显示的实际的舌—接触模型有三个不同的来源。
该系统含有一组预存的舌—接触模型，表示辅音/t/，/d/，/z/，/sh/，/zh/，/l/、/n/和/r/。目前，紧接在高元音之前或之后为说出/K/和/q/的接触尚不包括在内，但其原理相同。
教员可以输入舌—接触模型表示任何场合下的任何声音。
教员可以从孩子已经学会说一次但还需在实践中重复的训练中选择一个舌—触模型。这经常是最有用的模型种类，因为每个人最佳的舌—腭接触强烈地取决于他或她特有的腭形状。
由教员安排这些信源中哪一个用于各辅音。预存的舌—接触模型用于缺省。对于所有的信源，系统提供接触模型顺序，在辅音发出(onset)之前开始，在辅音释放后相随。
当一个发音键入系统而调用一个舌—腭接触的辅音时，文本—语言系统告知训练系统何时该辅音开始和结束。然后用上述三种方法之一存入的顺序给学生显示出适当的接触模型。
当看到要产生键入的发音所要求的舌—腭接触模型后，学生可以试着说该发音以产生该键入的发音。语言训练系统使用上述计算机综合语言训练(CTSTA)为工具。CISTA设备使用了几个传感器以测量学生的训练效果。学生的舌—腭接触、鼻振动、声门振动、呼出的气流和声训练效果被语言传感器8以测量结果的形式送入语言训练系统内。
随后，在阶段9，语言训练系统对照键入的发音的声学参数给学生的训练效果的测量值加以评价其相似性。然后，语言训练系统由反馈显示10，为学生反馈出他或她产生的模式运动与产生该键入发音所要求的那些模式运动之间的差别。
本发明的第二实施例包括一个合成式语言训练系统，用以帮助有正常听力的学生学习外语。第二实施例使用与第一实施例相同的文本—语言训练系统，没有下文中的差别。
学生用键盘1把目标语言的文本输入语言训练系统。文本言语系统在第二阶段编辑输入的文本。经编辑的文本又送入合成系统了3。合成系统3处理文本并产生一组20个声学参数。声学参数组说明了预定的外语文本的声学特征。
两个相同的声学参数组被制造出来。第二组被送到共振峰合成器4上，后者把声学参数以模拟语言信号的形式转变成一输出信号。共振峰合成器输出随后经一扬声器5，以预定的外语的形式被播出。
然后，第一组声学参数被送到语言训练系统。言语训练系统则在第6阶段把声学参数转变成关节参数，以表演为产生用预定的外语输入的文本所要求的关节模运动。关节参数，包括辅音用的舌—腭接触模型的各图形，此时被一个CRT屏7或类似的显示器示出。
在看到关节模型运动后，包括为产生输入的外语文本所要求的舌—腭接触模型，学生可以尝试通过以处理说出输入文本，以产生外语文本。语言训练系统用传感器8测量学生的语言。然后，在第9阶段，语言训练系统对照输入的外语文本用声学参数评价对学生训练的测量。语言训练系统由反馈显示10，为学生反馈给出他或他产生的模型运动和产生输入的外语文本要求的那些模型运动之间的差别。
本领域内的技术人员将会理解对刚描述的优选实施例的各种修改和改进可以具体化而不脱离本发明的范围及不背离本发明的精神。因此，可以明白，在后附的权利要求范围内，本发明除了如文中所详细的说明之外，还可以被实践。
权利要求
1.一种合成式语言训练装置，包括输入装置，用于输入要演示的发音；编辑装置，用于把要演示的发音转换成一组语言单元及每一语言单元的开始和结束区段；合成器装置，用于把上述语言单元组和各语言单元的开始和结束转换成一组舌—腭接触模型；以及用于显示舌—腭接触模型组的装置。
2.权利要求1的语言训练装置，其中，上述合成器装置提供了每一语言单元的开始、结束及接触稳定状态区段的持续时间。
3.权利要求2的语言训练装置，其中，每一语言单元的开始时间，结束和稳定状态由上述合成器装置设定。
4.权利要求3的语言训练装置，其中，上述合成器装置存储了每一语言单元舌—腭接触的最大区域，以及至少一个替换接触区域，用于该语言单元所用的不同内容。
5.权利要求4的语言训练装置，其中，在舌和腭之间的每一接触区域由一组63点限定。
6.权利要求1的语言训练装置，其中，还包括用于测量说出的发音的装置，包括测量舌—腭接触模型。
7.权利要求6的语言训练装置，其中，还包括评价相似性的装置，后者为要演示的发音与舌—腭接触模型的测量结果之间的相以性。
8.权利要求7的语言训练装置，其中，还包括显示装置，用于显示对要演示的发音与被测量的舌—腭接触模型之间相似性的评价结果。
9.一种合成式语言训练方法，包括如下步骤输入一要演示的发音；把上述发音转换成一语言单元和语言单元的开始和结束；把上述语言单元和其开始与结束转换成一组舌—腭接触；以及显示这组舌—腭接触。
10.权利要求9的语言训练方法，其中，上述语言单元转换步骤包括为每一语言单元存储一舌—腭接触区域；和为每一语言单元指定开始、结束和稳定状态的时间。
11.权利要求10的语言训练方法，其中，上述存储舌—腭接触区域，以及至少一替换区域，用于语言单元所用的不同内容。
12.权利要求11的语言训练方法，其中，上述存贮步骤包括一特定63点组存储舌和腭之间的每一接触区域。
全文摘要
本发明包括一种语言训练系统，它允许学生输入任何要学习的发音，并有产生该发音所要求的关节模型运动演示于CRT屏上。该系统可评价学生的发音与舌-腭接触模型的相似性，并将评价结果示于CRT上。
文档编号G09B9/00GK1115900SQ9510248
公开日1996年1月31日申请日期1995年3月12日优先权日1994年4月12日
发明者赫克托·罗尔·杰夫金, 伊丽莎白·格雷斯·基特, 诺玛·安东南泽斯-巴罗索, 布赖恩·阿伦·汉森申请人:松下电气工业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赫克托.罗尔.杰夫金;伊丽莎白.格雷斯.基特;诺玛.安东南泽斯-巴罗索;布赖恩.阿伦.汉森
技术所有人：松下电气工业株式会社
我是此专利的发明人

上一篇：人文地图的制作方法
上一篇：书写器具握持设施的构成方法及其产品的制作方法