使用计算机的口语水平评估的制作方法

文档序号:2616705阅读:144来源:国知局

专利名称::使用计算机的口语水平评估的制作方法
技术领域
:本发明总的涉及语言评估,更具体地,涉及使用基于计算机的技术的口语水平(proficiency)评估。
背景技术
:多年来,由于各种原因,例如教育考试或技能评估,已经对应试者进行了标准化考试。许多标准化考试需要考试接受者对构答反应(constructedresponse)问题提供反应。构答反应问题可以是一种不提供反应选择物(类似多项选择问题)并且需要考试接受者自己生成反应的问题或者用于答复的指示。例如,高校学生可以接受跳级生(AP)考试,如果成功,则可以允许该学生接受大学荣誉。作为另一个示例,法律学院毕业生可以进行一次或多次国家律师业考试,以便在该国家成为许可的律师。AP考试和律师业考试可以包括构答反应问题,例如问答题(essayquestion)。构答反应问题也可以要求考试接受者提供口头反应,例如在口语考试中。对这些构答反应问题的反应通常由一个或多个人类分级者或评估者来分级。对构答反应问题的反应进行分级的努力可能很庞大,尤其是当一个问题由多个评估者来分级。基于计算机的自动得分系统可以提供一种用于对构答反应问题的反应进行分级的更快速的方法。已经进行了一些尝试来自动化分级书面材料,例如论文式反应。然而,不是所有的反应是书面的。因此,不牺牲得分的一致性来进行对构答反应问题的口头反应的分级处理是有益的。
发明内容描述了一种用于口语水平评估的方法和系统。所述方法包括接收对构答反应问题的运行时间口头反应;将运行时间口头反应转换为语言学(linguistic)单位的运行时间序列;将语言学单位的运行时间序列与语言学特征集进行比较;计算语言学特征集中的至少一个特征在运行时间口头反应中的概括计数;和基于所述概括计数来计算得分。语音识别系统可被用来接收运行时间口头反应并且将其转换为语言学单位的运行时间序列。所述方法还可以包括生成语言学特征集。生成语言学特征集可以包括将培训口头反应与至少一个语言学模板进行比较。至少一个语言学模板可以从由W"W2W3、W4W5W6、W7W8W9W10、WnX!W!2和W13X2W14X3W15组成的组中选择,其中对于&1,Wj表示任何语言学单位,并且对于&1,Xj表示长度大于或等于0的任何语言学单位序列。在另一个示例中,所述语言学特征集可以通过下列步骤来生成接收对构答反应问题的培训口头反应;将培训口头反应转换为语言学单位的培训序列;将语言学单位的培训序列与至少一个语言学模板进行比较;和计算与至少一个语言学模板匹配的、培训口头反应中的至少一个特征的概括计数。一种用于评估口语水平的系统,包括处理器;数据存储器;和存储在数据存储器中可由处理器执行下列步骤的机器语言指令接收对构答反应问题的口头反应;将口头反应转换为语言学单位的序列;将语言学单位的序列与语言学特征集进行比较;计算语言学特征集中的至少一个特征在口头反应中的概括计数;和基于所述概括计数来计算得分。通过适当参考附图阅读下列详细描述,这些其他方面和优点对于本领域的普通技术人员将变得明显。另外,该概括应当被理解为仅仅是示例而不意欲如权利要求要求地限制本发明的范围。下面结合附图来描述目前优选的实施例,其中,在各个附图中相同的附图标记指代相同的元件,其中图1是根据示例的用于处理和评估口语反应的系统的方框图;图2是^4t示例的用于在培训时间处理口语反应的系统的方框图;图3是根据示例的用于在培训时间处理口语反应的方法的流程图;图4是根据示例的用于在运行时间评估口语反应的系统的方框图;和图5是根据示例的用于在运行时间评估口语反应的方法的流程图。具体实施例方式图1是用于处理和评估口语反应的系统100的方框图。通常,在培训时间和运行时间使用系统100,参考图2至图5来更详细地描述培训时间和运行时间。系统100包括自动得分(scoring)系统104。自动得分系统104可以是具有硬件、软件和/或固件的任意组合的通用计算机系统。或者,自动得分系统104可以是为了处理和评估口语反应而定制设计的。自动得分系统104接收来自用户102的输入。来自用户102的输入可以是对构答反应问题的口头反应。所述构答反应问题也可以被称作"项目"。该构答反应问题可通过自动得分系统104提供给用户102。或者,用户102可以从另一源接收构答反应问题。用户102可以是向自动得分系统104提供口头反应的任何人。例如,在培训时间,用户102可以是向自动得分系统104提供培训反应的人。作为另一个示例,在运行时间,用户102可以是正式教育程序中的学生(孩子或成年人)、正在进行入学考试或水平考试的某人、或者仅仅对评价他或她的技能感兴趣的某人。用户102可以使用陆上线路通讯电缆电话、移动电话、计算机、麦克风、声音换能器或者任何其他能够发送声音信号的通信设备来访问自动得分系统104。用户102与自动得分系统104之间的连接取决于所使用的通信设备的类型。例如,用户102与自动得分系统104之间的连接可以是使用电信网络和/或数据信息网络的有线或无线连接。在运行时间,自动得分系统104可以基于来自用户102的输入提供得分106。得分106可被提供给用户102或者其他人和/或实体,例如教师或教育机构。得分106可经由输出设备提供给用户102或其他人/实体。例如,得分106可以通过互联网呈现在显示器上。作为另一个示例,得分106可以被打印在与自动得分系统104(有线或无线)连接的打印机上。作为再一个示例,如果用户102已经使用电话访问了自动得分系统104,则自动得分系统104可以使用交互式声音反应单元将得分106口头地提供给用户106。图2是用于在培训时间处理口语反应的系统200的方框图。培训时间被用于培训自动得分系统104,以便在运行时间评估用户102的口语水平。系统200包括培训口头反应输入202、自动得分系统104和语言学特征输出210。自动得分系统104包括语音识别系统204、语言学特征提取器206和一个或多个语言学模板208。培训口头反应输入202由至少一个人(这里被称作"培训对象")在自动得分系统104的培训时间提供。对于将被用来在运行时间评估口语水平的每一项,培训对象将至少一个口头反应提供给自动得分系统104。培训对象可以对一组项目提供口头反应。优选地,可以使用不止一个培训对象将口头反应提供给项目组。培训对象可以参考人口统计学、语言学、自然或社会变量的分布来选择,所述变量可以对自动得分系统104接收到的语音的形式或内容具有显著的影响。这些人口统计学、语言学、自然或社会变量包括培训对象的年龄、大小、性别、感官灵敏度、种族、方言、教育、生源地或者当前位置、社会经济低位、职业、或者专业培训。语音取样也可以根据在培训对象的位置、信号传感器的类型和条件、和通信信道的类型和操作的日期来选择。语音识别系统204能够接收用户102的语音并且将该语音转换为语言学单位的序列。语言学单位的序列是实际上口头的一个或多个字表示的机器可读表示法。语音识别系统204可以是软件、硬件和/或固件的任意组合。优选地,语音识别系统204以软件来实现。例如,语音识别系统204可以是HTK软件产品,该产品由微软公司所有并且可以从哥伦比亚大学工程学院的网页(http:〃htk.eng.cam.ac.uk)自由下载而获得。作为另一个示例,语音识别系统204可以是由Nuance通信公司提供的语音识别系统之一。语音识别系统204也可以包括例如MXPOST之类的语言学分析软件、或者用该语言学分析软件来实现,用于考虑依据造句法的分析将字转换为更高级别的语言学单位。语言学分析软件也可以提供更低级别的语言学单位,例如音节、词素和因素等。语言学特征提取器206从语音识别系统204接收语言学单位的序列。语言学特征提取器206可以是软件、硬件和/或固件的任意组合。优选地,语言学特征提取器206以软件来实现。语言学特征提取器206将来自语音识别系统204的语言学单位的序列与语言学模板208进行比较,以便生成语言学特征。语言学模板208可被存储在自动得分系统104中的数据库或其他数据结构中。优选地,在培训时间和识别将要由语言学特征提取器206执行的特征集之前,选择存储在数据库中的语言学模板208。下面是模板的示例,其中Wi表示任何语言学单位,Xi表示长度大于或等于0的任何语言学单位序列,并且单个字母组合(monogmm)包括单一语言学单位,两个字母组合(bigram)包括两个语言学单位的序列,三个字母组合(trigram)包括三个语言学单位的序列,以及四个字母组合(quadgram)包括四个语言学单位的序列。二次排序字母组合(bi-ordergram)包括由语言学单位序列隔离的匹配任何事物的两个语言学单位。因此,上面排序字母组合中的Xi可被认为是"通配符"。类似于二次排序字母组合,三次排序字母组合(tri-ordergram)是每一个由通配符隔离的三个语言学单位的序列。语言学特征提取器206提取并量化语言学特征的出现。所述量化是语言学特征的概括计数。该概括计数是反应中的特征出现数目的任何函数,例如,出现的实际数目或者出现的实际数目的数学变换,例如出现数目的对数、倍数或者递增/递减。作为另一个示例,概括计数可以是反应中的特征的出现比缺席。所述量化可以是任何种类的语言学单位的概括计数,包括但不限于区别性特征、段、因素、音节、词素、字、句法短语、句法组成成分、词组、音位短语、句子、段落和扩展段。特征是如果其匹配模板的该模板的实例。如果该特征对应于模板的格式,则特征匹配该模板。例如,"inthe"是模板W,W2的实例,其中Wj是字单位,并且&1。所提取的特征和培训集中每一反应中的每一特征的概括计数被提供作为语言学特征输出210。语言学特征输出210可以包括项目特定特征集和培训集中所有反应上的每一特征的概括计数。自动得分系统104在运行时间使用-Wi.W2W3.W4W5W6W7W8W9W10WnX2W14X3W(所有一个字母组合)(所有两个字母组合)(所有三个字母组合)(所有四个字母组合)(所有二次排序字母组合)(所有三次排序字母组合)语言学特征输出210,如参考图4-5所述。在培训时间,自动得分系统104可以执行附加的操作。例如,语言学特征提取器206也可以从对所述项目的一组一个或多个期望反应中提取语言学特征和概括计数,以便丰富培训集。期望反应可以包括一个或多个正确或错误的答案。作为另一个示例,自动得分系统104可以将概括计数变换到用于符合下列特征模板的特征的简化维数(reduceddimensionality)的矢量空间Wi'W2W3也可以使用其他特征模板。在培训时间,自动得分系统104可以应用这样的函数,即,其参数已被估计来将筒化的维数矢量空间中的点映射为水平估计。所述参数可以根据培训数据来估计。培训数据可以由关于一组反应的人类判断以及简化维数矢量空间中的其相应点组成。自动得分系统104可以计算在培训时间生成的特征集的子集,所有的其特征匹配特征模块。自动得分系统104可以检测同时在反应和在子集中发生的共享特征集。自动得分系统104可以计算共享特征的概括计数之和与特征模板匹配的反应中的特征的概括计数之和的比率。可以对下列特征模板中的每一个计算该比率W2W3W4W5W6-W7W8W9W10也可以使用其他特征模板。自动得分系统104也可以计算培训口头反应202的得分106作为上面计算的比率的几何平均值。图3是用于在培训时间处理口语反应的方法300的流程图。在方框302,接收口头反应。该口头反应可以是对构答反应问题的反应。在培训时间,用户102可以优选地提供非手写的口头反应。然而,用户102可以相反地提供先前已手写的口头反应。在方框304,口头反应^^皮任何已知或开发的语音识别系统或程序转换为语言学单位的序列。在方框306,通过识别语言学单位的序列与预先选择的模板之间的匹配来提取匹配语言学模板的特征。除了提取匹配特征外,执行所提取的特征的概括计数。在方框308,特征集被提供为输出。特征集包括所提取的特征和概括计数。图4是用于在运行时间评估口语反应的系统400的方框图。在运行时间,自动得分系统104评估人们的口语水平。系统400包括运行时间口头反应输入402、自动得分系统104和得分输出408。自动得分系统104包括语音识別系统204、语言学特征检测器404、得分计算406和在培训时间识别的语言学特征210。运行时间口头反应输入402由人们(下文中被称作"考试对象")在运行时间提供。考试对象可以是任何人。考试对象提供对构答反应问题的口头反应。考试对象可以从自动得分系统104或其他源接收构答反应问题。语音识别系统204处理对构答反应问题作出反应的考试对象的语音,并且将语言学单位的序列提供给语言学特征检测器404。语言学特征检测器404可以是软件、硬件和/或固件的任意组合。优选地,语言学特征检测器404以软件来实现。语言学特征检测器404将来自语音识别系统204的语言学单位的序列与在培训时间提取的语言学特征210进行比较。作为该比较的结果,语言学特征才全测器204可以获得有关在运行时间口头反应402中有多少特征集210中每一特征的概括计数。得分计算406将概括计数转换为得分408。或者,概括计数可被提供为得分408。得分408可以表示对象的口语水平的评估。得分计算406可以是软件、硬件和/或固件的任意组合。优选地,得分计算406以软件来实现。得分计算406可以使用统计学分析计数来分析概括计数。例如,得分计算406可以将来自语言学特征检测器404的概括计数变换到对于符合下列特征模板的特征的简化维数的矢量空间'W2W3也可以使用其他特征模板。得分计算406可以应用这样的函数,即,其参数在培训时间被评估以便将简化维数矢量空间中的点映射为水平评估。可以根据培训数据来评估所述参数。培训数据可以由关于一组反应的人类判断以及简化维数矢量空间中的其相应点组成。得分计算406可以计算在培训时间生成的特征集的子集,所有的其特征匹配特征模块。得分计算406可以检测同时在反应和在子集中出现的共享特征集。得分计算406可以计算共享特征的概括计数之和与特征模板匹配的反应中的特征的概括计数之和的比率。可以对下列特征模板中的每一个计算该比率<formula>formulaseeoriginaldocumentpage12</formula>也可以使用其他特征模板。得分计算406也可以计算运行时间口头反应402的得分106作为上面计算的比率的几何平均值。得分计算406也可以计算在运行时间口头反应402中检测到的被反应的程度标准化的特征的数量。优选地,对于符合特征模板W^^W2的特征执行该计算。然而,也可以使用其他模板。图5是用于在运行时间评估口语反应的方法500的流程图。在方框502,接收口头反应。该口头反应是对构答反应问题的反应。在方框504,口头反应被任何已知或开发的语音识别系统或程序转换为语言学单位序列。在方框506,通过将来自语音识别系统204的语言学单位序列与在培训时间提取的特征进行比较来检测语言学特征。该比较产生语言学特征的概括计数。在方框508,使用该概括计数来计算得分408。优选地,可以使用维数简化和回归计数来计算得分。在方框510,得分被提供给考试对象或者其他感兴趣方。可以使用示例来图解说明用于评估口语水平的系统和方法。在该示例中,考试对象拨动预定的电话号码以便进行口语水平考试。一旦建立了连接,自动得分系统104经由电话对考试对象提供指示,并且考试对象提供反应。例如,自动得分系统104可以要求考试对象复述一个故事。一个示例古文事例》口"Aboyisgoingtocrossthestreetwhenamanseesacarapproaching.Themanyells'carefUl,andgrabstheboybythearmjustintime.Theboyissoscaredthatthemancrossesthestreetwiththeboyandbuyshimanicecreamconetocalmhimdown."长口果考i式只于象重复"i亥古丈事长口"Aboyisgoingtocrossthestreetandamanspeedinginhiscaryells'carefbl",,贝'J自动4寻分系统104识别该考试对象没有完整或准确地重复该故事。另外,自动得分系统104基于该反应而提供得分408。表1示出了对于该示例的提取的特征和其相关的概括计数。由自动得分系统104计算出的得分是2.85,这相当于人类分级得分2.33。如所描述的,自动得分系统104比人类分级者更有效地对构答反应问题提供口头反应的级别,而不会牺牲得分的一致性。<table>tableseeoriginaldocumentpage13</column></row><table>表l:特征集和相关的概括计数应当理解,所图解的实施例只是示例并且不应当被看作限制本发明的范围。权利要求不应当被阅读为限于所描述的顺序或元素,除非陈述为这样的效果。因此,所附权利要求及其等效物的范围和精神之内的所有实施例被本发明请求保护。权利要求1.一种评估口语水平的方法,包括接收对构答反应问题的运行时间口头反应;将运行时间口头反应转换为语言学单位的运行时间序列;将语言学单位的运行时间序列与语言学特征集进行比较;计算语言学特征集中的至少一个特征在运行时间口头反应中的概括计数;和基于所述概括计数来计算得分。2.如权利要求l所述的方法,其中语音识别系统接收运行时间口头反应并且将其转换为语言学单位的运行时间序列。3.如权利要求l所述的方法,还包括生成语言学特征集。4.如权利要求3所述的方法,其中生成语言学特征集包括将培训口头反应与至少一个语言学模板进行比较。5.如权利要求4所述的方法,其中至少一个语言学模板是从由Wj、W2W3、W4W5W6、W7W8W9W10、WnX!W!2和WnX2WwX3Wi5组成的组中选择的,其中对于&1,Wi表示任何语言学单位,并且对于&1,Xj表示长度大于或等于0的任何语言学单位序列。6.如权利要求l所述的方法,其中所述语言学特征集通过下列步骤来生成接收对构答反应问题的培训口头反应;将培训口头反应转换为语言学单位的培训序列;将语言学单位的培训序列与至少一个语言学模板进行比较;和计算与至少一个语言学模板匹配的、培训口头反应中的至少一个特征的概括计数。7.如权利要求6所述的方法,其中语音识别系统接收培训口头反应并且将其转换为语言学单位的培训序列。8.如权利要求6所述的方法,其中至少一个语言学模板是从由WpW2W3、W4W5W6、W7W8W9W10、WnXiWu和WnX2WwX3W!5组成的组中选择的,其中对于&1,Wi表示任何语言学单位,并且对于&1,Xi表示长度大于或等于0的任何语言学单位序列。9.如权利要求6所述的方法,还包括将培训口头反应中的至少一个特征的概括计数变换到简化维数的矢量空间。10.如权利要求9所述的方法,其中语言学特征集中的所述至少一个特征符合特征模板W!和W2W3中的至少一个,其中对于&1,Wj表示任何语言学单位。11.如权利要求1所述的方法,其中计算得分包括将语言学特征集中的至少一个特征在运动时间口头反应中的概括计数变换到简化维数的矢量空间。12.如权利要求11所述的方法,其中语言学特征集中的所述至少一个特征符合特征模板W,和W2W3中的至少一个,其中对于i21,Wi表示任何语言学单位。13.如权利要求11所述的方法,其中将概括计数变换到简化维数的矢量空间包括应用其参数已在培训时间被估计的函数,以便将简化维数的矢量空间中的点映射成水平评估。14.如权利要求l所述的方法,其中计算得分包括计算在反应中和在对应于一个模板的语言学特征集的子集中出现的共享特征的概括计数之和与在该反应中匹配特征模板的特征的概括计数之和的比率。15.如权利要求14所述的方法,其中对于特征才莫板WpW2W3、W4W5W6和W7W8W9W!o中的至少一个计算所述比率,其中对于&1,Wj表示任何语言学单位。16.如权利要求15所述的方法,其中计算得分包括计算对于特征冲莫板WpW2W3、W4W5W6和W7WsW9Wu)计算的比率的几何平均数,其中对于&1,Wj表示任何语言学单位。17.如权利要求l所述的方法,其中计算得分包括计算在由运行时间口头反应的长度标准化的运行时间口头反应中检测的特征数目的概括计数。18.如权利要求1所述的方法,还包括将所述得分提供给至少一个人或实体。19.一种用于评估口语水平的系统,包括处理器;数据存储器;和存储在数据存储器中可由处理器执行下列步骤的机器语言指令接收对构答反应问题的口头反应;将口头反应转换为语言学单位的序列;将语言学单位的序列与语言学特征集进行比较;计算语言学特征集中的至少一个特征在口头反应中的概括计数;和基于所述概括计数来计算得分。20.如权利要求19所述的系统,还包括在数据存储器中存储的、可由处理器执行来生成语言学特征集的机器语言指令。21.如权利要求19所述的系统,还包括在数据存储器中存储的、可由处理器执行来将得分提供给至少一个人或实体的机器语言指令。全文摘要描述了一种通过计算机的口语水平评估的系统和方法。用户对构答反应问题提供口头反应。语音识别系统将口头反应处理为语言学单位的序列。在培训时间,通过识别语言学单位的培训序列与预选的模板之间的匹配来提取匹配语言学模板的特征。另外,计算所提取的特征的概括计数。在运行时间,通过将语言学单位的运行时间序列与在培训时间提取的特征集进行比较来检测语言学特征。所述比较产生语言学特征的概括计数。该概括计数然后被用来计算得分。文档编号G09B19/06GK101300613SQ200680034516公开日2008年11月5日申请日期2006年7月19日优先权日2005年7月20日发明者布伦特·汤森德,阿尼什·奈尔,马修·伦尼格申请人:奥迪纳特公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1