语义知识评估、教学和习得系统及其方法

文档序号:2616506阅读:180来源:国知局

专利名称::语义知识评估、教学和习得系统及其方法
技术领域
:以下公开总体上涉及用于语义知识评估和教学的系统和方法。
背景技术
:语言学领域包括关于语言习得的多种教育学理论和方法。许多传统理论和方法面向基于规则的语法概念或过程。例如,标准语法翻译方法强调学习句子的句法和结构。这种方法认为一旦学生学习了足够的构造句子的语法规则,他们就能够按照需要放置适当的词汇来产生有意义的语言。例如,(基于习惯形成的)听说方法主要关注句法结构,词汇单词仅在出现于各种句子中时才被教授。最近的研究关注于其他语法特征,例如语言习得中的发展顺序、输入的作用以及/或者教学的作用。历史上,词汇概念和词汇学习以及教学方法被视为主流语言习得理论的辅助方法。但是,虽然主流语言学家仍主要关注语法概念和方法,但是另一小部分语言学研究者和从事者已主要从词汇角度关注语言习得。例如,早期的词汇研究尝试形成对人们已知的多个单词的理解。这需要定义如下两者(a)什么构成单词;(b)什么才是知道一个单词。基于对什么构成单词这一重要定义,英语语言中存在大约180,000个单词。例如,下表概略地示出了布朗语料库(BrownCorpus)中英语单词的频率与正文覆盖之间的关系。complextableseeoriginaldocumentpage2如上表所示,英语文本中所有单词的大约四分之一(24%)有可能是10个最常用英语单词之一。上表还显示了当单词变得越来越不常用时,它们对于文本覆盖的贡献也在下降。实际上,100个最常用英语单词占书面英语文本中所有单词的大约一半(49%)。例如,在普通文本的每100个单词中,英语中的最常用单词"the"出现大约6次。虽然大多数研究和发现主要集中于第一语言习得,但是也隐含针对第二语言习得。例如,早期研究提出说本族语的人的词汇量远远超过150,000个单词,因此,直接的单词学习并不会提供语言习得的实用途经。但是,稍后的研究确定本族人词汇量的范围仅在大约10,000到20,000个单词之间。此后,从直接的单词学习中可以获益这一观点得到了人们信任。其他研究者已着手调查将英语作为第二语言的学生应该学习哪些词汇单词,以及怎样能将这些词汇单词按照重要性顺序进行最佳排序。例如,一些传统的词汇系统包括按照词汇单词对于语料库或其子域的频率来组织词汇单词。语料库可以包括数百万页给定语言的文本。子域是给定语言内的特定词条子集(例如,美国路标,金融专业中使用的词汇和术语,信息技术工作者使用的词汇和术语等)。传统的词汇系统主要依据语料库中的单词频率,确定什么构成对于给定语言或其子域在水平上适当的学习材料。例如,出版商发行了(a)只包括通用语料库中前1000个最常用英语单词的水平调整分级读本,以及(b)显示了典型的TOEIC英语精通考试中可能出现的几千个英语单词的所有英语单词的单词列表书籍。但是,传统的词汇系统包括多种缺点。例如,许多传统系统的一个缺点在于,出版的单词列表没有考虑特定个体或个体群可能已经知道的单词。因此,单词列表可能包括学习者己经熟悉的不是成千就是成百个的单词,从而由于学习已知单词没有什么益处,所以这些列表在语言习得中仅有少量帮助作用。而对于达到更高水平的交流能力和整体语言能力最有益的是学习和掌握未知的词条。对于其他类型的词条,情况也是如此,例如,对于声音、发声、多单词单元、习语表达、图像、标记、符号、多符号单元和编程代码,其中每一种均代表或用于传达语言或其子域中的意义。传统词汇系统的另一缺点在于无法快速并精确地识别给定语言或语言子域内、个人可认知和/或不可认知的特定词条。例如,成百上千的高频英语单词被个体、人群分段(demographicsegment)和/或地区人群(即ulations)认知的概率较低。相反,成百上千的低频英语单词被个体、人群分段和/或地区人群认知的概率较高。但是,传统系统无法识别并将可认知词条与不可认知词条分开。传统的词汇系统还包括多个其他缺点。例如,传统系统通常不测量和评估(a)每个个体不可认知的词条的相对重要性、以及(b)个体、人群分段和/或地区人群的词汇知识深度。此外,大多数传统系统不包括适当的过程来基于每个个体学习者的被评估的词汇能力而组织适合能力的阅读材料。此外,大多数传统方法不包括适当的过程来评估对最新学习的词条的保持能力。因此,需要改进词汇系统以及语言习得和学习的方法。上述
背景技术
部分总结了关于语言习得的多种现有理论、方法和系统,具体是主要从词汇角度总结了关于语言习得的现有理论、方法和系统。上述内容还包括发明人关于现有技术词汇系统的研究和观察的论述,这有助于理解下述发明,但是并不一定是本领域技术人员要理解的或现有技术中所公开的。因此,该
背景技术
部分中包括的这些研究和观察,包括对传统词汇系统的多种缺点的论述,不应该被解释为表示这些研究和观察是现有技术的一部分。
发明内容以下公开总体上涉及用于测试、编译、评估和提供适合能力的语言教学材料的系统和方法。这里所述的语言训练系统可以评估个体对任何给定语言或词汇(或语言或词汇的任何给定的专用子域)的词汇能力,并使用这种评估,建立教学的最优教学课程,以高效并快速地提高个体的语言和交流能力。具体而言,所公开的系统和方法可以提供对每个个体的词汇能力的量化,并为个体、人群分段和/或地区人群产生统计推导出的词汇认知能力评估和知识深度评估。所公开的系统和方法也可以基于个体的评估词汇能力和需要,产生具体为每一个体定制的对未认知词条的个性化语言学习序列。因此,所公开的系统和方法可以向每一个体学习者提供按照词汇重要性组织并通过多种被动和交互式手段而提供的词条的直接学习。所公开的系统还包括产生并向用户提供多种个性化的语言能力报告,以及对这种报告和相关数据的进一步组织并将其提供给其他人。该系统可以识别并调整同一地区人群内不同人群分段(具体而言,不同年龄人群)之间的特定词条可认知性中的任何显著差异。此外,该系统可以识别并调整两个或更多个不同国家人口之间存在的任何给定语言或其子域的词条可认知性中的任何显著差异。该系统还包括重新组织和呈现(关于任何给定话题的)文本材料,以使重新组织的文本的词汇包括预定百分比的学习者不可认知的词条。因此,在正文中包括有限个不可认知词条,这允许读者通过不认知词条在己知词条上下文中的使用来向其赋予意义。本发明方面的特征以多种不同方式体现。例如,一个方面可以包括一种用于编译并维护给定语言语料库或其子域内的词条的重要性的方法。这里所用的术语"重要性"可以指词条出现频率、词条重要等级、词条引用次数、词条价值和任何其他词条特定可量化变量中的一个或多个。本发明另一方面可以包括一种用于测试个体用户对从通用语言词汇或语言子域的词汇中提取的一系列选择词条的认知的方法。所选词条可以包括真正的词条和伪词条。伪词条通常看上去似乎是合理的,但是在给定语言或词汇中不具有任何意义。例如,本发明可以包括使用交互式的"Yes/No"词汇判决型问题测试过程来显示词条。本发明的另一方面可以包括按照交互式顺序来显示词条的方法,以便从对于用户所属的人群分段具有预定可认证性的词条中随机地选择所呈现的第一词条。可以使用适合的算法过程,根据可认知性等级来回地引导对每一后续词条的随机选择,直到用户已识别出至少一个真正词条是认知的,并且己识别出至少一个真正词条是未认知的。伪词条可以随机地分散在真正词条的呈现内,以控制用户的个体猜想行为。本发明的另一方面可以包括一种用于存储(例如,在数据库中)每个测试回答者的人口信息、以及与每个回答者的回答和关于测试过程期间呈现的词条问题的交互有关的数据的方法。本发明的另一方面可以包括一种用于确定(特定回答者、人群分段和地区人群)保持最新学习的词条知识的能力的方法。保持能力可以基于知识深度、保持时间或其他合适的因素。本发明的其他方面可以包括(a)—种用于总计来自所有回答者的回答数据并确定人群分段对每个词条的标准可认知性测量的方法-,(b)—种用于建立一个或多个特定人群分段或地区人群的累积词汇认知统计分布曲线的方法;(c)一种用于将每一个体回答者的人口数据和词条认知回答数据包括在累积词汇认知统计分布曲线中的方法;(d)—种用于沿累积词汇认知统计分布曲线确定每一回答者的词汇认知能力并由此确定相应回答者的认知和未认知词条的方法。本发明的另一方面涉及一种通过交互式显示知识问题的词条深度(例如,多选和/或Yes/No判决型问题)来测试每个回答者的知识的词条深度的方法。例如,在一个实施例中,显示的第一知识深度项处在基于回答者的词条认知评估能力的估计能力水平。后续知识问题的深度是按照算法选择的,以在能力估计时提供最大量的信息。对于每个回答,重新计算最大似然、测试信息和估计的标准误差,并相应地,在修改能力估计时可以选择后续知识问题的深度,并将其呈现给回答者。可以重复该过程,直到达到所需精度水平上知识能力的词条深度的各种水平。本发明的另一具体方面涉及一种用于确定如下内容以产生对于每一个体学习来说未认知、不熟悉并且容易忘记的词条的教学上最优个人语言学习序列的方法(a)给定语料库或其子域内的词条重要性;(b)人群分段或地区人群的累积词汇认知统计分布曲线;(c)人群分段或地区人群的累积词汇知识深度统计分布曲线;(d)人群分段或地区人群的累积词汇保持统计分布曲线;(e)个体回答者的词汇认知能力;(f)个体回答者的词汇知识深度能力;以及(g)个体回答者的词汇保持能力。本发明的另一方面包括用于在合适的数据库系统与配备为与该数据库系统进行交互的任意种学习程序或计算机系统之间交互式地交换每个学习者的个人语言学习序列的方法。学习程序与数据库系统之间的交互式数据交换可以产生对语言学习序列的修改和维护,并且数据库系统可以向所连接的学习程序或计算机系统反复地发送更新的当前语言学习序列。本发明的另一方面涉及一种用于经由个性化电子邮件服务来产生每一个体学习者的个人语言学习序列中的学习材料的方法,该学习材料包括一个或多个词条的变体。该电子邮件服务可以利用多种教学策略,辅助订户学习和保持词条知识。例如,该个性化电子邮件服务可以请求并提供多种手段来确认订户的交互操作,从而允许对语言学习序列数据库系统进行适当的更新。本发明的另一方面涉及一种用于产生并提供多种适合能力的分级材料的方法,该分级材料包括阅读、听力和视频材料以及其他水平适当的上下文语言材料。这种适合能力的材料可以请求并提供多种手段来确认订户的交互操作,从而允许对存储在适当数据存储介质中的语言学习序列进行适当更新。本发明的另一方面涉及一种用于产生并提供个性化交互式词汇语言学习游戏的方法。例如,语言学习游戏可以适当地向个人语言学习序列提供批量词条并呈现词条。语言学习游戏也可以提供并呈现其他形式的水平适合的学习材料。语言学习游戏可以经由移动通信设备、个人计算机、便携式电子设备和/或其他适当电子设备来提供并呈现词条和其他水平适合的学习材料。语言学习游戏可以利用多种教学策略和图形格式,帮助订户快速学习并保持大量词条和其他水平适合的学习材料的知识。语言学习游戏也可以包括自动手段来确认并记录订户的交互操作,从而允许适当更新数据库系统。本发明的另一方面涉及一种用于产生并向个体、教师和/或程序管理员提供多种类型的个性化、累积和/或比较词汇能力报告。例如,报告的结论内容可以包括(a)已知词条总数的图形和文本描述;(b)给定语料库或给定子域中多少词条是已知/未知的;(c)语料库或给定子域的不同频率范围内多少词条是已知/未知的;(d)知识深度各方面知道词条的程度;(e)通过学习程序的交互来获知新词条的速度;(f)在达到特定能力目标之前剩余多少词条;(g)对达到特定能力目标所需时间的估计;以及(h)个体能力的各方面与人群分段或地区人群的累积能力的相同方面的比较。本发明的另一方面可以包括如下方法快速并精确地识别出用户知道多少单词、用户知道的确切单词、以及为了达到用户的语言学习目标而需要学习什么单词。例如,该系统可以包括词汇引擎,用于确定每一个体知道的单词。在一个实施例中,词汇引擎可以在计算机或便携式电子设备(例如,蜂窝电话、PDA等)的屏幕上向用户显示一系列单词或其他词条。在认知该单词或词条时,用户可以选择或点击"Yes",否则选择或点击"No"。基于该回答,词汇引擎可以确定给定词汇内个人知道的确切单词或词条。然后,词汇引擎可以按照对于该个体的优先级将剩余的未知单词排序,这些位置单词会成为用户的个人目标列表。现在将参照多个实施例来描述本发明。以下描述提供了具体细节,以全面清楚地理解并描述本发明的这些实施例。但是,本领域技术人员将理解,没有这些细节,本发明也是可以实施的。在其他示例中,不会示出或描述公知的结构和功能,以避免使本发明实施例的描述不清楚。以下描述中使用的术语要以其最广的合理方式来解释,即使它是与本发明具体实施例的详细描述结合而使用的。以下可能强调了特定术语,但是,任何要以限制性方式解释的术语会在详细说明部分中得到明确且具体的定义。本专利申请中的示例描述一般涉及英语,但是,这里所述的系统和方法同样可以应用于其他任何语言或语义知识领域。虽然不是必需的,但是将在计算机可执行指令(例如,由通用计算机(例如,服务器或个人计算机)执行的例程)这一通用环境下描述本发明的方面和实施例。下面参照图12-13B详细描述了这种系统的示例。图1是示出了根据本发明实施例、用于测试、编译、评估和提供适合能力的语言教学材料的语言评估和教学系统的框图。图2是示出了根据本发明实施例的图1系统的各种组件的框图,图1系统配置为使用累积个体测试回答和回答者数据,处理人群分段的标准认知统计分布曲线。图3是示出了6000个最常用英国国家语料库("BNC")英语单词的可认知性的累积分布曲线的图。图4是示出了根据本发明实施例、配置为评估个体词汇能力的图1系统的各种组件的框图。图5是示出了根据本发明实施例、用于建立每个词条的认知概率的Yes/No词汇判决问题的具体示例的屏幕显示图。图6A是示出了根据本发明实施例、词条知识深度的特定方面的词条知识范围深度的屏幕显示图。图6B是示出了根据本发明实施例、词汇深度知识判决型问题的几个示例的屏幕显示图。图7是示出了根据本发明实施例、个体回答者的记分表报告的图示和书面描述的具体示例的屏幕显示图。图8A是示出了6000个最常用BNC英语单词的概然认知能力的分布图。图8B是示出了假想的学生估计词汇量大小与频率和单词可认知性之间的关系的分布图。图8C是示出了图8B所示的单词认证概率数据的直方图。图8D是示出了BNC频率数据与实际评估的BNC单词认知之间的相关性的分布图。图9是示出了根据本发明一个实施例、配置为基于个体的评估词汇能力而对词条区分优先次序的图1系统的各种组件的框图。图10是示出了根据本发明实施例、配置为基于个体的评估词汇能力而准备并提供适合能力的文本材料的图1系统的各种组件的框图。图IIA是示出了根据本发明实施例、基于特定个体的评估词汇能力而过滤的英语文本的示例的屏幕显示图。图11B是示出了根据本发明实施例、经过进一步处理之后的图IIA的文本的屏幕显示图。图IIC是示出了根据本发明实施例、完成适合能力的过滤和编辑之后的图IIA的文本的屏幕显示图。图12是可以采用本发明方面的基本且适当的计算机和数据库系统的框图。图13A是示出了本发明方面可以在联网的计算机环境中操作的简单但适当的系统的框图。图13B是示出了图13A系统的备选系统的框图。具体实施例方式图1是示出了根据本发明实施例而配置的语言评估和教学系统100的框图。系统100可以包括测试组件124、编译组件122、126、128、130和132、评估组件122、124和132、以及提供组件116,提供组件116配置为向用户提供适合能力的语言教学材料。系统100可以包括一个或多个语料库和子域数据库110(只示出了一个),用于存储任何期望数量的语料库和相应子域。系统100还包括语料库程序或模块112,用于编译词条数据的重要性。具体而言,每个语料库和子域内有设定数量的词条。每个语料库或子域中所有词条的集总被称为词汇。这里使用的术语"词条"是指代表某一意义的任何符号、多符号单元、声音、发声、单词、多单词单元或习语表达。术语"词汇"是指特定语言内的所有词条。可以按照语料库或子域中的重要性,将给定词汇中的词条排序。例如,语料库程序112可以扫描语料库和子域,并逐个语料库和子域地产生词条重要性数据。词条重要性数据库114可以逐个语料库或子域地存储词条重要性数据。这种特征的一个优点是按照关于每一词汇的相对重要性来组织词条,因此,这有利于将未知和不熟悉的词条以最有逻辑和效率的方式编排到每个用户的个人语言学习序列中。系统100还包括校准程序或方法130,用于估计大样本128中的词条可认证性,并应用该估计来产生每一个体回答者的真实能力估计,并有助于产生学习目标词条的个人语言学习序列116。例如,该过程可以包括使用词条回答理论("IRT"),构建统计模型,该统计模型建立每个词条与每个回答者、人群分段和/或地区人群之间的概率关系。这种特征的一个优点在于,使系统IOO能够精确确定和报告个体回答者可能不知道从而应该学习的具体词条。个人语言学习序列编译器116配置为从给定语料库或其子域中获得词条重要性数据、词条可认知性数据122、词条知识深度的一个或多个方面的数据122、以及词条保持能力数据120,以一个或多个算法过程将它们组合,以产生并维护独特的对可能未认知的词条的个人语言学习序列。该过程被告知每个用户的评估词汇能力和需要。因此,每个用户可能未认知但很重要的词条会被定为优先的。此外,可以基于每个用户的词汇知识深度的当前表示和最新获知的词条保持数据,进一步更新对他或她语言学习序列的组织。系统100也能够在个体用户数据库126与多种学习程序118和/或其他适合环境之间交互式地交换个人语言学习序列116。当学习者与一个或多个学习程序118进行交互时,交互和保持编译器120可以获得并编译数据。交互和保持编译器120可以向学习序列编译器116通知特定用户取得的进步,以基于这些交互,确保每个用户的语言学习序列对于该用户的当前词汇能力是不断被告知并更新的。具体而言,交互和保持编译器120可以随时间变化而针对每个用户的学习能力和保持最新获知的词条知识的能力来认知并编译信息。这样,学习序列编译器116可以根据从交互和保持编译器120接收的信息,调整每个用户的语言学习序列。关于每个用户与学习程序交互和/或最新学习词条的保持的信息也可以存储在个体用户数据库126中,并使其对于学习序列编译器116和/或报告模块134(经由编译器116)是可用的(在需要时)。系统也可以配置为,基于个人语言学习序列116,产生并提供书面或听力格式的多种适合能力的材料,包括与学习者所选的话题有关的材料。下文中将参照图11A-11C详细描述该过程。系统100也可以包括计算机自适应测试("CAT")组件124,作为用户与系统IOO之间的一个接口的示例。例如,CAT124可以配置为通过个人计算机、移动电话、PDA或使用其他适合的设备和/或过程来管理针对用户的测试(例如,交互式IRT测试)。这样,CAT124可以用于计算每个用户的词条认知能力和知识深度能力。CAT124还可以从词条可认知性和DOK数据库122中获得一种或多种人群分段或一个或多个地区人群的适当词条可认证性和知识深度数据。每个用户的能力评估和人口详细内容可以存储在个体用户数据库126中,每个用户的原始词条回答数据可以存储在人群分段数据库128的累积回答中。累积回答数据库128也可以配置为允许周期性地合计并编译来自所有个体应试者的回答数据,以便校准程序130使用。校准程序130可以建立地区人群和人群分段的每个词条的可认知性和关于知识深度分析的过程。校准程序得到的结论可以存储在词条可认知性和DOK数据库122中。认知和DOK统计分布曲线编译器132可以配置为将来自数据库122的数据汇编成按照地区人群、人群分段或其他所需元素而整理的认知统计分布曲线。该统计分布曲线编译器132可以向报告模块134和学习序列编译器116提供每个用户的相关统计分布曲线。在一个实施例中,个体用户数据库126可以向个人语言学习序列编译器116通知个体用户的能力。认知和知识深度统计分布曲线编译器132可以组织每一人群分段和每一地区人群的认知性和DOK能力测量。相应地,统计分布曲线编译器132可以允许按照认知性排序来进行对每个用户关于已知和未知单词的评估(如下参照图3所述)。学习序列编译器116从词条重要性数据库114中获得通用语言和任何所需子域的词条数据的重要性。学习序列编译器116可以基于用户的能力和需要,以优先级方式将每个用户未知、不熟悉和容易忘记的词条排序。学习序列编译器H6将最重要(但是还未认知)的词条定为优先学习的。在一个实施例中,学习序列编译器116也可以配置为向多种学习程序118提供用户的个人词条序列,多种学习程序118包括但不限于电子邮件服务、交互式语言学习游戏或活动、以及适合能力的文本材料。用户可以与采用适当教学策略和格式的多种学习游戏118进行交互,这些教学策略和格式设计来辅助每个用户学习他或她的个人语言学习序列。用户可以通过个人计算机、移动电话、PDA或使用其他合适的设备和/或过程来与学习程序进行交互。报告模块134可以配置为产生每个用户的个体图形和书面记分,并使用户或其他人(例如,教师等)可以通过个人计算机、移动电话、PDA或使用其他合适的设备和/或过程来使用这些记分。报告模块134也可以配置为向教师和/或程序管理者产生合计型报告,该报告对词汇能力和学习进程进行多维分析和/或比较。每个报告一般包括用户已知的单词个数、用户的高重要性或高频的位置和大小、单词知识差距、以及用户要达到其重要的下一词汇目标而需要获知的单词个数。重要词汇目标随语言不同以及子域不同而变化。例如,在通用英语语言中,估计知道前3000个最常用单词一般使一个人能够阅读典型的英语阅读材料,而无需借助于辞典。因此,英语学习用户的重要目标是学习前3000个最常用英语单词。在其他实施例中,报告可以包括不同数据和/或不同特征。在所示实施例中,语言训练系统100的组件每一个均包括分离组件(例如,单个数据库或单个处理组件)。但是,在其他实施例中,上述组件中的两个或更多个可以在同一设备内。在其他实施例中,语言训练系统100可以包括不同数目的组件,以及/或者组件可以具有不同设置。此外,应理解,语言训练系统ioo的一个或更多个组件可以具有分离的功能装置,其独立操作或作为整个系统内的子系统。例如,该系统的多个组件可以仅用于评估用户的词汇知识。在其他实施例中,组件可以具有执行其他功能的其他设置。图2是示出了根据本发明实施例的系统100的多个组件的框图,所述多个组件配置为使用累积个体测试回答和回答者数据并按照人群分段来处理标准认知统计分布曲线。具体而言,词条校准程序130可以(利用词条回答理论)以所需间隔分析累积用户回答数据库128。例如,校准程序130可以利用联合最大似然估计,即联合地估计词条回答矢量的最大似然的统计过程。该程序开始于对回答者的能力迸行初始估计,然后将这些估计当作固定的,并估计基于能力估计的词条回答矢量的最大似然,以得到词条可认知性的估计。然后将这一步骤的结果当作固定的,并使用基于词条可认知性的最大似然来估计词条回答矢量,以获得新的能力估计。该过程继续进行,直到该过程收敛到设定的准则为止。例如,在一个实施例中,每个回答者可以在交互式IRT在线测试中对显示在其面前的一系列词条进行回答。也可以向其他回答者显示对任一回答者显示的适当数目的词条。校准程序130可以管理、组织所有回答者的答复并周期性地将它们编译为一个合计测试,仿佛它们是一个整体词条池中的子集。在一个实施例中,可以按照任何特定人群分段和/或按照任何语言及其子域,组织回答者的输入。因为校准程序130同时估计每个词条的认知性测量和每个回答者的个体能力测量,所以所有估计会在同一等级上。假设每个词条的累积回答数目足以使该词条的认知性测量稳定,则该系统可以精确地确定任何特定语言子域中个体的能力评估。例如,在系统的一个特定实施例中(并且针对包括18岁日本男性的人群分段),可以确定日语子域中针对重金属音乐的每个词条的具体认知性。可以通过分析与重金属音乐("HMM")具体相关的语料库子域,产生测试过程的词条。该子域可以由语料库程序112扫描并组织,在该示例中组织成按照语料库内的出现频率而排序的重要词条的词汇。作为第一步骤,对目标人群分段之中大约1000个回答者的P测试组进行HMM词条测试。P测试能够对18岁日本男性之中对HMM词条的可认知性进行初始校准。该测试然后能够产生每个在后18岁男性回答者的HMM词汇知识的临时估计。也可以追溯性地向初始的1000个β测试回答者发送临时记分。此后,随着回答者的累积数目增大,通过累积回答数据128的每次后续校准130,个体能力估计的精度提高。词汇统计概率的本质是减少返回之一。换言之,在特定点之后,又有多少人对每个词条进行了回答一般已无关紧要,词条的可认知性测量一般保持稳定。在数学上,依据应用的变量和目的,通过多个不同IRT公式来表示给定回答的概率。在一个实施例中,能力为j的随机回答者θj正确回答可认知性为ri的随机词条i的概率是基于回答者的能力和词条的可认知性的。换言之,如果回答者在特定领域具有较强能力,他或她可能认知对于回答者的人群分段或地区人群具有较高可认知性的词条。相反,如果回答者能力较低,词条的可认知性较低,则回答者可能无法认知该词条。在一个实施例中,可以使用如下等式计算词条认知的概率<formula>complexformulaseeoriginaldocumentpage21</formula>其中P1(θ)是能力为θ的随机回答者认知词条i的概率,e是自然对数的底(2.718),θ是以分对数(logit)测量的回答者能力,bi是以分对数测量的词条的不可认知性参数,ri是认知性参数或(bi*-1.0)。能力θ的估计值越高,回答者的能力越强。能力θ的估计可以在范围-oo〈θ〈oo中。类似地,可认知性ri的估计值越高,词条的可认知性越强。可认知性可以在范围-oo〈b〈oo中。可以根据如下等式的一个或多个版本,构造合适的模型<formula>complexformulaseeoriginaldocumentpage22</formula>(2)其中e是常数2.718,^是不可认知性参数,;o.是回答者j的个体猜测行为,^是能力水平,D是縮放因子。在一个实施例中,该方法可以包括通过一个或多个算法过程,将所测量的词条可认知性与根据语料库中重要性的词条排序的数学表示进行比较,以量化针对每个学习者可能不可认知的词条的相对优先级。图3示出了日本人口中特定年龄段人群对6000个最常用BNC英语单词中每一个的可认知性的累积统计分布曲线图。单词按照对累积回答者的认知而不是在语料库中的频率来组织。线A示出了测试回答者A的评估能力-3.29,这指示回答者A在概率上可能认知对于该人群分段可认知的6000个单词中的1000个。线B示出了测试回答者B的评估能力+2.63,这指示回答者B在概率上可能认知对于该人群分段可认知的6000个单词中的5000个。下文中将参照图8进一步描述图3所示数据。图4是示出了根据本发明实施例的配置为评估个体的词汇能力的图l系统的多个组件。例如,该评估过程可以用于提供对语料库或其子域内的总数和个体回答者可能知道的特定词条进行精确估计和报告在一个实施例中,用户界面140可以用于通过向用户提供Yes/No判决型测试来估计用户能力。Yes/No测试也称作词汇判决任务,要求用户对从一系列真正和伪词条中选择的词条相关的所提问题回答yes或no。该系统可以利用信号检测理论的多个方面,将用户对于真正词条的Yes/No回答与对于伪词条的Yes/No回答进行比较。通过一个或多个算法过程,该系统计算用户做出正确判决的概率、以及用户做出每次判决的精度水平。在一个实施例中,测试管理者逐个计算,并基于用户的回答模式,改变所显示词条的可认知性因子,直到达到了所需的回答精度水平。因为不断根据用户的正确或不正确回答将测试集中在用户的水平上,所以相比于传统的测试方法,只需要数目少得多的问题来精确地估计能力。任何测量的精度均与估计标准误差相关联,估计标准误差是由每个特定词条对合计测试结果贡献的信息量来获悉的数字。下述等式3示出了针对基于测试的估计的信息函数,等式4示出了其与估计标准误差的关系<formula>complexformulaseeoriginaldocumentpage23</formula>、(3)其中<formula>complexformulaseeoriginaldocumentpage23</formula>是由词条l到n的测试提供的信息,,(。是/:("的导数。其中促(。是估计标准误差。在一个实施例中,该系统可以包括计算机自适应测试,可以向应试者提供从词条和伪词条数据库中随机抽取的词条。第一真正词条是从具有对该用户所属的人群分段而言为均值的可认知性的词条之中随机选择的。依据用户如何回答,可以从该均值上或下大约一个标准偏差处抽取下一真正词条。随后,可以实施一个或另一个有效算法过程,以在可认知性等级122(图1)上从上到下引导词条的随机选择,直到用户已识别出至少一个真正词条是认知的,并且已识别出至少一个真正词条是未认知的。伪词条随机地分散在真正词条的呈现之中,以控制用户的个体猜测行为。如下等式5所示,使用似然函数的导数,计算应试者的最大似然估计以及上述等式4所示的测试信息函数和标准误差。<formula>complexformulaseeoriginaldocumentpage23</formula>(5)其中<formula>complexformulaseeoriginaldocumentpage23</formula>是回答矢量的似然。在每个实例中,选择下一词条,以给出能力估计处的最大信息量。随后,再次计算最大似然、测试信息和估计标准误差。可以重复该过程,直到达到所需精度水平,因此完成测试所需的词条数目和时间均是可变的。在一个实施例中,用CAT124管理的词汇测试可以利用上述公式的多个方面,以提供一种评估每个学习者的词汇知识深度的多个特定方面的快速有效的方式。例如,也可以对学生测试特定的低重要性单词,这些单词可能已经被识别为错误朋友(即,来自母语的、在拼写或发音上类似英语单词的单词,但是其在本地语言中的使用或含义非常不同)。通过采用对词汇知识深度124的不同方面的多个测量,不仅通过并发测量验证了这里所述的认知评估,还可以进行形式新颖独特的知识深度评估。图5是示出了根据本发明实施例的用于建立每个词条的认知概率的词汇判决问题的具体示例的屏幕显示图。如所示示例描述的,这些所公开的系统和方法对于各种语义知识的评估和教学都是很有用的。在本实施例中,该系统通过在线交互式Yes/No词汇判决型问题,提供个体词汇认知测试。该评估过程的重要部分是包括了伪词条。伪词条看起来似乎合理,但是在给定语言中不具有含义。例如,块502描述了向日本用户显示的日语单词的词汇Yes/No型判决问题,块504示出了向日本用户显示的伪日本单词的显示。块506示出了从英语的金融子域中抽取的真实英语多单词单元"compoundinterest",块508描述了伪英语单词"regget"。块510描述了Java编程语言代码的表达式"returnmyDisk.size();",块512显示了Java代码的伪表达式"avv;g3—一d."块514描述了来自英语子域的交通符号,块516示出了同一领域内的伪交通符号。图6A是示出了词汇知识深度标尺600的显示图。示出了词汇知识深度的多个方面。示出的词汇知识深度开始于认知602,并朝着标尺右侧逐渐增长到更大的知识深度。能够选择正确的定义604表示对单词意义的一般掌握,能够正确判断词条的搭配606表示较深层次的理解。但是,更深层次理解是通过诸如遣词造句等创作能力来证明的。图6B是示出了根据本发明实施例的词汇知识深度判决型问题的具体示例的显示图。该系统通过包括多选判决型问题和Yes/No词汇判决型问题的方式,提供个体词汇知识深度测试。该系统在连续统(continuum)上,根据词条知识深度的多个方面,提供对词汇知识深度的量化,该连续统开始于接受的知识,并通过逐渐加深的水平而移动,直到创作性词条知识。所示知识深度问题的示例评估可能的知识深度的不同方面。该过程中不可或缺的部分是包括错误选项定义和伪词条搭配。错误选项定义是似乎合理但是错误定义了词条的定义。伪词条搭配是似乎合适但是搭配错误的搭配。图6B所示示例可以用于确定词汇知识深度的三个不同方面的知识深度。例如,块610示出了对英语单词"wasted"的定义认知型问题,这里假设将英语单词"wasted"呈现给日本用户。块612示出了Java编程代码表达式"<"舰Val,"$—r.firstName}"/>."的定义认知类型问题。所提供的三个定义之一是真实定义,而其他两个定义是似是而非的错误选项。块614和616示出了搭配认知类型问题。具体而言,块614示出了假设向日本用户呈现的英语伪搭配"fancyweather",块616示出了曰语中的真实搭配。块618和620示出了两种形式的上下文词条创作任务。块618示出了要求日本用户校正Java编程代码表达式中的错误的上下文词条创作任务。识别并校正拼写和标点错误是创作形式。块620示出了英语单词"bargain"的造句任务。用户的任务是使用单词"bargain"在所给空格处造句。图7示出了知道大约2500个单词的个体日本用户的测试记分表700的实施例。记分表700的一个特征是,它显示绝对分数,并将该记分与个体用户知道多少词条相关联。记分表700的另一特征是,记分系统能够直接与其他组或平均值进行比较。在这种情况下,用户总共知道2500个英语词汇单词,但是只有1751个在前3000个最常用单词中。因此,记分表700的一个优点在于,它使用户能够看到其高频单词知识差距的显著程度。例如,在这种1751个单词的情况下,用户知道语料库中IOOO个最常用单词中的801个(即,80.1%),IOOO个第二最常用单词中的557(即,55.7%),以及1000个第三最常用英语单词中的393个(即,39.3%)。所公开系统和方法的一个目的是辅助学习者获知相当数目的最重要词条。如上所述,知道前3000个最常用英语单词通常使一个人能够阅读典型材料,而无需借助于辞典。在该具体示例中,学习者的目标是获知3000个最常用英语单词中未知的1249个英语单词。初始学习序列可以包括最常用(但未知的)单词中的199个。这里所述的系统和方法可以进行精确的词汇评估和可量化的精确的学习预测速度。此外,该系统的多种实施例包括可以为教师和程序管理者而组织的不同类型的群组能力和进度报告。因此,该系统能够比较和分析个体和群组词汇能力的多个方面。精确图表为学习者和教师提供了清楚的基准,以跟踪随时间的进步。例如,在多个实施例中,在设定的时间段之后,后续测试可以显示己取得了进步。该系统可以精确地评估和显示进步(假设学习者努力获知了新单词)。此外,利用系统的电子邮件服务和/或学习游戏服务的用户可以朝着3000个单词的目标取得更大进步。图8A是示出了6000个最常用英国国家语料库(BNC)英语单词在日本人口中特定年龄段人群中的概然可认知性的分布图。图中每个点指示6000个BNC单词中的一个特定单词。所示结论是通过统计分析来自日本人口中特定年龄段人群的549个个体用户对于Yes/No判决型词条问题的4,217个回答而确定的。图8B是示出了6000个BNC单词中所有特定单词的分布图。分布图中的每个点指示一个特定单词。水平线C指示个体用户C的评估认知能力0.0。绘制了垂直线D,以使3000个点位于线D处或其左边。标记为1的面积涵盖了多个点,每个点代表3000个最常用BNC单词中用户C可能认知的特定单词。任何特定点的位置在用户C的评估能力水平0.0之下越远,用户C越有可能认知该点所表示的单词。位于用户C的评估能力水平O.O处的点代表用户C认知的概率为50/50的特定单词。标记为2的面积涵盖多个点,每个点代表3000个最常用BNC单词中用户C可能不认知的特定单词。任何特定点的位置在用户C的评估能力水平0.0之上越远,用户C越有可能不认知该点所表示的单词。限定面积3和4的椭圆形描述了语料库内专用语言子域的示例。标记为3的面积代表在概率上来说用户C可认知的专用子域单词。标记为4的面积代表在概率上来说用户C不可认知的专用子域单词。标记为5的面积涵盖多个点,每个点代表3001到6000个最常用BNC单词中用户C可能认知的特定单词。标记为6的面积涵盖多个点,每个点代表3001到6000个最常用BNC单词中用户C可能不认知的特定单词。图8C重新组织了图8B的数据,以示出BNC的IOOO个单词频率带内的用户C的特定单词认知。例如,该图指示用户C可能能够认知前1000个最常用BNC单词中的894个。对于词汇能力评估来说,这一结论是很重要的。但是,更加重要的是,该过程识别出前IOOO个最常用BNC单词中用户C可能不认知的106个单词中的每一个。图8D重新组织了图8A和8B的数据,以允许对BNC频率数据的对数正态变换与实际评估的BNC单词可认知性进行比较。点分布图中的线P示出了根据所测量词条可认知性上的单词频率回归而预测的单词可认知性。虽然该回归线示出了频率与词条可认知性0.60之间的绝对相关,但是标准误差1.92揭示了单词频率数据无法提供统计上有效的方法来确定对于个体用户哪些词条是可能己知的、哪些词条是可能未知的。图8B和8D所示证实了对于地区人群的人群分段的个体成员而确定的词条可认知性数据确实为每一个体用户认知每个词条的可能性的估计提供了在统计上有效的基础。图9是示出了根据本发明实施例的图1系统的多个组件的框图,所述多个组件配置为基于个体的评估语言或子域词汇能力对词条进行优先级排列。例如,多种算法过程可以计算(a)每一个体的词汇认知能力124,(b)词汇知识深度124,以及(c)保持率120,连同语料库或子域词条重要性数据114(在适当时),以为每个学习者的学习创建理想的个人词汇学习序列116。在一个实施例中,可以向多个不同类型的学习程序118发送每个学习者的个人语言学习序列116。如上所述,该系统可以从学习程序118获得与学习者同该学习程序的交互有关的反馈。接收到的反馈会告知系统,使其能够重新组织个人语言学习序列,以适应每个学习者的当前能力和需要评估。基于来自学习程序的反馈,例如,该系统可以撤回词条、循环使用先前撤回的词条、添加新词条或修改要呈现给学习者的特定词条的知识深度方面。该系统也可以包括个性化电子邮件服务,该电子邮件服务经由电子邮件向个体学习者提供来自个人语言学习序列的一个或多个词条。该个性化电子邮件服务可以利用多种教学测量,辅助订户学习和保持重要的新词条知识。个性化电子邮件服务也可以提供多种手段来请求订户交互的确认,从而允许对系统数据库进行适当更新。个性化电子邮件服务的另一方面是通过创建并提供多种适合能力的材料来辅助订户学习并保持词条在上下文中的正确使用的知识,所述材料包括与订户感兴趣的话题有关的阅读、听力和视频材料、以及其他形式的适合能力的上下文语言材料。这种适合能力的材料可以提供多种手段来请求订户交互的确认,从而允许对系统数据库进行适当更新。该系统还产生个性化交互语言学习游戏,该个性化交互语言学习游戏根据订户的个人语言学习序列,提供成批的词条并呈现词条。该个性化交互语言学习游戏也可以提供和呈现其他形式的适合能力的学习材料。可以通过个人计算机、移动电话、移动通信设备和/或其他适当的电子设备,向订户提供该个性化交互语言学习游戏。该个性化交互语言学习游戏可以利用多种教学策略和图形格式,辅助订户更快地学习和保持大量词条和其他适合能力的学习材料的知识。该个性化交互语言学习游戏也可以提供自动手段,以确认和记录订户交互,从而可以对系统数据库和学习者的个人语言学习序列进行适当更新。图IO是示出了根据本发明实施例的图l系统的多个组件的框图,所述多个组件配置为基于个体的评估词汇能力来准备和提供适合能力的文本材料。对包括书面、听力或视频的任何文本材料进行编辑和重新整合的过程可以基于每一个体的评估词汇能力。可以基于学习者的兴趣和需要,从话题文本材料数据库1010中抽取合适的文本材料。由文本材料程序或模块1020识别学习者可能不知道的词条。去除可能不知道的词条或用从已认知单词数据库122中获得的已知单词替换,以在理解力方面调整由程序1020产生的修改的文本材料1030,使其包括所需百分比的已知词条。因此,该方法允许创建并向任何给定学习者(例如,经由用户界面140)呈现任何给定语言或子域中的在教学上适当的阅读、听力和视频材料。图IIA示出了根据本发明实施例的英语文本示例的屏幕显示图,该英语文本是根据特定个体的评估词汇能力而过滤的。具体而言,图IIA示出了根据个体的评估词汇能力1.32过滤的阅读材料的样本。在该示例中,设定了95%认知的理解力目标。根据这两个设定,识别出了用户可能不可认知的所有单词,这些单词以粗斜体格式显示,以便进行说明。图IIB是示出了进一步处理之后的图IIA文本1110的屏幕显示图。具体而言,图11B示出的样本阅读材料1110已经过进一步编辑和整合,以使文本中剩余单词的至少95%对于读者可能是可认知的,文本中剩余单词的5%以下对于读者可能是不可认知的。根据用户的个人语言学习序列,该过程尽量优先包括未认知的单词。为便于理解该说明,图中显示了留下的各种编辑标记。图IIC是示出了适合能力的过滤和编辑完成之后图IIA和IIB的文本1100的屏幕显示图。得到的文本是在教学上适合能力的话题阅读材料,该材料基于学习者的评估词汇能力而组织为95%以上对于学习者是可理解的。为了说明目的,以粗斜体格式显示了学习者不可认知的单词(少于5%)。C.合适的计算系统图12-13B以及以下论述对可以实施本发明各个方面的合适计算环境进行了简略的总体描述,但是本发明不需要在计算系统中实现。因此,虽然不需要,但是本发明的方面和实施例可以实现在计算机可执行指令这一总体环境下,例如由服务器或个人计算机等通用计算机执行的例程。相关领域技术人员将理解,本发明可以采用其他计算机系统实施,包括互联网设备、手持设备、可携带计算机、蜂窝或移动电话、多处理器系统、基于微处理器或可编程消费电子器件、机顶盒、网络PC、袖珍计算机、大型计算机等。本发明可以在特别编程、配置或构造来执行下述详细说明的一个或多个计算机可执行指令的专用计算机或数据处理器中具体实现。的确,这里通用的术语"计算机"是指上述设备的任何一种以及任何数据处理器。本发明也可以在分布式计算环境中实施,其中由远程处理设备执行任务或模块,这些远程处理设备通过局域网("LAN")、广域网("WAN")或互联网等通信网络连接。在分布式计算环境下,程序模块或子例程可以位于本地和远程存储器存储器件中。下述本发明方面可以存储或分布在包括磁和光可读和可拆卸计算机盘等计算机可读介质中、存储为芯片固件(例如,EEPROM芯片)、以及电子分布在互联网或其他网络(包括无线网络)上。相关领域技术人员将理解,本发明的组成部分可以驻留在服务器计算机上,而其相应组成部分驻留在客户计算机上。对于本发明方面特定的数据结构和数据传输也包含在本发明范围之内。参照图12,本发明的一个实施例采用个人计算机或工作站等计算机1200,其具有与一个或多个用户输入设备1202以及数据存储设备1204连接的一个或多个处理器1201。计算机还与显示设备1206等至少一个输出设备连接,并与一个或多个可选的附加输出设备1208(例如,打印机、绘图仪、扬声器、触觉或嗅觉输出设备等)连接。计算机可以例如经由可选的网络连接1210、无线收发机1212或上述两者,与外部计算机连接。输入设备1202可以包括键盘和/或鼠标等定点设备。也可以有其他输入设备,例如,麦克风、操纵杆、笔、游戏盘、扫描仪、数码相机、视频摄像机等。数据存储设备1204可以包括任何类型的、存储可由计算机IOO存取的数据的计算机可读介质,例如磁硬盘驱动和磁软盘驱动、光盘驱动、盒式磁盘、磁带驱动、闪存卡、数字视频盘(DVD)、Bernoulli编码磁带、RAM、ROM、智能卡等。的确,可以采用用于存储或传输计算机可读指令和数据的任何介质,包括到局域网(LAN)、广域网(WAN)或互联网等网络(图12中未示出)的连接端口或网络上的节点。本发明的方面可以在多种其他计算环境中实施。例如,参照图13A,具有网络接口的分布式计算环境包括系统1300中的一个或多个用户计算机1302,每个计算机包括浏览器程序模块1304,以允许计算机访问互联网1306并与其交换数据,其中包括互联网的环球网部分内的网站。用户计算机基本上可以类似于参照图12所述的计算机。用户计算机可以包括其他程序模块,例如操作系统、一个或多个应用程序(例如,文字处理或分析表应用程序)等。计算机可以是可编程来运行多种应用程序的通用设备,或者可以是优化用于或限制用于特定功能或功能类的单用途设备。更加重要的是,虽然示出了网络浏览器,但是如下详述的,可以采用向用户提供图形用户界面的任何应用程序;使用网络浏览器和网络接口在这里只是用作熟知的示例。至少一个服务器计算机1308与互联网或环球网("Web")1306连接,执行接收、路由和存储网页、音频信号和电子图像等电子消息这些功能中的多个或所有功能。虽然示出了互联网,但是在一些应用中优选专用网络,例如内联网。网络可以具有客户-服务器构架,其中计算机专用于服务其他客户计算机。网络也可以具有对等网络等其他构架,其中一个或多个计算机同时用作服务器和客户。数据库1310与服务器计算机连接,存储在用户计算机之间交换的多种网页和内容。服务器计算机包括数据库,可以采用安全措施(例如,防火墙系统、安全套接字层(SSL)、口令保护方案、加密等)来阻止对系统的攻击,并保持其中存储的消息和数据的完整性。服务器计算机1308可以包括服务器引擎1312、网页管理组件1314、内容管理组件1316和数据库管理组件1318。服务器引擎执行基本处理和操作系统级任务。网页管理组件处理网页的创建和显示或者路由。用户可以通过与之关联的URL来访问服务器计算机。内容管理组件处理在此所述的实施例中的大多数功能。数据库管理组件包括对数据库相关任务的存储和检索、对数据库的查询、以及视频、图形和视频信号等数据的存储。参照图13B,系统1300的备选实施例被示为系统1350。系统1350基本上与系统1300类似,但是包括多于一个的服务器计算机(示为服务器计算机1,2,...J)。负载平衡系统1352对多个服务器计算机上的负载进行平衡。负载平衡是本领域公知技术,用于在两个或多个计算机之间分配处理负载,从而更有效地处理指令和路由数据。这种负载平衡器可以分配消息业务量,特别是在业务量高峰时间。分布式文件系统1354将网络服务器与多个数据库(示为数据库1,2,...,K)连接。分布式文件系统是一种文件系统,其中文件系统自身管理并透明地定位来自远端文件或数据库并通过LAN等网络分布的文件的信息(例如,内容页面)。分布式文件系统也管理对数据库的读写功能。结论除非上下文明确要求,否则在整个描述和权利要求中,单词"包括"等要视为是与排除或穷尽含义相反的包含性含义,即是"包括但不限于"的含义。这里所用的术语"连接"、"耦合"或其变体表示两个或多个元件之间的任何直接或间接连接或耦合;元件之间的连接或耦合可以是物理、逻辑或两者组合的。此外,当用在本申请中时,单词"这里"、"以上"、"以下"和类似单词应该指的是本申请整体,而非本申请的任何特定部分。当在上下文中合适时,以上具体实施方式部分中使用单数或复数的单词也可以分别包括复数或单数。关于两项或多项的列表的单词"或"涵盖该单词的如下所有解释列表中的任何项、列表中的所有项、以及列表中项的任何组合。以上对本发明实施例的详细描述并不是穷尽性的或要将本发明限制到上述公开的形式。虽然以上为说明目的描述了本发明的特定实施例和示例,但是相关领域技术人员将理解,在本发明范围内可以进行多种等同修改。例如,虽然按照给定顺序示出了过程或块,但是备选实施例可以按照不同顺序执行具有步骤的例程或采用具有块的系统,并且可以删除、移动、添加、再分、组合和/或修改一些过程或块,以提供备选方案或子组合方案。每个过程或块均可以采用多种不同方式实现。此外,虽然有时示出的过程或块是串行地执行的,但是这些过程或块可以并行执行或在不同时间执行。这里提出的本发明教义可以应用于其他系统,而不一定是上述系统。上述多种实施例的元件和动作还可以组合来提供其他实施例。上述提到的任何专利、申请和其他参考文献(包括在所附的提交文件中可能列出的文献)合并在此,作为参考。如果需要,可以修改本发明方面,以采用上述多种参考文献的系统、功能和构思,提供本发明的其他实施例。根据上述详细描述,可以对本发明进行上述和其他修改。虽然以上描述说明了本发明特定实施例,并描述了最佳模式,但是无论以上文本的描述如何详细,本发明也可以多种方式实施。数据采集和处理系统的详细描述可以在其实施细节中发生显著改变,但是仍然包含于在此公开的本发明。如上所述,当描述本发明特定特征或方面时所用的特定术语不应该被认为暗示了该术语在此是重新定义为局限到本发明的中与该术语关联的特定性质、特征或方面。一般而言,所附权利要求中使用的术语不应该视为将本发明限制到说明书中公开的特定实施例,除非以上具体实施方式部分明确定义了该术语。因此,本发明的实际范围不仅包含所公开的实施例,还包括基于权利要求实施或实现本发明的所有等同方式。虽然以下采用特定权利要求形式提出了本发明的特定方面,但是发明人考虑到了具有多种权利要求形式的本发明的多种方面。例如,本发明的多个方面可以具体实现为计算机可读介质形式。因此,发明人保留在提交本申请之后添加附加权利要求的权利,以获得本发明其他方面的附加权利要求形式。权利要求1.一种语言训练系统,包括一个或多个集合和子集数据库,用于存储多个词条;词条频率数据库,用于存储来自一个或多个相应集合和子集数据库的多个词条,其中,按照在所选集合和/或相应子集内的出现频率,对词条重要性数据库中的多个词条进行排序;用户测试组件,配置为(a)向用户呈现来自所述一个或多个集合和子集的一系列词条,以便用户回答,以及(b)接收和处理关于所呈现词条的用户输入;校准组件,配置为针对每个词条,与一个或多个人群分段或地区人群内的用户相比较地确定词条可认知性测量,词条知识深度测量,以及词条保持测量;以及学习序列编译器,配置为针对每个用户,产生未知词条的目标列表。2.根据权利要求1所述的语言训练系统,其中学习序列编译器至少部分地根据以下内容来产生特定用户的目标列表特定集合或其子集内的词条重要性数据;所述用户的词汇认知能力水平;所述用户的词汇知识深度能力;以及所述用户的词汇保持能力。3.根据权利要求1所述的语言训练系统,其中,通过对特定集合或子集内未知词条的出现频率进行排序,来整理目标列表。4.根据权利要求1所述的语言训练系统,其中用户测试组件包括计算机自适应测试系统,所述计算机自适应测试系统配置为向用户呈现针对每个词条的Yes/No以及多选判决型问题。5.根据权利要求l所述的语言训练系统,其中,按照一个或多个人群分段或地区人群内的可认知性,对词条频率数据库中的多个词条进一步排序。6.根据权利要求1所述的语言训练系统,还包括一个或多个学习程序或活动,配置为向每个用户呈现一个或多个词条,以便用户进行回答;其中至少部分地根据所产生的用户目标列表,选择所述一个或多个词条。7.根据权利要求6所述的语言训练系统,还包括反馈组件,配置为根据用户与所述一个或多个学习程序或活动之间的交互,处理输入;以及向学习序列编译器发送所述输入;其中学习序列编译器配置为至少部分地根据来自反馈组件的输入,产生更新的用户目标列表。8.根据权利要求6所述的语言训练系统,其中所述一个或多个学习程序包括经由个人计算机、移动通信设备或其他电子设备可访问的学习程序。9.根据权利要求1所述的语言训练系统,其中校准组件还配置为使用词条回答理论,计算一个或多个人群分段或地区人群的词条认知统计分布曲线。10.根据权利要求1所述的语言训练系统,还包括通信组件,配置为以一个或多个预定间隔,经由电子消息收发,向相应用户发送目标列表或目标列表的一部分。11.一种由计算机实施的语言评估和教学方法,存储在一个或多个计算机存储器中,所述方法包括确定用户在特定语言或其子域的词汇内的词汇认知能力水平;根据所述用户的认知能力水平,创建未知词条的目标列表,其中通过对特定词汇内未知词条的重要性进行排序,对所述目标列表进行整理;以及至少部分地根据所述目标列表,产生所述用户的个人语言学习序列。12.根据权利要求11所述的方法,其中产生所述用户的个人语言学习序列包括确定所述词汇的语料库或子域内每个特定词条的重要性;确定与所述用户相关的一个或多个人群分段或地区人群的累积词汇认知统计分布曲线;确定与所述用户相关的一个或多个人群分段或地区人群的一个或多个累积词汇知识深度统计分布曲线;确定与所述用户相关的一个或多个人群分段或地区人群的累积词汇保持统计分布曲线;确定所述用户对于语言或其子域的词汇认知能力水平;确定所述用户的词汇知识深度能力;以及确定所述用户的词汇保持能力。13.根据权利要求11所述的方法,其中确定用户的词汇认知能力水平包括向所述用户呈现一系列真正词条和伪词条,以便用户进行识别,其中伪词条包括用于猜测错误校正的错误词条;以及处理来自所述用户的回答,以确定(a)识别为所述用户已知的词条,以及(b)识别为所述用户未知的词条。14.根据权利要求13所述的方法,还包括在数据库中存储如下内容的一个或多个所述用户的人口信息;呈现来用于识别的每个真正词条和伪词条;以及对于所呈现词条的每个用户回答;以及将所存储的用户数据与来自其他用户的数据合计在一起,以确定每个词条相对于一个或多个人群分段或地区人群的标准可认知性因子。15.根据权利要求11所述的方法,其中确定用户的词汇认知能力水平包括(a)向用户呈现第一词条,以便用户进行识别,所述第一词条是从对于所述用户的人群分段具有预定水平的可认知性的词条组中选择的;(b)根据用户回答,向用户呈现第二词条,以便用户进行识别,所述第二词条具有所述预定水平以上或以下的设定水平的可认知性;(c)向用户呈现后续词条,以便用户进行识别,所述后续词条是通过统计地确定一个或多个附加词条的选择来选择的,所述一个或多个附加词条具有相比于所述用户的估计能力而言更大和/或更小的可认知性,其中伪词条随机地分散在真正词条的呈现之中,以控制用户的个体猜测行为;以及(d)重复步骤(b)和(c),直到所述用户已被识别出至少一个真正词条是认知的,并且已识别出至少一个真正词条是未认知的。16.根据权利要求11所述的方法,其中通过如下方式确定用户的词汇知识深度能力(a)呈现第一词汇知识深度查询,所述第一词汇知识深度査询是从所述用户的估计知识深度能力水平处的一系列知识深度查询中选择的,其中所述估计知识深度能力基于评估的用户认知能力水平;(b)处理用户对第一查询的回答,以统计地确定所述用户的修改的估计知识深度能力;(c)向用户呈现一个或多个后续知识深度査询,所述一个或多个后续查询是根据修改的估计知识深度能力来选择的;以及(d)重复步骤(b)和(c),直到在所希望精确程度内确定所述用户的词汇知识深度能力。17.根据权利要求11所述的方法,其中所述词条包括在所述词汇内具有特定意思的符号、多符号单元、声音、发音、单词、多单词单元或习语表达。18.根据权利要求11所述的方法,其中所述目标列表包括所述特定词汇内要学习的下一最重要单词集合。19.根据权利要求11所述的方法,还包括重复确定所述用户的词汇认知能力水平,并在多次测试期间,根据所述词条认知能力水平来创建未知词条的目标列表;以及至少部分地根据来自一个或多个测试期间的结果,更新所述用户的语言学习序列。20.根据权利要求11所述的方法,还包括至少部分地根据所述用户的词汇能力,产生针对所述用户的文本材料,其中所述文本材料可以包括阅读、听力和视频材料。21.根据权利要求ll所述的方法,还包括在向用户呈现文本材料之前,对文本材料进行过滤,其中可以预先确定经过滤的文本材料中的词条的设定目标百分比。22.根据权利要求11所述的方法,还包括以一个或多个预定间隔,经由电子消息收发,向用户发送语言学习序列或语言学习序列的一部分。23.根据权利要求11所述的方法,还包括,根据所述语言学习序列,产生一个或多个报告,所述一个或多个报告包括如下内容的一个或多个用户已知词条的图形和文本描述;所述词汇语料库或子域内用户已知和未知词条的数目;每个未知词条的标识;所述词汇语料库或子域的不同重要性范围或频率范围内已知和未知词条的数目;用户对所述词汇中词条的知识深度能力;用户对所述词汇中词条的保持能力;基于与一个或多个学习程序的交互的用户学习速率;以及任何特定的所报告的用户或组属性与一个或多个所希望组、人群分段或地区人群的等同属性之间的比较。24.—种语言教学系统,包括用于存储语料库或相应子域内的多个词条的装置;用于按照所述语料库和/或相应子域内的重要性顺序对所述多个词条排序的装置;用于接收和处理用户输入的装置,其中用户输入是响应于向每个用户呈现所述多个词条中至少一部分以便用户进行回答而做出的;用于与给定人群分段或地区人群内的其他用户相比较地、计算每个用户的词汇认知能力测量、词汇知识深度测量和词汇保持测量的装置;以及用于产生每个用户的未知词条的目标列表的装置。25.—种语义知识评估和教学系统,所述系统包括用于存储多个词条的词条重要性数据库,其中按照所选语料库和/或相应子域内的重要性对所存储的多个词条排序,所述系统包括计算机自适应测试组件,配置为向用户呈现来自所选语料库和/或子域的一系列词条,以便用户进行识别;以及接收和处理对于每个所呈现词条的用户输入;校准组件,配置为,与一个或多个人群分段或地区人群内的用户相比较地确定每个用户的词汇认知能力水平,多个词条知识深度测量,以及多个词条保持测量;以及学习序列编译器,配置为针对每个用户,产生包括一个或多个未知词条的个人语言学习序列,所选词条是按照特定语料库和/或子域内要顺次学习的词条优先级而组织的。全文摘要公开了语义知识评估、教学和习得的系统和方法。在一个实施例中,计算机实施的语言教学方法包括确定特定语言词汇内用户的词汇认知能力。该方法还包括根据词条可认知性,创建未知词条的目标列表。可以通过对特定词汇内的未知词条的重要性排序,整理该目标列表。该方法还包括至少部分地根据目标列表,产生用户的个人语言学习序列。文档编号G09B7/00GK101203895SQ200680019910公开日2008年6月18日申请日期2006年4月5日优先权日2005年4月5日发明者大野孝司,布伦特·库里根,戴维·朔伊费勒,查尔斯·布朗,盖伊·齐,西岛淳申请人:Ai有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1