一种基于词频排序及等间距取词的英语词汇量检测方法与流程

文档序号:17049247发布日期:2019-03-05 19:52阅读:362来源:国知局
一种基于词频排序及等间距取词的英语词汇量检测方法与流程

基于词频排序及等间距取词的词汇量检测是英语词汇量检测的一种方法,本发明属于计算机辅助英语教育领域。



背景技术:

在检测英语词汇量时,限于英语单词的数量级,穷举被检测对象掌握的所有英语单词是不可行的。因此在检测英语词汇量时,普遍采用的方式是对词库进行抽样,通过被检测对象对于抽样单词的掌握情况模拟其整体词汇量。通常,检测方式分为固定或不固定两种形式。固定抽样即从整体词库中选取固定的单词,对被检测对象进行词汇量检测,这种方式仅适用于单次测试的情况,针对同一被检测对象,在多次测试中采用相同测试内容会影响测试结果的准确性,其缺点是无法多次测试,因此无法对词汇量进行跟踪检测。不固定的抽样方式,是对每个单词进行参数计算,在测试过程中,根据被测试者每一题的检测结果及其参数生成下一题。此方法的缺陷在于,每个单词的参数计算依赖于实际的检测数据采集,检测方法的成型周期较长。

基于词频排序及等间距取词,提出一种英语词汇量检测方法。通过本方法进行英语词汇量检测,可以避免前期过长的数据采集及参数模拟周期,并实现多次测试,且能够保持检测结果稳定,可以跟踪同一被检测对象在不同训练阶段的词汇量变化。



技术实现要素:

本方法主要是基于词频排序及等间距取词,提出了一种可多次测试并保持检测结果稳定的快速的英语词汇量检测方法。这种方法首先通过计算机技术辅助,针对语料库中出现的所有词汇,统计出每个单词出现的次数,称为该单词的词频;其次将所有词汇按照词频从高到低进行排序,确定每个单词在整体词库中的词频排名,并按照排名,每隔固定数量取出一个单词,以此对所有单词进行等间距地取词,将整体词库分为若干组词汇;最后,每次进行词汇量检测,取一组词汇对被检测者进行考查,根据作答结果计算其词汇量。本文将详细阐述词频统计及排序、等间距取词及分组、计算最终词汇量的方法。

词频统计及排序:根据需要选取词汇容量较高、语料涉及领域较为全面的语料库作为词频统计的对象,通过计算机辅助,将所有语料拆分成以单词为单位的形式,并对每一个出现在语料库中的单词,总计其数量,此数量记为本单词的词频。同一单词的不同变体,记为同一单词,其数量相加计入此单词词频。将统计完毕的所有单词,按照词频从高到低的顺序进行排序,并对每个单词,记录其排名。

等间距取词及分组:设经过词频排序的单词数量为n,根据需要,每次用于词汇量检测的单词样本量为x,则可将词库单词分为n=n/x组用于检测,即本方法最多可支持n次词汇量检测。对所有单词按照排名间隔为n的规则进行取词,共可得到n组用于检测的单词。其中,每一个单词作为其词频排名周围n个单词的代表样本,即若被检测者掌握本单词,则认为其也掌握了此单词词频排名周围的n个单词。

计算最终词汇量:被检测者对某一组所有单词作答完毕后,记录其对每个单词的掌握情况,结果为掌握/未掌握。将本组单词按照词频由高到低排序后,寻找符合下列条件的单词:在词频高于本单词的所有单词中被检测者未掌握的单词数量,与在词频低于本单词的所有单词中被检测者能够掌握的单词数量一致。此时可以认为将后者填补至前者,则被测试者能够掌握所有高于本单词词频的单词,即被测试者的词汇量落入本单词所代表的n个单词区间。本单词为确定词汇量所需的关键单词。

本文的方法通过对词汇进行词频统计,并通过等间距取词模拟整体词汇分布情况,将词库分为若干组用于检测词汇量的词汇,并依据词频最终计算出被检测者的词汇量。相较于固定取词方式,本方式扩充了词汇检测的样本空间,使得多次、稳定、准确的词汇检测成为可能。而与需要在前期进行大量数据采集及模拟,以及参数计算的不固定取词方式相比,本方法通过直接获取语料库词频的方式,避免了前期的数据采集成本,基于计算机辅助,可以迅速针对不同语料库形成相应词汇量检测方式。

附图说明

图1单词词频及排名示意;

图2等间距取词并分组示意;

图3寻找关键单词并确定词汇量示意。

具体实施方式

结合一个具体的实例方法,操作流程步骤如下:

1)选定语料库,统计每个单词出现的次数;

2)将所有单词按照词频由高到低排序,并记录每个单词的词频排名;

3)根据需要,确定等间距取词分组时的取词间距,并将所有单词分为若干组;

4)检测词汇量时,取一组单词作为样本代表进行检测,记录被检测者对于每个单词的掌握情况;

5)将这组单词按照词频由高到低排序,寻找符合条件的关键单词,此单词词频排序即为被测试者词汇量。



技术特征:

技术总结
在检测英语词汇量时,通常通过抽样的方式通过小部分单词模拟整体词汇量,抽样方式分为固定或不固定两种形式。固定抽样即从整体词库中选取固定的单词,这种方式的缺点是无法多次测试,因此无法对词汇量进行跟踪检测。不固定的抽样方式,是对每个单词进行参数计算,在测试过程中,根据被测试者每一题的检测结果及其参数生成下一题。此方法的缺陷在于,每个单词的参数计算依赖于实际的检测数据采集,检测方法的成型周期较长。基于词频排序及等间距取词,提出一种英语词汇量检测方法。通过本方法进行英语词汇量检测,可以避免前期过长的数据采集及参数模拟周期,实现多次测试,可以跟踪同一被检测对象在不同训练阶段的词汇量变化。

技术研发人员:杜昶旭;韩婧妍;刘月玮
受保护的技术使用者:北京博智天下信息技术有限公司
技术研发日:2017.08.31
技术公布日:2019.03.05
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1