一种基于文本语言变量的汉语阅读能力的分级方法与流程

文档序号：11729314阅读：382来源：国知局

本发明属于阅读能力的分级方法技术领域，特别是一种基于文本语言变量的汉语阅读能力的分级方法。

背景技术：

阅读理解能力是一种内隐的能力，判断阅读理解能力水平需要找到物理性质的可观察的指代，这种指代就是文本的语言变量。在英语国家，文本分级常用的方法是：将学生的阅读理解得分作为阅读文本的难度得分，采用最小二乘法计算和筛选预测文本难度得分的最佳语言变量。该方法存在的问题是：学生的阅读理解得分受到阅读理解问题的影响，即相同的文本，不同的阅读理解问题，学生的得分可能完全不同，但是英语国家的研究者并没有计算阅读理解问题是如何影响阅读理解得分的，这种忽略很可能使得阅读理解得分难以真实的反映阅读文本的难度。

在汉语的阅读分级研究中，繁体和简体中文的文本分级方法多借鉴英语国家研究者的方法，具有一定的合理性。但是英语为拼音文字，重形合，汉语为表意文字，重意合，英语文本难度的最佳预测变量对汉语不一定有适合性。

在具体的方法上，汉语研究者计算文本全文中所含的音节数量、笔画数量、词长、词频、句长等变量，将这些变量作为自变量，将学生所在的年级或者阅读理解得分作为因变量，采用回归分析，找到最佳匹配的函数公式。这些研究忽略了阅读理解测试时的阅读方法和非测试时的阅读方法之间的差异。例如，如果阅读理解问题涉及到某个难词，学生对该难词的处理水平就极大的影响了他的阅读理解得分(即作为因变量的文本难度得分)，而在非测试的阅读时，学生则可以跳过该词。换言之，学生在这两种情况下对同一语言变量的处理不同，学生对难度的感知不同，但是现有研究并没有进行区分。

技术实现要素：

本发明所要解决的技术问题是提供一种基于文本语言变量的汉语阅读能力的分级方法，通过计算目标文本的难度级别获取阅读能力的级别，拟合优度高，符合汉语的语言特点，计算简单快速，具有扩展性，准确度高。

为实现上述目的，本发明采用如下的方法

一种基于文本语言变量的汉语阅读能力的分级方法，包括以下步骤：

1)确定阅读理解测试的被试、文本和阅读理解问题，在所述文本中找到对应于每道所述阅读理解问题的答案所涉及的文本片段，作为源文本；

2)分别计算步骤1)每道所述阅读理解问题对应的源文本的语言变量，作为自变量；

3)用步骤1)的文本和所述阅读理解问题测试被试，将被试的阅读理解得分指代阅读理解能力，作为因变量；

4)计算步骤2)自变量和步骤3)因变量之间的皮尔逊积差相关系数；

5)对步骤4)所得的相关系数由高到低进行排序，筛选出排序在前5位的自变量，采用最小二乘法确定预测因变量的最佳语言变量，导出最佳匹配函数。

所述步骤1)中阅读理解问题的类型为反映被试阅读理解心理的全部过程，包括感觉、知觉、记忆、思维和想象。

所述步骤2)中的自变量有6类，该6类自变量分别为字、词、句、段落、篇章和词语联结；所述自变量的计算方法为：采用汉语词频工具计算词的重复次数，采用chinesetextanalyzer软件和《现代汉语语料库词频表》计算熟词，采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。

所述步骤3)的因变量采用t分数，所述t分数的计算步骤和定义为：

首先批阅被试的试卷，获得每道阅读理解问题所有被试的原始平均分；接着将上述每个原始平均分转化为百分数，公式是：百分数＝原始平均分/满分值×100％；所述满分值为对应该原始平均分的阅读理解问题的满分值；

以篇为单位对百分数进行z分数处理，公式是：z分数＝(x-μ)/σ，

其中：

σ为标准差；x为该篇文本的单道阅读理解问题的百分数；μ为该篇文本的所有阅读理解问题的的百分数的均值；n为该篇文本的阅读理解问题数量；

再将所得z分数转化为t分数，公式是：t分数＝500+10×z分数。

所述步骤4)皮尔逊积差相关系数的计算公式是：

式中：

p＝皮尔逊积差相关系数

m：阅读理解问题的数量

yi：第i个阅读理解问题的t分数；

m个阅读理解问题的t分数的均值；

xi：第i个阅读理解问题所对应的自变量；

m个自变量的均值。

所述步骤5)导出最佳匹配函数的具体方法是：

将步骤4)所得的皮尔逊积差相关系数由高到低进行排序，筛选出排序在前5位的自变量，将筛选出的自变量和步骤3)所述因变量输入statisticalproductandservicesolutions软件中进行最小二乘法多元线性回归分析，根据输出的多重判定系数r²检验拟合优度，输出最佳匹配函数是：

yk＝β0+β1χ1+β2χ2+β3χ3+ε

上式中，yk：所述预测因变量；

x1，x2，x3：为预测阅读理解能力和文本难度的最佳自变量。

β1,β2,β3：为偏回归系数

ε：随机误差

上述最佳匹配函数就是分级公式。

本发明的优点在于：本发明方法从信息加工心理学理论的视角，区分了在阅读理解测试中的阅读和非阅读理解测试中的阅读的认知特点，采用对阅读理解问题的答案源文本中语言变量进行分析的方法，拟合优度高，达到复合相关系数0.97，拟合优度94％，符合汉语的语言特点；计算简单快速，具有扩展性，准确度高。

附图说明

图1是本发明一种基于文本语言变量的汉语阅读能力的分级方法的流程框图。

具体实施方式

如图1所示，本发明一种基于文本语言变量的汉语阅读能力的分级方法的步骤为：

1)确定被试：确定被试为初二年级的学生。根据《教育部义务教育语文课程标准》，该年级段的学生要求累计认识常用汉字3500个，累计覆盖《现代常用字表》的99.48％，具备了较好的测试基础；

2)对被试的语文课本题材进行整理：鉴于学生的阅读题材是影响阅读理解能力的因素，例如应用类题材普遍比文学类题材难度更大，根据语文课本中的题材分布挑选阅读理解测试的文本有利于反映学生阅读理解的真实水平，所以分析了人教版八年级和九年级语文课本中的题材；

3)根据整理的题材选取阅读测试材料：鉴于我国尚没有针对母语的、标准化的、大型的汉语阅读理解能力测试试卷，采用了我国台湾和香港地区中小学生使用的标准化阅读测试文本和阅读理解问题，题材分布上与我国大陆地区初中语文教材的分布相符。

4)结合读者阅读认知心理过程确定阅读问题：阅读是对文本信息进行心理加工和处理的过程，先确定了信息加工心理学的视角，根据学生从低到高的思维过程(感觉、知觉、记忆、思维和想象)确定了三类阅读理解问题，即进入与提取、综合与阐释、反思与评价，全面考查被试的阅读理解能力，实现对阅读理解能力的分级。

5)对被试进行阅读理解能力的测试：对被试进行标准化测试后，统一批阅试卷，保证评分者的信度和效度。将被试的阅读理解得分指代阅读理解能力，作为因变量。

6)对试卷进行信度、效度检验：试卷的整体信度0.9，结构效度超过0.8，符合要求，且达到较高的水准。

7)基于阅读理解问题，整理文本自变量：

面对阅读理解测试中的阅读和非阅读理解测试中的阅读时，被试对难词和难句以及它们所构成的段落与篇章的阅读方式和处理方式不同，这使得被试对它们的难度感受不同。在阅读理解测试中，对被试构成难度的语言变量是那些影响他们解答阅读理解问题的部分。将文本中针对每道阅读理解问题之答案的文本片段进行确定，它们是分析文本语言自变量的源文本。

具体的语言变量如下：

篇章：源文本篇章中的段落数量；总字数和总词数；不重复的字数和不重复的词数。

段落：源文本段落中的段落数量，段落中的句子数量、重复和不重复词与字的数量。

句子：源文本句子中的复合句、简单句和子句的句子数量以及各自所占总数的百分比，三类句子中的重复和不重复词与字的数量。

非比对字频和词频(自有字频和自有词频)：重复1-10次的自有字频和自有词频及其所占百分比。

比对的词频(熟词)：比对的对象是《现代汉语常用词表》；首先分为词表词(n＝14629)和非词表词；词表词又分为容易词(n＝300)和难词(n＝11629)；容易词中分为高频词(n＝1000)、中频词(n＝1001-2000)、低频词(n＝2001-3000)。

词语联结：源文本中的词性，句法结构。

将源文本中的上述变量导入汉语语料库在线网站上的词频工具计算词的重复次数，导入chinesetextanalyzer软件和《现代汉语语料库词频表》计算熟词，文本可读性指标自动化分析系统2.3计算词语联结和笔画数。

8)整理文本因变量：

(a)根据评分标准评阅阅读理解测试卷，分别获得每道阅读理解问题的原始平均分数，公式是，

式①中，x1···xn＝原始分数的观察值；

n＝被试的数量。

(b)将每道阅读理解问题的原始平均分数转化为百分数，公式是，

百分数＝原始平均分/满分值×100％；②

式②中，满分值为对应该原始平均分的阅读理解问题的满分值

(c)以篇为单位，将百分数转化为标准分数z分数，公式是，

式③中：

σ为标准差；x为该篇文本的单道阅读理解问题的百分数；μ为该篇文本的所有阅读理解问题的的百分数的均值；n为该篇文本的阅读理解问题数量。

(d)为了避免负值和小数点，将步骤c)所得z分数转化为t分数，公式是：

t分数＝500+10×z④

t分数的标准均值满足500分，呈正态分布。

9)筛选自变量：

计算步骤7)计算的自变量和步骤8)处理的因变量之间的皮尔逊积差相关系数。

皮尔逊积差相关系数的计算公式是：

式中：

p＝皮尔逊积差相关系数

yi：第i个阅读理解问题的t分数，的均值，i＝1···m；

xi：第i个阅读理解问题所对应的自变量，

xi的均值，i＝1···m；

m＝阅读理解问题的数量。

分别确定6类自变量中与因变量具有显著性相关关系，即p<0.05的自变量，按皮尔逊积差相关系数从高到低排序，从每个类型中筛选出相关系数值位列前5的自变量。

10)拟合最佳函数

将因变量和上述步骤9)筛选出的自变量输入statisticalproductandservicesolutions(spss)软件中，进行最小二乘法多元线性回归分析，根据输出的多重判定系数r²检验拟合优度：满足拟合优度r²接近1；满足方差膨胀因子vif＜10；满足回归系数的显著度p＜0.05。确定输出最佳匹配函数是

yk＝β0+β1χ1+β2χ2+β3χ3+ε⑥

式中，yk＝所述预测因变量，是自变量和因变量的数量关系结果,

x1，x2，x3为预测阅读理解能力和文本难度的最佳自变量，

β1,β2,β3为偏回归系数

ε＝随机误差。

公式⑥就是分级公式，yk既是阅读理解能力分数，也是文本的难度分数。高阅读理解能力分数意味着低文本难度。该公式的多重判定系数r²＝0.94，拟合优度高，可以解释阅读理解能力和文本难度的94％的变异。

本发明方法从信息加工心理学理论的视角，区分了在阅读理解测试中的阅读和非阅读理解测试中的阅读的认知特点，采用对阅读理解问题的答案源文本中语言变量进行分析的方法，采用标准化t分数指代阅读理解能力和文本难度，拟合优度高，符合汉语的语言特点。被试完成1-2道阅读理解问题，即可以测算出他的阅读理解能力，复合相关系数0.97，拟合优度94％，计算简单快速，具有良好的适用性和可推广性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗德红;龚婧;李奕霏;王梦欣
技术所有人：广西大学
我是此专利的发明人

上一篇：基于Spark平台的快速高精度语义相关度计算方法与流程
上一篇：基于排版引擎的数据处理方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。