一种互联网上汉语电子文档阅读分级的方法

文档序号:6560469阅读:209来源:国知局
专利名称:一种互联网上汉语电子文档阅读分级的方法
技术领域
本发明涉及一种汉语电子文档的阅读分级方法,特别针对互联网时代电子文档越来越普及,需要划分其阅读级别以适于不同年龄层次或汉语掌握程度的用户阅读。
背景技术
随着互联网的快速发展,智能手机、平板电脑、以及其他便携电子设备的日益普及,电子文档越来越成为人们日常阅读的主要对象。青少年目前已成为电子文档阅读的主流群体之一;另外,汉语学习热在国外已成流行趋势,大量国外汉语学习者亦通过电子文档来学习汉语。这些都需要对电子文档的阅读级别进行合理界定,以方便阅读者选择合适的汉语电子文档来阅读和学习。国内除传统中小学汉语教材和教辅材料有阅读级别的界定外,大量文档材料尤其是互联网电子文档缺少对阅读级别的界定。为了解决这一问题,就需要提供对汉语文档的阅读分级技术和工具。目前,对文档的阅读级别进行界定有两类方法其一是可读性判定或评估;其实质是一个二分法,即首先给定阅读者的阅读水平,如初中一年级(如果从小学一年级算起,可以认为是汉语阅读7 级),然后判定目标文档是否适合该阅读者。这是一种相对粗略的阅读级别确定方法,需要针对每一个级别设定一个判定公式。其二是阅读分级或评分;即根据一个统一的分级公式计算目标文档的阅读级别,或者针对不同级别评分,直接确定该文档的阅读级别。例如可以确定目标文档属于初中一年级(级别7)、还是初中二年级(级别8)、或者是小学六年级(级别6)。界定文档阅读级别可以基于两个方面的信息其一是文档的结构信息和指标,例如汉字的笔画(音节)数量、字词的重复次数、句子和段落的长度等,根据这些指标(及其组合)采用拟合和分类等学习算法对目标文档进行分级。采用这类信息在英语等表音语言运用比较有效,在国际上已有应用。汉语是一种表意语言,采用这种方法存在一定问题。其二采用统计语言模型,将语言分解成不同层次的基本单元,根据各个基本单元的分布情况和目标文档中基本单元组成确定目标文档的阅读级别。采用这类信息对表意语言比较有效,但目前还没有应用于汉语文档的阅读分级。

发明内容
本发明所要解决的技术问题是提供一种互联网上汉语电子文档阅读分级的方法, 本方法可以直接计算目标文档所属的阅读级别,同时适于汉语作为表意语言的特点,计算简单,具有扩展性,且能够分析敏感词汇。为实现上述目的,本发明采用如下的步骤1)在现有的已界定阅读级别的汉语文档基础上,确定汉字、词组、以及语句结构指标在不同级别文档中的频率分布;2)筛选用来对汉语文档阅读分级的汉字和词组,删除其中的常用词和冷僻词;3)针对待分级的目标文档,分析文档的字词组成,将文档解析成〈字词、出现次数>二元组向量;4)统计目标文档的语句结构指标,包括平均段落长度、平均句子长度、最长句和最短句的长度差异;5)采用朴素贝叶斯方法,基于文档的字词组成信息和语句结构信息确定文档的阅读级别。上述步骤1)中的汉语文档库的构建要求是首先收集不同阅读级别的文档,如中小学语文课文、课外读物和期刊、汉字生字表等,然后对所收集文档进行筛选,使每个阅读级别的文档数量大体相同,处理方法是增补或删除属于某个阅读级别的文档,计算所有级别文档数量的均值及和均方差std ( ,使得各级别文档数量的最大偏差小于3倍std(S)。步骤1)中确定汉字、词组在不同阅读级别中频率分布的流程首先解析各个阅读级别文档中包含的汉字和词组,累加字词在各个级别中出现的次数、以及在所有文档中出现的总次数;然后令字词W在级别&中出现的次数为Ci(W),在所有级别中出现的总次数为 C (w),可计算W在级另Ij gi出现的频率Q1(W)
权利要求
1.一种互联网上汉语电子文档阅读分级的方法,其特征在于包括以下步骤1)储备已界定阅读级别的汉语文档库,确定汉字、词组和语句结构指标在不同阅读级别中的频率分布;2)筛选用来对汉语文档阅读分级的汉字和词组,删除其中的常用词和冷僻词;3)针对待分级的目标文档,分析文档的字词组成,将文档解析成< 字词、出现次数> 二元组向量;4)统计目标文档的语句结构指标,包括平均段落长度、平均句子长度、最长句和最短句的长度差异;5)采用朴素贝叶斯方法,基于目标文档的字词组成和语句结构确定文档的阅读级别。
2.根据权利要求1所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤1) 中的汉语文档库的构建要求是首先收集不同阅读级别的文档,然后对所收集文档进行筛选,使每个阅读级别的文档数量大体相同,处理方法是增补或删除属于某个阅读级别的文档,计算所有级别文档数量的均值及和均方差std(S),使得各级别文档数量的最大偏差小于 3 倍 std(S)。
3.根据权利要求1或2所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤1)中确定汉字、词组在不同阅读级别中频率分布的流程是首先解析各个阅读级别文档中包含的汉字和词组,累加字词在各个级别中出现的次数、以及在所有文档中出现的总次数;然后令字词w在级别&中出现的次数为Ci(W),在所有级别中出现的总次数为c(w),可计算w在级别&出现的频率θ i (W)a (、 C1(W)Hw) =C(W)最后由此构建字词W的频谱θ (W) = P1(W), 02(w),…,em(w)},其中m为阅读级别设定的总数。
4.根据权利要求1或2所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤1)中确定语句结构指标在不同阅读级别中频率分布的流程是首先解析各个阅读级别文档中的语句结构,统计文档的平均段落长度,即所包含句子数量δ、平均句子长度,即所包含汉字数量μ和句长最大偏差ο ;然后累加不同δ值、μ值和σ值在各个级别出现的次数、以及在所有文档中出现的总次数;最后分别计算δ值、μ值和σ值在级别^中的频率 θ i ( δ )、θ i ( μ )和 θ i ( ο),构成对应频谱 θ ( δ )、θ ( μ )和 θ ( σ )。
5.根据权利要求3所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤2) 中常用词和冷僻词的排除方法是给定汉字或词组w,判定常用词基于Qi(W)或者经过平滑处理后的θ ‘ i(w)之间的最大偏差θmax(W)-emin(w);其中emax(w)和emin(w)分别对应Qi(W)的最大值和最小值,以及Qi(W)的均值风《;选定比例系数r,则满足下述公式的字词W被认为是常用词Omax(W) — 9min(w) ^rx 9{w)判定字词W是否是冷僻词根据各Qi(W)的取值,如果Qi(W)只在少数几个阅读级别取值大于0 ;或者各级别文档中出现的次数Ci (w)小于给定值,则认为w是冷僻词。
6.根据权利要求5所述的互联网上汉语电子文档阅读分级的方法,其特征在于汉字或词组频谱分布的平滑方法为给定字词w,采用高斯平滑方法对Θ (w)做平滑处理,即对 θ i (W),根据周边级别的频率值做加权平均,权值按其级别数同本级别^的距离递减,权值设定采用高斯函数,计算公式如下
7.根据权利要求1或2所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤3)的具体过程是首先采用汉语分词技术解析目标文档D中的汉字和词组,计数目标文档中包含的不同汉字和词组的数量;然后针对文档D中的每一个汉字或词组% 如果Wj属于用于文档分级的字词,则统计%在文档D中出现的次数…;否则排除% ;最后将目标文档 D组织成一个二元组向量,其中有效字词个数为η
8.根据权利要求4所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤4) 中计算目标文档语句结构指标的流程是首先解析出目标文档D的所有句子。然后按照段落和语句两个层次计算文档D的语句结构指标在段落层次,统计文档中的段落数量cp,计算段落的平均长度δ ;在语句层次,统计句子的总数cs,计算句子的平均长度μ,以及句长的最大偏差ο,即最长句和最短句长度差。
9.根据权利要求8所述的互联网上汉语电子文档阅读分级的方法,其特征在于步骤5) 中确定目标文档阅读级别的具体过程是首先给定级别^,采用朴素贝叶斯方法计算文档D 属于级别&的条件概率PfeiId);为简化计算,对条件概率取对数,计算公式如下
全文摘要
本发明公开了一种互联网上汉语电子文档阅读分级的方法,首先确定汉字、词组、以及语句结构指标在不同级别文档的频率分布;筛选用来对文档阅读分级的汉字和词组,避开常用词和冷僻词的干扰;再针对待分级的目标文档,分析文档的字词组成,将文档解析成<字词、出现次数>二元组向量;计算文档的语句结构指标,包括平均段落长度、平均句子长度、最长句和最短句的长度差异等;最后采用朴素贝叶斯方法,基于汉语文档的字词组成信息和语句结构信息确定文档的阅读级别。通过解析文档的汉字和词组构成,结合文档的语句结构,根据各个字词和结构指标在不同阅读级别文档中的频率分布,运用朴素贝叶斯方法,有效确定了汉语电子文档的阅读级别。
文档编号G06F17/27GK102214246SQ20111020042
公开日2011年10月12日 申请日期2011年7月18日 优先权日2011年7月18日
发明者李敏, 汤九斌, 陈道蓄, 顾庆, 骆斌 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1