一种识别语言文本难易度的系统及其方法

文档序号:6393917阅读:186来源:国知局
专利名称:一种识别语言文本难易度的系统及其方法
技术领域
本发明涉及一种应用于语言文本的分级处理系统及其方法,尤其是涉及一种识别语言文本难易度的系统及其方法。
背景技术
英语是目前世界上通用的国际语言,面对全球国际化的趋势,若是人们能够以流利的英文与其它不同语言系统的人们进行对谈,将有助于与其它语系人民的沟通与往来。
一般而言,语言的学习大致分为听、说、读、写四个部分,听与说是语言学习的重要基础,但其实当人们从小学到大学甚至是研究所整个求学的过程中,在学校阶段所学习到的英文多是偏重于读及写这两个部分。这是由于对非英语作为母语的人们而言毕竟是外语,且中国人所处的大环境仍是以中文为主要沟通语言的环境,而非以英文为主要沟通语言的环境。
在网络与电子邮件广泛应用的今天,对于这些非英语系国家的人民而言,英文的读与写往往比听与说成为更常用的重要技能。
而阅读英文文章在人们语言学习的过程中,实在占有极重要的地位。这是因为在阅读文章的同时,人们也可以学习到一些新的单字、句子的文法结构、如何流畅且简洁地写出欲表达的句子…等等,将有助于日后能够以更适当的单字或是句型成说出或是写出欲表达的意思。
如孔子所提倡的因材施教的观念,在语言学习的过程中,其实需依据不同使用者的程度而给予合适的教材,以慢慢地提升使用者的语言程度,且保持使用者对于语言学习的兴趣。
因为,对于一个语言的初学者而言,若在刚开始学习语言的阶段即给予内容艰涩的教材,可能会抹煞其对于语言学习的乐趣,进而降低其学习语言的兴致。或是对于一个学习英文的老手而言,太过于简单的学习教材亦无法有效地提升其英文程度。
目前市面上教学用的语言教材多会在其封面或是内容处标示出其适用的语言程度,例如以小学、国中、高中、大学程度作为区别,或是以全民英语检测的初级、中级、中高级及高级程度作为区别。而使用者可依据自己的语言程度选择适当的教材作为自行进修语言的材料,以加强自己的英文程度。
然而,对于目前刊登于报章杂志上或是在网络上张贴的英文文章,其实并没有一种有效的程度分级方法,以帮助使用者在刚开始看到一篇英文文章时即可大约了解这篇文章是否符合自己的语言程度,再开始阅读这篇文章。
因此,使用者往往是看到这篇文章中一半左右的内容后,才大致了解其实这篇文章中的文法或单字太难,而放弃阅读这篇文章。然而,此时可能已花费使用者很多的时间在查阅文章中的单字或文法等。

发明内容
本发明所要解决的技术问题是提供一种能自动识别语言文本难易程度的系统及其方法,并在显示装置上相应显示出难易级别,以便于使用者选择阅读。
为了实现上述目的,本发明提供了一种识别语言文本难易度的系统,其特点在于,包含有一数据库,用以储存一难易度分级标准及一字汇分级字表;一文本分析模块,依据一解析规则分析组成一文本的多个句子、多个单字及该文本中子句与长句的比率,并根据该字汇分级字表判别各该单字的难易度分级;及一对比模块,依据该文本的全文总字数、各单字所对应的难易度分级、该文本中子句的比率、长句的比率及与该难易度分级标准进行对比,以判别该文本的一难易度分级。该系统可用以识别一语言文本的难易度分级,使用者可将网络上张贴的英文文本直接转换为文字文件(.txt),或是将刊登于报章杂志上的英文文本先经过扫描仪扫描后,再以文字识别软件转换为文字文件;之后,再将此文本的文字文件加载于此识别语言文本难易度的系统中,即可依据一解析规则(文本的总字数、单字的难易度、文本中子句的比率及长句的比率)分析整篇文本。
之后,将分析所得的结果与一难易度分级标准进行对比,以判别此英文文本的难易程度(在以下说明中,将文本及单字的难易度划分为四个等级初级、中级、中高级、高级,以作说明),让使用者在刚开始看到这篇文本时,即可大约了解整篇文本对他的语言程度而言是太难、太简单或是程度相符,以决定是否要继续研读。
此外,当本系统判别完一篇文本的难易程度之后,会将文本中不同程度的单字分别以不同颜色标示出来,例如若判定某一篇文本的难易度是属于中级程度时,可将文本中属于初级、中高级、高级的单字分别以蓝色、红色、紫色标示出来,以方便使用者在刚看到一篇文本时,即可大略地了解各个单字的难易度。
下面结合附图和实施例进一步使对本发明的目的、构造特征及其功能详细说明如下


图1为本发明的识别语言文本难易度系统的系统架构图;图2为字汇分级字表的示意图;图3为难易度分级标准的示意图;及图4为本发明的识别语言文本难易度的方法流程图。
其中,附图标记10-数据库,20-文本分析模块,30-对比模块,40-标示模块步骤51,加载一文本;步骤52,依据一解析规则分析组成该文本的句子、单字及文本中子句与长句的比率,并依据一字汇分级字表判别各单字的难易度分级;步骤53,依据此文本的全文总字数、各个单字所对应之难易度分级、文本中子句的比率、长句的比率;步骤54,标示该文本中不属于此难易度分级的单字。
具体实施例方式
请参考图1所示,为本发明的识别语言文本难易度系统的系统架构图,该系统包含有数据库10、文本分析模块20、对比模块30及标示模块40。该系统可以设立在任意一种具有运算处理功能的硬件平台上,如PC机、电脑笔记本、PDA、多功能手机等等。
数据库10用以储存一字汇分级字表与一难易度分级标准。请参考图2所示,为字汇分级字表的示意图,由于该字汇是影响测验难易度的变量之一,因此,即可依据此字汇分级字表将所加载的英文文本中的单字进行分级。此字汇分级字表包含字汇、词性及其相对应的难易度分级。
在图2中所示的字汇分级字表采用国内大考中心全民英语检测所提供的参考字表,以对每个单字进行分级。除了采用全国英语检测所提供的参考字表外,亦可采用国际上一些权威机构所提供的字表,例如Heinemann GuidedReaders使用的分级系统是Beginner level(600个字)、Elementary level(1100个字)、Intermediate level(1600个字)、Upper level(2200个字)…等,以建构不同的单字其对应的难易度分级。
请参考图3所示,为难易度分级标准的示意图,由于组成一篇英文文本的元素有很多,例如句子、单字、文法…等,因此,本发明归纳出下列几个解析规则文本的总字数、单字的难易度、文本中子句的比率及长句的比率,以借助这些规则来判别一篇英文文本的难易度。
文本中出现子句的比率的计算方式是将所有的子句数目除以总句数再乘上100%而得,而子句的判别方式依据文本中关系代名词与关系副词(例如who、where、which…等)二者的总数而定。
文本中出现长句的比率的计算方式则是将文本中长句的句子数目除以总句数再乘上100%而得,而长句的判别方式则是将每一个句子的总字数与一预设字数(例如设定预设字数为15个字)相比较,当句子的总字数大于该预设字数时则判定此句子是属于长句。
当文本分析模块20接收到欲进行难易度分析的英文文本的文字文件之后,依据上述的解析规则(文本的总字数、单字的难易度、文本中子句的比率及长句的比率)分析组成此英文文本的每个句子、组成每个句子的单字及文本中子句与长句的比率,并依据储存于数据库10中的字汇分级字表判别各个单字所对应的难易度分级。
最后,对比模块30会将文本分析模块20分析文本所得的全文总字数、各个单字的难易度分级、文本中子句的比率及长句的比率与数据库10中所储存的难易度分级标准进行对比,以判别该文本的难易度分级,即判别此文本的程度是属于初级、中级、中高级或是高级。
举例而言,若某一个文本在文本分析模块20分析后所得到的结果为总字数255个字、29个子句、子句6句、长句3句、70%的单字符合初级、25%的单字符合中级、3%的单字符合中高级与1%的单字符合高级。之后,对比模块30会将文本分析模块20分析后所得的结果与图3中所示的难易度分级标准进行对比,即可得知该文本是属于中级的语言程度。
此外,标示模块40用以标示此文本中不属于其难易度分级的单字。例如当某一个文本经过对比后被判别为中级程度时,则文本中其它不属于中级程度的单字(初级、中高级、高级),即可以不同颜色的字体标示出来,以方便使用者识别,而加以学习。
请参考图4所示,为本发明的识别语言文本难易度的方法流程图,而在该方法的运作过程中提及系统运作架构的部分请参阅图1所示,说明如下首先,加载一文本(步骤51),将欲进行难易度分析的英文文本的文字文件加载于文本分析模块20中;接着,依据一解析规则分析组成此文本的句子、单字及文本中子句与长句的比率,并依据一字汇分级字表判别各单字之难易度分级(步骤52),文本分析模块20会依据文本的总字数、单字的难易度、文本中子句的比率及长句的比率这四个因素,分析组成此英文文本的每个句子、组成每个句子的单字及文本中子句与长句的比率,并依据储存于数据库10中的字汇分级字表判别各个单字所对应的难易度分级。
之后,依据此文本的全文总字数、各个单字所对应的难易度分级、文本中子句的比率、长句的比率及与难易度分级标准进行对比,以判别此文本的难易度分级(步骤53),对比模块30会将文本分析模块20分析文本所得的全文总字数、各个单字的难易度分级、文本中子句的比率及长句的比率与数据库10中所储存的难易度分级标准进行对比,以判别此文本的难易度分级。而进行到该步骤时即已判别出文本的难易度分级。
最后,标示此文本中不属于此难易度分级的单字(步骤54),例如当某一个文本经过对比后被判别为中级程度时,则标示模块40会将文本中其它不属于中级程度的单字(初级、中高级、高级)以不同颜色的字体标示出来,以方便使用者识别,而加以学习。
以上所述内容,仅为本发明其中的较佳实施例而已,并非用来限定本发明的实施范围;即凡依本发明主要的构思所作的等同变化与修饰,皆为本发明保护范围所涵盖。
权利要求
1.一种识别语言文本难易度的系统,其特征在于,包含有一数据库,用以储存一难易度分级标准及一字汇分级字表;一文本分析模块,依据一解析规则分析组成一文本的多个句子、多个单字及该文本中子句与长句的比率,并根据该字汇分级字表判别各该单字的难易度分级;及一对比模块,依据该文本的全文总字数、各单字所对应的难易度分级、该文本中子句的比率、长句的比率及与该难易度分级标准进行对比,以判别该文本的一难易度分级。
2.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据该语言文本的总字数判别该语言文本的难易度。
3.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据各单字的难易度分级判别该语言文本的难易度。
4.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据各句子中子句使用的多寡判别该语言文本的难易度。
5.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该难易度分级标准依据该语言文本中长句使用的比率判别该语言文本的难易度。
6.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该字汇分级字表包含多个字汇及其相对应的难易度分级。
7.如权利要求1所述的识别语言文本难易度的系统,其特征在于,该解析规则设定一预设字数,当该句子的字数大于该预设字数时,则判定该句子为长句。
8.如权利要求1所述的识别语言文本难易度的系统,其特征在于,更包含一标示模块,以标示该文本中非难易度分级的单字。
9.一种识别语言文本难易度的方法,其特征在于,包含有下列步骤加载一文本;依据一解析规则分析组成该文本的多个句子、多个单字及该文本中子句与长句的比率,并依据一字汇分级字表判别各单字的难易度分级;及依据该文本的全文长度、该文本中子句的比率、长句的比率及该文本中各单字所对应的难易度分级与一难易度分级标准进行对比,以判别该文本的一难易度分级。
10.如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据该语言文本的总字数判别该语言文本的难易度。
11.如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据各单字的难易度分级判别该语言文本的难易度。
12.如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据各句子中子句使用的多寡判别该语言文本的难易度。
13.如权利要求9所述的识别语言文本难易度的方法,其特征在于,该难易度分级标准依据该语言文本中长句使用的比率判别该语言文本的难易度。
14.如权利要求9所述的识别语言文本难易度的方法,其特征在于,该解析规则设定一预设字数,当该句子的字数大于该预设字数时,则判定该句子为长句。
15.如权利要求9所述的识别语言文本难易度的方法,其特征在于,依据该文本的全文长度、该文本中子句的比率、长句的比率及该文本中各单字所对应的难易度分级与一难易度分级标准进行对比,以判别该文本的一难易度分级的步骤之后,更包含标示该文本中非该难易度分级的单字。
全文摘要
本发明还公开了一种辨识语言文本难易度的系统及其方法,依据所加载的文本的总字数、单字的难易度、文本中子句的比率及长句的比率这几个解析规则分析整篇文本,并将分析所得的结果与一难易度分级标准进行对比,以判别此语言文本的难易程度。
文档编号G06F17/27GK1673996SQ20041002957
公开日2005年9月28日 申请日期2004年3月24日 优先权日2004年3月24日
发明者陈建安 申请人:无敌科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1