用于分析一段文本的方法和系统与流程

文档序号:12464598阅读:242来源:国知局

本发明涉及以计算机实现的用于分析一段文本的方法和系统。



背景技术:

信息和计算机技术的进步对包括教育在内的我们生活的各个方面产生显著影响。使用电子化学习资源作为课堂内外的教学的媒介已经成为全球趋势。随着电子化普及率的扩大,开发了大量包括电子文本和电子教科书的电子教学资源。

然而,与传统学习资料相似,教育工作者和家长所面临的一个困难在于,通常难以评估电子资源是于合适程度以满足特定教学或学习要求。而且还难以确定电子资源的内容是否能满足所需的特定学习目的。通常这些都是根据教育工作者和家长的经验进行评估,这容易受到主观看法的影响,因此可能是不准确的。

发明目的

本发明的一个目的是提供以计算机实现的用于分析一段电子文本的方法和系统。

本发明的另一目的是在某种程度上缓解或消除与已知电子文本分析 产品关联的一个或多个问题,或者至少提供有用的备选方案。

上述目的通过独立权利要求的特征的组合来实现;从属权利要求公开了本发明的其他有利实施例。

本领域的技术人员将从以下描述中得出本发明的其他目的。因此,以上目的陈述不是穷尽的,而是只用来说明本发明的许多目的。



技术实现要素:

总体上,本发明提供一种以计算机实现的用于分析一段文本方法。该方法包括将文本的一个或多个字符截取为分别具有至少一个字符的一个或多个块单元。该方法包括从一个或多个块单元中分选一个或多个独特块单元,并且将该一个或多个独特块单元与分级数据库进行比较,由此向一个或多个独特块单元的每个指配等级。文本段的总等级可基于一个或多个向一个或多个独特块单元的每个所指配的等级来确定。文本的总等级可从以下得出:文本连续截取增加大小的块单元,和对该块单元的连续处理。

在第一主要方面,本发明提供一种以计算机实现的用于分析一段文本的方法,该方法包括下列步骤:将文本的一个或多个字符截取成一个或多个分别具有至少一个字符的块单元;从一个或多个块单元中分选一个或多个独特块单元;并且将一个或多个独特块单元与分级数据库进行比较,由此向一个或多个独特块单元的每个指配等级。

在第二主要方面,本发明提供一种处理存储机器可读指令的计算机可读介质的方法,其中该机器可读指令在处理器上实现时,实现第一方 面的方法中的步骤。

在第三主要方面,本发明提供一种包括用于存储数据的存储器和用于运行计算机可读指令的处理器的系统,其中在用于实现第一方面的方法时,该处理器通过计算机可读指令来配置。

本发明内容部分不是必然公开定义本发明的必不可少的全部特征;本发明可在于所公开特征的子组合来实现。

附图说明

通过仅作为举例结合附图来提供的对优选实施例的以下描述,本发明的以上和其他特征将是显而易见的,附图包括:

图1是示出按照本发明、用于分析一段文本的以计算机实现的方法和系统的示意框图。

具体实施方式

以下描述仅作为示例性的优选实施例而不是对实施本发明所必需的特征的组合进行限制。

本说明书中提到“一个实施例”或“实施例”表示结合该实施例所述的具体特征、结构或特性包含在本发明的至少一个实施例中。词语“在一个实施例中”在本说明书的各个位置中的出现不一定都表示同一个实施例,也不是对其他实施例互斥的独立或备选实施例。此外,描述了可由某些实施例而没有由其他实施例来呈现的各种特征。类似地,描述了各种要 求,其对于某些实施例是需要的,而对于其他实施例则是不需要的。

应当理解,附图所示的元件可通过各种形式的硬件、软件或者其组合来实现。优选地,这些元件通过可包括处理器、存储器和输入/输出界面的一个或多个适当编程的通用装置上以硬件和软件的组合来实现。

参照图1,所示的是用于分析一段文本的系统的示意框图。文本段可为任何形式的文字,例如任何种类的文章、评论、故事、诗歌或文献。在本说明书的上下文中,文本可包括任何语言的一个或多个字符以及,可选的,一个或多个符号,例如标点符号。术语“字符”将被给予广泛含意,以包含“字母”、“字”、“数字”、“表意文字”等。

该方法能够在采取任何已知形式(包括台式计算机、笔记本电脑、平板电脑、智能手机或者任何便携电子智能装置)的计算机装置10中实现。优选地,计算机装置10可经由用于交换信息或数据的通信模块16与专用或公共的网络100(例如互联网)连接。

具体来说,计算机装置10包括用于输入待分析的文本的输入界面20。不同的输入路线在图1中通过虚线示出。例如,用户可经由计算机输入部件12(其可包括例如键盘或触摸屏面板)来输入文本。用户还可开启预先键入的、扫描的或保存的文本(例如采取.txt、.doc、.pdf或.jpg格式等),其已经事先准备并且保存在计算机装置10的存储器14中。用户还可经由通信模块16从互联网100下载目的电子文件(E-article)(例如采取.txt、.doc或.pdf格式或者用于电子装置的任何其他格式)。在一个实施例中,用户还可经由任何已知语音识别装置通过语音来输入文本。

所输入的文本段随后将由处理器30来处理和分析。首先,处理器30将通过将文本的一个或多个字符截取成分别具有第一预定义的N个字符的一个或多个块单元来处理文本,其中N为整数并且大于或等于1。截取步骤在图1中示为A。在一个实施例中,例如,在第一轮截取期间,将文本的字符截取成多个分别具有一(1)个字符的块单元中。然后这些块单元将被分选为一个或多个独特、即非重复的块单元。能够通过例如沿文本逐一扫描多个块单元,并且随后阻挡、去除或忽略所识别的任何重复块单元,来执行该分选步骤。备选地,还能够通过搜索多个块单元中的任何重复块单元并且随后阻挡、去除或忽略重复块单元进行分选。因此,每个已分选的块单元应当是独特并且相互不同的。分选步骤在图1中示为B。在一个实施例中,各独特块单元的重复数量能够被输出和/或向用户显示。

已分选的,独特的块单元然后将与分级数据库120进行比较,分级数据库120可存储在计算机装置10的存储器14中或者优选地如图所示位于远程网络100中。比较步骤在图1中示为C。分级数据库120可包括由例如相关教育团体或机构或者其他服务供应商所提供的一个或多个数据库,其单独或者组合地包含独特块单元的一个或多个字符的分级信息或者块单元本身。当开发或发现新字符、字、成语或字符串或者要求分级的修订时,分级数据库120可选地可由系统管理员和/或相干教育团体或机构或者其他服务提供商来更新。

通过将该独特块单元与分级数据库120的分级信息进行比较,能够 向独特块单元的每个指配等级。该指配步骤在图1中示为D。在一个实施例中,每个独特块单元的所指配的等级能够由输出界面40来输出并且向用户显示。输出界面40还可按照统计格式、例如图表来输出每个所指配的等级中的独特块单元的总数,以便为用户提供关于分级的相对指示。基于向每个独特块单元所指配的等级的一个或多个,或者优选的全部的,等级和/或各等级中的独特块单元的数量,则能够采用基于具有特定数量的字符(其在上述示例中为1)的独特块单元的分析来确定文本段的整体的总等级。

同样地,取决于来自用户的具体设定和指令,能够将文本截取为具有不同数量的字符的块单元。例如,该块单元具有分别用于分析2字词语、3字词语、4字词语或多字词语(例如成语或诗歌)的2、3、4或更多的字符。

在一个实施例中,能够执行连续截取,以便提供关于文本的分级的总体分析。例如,在处理各具有N个字符(在前一示例中N=1)的块单元的这一轮截取之后,文本则能够截取为分别具有预定义的M个字符的多个块单元,其中M为整数并且大小比第一预定义的N要大。例如,文本的字符然后在第二轮截取期间截取成分别具有两个字符(M=N+1)的多个块单元。两个字符的这些块单元将分选为一个或多个独特块单元,并且随后如上所述与分级数据库120来匹配和比较。该过程继续以各块单元中增加数量的字符来重复这些步骤。文本连续截取为增加大小的块单元,以及这类块单元的连续处理将产生该文本的总等级。

可理解,一段文本将包括句子之间的标点符号,因此截取的规则可被例如在词语或句子末尾的逗号或句号所影响。在这种情况下,标点符号之前产生于上一截取的块单元可能具有比预定数量要少的字符数量。这个块单元将仍然在与其他块单元相同的处理步骤下处理。

在另一个实施例中,在分选步骤之后,已分选的独特块单元的每个将在与分级数据库120来比较以进行分级之前与一个或多个特性领域关联。一个或多个特性领域可涉及一个或多个特性,包括但不限于下列至少一个:独特块单元的(i)结构;(ii)含意;(iii)性质;以及(iv)发音。这些特性的示例可包括但不限于:(i)结构:成分、成分的定位和/或成分的数量(例如笔划数)等;(ii)含意:同义词和/或反义词等;(iii)性质:语法性质,例如词性(例如名词、动词、形容词等)等;以及(iv)发音:标音(例如拼音)等。关联步骤在图1中示为E。

在关联步骤期间,该特性将通过来自一个或多个特性数据库140的特性数据来确定或定义。例如,可通过与特性数据库140进行比较以确认组成块单元的字符给予块单元可能或适当的含意,来首先识别独特块单元的“含意”。如果发现块单元只是没有特定含意的不相关字符的随机组合,则这个块单元将不作进一步处理。另一方面,如果发现块单元具有按照特性数据库140的含意,则这个块单元将进入下一步骤,以用于与分级数据库120进行比较,并且随后指配有等级。

具体来说,与一个或多个特性领域(例如i、ii、iii、iv)关联的独特块单元然后将与分级数据库120的多个领域集(例如,如图1所示的I、II、 III、IV)进行比较,其中领域集按照一个或多个特性领域来分类。例如,具有5笔划结构的一个字符的独特块单元将与分级数据库120的对应领域集(即,结构)进行比较,以便基于字符的结构的相对复杂度向块单元指配等级。具有带含意(如通过与特性数据库140进行比较所定义或确定)的两个字符的另一个独特块单元将与分级数据库120的对应领域集(即,含意)进行比较,以便基于含意的相对难度向块单元指配等级。

可选地,来自关联步骤的结果、即具有对应特性的一个或多个独特块单元之间的关联能够存储在计算机装置10的存储器单元14中。这是有利的,因为在另一段文本的分析期间来分选具有相同的一个或多个字符的独特块单元时,相干关联能够立即从存储器14来检索,因而协助对处理器30的总处理时间加速。

在关联、比较和指配步骤之后,各等级的各特性领域中的一个或多个独特块单元的总数能够经由输出界面40按照统计格式(例如图表)来输出,以便基于各种特性领域来为用户提供关于文本的分级的相对指示。

与分级数据库120相似,特性数据库140能够存储在计算机装置10的存储器14中,或者优选地如图所示位于远程网络100中。特性数据库140可包括由相关教育团体或机构或者其他服务提供商所提供的一个或多个数据库,其单独或组合地包含用于表征和定义一个或多个字符的信息。可选地,当开发或发现一个或多个字符的新特性或定义时,特性数据库140可由系统管理员和/或相关教育团体或机构或者其他服务提供商来更新。在一个实施例中,特性数据库是一个或多个词典数据库。

在另一实施例中,包括截取、分选、关联、比较和指配步骤的至少一个的处理步骤能够在本地服务器或远程服务器180而不是计算机装置10的处理器30中执行。例如,文本能够上传到网页,并且处理步骤能够在网页中进行。

本发明还涉及存储机器可读指令的计算机可读介质,该机器可读指令在处理器30上实现时能实现如上所述方法的步骤。

本发明还涉及一种系统,其包括用于存储数据的存储器14和用于运行计算机可读介质的处理器30的,其中该处理器30在用于实现如上所述的方法时被计算机可读指令设置。

本发明的有利之处在于,它提供一段文本的有效和系统分析及评估,其中结果按照易于理解的格式、例如分级来呈现。通过将文本的内容与识别的,授权的信息来源进行比较进行评估,而无需涉及用户的任何主观判断。因此,结果是可靠、客观和无偏见的。方法和系统在快速、有效和用户友好的计算机界面中实现。在一个实施例中,本发明能够应用于教育、例如电子化学习中,并且具体来说用于评估或确认电子资源的分级或水平。本发明能够易于在课堂和家庭学习环境中用于让教师、家长和学生测定学习进度。在另一个实施例中,本发明还能够应用于一般涉及写作、编辑和出版等的任何非教育部门。

本发明按照计算有效方式来实现文本的有效、快速和高效分析以便于分级,因为它的一个或多个步骤或例程能防止或减少对数据的不必要处理。例如,具有数百或数千字的一段文献的详细分析能够在数秒钟内 处理。另外,多个文本也能够同时处理和分析。

本描述说明本发明的原理。因此将会理解,本领域的技术人员将能够设计各种布置,其虽然没有在本文中进行明确描述或说明,但是体现了本原理,并且包含在它的精神和范围之内。

此外,本文中描述本发明的原理、方面和实施例的所有陈述及其具体示例预计包含其结构和功能等效方面。另外,应理解这类等效方案包括当前已知的等效方案以及将来开发的等效方案、即所开发的执行相同功能的任何元件,而与结构无关。

虽然在附图和以上描述中详细示出和描述了本发明,但是其在性质上将被理解为说明性的而不是限制性的,还应理解,仅示例性实施例被示出和描述,它们不会以任何方式来限制本发明的范围。能够理解,本文所述特征的任一个可与任何实施例配合使用。说明性实施例并不是互斥的,或者不排除本文没有叙述的其他实施例。相应地,本发明还提供包括上述说明性实施例的一个或多个的组合的实施例。能够进行如本文所提出的本发明的修改和变更,而没有背离其精神和范围,并且因此仅应当如所附权利要求书所示来施加这类限制。

在所附权利要求书中,任何表示为用于执行特定功能的装置的元件预计包含执行该功能的任何方式,例如包括:a)执行该功能的电路元件的组合;或者b)任何形式的软件,因此包括固件、微码等,与适当电路相组合以用于运行执行该功能的软件。通过本权利要求书所限定的本发明在于如下事实:按照权利要求书所要求的方式来组合和集中各种所述 部件所提供的功能性。因此认为能够提供那些功能性的任何部件与本文所示部件是等效的。

在以下权利要求书和本发明的先前描述中,除了上下文因表达语言或必要暗示而要求之外,术语“包括”或者其变形体按照包含意义来使用,即,指定所述特征的存在,但是并不排除本发明的各个实施例中的其他特征的存在或添加。

要理解,如果本文中参照任何现有技术公开物,则这种参照并不构成对于该公开物形成本领域的一部分公知常识的认可。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1