一种基于词条作家热度构建分类分级词表的方法及系统与流程

文档序号:18642688发布日期:2019-09-11 23:43阅读:211来源:国知局
一种基于词条作家热度构建分类分级词表的方法及系统与流程

本发明涉及分类分级词表技术领域,特别是指一种基于词条作家热度构建分类分级词表的方法及系统。



背景技术:

分类分级词表是儿童分级阅读计量的基础资源,在儿童的成长中,从分类分级词表中的特定类型词条的自然属性那里获得的信息,是一份极为重要的精神营养。面向儿童阅读需求构建分类分级词表可以为儿童分级阅读计量提供基础资源。而在分类分级词表的构建过程中,词汇分级是文本分级的重要依据。

现有对分类词汇进行分级的方法主要是基于语料库提取常用词经常使用“频次”和“分布”。基于频次和分布计算词的使用度,编出按使用度高低排列的分级表,其分布主要考虑的是语料的“分类”与“语篇”的数量,此方法一般适用于常规基础词语的分类分级。

但对于一些作品字数不平衡和作家作品数不平衡的文学语料库,上述方法并不适用;例如对于儿童文学语料,其中的儿童文学服务于各年龄层次的儿童,不同作品间存在很大的字数差异性;每个作家对应的作品数量也存在很大差异。如果按照使用“频次”和“分布”对儿童文学语料中提取的分类词条进行分级排序,就容易出现对于同一词条,根据篇幅较小的作品计算的使用度会偏小,而根据篇幅较大的作品计算的使用度又会偏大;并且会使得高作品数量作家作品中的分类词条在排序上占有优势;如此一来,势必造成基于此类分级方式所构建的分类分级词表不合理的问题。



技术实现要素:

本发明要解决的技术问题是提供一种基于词条作家热度构建分类分级词表的方法及系统,针对作品字数不平衡和作家作品数不平衡的文学语料库,提供一种基于词条作家热度对词条进行排序的方案,并在此基础上构建更为合理的分类分级词表,进而为儿童分级阅读计量提供基础资源。

为解决上述技术问题,本发明的实施例提供一种基于词条作家热度构建分类分级词表的方法,其包括:

按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;

根据所述分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;

基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;

将同一词条所对应的各作家热度求和,得到相应词条的词条热度;

根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。

进一步地,每一词条在同一作家的各作品中的作品热度通过下式计算得出:

其中,fi,w,j为词条i在作家w的作品j中的作品热度,fci,w,j为词条i在作家w的作品j中的频次,fzw,j为作家w的作品j的总字数,k为自定义常量。

可选地,k的取值为10000。

可选地,所述预设函数为取最大值函数,取平均值函数,取中位数函数,以及求和函数中的任意一种。

进一步地,所述对所述分类词集中所有词条进行排序,具体为:

对所述分类词集中所有词条按照各词条对应的词条热度的降序进行排序。

相应地,为解决上述技术问题,本发明的实施例还提供一种基于词条作家热度构建分类分级词表的系统,其包括:

分类词集构建模块,用于按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;

作品热度计算模块,用于根据所述分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;

作家热度计算模块,用于基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;

词条热度计算模块,用于将同一词条所对应的各作家热度求和,得到相应词条的词条热度;

分类分级词表构建模块,用于根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。

进一步地,所述作品热度计算模块通过下列公式计算每一词条在同一作家的各作品中的作品热度:

其中,fi,w,j为词条i在作家w的作品j中的作品热度,fci,w,j为词条i在作家w的作品j中的频次,fzw,j为作家w的作品j的总字数,k为自定义常量。

可选地,k的取值为10000。

可选地,所述作家热度计算模块所采用的预设函数为取最大值函数,取平均值函数,取中位数函数,以及求和函数中的任意一种。

进一步地,分类分级词表构建模块在对所述分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序对所述分类词集中所有词条进行排序。

本发明的上述技术方案的有益效果如下:

本发明的方案通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;将同一词条所对应的各作家热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。很好地解决了文学语料库中作品字数不平衡和作家作品数不平衡的问题;以词条对应的各作家热度之和作为该词条的词条热度,并基于此词条热度对分类词条中的所有词条进行排序,从而构建出排序更合理的分类分级表,进而为儿童分级阅读计量提供了基础资源。

附图说明

图1为本发明第一实施例提供的基于词条作家热度构建分类分级词表的方法的流程示意图;

图2为本发明第二实施例提供的基于词条作家热度构建分类分级词表的系统的框图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明针对现有的构建分类分词表的方法不能解决文学语料库作品字数不平衡和作家作品数不平衡的问题,提供一种基于词条作家热度构建分类分级词表的方法及系统,下面以具体实施例的方式阐述本发明的原理。

第一实施例

请参阅图1,本实施例提供一种基于词条组作家热度构建分类分级词表的方法,其包括:

s101,按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;

需要说明的是,文学语料库是指由文学作品组成的语料库,每部作品取其第一作者为该作品的作者;而本实施例此处的文学语料库特指作品字数不平衡和作家作品数不平衡的文学作品语料库;在其中短篇、中篇、长篇作品共存,各文学作品的总字数差异较大;各作家的作品总数差异也较大。

分类词集是一种词语列表,该词语列表是某种分类词语的集合(例如:动物词语),该集合中的每个词语是本方法需要进行词语热度计量的对象,该分类词集是本方法的输入。

s102,根据分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;

需要说明的是,此处是通过下列公式计算得出每一词条在同一作家的各作品中的作品热度:

其中,fi,w,j为词条i在作家w的作品j中的作品热度,fci,w,j为词条i在作家w的作品j中的频次,fzw,j为作家w的作品j的总字数,k为自定义常量;本实施例中,k的取值为10000。频次是指某词语在某部作品中出现的总频次。

s103,基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;

需要说明的是,此处的预设函数可以为取最大值函数,取平均值函数,取中位数函数,以及求和函数等函数中的任意一种;在本实施例中,该预设函数为取最大值函数,也即对于某词条来说,本实施例选取其在同一作家的各作品中的作品热度的最大值,作为该词条对应于该作家的作家热度。

s104,将同一词条所对应的各作家热度求和,得到相应词条的词条热度;

s105,根据每一词条对应的词条热度,对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。

需要说明的是,本实施例在对分类词集中所有词条进行排序时,是按照各词条对应的词条热度的降序进行排序。

表一以动物类词语为例展示了以本实施例的方法排序后的动物类的排列前30的词以及各词的热度值;其中,预设函数为取最大值函数,常数k=10000。

表一

第二实施例

相应地,本实施例提供一种基于词条作家热度构建分类分级词表的系统200,其包括:

分类词集构建模块201,用于按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;

作品热度计算模块202,用于根据分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;

作家热度计算模块203,用于基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;

词条热度计算模块204,用于将同一词条所对应的各作家热度求和,得到相应词条的词条热度;

分类分级词表构建模块205,用于根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。

本实施中的基于词条作家热度构建分类分级词表的系统与上述基于词条作家热度构建分类分级词表的方法相对应;其中,该基于词条作家热度构建分类分级词表的系统的各模块所实现的功能与上述第一实施例中的方法的各流程步骤一一对应,故在此不再赘述。

本发明的方案通过按照预设分类方式,从文学语料库中提取出预设类型的词条构成分类词集;根据分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数,计算出每一词条在同一作家的各作品中的作品热度;基于每一词条在同一作家的各作品中的作品热度,以预设函数求取每一词条对应于各作家的作家热度;将同一词条所对应的各作家热度求和,得到相应词条的词条热度;根据每一词条对应的词条热度,对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。很好地解决了文学语料库中作品字数不平衡和作家作品数不平衡的问题;以词条对应的各作家热度之和作为该词条的词条热度,并基于此词条热度对分类词条中的所有词条进行排序,从而构建出排序更合理的分类分级表,进而为儿童分级阅读计量提供了基础资源。

此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1