一种图书分级方法、系统、存储介质和服务器与流程

文档序号:18704415发布日期:2019-09-17 23:26阅读:182来源:国知局
一种图书分级方法、系统、存储介质和服务器与流程

本发明涉及图书分级领域,尤其涉及一种图书分级方法、系统、存储介质和服务器。



背景技术:

少年儿童在不同成长阶段的阅读能力是不同的,每个成长阶段的阅读能力需要配合每个阶段的接受能力,不同成长阶段的少年儿童有着不同的阅读需求。因此,需要对阅读物进行分级。

传统的图书分级系统中,是通过人为设定的分级规则来硬性地对图书进行评级,主观性很强,分级缺乏灵活性。



技术实现要素:

本发明实施例提供了一种图书分级方法、系统、存储介质和服务器,以解决现有技术中,通过人为设定的分级规则来硬性地对图书进行评级,主观性很强,分级缺乏灵活性的问题。

本申请的第一方面提供了一种图书分级方法,包括:

获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本;

分别提取所述图书各个篇章文本的篇章摘要;

根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量;

根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级。

本申请的第二方面提供了一种图书分级系统,包括:

文本信息获取单元,用于获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本;

篇章摘要提取单元,用于分别提取所述图书各个篇章文本的篇章摘要;

摘要向量构建单元,用于根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量;

图书等级评定单元,用于根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级。

本申请的第三方面提供了一种服务器,上述服务器包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

本发明实施例中,通过获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本,分别提取所述图书各个篇章文本的篇章摘要,然后根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量,最后根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级,本方案在海量图书数据的基础上,结合深度学习神经网络模型对图书进行评级,不仅实现图书评级的智能化,使得图书评级灵活客观,而且可提升图书评级的精确度以及图书分级的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图书分级方法的实现流程图;

图2是本发明实施例提供的图书分级方法s102的具体实现流程图;

图3是本发明实施例提供的图书分级方法a4的具体实现流程图;

图4是本发明实施例提供的图书分级方法s104的具体实现流程图;

图5是本发明实施例提供的图书分级系统的结构框图;

图6是本发明实施例提供的服务器的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1示出了本发明实施例提供的图书分级方法的实现流程,该方法流程包括步骤s101至s104。各步骤的具体实现原理如下:

s101:获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本。

具体地,在本实施例中,所述图书为待评级的图书,所述图书是由各个篇章组成,所述图书的稳步信息包括各个篇章的文本,获取的所述图书的文本信息包括各个篇章的篇章文本。

s102:分别提取所述图书各个篇章文本的篇章摘要。

在本发明实施例中,提取所述图书每一个篇章文本的篇章摘要,所述篇章摘要用于概括所述篇章文本的内容。

作为本发明的一个实施例,如图2所示,所述篇章文本包括句子,上述步骤s102具体包括:

a1:分别构建所述篇章文本中各个句子的句向量。句子由词组成,对句子分别进行分词处理得到组成句子的词,构建句子的句向量。具体地,基于词袋模型构建所述篇章文本中各个句子的词向量。所述词袋模型是个在自然语言处理和信息检索(ir)下被简化的表达模型。示例性,对于句子s(ω1,ω2,…ωf,…ωl),所述句子s由l个词组成,ωf为所述句子s的第f个词,基于预训练的词向量,得到句子中每个词的词向量,所述句子的词向量中的词为所述句子中的关键词,然后基于所述词袋模型,将所述句子s的词向量拼接得到句子s的向量表示。

a2:根据所述各个句子的句向量,计算同一所述篇章文本中任意两个句子之间的句子相似度。可选地,基于余弦相似度计算两两句子之间的句子相似度。具体地,在本发明实施例中,上述步骤a2具体包括:

根据如下公式(1)计算同一所述篇章文本中句子i和句子j之间的句子相似度:

其中,所述sim(si,sj)表示所述句子i和所述句子j之间的句子相似度,所述si为所述句子i的句向量,sj表示所述句子j的句向量。

a3:将所述篇章文本中句子相似度大于预设相似度阈值的句子存入所述篇章文本对应的篇章句子集合中。

a4:根据所述篇章句子集合,确定所述篇章文本的篇章摘要。

在本发明实施例中,如果进行相似度比较的两个句子之间的句子相似度大于预设相似度阈值σ,则认为该两个句子是语义相关的,将所述篇章句子集合中的句子连接起来,形成所述篇章中句子的连接图,所述句子的连接图中所述篇章文本中包括相似度大于预设相似度阈值的句子的连接关系。

可选地,在本发明实施例中,如图3所示,上述步骤a4具体包括:

a41:根据预设句子评分算法,对所述篇章句子集合中各个句子进行评分。所述篇章句子集合中包括所述篇章文本中句子相似度大于预设相似度阈值的句子。

可选地,作为本发明的一个实施例,所述根据预设句子评分算法,对所述篇章句子集合中各个句子进行评分的步骤,具体包括:

根据如下公式(2)迭代计算所述篇章句子集合中各个句子的评分:

其中,d为阻尼因子值,in{vi}为所述篇章文本中与所述句子vi的句子相似度大于预设相似度阈值的句子组成的集合,out{vj}为所述篇章文本中与所述句子vj的句子相似度大于预设相似度阈值的句子组成的集合,wij为所述句子vi与所述句子vj的句子相似度,wjk为所述句子vj与所述句子vk的句子相似度,ws(vi)为所述句子vi的评分,ws(vj)为所述句子vj的评分。在本发明实施例中,根据上述公式(2)对所述篇章句子集合中的各个句子分别评分,可提高句子评分的准确性,从而提高图书评级的准确性。

a42:将所述篇章句子集合中的句子按所述评分从高到低排列。

a43:根据所述篇章句子集合中句子的排列顺序,从所述篇章句子集合中选择指定个数的句子,连接生成所述篇章文本的篇章摘要。具体地,从排列好的句子中依次选择指定个数的句子,即选取指定个数得分最高的句子,连接生成所述篇章文本的篇章摘要。

s103:根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量。

在本发明实施例中,所述预设文档向量模型为训练好的doc2vec文档向量模型。根据所述图书各个篇章文本的篇章摘要与训练好的doc2vec文档向量模型,可快速构建所述图书的文本摘要向量。具体地,根据gensim中的doc2vec对已有的大量的文本样本进行训练,得到训练好的doc2vec文档向量模型,gensim是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。使用训练好的doc2vec文档向量模型预测得到所述图书各个篇章文本的篇章摘要的文档向量。根据各个篇章文本的篇章摘要的文档向量xq,可以得到所述图书的文本摘要向量(x1,x2,…xq,…,xm),xt∈r200,xt为第q篇章摘要的摘要向量表示,m表示所述图书的章节数目。

s104:根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级。

在本发明实施例中,利用训练好的基于r-cnn的神经网络模型与所述文本摘要向量确定所述图书等级。具体地,将所述图书的所述文本摘要向量输入至所述训练好的基于r-cnn的神经网络模型,确定所述图书各个等级的概率,选择概率最大的等级确定为所述图书的等级,在深度学习的基础上,并辅以海量的图书的文本书籍,可充分挖掘图书的信息,智能地、精确地对图书进行分级。

具体地,在本发明实施例中,所述基于r-cnn的神经网络模型包括循环神经网络层、卷积神经网络层以及全连接网络层,图4示出了本发明实施例提供的图书分级方法s105的具体实现流程,详述如下:

b1:将所述图书的所述文本摘要向量输入至所述循环神经网络层中进行编码,将编码结果传递至所述卷积神经网络层。

b2:在所述卷积神经网络层确定所述文本摘要向量的特征元素,并将所述特征元素传递至所述全连接网络层。所述特征元素为所述文本摘要向量中的关键元素。

b3:根据所述全连接网络层的输出与指数归一化函数,得到所述图书各个等级的等级概率。

b4:将所述等级概率最大的等级确定为所述图书的等级。

在本发明实施例中,构建基于r-cnn的神经网络模型,并获取海量图书的文本信息样本对该基于r-cnn的神经网络模型进行训练,以使得构建的所述基于r-cnn的神经网络模型输出的图书等级概率准确度高。

具体地,构建基于r-cnn的神经网络模型。所述r-cnn的神经网络模型主要有三层。第一层为rnn层,即循环神经网络层,在本发明实施例中,在rnn层是一个双向的lstm(longshorttermmemory,长短期记忆)即bi-lstm,在bi-lstm的某个时间步长t中:

it=sigmoid(wixxt+wixht-1+bi)(3)

ft=sigmoid(wfxxt+wfhht-1+bf)(4)

ot=sigmoid(woxxt+wohht-1+bo)(5)

ht=ot·tanh(ct)(8)

sigmoid函数的具体形式为:

tanh函数的具体形式为:

其中,w、b为lstm的参数,wix∈r200×300,wfx∈r200×300,wox∈r200×300,wux∈r200×300,wih∈r300×300,wfh∈r300×300,woh∈r300×300,wuh∈r300×300,bi∈r300,bf∈r300,bo∈r300,bu∈r300,ht-1∈r300,r为实数集。在每个时间步长上,可以分别基于前向和后向得到将两个方向的隐藏状态拼接得到ht,ht∈r600,基于公式yt=wyht(11)得到每个时间步长的输出,wy∈r600×100,yt∈r100,mn层的总输出为:

y=(y1,y2,...,yt,...ym);

基于双向的lstm可以更好地将每一篇章文本的摘要向量进行编码。

所述r-cnn的神经网络模型的第二层为cnn层(convolutionalneuralnetworks,卷积神经网络层)。cnn层只包含一个maxpooling层(最大池化层),即根据如下公式(12):

yc=max(y),yc∈r100(12)

可获得上述输出y的每一个维度在所有时间步长上的最大元素值,这个最大的元素值可以视为这个维度最显著的特征。

所述r-cnn的神经网络模型的第三层为输出层,该层为全连接网络层。对于上述cnn层的输出yc,基于公式(13)得到全连接层的输出y’,n为书籍的等级数目:

y′=wyc+b,w∈r100×n,b∈rn(13)

再基于指数归一化函数softmax函数,得到所述图书分别属于各个等级的概率,具体地,根据如下公式(14)得到所述图书分别属于各个等级的概率:

取其中概率最大的作为所述图书的评级。

本发明实施例中,通过获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本,分别提取所述图书各个篇章文本的篇章摘要,然后根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量,最后根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级,本方案在海量图书数据的基础上,结合深度学习神经网络模型对图书进行评级,不仅实现图书评级的智能化,使得图书评级灵活客观,而且可提升图书评级的精确度以及图书分级的效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的图书分级方法,图5示出了本申请实施例提供的图书分级系统的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。

参照图5,该图书分级系统包括:文本信息获取单元51,篇章摘要提取单元52,摘要向量构建单元53,图书等级评定单元54,其中:

文本信息获取单元51,用于获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本;

篇章摘要提取单元52,用于分别提取所述图书各个篇章文本的篇章摘要;

摘要向量构建单元53,用于根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量;

图书等级评定单元54,用于根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级。

可选地,所述篇章文本包括句子,所述篇章摘要提取单元52包括:

句向量构建模块,用于分别构建所述篇章文本中各个句子的句向量;

句子相似度计算模块,用于根据所述各个句子的句向量,计算同一所述篇章文本中任意两个句子之间的句子相似度;

篇章句子集合构建模块,用于将所述篇章文本中句子相似度大于预设相似度阈值的句子存入所述篇章文本对应的篇章句子集合中;

篇章摘要确定模块,用于根据所述篇章句子集合,确定所述篇章文本的篇章摘要。

可选地,所述句子相似度计算模块具体包括:

句子相似度计算子模块,用于根据如下公式计算同一所述篇章文本中句子i和句子j之间的句子相似度:

其中,所述sim(si,sj)表示所述句子i和所述句子j之间的句子相似度,所述si为所述句子i的句向量,sj表示所述句子j的句向量。

可选地,所述篇章摘要确定模块包括:

句子评分子模块,用于根据预设句子评分算法,对所述篇章句子集合中各个句子进行评分;

句子排序生成子模块,用于将所述篇章句子集合中的句子按所述评分从高到低排列;

篇章摘要生成子模块,用于根据所述篇章句子集合中句子的排列顺序,从所述篇章句子集合中选择指定个数的句子,连接生成所述篇章文本的篇章摘要。

可选地,所述句子评分子模块具体用于:

根据如下公式迭代计算所述篇章句子集合中各个句子的评分:

其中,d为阻尼因子值,in{vi}为所述篇章文本中与所述句子vi的句子相似度大于预设相似度阈值的句子组成的集合,out{vj}为所述篇章文本中与所述句子vj的句子相似度大于预设相似度阈值的句子组成的集合,wij为所述句子vi与所述句子vj的句子相似度,wjk为所述句子vj与所述句子vk的句子相似度,ws(vi)为所述句子vi的评分,ws(vj)为所述句子vj的评分。

可选地,所述基于r-cnn的神经网络模型包括循环神经网络层、卷积神经网络层以及全连接网络层,所述图书等级评定单元54包括:

第一网络模块,用于将所述图书的所述文本摘要向量输入至所述循环神经网络层中进行编码,将编码结果传递至所述卷积神经网络层;

第二网络模块,用于在所述卷积神经网络层确定所述文本摘要向量的特征元素,并将所述特征元素传递至所述全连接网络层;

概率确定模块,用于根据所述全连接网络层的输出与指数归一化函数,得到所述图书各个等级的等级概率;

等级评定模块,用于将所述等级概率最大的等级确定为所述图书的等级。

本发明实施例中,通过获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本,分别提取所述图书各个篇章文本的篇章摘要,然后根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量,最后根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级,本方案在海量图书数据的基础上,结合深度学习神经网络模型对图书进行评级,不仅实现图书评级的智能化,使得图书评级灵活客观,而且可提升图书评级的精确度以及图书分级的效率。

图6是本发明一实施例提供的服务器的示意图。如图6所示,该实施例的服务器6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如图书分级程序。所述处理器60执行所述计算机程序62时实现上述各个图书分级方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机程序62时实现上述各系统实施例中各模块/单元的功能,例如图5所示单元51至54的功能。

示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述服务器6中的执行过程。例如,所述计算机程序62可以被分割成文本信息获取单元、篇章摘要提取单元、摘要向量构建单元、图书等级评定单元,各单元具体功能如下:

文本信息获取单元,用于获取图书的文本信息,所述文本信息包括所述图书的多个篇章文本;

篇章摘要提取单元,用于分别提取所述图书各个篇章文本的篇章摘要;

摘要向量构建单元,用于根据所述图书各个篇章文本的篇章摘要与预设文档向量模型,构建所述图书的文本摘要向量;

图书等级评定单元,用于根据所述文本摘要向量与训练好的基于r-cnn的神经网络模型,确定所述图书的等级。

所述服务器6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是服务器6的示例,并不构成对服务器6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

应当理解,在本申请实施例中,所称处理器602可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器601可以包括只读存储器和随机存取存储器,并向处理器602提供指令和数据。存储器601的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器601还可以存储设备类型的信息。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,系统或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1