一种新型文本可读性评估方法及系统

文档序号:26007474发布日期:2021-07-23 21:26阅读:213来源:国知局
一种新型文本可读性评估方法及系统

本发明涉及文本可读性评估的技术领域,尤其涉及一种新型文本可读性评估方法及系统。



背景技术:

可读性评价方法旨在发现影响文本阅读难度的语言特征,或者基于有效特征构建数学公式或者模型来表示文本的语言难度或者理解难度,对于文本的可读性进行评估,能够有效对文本进行分类,现有技术中对于文本可读性的评估一般都是使用词汇术语或语言特征向量空间模型来表示文档,可能对文档可读性预测有较大影响的语言特征包括浅层特征、词汇/词性特征、句法特征和语篇/连贯特征进行评估,从而实现文本可读性的评估。

然而,现有技术中的文本可读性评估仅仅是在词嵌入级别这方面进行展开,但是在文本可读性评估中,结构信息至关重要,一个结构简单的句子容易阅读,而另一个具有相同语义信息但结构复杂的句子可能更难理解,因此,仅仅是在词嵌入级别这方面展开可读性评估的方法并不够准确和严谨。



技术实现要素:

有鉴于此,本发明提出一种新型文本可读性评估方法及系统,可以解决现有文本可读性评估所存在的不够准确和严谨的缺陷。

本发明的技术方案是这样实现的:

一种新型文本可读性评估方法,所述方法基于双通道神经网络模型,包括以下步骤:

步骤s1,提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示;

步骤s2,将提取到的语义稠密嵌入表示和句法稠密嵌入表示输入双通道神经网络模型中,实现特征的提取;

步骤s3,将提取出的特征进行结合,形成语义与语法的稠密嵌入表示;

步骤s4,将语义与语法的稠密嵌入表示输入至深度神经网络中进行预测,从而实现文本可读性的评估。

作为所述新型文本可读性评估方法的进一步可选方案,所述步骤s1中提取需要评估的文本的语义稠密嵌入表示是通过采用预训练语义模型生成。

作为所述新型文本可读性评估方法的进一步可选方案,所述步骤s1中提取需要评估的文本的句法稠密嵌入表示包括以下步骤:

提取需要评估的文本的语言特征并构建向量空间表示;

依据每个语言特征之间的关系构建出特征图;

将表示学习算法应用于所述特征图上,生成句法潜在空间;

运用矩阵向量乘法将语言特征向量投影到句法潜在空间上,从而形成句法稠密嵌入表示。

作为所述新型文本可读性评估方法的进一步可选方案,所述双通道神经网络模型包括dnn双通道模型和dnn-lstm双通道模型。

作为所述新型文本可读性评估方法的进一步可选方案,所述步骤s2中对句法稠密嵌入表示进行特征提取是采用dnn双通道模型,主要具体包括以下步骤:

将句法稠密嵌入表示输入至dnn双通道模型的两层网络中;

依据预训练语义模型平均嵌入表示,将dnn双通道模型的两层输出内容与预训练语义模型嵌入矩阵的四层神经网络输出内容结合起来,从而实现句法稠密嵌入表示的特征提取。

作为所述新型文本可读性评估方法的进一步可选方案,所述步骤s2中对语义稠密嵌入表示进行特征提取是采用dnn-lstm双通道模型,主要具体包括以下步骤:

将预训练语义模型嵌入到bilstm网络中,形成dnn-lstm双通道模型;

将语义稠密嵌入表示输入所述dnn-lstm双通道模型,所述dnn-lstm双通道模型输出该语义稠密嵌入表示的特征。

一种新型文本可读性评估系统,所述系统包括:

第一提取模块,用于提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示;

双通道神经网络模型,用于对语义稠密嵌入表示和句法稠密嵌入表示进行特征提取;

结合模块,用于将提取出的特征进行结合,形成语义与语法的稠密嵌入表示;

深度神经网络模型,用于依据语义与语法的稠密嵌入表示对文本可读性进行评估。

作为所述新型文本可读性评估系统的进一步可选方案,所述第一提取模块包括:

存储模块,用于存储预训练语义模型;

第一构建模块,用于提取需要评估的文本的语言特征并构建向量空间表示;

第二构建模块,用于依据每个语言特征之间的关系构建特征图

第一生成模块,用于将表示学习算法应用于特征图上,生成句法潜在空间;

第二生成模块,用于运用矩阵向量乘法将语言特征向量投影到句法潜在空间上,从而生成句法稠密嵌入表示。

作为所述新型文本可读性评估系统的进一步可选方案,所述双通道神经网络模型包括dnn双通道模型和dnn-lstm双通道模型。

作为所述新型文本可读性评估系统的进一步可选方案,所述dnn双通道模型包括:

输入模块,用于将句法稠密嵌入表示输入至dnn双通道模型的两层网络中;

特征提取模块,用于依据预训练语义模型平均嵌入表示,将dnn双通道模型的两层输出内容与预训练语义模型嵌入矩阵的四层神经网络输出内容结合起来,从而提取出句法稠密嵌入表示的特征。

本发明的有益效果是:通过设计双通道神经网络模型,并且提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示,从多个角度进行评估,能够提高文本可读性评估的效率和准确率,从而解决了现有技术仅仅在词嵌入级别这方面展开可读性评估所存在的评估不够准确和严谨的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种新型文本可读性评估方法的流程示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

参考图1,一种新型文本可读性评估方法,所述方法基于双通道神经网络模型,包括以下步骤:

步骤s1,提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示;

步骤s2,将提取到的语义稠密嵌入表示和句法稠密嵌入表示输入双通道神经网络模型中,实现特征的提取;

步骤s3,将提取出的特征进行结合,形成语义与语法的稠密嵌入表示;

步骤s4,将语义与语法的稠密嵌入表示输入至深度神经网络中进行预测,从而实现文本可读性的评估。

在本实施例中,通过设计双通道神经网络模型,并且提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示,从多个角度进行评估,能够提高文本可读性评估的效率和准确率,从而解决了现有技术仅仅在词嵌入级别这方面展开可读性评估所存在的评估不够准确和严谨的缺陷。

优选的,所述步骤s1中提取需要评估的文本的语义稠密嵌入表示是通过采用预训练语义模型生成。

在本实施例中,所述预训练语义模型包括但不限于robert模型、xlnet模型、bert模型、gpt2模型和gpt3模型,这里不做具体限定。

优选的,所述步骤s1中提取需要评估的文本的句法稠密嵌入表示包括以下步骤:

提取需要评估的文本的语言特征并构建向量空间表示;

依据每个语言特征之间的关系构建出特征图;

将表示学习算法应用于所述特征图上,生成句法潜在空间;

运用矩阵向量乘法将语言特征向量投影到句法潜在空间上,从而形成句法稠密嵌入表示。

在本实施例中,所述表示学习算法包括但不限于transe算法和analogy算法,这里不做具体限定。

优选的,所述双通道神经网络模型包括dnn双通道模型和dnn-lstm双通道模型。

优选的,所述步骤s2中对句法稠密嵌入表示进行特征提取是采用dnn双通道模型,主要具体包括以下步骤:

将句法稠密嵌入表示输入至dnn双通道模型的两层网络中;

依据预训练语义模型平均嵌入表示,将dnn双通道模型的两层输出内容与预训练语义模型嵌入矩阵的四层神经网络输出内容结合起来,从而实现句法稠密嵌入表示的特征提取。

优选的,述步骤s2中对语义稠密嵌入表示进行特征提取是采用dnn-lstm双通道模型,主要具体包括以下步骤:

将预训练语义模型嵌入到bilstm网络中,形成dnn-lstm双通道模型;

将语义稠密嵌入表示输入所述dnn-lstm双通道模型,所述dnn-lstm双通道模型输出该语义稠密嵌入表示的特征。

实施例1:

将文档特征使用两种稠密嵌入表示方法来表示,即语义稠密嵌入表示和句法稠密嵌入表示,语义稠密嵌入表示是使用预训练语义模型生成的嵌入表示,预训练语义模型可以通过用语义上相邻的单词、句子或上下文来学习文本的稠密表示,预训练语义模型包括但不限于robert模型、xlnet模型、bert模型、gpt2模型和gpt3模型,句法稠密嵌入表示从明确捕捉文本结构特征的语言特征中学习,具体为首先提取语言特征并为每个文档构造向量空间表示,之后,使用特征之间的相关关系构建特征图,并使用transe算法和analogy算法来学习语言特征嵌入,然后运用矩阵向量乘法将文档投影到语言潜在空间中,获得句法潜在空间中的文档投影,所述句法潜在空间中的文档投影即句法稠密嵌入表示,在获得文档的两种嵌入表示后,将这两个嵌入表示输入到双通道深度神经网络模型中,做特征提取,然后将两个特征提取的结果结合起来,形成语义与语法的稠密嵌入表示,最后,将语义与语法的稠密嵌入表示通过神经网络进行进一步的特征提取,从而实现可读性预测。

需要说明的是,本发明提出的双通道神经网络模型有两种,这两种略有不同,一种是具有增强的文档级别表示的dnn双通道模型,另一种是具有增强的文档级别表示的dnn-lstm双通道模型;dnn双通道模型首先将句法稠密嵌入表示输入到两层网络中,同时学习文档的bert平均嵌入表示,然后将两层输出内容与bert嵌入矩阵的四层神经网络输出内容结合起来,形成语义与语法的稠密嵌入表示作为输入到另一个两层网络的输入,其中mlp和softmax层用于可读性分类;dnn-lstm双通道模型稍有不同,它将bert嵌入到bilstm网络中,然后将其输出追加到句法稠密嵌入表示的dnn输出中形成语义与语法的稠密嵌入表示,语义与语法的稠密嵌入表示通过神经网络进行进一步的特征提取和文档可读性等级预测,以生成与dnn输出和文档投影并置的输出内容。

一种新型文本可读性评估系统,所述系统包括:

第一提取模块,用于提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示;

双通道神经网络模型,用于对语义稠密嵌入表示和句法稠密嵌入表示进行特征提取;

结合模块,用于将提取出的特征进行结合,形成语义与语法的稠密嵌入表示;

深度神经网络模型,用于依据语义与语法的稠密嵌入表示对文本可读性进行评估。

在本实施例中,通过设计双通道神经网络模型,并且提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示,从多个角度进行评估,能够提高文本可读性评估的效率和准确率,从而解决了现有技术仅仅在词嵌入级别这方面展开可读性评估所存在的评估不够准确和严谨的缺陷。

优选的,所述第一提取模块包括:

存储模块,用于存储预训练语义模型;

第一构建模块,用于提取需要评估的文本的语言特征并构建向量空间表示;

第二构建模块,用于依据每个语言特征之间的关系构建特征图

第一生成模块,用于将表示学习算法应用于特征图上,生成句法潜在空间;

第二生成模块,用于运用矩阵向量乘法将语言特征向量投影到句法潜在空间上,从而生成句法稠密嵌入表示。

在本实施例中,所述预训练语义模型包括但不限于robert模型、xlnet模型、bert模型、gpt2模型和gpt3模型,所述表示学习算法包括但不限于transe算法和analogy算法,这里不做具体限定。

优选的,所述双通道神经网络模型包括dnn双通道模型和dnn-lstm双通道模型。

优选的,所述dnn双通道模型包括:

输入模块,用于将句法稠密嵌入表示输入至dnn双通道模型的两层网络中;

特征提取模块,用于依据预训练语义模型平均嵌入表示,将dnn双通道模型的两层输出内容与预训练语义模型嵌入矩阵的四层神经网络输出内容结合起来,从而提取出句法稠密嵌入表示的特征。

以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1