一种基于文本AI学习的考题自动生成方法和装置与流程

文档序号：16670135发布日期：2019-01-18 23:31阅读：797来源：国知局

本申请涉及人工智能技术领域，尤其涉及一种基于文本ai学习的考题自动生成方法和装置。

背景技术：

人工智能(artificialintelligence，ai)是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。其中，在文本学习领域，人工智能技术已经应用于自然语言的语义识别、机器翻译等许多方面。

考试作为一种考查参试者所掌握的知识和技能的方式，往往离不开考题，各行各业的人才选拔往往通过不同类型的考题来实现。现有技术中的考题，通常是由人工来完成命题的，即根据考试大纲，选取考题素材，提取素材中的知识点，将知识点作为考点，将所选素材中与该知识点相关的信息作为考题题干，进而生成考题。由于该过程是由人工来完成的，在生成考题的过程中需要大量的时间梳理考题素材，并整理成考题，造成了人力和时间的浪费，进而提高了生成考题的成本。

尤其是随着全民学习型社会的来临，目前各种在线考试系统和知识测试app越来越普及，都需要建设海量题库作为支撑，因此如何高效率自动生成适当的考题成为一个亟待解决的问题。

技术实现要素：

有鉴于此，本申请的目的在于提出一种基于文本ai学习的考题自动生成方法和装置，来解决现有技术中生成考题的过程由人工来完成造成的人力和时间的浪费，进而提高生成考题成本的技术问题。

基于上述目的，在本申请的一个方面，提出了一种基于文本ai学习的考题自动生成方法，包括：

获取考题素材的文本；

对所述文本进行特征提取，生成文本特征向量；

利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配，其中，所述样本包括样本考题以及与样本考题对应的样本考题素材；

利用预先训练的出题规律模式确定模型根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式；

根据所述出题规律模式，将所述考题素材的文本转换成考题。

在一些实施例中，所述对所述文本进行特征提取，生成文本特征向量，包括：

提取所述文本中的词组，对所述词组进行属性分类，统计各类别词组的词频，根据词组类别和各类别词组的词频生成文本特征向量。

在一些实施例中，所述提取所述文本中的词组，对所述词组进行属性分类，统计各类别词组的词频，包括：

对所述文本进行分词，将所述文本切分为多个词组，对每个词组进行归类，确定每个词组的属性类别，并对每个属性类别的词组进行词频统计。

在一些实施例中，对每个词组进行归类，确定每个词组的属性类别，具体包括：

构建词组属性分类表，所述词组属性分类表包括词组属性类别以及对应该类别的词组语义，对每个词组进行语义识别，确定所述词组的词组属性类别。

在一些实施例中，在对所述文本进行分词，将所述文本切分为多个词组，对每个词组进行语义识别之后，还包括：

对语义识别后的多个词组进行去停用词过滤去噪，滤除所述多个词组中包含的噪音词组。

在一些实施例中，所述利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配，包括：

预先训练神经网络模型，生成向量匹配模型，并利用所述向量匹配模型，计算当前素材文本的所述文本特征向量与所述样本库中的样本考题素材的文本特征向量的标准差，并当该标准差小于预设阈值时，匹配成功，并将匹配成功的样本考题素材作为目标样本考题素材。

在一些实施例中，所述利用预先训练的出题规律模式确定模型根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式，包括：

计算所述目标样本考题素材与对应的目标样本考题的文本特征向量，根据目标样本考题素材与对应的目标样本考题的文本特征向量中的同类词组的词组频率的差异，确定出题规律模式。

基于上述目的，在本申请的另一方面，提出了一种基于文本ai学习的考题自动生成装置，包括：

文本获取模块，用于获取考题素材的文本；

文本特征向量生成模块，对所述文本进行特征提取，生成文本特征向量；

向量匹配模块，用于根据所述文本特征向量将所述考题素材文本与样本库中的样本进行匹配；

出题规律模式确定模块，用于根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式；

考题生成模块，用于根据所述出题规律模式，将所述考题素材的文本转换成考题。

在一些实施例中，所述文本特征向量生成模块，具体用于：

提取所述文本中的词组，对所述词组进行属性分类，统计各属性类别词组的词频，根据词组属性类别和各类别词组的词频生成文本特征向量。

在一些实施例中，所述出题规律模式确定模块，具体用于：

本申请实施例提供的一种基于文本ai学习的考题自动生成方法和装置，其对所述文本进行特征提取，生成文本特征向量；利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配，利用预先训练的出题规律模式确定模型根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式；根据所述出题规律模式，将所述考题素材的文本转换成考题。本申请实施例的基于文本ai学习的考题自动生成方法和装置，通过人工智能来生成考题，节约了人力成本和时间成本，进而降低了生成考题的成本，同时使得生成考题的过程更加方便快捷，可以适用于互联网测试的海量题库自动构造。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例一的基于文本ai学习的考题自动生成方法的流程图；

图2是本申请实施例二的基于文本ai学习的考题自动生成方法的流程图；

图3是本申请实施例三的基于文本ai学习的考题自动生成装置的结构示意图；

图4是本申请实施例四的利用本申请实施例的基于文本ai学习的考题自动生成装置的生成考题的流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

作为本申请的一个实施例，如图1所示，是本申请实施例一的基于文本ai学习的考题自动生成方法的流程图。从图中可以看出，本实施例提供的基于文本ai学习的考题自动生成方法，包括以下步骤：

s101：获取考题素材的文本。

在本实施例中，考题素材的文本可以是人工输入的，也可以是系统自动获取。本实施例及以下实施例中的考题素材，是指一段文本文字，其内容可以是对一个概念下定义，例如“光色是光学里一种以k(kevin)为计算单位表示光颜色的数值，生活中一般接触到的光色为2700k～6500k，工业照明和特殊领域(如汽车照明)会使用超过7000k光色的光源照明”，或者举例子对某一概念进行解释，例如“高速公路标明了车道的行驶速度，最高车速不得超过每小时120公里，最低车速不得低于每小时60公里，高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里，其他机动车不得超过每小时100公里，摩托车不得超过每小时80公里”。也可以是在本实施例中，考题素材的文本是包含相关知识点的文本素材，可以涉及法律、建筑、医学、物理、交通等各个领域；可以利用搜索引擎、网络爬虫等工具从网页、电子图书、论文等原始数据中搜索并汇集海量级的考题素材文本，并且确定考题素材的领域，形成对应每个特定领域用途的考题素材文本库。

s102：对所述文本进行特征提取，生成文本特征向量。

在本实施例中，当获取到考题素材的文本后，可以对所述文本进行特征提取，以生成文本特征向量。具体地，可以将所述文本分为多个词组，进而可以通过去停用词处理去除其中无实际意义的词组，可以参照常见停用词表实施去停用词处理；去停用词是对分词所得的多个词组进行过滤去噪，滤除所述多个词组中包含的噪音词组；由于所述文本可能包含有关联词和副词，在对所述文本进行语义识别的过程中，这类词组没有实际的含义，因此，可以对语义识别后的多个词组进行过滤去噪，将关联词和副词等没有实际意思的词组滤除，可以大大减轻机器的工作量。

然后，对保留下来的所述词组进行归类，将词组归为预定类型的类别，然后以每个类别为单位统计词频，也就是素材文本中每个类别的词组数量；根据词组的类别以及相应类别中的词组数量生成文本特征向量。仍以“高速公路标明了车道的行驶速度，最高车速不得超过每小时120公里，最低车速不得低于每小时60公里，高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里，其他机动车不得超过每小时100公里，摩托车不得超过每小时80公里”为例进行说明，在本实例中，词组的类别可以包括：概念词组和数量词组，具体地，概念词组中的词组包括“小型载客汽车”、“其他机动车”和“摩托车”，数量词组的词组包括“每小时120公里”、“每小时100公里”、“每小时80公里”和“每小时60公里”。

对于上面提到的词组的归类，可以为每个特定领域建立词组类别索引表，词组类别索引表中记录每个类别对应的常见词组，根据每个考题文本素材所属的领域用途，调用对应的词组类别索引表，将从考题素材文本中提取并去停用词之后保留的词组对应该索引表归入词组类别。进而，利用统计的词组类别和每个类别的词频(词组数量)，将本考题素材文本生成对应的文本特征向量，表示为{(s1，n1)，(s2，n2)…(sn，nn)}，其中s1、s2…sn为词组类别，例如上文中的概念词组、数量词组等；n1、n2…nn为每个词组类别的词频，也就是归入该类别下的词组的数量；例如，上面提到的素材文本，其提取的文本特征向量应为{(概念词组，3)，(数量词组，4)}，其中数字3、4表示词频。

s103：利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配，其中，所述样本包括样本考题以及与样本考题对应的样本考题素材。

在本实施例中，在生成考题素材的文本的文本特征向量以后，可以利用向量匹配模型将该文本特征向量与样本库中的样本进行匹配，。样本库中的样本包括大量的样本考题以及与样本考题对应的样本考题素材。具体地，所述向量匹配模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型，使得所述向量匹配模型在输入是考题素材的文本的前提下，输出是与输入的考题素材文本相似度较高的样本考题素材文本，这里的相似度是指文本的文本特征向量之间的相似度，包括词组的类别间的相似度以及同类词组间词组数量的相似度。

向量匹配模型作为预先训练神经网络模型，当输入当前考题素材的文本特征向量之后，会计算并输出当前考题素材的文本特征向量与所述样本库中的每个样本考题素材的文本特征向量的标准差，并当该标准差小于预设阈值时，匹配成功，并将匹配成功的样本考题素材作为目标样本考题素材。具体来说，如果考题素材的文本特征向量为{(s1，n1)，(s2，n2)…(sn，nn)}，而样本考题素材文本的文本特征向量{(s1，n1’)，(s2，n2’)…(sn，nn’)}，则两个文本特征向量的标准差表示为如果ε小于阈值则认为匹配成功，该目标样本考题素材与当前考题素材相对应。

s104：利用预先训练的出题规律模式确定模型，根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式。

在本实施例中，在利用向量匹配模型确定所述考题素材文本对应的目标样本考题素材后，可以根据样本考题素材和与其对应的目标样本考题之间的文本特征差异，来确定出题点涉及的词组类别，进而可以根据目标样本考题素材的出题点确定考题素材的出题规律模式。具体地，本实施例中的出题规律模式确定模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型，通过对样本库中大量的样本考题及样本考题对应的样本考题素材进行学习，使得所述出题规律模式确定模型在输入是样本考题样本考题素材的文本的前提下，输出是输入的样本考题及对应的样本考题素材的文本的文本特征向量的差异度，并根据该差异度确定出题点所涉及的词组类别。具体来说，所述出题规律模式确定模型计算所述样本考题素材与对应的样本考题的文本特征向量，根据目标样本考题素材与对应的目标样本考题的文本特征向量中的同类词组的词组频率的差异，确定出题规律模式。

以下面的例子为例，样本考题素材为文本“光色是光学里一种以k(kevin)为计算单位表示光颜色的数值，生活中一般接触到的光色为2700k～6500k，工业照明和特殊领域(如汽车照明)会使用超过7000k光色的光源照明”，该样本考题素材的词组类别包括概念词组和数量词组，其中提取的“光色”、“光学”、“照明”、“光源”属于概念词组，“2700k”，“6500k”、“7000k”属于数量词组，文本特征向量是{(概念词组，4)，(数量词组，3)}，对应的样本考题为“光色是光学里一种以k(kevin)为计算单位表示光颜色的数值，生活中一般接触到的光色为()k～()k，工业照明和特殊领域(如汽车照明)会使用超过()k光色的光源照明”，样本考题的文本特征向量可以是{(概念词组，4)，(数量词组，0)}，则两个文本特征向量的差异度在于数量词组维度上的词组数量变化，因此，出题点涉及的词组类别为数量词组

s105：根据所述出题规律模式，将所述考题素材的文本转换成考题。

步骤103中获取当前的考题素材文本与样本库中样本的样本考题素材的文本特征向量相似度，确定与当前的考题素材文本最匹配的样本考题素材，进而根据该样本考题素材与样本考题之间的出题规律模式，确定出题点涉及的词组类别，则可以以同样的出题规律模式选取当前考题素材的文本中的出题点，即可以针对当前考题素材的文本中的同类别的词组进行滤除，将考题素材的文本转换为考题。

本申请实施例的基于文本ai学习的考题自动生成方法，通过词向量近似匹配和人工智能学习，利用考题素材文本与考题之间的差异度分析出题点规律，进而用来生成考题，节约了人力成本和时间成本，进而降低了生成考题的成本，同时使得生成考题的过程更加方便快捷。

如图2所示，是本申请实施例二的基于文本ai学习的考题自动生成方法的流程图。作为本申请的一个具体实施例，上述基于文本ai学习的考题自动生成方法，包括以下步骤：

s201：获取考题素材的文本。

在本实施例中，考题素材的文本可以是人工输入的，也可以是自动获取。具体请参见实施例一，这里不再赘述。

s202：对所述文本进行分词，将所述文本切分为多个词组，对每个词组进行语义识别，确定每个词组的属性类别，并对同一属性类别的词组进行归类。

在对上述文本进行分词后，可以将上述文本切分为多个词组，并根据各个词组的词义对每个词组进行语义识别，确定每个词组的属性类别，并对同一属性类别的词组进行归类。具体地，可以构建词组属性分类表，所述词组属性分类表包括词组属性类别以及对应该类别的词组语义，对每个词组进行语义识别，确定所述词组的词组属性类别。

s203：统计所述词组属性类别当中的词组频率，根据词组属性类别和各属性类别词组的词频生成文本特征向量。

s204：利用预先训练的向量匹配模型根据所述文本特征向量将当前的所述考题素材文本与样本库中的样本进行匹配，其中，所述样本包括样本考题以及与样本考题对应的样本考题素材。

s205：利用预先训练的出题规律模式确定模型根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式。

s206：根据所述出题规律模式，将所述考题素材的文本转换成考题。

本实施例能够取得与上述实施例相类似的技术效果，这里不再赘述。

如图3所示，是本申请实施例三的基于文本ai学习的考题自动生成装置的结构示意图。本实施例提供的基于文本ai学习的考题自动生成装置，包括：

文本获取模块301，用于获取考题素材的文本。

文本特征向量生成模块302，对所述文本进行特征提取，生成文本特征向量；

向量匹配模块303，用于根据所述文本特征向量将所述考题素材文本与样本库中的样本进行匹配，其中，所述样本包括样本考题以及与样本考题对应的样本考题素材；

出题规律模式确定模块304，用于根据所述目标样本考题素材与对应的目标样本考题之间的文本特征差异，确定出题规律模式；

考题生成模块305，用于根据所述出题规律模式，将所述考题素材的文本转换成考题。

进一步地，所述文本特征向量生成模块302，具体用于：

提取所述文本中的词组，对所述词组进行属性分类，统计各属性类别词组的词频，根据词组属性类别和各类别词组的词频生成文本特征向量。

所述出题规律模式确定模块304，具体用于：

本实施例的基于文本ai学习的考题自动生成装置能够取得与上述方法实施例相类似的技术效果，这里不再赘述。

如图4所示，是本申请实施例四的利用本申请实施例的基于文本ai学习的考题自动生成装置的生成考题的流程示意图。从图4中可以看出，当利用本申请实施例的基于文本ai学习的考题自动生成装置生成考题时，可以输入考题素材文本，所述考题素材文本作为生成考题的素材，包含了相关知识点。在所述基于文本ai学习的考题自动生成装置获取到所述考题素材文本后，通过文本特征向量生成模块生成所述考题素材文本的文本特征向量，并将所述文本特征向量发送至向量匹配模块，在本实施例中，所述向量匹配模块是一个预先训练的神经网路模型，在输入考题素材文本的文本特征向量后，将所述文本特征向量与样本库中的样本考题素材的文本特征向量进行匹配。具体地，可以预先利用样本库中存有的大量的样本考题素材对神经网络模型进行学习训练，以生成所述向量匹配模块，使得所述向量匹配模块根据输入的考题素材文本的文本特征向量与样本库中的样本考题素材的文本特征向量进行匹配。由于所述文本特征向量包括文本中的词组的种类以及同类词组的数量，因此，在所述向量匹配模块将考题素材的文本与样本考题素材进行匹配的过程中，可以基于考题素材的文本与样本考题素材包含的词组以及对应词组的数量进行匹配，在得到与考题素材的文本对应的样本考题素材后，由出题规律模式确定模块根据样本考题素材及所述样本考题素材对应的样本考题的文本特征差异确定出题规律模式。具体地，所述出题规律模式确定模块根据输入的样本考题素材和对应的样本考题的文本特征向量，确定样本考题素材的出题点。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵宇枫
技术所有人：重庆工业职业技术学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。