一种基于自然语言分析的随堂测试答案快速自动分类方法

文档序号:10655134阅读:230来源:国知局
一种基于自然语言分析的随堂测试答案快速自动分类方法
【专利摘要】本发明提供一种基于自然语言分析的移动端随堂测试答案快速自动分类的方法,包括下列步骤:1)课堂测试回答文本的收集;2)课堂测试回答文本的预处理;3)回答文本的分词;4)停止词过滤;5)同义词替换;6)关键词提取;7)构建关键词集合;8)文本分类。本发明解决了教师教学过程中,随堂测试学生回答结果的少量短文本快速自动分类的问题。使得教师可以及时得到问题回答情况的汇总报告,免去了以往需要收集纸质答案再人工汇总的工作,提高课堂中师生互动的效率。
【专利说明】
-种基于自然语言分析的随堂测试答案快速自动分类方法
技术领域
[0001 ]本发明属于计算机技术领域,设及自然语言文本分析技术,为一种基于自然语言 分析的移动端随堂测试答案快速自动分类的方法。解决了教师教学过程中,随堂测试学生 回答结果的少量短文本快速自动分类的问题。使得教师可W及时得到问题回答情况的汇总 报告,免去了 W往需要收集纸质答案再人工汇总的工作,提高了课堂中师生互动活动的效 率。
【背景技术】
[0002] 移动端随堂测试是指教师通过手机应用,通过互联网将学生组织在一个虚拟的班 级中。教师在运个班级中向学生们发布随堂测试,学生们参与并回答随堂测试中的问题,教 师就可W及时得到随堂测试的结果。随堂测试的问题有判断题,单项/多项选择题,问答题 运巧中形式。其中判断题,单项/多项选择题,W-个或多个数值作为答案的问答题,计算机 都可W很容易地将答案进行分类。但是对于W-小段文本作为答案的问答题,其自动分类 仍是个难题,运也是本发明解决的问题。
[0003] 中文自然语言处理是指将中文文本转换为计算机能够理解的格式,并对其进行处 理,并将处理结果存储在计算机中,是计算机科学,人工智能,语言学关注计算机和人类自 然语言之间的相互作用的领域。基于机器学习的技术,将自然语言的文本通过一系列分词、 关键词提取等技术进行理解。本发明中使用中文分析、关键字提取,对随堂测试中的回答进 行自动分类,方便教师及时得到随堂测试结果的反馈。

【发明内容】

[0004] 本发明要解决的问题是:提出一种基于自然语言分析将随堂测试学生回答结果的 少量短文本快速自动分类的方法,使得教师可W及时得到问题回答情况的汇总报告,免去 了W往需要收集纸质答案再人工汇总的工作。
[0005] 本发明的技术方案为:基于自然语言分析的随堂测试答案快速自动分类方法,使 用自然语言分析,对学生们在课堂上提交的问答题答案进行自动分类。具体步骤为:
[0006] 1川欠集并预处理回答
[0007] 使用移动终端应用的方式,向学生发布课堂测试的问题,并收集学生们的回答。过 滤并去除存在格式异常的文本。格式异常的情况有:回答中的信息缺失;所回答题目的基本 信息与教师所出题目不匹配;回答题目的时间超出教师规定的时间;回答题目的文本中包 含注入的攻击代码。根据文本内容自动判断需要自动归类的类型。对于所有回答均为中文 回答的情况,采用中文自然语言分析的方式进行分类;对于所有回答均包含数值的情况,采 用数值匹配进行分类;对于所有回答均包含并仅包含英文单词的情况,采用英文自然语言 分析的方式进行分类。
[000引2)自然语言分析
[0009]在得到回答的预处理结果之后,如果是数值匹配形式的分类,只需将答案中的数 值提取出来,相互匹配并分类即可,运种类型相对比较简单。如果是中文形式或者英文形式 的回答,需要使用自然语言分析对其进行处理并分类。对于英文和中文的自动分类方法基 本一致,仅仅在分词方法的选择、词库的选择上存在差异。在自然语言分析中又分为五个步 骤:分词、停止词过滤、同义词替换、关键词提取、构建关键词集合。
[0010] 分词:对学生回答中的自然语言描述的部分进行分词操作,将每份回答划分成独 立的词语。对于中文形式的回答,使用中文自然语言处理引擎,将中文文本划分为若干个词 组,并为运些词组标注了词性;对于英文形式的回答,使用英文自然语言处理引擎,将英文 文本划分为若干个词组,并为运些词组标注了词性。
[0011] 停止词过滤:对于分词的结果,选取中英文停止词的词库,去掉其中的停止词。停 止词是语言中出现频率很高但是对于语意没有影响的词语,运些词极其普遍,但与其他词 相比,运些词没有什么实际含义。
[0012] 同义词替换:生成一个同义词的词库,将指代同一个对象的不同词语归为一个集 合,用运个集合中的一个词语作为代表词,并用代表词替换学生回答中含有的该集合中的 其他词语。使用同义词替换后可W降低分类结果中的歧义性,使得最终结果更为精确。
[0013] 关键词提取:通过自然语言分析,将每份学生回答中的关键词提取出来,按权重大 小降序排列,权重的值表示该关键词能够代表语句含义的程度,取权重最大的k个关键词。
[0014] 权重是指:评估一个词对于整个回答中的其中一份文本的重要程度,量化运个重 要程度,将其作为运个词的权重。常用的技术是TF-IDF,其主要思想是如果某个词或短语在 一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好 的类别区分能力,适合用来分类。
[0015] TFID巧旨的是TF和IDF相乘所得到的结果。其中TF是词频(Term Frequency); IDF代 表逆向文件频率(Inverse Do州ment Frequen巧),主要思想是:如果包含词条的文档越少, IDF越大。
[0016] 式1
[0017] 式1中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次 数之和。
[001引式2
[0019] 式2中对数中的分子是总文件数目,而分母则是该词语之文件的数目。
[0020] 式3:tfi壯i, j = tfi, j X idfi
[0021] 式3中TFIDF由TF和IDF相乘所得。
[0022] 构建关键词集合:根据关键词在所有错误报告中出现的次数,选出出现次数超过 设定阔值a的关键词,按出现次数降序排列,并选取出现次数最多的m个关键词,构成关键词 集合。将集合中关键词和题干进行对比,将超过设定阔值b并且在题干中出现的词去除。
[0023] 3)回答分类:
[0024] 选出出现次数最多的n个关键字,单个回答中如果包含一个或多个关键字,选取权 重最高的关键字作为运个回答的代表关键字。将代表关键字相同的回答归为一类,n个关键 字将回答分为n类,n个关键字都不包含的回答单独归为一类。
【附图说明】
[0025] 图1为本发明实施例的一种基于自然语言分析的随堂测试答案快速自动分类方法 的流程图
【具体实施方式】
[0026] 为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
[0027] 图1为本发明实施例的一种基于自然语言分析的随堂测试答案快速自动分类方法 的流程图。
[0028] -种基于自然语言分析的随堂测试答案快速自动分类方法,其特征在于,包括下 列步骤:
[0029] 流程中的第①步是从移动应用或是微信公众号收集回答。本发明解决的是师生在 课堂互动中,如何使用移动端高效地完成随堂测试的问题。所W教师需要使用移动终端应 用的方式,向学生发布课堂测试的问题,系统收集学生们的回答,W供后续步骤使用。
[0030] 流程中的第②步是预处理。收集的回答的标准格式包含3个主要信息:文本形式的 题目回答;参与的学生基本信息;所回答的题目的基本信息(包含题干、班级、教师、时间)。 如果格式不符合要求,则将其丢弃。格式不符合要求的情况有:回答中的信息缺失;所回答 题目的基本信息与教师所出题目不匹配;回答题目的时间超出教师规定的时间;回答题目 的文本中包含注入的攻击代码。在格式正常的情况下,分析回答的文本,分为=类。使用正 则表达式对回答进行分类。对于所有回答均包含数值的情况,归为数值形式;对于所有回答 均包含并仅包含英文单词的情况,归为英文形式;对于所有回答均包含中文回答的情况,归 为中文形式。
[0031] 流程中的第③步是中文分词/英文分词/数值提取。根据预处理的结果,对于数值 形式的回答,提取其中的具体数值,W具体数值作为关键字,通过匹配具体数值对其进行分 类;对于中文形式的回答,使用中文自然语言处理引擎,将中文文本划分为若干个词组,并 为运些词组标注了词性。在具体实施流程中采用了 ansj_seg作为自然语言处理引擎。运是 一个基于google语义模型+条件随机场模型的中文分词的java实现,效率在同类工具中处 于领先地位,分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96% W上。ansj_seg是一个开源项目,在作者在2016年1月刚刚提交了最新的版本,距离上一次 更新已经相隔两年,在运个版本中,ansj_seg已经可W对英文进行分词。所W,对于预处理 中的中文自然语言处理和英文自然语言处理都可W使用ansj_seg作为分词工具。
[0032] 流程中的第④步是停止词过滤。停止词是语言中出现频率很高但是对于语意没有 影响的词语,运些词极其普遍,但与其他词相比,运些词没有什么实际含义。英语里面会遇 到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。类似的,中文中 的"在"、"里面"、"也"、"的"、"它"、"为"运些词都是停止词。将运些停止词从分词结果中滤 去。
[0033] 流程中的第⑤步是同义词替换。由于收集来的回答是不同的同学提交的,他们对 于同一个事物可能会使用不同的词组去描述,或者使用同义的词语去回答同一个问题。比 如"唐太宗"和"李世民"所指的是同一个人物,运两个词语就应该被视为同义词,在自然语 言处理中应该被作为同一个词语处理。在具体实施流程中生成一个同义词的词库,将指代 同一个对象的不同词语归为一个集合,用运个集合中的一个词语作为代表词,并用代表词 替换学生回答中含有的该集合中的其他词语。
[0034] 流程中的第⑥步是提取关键词。使用是ansj_seg中的关键词提取工具。ansj_seg 中的关键词提取方法是基于TF-IDF方法的。TF-IDF(te;rm frequen巧-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。具体来说,TF-IDF方法用W 评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。一个词对于其所 在的文本来说的重要性,随着它在其所在的文本中出现的次数成正比上升,同时随着其在 其他文本中出现的频率成反比下降。取其中权重最大的k个关键词,k值越大,挑选出来的关 键对语句的代表性越好,但是相应的,时间代价越大。对于学生答题的文本来说,由于是数 十个最多数百个的短文本,字数一般为几十最多几百,针对运种情况,TF-IDF的效率并不 高。如果服务器的性能不佳,也可采用统计相同词的出现频率来代替它的权重。
[0035] 流程中的第⑦步是构建关键词集合。根据关键词在所有回答中出现的次数,选出 出现次数超过设定阔值a的关键词,按出现次数降序排列,并选取出现次数最多的m个关键 词,构成关键词集合。将集合中关键词和题干进行对比,将超过设定阔值b并且在题干中出 现的词去除。
[0036] 流程中的第⑧步是文本分类。选出出现次数最多的n个关键字,单个回答中如果包 含一个或多个关键字,选取权重最高的关键字作为运个回答的代表关键字。将代表关键字 相同的回答归为一类,n个关键字将回答分为n类,n个关键字都不包含的回答单独归为一 类。将结果存入数据库,供相关教师查看。
[0037] 综上所述,本发明基于自然语言分析,对学生们在课堂上提交的问答题答案进行 自动分类,解决了教师教学过程中,随堂测试学生回答结果的少量短文本快速自动分类的 问题。使得教师可W及时得到问题回答情况的汇总报告,免去了 W往需要收集纸质答案再 人工汇总的工作,提高课堂中师生互动的效率。
【主权项】
1. 一种基于自然语言分析的随堂测试答案快速自动分类方法,其特征是使用自然语言 分析,对学生们在课堂上提交的问答题答案进行分词,提取其中的有效关键字,对所提交的 文本答案进行自动分类,使得教师可以及时得到问题回答情况的汇总报告,免去了以往需 要收集纸质答案再人工汇总的工作,解决了少量短文本快速自动分类的问题。2. 根据权利要求1所述的自然语言分析的随堂测试答案快速自动分类方法,其具体步 骤为: 1) 收集并预处理回答 收集学生在课堂上提交的问题回答,接收用户发送的问题回答,并根据设定的错误格 式标准,将其中存在异常的文本进行过滤,防止在后续步骤中引发错误。根据文本内容自动 判断需要自动归类的类型。具体分为中文形式、英文形式、数值形式; 2) 自然语言分析 对1)中的结果进行自然语言分析。对于数值形式回答的分类,将答案中的数值提取出 来,相互匹配并分类;对于中文和英文形式回答的分类,需要使用自然语言分析对其进行处 理并分类。对于英文和中文的自动分类方法在分词方法的选择、词库的选择上存在差异。包 括以下几个子步骤: 2a)分词: 对学生回答中的自然语言描述的部分进行分词操作,将每份回答划分成独立的词语。 使用自然语言处理引擎,将文本划分为若干个词组,并为这些词组标注了词性; 2b)停止词过滤: 定义1:停止词是语言中出现频率很高但是对于语意没有影响的词语,这些词极其普 遍,但与其他词相比,这些词没有什么实际含义; 对于2a)的结果,去掉其中的停止词; 2c)同义词替换: 生成一个同义词集合,将指代同一个对象的不同词语归为一个集合,用这个集合中的 一个词语作为代表词,并用代表词替换学生回答中含有的该集合中的其他词语,降低最终 结果的歧义性; 2d)关键词提取: 通过自然语言分析,将每份学生回答中的关键词提取出来,按权重大小降序排列,权重 的值表示该关键词能够代表语句含义的程度,取权重最大的k个关键词; 2e)构建关键词集合: 根据关键词在所有错误报告中出现的次数,选出出现次数超过设定阈值a的关键词,按 出现次数降序排列,并选取出现次数最多的m个关键词,构成关键词集合。将集合中关键词 和题干进行对比,将超过设定阈值b并且在题干中出现的词去除; 3) 回答分类: 选出出现次数最多的η个关键字,单个回答中如果包含一个或多个关键字,选取权重最 高的关键字作为这个回答的代表关键字。将代表关键字相同的回答归为一类,η个关键字将 回答分为η类,η个关键字都不包含的回答单独归为一类。3. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步 骤,其特征在于,步骤1)中,使用移动端应用或者微信公众账号接受用户发送的问题回答, 并存入数据库。4. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步 骤,其特征在于,步骤1)中,使用正则表达式对回答进行分类。对于所有回答均包含数值的 情况,归为数值形式;对于所有回答均包含并仅包含英文单词的情况,归为英文形式;对于 所有回答均包含中文回答的情况,归为中文形式。5. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步 骤,其特征在于,步骤2a)中,对于中文形式的回答,使用中文自然语言处理引擎,将中文文 本划分为若干个词组,并为这些词组标注了词性;对于英文形式的回答,使用英文自然语言 处理引擎,将英文文本划分为若干个词组,并为这些词组标注了词性。6. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步 骤,其特征在于,步骤2d)中,评估一个字词对于整个回答中的其中一份文本的重要程度,量 化这个重要程度,将其作为这个字词的权重。最常采用的技术是TF-IDF,其主要思想是如果 某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或 者短语具有很好的类别区分能力,适合用来分类; TFIDF指的是TF*IDF;TF是词频(Term Frequency); IDF代表逆向文件频率(Inverse Document Frequency),IDF主要思想是:如果包含词条的文档越少,IDF越大; 式1式1中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之 和; 式2 式2中对数中的分子是总文件数目,而分母则是该词语之文件的数目; 式3:tfidfi, j = tfi, j X idfi 式3中TFIDF就由TF和IDF相乘所得。7. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步 骤,其特征在于,步骤2d)中,选取的k值越大,挑选出来的关键对语句的代表性越好,但是相 应的,时间代价越大。本发明针对的场景需要时间代价比较小,考虑实际场景,k值选取2-5 较为合适。
【文档编号】G06F17/30GK106021288SQ201610283931
【公开日】2016年10月12日
【申请日】2016年4月27日
【发明人】陈振宇, 冯奕彬, 李舒颖, 刘子聪, 张智轶
【申请人】南京慕测信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1