一种基于自然语言分析的随堂测试答案快速自动分类方法

文档序号：10655134阅读：230来源：国知局

一种基于自然语言分析的随堂测试答案快速自动分类方法
【专利摘要】本发明提供一种基于自然语言分析的移动端随堂测试答案快速自动分类的方法，包括下列步骤：1)课堂测试回答文本的收集；2)课堂测试回答文本的预处理；3)回答文本的分词；4)停止词过滤；5)同义词替换；6)关键词提取；7)构建关键词集合；8)文本分类。本发明解决了教师教学过程中，随堂测试学生回答结果的少量短文本快速自动分类的问题。使得教师可以及时得到问题回答情况的汇总报告，免去了以往需要收集纸质答案再人工汇总的工作，提高课堂中师生互动的效率。
【专利说明】
-种基于自然语言分析的随堂测试答案快速自动分类方法
技术领域
[0001 ]本发明属于计算机技术领域，设及自然语言文本分析技术，为一种基于自然语言分析的移动端随堂测试答案快速自动分类的方法。解决了教师教学过程中，随堂测试学生回答结果的少量短文本快速自动分类的问题。使得教师可W及时得到问题回答情况的汇总报告，免去了 W往需要收集纸质答案再人工汇总的工作，提高了课堂中师生互动活动的效率。
【背景技术】
[0002] 移动端随堂测试是指教师通过手机应用，通过互联网将学生组织在一个虚拟的班级中。教师在运个班级中向学生们发布随堂测试，学生们参与并回答随堂测试中的问题，教师就可W及时得到随堂测试的结果。随堂测试的问题有判断题，单项/多项选择题，问答题运巧中形式。其中判断题，单项/多项选择题，W-个或多个数值作为答案的问答题，计算机都可W很容易地将答案进行分类。但是对于W-小段文本作为答案的问答题，其自动分类仍是个难题，运也是本发明解决的问题。
[0003] 中文自然语言处理是指将中文文本转换为计算机能够理解的格式，并对其进行处理，并将处理结果存储在计算机中，是计算机科学，人工智能，语言学关注计算机和人类自然语言之间的相互作用的领域。基于机器学习的技术，将自然语言的文本通过一系列分词、关键词提取等技术进行理解。本发明中使用中文分析、关键字提取，对随堂测试中的回答进行自动分类，方便教师及时得到随堂测试结果的反馈。

【发明内容】

[0004] 本发明要解决的问题是:提出一种基于自然语言分析将随堂测试学生回答结果的少量短文本快速自动分类的方法，使得教师可W及时得到问题回答情况的汇总报告，免去了W往需要收集纸质答案再人工汇总的工作。
[0005] 本发明的技术方案为:基于自然语言分析的随堂测试答案快速自动分类方法，使用自然语言分析，对学生们在课堂上提交的问答题答案进行自动分类。具体步骤为：
[0006] 1川欠集并预处理回答
[0007] 使用移动终端应用的方式，向学生发布课堂测试的问题，并收集学生们的回答。过滤并去除存在格式异常的文本。格式异常的情况有：回答中的信息缺失;所回答题目的基本信息与教师所出题目不匹配；回答题目的时间超出教师规定的时间；回答题目的文本中包含注入的攻击代码。根据文本内容自动判断需要自动归类的类型。对于所有回答均为中文回答的情况，采用中文自然语言分析的方式进行分类;对于所有回答均包含数值的情况，采用数值匹配进行分类;对于所有回答均包含并仅包含英文单词的情况，采用英文自然语言分析的方式进行分类。
[000引2)自然语言分析
[0009]在得到回答的预处理结果之后，如果是数值匹配形式的分类，只需将答案中的数值提取出来，相互匹配并分类即可，运种类型相对比较简单。如果是中文形式或者英文形式的回答，需要使用自然语言分析对其进行处理并分类。对于英文和中文的自动分类方法基本一致，仅仅在分词方法的选择、词库的选择上存在差异。在自然语言分析中又分为五个步骤:分词、停止词过滤、同义词替换、关键词提取、构建关键词集合。
[0010] 分词:对学生回答中的自然语言描述的部分进行分词操作，将每份回答划分成独立的词语。对于中文形式的回答，使用中文自然语言处理引擎，将中文文本划分为若干个词组，并为运些词组标注了词性;对于英文形式的回答，使用英文自然语言处理引擎，将英文文本划分为若干个词组，并为运些词组标注了词性。
[0011] 停止词过滤:对于分词的结果，选取中英文停止词的词库，去掉其中的停止词。停止词是语言中出现频率很高但是对于语意没有影响的词语，运些词极其普遍，但与其他词相比，运些词没有什么实际含义。
[0012] 同义词替换：生成一个同义词的词库，将指代同一个对象的不同词语归为一个集合，用运个集合中的一个词语作为代表词，并用代表词替换学生回答中含有的该集合中的其他词语。使用同义词替换后可W降低分类结果中的歧义性，使得最终结果更为精确。
[0013] 关键词提取:通过自然语言分析，将每份学生回答中的关键词提取出来，按权重大小降序排列，权重的值表示该关键词能够代表语句含义的程度，取权重最大的k个关键词。
[0014] 权重是指:评估一个词对于整个回答中的其中一份文本的重要程度，量化运个重要程度，将其作为运个词的权重。常用的技术是TF-IDF，其主要思想是如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
[0015] TFID巧旨的是TF和IDF相乘所得到的结果。其中TF是词频(Term Frequency); IDF代表逆向文件频率（Inverse Do州ment Frequen巧），主要思想是：如果包含词条的文档越少， IDF越大。
[0016] 式1
[0017] 式1中分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。
[001引式2
[0019] 式2中对数中的分子是总文件数目，而分母则是该词语之文件的数目。
[0020] 式3:tfi壯i, j = tfi, j X idfi
[0021] 式3中TFIDF由TF和IDF相乘所得。
[0022] 构建关键词集合:根据关键词在所有错误报告中出现的次数，选出出现次数超过设定阔值a的关键词，按出现次数降序排列，并选取出现次数最多的m个关键词，构成关键词集合。将集合中关键词和题干进行对比，将超过设定阔值b并且在题干中出现的词去除。
[0023] 3)回答分类：
[0024] 选出出现次数最多的n个关键字，单个回答中如果包含一个或多个关键字，选取权重最高的关键字作为运个回答的代表关键字。将代表关键字相同的回答归为一类，n个关键字将回答分为n类，n个关键字都不包含的回答单独归为一类。
【附图说明】
[0025] 图1为本发明实施例的一种基于自然语言分析的随堂测试答案快速自动分类方法的流程图
【具体实施方式】
[0026] 为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。
[0027] 图1为本发明实施例的一种基于自然语言分析的随堂测试答案快速自动分类方法的流程图。
[0028] -种基于自然语言分析的随堂测试答案快速自动分类方法，其特征在于，包括下列步骤：
[0029] 流程中的第①步是从移动应用或是微信公众号收集回答。本发明解决的是师生在课堂互动中，如何使用移动端高效地完成随堂测试的问题。所W教师需要使用移动终端应用的方式，向学生发布课堂测试的问题，系统收集学生们的回答，W供后续步骤使用。
[0030] 流程中的第②步是预处理。收集的回答的标准格式包含3个主要信息:文本形式的题目回答;参与的学生基本信息;所回答的题目的基本信息(包含题干、班级、教师、时间）。如果格式不符合要求，则将其丢弃。格式不符合要求的情况有：回答中的信息缺失;所回答题目的基本信息与教师所出题目不匹配；回答题目的时间超出教师规定的时间；回答题目的文本中包含注入的攻击代码。在格式正常的情况下，分析回答的文本，分为=类。使用正则表达式对回答进行分类。对于所有回答均包含数值的情况，归为数值形式;对于所有回答均包含并仅包含英文单词的情况，归为英文形式;对于所有回答均包含中文回答的情况，归为中文形式。
[0031] 流程中的第③步是中文分词/英文分词/数值提取。根据预处理的结果，对于数值形式的回答，提取其中的具体数值，W具体数值作为关键字，通过匹配具体数值对其进行分类;对于中文形式的回答，使用中文自然语言处理引擎，将中文文本划分为若干个词组，并为运些词组标注了词性。在具体实施流程中采用了 ansj_seg作为自然语言处理引擎。运是一个基于google语义模型+条件随机场模型的中文分词的java实现，效率在同类工具中处于领先地位，分词速度达到每秒钟大约200万字左右(mac air下测试），准确率能达到96% W上。ansj_seg是一个开源项目，在作者在2016年1月刚刚提交了最新的版本，距离上一次更新已经相隔两年，在运个版本中，ansj_seg已经可W对英文进行分词。所W，对于预处理中的中文自然语言处理和英文自然语言处理都可W使用ansj_seg作为分词工具。
[0032] 流程中的第④步是停止词过滤。停止词是语言中出现频率很高但是对于语意没有影响的词语，运些词极其普遍，但与其他词相比，运些词没有什么实际含义。英语里面会遇到很多a,the,or等使用频率很多的字或词，常为冠词、介词、副词或连词等。类似的，中文中的"在"、"里面"、"也"、"的"、"它"、"为"运些词都是停止词。将运些停止词从分词结果中滤去。
[0033] 流程中的第⑤步是同义词替换。由于收集来的回答是不同的同学提交的，他们对于同一个事物可能会使用不同的词组去描述，或者使用同义的词语去回答同一个问题。比如"唐太宗"和"李世民"所指的是同一个人物，运两个词语就应该被视为同义词，在自然语言处理中应该被作为同一个词语处理。在具体实施流程中生成一个同义词的词库，将指代同一个对象的不同词语归为一个集合，用运个集合中的一个词语作为代表词，并用代表词替换学生回答中含有的该集合中的其他词语。
[0034] 流程中的第⑥步是提取关键词。使用是ansj_seg中的关键词提取工具。ansj_seg 中的关键词提取方法是基于TF-IDF方法的。TF-IDF(te;rm frequen巧-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。具体来说，TF-IDF方法用W 评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。一个词对于其所在的文本来说的重要性，随着它在其所在的文本中出现的次数成正比上升，同时随着其在其他文本中出现的频率成反比下降。取其中权重最大的k个关键词，k值越大，挑选出来的关键对语句的代表性越好，但是相应的，时间代价越大。对于学生答题的文本来说，由于是数十个最多数百个的短文本，字数一般为几十最多几百，针对运种情况，TF-IDF的效率并不高。如果服务器的性能不佳，也可采用统计相同词的出现频率来代替它的权重。
[0035] 流程中的第⑦步是构建关键词集合。根据关键词在所有回答中出现的次数，选出出现次数超过设定阔值a的关键词，按出现次数降序排列，并选取出现次数最多的m个关键词，构成关键词集合。将集合中关键词和题干进行对比，将超过设定阔值b并且在题干中出现的词去除。
[0036] 流程中的第⑧步是文本分类。选出出现次数最多的n个关键字，单个回答中如果包含一个或多个关键字，选取权重最高的关键字作为运个回答的代表关键字。将代表关键字相同的回答归为一类，n个关键字将回答分为n类，n个关键字都不包含的回答单独归为一类。将结果存入数据库，供相关教师查看。
[0037] 综上所述，本发明基于自然语言分析，对学生们在课堂上提交的问答题答案进行自动分类，解决了教师教学过程中，随堂测试学生回答结果的少量短文本快速自动分类的问题。使得教师可W及时得到问题回答情况的汇总报告，免去了 W往需要收集纸质答案再人工汇总的工作，提高课堂中师生互动的效率。
【主权项】
1. 一种基于自然语言分析的随堂测试答案快速自动分类方法，其特征是使用自然语言分析，对学生们在课堂上提交的问答题答案进行分词，提取其中的有效关键字，对所提交的文本答案进行自动分类，使得教师可以及时得到问题回答情况的汇总报告，免去了以往需要收集纸质答案再人工汇总的工作，解决了少量短文本快速自动分类的问题。2. 根据权利要求1所述的自然语言分析的随堂测试答案快速自动分类方法，其具体步骤为： 1) 收集并预处理回答收集学生在课堂上提交的问题回答，接收用户发送的问题回答，并根据设定的错误格式标准，将其中存在异常的文本进行过滤，防止在后续步骤中引发错误。根据文本内容自动判断需要自动归类的类型。具体分为中文形式、英文形式、数值形式； 2) 自然语言分析对1)中的结果进行自然语言分析。对于数值形式回答的分类，将答案中的数值提取出来，相互匹配并分类;对于中文和英文形式回答的分类，需要使用自然语言分析对其进行处理并分类。对于英文和中文的自动分类方法在分词方法的选择、词库的选择上存在差异。包括以下几个子步骤： 2a)分词：对学生回答中的自然语言描述的部分进行分词操作，将每份回答划分成独立的词语。使用自然语言处理引擎，将文本划分为若干个词组，并为这些词组标注了词性； 2b)停止词过滤：定义1:停止词是语言中出现频率很高但是对于语意没有影响的词语，这些词极其普遍，但与其他词相比，这些词没有什么实际含义；对于2a)的结果，去掉其中的停止词； 2c)同义词替换：生成一个同义词集合，将指代同一个对象的不同词语归为一个集合，用这个集合中的一个词语作为代表词，并用代表词替换学生回答中含有的该集合中的其他词语，降低最终结果的歧义性； 2d)关键词提取：通过自然语言分析，将每份学生回答中的关键词提取出来，按权重大小降序排列，权重的值表示该关键词能够代表语句含义的程度，取权重最大的k个关键词； 2e)构建关键词集合：根据关键词在所有错误报告中出现的次数，选出出现次数超过设定阈值a的关键词，按出现次数降序排列，并选取出现次数最多的m个关键词，构成关键词集合。将集合中关键词和题干进行对比，将超过设定阈值b并且在题干中出现的词去除； 3) 回答分类：选出出现次数最多的η个关键字，单个回答中如果包含一个或多个关键字，选取权重最高的关键字作为这个回答的代表关键字。将代表关键字相同的回答归为一类，η个关键字将回答分为η类，η个关键字都不包含的回答单独归为一类。3. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步骤，其特征在于，步骤1)中，使用移动端应用或者微信公众账号接受用户发送的问题回答，并存入数据库。4. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步骤，其特征在于，步骤1)中，使用正则表达式对回答进行分类。对于所有回答均包含数值的情况，归为数值形式;对于所有回答均包含并仅包含英文单词的情况，归为英文形式;对于所有回答均包含中文回答的情况，归为中文形式。5. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步骤，其特征在于，步骤2a)中，对于中文形式的回答，使用中文自然语言处理引擎，将中文文本划分为若干个词组，并为这些词组标注了词性;对于英文形式的回答，使用英文自然语言处理引擎，将英文文本划分为若干个词组，并为这些词组标注了词性。6. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步骤，其特征在于，步骤2d)中，评估一个字词对于整个回答中的其中一份文本的重要程度，量化这个重要程度，将其作为这个字词的权重。最常采用的技术是TF-IDF，其主要思想是如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类； TFIDF指的是TF*IDF;TF是词频（Term Frequency); IDF代表逆向文件频率（Inverse Document Frequency)，IDF主要思想是：如果包含词条的文档越少，IDF越大；式1式1中分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和；式2 式2中对数中的分子是总文件数目，而分母则是该词语之文件的数目；式3:tfidfi, j = tfi, j X idfi 式3中TFIDF就由TF和IDF相乘所得。7. 根据权利要求2所述的自然语言分析的随堂测试答案快速自动分类方法的具体步骤，其特征在于，步骤2d)中，选取的k值越大，挑选出来的关键对语句的代表性越好，但是相应的，时间代价越大。本发明针对的场景需要时间代价比较小，考虑实际场景，k值选取2-5 较为合适。
【文档编号】G06F17/30GK106021288SQ201610283931
【公开日】2016年10月12日
【申请日】2016年4月27日
【发明人】陈振宇, 冯奕彬, 李舒颖, 刘子聪, 张智轶
【申请人】南京慕测信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈振宇;冯奕彬;李舒颖;刘子聪;张智轶;
技术所有人：南京慕测信息科技有限公司;
我是此专利的发明人

上一篇：基于节点用户的概率矩阵分解模型的构建方法
上一篇：一种操作系统和数据库的信息收集方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。