一种基于领域本体的高准确率主观题计算机自动阅卷方法

文档序号:6638563阅读:339来源:国知局
一种基于领域本体的高准确率主观题计算机自动阅卷方法
【专利摘要】一种基于领域本体的高准确率主观题计算机自动阅卷方法,首先构建一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的语句;其次构建一个基于领域本体与试题描述逻辑的主观题题库结构,并要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:(1)获取考生答卷中的单字词与词性标注;(2)标注本体元素;(3)生成基于领域关系的答卷语义;(4)基于领域关系的答案与答卷语义相似度计算;(5)计算出该主观题的考生答卷得分。该方法极大地简化了考生答卷中自然语言的语义分析与处理流程,更完整地表示出答案领域知识的语义,确保了主观题自动阅卷的准确性。
【专利说明】-种基于领域本体的高准确率主观题计算机自动阅卷方法

【技术领域】
[0001] 本发明涉及教育【技术领域】中的考试阅卷自动化,具体是基于领域本体的主观题自 动阅卷方案,更具体是一种基于领域本体与领域关系语义相似度的高准确率主观题计算机 自动阅卷方案,该方案将计算机作为工具,W键盘输入的考生答卷作为处理对象,帮助教师 实现主观题高准确率的自动阅卷,可广泛应用于各个学科的主观题计算机自动阅卷系统 中。

【背景技术】
[0002] 近年来的各类考试中大都采用考生填写答题卡该一方式,仔细推敲,我们会发现, 对于试题答案W选项编号表示的单选题、多选题、判断题等的客观题,可W由计算机完全代 替人工阅卷,但是对于答案需要使用自然语言表示的主观题的阅卷仍需由人工耗时耗力地 完成。
[0003] 由于单选题、多选题、判断题等客观题目的答案都是W选项编号表示,目前计算机 对于此类题型进行自动阅卷时,只需将标准答案的选项编号与考生答案的选项编号进行简 单的匹配运算,匹配成功则答案正确,该处理技术已经取得一定的成果,但对于答案采用自 然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评分,由于其 受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不甚理想。
[0004] 主观题不同于客观题,不仅需要采用自然语言表示答案,而且具有一定的主观性, 允许考生在一定的范围内答题,因此答案往往不是唯一的。另一方面,教师在批阅试卷的时 候,还可能会受到主观因素的影响,W及考生字体是否美观、卷面是否整洁等的影响,使得 教师在评分时,出现不合理的加分或扣分现象,有失考试的公正性和公平性。而主观题的计 算机自动阅卷,既减轻了教师人工阅卷的劳动强度,又减少人为因素的影响,保证了阅卷的 客观性、公正性,因此主观题计算机自动阅卷技术的研究,具有重大的意义。然而,由于主 观题考生答卷的多样性与随意性,目前还没有使用计算机对主观题进行自动阅卷的成熟技 术。
[0005] 目前,在各类计算机考试系统中,普遍采用关键字匹配技术进行主观题自动阅卷, 即在答案中标注出若干关键字或关键词,将其与考生答卷进行匹配,并根据匹配成功的多 少对考生答卷进行评分,由于自然语言的多样性与随意性,该种方法的评分准确率非常低。 为提高评卷的准确率,目前出现了少量的基于领域本体的主观题自动阅卷方法,但大多仍 简单地将本体元素标注成关键字,由于没有形成答案的完整语义,该种方法的效果也不理 想。


【发明内容】

[0006] 针对语义分析是自然语言处理的瓶颈,W及主观题自动阅卷方法中的答案语义不 精确、表达能力弱与评分准确度低等弱点,本发明提出了一种基于领域本体的高准确率主 观题自动阅卷方案。本发明通过本体实现领域知识的形式化,通过所设计的试题描述逻辑 完成对主观题的本体元素的标注与答案语义的完整表示,更为重要的是,本发明通过抽取 出试题答案中的本体元素形成领域关系来表示主观题答案的语义,从而更加准确地表示出 答案所包含的领域知识,同时采用基于领域关系语义相似度的方法评定考生的答卷,确保 了主观题自动阅卷的准确性。
[0007] 本发明的
【发明内容】
包括;一个适用于主观题自动阅卷的领域本体的结构;一个可 提高主观题答案语义表示的试题描述逻辑系统;一个基于领域本体与试题描述逻辑的主观 题题库结构;一套考生答卷预处理与答卷自动评阅的工作流程,包括考生答卷本体元素的 标注步骤、答卷语义生成步骤,W及基于领域关系的答案答卷语义相似度与答卷评分算法。
[0008] 本发明的技术方案如下。
[0009] -种基于领域本体的高准确率主观题计算机自动阅卷方法,首先构建一个适用于 主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的 语句;其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构,并要求试题符 合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:
[0010] (1)获取考生答卷中的单字与单词并标注词性;
[0011] 似标注本体元素;
[0012] (3)生成基于领域关系的答卷语义;
[0013] (4)基于领域关系的答案与答卷语义相似度计算;
[0014] (5)计算出该主观题的考生答卷得分;
[0015] 所述主观题题库结构定义成一个半结构的形式,即在同一个试题记录中可W包含 多个同义题目与答案字段,其BNF定义为:
[0016] <主观题题库结构〉::=(<题目〉,{<同义题目〉},<题目标注〉,{<答案〉,<答 案标注〉,<答案语义〉})
[0017] 其中,< 题目〉与 < 答案〉是直接面向考生的自然语言表达形式;
[001引 < 同义题目〉是与 < 题目〉具有相同语义的不同表现形式,用于实现题目多种形式 的显现;
[0019] <题目标注〉是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性 与关系)的主观题题目,主要用于通过本体元素的同义词实现题目显现的多样性;
[0020] <答案标注〉是标注有本体元素的试题答案,主要用于实现答案语义的抽取;
[0021] <答案语义〉通过抽取试题答案中的本体元素形成若干个领域关系来表示,从而 更准确地表示出答案所包含的领域知识,< 答案语义〉的结构为:
[0022] <答案语义〉::=<[?]关系1(定义域,值域)〉[&[?]< 关系2(定义域,值 域)〉&……&<[?]关系n(定义域,值域)〉]。
[0023] 本发明将领域本体形式化为一个五元组:
[0024] 0 = (C,A,R,I,SY}
[0025] (1)C表示与某个领域相关的所有概念的集合,该集合界定了主观题的主题范围;
[002引 似PcCxDT ;是概念的数据属性的集合,表示概念的内涵,用于界定主观题题 库中概念与个体的特征范围;
[0027] (3)民C C X C表示概念之间的二元领域关系集合,反映某个领域中的概念之间所 建立的联系,用于界定主观题题库中概念之间的联系范围,同时本发明将领域关系解释成 一个描述领域事件的自然语言的语句;
[0028] (4)1代表实例集合,表示某个领域所有概念的具体实体,在主观题中作为领域对 象使用;
[0029] (5) SY代表同义词集合。
[0030] 本发明所述的领域关系中包括关系名、定义域和值域;所述关系名代表一个领域 事件,为句子的动词,所述定义域表示事件实施者,为句子的主语,所述值域表示事件的内 容或接受者,为句子的宾语;
[0031] 并且,在领域关系规定关系名带介词的关系表示被动语态;
[0032] 关系的形态分为如下H种类型:
[0033] 1)关系名不带介词的关系;表示主动语态,关系对应的句子结构为;定义域+关系 名+值域;
[0034] 2)关系名带后缀介词的关系;表示被动语态,关系名在对应的事件句子中不用分 拆,关系对应的句子结构为;定义域+关系名+值域;
[003引扣关系名带一个由下划线"_"连接的前缀介词的关系康示被动语态,且关系名 在对应的事件句子中需要分拆使用,并由前缀介词分隔句子的主语与宾主,关系对应的句 子结构为:定义域+前缀介词+值域+关系名。
[0036] 本发明的试题描述逻辑系统孤LS是一个W领域本体元素为描述对象,对主观题 题目与答案进行本体标注与语义解释的一种特殊的描述逻辑,定义成如下的H元组:
[0037] 孤LS::=(<描述符〉,< 运算符〉,< 标注符〉)
[003引其中;描述符:用于声明主观题中本体元素的类型;
[0039] 运算符:将描述逻辑的常规运算符W更简洁的符号来表示,W方便运算符的使 用;
[0040] 标注符:用于分隔与界定主观题中的本体元素。
[0041] 本发明的在步骤(1),考生答卷中的单字与单词获取与词性的标注是在本体同义 词库与常规语言词典的共同支持下进行的。从而最大限度地获取学生答卷的语义,确保了 主观题自动阅卷的准确性。
[0042] 本发明步骤(2)的步骤、规则与格式包括:
[0043] 1)概念标注;将答卷中的名词逐个与领域本体中的概念同义词进行匹配,若有与 其相同的概念,则将该名词标注为概念,标注格式为;<概念名;C〉;
[0044] 2)实例标注:将答卷中概念标注后剩余的名词与专用名词短语逐个与领域本体 中的实例同义词进行匹配,若有与其相同的实例,则将该名词标注为实例,标注格式为;< 实例名;1〉;
[0045] 3)属性标注;将答卷中剩余的名词逐个与领域本体中的属性同义词进行匹配,若 有与其相同的属性,则根据该属性的类型将名词标注为相应的属性类别,标注格式为;< 属 性名;P〉;
[0046] 4)关系标注;将答卷中的动词逐个与领域本体中的关系同义词进行匹配,若有与 其相同的关系,则将该动词或名词标注为关系,标注格式为:< 关系名:R> ;然后进一步判定 关系动词前是否有否定副词或否定动词,如有则将该否定词标注为否定运算符"?";
[0047] 5)概念集合标注;将答卷中多个由连词或标点连接的多个概念组合成概念集合, 标注格式为;< {概念集合} ;cs>;
[0048] 6)实例集合标注;将答卷中多个由连词或标点连接的多个实例组合成实例集合, 标注格式为;<{实例集合} ;IS〉。
[0049] 本发明的步骤(3)包括:
[0050] 1)扫描已标注好本体元素的考生答卷,定位答卷中的第一个领域关系名;
[0051] 2)若领域关系名左侧只有一个领域概念,则将该概念处理为领域关系的定义域, 转步骤5);
[0052] 3)若领域关系名左侧有多个连续的领域概念或概念集合,且该多个领域概念由领 域关系的引导介词分隔,则将引导介词左侧的第一个概念处理为领域关系的定义域,将引 导介词右侧的多个概念作为概念集合并处理为领域关系的值域,转步骤9);否则将左侧最 靠近领域关系的概念处理为关系的定义域;
[0053] 4)若领域关系名左侧无任何领域概念,则将领域关系的定义域处理为空,且用0 表不;
[0054] 5)若领域关系名右侧只有一个领域概念,则将该概念处理为领域关系的值域,转 步骤9);
[0055] 6)若领域关系名右侧有多个连续的领域概念,则将该多个概念作为概念集合并处 理为领域关系的值域;
[0056] 7)若领域关系名右侧无任何领域概念,则将领域关系的值域处理为空,且用0表 示;
[0057] 8)若在答卷的本体标注中,关系名动词的左侧紧邻一个标注为否定运算符的否定 词,则在答卷语义中,在该关系名的前面加一个否定运算符"?";
[0058] 9)定位答卷中的第二个领域关系名,转步骤2),直到答卷中所有领域关系处理完 毕;
[0059] 10)若考生答卷语义中只有一个领域关系,则将该领域概念名及其定义域与值域, W "[?]关系名(定义域,值域)"的形式表示答卷的语义;
[0060] 11)若考生答卷中有多个领域关系,则将该多个领域关系通过运算符连接处 理为答卷的语义;
[0061] 12)若考生答卷中无任何领域关系,则将答卷中的所有领域概念通过运算符 连接处理为答卷的语义;
[0062] 13)若考生答卷中无任何领域本体,则该考生答卷语义为空。
[006引进一步,步骤(4)包括:
[0064] 1)定位试题的第一个答案的答案语义;
[0065] 2)若答案语义只有一个关系,则按公式(1)计算出答案关系与答卷关系的语义相 似度,并将该相似度作为答案与答卷的语义相似度,转步骤6);
[0066] 3)取答案语义的第一个关系,按公式(1)依次与考生答卷语义中的所有未标注已 比对的关系一一计算相似度:
[0067] SUnR =站邏一itnRN 乂如:D + SimRN 义 SimRR …
[0068] 其中,SimRN代表关系名相似度,SimRD代表定义域相似度,SimRR代表值域相似 度,H者的计算方法为:
[0069] ①若二个关系名相同或为同义词且二个关系名前的否定运算符相同,或答案语义 中只有关系且关系名为可省略项,则SimRN = 1 ;否则SimRN = 0 ;
[0070] ②若定义域相同或为同义词或为可省略项,则SimRD = 1 ;否则SimRD = 0 ;
[OCm] ③若值域相同或为同义词或为可省略项,则SimRR = 1 ;否则SimRR = 0 ;从所有的 关系相似度中,取一个最大值作为该答案关系与答卷关系的语义相似度,记作SimRi,同时 在答卷语义中将比对成功的关系标注为已比对;
[0072] 4)取答案语义的下一个关系,按步骤2)计算出该答案关系与答卷关系的语义相 似度,记作SimRi,直到计算出所有答案关系与答卷关系的语义相似度;
[0073] 5)设答案语义中的关系总数为n,按公式(2),计算出答案与答卷的语义相似度:
[0074]

【权利要求】
1. 一种基于领域本体的高准确率主观题计算机自动阅卷方法,其特征在于:首先构建 一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的 自然语言的语句;其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构,并 要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷: (1) 获取考生答卷中的单字与单词并标注词性; (2) 标注本体元素; (3) 生成基于领域关系的答卷语义; (4) 基于领域关系的答案与答卷语义相似度计算; (5) 计算出该主观题的考生答卷得分; 所述主观题题库结构定义成一个半结构的形式,即在同一个试题记录中可以包含多个 同义题目与答案字段,其BNF定义为: 〈主观题题库结构 >:: = (〈题目〉,{〈同义题目>},〈题目标注〉,{:〈答案〉,〈答案标 注〉,〈答案语义>}) 其中,〈题目〉与〈答案〉是直接面向考生的自然语言表达形式; 〈同义题目〉是与〈题目〉具有相同语义的不同表现形式,用于实现题目多种形式的显 现; 〈题目标注〉是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性与关 系)的主观题题目,主要用于通过本体元素的同义词实现题目显现的多样性; 〈答案标注〉是标注有本体元素的试题答案,主要用于实现答案语义的抽取; 〈答案语义〉通过抽取试题答案中的本体元素形成若干个领域关系来表示,〈答案语义 >的结构为: 〈答案语义 >::=〈[?]关系1(定义域,值域)>[&[?]〈关系2(定义域,值 域)>&……&〈[?]关系n(定义域,值域)>]。
2. 根据权利要求1所述的自动阅卷方法,其特征在于:将领域本体形式化为一个五元 组: O= {C,A,R,I,SY} 1. C表示与某个领域相关的所有概念的集合,该集合界定了主观题的主题范围; 2. Pg:CXDT:是概念的数据属性的集合,表示概念的内涵,用于界定主观题题库中概 念与个体的特征范围; 3. RgCXC表示概念之间的二元领域关系集合,反映某个领域中的概念之间所建立 的联系,用于界定主观题题库中概念之间的联系范围; 4) 1代表实例集合,表示某个领域所有概念的具体实体,在主观题中作为领域对象使 用; 5. SY代表同义词集合。
3. 根据权利要求1所述的自动阅卷方法,其特征在于:领域关系中包括关系名、定义域 和值域;所述关系名代表一个领域事件,为句子的动词,所述定义域表示事件实施者,为句 子的主语,所述值域表示事件的内容或接受者,为句子的宾语; 并且,在领域关系规定关系名带介词的关系表示被动语态; 关系的形态分为如下三种类型: 1) 关系名不带介词的关系:表示主动语态,关系对应的句子结构为:定义域+关系名+ 值域; 2) 关系名带后缀介词的关系:表示被动语态,关系名在对应的事件句子中不用分拆, 关系对应的句子结构为:定义域+关系名+值域; 3) 关系名带一个由下划线"_"连接的前缀介词的关系:表示被动语态,且关系名在对 应的事件句子中需要分拆使用,并由前缀介词分隔句子的主语与宾主,关系对应的句子结 构为:定义域+前缀介词+值域+关系名。
4. 根据权利要求1所述的自动阅卷方法,其特征在于:试题描述逻辑系统QDLS是一个 以领域本体元素为描述对象,对主观题题目与答案进行本体标注与语义解释的一种特殊的 描述逻辑,定义成如下的三元组: QDLS::=(〈描述符〉,〈运算符〉,〈标注符>) 其中:描述符:用于声明主观题中本体元素的类型; 运算符:将描述逻辑的常规运算符以更简洁的符号来表示,以方便运算符的使用; 标注符:用于分隔与界定主观题中的本体元素。
5. 根据权利要求1所述的自动阅卷方法,其特征在于:在步骤(1),考生答卷中的单字 与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的。
6. 根据权利要求1所述的自动阅卷方法,其特征在于:步骤⑵的步骤、规则与格式包 括: 1) 概念标注:将答卷中的名词逐个与领域本体中的概念同义词进行匹配,若有与其相 同的概念,则将该名词标注为概念,标注格式为:〈概念名:C> ; 2) 实例标注:将答卷中概念标注后剩余的名词与专用名词短语逐个与领域本体中的 实例同义词进行匹配,若有与其相同的实例,则将该名词标注为实例,标注格式为:〈实例 名:1> ; 3) 属性标注:将答卷中剩余的名词逐个与领域本体中的属性同义词进行匹配,若有 与其相同的属性,则根据该属性的类型将名词标注为相应的属性类别,标注格式为:〈属性 名:P> ; 4) 关系标注:将答卷中的动词逐个与领域本体中的关系同义词进行匹配,若有与其相 同的关系,则将该动词或名词标注为关系,标注格式为:〈关系名:R〉;然后进一步判定关系 动词前是否有否定副词或否定动词,如有则将该否定词标注为否定运算符"?"; 5) 概念集合标注:将答卷中多个由连词或标点连接的多个概念组合成概念集合,标注 格式为:〈{概念集合} :CS> ; 6) 实例集合标注:将答卷中多个由连词或标点连接的多个实例组合成实例集合,标注 格式为:〈{实例集合} :IS>。
7. 根据权利要求1所述的自动阅卷方法,其特征在于:步骤⑶包括: 1) 扫描已标注好本体元素的考生答卷,定位答卷中的第一个领域关系名; 2) 若领域关系名左侧只有一个领域概念,则将该概念处理为领域关系的定义域,转步 骤5); 3) 若领域关系名左侧有多个连续的领域概念或概念集合,且这多个领域概念由领域关 系的引导介词分隔,则将引导介词左侧的第一个概念处理为领域关系的定义域,将引导介 词右侧的多个概念作为概念集合并处理为领域关系的值域,转步骤9);否则将左侧最靠近 领域关系的概念处理为关系的定义域; 4) 若领域关系名左侧无任何领域概念,则将领域关系的定义域处理为空,且用O表示; 5) 若领域关系名右侧只有一个领域概念,则将该概念处理为领域关系的值域,转步骤 9); 6) 若领域关系名右侧有多个连续的领域概念,则将这多个概念作为概念集合并处理为 领域关系的值域; 7) 若领域关系名右侧无任何领域概念,则将领域关系的值域处理为空,且用O表示; 8) 若在答卷的本体标注中,关系名动词的左侧紧邻一个标注为否定运算符的否定词, 则在答卷语义中,在该关系名的前面加一个否定运算符"?"; 9) 定位答卷中的第二个领域关系名,转步骤2),直到答卷中所有领域关系处理完毕; 10) 若考生答卷语义中只有一个领域关系,则将该领域概念名及其定义域与值域,以 "[?]关系名(定义域,值域)"的形式表示答卷的语义; 11) 若考生答卷中有多个领域关系,则将这多个领域关系通过运算符"&"连接处理为 答卷的语义; 12) 若考生答卷中无任何领域关系,则将答卷中的所有领域概念通过运算符"&"连接 处理为答卷的语义; 13) 若考生答卷中无任何领域本体,则该考生答卷语义为空。
8.根据权利要求1所述的自动阅卷方法,其特征在于:步骤⑷包括: 1) 定位试题的第一个答案的答案语义; 2) 若答案语义只有一个关系,则按公式(1)计算出答案关系与答卷关系的语义相似 度,并将该相似度作为答案与答卷的语义相似度,转步骤6); 3) 取答案语义的第一个关系,按公式(1)依次与考生答卷语义中的所有未标注已比对 的关系一一计算相似度:
其中,SimRN代表关系名相似度,SimRD代表定义域相似度,SimRR代表值域相似度,三 者的计算方法为: ① 若二个关系名相同或为同义词且二个关系名前的否定运算符相同,或答案语义中只 有一个关系且关系名为可省略项,则SimRN= 1 ;否则SimRN= 0 ; ② 若定义域相同或为同义词或为可省略项,则SimRD= 1 ;否则SimRD= 0 ; ③ 若值域相同或为同义词或为可省略项,则SimRR= 1 ;否则SimRR= 0 ;从所有的关系 相似度中,取一个最大值作为该答案关系与答卷关系的语义相似度,记作SimR1,同时在答 卷语义中将比对成功的关系标注为已比对; 4) 取答案语义的下一个关系,按步骤2)计算出该答案关系与答卷关系的语义相似度, 记作SimRi,直到计算出所有答案关系与答卷关系的语义相似度; 5) 设答案语义中的关系总数为n,按公式(2),计算出答案与答卷的语义相似度:
6) 定位试题的下一个答案的答案语义,按步骤2)、3)、4)与5),计算出该答案与答卷的 语义相似度,记作Simi(answer,paper),直到计算出所有答案与答卷的语义相似度; 7) 设该主观题的答案总数为m,按公式(3),计算出该试题的答案与答卷的语义相似 度:
其中,MX表示取最大值。
9.根据权利要求1所述的自动阅卷方法,其特征在于:在步骤(5),按公式(4)计算出 该主观题的考生答卷得分: Score=WeightXSim(answer,paper) (4) 其中,设该主观题的分值权重为Weight。
【文档编号】G06F17/30GK104504023SQ201410768685
【公开日】2015年4月8日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】朱新华, 李飞, 陈宏朝, 袁鼎荣, 邓涵 申请人:广西师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1