基于问题求解过程的习题语义化方法

文档序号：6514524阅读：161来源：国知局

基于问题求解过程的习题语义化方法
【专利摘要】本发明公开了一种基于问题求解过程的习题语义化方法，主要包括知识网络（知识点与知识点之间的关系、定理及其推导条件和结论之间的关系）的构建、题目与解题过程的语义化；该方法通过对习题的解题过程进行分析处理，提取解题步骤的推导条件、原因和结论，并语义化，使该习题的解题过程具有详尽的逻辑关系，进而被计算机所识别，便于资源的共享利用。
【专利说明】基于问题求解过程的习题语义化方法
【技术领域】
[0001]本发明涉及一种基于问题求解过程的习题语义化方法。
【背景技术】
[0002]随着信息技术的发展及教学改革的深化，习题语义化技术得到了广泛的应用，同时有关的理论、技术也得到了很大的发展。然而传统习题或题库系统缺少语义或智能性，计算机不能很好地理解；其次，题库的表现形式多种多样，题库资源难以共享。传统习题都是以文本格式进行存储，未考虑题目与解题过程的语义，以及习题之间的关系。习题涵盖了某个学科或课程的知识点或知识网络，而这些题目与解题过程的语义，以及习题之间的关系是进行问题求解时的重要参考和依据。

【发明内容】

[0003]本发明的目的在于针对于现有技术中存在的问题，提供一种基于问题求解过程的习题语义化方法，该方法针对习题的题目及问题求解过程，将所涉及领域的定理的推导条件、原因和结论提取出来，并将所涉及的知识点、知识点之间的关系提取出来，构建知识网络，再利用该知识网络对题目及解题过程进行语义化，变成计算机能识别的语言，有利于资
源共享。
[0004]为了达到上述发明目的，本发明采用的技术方案如下:
[0005]提供一种基于问题求解过程的习题语义化方法，包括如下步骤:
[0006]S1:确定一个领域，利用自然语言解析工具对该领域内的定理进行解析并对其进行语义化，形成描述领域知识的知识网络；
[0007]S2:提取领域内的知识点及知识点之间的关系，将其添加到步骤SI中所建立的知识网络中；
[0008]S3:输入题目文本信息，对题目中的已知条件和结论进行拆分，并对已知条件划分成段并编号，再利用自然语言解析工具对每个分段及结论进行解析并对其语义化；
[0009]S4:输入解题过程文本信息，结合步骤S3中的已知条件信息对该解题过程的每一步进行编号，并利用步骤S2中构建的知识网络来构建或查找每个解题步骤的推导条件、结论和对应的定理信息即原因，再利用自然语言解析工具进行解析并对其语义化，从而完成问题求解过程的语义化。
[0010]步骤SI中，利用自然语言解析工具根据推导条件在前、结论在后的结构对定理进行解析，提取该定理的推导条件和结论，并将推导条件、定理和结论构建成主谓宾结构，存储为RDF三元组，添加到知识网络中，形成该领域的知识网络。
[0011]步骤S3包括以下步骤:
[0012]S31:对题目中的已知条件和结论进行拆分；
[0013]S32:再以标点符号为标志符，对题目的已知条件进行分段，并对其进行编号；
[0014]S33:再将经步骤S32处理过的已知条件和步骤S31中的结论用自然语言解析工具解析成树，提取其主谓宾，存储为RDF三元组。
[0015]步骤S4包括以下步骤:
[0016]S41:对解题过程的每一步进行编号；如果当前步骤为已知条件，则编号为已知条件中对应的序号；如果当前步骤为新生成的结论，则对当前步骤进行自动编号，编号的序号从已知条件最大编号加I开始，直到对解题过程中的所有步骤编号完毕；
[0017]S42，包括:
[0018]A:对解题过程中新生成的结论即新步骤进行解析，得到该新步骤的推导条件、原因和结论；
[0019]Al:如果该新步骤未标注原因，则推导条件为该步骤之前的一个原因或结论步骤对应的编号；再根据此步骤的推导条件和结论，在已构建好的知识网络中找到相应的定理，得到其原因；如果没有找到相应的定理，再继续添加该步骤之前的一个原因或结论步骤之前的原因或结论步骤对应的编号，直到找到相应的定理或推导条件全部添加完为止；
[0020]A2:如果该新步骤已注明了原因，则对应的定理已知，根据结论和原因在已构建好的知识网络中找到相应的推导条件，且该推导条件为该新步骤之前的一个或多个原因或结论步骤对应的编号；
[0021]B:再将推导条件、原因和结论构建成一个主谓宾结构，并存储为RDF三元组；其中，三元组主语为推导条件信息，谓语为原因信息，宾语为结论信息；
[0022]C:将上述三元组信息进行抽象模型提取，并搜索知识网络中是否已存在该三元组，如果不存在，则把该三元组添加到知识网络中；
[0023]D:重复步骤A到C，直至完成对解题过程中的每个新生成的结论的语义化，即完成问题求解过程的语义化。
[0024]E:构建此题目及解题过程的XML文档。
[0025]名词解释
[0026]知识网络:是知识元之间相互关联形成的网络。如果把知识元看作节点，知识元之间的联系用一条边来表示。那么所有的知识以及它们之间的联系就构成了一个庞大复杂的网络，叫做知识网络。
[0027]资源描述框架(ResourceDescription Framework, RDF)是由万维网联盟(W3C)制定发展的规范，它用于表达关于网络资源的元数据，表达简单的资源陈述，其中每个陈述都是由主语(subject)、谓语(predicate)和宾语(object)组成的,可标识资源与资源之间的关系，并可作为逻辑推论的基础资料模型。RDF提供了一种基本的结构，用于在Web上对元数据(meta-data)进行编码、交换和重用；RDF的基本句法是〈主语谓词宾语 > 三元组，主语为URI或匿名结点ID，宾语为UR1、匿名结点ID或文字(literal)，谓词则是一 URI ；RDF图(RDF Graph)是由RDF三元组组成的集合，RDF的数据模型有三种表示法:作为三元组、作为图和用XML表示，这些表示都具有相同的含义，表示间的映射不会以任何方式约束实现中使用的内部表示。
[0028]可扩展标记语言(extensible Markup Language, XML),是一种标记语言。标记指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种信息的文章等；如何定义这些标记，既可以选择国际通用的标记语言，比如HTML，也可以使用像XML这样由相关人士自由决定的标记语言，这就是语言的可扩展性，XML是从标准通用标记语言(SGML)中简化修改出来的。它主要用到的有可扩展标记语言、可扩展样式语言(XSL)、XBRL和XPath等。
[0029]所述自然语言解析工具为美国斯坦福大学研发的中文自然语言解析工具即Stanford Parser。
[0030]综上所述，本发明具有以下有益效果:
[0031]I)本发明通过对习题的解题过程进行分析处理，提取解题步骤的推导条件、原因和结论，并语义化，使该习题的解题过程具有详尽的逻辑关系，进而被计算机所识别，便于资源的共享利用。
[0032]2)本发明构建的知识网络能很好地展现知识点与知识点之间的关系，可以通过不停的学习加以完善，有利于对知识的挖掘处理。
[0033]3)本发明还对构建的三元组进行抽象模型提取，使得零散的知识得以关联和系统化，更符合认知心理学习的学习方式；另外，抽象模型的构建可以完成多种应用，如进行自动解题与证明。
【专利附图】

【附图说明】
[0034]图1为本发明构建的知识网络关系图。
[0035]图2为本发明题目语义化流程图。
[0036]图3为本发明解题过程语义化流程图。
[0037]图4为本发明-实施例中的例I的示意图。
【具体实施方式】
[0038]下面结合具体实施例对本发明的【具体实施方式】做详细地描述:
[0039]如图1所示，知识网络的构建:首先确定一个领域，将领域内所涉及的定理用美国斯坦福大学研发的中文自然语言解析工具Stanford Parser进行解析,提取对应定理的推导条件和结论，并将推导条件、定理名称与结论构建成主谓宾，存储为RDF三元组，形成一个知识网络；再将习题所涉及的知识点、知识点之间的关系(此关系不需明确指出)提取出来，添加到上述知识网络中。
[0040]如图2所示，本发明的题目语义化过程为:
[0041]用户输入题目文本信息，对题目中的已知条件和结论进行拆分，再对已知条件划分成段并进行编号，最后将已知条件和结论都转换为主谓宾结构，并存储为RDF三元组。
[0042]图3为本发明的解题过程语义化流程图，基于问题求解过程可以进行具体的解题步骤的抽象模型提取，每个解题步骤由结论、原因(相关定理)和推导条件三个部分组成，具体步骤如下:
[0043]a、首先添加当前步骤的结论；
[0044]b、然后添加推导条件和原因；
[0045]如果该解题步骤未标注原因，则推导条件默认为该步骤之前的一个...或...步骤对应的编号，再根据此步骤的推导条件和结论，在已构建好的知识网络中去匹配相应的定理，得到其推导原因；如果匹配不成功，再继续添加更之前的一个...或...步骤对应的编号，直到匹配成功或推导条件全部添加完；如果此解题步骤已注明了原因，则对应的定理为已知，根据结论和原因在已构建好的知识网络中去匹配相应的推导条件，且推导条件为该步骤之前的一个或多个’..或步骤对应的编号。
[0046]C、核查推导条件、原因和当前步骤结论是否完全匹配，如果完全匹配，则成功，否则需再进一步完善推导条件。
[0047]d、最后构建出当前解题步骤的推导条件、原因和结论的抽象模型。
[0048]下面以实例详细说明一种基于问题求解过程的习题语义化方法的流程:
[0049]这里选择一道题进行输入，题目信息为:
[0050]例I,如图4所示，四边形AB⑶是平行四边形，AC是对角线，BE丄AC,垂足为E,DF丄AC，垂足为F。
[0051]求证:BE= DF。
[0052]【答案】证明:...四边形 AB⑶是平行四边形。
[0053]...BC = AD, BC Il AD。
[0054]...Z ACB = Z DAC
[0055]...BE 丄 AC，DE 丄 AC。
[0056]...Z CEB = Z AFD = 900.[0057]...Δ CEB AFD (ASA)
[0058]...BE = DF。
[0059]构建该领域内定理的知识网络，如“平行四边形的性质2”，其文本描述“平行四边形的对边平行且相等”，由自然语言解析工具Stanford Parser按照最大匹配原则解析为“平行四边形”、“对边平行”、“相等”;根据条件在前，结论在后的结构解析，则此定理的推导条件为“平行四边形”，结论为“对边平行”和“相等”(可完善为“线段相等”或“对边相等”)；由此可构建此定理的主谓宾，并存储为对应的RDF三元组〈平行四边形平行四边形的性质2对边平行 > 和〈平行四边形平行四边形的性质2对边相等 >，添加到知识网络中。
[0060]另外，再根据习题的知识点，构建知识点与知识点之间的关系，如四边形与平行四边形有关系，对角线与四边形有关系，(具体什么关系，在这里并不重要，不予考虑)。
[0061]进行题目语义化:以“已知”、“求证”、“证明”为标识符将已知条件和结论拆分，再以标点符号为标识符，对题目的已知条件进行拆分，并对其进行顺序编号。对例I的题目信息处理如下:
[0062]已知条件:
[0063](I)如图，
[0064]( 2 )四边形AB⑶是平行四边形，
[0065](3) AC是对角线，
[0066](4) BE 丄 AC，
[0067](5)垂足为 E，
[0068](6) DF 丄 AC，
[0069](7)垂足为 F。
[0070]结论:
[0071]求证:BE= DF。
[0072]将已知条件和结论用自然语言处理工具Stanford Parser进行解析,然后提取其抽象模型。对例I的题目处理如下:
[0073]已知条件:
[0074](1)如图，
[0075]( 2 )四边形AB⑶是平行四边形
[0076](3)线段AC是对角线
[0077](4 )线段BE垂直线段AC
[0078](5)点E为垂足
[0079](6 )线段DF垂直线段AC
[0080](7)点F为垂足
[0081]结论:
[0082]线段BE线段相等线段DF
[0083]并将其存储为三元组。
[0084]解题过程处理:对解题过程中的每一步进行编号；若当前步骤为已知条件，则编号为已知条件中对应的序号；如果当前步骤为新生成的结论，则对当前步骤进行自动编号，编号的序号从已知条件最大编号加I开始，直到对解题过程中所有步骤进行编号。对例I的解题过程处理如下:
[0085]【答案】
[0086]( 2 )...四边形AB⑶是平行四边形.[0087](8)...BC = AD BC Il AD.[0088](9) Λ Z ACB =ZMC
[0089](4) (6)...BE 丄 AC，DE 丄 AC.[0090](10)...Z CEB = Z AFD = 900.[0091](11) Λ Δ CEB ^ Δ AFD (ASA)
[0092](12) Λ BE = DF.[0093]依次解析解题过程中的每一个新步骤(即新生成的结论):
[0094]如果当前解题步骤未标注原因，则推导条件默认为该步骤之前的一个...或...步骤对应的编号，再根据此步骤的推导条件和结论，在已构建好的知识网络中去匹配相应的定理，得到其推导原因，如果匹配不成功，再继续添加更之前的一个V或...步骤对应的编号，直到匹配成功或推导条件全部添加完；
[0095]如果此解题步骤已注明了原因，则对应的定理为已知，根据结论和原因在已构建好的知识网络中去匹配相应的推导条件，且推导条件为该步骤之前的一个或多个V或步骤对应的编号。
[0096]对例I的解题过程处理如下:
[0097]结论:(8)...BC = AD BC Il AD.[0098]推导条件:(2)
[0099]原因:平行四边形的性质2
[0100]其中(8)对应的实例模型为
[0101]“线段BC对边相等线段AD”
[0102]“线段BC对边平行线段AD”[0103]其抽象模型为“对边相等”(“线段相等”)、“对边平行”
[0104]结论:(9)...Z ACB = Z DAC.[0105]推导条件:(8)
[0106]原因:平行线的性质2
[0107]其中(9)对应的实例模型为“Z ACB内错角相等ZDAC”，
[0108]其抽象模型为“内错角相等”
[0109]结论:(10)/.Z CEB =Z AFD = 900.[0110]推导条件:(4)(6)
[0111]原因:垂直的定义
[0112]其中(10)对应的实例模型为“ Z CEB角相等Z AFD”
[0113]其抽象模型为“角相等”
[0114]结论:(11)/.Λ CEB 竺Λ AFD
[0115]原因:ASA (角边角判定定理)
[0116]推导条件:(8)(9) (10)
[0117]其中(11)对应的实例模型为“Λ CEB三角形全等Λ AFD”
[0118]其抽象模型为“三角形全等”
[0119]结论:(12)...BE = DF.[0120]推导条件:(11)
[0121]原因:全等三角形的性质
[0122]其中(12)对应的实例模型为“线段BE对应边相等线段DF”
[0123]其抽象模型为“对应边相等”
[0124]然后将上述每一步的推导条件、原因和结论的三元组抽象模型存储为一个外层三元组，添加到知识网络中，这样就通过有监督学习构建出每一个新步骤(新结论)的推导条件、原因和结论的抽象模型，从而将整个问题求解过程语义化。
[0125]虽然结合具体实施例对本发明的【具体实施方式】进行了详细地描述，但并非是对本专利保护范围的限定。在权利要求书所限定的范围内，本领域的技术人员不经创造性劳动即可做出的各种修改或调整仍受本专利的保护。
【权利要求】
1.基于问题求解过程的习题语义化方法，其特征在于，包括如下步骤: S1:确定一个领域，利用自然语言解析工具对该领域内的定理进行解析并对其进行语义化，形成描述领域知识的知识网络； 52:提取领域内的知识点及知识点之间的关系，将其添加到步骤SI中所建立的知识网络中； 53:输入题目文本信息，对题目中的已知条件和结论进行拆分，并对已知条件划分成段并编号，再利用自然语言解析工具对每个分段及结论进行解析并对其语义化； 54:输入解题过程文本信息，结合步骤S3中的已知条件信息对该解题过程的每一步进行编号，并利用步骤S2中构建的知识网络来构建或查找每个解题步骤的推导条件、结论和对应的定理信息即原因，再利用自然语言解析工具进行解析并对其语义化，从而完成问题求解过程的语义化。
2.根据权利要求1所述的基于问题求解过程的习题语义化方法，其特征在于:步骤SI中，利用自然语言解析工具根据推导条件在前、结论在后的结构对定理进行解析，提取该定理的推导条件和结论，并将推导条件、定理和结论构建成主谓宾结构，存储为RDF三元组，添加到知识网络中，形成该领域的知识网络。
3.根据权利要求1所述的基于问题求解过程的习题语义化方法，其特征在于，步骤S3包括以下步骤: 531:对题目中的已知条件和结论进行拆分； 532:再以标点符号为标志符，对题目的已知条件进行分段，并对其进行编号； 533:再将经步骤S32处理过的已知条件和步骤S31中的结论用自然语言解析工具解析成树，提取其主谓宾，存储为RDF三元组。
4.根据权利要求1所述的基于问题求解过程的习题语义化方法，其特征在于，步骤S4包括以下步骤: S41:对解题过程的每一步进行编号；如果当前步骤为已知条件，则编号为已知条件中对应的序号；如果当前步骤为新生成的结论，则对当前步骤进行自动编号，编号的序号从已知条件最大编号加I开始，直到对解题过程中的所有步骤编号完毕；S42，包括: A:对解题过程中新生成的结论即新步骤进行解析，得到该新步骤的推导条件、原因和结论； Al:如果该新步骤未标注原因，则推导条件为该步骤之前的一个原因或结论步骤对应的编号；再根据此步骤的推导条件和结论，在已构建好的知识网络中找到相应的定理，得到其原因；如果没有找到相应的定理，再继续添加该步骤之前的一个原因或结论步骤之前的原因或结论步骤对应的编号，直到找到相应的定理或推导条件全部添加完为止； A2:如果该新步骤已注明了原因，则对应的定理已知，根据结论和原因在已构建好的知识网络中找到相应的推导条件，且该推导条件为该新步骤之前的一个或多个原因或结论步骤对应的编号； B:再将推导条件、原因和结论构建成一个主谓宾结构，并存储为RDF三元组；其中，三元组主语为推导条件信息，谓语为原因信息，宾语为结论信息； C:将上述三元组信息进行抽象模型提取，并搜索知识网络中是否已存在该三元组，如果不存在，则把该三元组添加到知识网络中； D:重复步骤A到C，直至完成对解题过程中的每个新生成的结论的语义化，即完成问题求解过程的语义化。
5.根据权利要求4所述的基于问题求解过程的习题语义化方法，其特征在于，还包括: E:构建此题目及解题过程的XML文档。
6.根据权利要求1所述的基于问题求解过程的习题语义化方法，其特征在于:所述自然语言解析工具为美国斯坦福大学研发的中文自然语言解析工具即Stanford Parser0
【文档编号】G06F17/27GK103473224SQ201310462896
【公开日】2013年12月25日申请日期:2013年9月30日优先权日:2013年9月30日
【发明者】符红光, 钟秀琴, 王庆先申请人:成都景弘智能科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：符红光;钟秀琴;王庆先
技术所有人：成都景弘智能科技有限公司
我是此专利的发明人

上一篇：应用程序回退方法、装置及相关设备的制作方法
上一篇：一种情景式电网展示方法及其展示应用系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。