英语领域知识本体的构造方法、系统及设备与流程

文档序号:18030198发布日期:2019-06-28 22:34阅读:194来源:国知局
英语领域知识本体的构造方法、系统及设备与流程
本发明涉及英语教学领域,尤其涉及一种英语领域知识本体的构造方法、系统及设备。
背景技术
:随着信息技术的迅猛发展,人们的思维方式和学习方式发生了重大改变,推动教育模式和学习模式发生前所未有的变革。将信息技术运用到教育教学过程,从而形成了数字化教学,数字化资源是数字化教学的关键。就目前来说英语教学资源缺少一种能清晰的表示英语概念和概念之间关系以及存储大量知识的网络系统,这给英语学习者带来了很大的不便。英语教学领域的知识本体具体是一个将现实中英语学科资源、各知识点以及知识点对应的实例进行有机关联的庞大知识关系网络。通过该领域的知识本体可以将该领域的知识组织起来,使得对知识的表示从信息的集合到知识网络和知识地图。用户通过检索该学科本体可以获取高度关联的知识结果,从而引导学生进行自主学习,为用户的个性化学习的提升提供可能。目前对英语学科本体建设的关注主要还是停留在资源层面上,即仅研究不同的数字化学习资源的表示,而未考虑其知识之间的关联,没有真正实现数字化学习资源的共享和有效检索。上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。技术实现要素:本发明的主要目的在于提供一种英语领域知识本体的构造方法、系统及设备,旨在解决现有技术中无法高效实现学习资源的共享和有效检索的技术问题。为实现上述目的,本发明提供一种英语领域知识本体的构造方法,所述英语领域知识本体的构造方法包括以下步骤:构建一级类及所述一级类的子类的层次结构,所述一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义所述一级类及所述一级类的子类的对象属性及数据属性;根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体。优选地,所述根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体,具体包括:根据所述层次结构及所述数据属性为所述语法概念类及其子类添加个体;根据所述层次结构、所述对象属性及所述数据属性为所述实例类及其子类添加个体;根据所述层次结构、所述对象属性及所述数据属性为所述产品资源服务类及其子类添加个体,获得英语领域知识本体。优选地,所述根据所述层次结构及所述数据属性为所述语法概念类及其子类添加个体,具体包括:基于模式匹配及机器学习算法从电子语法书中获取所述语法概念类及其子类对应的语法概念库;获取所述语法概念库中的第一个体;为所述语法概念类及其子类添加数据属性;获取所述第一个体对应的第一所属类;将所述第一个体添加到所述第一所属类中,并为所述第一个体添加所述数据属性。优选地,所述根据所述层次结构、所述对象属性及所述数据属性为所述实例类及其子类添加个体,具体包括:从英语词典中提取实例库,并构建各实例之间的关联关系;基于hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得所述实例库中各实例对应的语法分析结果;根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性;为所述实例类及其子类添加数据属性及对象属性;获取所述实例库中的第二个体、所述第二个体对应的语法分析结果及所述第二个体对应的对象属性;获取所述第二个体对应的第二所属类;将所述第二个体及所述第二个体对应的语法分析结果添加到所述第二所属类中,并为所述第二个体添加所述数据属性及所述第二个体对应的对象属性。优选地,所述依存语法分析包括二元结构分析、子句分析、词汇分析、固定搭配分析、习语分析及语法概念分析中的一种或多种。优选地,所述根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性之后,所述方法还包括:通过网络爬虫抓取百科词条中的语法内容,并根据所述语法内容自动调整优化所述实例库及各实例的对象属性。优选地,所述根据所述层次结构、所述对象属性及所述数据属性为所述产品资源服务类及其子类添加个体,获得英语领域知识本体,具体包括:所述根据所述层次结构、所述对象属性及所述数据属性为所述产品资源服务类及其子类添加个体,获得英语领域知识本体,具体包括:通过网络爬虫从第三方资源库中抓取资源库;基于主题分类算法获取所述资源库对应网页的主题标签,并根据所述主题标签获得各资源的对象属性;为所述产品资源服务类及其子类添加数据属性及对象属性;获取所述资源库中第三个体及所述第三个体对应的对象属性;获取所述第三个体对应的第三所属类;将所述第三个体添加到所述第三所属类中,并为所述第三个体添加所述数据属性及所述第三个体对应的对象属性,获得英语领域知识本体。优选地,所述根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体之后,所述方法还包括:构建常见错误类及其子类的层次结构;定义所述常见错误类及其子类的对象属性及数据属性;基于自然语言处理技术从预设英语常见错误语料库中获取常见错误库;为所述常见错误类及其子类添加数据属性及对象属性;获取所述常见错误库中第四个体及所述第四个体对应的对象属性;获取所述第四个体对应的第四所属类;将所述第四个体添加到所述第四所属类中,并为所述第四个体添加所述数据属性及所述第四个体对应的对象属性。此外,为实现上述目的,本发明还提供一种英语领域知识本体的构造系统,所述英语领域知识本体的构造系统包括:本体结构模块,用于构建一级类及所述一级类的子类的层次结构,所述一级类包括语法概念类、实例类和产品资源服务类;本体属性模块,用于定义所述一级类及所述一级类的子类的对象属性及数据属性;个体添加模块,用于根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体。此外,为实现上述目的,本发明还提供一种英语领域知识本体的构造设备,所述英语领域知识本体的构造设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的英语领域知识本体的构造程序,所述英语领域知识本体的构造程序配置为实现所述的英语领域知识本体的构造方法的步骤。本发明通过构建一级类及所述一级类的子类的层次结构,一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义一级类及其子类的对象属性及数据属性;根据层次结构、对象属性及数据属性为一级类及其子类添加个体,获得英语领域知识本体,使英语学科资源、知识点以及知识点对应的词汇、句子等形成有机关联的庞大知识关系网络,通过已建立的知识本体可以将该领域的知识组织起来,实现英语知识的表示从信息的无序集合到知识网络和知识地图的形成,用户通过检索该知识本体可以获取高度关联的知识资源,最大程度的实现英语领域知识的检索、推荐、复用和共享。附图说明图1是本发明实施例方案涉及的硬件运行环境的英语领域知识本体的构造设备结构示意图;图2为本发明英语领域知识本体的构造方法第一实施例的流程示意图;图3为图2中英语领域知识本体的结构示意图;图4为图2中产品资源服务类的结构示意图;图5为本发明英语领域知识本体的构造系统第一实施例的功能模块图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。参照图1,图1为本发明实施例方案涉及的硬件运行环境的英语领域知识本体的构造设备结构示意图。如图1所示,该英语领域知识本体的构造设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的结构并不构成对英语领域知识本体的构造设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及英语领域知识本体的构造程序。在图1所示的英语领域知识本体的构造设备中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述英语领域知识本体的构造设备通过处理器1001调用存储器1005中存储的英语领域知识本体的构造程序,并执行以下操作:构建一级类及所述一级类的子类的层次结构,所述一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义所述一级类及所述一级类的子类的对象属性及数据属性;根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:根据所述层次结构及所述数据属性依次为所述语法概念类及其子类添加个体;根据所述层次结构、所述对象属性及所述数据属性依次为所述实例类及其子类添加个体;根据所述层次结构、所述对象属性及所述数据属性依次为所述产品资源服务类及其子类添加个体,获得英语领域知识本体。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:基于模式匹配及机器学习算法从电子语法书中获取所述语法概念类及其子类对应的语法概念库;获取所述语法概念库中的第一个体;为所述语法概念类及其子类添加数据属性;获取所述第一个体对应的第一所属类;将所述第一个体添加到所述第一所属类中,并为所述第一个体添加所述数据属性。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:从英语词典中提取实例库,并构建各实例之间的关联关系;基于hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得所述实例库中各实例对应的语法分析结果;根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性;为所述实例类及其子类添加数据属性及对象属性;获取所述实例库中的第二个体、所述第二个体对应的语法分析结果及所述第二个体对应的对象属性;获取所述第二个体对应的第二所属类;将所述第二个体及所述第二个体对应的语法分析结果添加到所述第二所属类中,并为所述第二个体添加所述数据属性及所述第二个体对应的对象属性。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:通过网络爬虫抓取百科词条中的语法内容,并根据所述语法内容自动调整优化所述实例库及各实例的对象属性。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:所述根据所述层次结构、所述对象属性及所述数据属性为所述产品资源服务类及其子类添加个体,获得英语领域知识本体,具体包括:通过网络爬虫从第三方资源库中抓取资源库;基于主题分类算法获取所述资源库对应网页的主题标签,并根据所述主题标签获得各资源的对象属性;为所述产品资源服务类及其子类添加数据属性及对象属性;获取所述资源库中第三个体及所述第三个体对应的对象属性;获取所述第三个体对应的第三所属类;将所述第三个体添加到所述第三所属类中,并为所述第三个体添加所述数据属性及所述第三个体对应的对象属性,获得英语领域知识本体。进一步地,处理器1001可以调用存储器1005中存储的英语领域知识本体的构造程序,还执行以下操作:构建常见错误类及其子类的层次结构;定义所述常见错误类及其子类的对象属性及数据属性;基于自然语言处理技术从预设英语常见错误语料库中获取常见错误库;为所述常见错误类及其子类添加数据属性及对象属性;获取所述常见错误库中第四个体及所述第四个体对应的对象属性;获取所述第四个体对应的第四所属类;将所述第四个体添加到所述第四所属类中,并为所述第四个体添加所述数据属性及所述第四个体对应的对象属性。本实施例通过构建一级类及所述一级类的子类的层次结构,一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义一级类及其子类的对象属性及数据属性;根据层次结构、对象属性及数据属性为一级类及其子类添加个体,获得英语领域知识本体,使英语学科资源、知识点以及知识点对应的词汇、句子等形成有机关联的庞大知识关系网络,通过已建立的知识本体可以将该领域的知识组织起来,实现英语知识的表示从信息的无序集合到知识网络和知识地图的形成,用户通过检索该知识本体可以获取高度关联的知识资源,引导学生自主学习。基于上述硬件结构,提出本发明英语领域知识本体的构造方法实施例。参照图2,图2为本发明英语领域知识本体的构造方法第一实施例的流程示意图。在第一实施例中,所述英语领域知识本体的构造方法包括以下步骤:s10:构建一级类及所述一级类的子类的层次结构,所述一级类包括英语领域的语法概念类、实例类和产品资源服务类。需要说明的是,基于初高中英语领域中所涉及到的语法概念及预先收集的资源类型和数量,英语领域知识本体的结构示意图如图3所示。所述语法概念类主要涉及到初高中英语教学中的所有语法概念,通过建立这个类,可以整合所有相关的语法概念。同时,通过对该类的进一步划分,可以实现对初高中英语语法的可视化整合。当然,在上述一级类的基础上,该类层次结构可以随着语法概念的不断完善进行动态扩充。其中,每个二级类下面可以扩充相应的三级、四级、五级等层级结构,本实施例对此不加以限制。所述实例类中主要包含现已整理的例句、篇章以及对这些现有句子进行句法分析的结果。这部分的主要二级结构主要分为词汇、短语、句子和篇章四个二级类。其中,句子主要来源于语法概念讲解中的例句、篇章中的句子、初高中课本中的例句。而词汇和短语主要是从句子进行句法分析的结果提取出来的,每个二级类还可以扩充,词汇、短语、句子类的扩充主要是参考对句子进行句法分析的结果,将结果中所涉及到的内容进行分类划分,提取出相关的类。所述产品资源服务类主要是对现有的教学资源进行整理,教学资源的整理需要对不同的资源进行分类划分,而资源的不同主要判断依据是资源的不同属性,这些属性就需要通过人工对资源打上tag(标签),通过tag对资源进行区分。该部分的主要二级类分为产品、服务和资源。每类资源或服务会分为很多种类,种类的划分需要更多的经验介入。产品资源服务类的结构示意图如图3所示,二级类资源的三级类可以分为教学视频、试卷、课件、教案、教材、考研、素材拓展,二级类产品的三级类可以分为虚拟产品和实体产品,二级类服务的三级类可以分为线下服务和线上服务,三级类试卷的四级类可以分为听力、单选、阅读理解、作文,三级类线下服务的四级类可以分为专业培训,三级类线上服务的四级类可以分为作文诊断、听力诊断、阅读诊断、口语诊断等。s20:定义所述一级类及所述一级类的子类的对象属性及数据属性。需要说明的是,单独的英语领域知识本体的类层次是没有实际应用价值的,因此需要给类建立相关的属性。根据实际需要可以对一级类及其子类定义两种属性:对象属性和数据属性。对象属性主要是为了建立两个类之间的关系。也就是说,使两个类有相互的关联关系,而这种关系可以是单向的,也可以是双向的。对象属性的定义可以是某个一级类之间的,也可以是不同一级类之间的。对于一级类之间的对象属性主要是为了建立本类内部的不同子类之间的关系。根据实际的应用需求,不同一级类之间的关系才是实际应用的关键,也是本体建设宗旨的所在。这样,通过不同类之间的属性就可以实现资源的有效整合和管理。a)同一类内部的对象属性定义对于语法一级类,根据实际需求,没有建立同一类内部对象属性的必要。对于资源一级类而言,其主要的对象属性定义如下:在实际定义对象属性时,可在protégé软件(斯坦福大学开发的本体编辑和知识获取软件,开发语言采用java,属于开放源码软件)中进行可视化构建,但实际构建时是使用程序构建的。而对于实例一级类而言,其主要的对象属性定义如下:对象属性名称domainrange逆属性isassociatewith词汇句子canassociatecanbetranslatedinto句子翻译istranslationofincludedependence句子二元依赖关系isincludedinsenfordepincludefixedphrase句子固定搭配isincludedinsenforfixedphraseincludeidiom句子习语isincludedinsenforidiomincludephrase句子短语类型分析isincludedinsenforphraseincludesentence子句类型分析句子isinstanceofphraseidiomincludevoca固定搭配、习语词汇vocaisincludedinphraseidiom在实际定义对象属性时,可在protégé软件中进行可视化构建,但实际构建时是使用程序构建的。b)不同类之间的对象属性定义不同类之间的对象属性定义对于本体的可用性和实际价值有着决定性的作用。根据现实的需求和实际本体的规模,可以定义如下对象属性。在实际定义对象属性时,可在protégé软件中进行可视化构建,但实际构建时是使用程序构建的。数据属性主要是为了标记类具有某种数据类型的属性,具体地可以为类中的数据类型的值,如,可以为句子建立一个值为string的属性,这样就可以为每个句子的实例建立一个说明具体句子内容的属性。数据属性说明:可使用protégé软件进行可视化的构建,在实际构建时,需要注意:(1)数据属性的命名要有可读性和可识别性;(2)选取合适的数据属性类型。s30:根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体。具体地,根据所述层次结构、所述对象属性及所述数据属性依次为所述语法概念类及其子类、所述实例类及其子类、所述产品资源服务类及其子类添加个体,获得英语领域知识本体。需要说明的是,不同类添加个体的方式是不同的,这是根据具体的资源类型决定的。由于三个一级类之间存在依赖关系,实例类依赖于语法概念类的个体,而产品资源服务类的个体依赖于语法概念类的个体和实例类的个体,因此为不同的一级类添加个体的过程是有顺序要求的:首先,必须添加语法概念一级类及其子类的个体;其次,添加实例一级类及其子类的个体;最后,添加产品资源服务一级类及其子类的个体。a)语法概念类及其子类添加个体具体步骤为:基于模式匹配及机器学习算法从电子语法书中获取所述语法概念类及其子类对应的语法概念库;获取所述语法概念库中的第一个体;为所述语法概念类及其子类添加数据属性;获取所述第一个体对应的第一所属类;将所述第一个体添加到所述第一所属类中,并为所述第一个体添加所述数据属性。需要说明的是,所述第一个体,指语法概念库中需要添加至语法概念类或其子类中的个体。应当理解的是,语法概念类或其子类的个体主要来源于编辑部门对初高中语法概念进行的标注,标注格式为xml文件。不同的二级语法点对应不同的xml文件,而具体的xml文件中包含二级语法点以下的所有知识点,如三级、四级、五级等。在具体实现中,可以先获得电子化的语法书籍,然后通过模式匹配及机器学习的方式,提取语法书籍中的语法概念,并对这些语法概念进行标注,使其作为语法概念类及其子类的个体来源。考虑到将来检索的问题,在为语法概念类或其子类添加个体时,首先,对每一个类层次中的类添加一个数据属性,代表自己的具体描述;然后,给每个具体的类添加对应的个体,在添加个体的过程中,为个体创建数据属性。此时,由于语法概念类是最早添加的且语法概念类自身没有定义内部的对象属性,所以在为语法概念类及其子类添加个体时,不用考虑对象属性。b)实例类及其子类添加个体具体步骤为:从英语词典中提取实例库,并构建各实例之间的关联关系;基于hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得所述实例库中各实例对应的语法分析结果;根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性;为所述实例类及其子类添加数据属性及对象属性;获取所述实例库中的第二个体、所述第二个体对应的语法分析结果及所述第二个体对应的对象属性;获取所述第二个体对应的第二所属类;将所述第二个体及所述第二个体对应的语法分析结果添加到所述第二所属类中,并为所述第二个体添加所述数据属性及所述第二个体对应的对象属性。需要说明的是,所述第二个体,指实例库中需要添加至实例类或其子类中的个体。所述实例,可以为词汇、句子、短语、篇章、常见错误等,本实施例对此不加以限制。本实施例中通过解析经典的英语字词典,从中提取词汇、句子等作为实例库,将实例类及其子类中不存在的个体导入到相应的子类如词汇、句子类当中,并构建他们的关联关系,形成词汇、句子等的知识网络。应当理解的是,实体类或其子类添加个体时,需要得到个体的语法分析结果,而语法分析结果是在项目的前期完成的,这里只需要得到具体的语法分析结果就可以进行本体中该部分的添加。在对个体进行语法分析时,可以利用hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得实例库中各实例对应的语法分析结果,根据语法分析结果及所述各实例之间的关联关系获得各实例的对象属性,实体类添加个体和个体对应的数据属性及对象属性后,可以形成词汇、语法、句子对应的知识网络。其中,所述预设权威语料库可以为英语国家语料库(britishnationalcorpus,bnc)或其它权威语料库,所述依存语法分析主要包括:二元结构分析、子句分析、词汇分析、固定搭配分析、习语分析及语法概念分析中的一种或多种。根据这些分析获得的分析结果进行为实例类及下面的二级类、三级类添加相应的个体。当然,在根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性之后,还可以通过网络爬虫抓取常见百科中的百科词条,分析百科词条当中的语法内容,完善并丰富语法、词汇、句子个体属性、关联关系,形成更完备知识网络。在添加个体的过程中,有三个注意事项:(1)为有数据属性的类添加实例时,需要为个体添加数据属性;(2)为具有实例类内部对象属性的类添加个体时,需要为个体添加对象属性,并设置其逆属性;(3)为具有一级类之间关系的对象属性的类添加个体时,需要为个体添加类之间对象属性和设置其逆属性,比如添加语法概念类和实例类的对象属性及其逆属性。c)产品资源服务类及其子类添加个体具体步骤为:通过网络爬虫从第三方资源库中抓取资源库;基于主题分类算法获取所述资源库对应网页的主题标签,并根据所述主题标签获得各资源的对象属性;为所述产品资源服务类及其子类添加数据属性及对象属性;获取所述资源库中第三个体及所述第三个体对应的对象属性;获取所述第三个体对应的第三所属类;将所述第三个体添加到所述第三所属类中,并为所述第三个体添加所述数据属性及所述第三个体对应的对象属性,获得英语领域知识本体。易于理解的是,所述第三个体,指资源库中需要添加至产品资源服务类或其子类中的个体。需要说明的是,产品资源服务类或其子类主要包含了现有的教学资源、平台服务等,其个体来源主要是第三方资源库,如百度文库、视频网站等,利用主题分类算法获取网页的主题标签,根据主题标签可以获得各资源的对象属性,产品资源服务类或其子类添加个体和个体对应的数据属性及对象属性后,可以形成资源、语法、词汇相关联的知识网络。产品资源服务类或其子类的个体是通过一个xls文档存储的,这个xls文档中的内容对于该部分个体的添加具有很重要的意义。因此,需要对xls文档中每行所代表的资源进行资源的打标签,这里,为了和前面两个资源类进行联系,需要特别为每个资源打上“资源所涉及到的知识点”、“资源中的关键词”的标签。在该部分个体添加的过程中,有以下几个注意事项:(1)根据个体的类型,把个体添加到对应的类中;(2)添加个体的过程中,创建相应的数据属性;(3)添加一级类之间的对象属性,例如,个体所涉及到的语法概念,个体所涉及到的关键词等,通过xls文档中的内容,建立类间的对象属性,并可以设置相应对象属性的逆属性。在具体实现中,也可以为英语领域知识本体添加常见错误类的一级类及其子类,并为常见错误类添加常见错误个体,具体地,构建常见错误类及其子类的层次结构;定义所述常见错误类及其子类的对象属性及数据属性;基于自然语言处理技术从预设英语常见错误语料库中获取常见错误库;为所述常见错误类及其子类添加数据属性及对象属性;获取所述常见错误库中第四个体及所述第四个体对应的对象属性;获取所述第四个体对应的第四所属类;将所述第四个体添加到所述第四所属类中,并为所述第四个体添加所述数据属性及所述第四个体对应的对象属性。易于理解的是,所述第四个体,指常见错误库中需要添加至常见错误类类或其子类中的个体,即常见错误个体,通过添加常见错误个体、常见错误个体的数据属性及对象属性,形成了常见错误、语法、词汇相关联的知识网络。上述方案基于owl本体建模技术思想,构建的英语领域知识本体可以有效的实现知识共享、复用和知识创新,相对于传统方法构建的知识网络而言有如下优势:(1)体现知识导航,即用树型结构将本体的概念网络动态地加以显示,用户可以循着学科等级和概念间的语义关系进行浏览。(2)体现知识检索,即能够实现基于概念的语义检索,搜索过程不再是数据集合中的关键词匹配,而是基于概念网络的概念检索。本实施例通过构建一级类及所述一级类的子类的层次结构,一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义一级类及其子类的对象属性及数据属性;根据层次结构、对象属性及数据属性为一级类及其子类添加个体,获得英语领域知识本体,使英语学科资源、知识点以及知识点对应的词汇、句子等形成有机关联的庞大知识关系网络,通过已建立的知识本体可以将该领域的知识组织起来,实现英语知识的表示从信息的无序集合到知识网络和知识地图的形成,用户通过检索该知识本体可以获取高度关联的知识资源,最大程度的实现英语领域知识的检索、推荐、复用和共享。本发明进一步提供一种英语领域知识本体的构造系统。参照图5,图5为本发明英语领域知识本体的构造系统一实施例的功能模块图。本实施例中,所述英语领域知识本体的构造系统包括:本体结构模块10,用于构建一级类及所述一级类的子类的层次结构,所述一级类包括语法概念类、实例类和产品资源服务类。需要说明的是,基于初高中英语领域中所涉及到的语法概念及预先收集的资源类型和数量,英语领域知识本体的结构示意图如图3所示。所述语法概念类主要涉及到初高中英语教学中的所有语法概念,通过建立这个类,可以整合所有相关的语法概念。同时,通过对该类的进一步划分,可以实现对初高中英语语法的可视化整合。当然,在上述一级类的基础上,该类层次结构可以随着后续语法概念的不断完善进行动态扩充。其中,每个二级类下面可以扩充相应的三级、四级、五级等层级结构。所述实例类中主要包含现已整理的例句、篇章以及对这些现有句子进行句法分析的结果。这部分的主要二级结构主要分为词汇、短语、句子和篇章四个二级类。其中,句子主要来源于语法概念讲解中的例句、篇章中的句子、初高中课本中的例句。而词汇和短语主要是从句子进行句法分析的结果提取出来的,每个二级类还可以扩充,词汇、短语、句子类的扩充主要是参考对句子进行句法分析的结果,将结果中所涉及到的内容进行分类划分,提取出相关的类。所述产品资源服务类主要是对现有的教学资源进行整理,教学资源的整理需要对不同的资源进行分类划分,而资源的不同主要判断依据是资源的不同属性,这些属性就需要通过人工对资源打上tag(标签),通过tag对资源进行区分。该部分的主要二级类分为产品、服务和资源。每类资源或服务会分为很多种类,种类的划分需要更多的经验介入。产品资源服务类的结构示意图如图3所示,二级类资源的三级类可以分为教学视频、试卷、课件、教案、教材、考研、素材拓展,二级类产品的三级类可以分为虚拟产品和实体产品,二级类服务的三级类可以分为线下服务和线上服务,三级类试卷的四级类可以分为听力、单选、阅读理解、作文,三级类线下服务的四级类可以分为专业培训,三级类线上服务的四级类可以分为作文诊断、听力诊断、阅读诊断、口语诊断等。本体属性模块20,用于定义所述一级类及所述一级类的子类的对象属性及数据属性。需要说明的是,单独的英语领域知识本体的类层次是没有实际应用价值的,因此需要给类建立相关的属性。根据实际需要可以对一级类及其子类定义两种属性:对象属性和数据属性。对象属性主要是为了建立两个类之间的关系。也就是说,使两个类有相互的关联关系,而这种关系可以是单向的,也可以是双向的。对象属性的定义可以是某个一级类之间的,也可以是不同一级类之间的。对于一级类之间的对象属性主要是为了建立本类内部的不同子类之间的关系。根据实际的应用需求,不同一级类之间的关系才是实际应用的关键,也是本体建设宗旨的所在。这样,通过不同类之间的属性就可以实现资源的有效整合和管理。a)同一类内部的对象属性定义对于语法一级类,根据实际需求,没有建立同一类内部对象属性的必要。对于资源一级类而言,其主要的对象属性定义如下:对象属性名称domainrange逆属性includequestions试卷单选、作文、听力、阅读理解isincludedinpaper在实际定义对象属性时,可在protégé软件(斯坦福大学开发的本体编辑和知识获取软件,开发语言采用java,属于开放源码软件)中进行可视化构建,但实际构建时是使用程序构建的。而对于实例一级类而言,其主要的对象属性定义如下:在实际定义对象属性时,可在protégé软件中进行可视化构建,但实际构建时是使用程序构建的。b)不同类之间的对象属性定义不同类之间的对象属性定义对于本体的可用性和实际价值有着决定性的作用。根据现实的需求和实际本体的规模,可以定义如下对象属性。在实际定义对象属性时,可在protégé软件中进行可视化构建,但实际构建时是使用程序构建的。数据属性主要是为了标记类具有某种数据类型的属性,具体地可以为类中的数据类型的值,如,可以为句子建立一个值为string的属性,这样就可以为每个句子的实例建立一个说明具体句子内容的属性。数据属性说明:可使用protégé软件进行可视化的构建,在实际构建时,需要注意:(1)数据属性的命名要有可读性和可识别性;(2)选取合适的数据属性类型。个体添加模块30,用于根据所述层次结构、所述对象属性及所述数据属性为所述一级类及所述一级类的子类添加个体,获得英语领域知识本体。具体地,根据所述层次结构、所述对象属性及所述数据属性依次为所述语法概念类及其子类、所述实例类及其子类、所述产品资源服务类及其子类添加个体,获得英语领域知识本体。需要说明的是,不同类添加个体的方式是不同的,这是根据具体的资源类型决定的。由于三个一级类之间存在依赖关系,实例类依赖于语法概念类的个体,而产品资源服务类的个体依赖于语法概念类的个体和实例类的个体,因此为不同的一级类添加个体的过程是有顺序要求的:首先,必须添加语法概念一级类及其子类的个体;其次,添加实例一级类及其子类的个体;最后,添加产品资源服务一级类及其子类的个体。a.语法概念类及其子类添加个体具体步骤为:基于模式匹配及机器学习算法从电子语法书中获取所述语法概念类及其子类对应的语法概念库;获取所述语法概念库中的第一个体;为所述语法概念类及其子类添加数据属性;获取所述第一个体对应的第一所属类;将所述第一个体添加到所述第一所属类中,并为所述第一个体添加所述数据属性。需要说明的是,所述第一个体,指语法概念库中需要添加至语法概念类或其子类中的个体。应当理解的是,语法概念类或其子类的个体主要来源于编辑部门对初高中语法概念进行的标注,标注格式为xml文件。不同的二级语法点对应不同的xml文件,而具体的xml文件中包含二级语法点以下的所有知识点,如三级、四级、五级等。在具体实现中,可以先获得电子化的语法书籍,然后通过模式匹配及机器学习的方式,提取语法书籍中的语法概念,并对这些语法概念进行标注,使其作为语法概念类及其子类的个体来源。考虑到将来检索的问题,在为语法概念类或其子类添加个体时,首先,对每一个类层次中的类添加一个数据属性,代表自己的具体描述;然后,给每个具体的类添加对应的个体,在添加个体的过程中,为个体创建数据属性。此时,由于语法概念类是最早添加的且语法概念类自身没有定义内部的对象属性,所以在为语法概念类及其子类添加个体时,不用考虑对象属性。b.实例类及其子类添加个体具体步骤为:从英语词典中提取实例库,并构建各实例之间的关联关系;基于hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得所述实例库中各实例对应的语法分析结果;根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性;为所述实例类及其子类添加数据属性及对象属性;获取所述实例库中的第二个体、所述第二个体对应的语法分析结果及所述第二个体对应的对象属性;获取所述第二个体对应的第二所属类;将所述第二个体及所述第二个体对应的语法分析结果添加到所述第二所属类中,并为所述第二个体添加所述数据属性及所述第二个体对应的对象属性。需要说明的是,所述第二个体,指实例库中需要添加至实例类或其子类中的个体。所述实例,可以为词汇、句子、短语、篇章、常见错误等,本实施例对此不加以限制。本实施例中通过解析经典的英语字词典,从中提取词汇、句子等作为实例库,将实例类及其子类中不存在的个体导入到相应的子类如词汇、句子类当中,并构建他们的关联关系,形成词汇、句子等的知识网络。应当理解的是,实体类或其子类添加个体时,需要得到个体的语法分析的分析结果,而语法分析的分析结果是在项目的前期完成的,这里只需要得到具体的语法分析结果就可以进行本体中该部分的添加。在对个体进行语法分析时,可以利用hadoop分布式计算框架对预设权威语料库进行依存语法分析,获得实例库中各实例对应的语法分析结果,根据语法分析结果及所述各实例之间的关联关系获得各实例的对象属性,实体类添加个体和个体对应的数据属性及对象属性后,可以形成词汇、语法、句子对应的知识网络。其中,所述预设权威语料库可以为英语国家语料库(britishnationalcorpus,bnc)或其它权威语料库,所述依存语法分析主要包括:二元结构分析、子句分析、词汇分析、固定搭配分析、习语分析及语法概念分析中的一种或多种。根据这些分析获得的分析结果进行为实例类及下面的二级类、三级类添加相应的个体。当然,在根据所述语法分析结果及所述各实例之间的关联关系获得各实例的对象属性之后,还可以通过网络爬虫抓取常见百科中的百科词条,分析百科词条当中的语法内容,完善并丰富语法、词汇、句子个体属性、关联关系,形成更完备知识网络。在添加个体的过程中,有三个注意事项:(1)为有数据属性的类添加实例时,需要为个体添加数据属性;(2)为具有实例类内部对象属性的类添加个体时,需要为个体添加对象属性,并设置其逆属性;(3)为具有一级类之间关系的对象属性的类添加个体时,需要为个体添加类之间对象属性和设置其逆属性,比如添加语法概念类和实例类的对象属性及其逆属性。c.产品资源服务类及其子类添加个体具体步骤为:通过网络爬虫从第三方资源库中抓取资源库;基于主题分类算法获取所述资源库对应网页的主题标签,并根据所述主题标签获得各资源的对象属性;为所述产品资源服务类及其子类添加数据属性及对象属性;获取所述资源库中第三个体及所述第三个体对应的对象属性;获取所述第三个体对应的第三所属类;将所述第三个体添加到所述第三所属类中,并为所述第三个体添加所述数据属性及所述第三个体对应的对象属性,获得英语领域知识本体。易于理解的是,所述第三个体,指资源库中需要添加至产品资源服务类或其子类中的个体。需要说明的是,产品资源服务类或其子类主要包含了现有的教学资源、平台服务等,其个体来源主要是第三方资源库,如百度文库、视频网站等,利用主题分类算法获取网页的主题标签,根据主题标签可以获得各资源的对象属性,产品资源服务类或其子类添加个体和个体对应的数据属性及对象属性后,可以形成资源、语法、词汇相关联的知识网络。产品资源服务类或其子类的个体是通过一个xls文档存储的,这个xls文档中的内容对于该部分个体的添加具有很重要的意义。因此,需要对xls文档中每行所代表的资源进行资源的打标签,这里,为了和前面两个资源类进行联系,需要特别为每个资源打上“资源所涉及到的知识点”、“资源中的关键词”的标签。在该部分个体添加的过程中,有以下几个注意事项:(1)根据个体的类型,把个体添加到对应的类中;(2)添加个体的过程中,创建相应的数据属性;(3)添加一级类之间的对象属性,例如,个体所涉及到的语法概念,个体所涉及到的关键词等,通过xls文档中的内容,建立类间的对象属性,并可以设置相应对象属性的逆属性。在具体实现中,也可以为英语领域知识本体添加常见错误类的一级类及其子类,并为常见错误类添加常见错误个体,具体地,构建常见错误类及其子类的层次结构;定义所述常见错误类及其子类的对象属性及数据属性;基于自然语言处理技术从预设英语常见错误语料库中获取常见错误库;为所述常见错误类及其子类添加数据属性及对象属性;获取所述常见错误库中第四个体及所述第四个体对应的对象属性;获取所述第四个体对应的第四所属类;将所述第四个体添加到所述第四所属类中,并为所述第四个体添加所述数据属性及所述第四个体对应的对象属性。易于理解的是,所述第四个体,指常见错误库中需要添加至常见错误类类或其子类中的个体,即常见错误个体,通过添加常见错误个体、常见错误个体的数据属性及对象属性,形成了常见错误、语法、词汇相关联的知识网络。上述方案基于owl本体建模技术思想,构建的英语领域知识本体可以有效的实现知识共享、复用和知识创新,相对于传统方法构建的知识网络而言有如下优势:(1)体现知识导航,即用树型结构将本体的概念网络动态地加以显示,用户可以循着学科等级和概念间的语义关系进行浏览。(2)体现知识检索,即能够实现基于概念的语义检索,搜索过程不再是数据集合中的关键词匹配,而是基于概念网络的概念检索。本实施例通过构建一级类及所述一级类的子类的层次结构,一级类包括英语领域的语法概念类、实例类和产品资源服务类;定义一级类及其子类的对象属性及数据属性;根据层次结构、对象属性及数据属性为一级类及其子类添加个体,获得英语领域知识本体,使英语学科资源、知识点以及知识点对应的词汇、句子等形成有机关联的庞大知识关系网络,通过已建立的知识本体可以将该领域的知识组织起来,实现英语知识的表示从信息的无序集合到知识网络和知识地图的形成,用户通过检索该知识本体可以获取高度关联的知识资源,最大程度的实现英语领域知识的检索、推荐、复用和共享。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
,均同理包括在本发明的专利保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1