基于深度语义分析的学生英语写作人工智能系统的制作方法

文档序号:11514865阅读:298来源:国知局
基于深度语义分析的学生英语写作人工智能系统的制造方法与工艺

本发明涉及英语写作分析领域,尤其是涉及一种基于深度语义分析的学生英语写作人工智能系统。



背景技术:

对于自然语言处理技术的发展,无论国内国外的商业市场、科研领域,以及更大范围的人类社会对于大规模、大范围的真实文本内容的迅速、精确、深度分析的要求一直都极其迫切。全球科技界目前在处理大规模真实文本方面的技术手段主要分为(1)早期的自然语言处理技术(nlp)和(2)最近三十年逐渐形成的比之前技术先进了许多的的运用混合方法构建的深度语义分析模块化的处理技术。

早期的自然语言处理技术(nlp)在文字信息处理方面最突出的特点,也是唯一的技术功能是–计算机对于大段文字的语义识别。通过该技术,计算机可以识别一大段话大致的主要意思。比如某一大段文字表达了一个非常复杂的场景和行为,然而通过该技术,计算机可以识别这段话中其实包含的主要信息是:在某个场景和时间段的大致行为。该技术作为实现计算机对文本的识别技术,在近半个世纪的研究和使用过程中,主要运用在机器翻译、信息检索,以及信息提取等领域,并已经在广泛的范围中取得的越来越多的应用成果。从技术实现的角度来说,该技术主要集中在词法和句法的分析上,基于规则的和统计相结合的语言分析。目前较为成熟的句法分析模型中有中心语驱动的短语结构文法、词汇功能语法、依存语法等技术。集成多种自然语言处理技术之后,语义识别逐渐发展成为比较成熟的应用。

目前商业市场上主流的应用是前端语音识别技术高度集成的产品,如大众熟知的苹果公司的siri,以及国内比较知名的科大讯飞基于此技术推出的相关语音语义的识别应用。

在当今的语义分析大潮中,大多数时间和精力都是用在对于自然语言(nlp)的处理上,也就是说基于语义识别技术的应用在现实生活中非常有局限性。毕竟,该技术只能识别简单基础的语言信息,然而无论商界、教育界、科学界对于计算机化语义识别的真正需求不是简单基础的信息,而是文本文字包含的多维度、深层次信息–而这一点是该技术无法实现的。基于持续增长的社会各界广泛需求和早期技术无法满足该需求,更高级的多维语义深度分析才从全球科研学术界自然兴起。

所以说,根据自然语言和大数据的推演,行成一种模式,并推导成一个基于结构化自主学习的模块,这种过程对于人工智能写作助手来说,无疑是不精确的。原因有以下几点,第一,时间上的浪费。这种过程是一种本身没有一个精准模型,这种方法基本是通过大数据的模糊匹配,对于数据不断挖掘,找出类似的模型,并通过循环神经网络(无论是神经网络语言模型,还是lstm模型)的不断的迭代循环。先不说精准度会如何,光行成一种模型标准,可能就需要花一段时间了。第二,模型精准性。在办公软件都自带英文校验的年代里,怎么样能够让机器学习好带有特定背景需求的大数据信息库,并自动验算出一种新的模型是一件困难的事情。例如,如何让机器懂得英文写作的评判标准,并且学生按此机器得出的模型去写英文写作是否真的可以写出一篇完整的文章?答案是否定的。深究原因,那就是,机器并没有自主的专家系统,例如对于专业英文写作,是需要很懂这类评判标准的专家注入信息模型。以此作为基石,动态调整评判标准,基于人工智能才能达到最优最准确的评判结果。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度语义分析的学生英语写作人工智能系统。

本发明的目的可以通过以下技术方案来实现:

一种基于深度语义分析的学生英语写作人工智能系统,包括:

单词分类模块,用于对单词进行词义统计,划分词性,并分类存储于云知识库中,同时记录各个单词使用频率情况;

句型分类模块,用于将句型结构进行分类存储于云知识库中,同时记录各个句型的频率;

段落分析模块,用于分析生成每个章节的中心思想;

标题分析模块,用于根据段落分析模块分析得到的章节的中心思想,并分析得到章节和标题的点题度。

所述标题分析模块工作过程具体包括步骤:

根据段落分析模块分析得到的章节的中心思想,提取章节的关键词;

提取标题的关键词;

根据云知识库存储的各单词的词义,生成章节的关键词和标题的关键词之间的关联度,并将此关联度作为该章节的点题度。

所述章节的关键词为章节中词义与章节的中心思想最接近的单词,或词库中词义与章节的中心思想最接近的单词,

所述标题的关键词为标题中词义与标题含义最接近的单词。

述段落分析模块工作过程具体包括步骤:

根据句子的句型,以及句子中各单词的词义和词性,确定该句子中各单词的含义;

提取句子中词性为名词的单词含义;

根据章节中提取的所有的单词含义确定中心章节的思想。

所述人工智能系统对英语作文生成的分析报告,报告内容包括:出错率、偏题率、写作类型以及作文规范评分。

与现有技术相比,本发明就有以下优点:

1)运用单词词性词义分类,结合句型对文章的中心思想分析,最终得到对文章的评价,提供一种智能化英语写作分析方式,可以准确地自动对语义进行分析。

2)而随着此数据大量的沉淀积累,大数据和先前设定的高级模型算法进行相互印证与纠正,从而实现模型的改进与原始文字文本信息的修改改进。

3)此过程的运行可以轻松实现模型算法的自动进化。

附图说明

图1为本发明的结构示意图;

图2为本发明中用于机器学习的单词关系地图;

图3为本发明中机器学习得出的按照词性分类的单词列表;

图4为本发明中机器学习生成的词性关系列表;

其中:1、单词分类模块,2、句型分类模块,3、段落分析模块,4、标题分析模块。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

一种基于深度语义分析的学生英语写作人工智能系统,包括:

单词分类模块1,用于对单词进行词义统计,划分词性,并分类存储于云知识库中,同时记录各个单词使用频率情况;

句型分类模块2,用于将句型结构进行分类存储于云知识库中,同时记录各个句型的频率;

段落分析模块3,用于分析生成每个章节的中心思想;

标题分析模块4,用于根据段落分析模块分析得到的章节的中心思想,并分析得到章节和标题的点题度。

标题分析模块4工作过程具体包括步骤:

根据段落分析模块3分析得到的章节的中心思想,提取章节的关键词;

提取标题的关键词;

根据云知识库存储的各单词的词义,生成章节的关键词和标题的关键词之间的关联度,并将此关联度作为该章节的点题度。

章节的关键词为章节中词义与章节的中心思想最接近的单词,或词库中词义与章节的中心思想最接近的单词,这里的关键词一般词性为名词,

标题的关键词为标题中词义与标题含义最接近的单词,优选为标题中的名词。

段落分析模块3工作过程具体包括步骤:

根据句子的句型,以及句子中各单词的词义和词性,确定该句子中各单词的含义;

提取句子中词性为名词的单词含义;

根据章节中提取的所有的单词含义确定中心章节的思想。

人工智能系统对英语作文生成的分析报告,报告内容包括:出错率、偏题率、写作类型以及作文规范评分。

本系统旨在打造一个模式平台,可以根据学术英语专家、教学专家的授课以及评判英语写作的经验,抽取大量的模式,当模式抽取完毕后,系统会自动按此模式自动打造一套数据存储规格。有了此存储规格之后,系统进行模式编译、模式量化、以及模式迭代更新,智能地构建一套有针对性地数据模型,并讲此数据模型存储到我们的云知识库中,并基于规则引擎提炼出相关的规则数据一并存入云规则库中。

当系统一切准备就绪,学生即可上传文章,进入人机交互界面。系统根据学生的写作,进行评分。并从云规则库中搜索出对应的培训内容以及相关的内容推送,以及考试热点分析,局势变化,并使用一系列的分析建模与挖掘的技术,来帮助学生更好的改进写作。

针对我们这套系统,重点是需要搭建一套核心模式平台,并定义好一套完整的数据格式。基于这个平台,智能分类、再聚集相关信息,通过人工智能和深度语义技术,生成多种甚至千百种的模式,即不同学生根据不同的写作内容生成一条最佳路径(pathoptimization)。

每个executor是一套我们的标准。同时,每个executor可以被复用,以图的结构构成一系列的node,使之可以轻松的被迭代被调用,甚至被推演。

本系统还包括对所有学生使用习惯的分析。

本系统还包括对于学生写作的建议和进一步学习的指导知识库,以达到学生提高写作的目的。该模块在下一章节中呈现。

本系统该框架的数据来源是包含该学生的每次英语写作内容、出错率、点题率,并分析该学生的写作长处、短处,喜欢写哪类文章,和该写作的指定标准差了多少,等等。这些大数据,可以很好地为我们后续实时地帮助学生提供一系列学习计划以改进写作能力。

迭代学习框架包括以下步骤:

(1)提供一套背后进程,该进程会基于类似谷歌爬虫技术,挖掘每个用户的习惯,并根据每次用户习惯推导入云知识库中。若网络出现问题,我们会在本地缓存用户习惯,等网络通的时候,再进行上传。保证用户学习体验不被受阻。

(2)云知识库是一套完整的详细的知识点。每个知识点都被离散并设置了sha-1标签保证唯一性。每个标签属于一个zone。每个zone属于一个paratition。目的是为了在毫秒级能快速找到对应的知识点。

(3)云规则引擎,是一套大数据集合下的云规则库。这个库里存放着大量的小规则,这种小规则例如ifxxxthenyyy的模式存储。xxx和yyy是非常简单的判断。xxx和yyy可以是另一个规则的入口或者是结论,之后该系统将通过演算、推导,并计算出一个结论,这个结论就是用户的学习计划。

区别于早期技术自然语言处理技术只能实现语义识别功能,当前世界范围内最先进的语言语义分析技术为“复杂语义深度分析技术”。其主要技术特征是运用混合方法(定性和定量方法)对特定领域的文字表达信息进行多维度建模,建成的模型统称“多维语义算法”。此类高级算法模型可以对文字表达信息进行深度严谨分析,同时每一次文本文字信息的分析都形成一次数据的沉淀;而随着此数据大量的沉淀积累,大数据和先前设定的高级模型算法进行相互印证与纠正,从而实现模型的改进与原始文字文本信息的修改改进。特别有价值的一点是,此过程的运行可以轻松实现模型算法的自动进化,或称迭代升级–即:实现多维语义深度分析人工智能自主进化。而此过程中原始文字文本信息被自动纠错与修改的部分已经成为了国际学术界非常前沿和有商业价值的部分。下图为多维语义分析在产品设计中的应用:

单词嵌入(wordembeddings)

利用神经网络构建深度学习模型可以实现对单个词汇在近义词,相关词等数据库中的关系形成机器学习的训练模型,从而更准确的做到多位语义分析。

例如:w:words→rn是一个参数化函数,它把某个语言里的单词映射成高维向量(大概200到500维)。例如这样:

“w(“cat”)=(0.2,-0.4,0.7,…)

w(“mat”)=(0.0,0.6,-0.1,…)”

初始化后,w中每个词对应一个随机的向量。它会学习出有意义的向量以便执行任务。

训练一个网络让其预测一个5元组(5-gram)(连续的5个词)是否‘成立’。我们可以随便选一堆5元组(比如catsatonthemat)然后把其中一个词随便换成另外一个词(比如catsatsongthemat),那么一半的5元组估计都会变得荒谬且没意义了。

训练的模型会通过w把5元组中每个词的表征向量取出来,输入给另外一个叫r的模块,模块r会试图预测这个5元组是‘成立的’或者是‘破碎的’。然后我们希望看见:

“r(w(“cat”),w(“sat”),w(“on”),w(“the”),w(“mat”))=1

r(w(“cat”),w(“sat”),w(“song”),w(“the”),w(“mat”))=0”

如图2所示,直观感受一下单词嵌入空间,我们可以用t-sne来对它进行可视化。t-sne是一个复杂的高维数据可视化技术。

这种单词构成的“地图”对我们来说更直观。相似的词离得近。另一种方法是看对一个给定单词来说,如图3所示,哪些其他的单词离它最近。我们可以再一次看到,这些词都很相似。

当更复杂的关系被编码出来之后,多位语义分析的数据库会形成如图4所示关系词组。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1