一种英语作文内容切题分析方法

文档序号:8457259阅读:1034来源:国知局
一种英语作文内容切题分析方法
【技术领域】
[0001] 本发明涉及自然语言处理技术、英语作文内容分析技术,具体是一种英语作文内 容是否切题的分析方法。 (二)
【背景技术】
[0002] 传统的文本分析方法主要有潜在语义分析方法、概率潜在语义分析方法和潜在狄 利克雷分布方法。潜在语义分析方法是一种能够分析词之间内在语义联系的方法,它在文 本和词之间加入了一个语义维度。然而,随着概率统计方法的出现,概率潜在语义分析方法 取代了潜在语义分析方法成为文本分析的新方法。但是,概率潜在语义分析方法对训练文 本集之外的文本分析较难获得准确分析结果。因此,在概率潜在语义分析方法的基础上,人 们又提出了潜在狄利克雷分布方法。潜在狄利克雷分布是一种有监督的主题分析方法,它 在分析文本内容与主题关系时,用于训练文本要求具有相同的主题,当用相同主题的训练 文本来分析其他主题文本时,难以得到文本内容与主题是否相关的准确分析结果。因此,在 实际英语教学中分析英语作文内容是否切题,需要一种英语作文内容切题分析方法,通过 它来分析英语作文内容是否切题和英语作文内容的切题度,这对提高英语作文自动批阅水 平具有重要的现实意义。 (三)

【发明内容】

[0003] 英语作文内容是作者按照作文题目与写作要求,用正确的英语语言阐述自己思想 与观点的文字表达,作文主题是作文题目与作文写作要求的总称,即作文内容所需要表达 的思想与论述。本发明的目的是提供一种英语作文内容切题分析方法,即分析作文内容是 否围绕作文主题进行阐述作者的思想。该分析方法包括英语作文切题分析训练模块、英语 作文切题分析评分模块,其总体流程如图1所示,其处理流程是:第一,通过英语作文切题 分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第 二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准, 通过计算出待批作文切题度来判断待批作文是否切题。本发明分析方法的英语作文切题分 析训练模块、英语作文切题分析评分模块计算公式定义如下:
[0004] (1)训练作文内容主题概率分布计算公式
[0005] 训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算 公式如下:
[0006]
【主权项】
1. 一种英语作文内容切题分析方法,其特征是:第一,通过英语作文切题分析训练模 块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作 文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算 出待批作文切题度来判断待批作文是否切题。
2. 根据权利要求1所述的方法,其特征是:所述英语作文切题分析训练模块、英语作文 切题分析评分模块的计算公式如下: (1) 训练作文内容主题概率分布计算公式 训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算公式 如下:
在公式(1)中,|训练作文i分配给主题j寺征词数+主题抽样数|u是一个i行j列 的矩阵,
是一个i行的矩阵,i= 1,2,…,n,j= 1,2,…,k;特征词是作文内容中与作文主题相关的单词;训练作文1是训 练作文集中第i篇训练作文,训练作文集的训练作文总数是n;主题』是训练作文集与作文 范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是 k;主题抽样数是训练作文内容主题概率分布的对称狄利克雷分布,取值是0. 1 ; (2) 训练作文主题特征词概率分布计算公式 训练作文主题特征词概率分布是指训练作文主题在特征词上的概率分布,它的计算公 式如下:
在公式(2)中,|训练作文特征词1分配给主题^欠数+特征词抽样数|u是一个i行 j列的矩阵,
是一个j列 的矩阵,i= 1,2,…,m,j= 1,2,…,k;特征词是作文内容中与作文主题相关的单词;训 练作文特征词i是训练作文中出现的训练作文与作文范文集中第i个特征词,训练作文与 作文范文集的特征词总数是m;特征词数是指训练作文集与作文范文集的特征词总数,取 值是m;特征词抽样数是训练作文主题特征词概率分布的对称狄利克雷分布,取值是0. 01 ; 主题』是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文 集的作文主题总数,取值是k; (3) 作文范文内容主题概率分布计算公式 作文范文内容主题概率分布是指作文范文内容在其主题上的概率分布,它的计算公式 如下:
在公式(3)中,|作文范文i分配给主题j寺征词数+主题抽样数|u是一个i行j列 的矩阵
是一个i行的矩阵,i= 1,2,…,z,j=l,2,…,k;特征词是作文内容中与作文主题相关的单词;作文范文1是作 文范文集中第i篇作文范文,作文范文集的作文范文总数是z;如果输入是训练作文集与作 文范文集,主题^是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与 作文范文集的作文主题总数,取值是k;如果输入是待批作文集与作文范文集,主题^是待 批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的作文主 题总数,取值是k;主题抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是 0. 1 ; (4) 基于训练作文的作文范文主题特征词概率分布计算公式 基于训练作文的作文范文主题特征词概率分布是指以训练作文与作文范文特征词数 为基础,来计算作文范文主题在特征词上的概率分布,它的计算公式如下:
在公式(4)中,|作文范文特征词1分配给主题^欠数+特征词抽样数|u是一个i行 j列的矩阵:
是一个j列 的矩阵,i= 1,2,…,r,j= 1,2,…,k;作文范文特征词i是作文范文中出现的训练作文与 作文范文集中第i个特征词,训练作文与作文范文集特征词总数是r;主题』是训练作文集 与作文范文集中第j个作文主题,训练作文集与作文范文集的作文主题总数是k;特征词是 作文内容中与作文主题相关的单词;特征词数是指训练作文与作文范文集的特征词总数, 取值是r;特征词抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01 ; (5) 训练作文切题判断值计算公式 训练作文切题判断值是指从训练作文内容主题概率分布中查找出训练作文最大主题, 来判断训练作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:
在公式(5)中,训练作文最大主题是指公式(1)计算出的训练作文内容主题概率分布 最大的训练作文主题,作文范文最大主题是指公式(3)计算出的作文范文内容主题概率分 布最大的作文范文主题; (6) 训练作文切题度计算公式 训练作文切题度是指训练作文内容与其作文主题要求的接近程度,它的计算公式如 下:
在公式(6)中,主题j是训练作文集与作文范文集中第j个作文主题,作文范文i是作 文范文集中第i篇作文范文;训练作文集与作文范文集的作文主题总数是k,作文范文集的 作文范文总数是z;训练作文切题度取值范围在0到2之间,如果训练作文内容越切题,则 训练作文切题度值就越大;如果训练作文内容完全不切题时,则训练作文切题度值为〇 ;如 果训练作文内容
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1