1.一种跑题作文确定方法,其特征在于,包括:
获得目标题目下的作文集合;
根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
根据所述文档发散度,确定相似度阈值;
针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则确定该篇作文为跑题作文。
2.根据权利要求1所述的方法,其特征在于,所述针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,包括:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度,包括:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文档发散度,确定相似度阈值,包括:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
5.根据权利要求1、2或4任一项所述的方法,其特征在于,通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。
6.一种跑题作文确定装置,其特征在于,包括:
作文集合获得模块,用于获得目标题目下的作文集合;
文档发散度确定模块,用于根据所述作文集合中作文之间的文本相似度,确定所述作文集合的文档发散度;
相似度阈值确定模块,用于根据所述文档发散度,确定相似度阈值;
文本相似度计算模块,用于针对所述作文集合中的每一篇作文,计算该作文与预先确定的所述目标题目的范文的文本相似度,如果该作文与所述范文的文本相似度小于所述相似度阈值,则触发跑题作文确定模块;
所述跑题作文确定模块,用于确定与所述范文的文本相似度小于所述相似度阈值的作文为跑题作文。
7.根据权利要求6所述的装置,其特征在于,所述文本相似度计算模块,具体用于:
针对所述作文集合中的每一篇作文,提取该作文的第一文本单词集合;
针对所述第一文本单词集合中的每一个单词,确定与该单词语义相近的单词集合,获得该作文的第一文本单词扩展集合;
确定所述第一文本单词扩展集合和第二文本单词扩展集合的文本相似度,所述第二文本单词扩展集合为:对预先确定的所述目标题目的范文的第二文本单词集合进行扩展后获得的集合;
将确定的文本相似度确定为该作文与所述范文的文本相似度。
8.根据权利要求6或7所述的装置,其特征在于,所述文档发散度确定模块,具体用于:
计算所述作文集合中两两作文之间的文本相似度;
将计算得到的所有文本相似度的均值确定为所述作文集合的文档发散度。
9.根据权利要求6所述的装置,其特征在于,所述相似度阈值确定模块,具体用于:
将所述文档发散度输入到预先构建的表征文档发散度和相似度阈值关系的线性回归模型中,获得与所述文档发散度对应的相似度阈值。
10.根据权利要求6、7或9任一项所述的装置,其特征在于,所述装置还包括范文确定模块,用于通过以下步骤预先确定所述目标题目的范文:
基于向量空间模型,分别将所述作文集合中的每篇作文表示成向量;
将所有向量的均值确定为中心向量;
将与所述中心向量的距离最近的向量对应的作文确定为所述目标题目的范文。