1.一种要点题自动评价方法,其特征在于,所述方法包括:
获取待评价的答题数据;
将所述答题数据向量化;
对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
2.根据权利要求1所述的方法,其特征在于,将所述答题数据向量化,包括:
对所述答题数据分词,并获取每个词的词向量;
根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
3.根据权利要求1所述的方法,其特征在于,对向量化后的所述答题数据进行聚类,包括:
获取预定义的聚类数目;
根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
4.根据权利要求3所述的方法,其特征在于,所述第一次聚类之后,所述第二次聚类之前,所述方法还包括:
获取答题要点过滤表;
根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
5.根据权利要求1所述的方法,其特征在于,根据所述初步答题要点把所述答题数据分割为一个个分析单元,包括:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
6.根据权利要求1所述的方法,其特征在于,将新的聚类结果作为精确答题要点之后,将所述精确答题要点输入预先构建的评价模型之前,所述方法还包括:
循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新根据所述初步答题要点把所述答题数据分割为一个个分析单元,以及对分割为一个个分析单元的所述答题数据重新进行聚类以重新得到精确答题要点。
7.根据权利要求1所述的方法,其特征在于,获取待评价的答题数据之前,所述方法还包括:
获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;
使用所述定标数据训练得到所述评价模型。
8.一种要点题自动评价装置,其特征在于,所述装置包括:
数据获取模块,用于获取待评价的答题数据;
向量化模块,用于将所述答题数据向量化;
第一聚类模块,用于对向量化后的所述答题数据进行聚类,将聚类结果作为初步答题要点;
数据分割模块,用于根据所述初步答题要点把所述答题数据分割为一个个分析单元,其中每个所述分析单元最多只涉及单个所述初步答题要点;
第二聚类模块,用于对分割为一个个分析单元的所述答题数据重新进行聚类,将新的聚类结果作为精确答题要点;
评价模块,用于将所述精确答题要点输入预先构建的评价模型,以得到所述答题数据的评价结果。
9.根据权利要求8所述的装置,其特征在于,所述向量化模块包括:
分词子模块,用于对所述答题数据分词,并获取每个词的词向量;
向量获取子模块,用于根据所述词向量获取所述答题数据中每个基本单元对应的向量,以完成所述答题数据的向量化。
10.根据权利要求8所述的装置,其特征在于,所述第一聚类模块包括:
聚类数目获取子模块,用于获取预定义的聚类数目;
一次聚类子模块,用于根据所述聚类数目对向量化后的所述答题数据进行第一次聚类;
二次聚类子模块,用于对所述第一次聚类后得到的类别中心进行第二次聚类,以得到聚类结果。
11.根据权利要求10所述的装置,其特征在于,所述第一聚类模块还包括:
过滤子模块,用于获取答题要点过滤表;根据所述答题要点过滤表对所述第一次聚类后得到的类别中心进行过滤。
12.根据权利要求8所述的装置,其特征在于,所述数据分割模块用于:
对于所述答题数据中的每个基本单元,进行如下处理:
将当前基本单元中每个分词点作为潜在分割点,计算每个潜在分割点左右两侧的内容分别与每个初步答题要点的相似度;
将值最大的相似度所对应的潜在分割点作为预备分割点;
若所述预备分割点位于当前基本单元的开头或结尾,则确定无法分割;
若所述预备分割点位于当前基本单元内部,则将所述预备分割点作为真正分割点将当前基本单元分割为左右两部分,并将左右两部分各作为一个新的基本单元继续进行分割,直至无法分割;
将无法分割的每个基本单元作为一个分析单元。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
循环控制模块,用于在触发评价模块之前,循环执行以下过程一次或多次:
将所述精确答题要点重新作为初步答题要点,重新依次触发所述数据分割模块及所述第二聚类模块。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取定标数据,其中所述定标数据是通过上述步骤得到精确答题要点及人工给出评价结果的答题数据;使用所述定标数据训练得到所述评价模型。