本发明属于答题文本识别,具体而言,涉及一种识别试卷中包含ai生成文字的方法、介质及系统。
背景技术:
1、随着ai的发展,已经在简答题中使用,对于学生的锻炼文本表达非常不利。试卷中答题文本的鉴定和评估一直是在教育和研究领域中重要的任务,然而,随着ai技术的发展,ai生成答题文本的广泛应用引发了对答题内容的真实性和可信度的疑问。目前尚缺乏一种有效的方法来确定一篇答题内容是否是由ai生成的,或包含部分ai生成内容,特别是当ai生成的文本内容经过高级算法优化以模拟人类写作的风格和语言时,鉴别尤为困难。
技术实现思路
1、有鉴于此,本发明能够识别一篇答题文本是否为ai生成,降低判别难度。
2、本发明是这样实现的:
3、本发明的第一方面提供一种识别试卷中包含ai生成文字的方法,其中,包括以下步骤:
4、s10、对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词;
5、s20、统计答题文本中句子的字数分布情况,得到句长特征向量;
6、s30、计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量;
7、s40、基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵;
8、s50、将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调ai文本判别模型中,得到每个微调ai文本判别模型输出的ai特征矩阵,所述ai特征矩阵中的每个元素表示对应的语义特征矩阵中每个元素是否ai生成,1表示ai生成,0表示非ai生成;
9、s60、根据每个微调ai文本判别模型输出的ai特征矩阵整合计算得到ai生成文字概率;
10、s70、将ai生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含ai生成文字,否则判定答题文本不包含ai生成文字。
11、本发明提供的一种识别试卷中包含ai生成文字的方法的技术效果如下:通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含ai生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的ai生成概率估计;通过与阈值比较,实现了答题文本ai生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。
12、在上述技术方案的基础上,本发明的一种识别试卷中包含ai生成文字的方法还可以做如下改进:
13、其中,所述对输入的答题文本进行词频统计,得到答题文本的词性分布向量,所述词性为答题文本中的名词、动词、形容词、副词,具体包括以下步骤:
14、对输入的答题文本进行分词,得到词序列;
15、对分词后的词序列进行词性标注,为每个词赋予一个词性标记;
16、统计答题文本中各词性的词频,获得名词、动词、形容词和副词的词频分布;
17、对各词性的词频进行正则化处理,并得到正则化处理后的词性分布向量,所述正则化处理用于消除文本长度对词性分布的影响;
18、输出正则化处理后的词性分布向量。
19、采用上述改进方案的有益效果为:通过上述方法提取答题文本词性分布这个显著特征,为后续准确判断试卷中是否包含ai生成内容奠定基础。词性分布特征可以有效反映语法结构和语义风格,是判断答题文本真伪的重要手段之一。该步骤为整体方法提供关键信息,为ai判别模型的训练及优化提供数据支撑。
20、进一步的,所述统计答题文本中句子的字数分布情况,得到句长特征向量,具体包括以下步骤:
21、对输入的答题文本进行句子划分,得到句子序列;
22、计算每个句子的字数,得到答题文本的句子字数序列,所述句子字数序列为数字集合;
23、将句子字数序列内的元素进行分箱,设立多个字数区间,统计答题文本中属于每个字数区间的句子数量;
24、计算单个句子在每个句子字数区间的概率,形成剧场分布向量;
25、对句长分布向量进行正则化处理,得到句长特征向量;
26、输出句长特征向量。
27、采用上述改进方案的有益效果为:通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点。句长分布特征的引入,丰富了答题文本表示的信息,为ai判别模型提供更多判断依据,提升了方法的整体效果。该步骤实现简单有效,提供句法结构特征,是答题文本真伪判别的重要环节之一。
28、进一步的,所述计算答题文本中相邻单词、相邻句子之间的重复率、相似率,得到词与词、句与句的逻辑关系向量,具体包括以下步骤:
29、对输入的答题文本进行单词划分和句子划分,分别得到词序列和句子序列;
30、统计词序列中任意两相邻单词的重复率;
31、统计句子序列中任意相邻句子的相似度;
32、根据词序列的重复率和句子序列的相似度,构建词与词、句与句之间的逻辑关系向量;
33、输出逻辑关系向量。
34、采用上述改进方案的有益效果为:通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容。这为分析文章语义流畅性提供有效特征。
35、s30通过构建词与词、句与句的关系向量,从逻辑层面提取文章语义特征,可以判断语义的连贯性。这为ai文本判别提供新的有效判断依据。
36、进一步的,所述基于多个大语言基座模型,分别对答题文本进行编码,得到多组语言模型的语义特征矩阵,具体包括以下步骤:
37、选择多个不同的预训练语言模型,这些语言模型既可以是英文模型,也可以是中文模型;
38、对输入的答题文本,使用语言模型进行编码,得到语义特征序列;
39、对语义特征序列采用平均池化,得到该语言模型对应的答题文本语义特征;
40、将所有的语言模型产生的语义特征进行拼接,得到语义特征矩阵;
41、输出语义特征矩阵。
42、采用上述改进方案的有益效果为:通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示。模块化设计增强了模型的扩展性;丰富的语义信息增强了判别模型的理解能力,提高了最终的判断准确率。
43、进一步的,所述将上述得到的词性分布向量、句长特征向量、逻辑关系向量以及语义特征矩阵,输入到对应的大语言基座模型作为基础的微调ai文本判别模型中,得到每个微调ai文本判别模型输出的ai特征矩阵中,通过构建多个神经网络判别模型得到每个模型对试卷中语义特征的ai生成概率。
44、采用上述改进方案的有益效果为:构建了多个基于语言模型微调的ai判别模型,可以对语义特征矩阵进行详细的ai生成概率判别;模块化设计增强了模型的泛化性。多角度判别提高了判断的准确率和可解释性;该步骤是方法的核心,为最终判断提供关键信息。
45、进一步的,所述根据每个微调ai文本判别模型输出的ai特征矩阵整合计算得到ai生成文字概率中,是通过模型集成和多层级概率计算得到最终ai生成文字概率。
46、采用上述改进方案的有益效果为:实现了对多个判断模型结果的整合,通过归一化和加权融合获得了整体的ai生成概率。分层计算增强了概率估计的稳定性。模型集成提高了健壮性和可解释性。该步骤整合了前期的判别结果,输出最终判断依据,是方法的最后关键一步。
47、进一步的,所述将ai生成文字概率与预设阈值进行比较,若大于阈值则判定答题文本包含ai生成文字,否则判定答题文本不包含ai生成文字,具体包括以下步骤:
48、设置判别阈值;
49、将最终的ai生成概率与判别预制比较,若ai生成概率大于判别阈值,则判定答题文本包含ai生成内容,若ai生成概率小于判别阈值,则判定答题文本不包含ai生成内容;
50、通过调整阈值的大小,可以改变判别的灵敏度;
51、除了二分类结果,也可以直接输出ai生成概率,进行后续处理;
52、通过多次调整阈值,记录不同阈值下的判断准确率,可以画出roc曲线;
53、最终通过阈值判别得到的判断结果作为s70的输出。
54、采用上述改进方案的有益效果为:将前期的ai概率输出转化为明确的二分类判断,实现了判别结果的产出。通过调节阈值,可以平衡准确率和召回率。该步骤完成了从概率到最终判断结果的转换,实现了方法的终端目标。
55、本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种识别试卷中包含ai生成文字的方法。
56、本发明的第三方面提供一种识别试卷中包含ai生成文字的系统,其中,包括通讯设备、存储设备,所述存储设备中包含有上述的计算机可读存储介质的代码。
57、与现有技术相比较,本发明提供的一种识别试卷中包含ai生成文字的方法、介质及系统的有益效果是:通过对输入的答题文本进行词频统计,得到答题文本的词性分布向量,为后续准确判断试卷中是否包含ai生成内容奠定基础;通过构建句子字数分布向量,提取答题文本的句法结构特征,能够有效反映答题文本的语言风格和水平特点;通过统计相邻词与句的重复和相似度,可以判断文章的逻辑连贯性,避免重复或不相关的内容;通过集成多模型对答题文本进行编码,可以获得更全面的语义特征表示;通过模型集成和多层级概率计算,可以进行更可靠、稳定的ai生成概率估计;通过与阈值比较,实现了答题文本ai生成内容判别的二分类。阈值设定控制了方法的灵敏度,可以根据应用场景进行调整。可以对全部的内容,或部分的内容进行判断,从而确定是否包含了ai生成的内容。