本发明涉及文本内容检测,特别涉及一种文本检测方法、装置、存储介质以及电子设备。
背景技术:
1、随着生成式预训练语言大模型技术的快速发展,人工智能(artificialintelligence,简称ai)生成内容也被广泛应用,与人类撰写的内容相比,目前ai技术生成的内容,尤其是基于自回归语言模型生成的内容不可避免的存在事实类错误或者虚假内容,现有检测方法很难区分文本是否为ai自动生成文本,文本检测效率低。
技术实现思路
1、有鉴于此,本发明提供一种文本检测方法、装置、存储介质以及电子设备,主要目的在于解决目前存在现有检测方法很难区分文本是否为ai自动生成文本,文本检测效率低的问题。
2、为解决上述问题,本技术提供一种文本检测方法,包括:
3、基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;
4、基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;
5、基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;
6、基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果。
7、可选的,所述基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集,具体包括:
8、基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集;
9、分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集。
10、可选的,所述基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集,具体包括:
11、基于所述第一向量集以及所述预设实体向量库进行实体向量的相似度计算,获得与所述第一向量集中的各实体向量对应的若干第一相似度;
12、对各所述第一相似度进行筛选处理,获得与各所述实体向量对应的若干第一目标相似度,以获得与各所述实体向量对应的、由计算得到各所述第一目标相似度的预设实体向量库中的各实体记录构成的实体记录集;
13、基于各所述第一目标相似度构建得到与各所述实体向量对应的第一初始向量点积值集。
14、可选的,所述分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集,具体包括:
15、分别基于各所述实体向量以及与各所述实体向量对应的所述实体记录集进行计算处理,得到与各所述实体向量对应的第一重复字符比值集;
16、基于同一实体向量对应的所述第一重复字符比值集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量对应的所述第一目标向量点积值集。
17、可选的,所述基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集,具体包括:
18、基于所述第二向量集中各事实内容语句向量以及所述预设事实内容语句向量库中若干预设事实内容语句记录进行计算处理,获得与各所述事实内容语句向量对应的事实内容语句记录集以及第二初始向量点积值集;
19、分别针对同一事实内容语句向量对应的所述事实内容语句记录集以及所述第二初始向量点积值集进行计算处理,获得与各所述事实内容语句向量分别对应的第二目标向量点积值集。
20、可选的,所述基于所述第二向量集中各事实内容语句向量以及所述预设事实内容语句向量库中若干预设事实内容语句记录进行计算处理,获得与各所述事实内容语句向量对应的事实内容语句记录集以及第二初始向量点积值集,具体包括:
21、基于所述第二向量集以及所述事实内容语句向量库进行事实内容语句向量的相似度计算,获得与所述第二向量集中的各事实内容语句向量对应的若干第二相似度;
22、对各所述第二相似度进行筛选处理,获得与各所述事实内容语句向量对应的若干第二目标相似度,以获得与各所述事实内容语句向量对应的、由计算得到各所述第二目标相似度的事实内容语句向量库中的各事实内容语句构成的事实内容语句记录集;
23、基于各所述第二目标相似度构建得到与各所述事实内容语句向量对应的第二初始向量点积值集。
24、可选的,所述分别针对同一事实内容语句向量对应的所述事实内容语句记录集以及所述第二初始向量点积值集进行计算处理,获得与各所述事实内容语句向量分别对应的第二目标向量点积值集,具体包括:
25、分别基于各所述事实内容语句向量以及与各所述事实内容语句向量对应的所述第二向量集进行计算处理,得到与各所述事实内容语句向量对应的第二重复字符比值集;
26、基于同一事实内容语句向量对应的所述第二重复字符比值集以及所述第二初始向量点积值集进行计算处理,获得与各所事实内容语句向量对应的所述第二目标向量点积值集。
27、可选的,所述基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果,具体包括:
28、基于各所述第一目标向量点积值集进行筛选,得到与各所述第一目标向量点积值集对应的目标第一向量点积值;
29、计算各所述第一向量点积值的均值,得到第一均值;
30、基于各所述第二目标向量点积值集进行筛选,得到与各所述第二目标向量点积值集对应的目标第二向量点积值;
31、计算各所述第二向量点积值的均值,得到第二均值;
32、基于所述第一均值、所述第二均值以及预设参数值进行计算处理,得到检测结果。
33、为解决上述问题本技术提供一种文本检测装置,包括:
34、向量化处理模块:用于基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;
35、第一核查处理模块:基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;
36、第二核查处理模块:用于基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;
37、计算模块:用于基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果。
38、为解决上述问题本技术提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所文本检测方法的步骤。
39、为解决上述问题本技术提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述文本检测方法的步骤。
40、本技术通过基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果。本技术通过融合各实体向量的核查结果以及各事实内容语句核查结果,得到与待检测文本对应的检测结果,提高了文本检测效率。
41、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。