本技术涉及智能校验,特别是涉及一种阅读完整性校验方法、装置、计算机设备和存储介质。
背景技术:
1、投保类文件的线上投保流程中需要向客户展示各种格式的文件,包含pdf、图片和html格式。该系统需要保证用户完整阅读了每份文件,因此需要通过技术手段,确保:1、每份文件在用户面前都有清晰的展示;2、用户确实完成了文件完整阅读。因此如何提升校验用户对电子文件的阅读完整性是当前的研究重点。
2、传统的校验用户对电子文件的阅读完整性的方式通过识别用户在每个浏览的文件中勾选的完成标识,从而判断用户对电子文件的阅读完整性,但是该方式校验的方式精准度低,也无法识别用户是否实际完成阅读内容,从而导致校验用户对电子文件的阅读完整性的精准度较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种。阅读完整性校验方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种阅读完整性校验方法。所述方法包括:
3、获取不同文件的文件信息、以及用户在各所述文件的浏览信息,并识别每个文件信息的内容格式信息;
4、基于各所述文件信息的内容格式信息,生成每个文件信息的正常阅读时长,并识别每个浏览信息对应的浏览时长、以及每个浏览信息对应的滑动操作信息;
5、在存在所述浏览时长低于所述正常阅读时长的情况下,基于所述用户在所述低于正常阅读时长的浏览时长对应的目标文件的滑动操作信息,生成所述用户在所述目标文件的页面浏览动态信息,并基于所述页面浏览动态信息,识别所述用户在所述目标文件主要浏览的文件内容、以及所述目标文件的各文件内容的内容加载程度;
6、提取所述目标文件的各文件内容中的关键特征内容,并基于所述用户主要浏览的文件内容、与所述关键特征内容之间的重合度、以及所述目标文件的各文件内容的内容加载程度,确定所述用户对所述目标文件的阅读完整度。
7、可选的,所述基于各所述文件信息的内容格式信息,生成每个文件信息的正常阅读时长,包括:
8、针对每个文件信息,基于所述文件信息的内容格式信息,将所述文件信息拆分为文件类型、以及文件量,并基于所述文件信息的文件类型,在文件类型数据库中,查询所述文件类型的阅读难度信息;
9、基于所述文件信息的文件量,在文件时长数据库中,查询所述文件量对应的阅读时长范围,并基于所述文件信息的文件类型的阅读难度信息,在所述文件量对应的阅读时长中,筛选所述文件信息的目标阅读时长,作为所述文件信息的正常阅读时长。
10、可选的,所述基于所述用户在所述低于正常阅读时长的浏览时长对应的目标文件的滑动操作信息,生成所述用户在所述目标文件的页面浏览动态信息,包括:
11、在各所述文件中,筛选低于正常阅读时长的浏览时长对应的目标文件,并基于所述用户在所述目标文件的滑动操作信息,识别所述用户在每个目标文件的各滑动时间点、每个滑动时间点对应的滑动方向、以及每个滑动时间点的滑动距离;
12、针对每个目标文件,基于所述目标文件的每个滑动时间点对应的滑动方向、以及每个滑动时间点的滑动距离,生成所述用户在所述目标文件的滑动轨迹,并将每个滑动时间点之间的间距时长添加到所述目标文件的滑动轨迹中,得到所述用户在所述目标文件的初始页面浏览动态信息;
13、采集每个滑动时间点对应的目标文件的当前页面信息,并将所有滑动时间点对应的目标文件的当前页面信息,添加至所述初始页面浏览动态信息中,得到所述用户在所述目标文件的初始页面浏览动态信息。
14、可选的,所述基于所述页面浏览动态信息,识别所述用户在所述目标文件主要浏览的文件内容、以及所述目标文件的各文件内容的内容加载程度,包括:
15、将各所述目标文件,按照各所述目标文件的内容标题,划分为多个文件内容,并识别每个目标文件的各文件内容的内容长度;
16、针对每个目标文件,基于所述目标文件对应的页面浏览动态信息、以及所述目标文件的各文件内容的内容长度,识别所述用户在每个文件内容的浏览时长,并筛选大于所述目标文件的所有文件内容的平均浏览时长的浏览时长对应的文件内容,作为所述用户在所述目标文件主要浏览的文件内容;
17、识别所述目标文件的每个滑动时间点对应的当前页面信息的页面内容,以及每个当前页面信息对应的文件内容,并计算每个当前页面信息的页面内容、与每个当前页面信息对应的文件内容之间的重合度,得到每个当前页面信息的内容完整度,将每个当前页面信息对应的文件内容、以及每个当前页面信息的内容完整度,每个文件内容对应的文件内容的内容加载程度。
18、可选的,所述提取所述目标文件的各文件内容中的关键特征内容,包括:
19、针对每个目标文件,基于所述目标文件的文件类型,识别所述目标文件的文件提取策略,并基于所述目标文件的文件提取策略,分别提取所述目标文件的每个文件内容的各特征内容信息;
20、针对每个文件内容,识别所述文件内容的各特征内容信息的特征标识信息,并在关键内容数据库中,查询与关键内容的特征标识信息相同的目标特征标识信息;
21、将各所述目标特征标识信息对应的特征内容信息,作为所述文件内容中的关键特征内容。
22、可选的,所述基于所述用户主要浏览的文件内容、与所述关键特征内容之间的重合度、以及所述目标文件的各文件内容的内容加载程度,确定所述用户对所述目标文件的阅读完整度,包括:
23、针对每个目标文件,识别所述用户在所述目标文件主要浏览的文件内容,与所述目标文件的各文件内容的关键特征内容的相同文件内容,并基于所述目标文件的各文件内容的内容加载程度,计算每个文件内容的完整度权值;
24、将所有相同文件内容的完整度权值进行求和处理,得到实际数目值,并计算所述实际数目值、与所述目标文件的各文件内容的关键特征内容之间的比例值,得到所述用户对所述目标文件的阅读完整度。
25、可选的,所述基于所述用户主要浏览的文件内容、与所述关键特征内容之间的重合度、以及所述目标文件的各文件内容的内容加载程度,确定所述用户对所述文件信息对应的文件的阅读完整度之后,还包括:
26、识别每个文件的文件类型,并基于所述用户对不同文件的浏览时长,计算所述用户对不同文件类型的平均浏览时长;
27、基于所述用户对每个文件类型的各文件中主要浏览的文件内容、以及每个文件类型的各文件的关键文件内容,确定所述用户对每个文件类型的忽略关键内容;
28、识别所述用户对每个文件类型的各文件的关键文件内容的内容加载程度,并基于所述用户对不同文件类型的平均浏览时长、所述用户对每个文件类型的各文件的关键文件内容的内容加载程度、以及所述用户对每个文件类型的忽略关键内容,调整每个文件类型的各文件的文件内容的内容格式,得到每个文件类型的各文件的文件内容的新内容格式。
29、第二方面,本技术还提供了一种阅读完整性校验装置。所述装置包括:
30、获取模块,用于获取不同文件的文件信息、以及用户在各所述文件的浏览信息,并识别每个文件信息的内容格式信息;
31、生成模块,用于基于各所述文件信息的内容格式信息,生成每个文件信息的正常阅读时长,并识别每个浏览信息对应的浏览时长、以及每个浏览信息对应的滑动操作信息;
32、识别模块,用于在存在所述浏览时长低于所述正常阅读时长的情况下,基于所述用户在所述低于正常阅读时长的浏览时长对应的目标文件的滑动操作信息,生成所述用户在所述目标文件的页面浏览动态信息,并基于所述页面浏览动态信息,识别所述用户在所述目标文件主要浏览的文件内容、以及所述目标文件的各文件内容的内容加载程度;
33、确定模块,用于提取所述目标文件的各文件内容中的关键特征内容,并基于所述用户主要浏览的文件内容、与所述关键特征内容之间的重合度、以及所述目标文件的各文件内容的内容加载程度,确定所述用户对所述目标文件的阅读完整度。
34、可选的,所述生成模块,具体用于:
35、针对每个文件信息,基于所述文件信息的内容格式信息,将所述文件信息拆分为文件类型、以及文件量,并基于所述文件信息的文件类型,在文件类型数据库中,查询所述文件类型的阅读难度信息;
36、基于所述文件信息的文件量,在文件时长数据库中,查询所述文件量对应的阅读时长范围,并基于所述文件信息的文件类型的阅读难度信息,在所述文件量对应的阅读时长中,筛选所述文件信息的目标阅读时长,作为所述文件信息的正常阅读时长。
37、可选的,所述识别模块,具体用于:
38、在各所述文件中,筛选低于正常阅读时长的浏览时长对应的目标文件,并基于所述用户在所述目标文件的滑动操作信息,识别所述用户在每个目标文件的各滑动时间点、每个滑动时间点对应的滑动方向、以及每个滑动时间点的滑动距离;
39、针对每个目标文件,基于所述目标文件的每个滑动时间点对应的滑动方向、以及每个滑动时间点的滑动距离,生成所述用户在所述目标文件的滑动轨迹,并将每个滑动时间点之间的间距时长添加到所述目标文件的滑动轨迹中,得到所述用户在所述目标文件的初始页面浏览动态信息;
40、采集每个滑动时间点对应的目标文件的当前页面信息,并将所有滑动时间点对应的目标文件的当前页面信息,添加至所述初始页面浏览动态信息中,得到所述用户在所述目标文件的初始页面浏览动态信息。
41、可选的,所述识别模块,具体用于:
42、将各所述目标文件,按照各所述目标文件的内容标题,划分为多个文件内容,并识别每个目标文件的各文件内容的内容长度;
43、针对每个目标文件,基于所述目标文件对应的页面浏览动态信息、以及所述目标文件的各文件内容的内容长度,识别所述用户在每个文件内容的浏览时长,并筛选大于所述目标文件的所有文件内容的平均浏览时长的浏览时长对应的文件内容,作为所述用户在所述目标文件主要浏览的文件内容;
44、识别所述目标文件的每个滑动时间点对应的当前页面信息的页面内容,以及每个当前页面信息对应的文件内容,并计算每个当前页面信息的页面内容、与每个当前页面信息对应的文件内容之间的重合度,得到每个当前页面信息的内容完整度,将每个当前页面信息对应的文件内容、以及每个当前页面信息的内容完整度,每个文件内容对应的文件内容的内容加载程度。
45、可选的,所述确定模块,具体用于:
46、针对每个目标文件,基于所述目标文件的文件类型,识别所述目标文件的文件提取策略,并基于所述目标文件的文件提取策略,分别提取所述目标文件的每个文件内容的各特征内容信息;
47、针对每个文件内容,识别所述文件内容的各特征内容信息的特征标识信息,并在关键内容数据库中,查询与关键内容的特征标识信息相同的目标特征标识信息;
48、将各所述目标特征标识信息对应的特征内容信息,作为所述文件内容中的关键特征内容。
49、可选的,所述确定模块,具体用于:
50、针对每个目标文件,识别所述用户在所述目标文件主要浏览的文件内容,与所述目标文件的各文件内容的关键特征内容的相同文件内容,并基于所述目标文件的各文件内容的内容加载程度,计算每个文件内容的完整度权值;
51、将所有相同文件内容的完整度权值进行求和处理,得到实际数目值,并计算所述实际数目值、与所述目标文件的各文件内容的关键特征内容之间的比例值,得到所述用户对所述目标文件的阅读完整度。
52、可选的,所述装置还包括:
53、计算模块,用于识别每个文件的文件类型,并基于所述用户对不同文件的浏览时长,计算所述用户对不同文件类型的平均浏览时长;
54、关键内容确定模块,用于基于所述用户对每个文件类型的各文件中主要浏览的文件内容、以及每个文件类型的各文件的关键文件内容,确定所述用户对每个文件类型的忽略关键内容;
55、调整模块,用于识别所述用户对每个文件类型的各文件的关键文件内容的内容加载程度,并基于所述用户对不同文件类型的平均浏览时长、所述用户对每个文件类型的各文件的关键文件内容的内容加载程度、以及所述用户对每个文件类型的忽略关键内容,调整每个文件类型的各文件的文件内容的内容格式,得到每个文件类型的各文件的文件内容的新内容格式。
56、第三方面,本技术提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。
57、第四方面,本技术提供了一种计算机可读存储介质。其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
58、第五方面,本技术提供了一种计算机程序产品。所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
59、上述阅读完整性校验方法、装置、计算机设备和存储介质,通过获取不同文件的文件信息、以及用户在各所述文件的浏览信息,并识别每个文件信息的内容格式信息;基于各所述文件信息的内容格式信息,生成每个文件信息的正常阅读时长,并识别每个浏览信息对应的浏览时长、以及每个浏览信息对应的滑动操作信息;在存在所述浏览时长低于所述正常阅读时长的情况下,基于所述用户在所述低于正常阅读时长的浏览时长对应的目标文件的滑动操作信息,生成所述用户在所述目标文件的页面浏览动态信息,并基于所述页面浏览动态信息,识别所述用户在所述目标文件主要浏览的文件内容、以及所述目标文件的各文件内容的内容加载程度;提取所述目标文件的各文件内容中的关键特征内容,并基于所述用户主要浏览的文件内容、与所述关键特征内容之间的重合度、以及所述目标文件的各文件内容的内容加载程度,确定所述用户对所述目标文件的阅读完整度。本方案,通过识别每个文件的文件信息的内容格式信息,从而确定每个文件的正常阅读时长,然后筛选低于正常阅读时长的目标文件,识别用户对每个目标文件的主要浏览的文件内容和内容加载程度,再后通过计算主要浏览的文件内容和内容加载程度与目标文件的关键特征内容之间的重合度对应的完整度信息,确定用户对目标文件的阅读完整度,使得本方案从而阅读时长、页面展示清晰度,两个方向判定用户的阅读完整度,提升了判定用户的阅读完整度的全面性,其次,通过计算用户对目标文件的关键特征内容的浏览情况,分析用户对目标文件的阅读完整度,避免由于用户个人原因,反复阅读同一内容、对一般内容浏览过长等影响对目标文件的阅读完整度分析情况,从而提升了校验用户对电子文件的阅读完整性的精准度。