本技术涉及信息处理领域,尤其涉及一种信息处理方法、设备及计算机可读存储介质。
背景技术:
1、目前,在合作研发编程项目时,开发者可以将一些基础的代码上传至代码托管平台,并由代码托管平台进行管理;但是,开发者在将基础的代码上传至代码托管平台时,由于误操作会将客户的相关代码也上传至代码托管平台,造成代码泄露进而为客户的数据安全带来严重隐患;相关技术中,为了降低代码泄露带来的不良影响,可以通过目标关键词,从代码托管平台中获取与目标关键词匹配的目标代码文件,并通过对目标代码文件进行校验来确定客户的相关代码是否泄露,以便在确定客户的相关代码泄露的情况下及时提醒客户;但是,通过目标关键词来确定的目标代码文件中存在大量的误检文件,降低了后续校验的效率。
技术实现思路
1、为解决上述技术问题,本技术实施例期望提供一种信息处理方法、设备及计算机可读存储介质,解决了目标代码文件中存在大量的误检文件的问题,提高了后续校验的效率。
2、本技术的技术方案是这样实现的:
3、一种信息处理方法,所述方法包括:
4、获取样本误检代码文件和样本非误检代码文件;
5、对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码文件中的代码结构进行分析,得到第二样本特征信息;
6、基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,确定文件识别模型。
7、上述方案中,所述获取样本误检代码文件和样本非误检代码文件,包括:
8、获取初始代码文件,基于第一关键词从所述初始代码文件中确定样本代码文件;
9、对所述样本代码文件进行分类,得到所述样本误检代码文件和所述样本非误检代码文件。
10、上述方案中,所述对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码中的代码结构进行分析,得到第二样本特征信息,包括:
11、基于所述第一关键词从样本误检代码文件中确定第一代码,并基于所述第一代码在所述样本误检代码文件中的行数和目标行数,从所述样本误检代码文件中确定多行第二代码;
12、基于所述第一关键词从所述样本非误检代码文件中确定第三代码,并基于所述第三代码在所述样本非误检代码文件中的行数和所述目标行数,从所述样本非误检代码文件中确定多行第四代码;
13、对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析得到所述第二样本特征信息。
14、上述方案中,所述对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析,得到所述第二样本特征信息,包括:
15、对所述第一代码的字符串和每行所述第二代码的字符串进行分析得到第一信息,并对所述第三代码的字符串和每行所述第四代码的字符串进行分析得到第二信息;其中,所述第一信息表征所述第一代码的字符串和所述每行第二代码的字符串的差异;所述第二信息表征所述第三代码的字符串和所述每行第四代码的字符串的差异;
16、对所述第一代码的词的词性和所述每行第二代码的词的词性进行分析得到第三信息,并对所述第三代码的词的词性和所述每行第四代码的词的词性进行分析得到第四信息;其中,所述第三信息表征所述第一代码的词的词性和所述每行第二代码的词的词性的差异;所述第四信息表征所述第三代码的词的词性和所述每行第四代码的词的词性的差异;
17、对所述第一代码的词的词法和所述每行第二代码的词的词法进行分析得到第五信息,并对所述第三代码的词的词法和所述每行第四代码的词的词法进行分析得到第六信息;其中,所述第五信息表征所述第一代码的词的词法和所述每行第二代码的词的词法的差异;所述第六信息表征所述第三代码的词的词法和所述每行第四代码的词的词法的差异;
18、基于所述第一信息、所述第三信息和所述第五信息,确定所述第一样本特征信息,并基于所述第二信息、所述第四信息和所述第六信息,确定所述第二样本特征信息。
19、上述方案中,所述对所述第一代码的字符串和所述每行第二代码的字符串进行分析得到第一信息,并对所述第三代码的字符串和每行所述第四代码的字符串进行分析得到第二信息,包括:
20、基于所述第一代码中的每个字符串和所述第二代码中的每个字符串,确定所述第一代码和所述每行第二代码之间的第一差异程度,并基于所述第三代码中每个字符串和所述第四代码中每个字符串,确定所述第三代码和所述每行第四代码之间的第二差异程度;
21、基于所述第一关键词从所述每行第二代码中确定第二关键词,并确定所述第一关键词和每一所述第二关键词之间的第三差异程度;
22、基于所述第一关键词从所述每行第四代码中确定第三关键词,并确定所述第一关键词和每一所述第三关键词之间的第四差异程度;
23、基于多个所述第一差异程度和所述多个第三差异程度确定所述第一信息,并基于多个所述第二差异程度和所述多个第四差异程度确定所述第二信息。
24、一种信息处理方法,所述方法包括:
25、获取候选代码文件;
26、对所述候选代码文件的代码结构进行分析,得到目标特征信息;
27、基于文件识别模型和所述目标特征信息,确定所述候选代码文件是否为误检文件。
28、上述方案中,所述获取候选代码文件,包括:
29、获取待检测代码文件;
30、基于所述第一关键词,从所述待检测代码文件中确定待选代码文件;
31、采用文本相似度算法对所述待选代码文件进行分析,得到待检测编码信息;
32、在所述待检测编码信息与目标编码信息之间的编辑距离大于目标编辑距离的情况下,将所述待选代码文件作为所述候选代码文件。
33、上述方案中,所述在所述待检测编码信息与目标编码信息之间的编辑距离大于目标编辑距离的情况下,将所述待选代码文件作为所述候选代码文件之前,所述方法还包括:
34、获取与所述第一关键词匹配的第一代码文件,并采用文本相似度算法对所述第一代码文件进行分析得到第一编码信息并存储;
35、获取与所述第一关键词匹配的第二代码文件,并采用所述文本相似度算法对所述第二代码文件进行分析得到第二编码信息;
36、在确定所述第二编码信息与所述第一编码信息之间的编辑距离大于目标编辑距离的情况下,将所述第二编码信息作为所述第一编码信息并统计所述第一编码信息的数量;
37、获取与所述第一关键词匹配的第i代码文件,并采用文本相似度算法对所述第i代码文件进行分析得到第三编码信息,直到确定的所述第一编码信息的数量大于目标数量;
38、在所述第一编码信息的数量大于所述目标数量的情况下,将所述第一编码信息作为所述目标编码信息。
39、一种信息处理设备,所述设备包括:处理器、存储器和通信总线;
40、所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
41、所述处理器用于执行所述存储器中的信息处理程序,以实现上述信息处理方法的步骤。
42、一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述信息处理方法的步骤。
43、本技术的实施例所提供的信息处理方法、设备及计算机可读存储介质,获取样本误检代码文件和样本非误检代码文件;对样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对样本非误检代码文件中的代码结构进行分析,得到第二样本特征信息;基于第一样本特征信息和第二样本特征信息进行模型训练,确定文件识别模型,如此,可以基于第一样本特征信息和第二样本特征信息进行模型训练,考虑了样本误检代码文件和样本非误检代码文件之间代码结构的差异,提高了确定的文件识别模型的准确率,后续可以通过训练的文件识别模型,判断候选代码文件是否为误检文件,进而过滤掉候选代码文件集合中存在的误检文件得到非误检文件,并通过非误检文件进行校验,减少了校验的文件的数量,提高了后续校验的效率。