信息处理方法、装置、设备及存储介质与流程

文档序号:31929597发布日期:2022-10-25 23:55阅读:36来源:国知局
信息处理方法、装置、设备及存储介质与流程

1.本技术涉及通信技术领域,尤其涉及一种信息处理方法、装置、设备及存储介质。


背景技术:

2.目前,随着互联网的不断发展,业务系统需要通过网络爬虫等方式获取大量用户数据,从而利用大量用户数据为后期业务支持提供稳定的数据支撑服务,为用户提供更好的业务服务体验。然而,在业务系统获取到的用户数据中,不可避免地会存在一些准确性和真实性比较低的无效数据,例如信息不完整、数据重复或者存在特殊字符的用户信息等。
3.相关技术中,针对上述无效数据,业务系统仅仅依赖于业务逻辑对用户信息进行限制,而无法对用户信息的准确性和真实性进行有效判别,因此无法准确确定大量用户数据中的有效用户数据。


技术实现要素:

4.本技术实施例提供了一种信息处理方法、装置、设备及存储介质,能够解决相关技术中无法对用户信息的准确性和真实性进行有效判别,也无法准确确定大量用户数据中的有效用户数据的问题。
5.第一方面,本技术实施例提供一种信息处理方法,该方法包括:利用决策树分析法识别用户的日志信息,得到日志信息中的关键字;基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果,其中,判别结果用于表征日志信息为有效信息或无效信息。
6.在第一方面的一些可实现方式中,在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,该方法还包括:在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
7.在第一方面的一些可实现方式中,在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,该方法还包括:在预设垃圾信息数据库中查询日志信息;在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息;或者,在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
8.在第一方面的一些可实现方式中,关键字包括用户的身份标识信息,该方法还包括:利用决策树分析法确定用户的身份标识信息的可信度;在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
9.在第一方面的一些可实现方式中,在利用决策树分析法对用户的日志信息进行识别之前,该方法还包括:获取用户数据;基于日志消息分析器将用户数据转化为用户的日志信息。
10.第二方面,本技术实施例提供一种信息处理装置,该装置包括:识别模块,用于利
用决策树分析法识别用户的日志信息,得到日志信息中的关键字;匹配模块,用于基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;输入模块,用于向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果,其中,判别结果用于表征日志信息为有效信息或无效信息。
11.在第二方面的一些可实现方式中,该装置还包括:过滤模块,用于在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
12.在第二方面的一些可实现方式中,该装置还包括:查询模块,用于在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,在预设垃圾信息数据库中查询日志信息;保存模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息;或者,过滤模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
13.在第二方面的一些可实现方式中,关键字包括用户的身份标识信息,该装置还包括:确定模块,用于利用决策树分析法确定用户的身份标识信息的可信度;过滤模块,用于在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
14.在第二方面的一些可实现方式中,该装置还包括:获取模块,用于在利用决策树分析法对用户的日志信息进行识别之前,获取用户数据;转化模块,用于基于日志消息分析器将用户数据转化为用户的日志信息。
15.第三方面,本技术实施例提供一种信息处理设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的信息处理方法。
16.第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的信息处理方法。
17.本技术实施例提供的一种信息处理方法、装置、设备及存储介质,能够利用决策树分析法识别用户的日志信息,得到日志信息中的关键字,并基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果。在此基础上,通过向预设判别模型输入日志信息的匹配结果,可以得到日志信息的判别结果。如此,通过对用户信息的处理和分析,可以得到表征该用户信息为有效信息或无效信息的判别结果,实现对用户信息的准确性和真实性的有效判别,从而准确确定出判别结果为有效信息的有效用户数据。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的一种信息处理方法的流程示意图;
20.图2是本技术实施例提供的一种决策树的示例性示意图;
21.图3是本技术实施例提供的另一种信息处理方法的流程示意图;
22.图4是本技术实施例提供的一种信息处理装置的结构示意图;
23.图5是本技术实施例提供的一种信息处理设备的结构示意图。
具体实施方式
24.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅解释本技术,而不是限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
25.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
26.针对背景技术中出现的问题,本技术实施例提供了一种信息处理方法、装置、设备及存储介质,可以利用决策树分析法识别用户的日志信息,得到日志信息中的关键字,并基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果。在此基础上,通过向预设判别模型输入日志信息的匹配结果,可以得到日志信息的判别结果。如此,通过对用户信息的处理和分析,可以得到表征该用户信息为有效信息或无效信息的判别结果,实现对用户信息的准确性和真实性的有效判别,从而准确确定出判别结果为有效信息的有效用户数据,解决了相关技术中无法对用户信息的准确性和真实性进行有效判别,也无法准确确定大量用户数据中的有效用户数据的问题。
27.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的信息处理方法、装置、设备和存储介质进行详细地说明。
28.图1是本技术实施例提供的一种信息处理方法的流程示意图,其中,该信息处理方法的执行主体可以是信息处理设备。需要说明的是,上述执行主体并不构成对本技术的限定。
29.如图1所示,该信息处理方法可以包括步骤110-步骤130。
30.步骤110,利用决策树分析法识别用户的日志信息,得到日志信息中的关键字。
31.在本技术的一些实施例中,决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。一颗决策树可以包含一个根节点、若干个内部结点和若干个叶结点。其中,叶结点对应于决策结果,其他每个结点则对应于一个属性测试,该属性与关键字关联;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个测试序列。
32.在一个示例中,以图2中的二元分类为例,用户的日志信息包括客户资料,该客户资料为根节点,从根节点开始,对证件号码属性进行测试,得到“证件号码完整”和“无证件
号码”两个分支,其中,“无证件号码”对应叶节点“无效客户信息”。接着,对实名认证属性进行测试,得到“认证通过”和“认证未通过”两个分支,其中,“认证未通过”对应叶节点“无效客户信息”。接着,对证件名称属性进行测试,得到“证件名称与证件号码匹配”和“证件名称与证件号码不匹配”两个分支,其中,“证件名称与证件号码匹配”对应叶节点“有效客户信息”,“证件名称与证件号码不匹配”对应叶节点“无效客户信息”,这样就完成了客户资料的证件完整性和有效性的决策树决策过程。同时,在客户资料中,上述“证件号码完整”对应的用户证件号码、“证件名称与证件号码匹配”对应的用户证件名称,即为关键字。
33.如此,能够创新性地使用决策树分析法甄别用户数据,对用户数据中的各字段的准确性、有效性进行初步判别,得到一些初步判别后有效的关键字信息。
34.在本技术的一些实施例中,由于决策树可以对用户数据中的各字段的准确性、有效性进行初步判别,因此也可以根据初步判别结果确定是否过滤该条用户日志信息。
35.在上述实施例中,关键字可以包括用户的身份标识信息,该方法还可以包括下述步骤:利用决策树分析法确定用户的身份标识信息的可信度;在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
36.其中,该预设可信度阈值可以根据具体需求进行设置,本技术在此不做具体限定。
37.示例性地,身份标识信息为身份证号,利用决策树分析法确定该用户的身份证号不完整,可信度为0小于预设可信度阈值10,因此可以直接将该用户的日志信息过滤。
38.在本技术的一些实施例中,由决策树算法可知,决策树生成的关键在于如何选择最优的划分属性,即“纯度”最高的属性,例如对于二元分类而言,就是尽量使属性测试后划分的样本属于同一类别。
39.因此,该方法还可以包括下述步骤:
40.步骤1,利用公式(1)计算信息熵ent(d),该信息熵可以用于表征样本集合纯度。
[0041][0042]
其中,pk为样本集合d中第k类样本所占比例,k=1,2,3

γ,γ为样本类别的总数。
[0043]
示例性地,对于二元分类来说,γ=2。
[0044]
在上述实施例中,信息熵ent(d)越小,则样本集合纯度越高,以信息论的角度看,也就是信息量越小。
[0045]
步骤2,利用信息熵ent(d)和公式(2)计算信息增益gain(d,a),其中,信息增益越大,使用属性a划分所获得纯度提升越大,因此可以基于信息增益来决定决策树的划分属性。
[0046][0047]
其中,离散属性a有v个可能的取值{a1,a2…av
},使用a来对样本集合d进行划分,产生v个分支节点。其中第v个分支节点包含d中所有取值为av的样本,记为dv。
[0048]
在本技术的一些实施例中,在步骤110之前,该方法还可以包括下述步骤:获取用户数据;基于日志消息分析器将用户数据转化为用户的日志信息。
[0049]
在上述实施例中,可以通过多种渠道获取用户数据,例如通过网络爬虫方式获取客户资料信息,并由日志消息分析器对该客户资料信息进行转换,得到可以存储在数据库
的日志信息或日志消息。
[0050]
在一个实施例中,可以将得到的日志信息导入临时数据库,作为临时数据资源。
[0051]
步骤120,基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果。
[0052]
在本技术的一些实施例中,步骤120可以具体包括:基于正向最大匹配法、逆向最大匹配法、双向最大匹配法、最小路径中的至少一项在预设词库中进行扫描,对日志信息中的关键字进行匹配。
[0053]
如此,基于字符串匹配的分词方法这种文本挖掘技术,能够通过在预设词库中对日志信息中的关键字进行匹配的方式,实现对日志信息中的关键字的语义分析,提升了关键字信息的语义分析效率和准确性。
[0054]
步骤130,向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果。
[0055]
其中,判别结果用于表征日志信息为有效信息或无效信息,该日志信息的匹配结果包括关键字的匹配结果。
[0056]
在本技术的一些实施例中,上述无效信息可以包括信息不完整、数据重复、存在特殊字符等信息。
[0057]
作为一个示例,日志信息中的关键字包括手机号139xxxx111a,由于该手机号中含有特殊字符,因此向预设判别模型输入139xxxx111a后,可以得到判别结果“含特殊字符”或“无效”,用于表征该条日志信息为无效信息。
[0058]
在本技术的一些实施例中,在步骤130之前,该方法还可以包括下述步骤:获取输入训练样本和输出训练样本,输入训练样本包括关键字信息,输出训练样本包括关键字信息对应的标签,标签包括有效标签和无效标签;利用输入训练样本和输出训练样本对预设网络模型进行训练,得到训练好的预设判别模型。
[0059]
如此,能够利用决策树分析法识别用户的日志信息,得到日志信息中的关键字,并基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果。在此基础上,通过向预设判别模型输入日志信息的匹配结果,可以得到日志信息的判别结果。如此,通过对用户信息的处理和分析,可以得到表征该用户信息为有效信息或无效信息的判别结果,实现对用户信息的准确性和真实性的有效判别,从而准确确定出判别结果为有效信息的有效用户数据。
[0060]
在本技术的一些实施例中,在步骤130之后,该方法还可以包括下述步骤:在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
[0061]
如此,能够在确定日志信息为无效信息之后,有效过滤和清除无效日志信息,提升用户数据质量,提升业务支撑系统在数据源采集、存储、分类等方面的准确性,为后期业务支持提供稳定的数据支撑服务。
[0062]
在本技术的一些实施例中,图3是本技术实施例提供的另一种信息处理方法的流程示意图,其中,该信息处理方法的执行主体可以是信息处理设备。需要说明的是,上述执行主体并不构成对本技术的限定。
[0063]
其中,在步骤130之后,该方法还可以包括步骤140-步骤160:
[0064]
步骤140,在预设垃圾信息数据库中查询日志信息。
[0065]
其中,该预设垃圾信息数据库用于存储信息不完整、数据重复、存在特殊字符、与
用户其他信息不匹配等无法正常使用的垃圾信息。
[0066]
步骤150,在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息。
[0067]
步骤160,在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
[0068]
在本技术的一些实施例中,该方法还可以包括下述步骤:对预设垃圾信息数据库中的垃圾信息进行二次判别,确定预设垃圾信息数据库中被误判为垃圾信息的信息;删除被误判为垃圾信息的信息。
[0069]
在本技术的另一些实施例中,该方法还可以包括下述步骤:对预设垃圾信息数据库中的垃圾信息进行数据分析,确定垃圾信息的无效原因。
[0070]
需要说明的是,本技术实施例提供的信息处理方法,执行主体可以为信息处理装置,或者该信息处理装置中的用于执行信息处理的方法的控制模块。本技术实施例中以信息处理装置执行信息处理的方法为例,说明本技术实施例提供的信息处理装置。下面对信息处理装置进行详细介绍。
[0071]
图4是本技术提供的一种信息处理装置的结构示意图。
[0072]
如图4所示,本技术实施例提供一种信息处理装置400,该信息处理装置400可以应用于电子设备,该信息处理装置400包括:识别模块410、匹配模块420和输入模块430。
[0073]
其中,识别模块410,用于利用决策树分析法识别用户的日志信息,得到日志信息中的关键字;匹配模块420,用于基于字符串匹配的分词方法在预设词库中对日志信息中的关键字进行匹配,得到日志信息的匹配结果;输入模块430,用于向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果,其中,判别结果用于表征日志信息为有效信息或无效信息。
[0074]
在本技术的一些实施例中,该装置还包括:过滤模块,用于在判别结果用于表征日志信息为无效信息的情况下,过滤日志信息。
[0075]
在本技术的一些实施例中,该装置还包括:查询模块,用于在向预设判别模型输入日志信息的匹配结果,得到日志信息的判别结果之后,在预设垃圾信息数据库中查询日志信息;保存模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为有效信息的情况下,保存日志信息;或者,过滤模块,用于在预设垃圾信息数据库中未查询到日志信息,且判别结果用于表征日志信息为无效信息的情况下,在预设垃圾信息数据库中存储日志信息。
[0076]
在本技术的一些实施例中,关键字包括用户的身份标识信息,该装置还包括:确定模块,用于利用决策树分析法确定用户的身份标识信息的可信度;过滤模块,用于在可信度小于预设可信度阈值的情况下,过滤用户的日志信息。
[0077]
在本技术的一些实施例中,该装置还包括:获取模块,用于在利用决策树分析法对用户的日志信息进行识别之前,获取用户数据;转化模块,用于基于日志消息分析器将用户数据转化为用户的日志信息。
[0078]
可以理解的是,图4所示信息处理装置400中的各个模块/单元具有实现本技术实施例提供的信息处理方法中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
[0079]
图5是本技术实施例提供的一种信息处理设备的结构示意图。如图5所示,本实施例中的信息处理设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与信息处理设备500的其他组件连接。
[0080]
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到信息处理设备500的外部供用户使用。
[0081]
在一些实施例中,图5所示的信息处理设备500包括:存储器504,用于存储程序;处理器503,用于运行存储器中存储的程序,以实现本技术实施例提供的信息处理方法。
[0082]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本技术实施例提供的信息处理方法。
[0083]
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,为了简洁,不再赘述。本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
[0084]
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(application specific integrated circuit,asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(read-only memory,rom)、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(radio frequency,rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0085]
还需要说明的是,本技术中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本技术不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0086]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专
用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
[0087]
以上所述,仅为本技术的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1