一种信息处理的方法及装置与流程

文档序号：11916870阅读：193来源：国知局

本申请涉及计算机技术领域，尤其涉及一种信息处理的方法及装置。

背景技术：

随着网络技术的不断发展，互联网已经成为人们生活中不可获取的一部分，网络服务商在接收到用户提供的信息后，可为用户提供的各种服务，如，为用户提供下载服务等，与此同时，网络服务商为了给用户提供更好的服务，通常都会对用户输入的信息进行处理，如，对信息进行统计和分析的风控处理等。

在实际应用中，对用户的输入信息进行处理之前，需要验证用户的输入信息是否为标准信息，如果不是标准信息，则需要将输入信息更改成标准信息，再对该标准信息进行处理。

在现有技术中，将输入信息更改成标准信息有两种方式，第一种方式：根据预设的正则表达式，对于不符合标准信息格式的输入信息，根据标准信息格式，将输入信息的格式更改成标准信息的格式。第二种方式：对于不符合标准信息的输入信息，根据预先建立的错误信息与标准信息的对应关系，将错误的输入信息更改成对应的标准信息。

但是，对于第一种方式而言，只能将用户的输入信息的格式更改成标准信息的格式，不能确定出输入信息的内容是否符合标准信息的内容，如，假设用户的输入信息是邮箱，但用户手误将“@163.com”输入成“@164.com”，则“@164.com”符合标准信息的格式，但不符合标准信息的内容，后续基于“@164.com”进行诸如风控处理的准确性就会降低。

对于第二种方式而言，在预先建立错误信息与标准信息的对应关系时，首先需要获取历史的错误信息，再给每一个历史的错误信息设定对应的标准信息。如，建立错误信息“@164.com”与标准信息“@163.com”的对应关系。但是，在实际应用中，错误的信息的种类是很多的，而且是不可预知的，很难汇总出所有的错误的信息，如，不能预知用户是否会将标准信息“@163.com”输入成“@165.com”、“@166.com”等错误信息，使得后续无法将错误信息更正成标准信息，从而也会导致后续基于输入信息进行诸如风控处理的准确性降低，与此同时，第二种方式需要频繁的将未出现的错误的信息添加到错误信息与标准信息的对应关系中，也增加了信息处理的成本。

技术实现要素：

本申请实施例提供一种信息处理的方法及装置，用以解决现有技术中基于输入信息进行处理的准确性较低的问题。

本申请实施例提供的一种信息处理的方法，所述方法包括：

获取用户的输入信息；

根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

对所述最终标准信息进行处理。

本申请实施例提供的一种风控处理的方法，所述方法包括：

风控系统获取用户的输入信息；

根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

对所述最终标准信息进行风险防控处理。

本申请实施例提供的一种信息处理的装置，所述装置包括：

获取模块，用于获取用户的输入信息；

第一确定模块，用于根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

第二确定模块，用于根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

第三确定模块，用于根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

处理模块，用于对所述最终标准信息进行处理。

本申请实施例提供的一种风控处理的装置，所述装置包括：

获取模块，用于获取用户的输入信息；

第一确定模块，用于根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

第二确定模块，用于根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

第三确定模块，用于根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

风控模块，用于对所述最终标准信息进行风险防控处理。

本申请实施例提供一种信息处理的方法及装置，该方法获取用户的输入信息，根据该输入信息，在预设的信息标准列表中，确定出该输入信息对应的各潜在标准信息，并据此确定该输入信息与各潜在标准信息之间的相似度，根据确定出的相似度，在各潜在标准信息中，确定出最终标准信息，并对该最终标准信息进行处理。通过上述方法，无需建立错误信息与标准信息的对应关系，无论用户的输入信息是何种错误信息，都可根据其与标准信息的相似度，确定该错误的输入信息对应的最终标准信息，对该最终标准信息进行处理，即可有效提高信息处理的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的信息处理的过程；

图2为本申请实施例提供的风控处理的过程；

图3为本申请实施例提供的信息处理的装置结构示意图；

图4为本申请实施例提供的风控处理的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的信息处理的过程，具体包括以下步骤：

S101：获取用户的输入信息。

在实际应用中，用户通常可通过输入信息来使用服务器提供的各种服务，如，用户通过输入电子邮箱信息来注册账号，从而使用某商品网站提供的购买商品服务。而服务器也需要基于用户的输入信息进行处理，如，将用户的输入信息作为账号，并登录该账号等。因此，本申请实施例中，服务器需要先获取用户的输入信息。

具体的，服务器可接收终端发送的用户的输入信息，作为获取到的用户的输入信息。还可根据预设的规则，从该输入信息中提取出部分信息，将提取出的部分信息重新作为获取到的输入信息。

例如，假设用户想通过其电子邮箱37927397@hotmail.co.uk进行登录，但在终端上将其错输入成37927397@hoymail.couk，则服务器接收到终端发来的37927397@hoymail.couk后，可根据预设的预设的规则，将37927397@hoymail.couk中的“@”以及位于“@”之后的所有字符提取出来，作为获取到的输入信息，即为@hoymail.couk。

S102：根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息。

在本申请实施例中，所述信息标准列表可以是服务器预先根据历史上大量的正确输入信息生成的，如，可预先将历史上的正确输入信息“@163.com”、“@hotmail.co.uk”添加到信息标准列表中。

在确定输入信息对应的各潜在标准信息时，具体可按照预设的搜索拆分方式，将输入信息拆分成对应的搜索词，再根据拆分得到的搜索词以及预先建立的倒排索引，在预设的信息标准列表包含的各标准信息中，确定出该输入信息对应的各潜在标准信息。

延续上例，假设预设的搜索拆分方式为：将“.”之前的部分作为一个搜索词，将“.”之后的部分作为一个搜索词。则服务器可将获取的输入信息“@hoymail.couk”拆分为搜索词“hoymail”和“couk”，再根据这两个搜索词以及预先建立的倒排索引，采用模糊搜索的方式，在信息标准列表包含的各标准信息中，搜索出各潜在标准信息。

假设信息标准列表中包含的标准信息为：@163.com、@sohu.com、@hotmail.co.uk、@hormail.co.uk、@htmail.co.uk。则根据搜索词“hoymail”和“couk”，可确定出与输入信息“@hoymail.couk”对应的各潜在标准信息为：@hotmail.co.uk、@hormail.co.uk、@htmail.co.uk。

另外，所述倒排索引的建立方式具体可以为：预先按照上述同样的搜索拆分方式，将标准信息列表中包含的各标准信息拆分成对应的搜索词，并根据搜索词以及包含该搜索词的标准信息，建立倒排索引。

S103：根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度。

在实际应用中，用户由于手误错误输入的输入信息与标准信息在字符上不会相差很大，因此，在本申请中，可以采用计算输入信息与各潜在标准信息之间的相似度来确定到底哪个潜在标准信息是用户真正想输入的信息。

所述输入信息与潜在标准信息之间的相似度表征输入信息与潜在标准信息之间相似的程度，如果相似度越大，则说明输入信息与潜在标准信息之间越相似，也就是说，该潜在标准信息是用户真正想输入的信息的可能性越大，如果相似度越小，则说明输入信息与潜在标准信息之间越不相似，也就是说，该潜在标准信息是用户真正想输入的信息的可能性越小。

因此，服务器通过步骤S102确定出输入信息对应的各潜在信息后，可计算出输入信息与各潜在信息之间的相似度，本申请在计算相似度时，具体可以针对任一潜在标准信息，确定出将该输入信息更改成该潜在标准信息所需的最少操作次数(也即，编辑距离)，再据此确定出该输入信息与该潜在标准信息之间的相似度。其中，所述的最少操作次数越大，则相似度越小，作数的最少操作次数越小，则相似度越大。

在此需要说的是，以上只是对确定输入信息与各潜在标准信息的相似度的方法的示例性说明，上述的确定相似度的方法并不是唯一的方法，如，还可通过计算欧氏距离的方法确定输入信息与各潜在标准信息的相似度，只要计算方法所体现出的实际意义是输入信息与各潜在标准信息相似程度即可。

延续上例，服务器确定出将“@hoymail.couk”更改成“@hotmail.co.uk”所需的最少操作次数是2次，即，只需要将“y”更改成“t”，并在“o”与“u”中间添加一个“.”，再据此确定出“@hoymail.couk”和“@hotmail.co.uk”之间的相似度为：3.432。类似的，确定出将“@hoymail.couk”更改成“@hormail.co.uk”所需的最少操作次数是2次，再据此确定出“@hoymail.couk”和“@hormail.co.uk”之间的相似度为：3.432；确定出将“@hoymail.couk”更改成“@htmail.co.uk”所需的最少操作次数是3次，据此确定出“@hoymail.couk”和“@htmail.co.uk”之间的相似度为：3.099。

S104：根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息。

在本申请实施例中，由于相似度表征了输入信息与潜在标准信息之间相似的程度，也就是说，相似度越大，则说明输入信息与潜在标准信息之间越相似，因此，在本申请中可以按照输入信息与各潜在标准信息的相似度的大小由高到低进行排序，并将相似度最高的潜在标准信息确定为最终标准信息，所述最终标准信息是用户真正想输入的信息。

在实际应用中，有可能存在相似度最高的潜在标准信息存在至少两个的情况，对于这种情况，可以直接根据预设的各潜在标准信息的优先级，将优先级最高的潜在标准信息，确定为最终标准信息。

延续上例，服务器确定出相似度最高的潜在标准信息为：@hotmail.co.uk、@hormail.co.uk，二者的相似度都是3.432，假设预设的各潜在标准信息的优先级从高到低依次为：@163.com、@sohu.com、@hotmail.co.uk、@hormail.co.uk、@htmail.co.uk，则按照预设的优先级，将“@hotmail.co.uk”确定为最终标准信息。

另外，预先设定优先级具体可以为：统计出标准信息列表中每一标准信息在历史上出现的数量，数量越多，则优先级越高，数量越低，则优先级越低。

S105：对所述最终标准信息进行处理。

继续沿用上例，服务器在确定出“@hotmail.co.uk”为最终标准信息(即，用户的电子邮箱正确的后缀为“@hotmail.co.uk”)后，将“37927397”与“@hotmail.co.uk”组合成“37927397@hotmail.co.uk”，并进行登录处理，为用户提供后续的服务。

通过上述方法，无需建立错误信息与标准信息的对应关系，无论用户的输入信息是何种错误信息，都可根据其与标准信息的相似度，确定该错误的输入信息对应的最终标准信息，对该最终标准信息进行处理，即可有效提高信息处理的准确性。

在此需要说明的是，上述是以由服务器通过如图1所示的方法来处理信息为例说明的，当然如图1所示的方法也可以由终端来完成，当由终端处理信息时，在步骤S101中，终端可直接接收用户的输入信息，并根据该输入信息，在后续步骤中，终端则可在预先保存在该终端本地的信息标准列表中，确定输入信息对应的各潜在标准信息，再确定输入信息与各潜在标准之间的相似度，并根据该相似度，确定出最终标准信息，最后对该最终标准信息进行处理，如，将得到的最终标准信息发送给服务器等。

在实际应用中，输入信息是否为标准信息，主要是以输入信息的格式和输入信息的内容为准，也就是说输入信息不是标准信息的原因有可能只是输入信息的格式出现了错误，也有可能只是输入信息的内容出现了错误，也有可能是输入信息的格式和内容都出现了错误。如果输入信息的格式出现了问题，则在确定将输入信息更改成该潜在标准信息所需的最少操作次数时，必定会增加修改格式的操作，这样最少操作次数就会增多，从而使得最后确定出来的相似度会增大，因此，本申请实施例中，可在获取到用户的输入信息之后，先将该输入信息按照预设的标准信息格式进行调整。

在此需要说明的是，本申请可以采用正则表达式的方式来预设标准信息的格式，如，预设的正则表达式为：@w+([-.]w+)*.w+([-.]w+)*。

另外，在实际应用中，有可能用户会出现主观故意输入错误的信息，即，用户输入的信息本身就与标准信息无关，这样通过步骤S102～S104后，也一定会确定出一个最终标准信息，这样后续在对该最终标准信息进行处理时，降低了后续信息处理的准确性，因此，可以预先设定一个相似度阈值，如果相似度最高的潜在标准信息的相似度大于等于预设的相似度阈值，则可将相似度最高的潜在标准信息确定为最终标准信息，如果相似度最高的潜在标准信息的相似度小于预设的相似度阈值，则可舍弃掉相似度最高的潜在标准信息，即，后续不对相似度最高的潜在标准信息进行任何处理。

最后，在此需要说明的是，以上都是获取的用户的输入信息都是错误的信息，即，都不是标准信息，在实际应用中，获取的用户的输入信息也有可能是标准信息，当获取的用户的输入信息是标准信息时，无需通过步骤S102～S104，直接对该输入信息进行处理，这是因为如果直接将标准信息也通过步骤S102～S104，势必会降低信息处理的效率。

下面以对信息进行风控处理为例，详细说明本申请提供的信息处理方法。

图2为本申请提供的风控处理的过程，具体包括以下步骤：

S201：获取用户的输入信息。

在本申请实施例中，风控系统将接收终端发送的用户的输入信息，作为获取到的用户的输入信息，并对该输入信息进行相应的处理，所述输入信息可以是电子邮箱信息，也可以是其他具有固定格式以及固定内容的信息，如，互联网地址，由于对于风控系统处理而言，电子邮箱信息是重要的一个风控维度，因此，本申请中以下都以电子邮件信息进行说明。

S202：根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息。

在本申请实施例中，风控系统再接收到用户的电子邮箱信息(即，输入信息)后，在确定电子邮箱信息对应的各潜在标准电子邮箱信息时，也可采用步骤102中所建立的倒排索引，将电子邮箱信息按照预设的搜索拆分方式，将电子邮箱信息拆分成对应的搜索词，并根据该搜索词在倒排索引中，确定出各潜在标准电子邮箱信息。

S203：根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度。

进一步的，风控系统在确定出各潜在电子邮箱标准信息后，针对任一潜在电子邮箱标准信息而言，确定出将该电子邮箱信息更改成该潜在电子邮箱标准信息所需的最少操作次数(也即，编辑距离)，再据此确定出该电子邮箱信息与该潜在电子邮箱标准信息之间的相似度。

S204：根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息。

在本申请实施例中，风控系统在确定出的各潜在电子邮箱标准信息的相似度中，确定出相似度最高的潜在电子邮箱标准信息，将该潜在电子邮箱标准信息确定为最终标准信息。

在实际应用中，如果存在相似度最高的潜在电子邮箱标准信息存在至少两个，直接根据预设的各潜在电子邮箱标准信息的优先级，将优先级最高的潜在标准信息，确定为最终电子邮箱标准信息。

S205：对所述最终标准信息进行风险防控处理。

最后，在本申请中，风控系统在确定出的最终电子邮箱标准信息后，后续可对电子邮箱标准信息进行统计和分析，并根据统计和分析的结果，做出相应的措施，如，通过对大量用户输入的电子邮箱信息进行统计和分析，确定出哪些电子邮箱是大批量生成的恶意邮箱，后续可对确定出的电子邮箱进行追踪或控制。

例如，假设用户甲在某商品网站上进行购物，在第一次的交易操作中，用户甲输入的电子邮箱信息为“abx@164.com”，在第二次的交易操作中，用户甲输入的电子邮箱信息为“abx@163.com”，后续该商品网站的风控系统获取到用户甲输入的电子邮箱信息“abx@164.com”与“abx@163.com”，如果风控系统对用户甲输入的电子邮箱信息不通过上述的步骤S201～S204的处理，则风控系统在后续会将电子邮箱信息为“abx@164.com”对应的交易信息与电子邮箱为“abx@163.com”对应的交易信息分别进行统计和分析，而实际上这两个电子邮箱对应的交易信息都是用户甲的，从而降低最后风险处理的准确性。

但是，通过上述步骤S201～S204的处理，风控系统确定出“abx@164.com”的最终标准信息为“abx@163.com”，而用户甲输入的“abx@163.com”本身就是标准信息，因此，无需通过步骤S201～S204的处理，后续风控系统将电子邮箱信息为“abx@163.com”对应的交易信息统计到一起，并做出相应的数据分析，后续根据得到的分析结果，做出相应的风险处理。

以上为本申请实施例提供的信息处理的方法和风控处理方法，基于同样的思路，本申请实施例还提供一种信息处理的装置以及风控处理的装置，如图3、图4所示。

图3为本申请实施例提供的信息处理的装置结构示意图，所述装置包括：

获取模块301，用于获取用户的输入信息；

第一确定模块302，用于根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

第二确定模块303，用于根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

第三确定模块304，用于根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

处理模块305，用于对所述最终标准信息进行处理。

所述装置还包括：

调整模块306，用于在所述第一确定模块302确定出所述输入信息对应的各潜在标准信息之前，将所述输入信息按照预设的标准信息格式进行调整。

所述第一确定模块302具体用于，按照预设的搜索拆分方式，将所述输入信息拆分成对应的搜索词，根据所述搜索词以及预先建立的倒排索引，在预设的信息标准列表包含的各标准信息中，确定出所述输入信息对应的各潜在标准信息。

所述第二确定模块303具体用于，针对任一潜在标准信息，确定出将所述输入信息更改成该潜在标准信息所需的最少操作次数，根据所述最少操作次数，确定出所述输入信息与该潜在标准信息之间的相似度。

所述第三确定模块304具体用于，将相似度最高的潜在标准信息确定为最终标准信息，或当相似度最高的潜在标准信息存在至少两个时，根据预先建立的潜在标准信息优先级，将优先级最高的潜在标准信息确定为最终标准信息。

所述第三确定模块304具体用于，在相似度大于预设阈值的各潜在标准信息中，确定出最终标准信息。

所述装置还包括：

第四确定模块307，用于在所述第一确定模块302确定出所述输入信息对应的各潜在标准信息之前，确定所述输入信息为非标准信息。

图4为本申请实施例提供的风控处理的装置结构示意图，所述装置包括：

获取模块401，用于获取用户的输入信息；

第一确定模块402，用于根据所述输入信息，在预设的信息标准列表中，确定出所述输入信息对应的各潜在标准信息；

第二确定模块403，用于根据所述输入信息与各潜在标准信息，确定所述输入信息与各潜在标准信息之间的相似度；

第三确定模块404，用于根据所述输入信息与各潜在标准信息之间的相似度，在各潜在标准信息中，确定出最终标准信息；

风控模块405，用于对所述最终标准信息进行风险防控处理。

所述输入信息包括电子邮箱信息。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钱宣统
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种不锈钢多功能庭院伞的制作方法与工艺
上一篇：防火性好强度高褶皱与针织的复合织物的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。