虚假手机号码的识别方法和装置与流程

文档序号:11063843阅读:3386来源:国知局
虚假手机号码的识别方法和装置与制造工艺
本发明涉及网络反作弊
技术领域
,尤其涉及一种虚假手机号码的识别方法和装置。
背景技术
:在互联网应用时,一些不法用户会注册多个虚假手机号码,并通过虚假手机号码进行盈利活动,例如,获取提供商提供的红包、抵用券等。为了解决不法用户的此类作弊问题,需要对虚假手机号码进行识别。技术实现要素:本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种虚假手机号码的识别方法,该方法可以识别出虚假手机号码。本发明的另一个目的在于提出一种虚假手机号码的识别装置。为达到上述目的,本发明第一方面实施例提出的虚假手机号码的识别方法,包括:获取当前的订单数据,并获取产生所述当前的订单数据的用户的手机号码;对所述当前的订单数据进行特征提取,得到当前的订单数据对应的特征值;获取预先生成的识别模型,并根据所述识别模型和所述特征值进行识别,判断所述手机号码是否是根据识别模型识别出的虚假手机号码,其中,所述识别模型是根据历史订单数据和历史订单数据对应的手机号码是否是虚假手机号码的识别结果得到的;如果所述手机号码是根据识别模型识别出的虚假手机号码,对所述手机号码进行验证,根据验证结果确定所述手机号码是否是虚假手机号码。本发明第一方面实施例提出的虚假手机号码的识别方法,通过预先生成的识别模型以及验证流程可以识别出虚假手机号码,实现虚假手机号码的识别,保护各方正常权益。为达到上述目的,本发明第二方面实施例提出的虚假手机号码的识别装置,包括:获取模块,用于获取当前的订单数据,并获取产生所述当前的订单数据的用户的手机号码;提取模块,用于对所述当前的订单数据进行特征提取,得到当前的订单数据对应的特征值;识别模块,用于获取预先生成的识别模型,并根据所述识别模型和所述特征值进行识别,判断所述手机号码是否是根据识别模型识别出的虚假手机号码,其中,所述识别模型是根 据历史订单数据和历史订单数据对应的手机号码是否是虚假手机号码的识别结果得到的;验证模块,用于如果所述手机号码是根据识别模型识别出的虚假手机号码,对所述手机号码进行验证,根据验证结果确定所述手机号码是否是虚假手机号码。本发明第二方面实施例提出的虚假手机号码的识别装置,通过预先生成的识别模型以及验证流程可以识别出虚假手机号码,实现虚假手机号码的识别,保护各方正常权益。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本发明一实施例提出的虚假手机号码的识别方法的流程示意图;图2是本发明另一实施例提出的虚假手机号码的识别方法的流程示意图;图3是本发明实施例中确定需要提取的特征的流程示意图;图4是本发明实施例中根据识别模型进行识别的架构示意图;图5是本发明另一实施例提出的虚假手机号码的识别装置的结构示意图;图6是本发明另一实施例提出的虚假手机号码的识别装置的结构示意图。具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本发明一实施例提出的虚假手机号码的识别方法的流程示意图,该方法包括:S11:获取当前的订单数据,并获取产生当前的订单数据的用户的手机号码。其中,当前的订单数据例如是用户当前在线产生的订单数据,订单数据中例如包括用户购买的商品的名称、价格等信息。在线产生的订单数据具体可以是线上到线下(OnlinetoOffline,O2O)交易中的在线订单数据。另外,用户在产生订单数据时,可以使用已注册的手机号码进行登录,从而可以获取到相应的手机号码,或者,用户使用已注册的账号进行登录,而数据库中预先关联保存账号与手机号码,从而可以获取到相应的手机号码。S12:对当前的订单数据进行特征提取,得到当前的订单数据对应的特征值。可以对当前的订单数据在如下维度中的一项或多项中进行特征提取:用户、团单、订单。其中,每个维度上要提取的特征可以预先确定,每个维度上要提取的特征可以包括一种或多种,多个特征可以组成特征向量。例如,用户维度上提取的特征可以分为用户属性类特征和用户统计类特征,用户属性类型特征可以如表1所示,用户统计类特征可以如表2所示:表1特征名备注用户注册邮箱email字符串,只保留@符号后面内容用户注册IPregip字符串用户名uname+字符串用户的注册时间reg_time字符串,精确到小时用户的注册城市reg_city字符串手机的归属城市mobile_city字符串表2特征名备注用户半年的订单总量db_order_count整数用户半年的优惠订单总量db_discount_order整数用户半年的总金额db_total_money浮点数,按数值区间离散化用户半年的实付金额db_money浮点数,按数值区间离散化用户半年使用的手机号码数量db_mobile_num整数用户昨天是否为新客db_is_new0/1团单维度上提取的特征可以如表3所示:表3特征名备注团单一级品类category1字符串团单二级品类category2字符串团单所在的城市deal_city字符串订单维度上提取的特征可以如表4所示:表4因此,通过对当前的订单数据,在上述一种或多种维度上,按照预先确定的需要提取的特征进行特征提取,可以获取到相应的特征值,也就是当前的订单数据对应的特征值。S13:获取预先生成的识别模型,并根据识别模型和特征值进行识别,判断手机号码是否是根据识别模型识别出的虚假手机号码,其中,识别模型是根据历史订单数据和历史订单数据对应的手机号码是否是虚假手机号码的识别结果得到的。一些实施例中,如图2所示,可以在离线时生成识别模型。例如,参见图2,生成识别模型的流程可以包括:S21:获取历史订单数据。例如,选择预设时间段内预设数量的历史订单数据作为样本,以进行模型训练。S22:对历史订单数据进行特征提取,得到历史订单数据对应的特征值。类似当前的订单数据的特征提取流程,可以先确定一个或多个维度上需要提取的特征,再从历史订单数据中提取相应的特征,得到相应的特征值。S23:获取历史订单数据对应的手机号码是否是虚假手机号码的识别结果。在获取历史订单数据后,还可以获取相应的手机号码,以及历史上根据预设的验证方式对历史订单数据对应的手机号码进行识别后得到的识别结果。验证方式例如为人工或预设的自动方式等,具体如拨测。S24:根据历史订单数据对应的特征值和对应的识别结果进行模型训练,生成识别模型。在获取到历史订单数据对应的特征值,以及历史订单数据对应的手机号码的识别结果后,可以将该特征值和识别结果作为训练样本进行模型训练,生成识别模型。在模型训练时例如采用最大熵模型训练方式。对应一个历史订单数据,假设该历史订单数据对应的手机号码的识别结果是虚假手机号码,则该历史订单可以称为作弊订单,假设该历史订单数据对应的手机号码的识别结果不是虚假手机号码,则该历史订单可以称为正常订单。通过根据作弊订单和正常订单以及对应的特征值进行模型训练,可以分别得到作弊订单时每个特征对应的权重以及正常订单时每个特征对应的权重,假设正常订单时特征对应的权重分别用a1,a2,…,aN表示,作弊订 单时特征对应的权重分别用b1,b2,…,bN表示。经过模型训练后,生成的识别模型中可以记录第一组权重值和/或第二组权重值,第一组权重值是对应正常订单提取出的一组特征对应的权重值,如上述的a1,a2,…,aN,第二组权重值是对应作弊订单提取出的一组特征对应的权重值,如上述的b1,b2,…,bN。当识别模型是最大熵模型时,在生成最大熵模型后,如图2所示,进行在线预测时,可以先获取当前的订单数据(S25)以及对当前的订单数据进行特征提取获取当前的订单数据对应特征值(S26),之后再根据最大熵模型可以进行最大熵在线预测(S27),以识别出当前的订单数据对应的手机号码是否是根据识别模型识别出的虚假手机号码。在识别时,可以根据当前的订单数据对应的一组特征值,假设用X1,X2,…,XN表示,以及识别模型中记录的第一组权重值和/或第二组权重值分别计算出第一分数值和/或第二分数值,再根据第一组分数值和/或第二组分数值,确定当前的订单数据对应的手机号码是否为根据识别模型识别出的虚假手机号码。例如,第一分数值的计算公式是:第二分数值的计算公式是:其中,A0=a1×X1+a2×X2+…+aN×XN,B0=b1×X1+b2×X2+…+bN×XN。如果第一分数值小于预设值,和/或,第二分数值大于预设值,则判断出手机号码是根据识别模型识别出的虚假手机号码,否则不是。S14:如果手机号码是根据识别模型识别出的虚假手机号码,对手机号码进行验证,根据验证结果确定手机号码是否是虚假手机号码。例如,如果手机号码A被识别模型识别出是虚假手机号码,之后,参见图2,可以采用人工或预设的自动方式对手机号码A进行验证(S28),如采用拨测验证方式,以最终确定手机号码A是否是虚假手机号码。一些实施例中,上述流程中,对当前的订单数据和历史订单数据进行特征提取时,可以先确定出需要提取的特征,再从当前的订单数据中提取出相应的特征值,作为当前的订 单数据对应的特征值,或者,再从历史订单数据中提取出相应的特征值,作为历史订单数据对应的特征值。如上所述,需要提取的特征包括如下一项或多项维度中的特征:用户、团单、订单。进一步的,参见图3,确定需要提取的特征可以包括:S31:获取待验证的特征的信息增益。例如,原有的系统包括特征A和特征B,在确定特征C是否是需要提取的特征时,可以先获取特征C的信息增益,特征C的信息增益是系统(包括特征A和特征B的系统)的原有熵与增加特征C后的条件熵之间的差值。S32:如果信息增益大于预设的增益阈值,则将待验证的特征作为生成识别模型的特征并生成识别模型。例如,如果特征C的信息增益大于预设的增益阈值,则将特征C也作为一种特征样本,与特征A和特征B共同训练生成识别模型。S33:获取根据生成的识别模型的识别准确率,如果识别准确度大于预设的准确率阈值,则将待验证的特征确定为需要提取的特征。例如,在生成识别模型后,可以对预设数量的订单数据对应的手机号码进行识别并获取识别准确率,如果识别准确率较高,则将特征C确定需要提取的特征。进一步的,如图4所示,根据识别模型进行手机号码识别时的架构可以分为:数据层41、模型层42和服务层43。其中,数据层41为模型训练提供训练数据,例如历史订单数据和相应的特征值,具体的,历史订单数据可以保存在数据层的数据库(如Mysql)中。历史订单数据对应的特征值可以根据维度的不同记录在不同的容器中,例如,交易额,订单总量,优惠金额等记录在上述的数据库中;应用日志中可以记录用户的日志行为特征,包括检索次数,点击次数,转化率等;另外,还可以从第三方数据服务(如,Erised,LBSSoul)等获取其他信息以扩展特征。模型层42,用于在离线时进行模型训练,生成识别模型,以及,在线时,根据识别模型对当前的订单数据进行虚假手机号码的识别。其中,模型训练时可以具体采用最大熵算法。服务层43用于为模型训练提供配置信息,如特征配置和模型配置,以及通过数据对接为在线识别提供当前的订单数据。本实施例中,通过预先生成的识别模型以及验证流程可以识别出虚假手机号码,实现虚假手机号码的识别,保护各方正常权益。图5是本发明另一实施例提出的虚假手机号码的识别装置的结构示意图,该装置50包 括:获取模块51、提取模块52、识别模块53和验证模块54。获取模块51,用于获取当前的订单数据,并获取产生当前的订单数据的用户的手机号码;其中,当前的订单数据例如是用户当前在线产生的订单数据,订单数据中例如包括用户购买的商品的名称、价格等信息。另外,用户在产生订单数据时,可以使用已注册的手机号码进行登录,从而可以获取到相应的手机号码,或者,用户使用已注册的账号进行登录,而数据库中预先关联保存账号与手机号码,从而可以获取到相应的手机号码。提取模块52,用于对当前的订单数据进行特征提取,得到当前的订单数据对应的特征值;可以对当前的订单数据在如下维度中的一项或多项中进行特征提取:用户、团单、订单。其中,每个维度上要提取的特征可以预先确定,每个维度上要提取的特征可以包括一种或多种,多个特征可以组成特征向量。需要提取的特征可以如表1-4所示,在此不再赘述。因此,通过对当前的订单数据,在上述一种或多种维度上,按照预先确定的需要提取的特征进行特征提取,可以获取到相应的特征值,也就是当前的订单数据对应的特征值。识别模块53,用于获取预先生成的识别模型,并根据识别模型和特征值进行识别,判断手机号码是否是根据识别模型识别出的虚假手机号码,其中,识别模型是根据历史订单数据和历史订单数据对应的手机号码是否是虚假手机号码的识别结果得到的;一些实施例中,参见图6,该装置50还包括:建模模块55,用于获取历史订单数据;对历史订单数据进行特征提取,得到历史订单数据对应的特征值;获取历史订单数据对应的手机号码是否是虚假手机号码的识别结果;根据历史订单数据对应的特征值和对应的识别结果进行模型训练,生成识别模型。例如,选择预设时间段内预设数量的历史订单数据作为样本,以进行模型训练。类似当前的订单数据的特征提取流程,可以先确定一个或多个维度上需要提取的特征,再从历史订单数据中提取相应的特征,得到相应的特征值。在获取历史订单数据后,还可以获取相应的手机号码,以及历史上根据预设的验证方式对历史订单数据对应的手机号码进行识别后得到的识别结果。验证方式例如为人工或预设的自动方式等,具体如拨测。一些实施例中,识别模型中记录第一组权重值和/或第二组权重值,第一组权重值是对应正常订单提取出的一组特征对应的权重值,第二组权重值是对应作弊订单提取出的一组 特征对应的权重值,识别模块53具体用于:根据特征值和第一组权重值,计算出第一分数值;和/或,根据特征值和第二组权重值,计算出第二分数值;如果第一分数值小于预设值,和/或,如果第二分数值大于预设值,则判断出手机号码是根据识别模型识别出的虚假手机号码。在获取到历史订单数据对应的特征值,以及历史订单数据对应的手机号码的识别结果后,可以将该特征值和识别结果作为训练样本进行模型训练,生成识别模型。在模型训练时例如采用最大熵模型训练方式。对应一个历史订单数据,假设该历史订单数据对应的手机号码的识别结果是虚假手机号码,则该历史订单可以称为作弊订单,假设该历史订单数据对应的手机号码的识别结果不是虚假手机号码,则该历史订单可以称为正常订单。通过根据作弊订单和正常订单以及对应的特征值进行模型训练,可以分别得到作弊订单时每个特征对应的权重以及正常订单时每个特征对应的权重,假设正常订单时特征对应的权重分别用a1,a2,…,aN表示,作弊订单时特征对应的权重分别用b1,b2,…,bN表示。经过模型训练后,生成的识别模型中可以记录第一组权重值和/或第二组权重值,第一组权重值是对应正常订单提取出的一组特征对应的权重值,如上述的a1,a2,…,aN,第二组权重值是对应作弊订单提取出的一组特征对应的权重值,如上述的b1,b2,…,bN。在识别时,可以根据当前的订单数据对应的一组特征值,假设用X1,X2,…,XN表示,以及识别模型中记录的第一组权重值和/或第二组权重值分别计算出第一分数值和/或第二分数值,再根据第一组分数值和/或第二组分数值,确定当前的订单数据对应的手机号码是否为根据识别模型识别出的虚假手机号码。例如,第一分数值的计算公式是:第二分数值的计算公式是:其中,A0=a1×X1+a2×X2+…+aN×XN,B0=b1×X1+b2×X2+…+bN×XN。如果第一分数值小于预设值,和/或,第二分数值大于预设值,则判断出手机号码是根据识别模型识别出的虚假手机号码,否则不是。验证模块54,用于如果手机号码是根据识别模型识别出的虚假手机号码,对手机号码进行验证,根据验证结果确定手机号码是否是虚假手机号码。例如,如果手机号码A被识别模型识别出是虚假手机号码,之后,可以采用人工或预设的自动方式对手机号码A进行验证,如采用拨测验证方式,以最终确定手机号码A是否是虚假手机号码。一些实施例中,参见图6,该装置50还包括:确定模块56,用于确定需要提取的特征,以便在订单数据中提取需要提取的特征,得到特征值,其中,需要提取的特征包括如下一项或多项维度中的特征:用户、团单、订单。可选的,确定模块56具体用于:获取待验证的特征的信息增益;如果信息增益大于预设的增益阈值,则将待验证的特征作为生成识别模型的特征并生成识别模型;获取根据生成的识别模型的识别准确率,如果识别准确度大于预设的准确率阈值,则将待验证的特征确定为需要提取的特征。例如,原有的系统包括特征A和特征B,在确定特征C是否是需要提取的特征时,可以先获取特征C的信息增益,特征C的信息增益是系统(包括特征A和特征B的系统)的原有熵与增加特征C后的条件熵之间的差值。例如,如果特征C的信息赠与大于预设的增益阈值,则将特征C也作为一种特征样本,与特征A和特征B共同训练生成识别模型。例如,在生成识别模型后,可以对预设数量的订单数据对应的手机号码进行识别并获取识别准确率,如果识别准确率较高,则将特征C确定需要提取的特征。本实施例中,通过预先生成的识别模型以及验证流程可以识别出虚假手机号码,实现虚假手机号码的识别,保护各方正常权益。需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的 实施例所属
技术领域
的技术人员所理解。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。本
技术领域
的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1