用户信息筛选方法、服务器及计算机可读存储介质与流程

文档序号:14303529阅读:163来源:国知局
用户信息筛选方法、服务器及计算机可读存储介质与流程

本发明涉及数据分析及应用技术领域,尤其涉及一种用户信息筛选方法、服务器及计算机可读存储介质。



背景技术:

随着保险行业的日益发展,录入的保单数据也成爆炸式增长。对于每个信息数据库中的保单数据,最初来源基本都是由人工导入进去的,因此,人工导入过程中就无可避免地会产生错误信息。现有技术中虽然有很多数据分析工具可以进行筛选,但都不能精准地对信息数据库中的用户信息数据按正确度来进行分类,也无法精确地筛选出正确度高的用户信息数据。



技术实现要素:

有鉴于此,本发明提出一种用户信息筛选方法、服务器及计算机可读存储介质,以实现快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据。

首先,为实现上述目的,本发明提出一种服务器,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的用户信息筛选程序,所述用户信息筛选程序被所述处理器执行时实现如下步骤:

读取每一条用户信息;根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;根据所述元素的正确概率计算对应的用户信息的正确概率;选择正确概率大于预设概率阈值的用户信息进行正确度分类。

可选地,在所述分别判断所述每一条用户信息中的元素的正确概率步骤之前,还包括步骤:将用户信息分解成至少一个元素;设置所述至少一个元素中的每个元素的组成格式,并根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。

可选地,所述用户信息筛选程序被所述处理器执行时还实现如下步骤:对所述用户信息中的元素分别赋予正确概率权重值;根据每个元素的正确概率以及正确概率权重值,计算所述用户信息的正确概率。

可选地,所述选择正确概率大于预设概率阈值的用户信息进行正确度分类的步骤还包括步骤:设置至少一个概率阈值;将每一条用户信息的正确概率与所述至少一个概率阈值比较,从而得到每一条用户信息的正确度级别。

此外,为实现上述目的,本发明还提供一种用户信息筛选方法,该方法应用于服务器,所述方法包括:

读取每一条用户信息;根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;根据所述元素的正确概率计算对应的用户信息的正确概率;选择正确概率大于预设概率阈值的用户信息进行正确度分类。

可选地,在所述分别判断所述每一条用户信息中的元素的正确概率步骤之前,还包括步骤:将用户信息分解成至少一个元素;设置所述至少一个元素中的每个元素的组成格式,并根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。

可选地,所述的用户信息筛选方法还包括:对所述用户信息中的元素分别赋予正确概率权重值;根据每个元素的正确概率以及对应的正确概率权重值,计算所述用户信息的正确概率。

可选地,所述选择正确概率大于预设概率阈值的用户信息进行正确度分类的步骤还包括步骤:设置至少一个概率阈值;将所述用户信息的正确概率与所述至少一个概率阈值比较,从而得到所述用户信息的正确度级别。

可选地,所述元素包括用户姓名、身份证号码、手机号码、邮箱、标识、编码中的任意一种或多种。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有用户信息筛选程序,所述用户信息筛选程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的用户信息筛选方法的步骤。

相较于现有技术,本发明所提出的用户信息筛选方法、服务器及计算机可读存储介质,可以先判断出构成用户信息的元素的正确概率,然后通过所述元素的正确概率计算对应的用户信息的正确度级别,从而快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据。

附图说明

图1是服务器一可选的硬件架构的示意图;

图2是本发明用户信息筛选程序第一实施例的程序模块示意图;

图3是本发明用户信息筛选程序第二实施例的程序模块示意图;

图4是本发明用户信息筛选方法第一实施例的流程示意图;

图5是本发明用户信息筛选方法第二实施例的流程示意图。

附图标记:

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参阅图1所示,是服务器1一可选的硬件架构的示意图。

所述服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该服务器1可以是独立的服务器,也可以是多个服务器所组成的服务器集群。

本实施例中,所述服务器1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。

所述服务器1通过网络接口13连接网络(图1未标出),获取或传递包括用户信息数据在内的所有资讯。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi、通话网络等无线或有线网络。

需要指出的是,图1仅示出了具有组件11-13的服务器1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器1的内部存储单元,例如该服务器1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器1的外部存储设备,例如该服务器1配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件,例如所述用户信息筛选程序200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的用户信息筛选程序200等。

所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。

本实施例中,所述服务器1内安装并运行有用户信息筛选程序200,当所述用户信息筛选程序200运行时,所述服务器1读取每一条用户信息,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;然后再根据所述元素的正确概率计算对应的用户信息的正确概率,最后选择正确概率大于预设概率阈值的用户信息进行正确度分类。这样,可以快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据,简单高效,节省了人力物力资源。

至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。

首先,本发明提出一种用户信息筛选程序200。

参阅图2所示,是本发明用户信息筛选程序200第一实施例的程序模块图。

本实施例中,所述用户信息筛选程序200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的用户信息筛选操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,用户信息筛选程序200可以被划分为一个或多个模块。例如,在图2中,所述用户信息筛选程序200可以被分割成读取模块201、判断模块202、计算模块203、输出模块204。其中:

所述读取模块201,用于读取每一条用户信息。

具体地,当所述服务器1通过有线或无线的方式与其他电子装置连接时,所述用户信息筛选程序200可以根据用户指令获取所述其他电子装置所存储的用户信息数据;当所述服务器1存储有用户信息数据时,所述用户信息筛选程序200也可以直接获取所述服务器1存储的用户信息数据。

所述判断模块202,用于根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率。

具体地,当所述用户信息包含有多个元素时,可以将每个元素与该元素对应的正确概率的判断规则进行比对,从而判断出该元素的正确概率。

在本实施例中,例如,录入的保单数据中的用户信息一般有很多个栏位,包括的姓名、身份证号码、手机号码、邮箱以及标识和编码。其中一般而言,姓名由姓和名组成,姓包括百家姓,而名则是由1-6个汉字构成;身份证号码则是由18位数字组成,前6位为行政区划分代码,第7位至14位为出生日期码,第15位至17位为顺序码,所有位数字的校验和为一个特定值;手机号码则是由11位数字构成,前3位网络识别号,4-7位是地区编码;邮箱则是由用户名+@+邮件服务器域名组成,用户名是由字母、数字和其他普通字符(例如下划线、加减符号)组成,邮件服务器域名则是通过英特网连接测试能够连接到的服务器域名。因此,所述判断模块202可以将该特征作为用户信息内姓名、身份证号码、手机号码、邮箱等元素的正确概率的判断规则。

具体的,在本实施例中,当用户信息中的元素符合对应的正确概率的判断规则时,所述判断模块202判定所述元素的正确概率为1。当用户信息中的元素不符合对应的正确概率的判断规则时,所述判断模块202判定所述元素的正确概率为小于1的值。例如:就用户信息中姓名这一元素而言,姓名不超过6个汉字,姓包括在百家姓里。当姓是一个不在百家姓中汉字,可判定姓名的正确概率为90%;当姓包括非汉字,可判定姓名的正确概率为30%;当姓名是由超过6个的汉字构成,可判定姓名的正确率为80%;当名是包括非汉字,可判定姓名的正确概率为30%;当姓和名均出现上述一种错误情形,可判定姓名的正确概率为将它们各自导致的正确概率的乘积,例如姓和名均不为汉字,则根据前文可知所述姓名的正确概率为30%*30%=9%。同理,对身份证号码而言,身份证号码应该是18位,且前6位为行政区划分代码,第7位至14位为有效的出生日期码,所有位数字的校验和为一个特定值。当身份证号码包含的数字不等于18个,可判定身份证号码的正确概率为40%;当身份证号码包含的数字刚好18个,且身份正号码的前6位为行政区划分代码,第7位至14位为有效的出生日期码,但所有位数字的校验和不为特定值时,则可判定身份正号码的正确概率为80%;当身份证号码中包含非数字,则可判定身份证号码的正确概率为30%。对手机号码而言,手机号码为11位数字,当前3位网络识别号,4-7位是地区编码。当手机号码是由大于11位数字构成,且当前3位网络识别号,4-7位是地区编码,则可判定所述手机号码的正确概率为80%,当手机号码是由小于11位数字构成,或者手机号码中包含有非数字,则判定手机号码的正确概率为30%。对邮箱而言,邮箱由用户名+@+邮件服务器域名组成,并且用户名有指定字符格式。当邮箱并不是由用户名+@+邮件服务器域名组成,则可判定邮箱的正确概率为30%;当邮箱的用户名除了由字母、数字和其他普通字符(例如下划线、加减符号)组成,还包括其他字符,则可判定邮箱的正确概率为40%;当邮箱的邮件服务器域名通过英特网连接测试不能够连接到服务器域名,则可判定邮箱的正确概率为50%;当邮箱的组成格式或用户名或邮件服务器域名均出现上述错误情形,则可判定邮箱的正确概率为将它们各自导致的正确概率的乘积,例如邮箱的组成格式和用户名出现错误,则根据前文可知,邮箱的正确概率为30%*40%=12%。

因此,所述判断模块203将所述获取模块201获取的每一条用户信息中的元素与该元素对应的判断规则相比对,就可以直接判断出所述元素的正确概率。

例如,当所述读取模块201读取的用户信息中的姓名中的姓是一个不在百家姓中汉字,姓名中的名是由2个的汉字构成,则该姓名的正确率为80%*1=80%。所述用户信息中的身份证号码包含的数字为18个,且当身份正号码的前6位为行政区划分代码,第7位至14位为有效的出生日期码,但是所有位数字的校验和不为特定值,则该身份正号码的正确概率为80%。所述用户信息中的手机号码则是由11位数字构成,前3位网络识别号,4-7位是地区编码,则该手机号码正确概率为1。所述用户信息中的邮箱由用户名+@+邮件服务器域名组成,且邮箱的用户名的组成符合预设的规则,但是通过英特网连接测试不能够连接到的服务器域名,则该邮箱的正确概率为50%。也就是说,所读取的所述用户信息中,姓名正确概率为80%,身份证号码正确概率为80%,手机号码正确概率为1,邮箱正确概率为50%。

所述计算模块203,用于根据所述元素的正确概率计算对应的用户信息的正确概率。

具体地,所述计算模块203对所述判断模块202判断出的所述用户信息中的每个元素分别赋予正确概率权重值,再根据所述每个元素的正确概率以及对应的正确概率权重值计算所述用户信息的正确概率。

在本实施例中,所述计算模块预先设置姓名正确概率权重为0.3,身份证号码正确概率权重为0.3,手机号码正确概率权重为0.2,邮箱正确概率权重为0.2。当所述判断模块202判断出所述用户信息中,姓名正确概率为80%,身份证号码正确概率为80%,手机号码正确概率为1,邮箱正确概率为50%。则所述计算模块可以根据所述设置的每个元素的正确概率权重值,综合各个元素的正确概率计算对应的用户信息的正确概率。具体计算过程为:将每个元素的正确概率分别与对应的正确概率权重值相乘,然后再相加,因此,得到该用户信息的正确概率为:80%*0.3+80%*0.3+1*0.2+50%*0.2=78%。

所述输出模块204,用于选择正确概率大于预设概率阈值的用户信息进行正确度分类。

具体地,所述输出模块204预先设置至少一个概率阈值;然后将所述计算模块203计算出的每一条用户信息的正确概率与所述至少一个概率阈值比较,从而得到每一条用户信息的正确度级别。

在一实施例中,当所述输出模块204设置有一个概率阈值时,所述输出模块204直接将用户信息的正确概率大于或等于该概率阈值的用户信息作为正确的用户信息输出。

在另一实施例中,当所述输出模块204设置有两个概率阈值或者两个以上概率阈值时,所述输出模块204可以分别将用户信息的正确概率分别与所有的概率阈值比较,从而输出一个用户信息的正确度级别。例如:当有两个概率阈值时,所述输出模块204将所述计算模块203计算出的用户信息的正确概率与预设的第一阈值和第二阈值比较,所述第一阈值大于所述第二阈值。当所述用户信息的正确概率大于所述第一阈值,则判断所述用户信息正确度高;当所述用户信息的正确概率大于所述第二阈值并小于所述第一阈值,则判断所述用户信息的正确度较低;当所述用户信息的正确概率小于所述第二阈值,则判断所述用户信息的正确度太低,所述用户信息为错误信息。然后再将所述用户信息的正确度级别以表格、文档、图形或者其他形式输出。

从上文可知,所述服务器1读取每一条用户信息,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;然后再根据所述元素的正确概率计算对应的用户信息的正确概率,最后选择正确概率大于预设概率阈值的用户信息进行正确度分类。这样,可以实现快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据,并提供了正确度参考。

参阅图3所示,是本发明用户信息筛选程序200第二实施例的程序模块图。本实施例中,所述的用户信息筛选程序200除了包括第一实施例中的所述读取模块201、判断模块202、计算模块203、输出模块204之外,还包括分解模块205,和设置模块206。

所述读取模块201、判断模块202、计算模块203以及所述输出模块204与所述用户信息筛选程序200第一实施例中的对应的程序模块功能相同。这里不再赘述。由于有时候录入的用户信息数据并未将用户信息分解成元素并分别保存到特定的栏位。因此,在所述读取模块201读取到用户信息之后,在所述判断模块203判断用户信息中元素的正确概率之前,还需要分解模块205和设置模块206进行处理。

所述分解模块205用于将用户信息分解成至少一个元素。

具体地,所述分解模块205先根据用户信息所包含的内容,如“姓名”、“手机”“身份”“邮箱”等字眼,将该用户信息分解成包括姓名、手机号码、身份证号码、邮箱等元素。在本实施例中,由于文字识别是比较常用的技术手段,因此所述分解模块205可以直接识别用户信息中的具特征性的内容,而根据所述具特征性的内容将用户信息分解成元素,则需要将每条用户信息中均包括所述具特征性的内容时,才将该内容作为所述用户信息的元素分解出来。

所述设置模块206用于设置所述至少一个元素中的每个元素的组成格式,并根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。

具体的,当所述分解模块205将所述用户信息分解成至少一个元素之后,所述设置模块206可以根据所述元素的特征,设置每个元素的组成格式,然后根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。例如,当所述分解模块205将用户信息分解为姓名、身份证号码、手机号码、邮箱等元素之后,所述设置模块206首先根据姓名、身份证号码、手机号码、邮箱的特征设置每个元素的组成格式,如姓名由姓和名组成,姓包括百家姓,而名则是由1-6个汉字构成;身份证号码则是由18位数字组成,前6位为行政区划分代码,第7位至14位为出生日期码,第15位至17位为顺序码,所有位数字的校验和为一个特定值;手机号码则是由11位数字构成,前3位网络识别号,4-7位是地区编码,8-11位是用户号码;邮箱则是由用户名+@+邮件服务器域名组成,用户名是由字母、数字和其他普通字符(例如下划线、加减符号)组成,邮件服务器域名则是通过英特网连接测试能够连接到的服务器域名。

所述设置模块206还会根据各个元素的组成格式,设置元素的正确概率的判断规则。例如:就用户信息中姓名这一元素而言,姓名不超过6个汉字,姓包括在百家姓里。当姓是一个不在百家姓中汉字,可判定姓名的正确概率为90%;当姓包括非汉字,可判定姓名的正确概率为30%;当姓名是由超过6个的汉字构成,可判定姓名的正确率为80%;当名是包括非汉字,可判定姓名的正确概率为30%;当姓和名均出现上述一种错误情形,可判定姓名的正确概率为将它们各自导致的正确概率的乘积,例如姓和名均不为汉字,则根据前文可知所述姓名的正确概率为30%*30%=9%。同理,对身份证号码而言,身份证号码应该是18位,且前6位为行政区划分代码,第7位至14位为有效的出生日期码,所有位数字的校验和为一个特定值。当身份证号码包含的数字不等于18个,可判定身份证号码的正确概率为40%;当身份证号码包含的数字刚好18个,且身份正号码的前6位为行政区划分代码,第7位至14位为有效的出生日期码,但所有位数字的校验和不为特定值时,则可判定身份正号码的正确概率为80%;当身份证号码中包含非数字,则可判定身份证号码的正确概率为30%。对手机号码而言,手机号码为11位数字,当前3位网络识别号,4-7位是地区编码。当手机号码是由大于11位数字构成,且当前3位网络识别号,4-7位是地区编码,则可判定所述手机号码的正确概率为80%,当手机号码是由小于11位数字构成,或者手机号码中包含有非数字,则判定手机号码的正确概率为30%。对邮箱而言,邮箱由用户名+@+邮件服务器域名组成,并且用户名有指定字符格式。当邮箱并不是由用户名+@+邮件服务器域名组成,则可判定邮箱的正确概率为30%;当邮箱的用户名除了由字母、数字和其他普通字符(例如下划线、加减符号)组成,还包括其他字符,则可判定邮箱的正确概率为40%;当邮箱的邮件服务器域名通过英特网连接测试不能够连接到服务器域名,则可判定邮箱的正确概率为50%;当邮箱的组成格式或用户名或邮件服务器域名均出现上述错误情形,则可判定邮箱的正确概率为将它们各自导致的正确概率的乘积,例如邮箱的组成格式和用户名出现错误,则根据前文可知,邮箱的正确概率为30%*40%=12%。也就是说,所述服务器1读取每一条用户信息,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;然后再根据所述元素的正确概率计算对应的用户信息的正确概率,最后选择正确概率大于预设概率阈值的用户信息进行正确度分类。这样,可以实现智能、快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据,并提供了正确度参考。

此外,本发明还提出一种用户信息筛选方法。

参阅图4所示,是本发明用户信息筛选方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。

步骤s500,读取每一条用户信息。

具体地,当所述服务器1通过有线或无线的方式与其他电子装置连接时,可以根据用户指令读取所述其他电子装置所存储的用户信息数据;当所述服务器1存储有用户信息数据时,也可以直接读取所述服务器1存储的用户信息数据。

步骤s502,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率。

具体地,当所述用户信息包含有多个元素时,可以将每个元素与该元素对应的正确概率的判断规则进行比对,从而判断出该元素的正确概率。

在本实施例中,例如,录入的保单数据中的用户信息一般有很多个栏位,包括的姓名、身份证号码、手机号码、邮箱以及标识和编码。其中一般而言,姓名由姓和名组成,姓包括百家姓,而名则是由1-6个汉字构成;身份证号码则是由18位数字组成,前6位为行政区划分代码,第7位至14位为出生日期码,第15位至17位为顺序码,所有位数字的校验和为一个特定值;手机号码则是由11位数字构成,前3位网络识别号,4-7位是地区编码;邮箱则是由用户名+@+邮件服务器域名组成,用户名是由字母、数字和其他普通字符(例如下划线、加减符号)组成,邮件服务器域名则是通过英特网连接测试能够连接到的服务器域名。因此,可以将该特征作为用户信息内姓名、身份证号码、手机号码、邮箱等元素的正确概率的判断规则。

具体的,在本实施例中,当用户信息中的元素符合对应的正确概率的判断规则时,判定所述元素的正确概率为1。当用户信息中的元素不符合对应的正确概率的判断规则时,判定所述元素的正确概率为小于1的值。例如:就用户信息中姓名这一元素而言,姓名不超过6个汉字,姓包括在百家姓里。当姓是一个不在百家姓中汉字,可判定姓名的正确概率为90%;当姓包括非汉字,可判定姓名的正确概率为30%;当姓名是由超过6个的汉字构成,可判定姓名的正确率为80%;当名是包括非汉字,可判定姓名的正确概率为30%;当姓和名均出现上述一种错误情形,可判定姓名的正确概率为将它们各自导致的正确概率的乘积,例如姓和名均不为汉字,则根据前文可知所述姓名的正确概率为30%*30%=9%。同理,对身份证号码而言,身份证号码应该是18位,且前6位为行政区划分代码,第7位至14位为有效的出生日期码,所有位数字的校验和为一个特定值。当身份证号码包含的数字不等于18个,可判定身份证号码的正确概率为40%;当身份证号码包含的数字刚好18个,且身份正号码的前6位为行政区划分代码,第7位至14位为有效的出生日期码,但所有位数字的校验和不为特定值时,则可判定身份正号码的正确概率为80%;当身份证号码中包含非数字,则可判定身份证号码的正确概率为30%。对手机号码而言,手机号码为11位数字,当前3位网络识别号,4-7位是地区编码。当手机号码是由大于11位数字构成,且当前3位网络识别号,4-7位是地区编码,则可判定所述手机号码的正确概率为80%,当手机号码是由小于11位数字构成,或者手机号码中包含有非数字,则判定手机号码的正确概率为30%。对邮箱而言,邮箱由用户名+@+邮件服务器域名组成,并且用户名有指定字符格式。当邮箱并不是由用户名+@+邮件服务器域名组成,则可判定邮箱的正确概率为30%;当邮箱的用户名除了由字母、数字和其他普通字符(例如下划线、加减符号)组成,还包括其他字符,则可判定邮箱的正确概率为40%;当邮箱的邮件服务器域名通过英特网连接测试不能够连接到服务器域名,则可判定邮箱的正确概率为50%;当邮箱的组成格式或用户名或邮件服务器域名均出现上述错误情形,则可判定邮箱的正确概率为将它们各自导致的正确概率的乘积,例如邮箱的组成格式和用户名出现错误,则根据前文可知,邮箱的正确概率为30%*40%=12%。因此,将读取的每一条用户信息中的元素与该元素对应的判断规则相比对,就可以直接判断出所述元素的正确概率。

步骤s504,根据所述元素的正确概率计算对应的用户信息的正确概率。

具体地,对所述用户信息中的每个元素分别赋予正确概率权重值,再根据所述每个元素的正确概率以及对应的正确概率权重值计算所述用户信息的正确概率。具体计算过程为:将每个元素的正确概率分别与对应的正确概率权重值相乘,然后再相加,从而得到该用户信息的正确概率。

例如,姓名正确概率权重为0.3,身份证号码正确概率权重为0.3,手机号码正确概率权重为0.2,邮箱正确概率权重为0.2。当所述用户信息中,姓名正确概率为80%,身份证号码正确概率为80%,手机号码正确概率为1,邮箱正确概率为50%。则该用户信息的正确概率为:80%*0.3+80%*0.3+1*0.2+50%*0.2=78%。

步骤s506,选择正确概率大于预设概率阈值的用户信息进行正确度分类。

具体地,预先设置至少一个概率阈值;然后将计算出的每一条用户信息的正确概率与所述至少一个概率阈值比较,从而得到每一条用户信息的正确度级别。

在一实施例中,当设置有一个概率阈值时,直接将用户信息的正确概率大于或等于该概率阈值的用户信息作为正确的用户信息输出。

在另一实施例中,当设置有两个概率阈值或者两个以上概率阈值时,可以分别将用户信息的正确概率分别与所有的概率阈值比较,从而输出一个用户信息的正确度级别。例如:当有两个概率阈值时,将所述用户信息的正确概率与预设的第一阈值和第二阈值比较,所述第一阈值大于所述第二阈值。当所述用户信息的正确概率大于所述第一阈值,则判断所述用户信息正确度高;当所述用户信息的正确概率大于所述第二阈值并小于所述第一阈值,则判断所述用户信息的正确度较低;当所述用户信息的正确概率小于所述第二阈值,则判断所述用户信息的正确度太低,所述用户信息为错误信息。然后再将所述用户信息的正确度级别以表格、文档、图形或者其他形式输出。

本实施例所提出的用户信息筛选方法,可以在读取每一条用户信息,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;然后再根据所述元素的正确概率计算对应的用户信息的正确概率,最后选择正确概率大于预设概率阈值的用户信息进行正确度分类。这样,可以实现快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据,并提供了正确度参考。

如图5所示,是本发明用户信息筛选方法的第二实施例的流程示意图。本实施例中,所述用户信息筛选方法的步骤s600-s606与第一实施例的步骤s500-s506相类似,区别在于该方法还包括步骤s608-s610。

由于有时候录入的用户信息数据并未将用户信息分解成元素并分别保存到特定的栏位。因此,在步骤600之后,步骤602之前,还需要有步骤s608-s610。其中:

步骤s608,将用户信息分解成至少一个元素。

具体地,先根据用户信息所包含的内容,如“姓名”、“手机”“身份”“邮箱”等字眼,将该用户信息分解成包括姓名、手机号码、身份证号码、邮箱等元素。在本实施例中,由于文字识别是比较常用的技术手段,因此可以直接识别用户信息中的具特征性的内容,而根据所述具特征性的内容将用户信息分解成元素,则需要将每条用户信息中均包括所述具特征性的内容时,才将该内容作为所述用户信息的元素分解出来。

步骤s610,设置所述至少一个元素中的每个元素的组成格式,并根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。

具体地,当将所述用户信息分解成至少一个元素之后,可以根据所述元素的特征,设置每个元素的组成格式,然后根据所述每个元素的组成格式,设置所述每个元素的正确概率的判断规则。

例如,当将用户信息分解为姓名、身份证号码、手机号码、邮箱等元素之后,可以根据姓名、身份证号码、手机号码、邮箱的特征设置每个元素的组成格式,如姓名由姓和名组成,姓包括百家姓,而名则是由1-6个汉字构成;身份证号码则是由18位数字组成,前6位为行政区划分代码,第7位至14位为出生日期码,第15位至17位为顺序码,所有位数字的校验和为一个特定值;手机号码则是由11位数字构成,前3位网络识别号,4-7位是地区编码,8-11位是用户号码;邮箱则是由用户名+@+邮件服务器域名组成,用户名是由字母、数字和其他普通字符(例如下划线、加减符号)组成,邮件服务器域名则是通过英特网连接测试能够连接到的服务器域名。

然后再根据各个元素的组成格式,设置元素的正确概率的判断规则。例如:就用户信息中姓名这一元素而言,姓名不超过6个汉字,姓包括在百家姓里。当姓是一个不在百家姓中汉字,可判定姓名的正确概率为90%;当姓包括非汉字,可判定姓名的正确概率为30%;当姓名是由超过6个的汉字构成,可判定姓名的正确率为80%;当名是包括非汉字,可判定姓名的正确概率为30%;当姓和名均出现上述一种错误情形,可判定姓名的正确概率为将它们各自导致的正确概率的乘积,例如姓和名均不为汉字,则根据前文可知所述姓名的正确概率为30%*30%=9%。同理,对身份证号码而言,身份证号码应该是18位,且前6位为行政区划分代码,第7位至14位为有效的出生日期码,所有位数字的校验和为一个特定值。当身份证号码包含的数字不等于18个,可判定身份证号码的正确概率为40%;当身份证号码包含的数字刚好18个,且身份正号码的前6位为行政区划分代码,第7位至14位为有效的出生日期码,但所有位数字的校验和不为特定值时,则可判定身份正号码的正确概率为80%;当身份证号码中包含非数字,则可判定身份证号码的正确概率为30%。对手机号码而言,手机号码为11位数字,当前3位网络识别号,4-7位是地区编码。当手机号码是由大于11位数字构成,且当前3位网络识别号,4-7位是地区编码,则可判定所述手机号码的正确概率为80%,当手机号码是由小于11位数字构成,或者手机号码中包含有非数字,则判定手机号码的正确概率为30%。对邮箱而言,邮箱由用户名+@+邮件服务器域名组成,并且用户名有指定字符格式。当邮箱并不是由用户名+@+邮件服务器域名组成,则可判定邮箱的正确概率为30%;当邮箱的用户名除了由字母、数字和其他普通字符(例如下划线、加减符号)组成,还包括其他字符,则可判定邮箱的正确概率为40%;当邮箱的邮件服务器域名通过英特网连接测试不能够连接到服务器域名,则可判定邮箱的正确概率为50%;当邮箱的组成格式或用户名或邮件服务器域名均出现上述错误情形,则可判定邮箱的正确概率为将它们各自导致的正确概率的乘积,例如邮箱的组成格式和用户名出现错误,则根据前文可知,邮箱的正确概率为30%*40%=12%。

本实施例所提出的用户信息筛选方法,可以在读取每一条用户信息,根据预设的判断规则分别判断所述每一条用户信息中的元素的正确概率;然后再根据所述元素的正确概率计算对应的用户信息的正确概率,最后选择正确概率大于预设概率阈值的用户信息进行正确度分类。这样,可以实现智能、快速、正确地从庞杂的信息数据库中筛选出全面而又精确的用户信息数据,并提供了正确度参考。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1