一种识别用户所属地区的方法及装置与流程

文档序号:11234089阅读:740来源:国知局
一种识别用户所属地区的方法及装置与流程
本申请涉及计算机
技术领域
,尤其涉及一种识别用户所属地区的方法及装置。
背景技术
:随着社会的不断发展,电子邮箱已经成为人们进行信息交流的重要方式,并且在实际应用中,人们除了能够通过电子邮箱进行信息交流,还可以使用电子邮箱注册其他网站的账号,从而使用该网站中所提供的服务,如,使用电子邮箱注册论坛的账号,从而在论坛内进行相互交流,目前,网站为了更好的为用户提供服务,通常需要知道该用户是哪个地区的,这样可以针对不同地区的用户,提供相应的服务,如,为不同国家的用户提供天气服务。由于用户通常都是在自己国家的电子邮箱网站上注册并使用的,因此,在现有技术中,主要通过电子邮箱(如,xxx@163.com)来确定电子邮箱所属的国家,进而确定用户所属的国家,具体有两种实施方式:第一种:服务器在获取到某一用户的电子邮箱后,直接根据电子邮箱中的后缀(也就是@后面的字符部分,如,xxx@hotmail.fr中hotmail.fr就是后缀),确定出该电子邮箱的用户所属的国家(如,由于xxx@hotmail.fr中fr代表该电子邮箱来自法国,因此,可以确定出该电子邮箱的用户的来自法国)。第二种:服务器预先统计出不同类型的电子邮箱的提供商所提供的区域服务,也就是说,每个电子邮箱的提供商,他们所提供的区域服务通常是有一定地理范围的,如,xxx@163.com的提供商只在中国提供区域服务,而@hotmail的提供商则在全世界提供区域服务。显然,可以看出第一种方式对于电子邮箱的后缀中没有包含指明地区(如,国家)的字符符号时,则无法通过这个方式来确定电子邮箱所属的地区,从而就无法确定用户所属的地区。第二种方式对于电子邮箱的提供商所提供的区域服务涉及多个地区时(如,hotmail,gmail等国际性电子邮箱的提供商是在全世界各个国家都提供区域服务的),则无法通过这个方式来确定电子邮箱所属的地区(如,国家),从而就无法确定用户所属的地区。技术实现要素:本申请实施例提供一种识别用户所属地区的方法及装置,用以解决现有技术中对于电子邮箱的后缀中没有包含指明地区(如,国家)的字符符号或电子邮箱的提供商所提供的区域服务涉及多个地区的情况下,无法通过电子邮箱识别出用户所属的地区的问题。本申请实施例提供的一种识别用户所属地区的方法,所述方法包括:获取用户的电子邮箱;将所述电子邮箱拆分成前缀信息与后缀信息;针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率;根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率;根据各最终判断概率,识别所述用户所属的地区。本申请实施例提供的一种识别用户所属地区的装置,所述装置包括:获取模块,用于获取用户的电子邮箱;拆分模块,用于将所述电子邮箱拆分成前缀信息与后缀信息;第一确定模块,用于针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率;第二确定模块,用于根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率;识别模块,用于根据各最终判断概率,识别所述用户所属的地区。本申请实施例提供一种识别用户所属地区的方法及装置,该方法由服务器获取用户的电子邮箱,将该电子邮箱拆分成前缀信息与后缀信息,针对每个地区,确定该前缀信息出现在该地区的前缀判断概率,确定该后缀信息出现在该地区的后缀判断概率,根据每个地区对应的前缀判断概率和后缀判断概率,确定该电子邮箱属于每个地区的最终判断概率,根据各最终判断概率,识别该用户所属的地区。通过上述方法,即使电子邮箱的后缀中没有包含指明地区(如,国家)的字符符号或电子邮箱的提供商所提供的区域服务涉及多个地区,也可以通过电子邮箱有效的识别出用户所属的地区。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的识别用户所属地区的过程;图2为本申请实施例提供的识别用户所属地区的装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的识别用户所属地区的过程,具体包括以下步骤:s101:获取用户的电子邮箱。在实际应用中,由于用户通常都是在自己地区的电子邮箱网站上注册并使用电子邮箱的,因此,网站通常通过电子邮箱(如,ok@163.com)来确定电子所属的地区,进而确定出用户所属的地区,以便于针对不同地区的用户,提供相应的服务。在确定用户所属的地区的整个过程中,本申请首先需要获取用户的电子邮箱,而获取用户的电子邮箱可以由服务器完成的,也可以由其他具有数据处理功能的设备完成的。在此需要说明的是,在本申请中,地区可以指的是省市县,也可以指的是国家,为了更清晰的阐明本申请的具体实施步骤,本申请以下以地区为国家进行详细说明。例如,假设某网站需要知道用户a是哪个国家的,因此,该网站的服务器获取该用户a的电子邮箱aabaaab@hotmail.com。s102:将所述电子邮箱拆分成前缀信息与后缀信息。由于电子邮箱的组成通常都是xxx@yyy(在本申请中,@前面的xxx称之为前缀信息,而@后面的yyy称之为后缀信息)这种格式的,而用户在注册电子邮箱的时候,前缀信息通常都是自己定义的,后缀信息是电子邮箱的提供商设定的,因此,为了提高识别电子邮箱所属的地区(如,国家),进而识别出用户所属的地区的准确率,在本申请中,采用的是将前缀信息和后缀信息分别进行处理的方式。因此,服务器在获取到用户的电子邮箱后,将电子邮箱进行拆分,拆分成前缀信息与后缀信息。沿用上例,服务器在接收到用户a的电子邮箱aabaaab@hotmail.com后,将电子邮箱aabaaab@hotmail.com拆分成aabaaab(即,前缀信息)与hotmail.com(即,后缀信息)。s103:针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率。由于每个地区(如,国家)的思维方式、生活习惯以及社会文化都不太一样,因此,不同地区的人在注册电子邮箱时,同一个前缀信息出现在不同地区的可能性是不同的,也就是说,中国的用户在注册电子邮箱时所定义的前缀信息,通常都使用自己的中文名字拼音,而美国的用户在注册电子邮箱时所定义的前缀信息,通常也使用自己的英文名字字母,由于中文名字和英文名字存在着不小的差异,因此,当前缀信息为中文名字拼音时,该用户所属的国家为中国的可能性较大,当然也有外国的用户的电子邮箱中包含的前缀信息有可能是中文名字拼音,因此,在本申请中,采用前缀判断概率来表示前缀信息出现在该地区(如,国家)的可能性的大小,前缀判断概率越大,则说明前缀信息出现在该地区的可能性越大,前缀判断概率越小,则说明前缀信息出现在该地区的可能性越小。另外,如果只考虑前缀信息而不考虑后缀信息,其实前缀信息出现在该地区(如,国家)的可能性的大小也就是该前缀信息对应的电子邮箱属于该地区的可能性的大小,前缀判断概率越大,则说明前缀信息对应的电子邮箱属于该地区的可能性越大,前缀判断概率越小,则说明前缀信息对应电子邮箱属于该地区的可能性越小。进一步的,本申请提供了针对每个地区,确定前缀信息出现在该地区的前缀判断概率,具体实施方式如下:针对每个地区,将该前缀信息拆分成若干个字符串,在预先针对该地区建立的前缀概率表中,确定出每个字符串出现在该地区的概率,根据每个字符串出现在该地区的概率,以及贝叶斯公式,确定所述前缀信息出现在该地区的前缀判断概率。其中,在将该前缀信息拆分成若干个字符串的过程中,拆分出的字符串包含的字符串的数量与预先针对该地区建立的前缀概率表中的字符串中包含的字符数量相等,与此同时,本申请提供了一种拆分方式是n元拆分(n为预先针对该地区建立的前缀概率表中的字符串中包含的字符数量,且大于等于1并小于前缀信息中包含的字符数量的正整数,),即,按照预先针对该地区建立的前缀概率表中的字符串中包含的字符数量(如,n个),针对字符串中的每个字符,将与该字符紧挨着的后面连续n个字符组合成一个字符串。另外,本申请在根据每个字符串出现在该地区的概率,以及贝叶斯公式,确定所述前缀信息出现在该地区的前缀判断概率的过程中,也提供了具体的计算方式,具体为:根据每个字符串出现在该地区的概率,确定出在给定该地区的情况下,该前缀信息出现在该地区的概率,进而根据公式确定出前缀信息出现在地区i的前缀判断概率,其中,p地区i|前缀)表示在给定前缀信息的情况下,前缀信息出现在地区i的前缀判断概率,p前缀|地区i)表示在给定地区i的情况下,在该地区i中出现前缀信息的概率,p地区i)表示前缀信息出现在地区i的经验概率,表示每个地区的p前缀|地区i)与该地区的p地区i)的乘积之和。在此需要说明的是,p地区i)表示前缀信息出现在地区i的经验概率的计算方式具体为,在已知的大量历史电子邮箱前缀信息里面,确定出属于地区i的电子邮箱前缀信息所占有的频率,也即经验概率。沿用上例,为了方便的阐述本申请的实施方案,在此例子中,只以两个国家为例进行说明(也就是说,只有这两个国家的用户使用电子邮箱,实际上只要是使用电子邮箱的国家都需要建立该国家对应的前缀概率表),假设预先针对美国建立的前缀概率表如表1所示:表1预先针对英国建立的前缀概率表如表2所示:前缀信息前缀判断概率aaa0.5/1aab0.5/1aba1/3abb2/3baa0.5/2.5bab2/2.5bba2/2.5bbb0.5/2.5表2服务器按照预先针对美国建立的前缀概率表中的字符串中包含的字符数量,按照上述介绍的n元拆分方式,即,三元拆分方式,将aabaaab(即,前缀信息)拆分成五个字符串“aab”、“aba”、“baa”、“aaa”、“aab”,根据表1中确定出每个字符串出现在美国的概率如表3所示:字符串字符串出现在美国的概率aab2/3aba3/4baa1/3aaa1/3aab2/3表3服务器根据表3,确定出在给定美国的情况下,该前缀信息出现在美国的概率为0.0370,即,p前缀|美国)=0.0370。同样的,服务器根据表2确定出每个字符串出现在英国的概率如表4所示:字符串字符串出现在美国的概率aab0.5/1aba1/3baa0.5/2.5aaa0.5/1aab0.5/1表4服务器根据表4,确定出在给定英国的情况下,该前缀信息出现在英国的概率为0.0083,即,p前缀|英国)=0.0083。假设前缀信息出现在美国的经验概率为3/5,即p美国)=3/5,前缀信息出现在美国的经验概率为2/5,即p英国)=2/5,服务器通过上述提到公式确定出前缀信息出现在美国的前缀判断概率为0.87,即p美国|前缀)=0.87,确定出前缀信息出现在英国的前缀判断概率为0.13,即p英国|前缀)=0.13。以上是针对每个地区,确定前缀信息出现在该地区的前缀判断概率的过程,由于本申请时对前缀信息和后缀信息分别进行处理的,因此,下面介绍本申请中对后缀信息的处理过程。同样是由于每个地区(如,国家)的思维方式、生活习惯以及社会文化都不太一样,因此,对于某一种类型的后缀信息而言,每个地区(如,国家)注册并使用该类型的后缀信息对应的电子邮箱人数通常是有差异的,也就是说,有的地区使用该类型的后缀信息对应的电子邮箱的人数较多,有的地区使用该类型的后缀信息对应的电子邮箱的人数较少,因此,在本申请中,可以采用后缀判断概率来表示后缀信息出现在该地区的可能性大小,后缀判断概率越大,则说明后缀信息出现在该地区的可能性越大,后缀判断概率越小,则说明后缀信息出现在该地区的可能性越小。同样的,如果只考虑后缀信息而不考虑前缀信息,其实后缀信息出现在该地区(如,国家)的可能性的大小也就是该后缀信息对应的电子邮箱属于该地区的可能性的大小,后缀判断概率越大,则说明后缀信息对应的电子邮箱属于该地区的可能性越大,后缀判断概率越小,则说明后缀信息对应电子邮箱属于该地区的可能性越小。进一步的,本申请提供了针对每个地区,确定后缀信息出现在该地区的后缀判断概率,具体实施方式如下:针对每个地区,在预先针对该地区建立的后缀概率表中,确定该后缀信息出现在该地区的后缀判断概率。在此需要说明的是,对于上述确定前缀判断概率的方式并不是唯一的,只要能够确定出的结果能够反映出前缀信息出现在该地区(如,国家)的可能性的大小即可,如,采用字符串相似度的判断方式来确定前缀判断概率,也就是说,针对每个地区,计算并选取前缀信息与预先建立的该地区对应的标准字符串中相似度最大的,再将相似度作为每个地区的前缀判断概率。同样的对于上述确定后缀判断概率的方式也并不是唯一的,在此不再一一赘述。沿用上例,假设预先针对美国建立的后缀概率表如表5所示:后缀信息后缀判断概率gmail.com2/3hotmail.com1/2表5预先针对英国建立的后缀概率表如表6所示:后缀信息后缀判断概率gmail.com1/3hotmail.com1/2表6服务器针对拆分出的hotmail.com,根据表5确定出该后缀信息出现在美国的后缀判断概率1/2,即,p美国|后缀)=1/2,根据表6确定出该后缀信息出现在英国的后缀判断概率1/2,即,p英国|后缀)=1/2。s104:根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率。由于电子邮箱是前缀信息和后缀信息共同组成的,因此,前缀信息和后缀信息共同决定了电子邮箱属于哪个地区,也就是说,前缀判断概率和后缀判断概率共同决定了电子邮箱属于哪个地区。因此,在本申请中,服务器在确定出每个地区对应的前缀判断概率和后缀判断概率后,可直接确定出前缀信息以及后缀信息共同对应的电子邮箱属于每个地区的最终判断概率,所述最终判断概率表示该电子邮箱属于每个地区的可能性的大小,针对每个地区,最终判断概率越大,则说明该电子邮箱属于该地区的可能性越大,最终判断概率越小,则说明该电子邮箱属于该地区的可能性越小。另外,本申请还提供了确定前缀信息和后缀信息共同对应的电子邮箱属于每个地区的最终判断概率具体计算方式:通过公式p=p(地区i|前缀)*p(地区i|后缀)/p(地区i),确定出所述电子邮箱属于每个地区的最终判断概率;其中:p表示所述电子邮箱属于地区i的最终判断概率,p(地区i|前缀)表示所述前缀信息出现在地区i前缀判断概率,p(地区i|后缀)表示所述后缀信息出现在地区i的后缀判断概率,p(地区i)表示所述电子邮箱属于地区i的经验概率。延用上例,服务器在确定出美国对应的前缀判断概率和后缀判断概率后,根据步骤s104中提到的公式,确定出用户a的电子邮箱aabaaab@hotmail.com属于美国的最终判断概率0.725,同样的,服务器确定出用户a的电子邮箱aabaaab@hotmail.com属于英国的最终判断概率0.1625。s105:根据各最终判断概率,识别所述用户所属的地区。服务器在确定出该用户的电子邮箱属于每个地区(如,国家)的最终判断概率后,将各最终判断概率中最大的最终判断概率对应的地区,识别为该用户的电子邮箱的归属地,另外,由于用户通常都是在自己地区的电子邮箱网站上注册并使用电子邮箱的,因此,将识别为该用户的电子邮箱的归属地的地区,作为该用户所属的地区。延用上例,服务器在确定出用户a的电子邮箱aabaaab@hotmail.com属于美国的最终判断概率0.1625以及用户a的电子邮箱aabaaab@hotmail.com属于美国的最终判断概率0.725后,将美国识别为该用户a的电子邮箱的归属地,后续,将美国作为该用户a所属的地区。通过上述方法,即使电子邮箱的后缀中没有包含指明地区(如,国家)的字符符号或电子邮箱的提供商所提供的区域服务涉及多个地区,也可以通过电子邮箱有效的识别出用户所属的地区。在此需要说明的是,在针对每个地区,确定电子邮箱的后缀信息出现在该地区的后缀判断概率的过程中,对于后缀信息里包含有指明地区(如,国家)的字符符号时,则可以直接确定后缀信息出现在该地区的后缀判断概率为1,后缀信息出现在其他地区的后缀判断概率为0。另外,本申请提供了在步骤s103中涉及到的预先针对该地区建立的前缀概率表的具体建立方式,具体如下:预先获取已知所属地区的各样本邮箱,提取各样本邮箱中的样本前缀信息,将提取的各样本前缀信息拆分成若干个字符串,针对由样本前缀信息拆分出的每个字符串,提取该字符串的前序字符,确定该字符串出现在该地区的次数与该字符串的前序字符出现在该地区的次数的比值,作为该字符串出现在该地区的概率,根据针对由样本前缀信息拆分出的每个字符串统计出的概率,建立该地区对应的前缀概率表。在此需要说明的是,假设是采用n元拆分来将提取的各样本前缀信息拆分成若干个字符串,则在提取每个字符串的前序字符时,是从该字符串中位于最前端的字符开始提取连续(n-1)个字符,作为提取该字符串的前序字符。例如,针对上述步骤s101~s105中的例子而言,假设服务器获取到已知所属国家为美国的各样本邮箱,提取各样本邮箱中的样本前缀信息,并将提取的各样本前缀信息按照三元拆分方式,拆分成若干个字符串,确定每种类型的字符串出现在美国的次数,如表7所示:字符串次数aaa1aab2aba3abb1baa1bab2bbb1表7服务器再提取各字符串的前两位的字符(即,前序字符),确定出每种类型的前序字符出现在美国的次数,如表8所示:字符串次数aa3ab4ba3bb1表8服务器确定该字符串出现在美国的次数与该字符串的前序字符出现在美国的次数的比值(也即,该字符串出现在美国的概率),并根据确定出的各比值建立美国对应的前缀概率表如表1所示。同样的,服务器确定每种类型的字符串出现在英国的次数,如表9所示:表9服务器再提取各字符串的前两位的字符(即,前序字符),确定出每种类型的前序字符出现在英国的次数,如表10所示:字符串次数ab3ba2bb2表10服务器确定该字符串出现在英国的次数与该字符串的前序字符出现在英国的次数的比值(也即,该字符串出现在英国的概率),并根据确定出的各比值建立英国对应的前缀概率表如表2所示。另外,本申请还提供了另一种预先建立每个地区对应的前缀概率表的方式,具体如下:预先获取已知各所属地区的各样本邮箱,提取各样本邮箱中的样本前缀信息,将提取的各样本前缀信息按(n-1)元拆分方式拆分成若干个转移字符串,针对由样本前缀信息拆分出的每个转移字符串,将各转移字符串组成每个地区对应的转移次数矩阵,根据每个地区对应的转移次数矩阵,确定每个地区对应的转移概率矩阵,根据转移概率矩阵,建立每个地区对应的前缀概率表,其中,所述转移字符串包含的字符数量比步骤s103中涉及到的字符串包含的字符数量少一个字符。例如,针对上述步骤s101~s105中的例子而言,假设服务器获取到已知所属国家为美国和英国的各样本邮箱,提取各样本邮箱中的样本前缀信息,并将提取的各样本前缀信息按照二元拆分方式,拆分成若干个转移字符串,针对由样本前缀信息拆分出的每个转移字符串,将各转移字符串组成美国对应的转移次数矩阵,如表11所示:表11服务器根据表11确定出美国对应的转移概率矩阵,如表12所示:aaabbabbaa1/32/300ab003/41/4ba1/32/300bb000.5/1.50.5/2.5表12服务器根据表12建立美国对应的前缀概率表,如表1所示。同样的,服务器针对由样本前缀信息拆分出的每个转移字符串,将各转移字符串组成英国对应的转移次数矩阵,如表13所示:aaabbabbaa0000ab0012ba0200bb0020表13服务器根据表13确定出英国对应的转移概率矩阵,如表14所示:aaabbabbaa0.5/10.5/100ab001/32/3ba0.5/2.52/2.500bb002/2.50.5/2.5表14服务器根据表14建立英国对应的前缀概率表,如表2所示。在此需要说明的是,上述根据转移次数矩阵确定每个地区对应的转移概率矩阵的过程中,对于转移次数矩阵中所有为0的项,如果该0所处行的转移字符串的后(n-2)位与该0所处列的转移字符串前(n-2)位相同,则该0次以0.5次计算,如果该0所处行的转移字符串的后(n-2)位与该0所处列的转移字符串的前(n-2)位不同,则该0次依然按0次计算,如,在表13中,位于第二行第三列项的0,该0所处行的转移字符串aa的后一位a与该0所处列的转移字符串ab的前一位a相同,则该0次以0.5次计算,但是位于第二行第四列项的0,该0所处行的转移字符串aa的后一位a与该0所处列的转移字符串ba的前一位b不相同。进一步的,本申请也提供了在步骤s103中涉及到的预先针对该地区建立后缀概率表的具体建立方式,具体如下:预先获取已知所属地区的各样本邮箱,提取各样本邮箱中的样本后缀信息,针对每个样本后缀信息,统计该样本后缀信息出现在该地区的概率,根据针对每个样本后缀信息统计出的概率,建立该地区对应的后缀概率表。另外,针对每个样本后缀信息,统计该样本后缀信息出现在该地区的概率的过程中,本申请首先针对每个样本后缀信息,先统计出该样本后缀信息出现在该地区的次数,再针对每个样本后缀信息,统计出该样本后缀信息出现在各个地区的总次数,后续,将统计出各样本后缀信息出现在该地区的次数与统计出该样本后缀信息出现在各个地区的总次数的比值,作为各样本后缀信息出现在该地区的概率。例如,针对上述步骤s101~s105中的例子而言,假设从已知的美国和英国的各样本邮箱中提取出样本后缀信息如表15所示:表15服务器统计出样本后缀信息gmail.com出现在美国的次数为2次,统计出样本后缀信息gmail.com出现在美国和英国的总次数为3次,将2次(即,统计出样本后缀信息gmail.com出现在美国的次数)与3次(即,统计出样本后缀信息gmail.com出现在美国和英国的总次数)的比值为2/3,作为样本后缀信息gmail.com出现在美国的概率,同样的,针对美国,统计出的各样本后缀信息出现在美国的概率如表5所示,针对英国,统计出的各样本后缀信息出现在英国的概率如表6所示。以上为本申请实施例提供的识别用户所属地区的的方法,基于同样的思路,本申请实施例提供一种识别用户所属地区的装置,如图2所示。图2为本申请实施例提供的识别用户所属地区的装置结构示意图,所述装置包括:获取模块201,用于获取用户的电子邮箱;拆分模块202,用于将所述电子邮箱拆分成前缀信息与后缀信息;第一确定模块203,用于针对每个地区,确定所述前缀信息出现在该地区的前缀判断概率,确定所述后缀信息出现在该地区的后缀判断概率;第二确定模块204,用于根据每个地区对应的前缀判断概率和后缀判断概率,确定所述电子邮箱属于每个地区的最终判断概率;识别模块205,用于根据各最终判断概率,识别所述用户所属的地区。所述第一确定模块203具体用于,将所述前缀信息拆分成若干个字符串,在预先针对该地区建立的前缀概率表中,确定出每个字符串出现在该地区的概率,根据每个字符串出现在该地区的概率,以及贝叶斯公式,确定所述前缀信息出现在该地区的前缀判断概率。所述第一确定模块203具体用于,预先获取已知所属地区的各样本邮箱,提取各样本邮箱中的样本前缀信息,将提取的各样本前缀信息拆分成若干个字符串,针对由样本前缀信息拆分出的每个字符串,提取该字符串的前序字符,确定该字符串出现在该地区的次数与该字符串的前序字符出现在该地区的次数的比值,作为该字符串出现在该地区的概率,根据针对由样本前缀信息拆分出的每个字符串统计出的概率,建立该地区对应的前缀概率表。所述第一确定模块203具体用于,在预先针对该地区建立的后缀概率表中,确定所述后缀信息出现在该地区的后缀判断概率。所述第一确定模块203具体用于,预先获取已知所属地区的各样本邮箱,提取各样本邮箱中的样本后缀信息,针对每个样本后缀信息,统计该样本后缀信息出现在该地区的概率,根据针对每个样本后缀信息统计出的概率,建立该地区对应的后缀概率表。所述第二确定模块204具体用于,通过公式p=p(地区i|前缀)*p(地区i|后缀)/p(地区i),确定出所述电子邮箱属于每个地区的最终判断概率;其中:p表示所述电子邮箱属于地区i的最终判断概率,p(地区i|前缀)表示所述前缀信息出现在地区i前缀判断概率,p(地区i|后缀)表示所述后缀信息出现在地区i的后缀判断概率,p(地区i)表示所述电子邮箱属于地区i的经验概率。所述地区包括所述国家。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1