1.一种识别用户名缩写现象的方法,步骤包括:
1)对两个或两个以上的用户名中的字符进行过滤,仅保留英文字母和数字;
2)将上述过滤后的用户名各分割成若干个连续片段,各选取每个片段的首字符组成一新字符串;
3)根据上述新字符串获取最长缩写词长度,如长度值大于或等于给定阈值ΔL,则判定所述用户名间具有用户名缩写现象。
2.根据权利要求1所述的方法,其特征在于,将保留的英文字母统一转换成小写或大写的形式。
3.根据权利要求1所述的方法,其特征在于,所述片段为单词或单个字符。
4.根据权利要求1所述的方法,其特征在于,所述片段根据指定的字典分割得到。
5.根据权利要求4所述的方法,其特征在于,所述字典包括人名、地名、物名、杜撰词或其他指定词,该指定词包括名词、动词、形容词、副词。
6.根据权利要求1所述的方法,其特征在于,采用动态规划算法根据所述新字符串获取最长缩写词长度。
7.根据权利要求1所述的方法,其特征在于,所述阈值ΔL为欲识别用户名缩写形式的最小长度。
8.根据权利要求7所述的方法,其特征在于,当欲识别中文人名拼音缩写形式时,ΔL≥2。
9.根据权利要求7所述的方法,其特征在于,当欲识别英文人名缩写形式时,ΔL=2。