移动终端联系人信息提取方法及系统的制作方法

文档序号:9276928阅读:416来源:国知局
移动终端联系人信息提取方法及系统的制作方法
【技术领域】
[0001]本发明涉及通信技术领域,具体涉及移动终端联系人信息提取方法及系统。
【背景技术】
[0002]科学技术的飞速发展,尤其是交通、信息和通信等领域的技术革新,极大地改变了人们的生活和交际方式,人与人组成的社交网络也因此得到了极大的扩展。随着人们社交网络的急剧膨胀,社会联系人信息的有效存储和快速检索也愈发成为一个不容忽视的问题。曾经单纯依靠记忆的联系人管理方式早已不再可靠,纸质通讯录则具有易损坏、易遗失、不易更新等弊端。近年来,信息和通信技术的启航为人们带来了基于个人计算机、移动电话的电子通讯录。它弥补了记忆的不可靠性,克服了纸质通讯录的缺点。然而随着人们生活节奏的不断加快及社交网络的持续扩大,联系人信息的采集渐渐成为了一种负担,而不完整的联系人信息则会为人们的日常工作和社会活动带来影响。
[0003]最近几年,随着移动互联网的发展,智能手机的应用场景越来越广泛了。而通讯录作为手机必不可少的一个功能,包含了重要的联系人信息。然而由于用户习惯、误输入等一系列问题,通讯录的原始姓名信息往往会包含非人名的信息。例如通讯录中往往会有小张苏州号”、“李四2”等人名条目。这样的条目因为不是规范的人名信息,往往会成为人名信息识别的阻碍。同时,由于用户的习惯,例如,对于“马剑哥”的通讯录条目,用户想使用“马哥”这称谓去搜索,往往无法正确找到想要查询的条目。并且,对于通讯录“上海交大马老师”之类的条目,除了具有“马老师”这样的人名信息,还包含了“上海交大”这样的辅助信息,这些信息可以给智能人机交互提供很多帮助。所以,对于通讯录的原始姓名信息,急需提供一种能够有效提取人名相关信息的解决方案。

【发明内容】

[0004]针对现有技术中的缺陷,本发明提供了一种移动终端联系人信息提取系统,可以实现对通讯录原始信息中别名和辅助信息的提取,从而为智能化的人机交互提供支持。
[0005]第一方面,本发明提供一种移动终端联系人信息提取方法,所述移动终端包括有一通讯录,该通讯录中包含多个通讯录条目,每个通讯录条目记录有联系人的原始姓名字符串及对应的电话号码,包括:
[0006]对于通讯录中多个原始姓名字符串中任一个原始姓名字符串,对所述原始姓名进行预处理,过滤所述原始姓名字符串中敏感字符,所述敏感字符至少包括非数字、非字母和非汉字的字符;
[0007]对所述原始姓名的预处理结果进行分词处理;
[0008]通过解析分词结果,提取别名信息和辅助信息,并对别名信息进行后处理,所述别名信息至少包括中文别名和英文别名,所述辅助信息为修饰信息;
[0009]对应每个通讯录条目,根据别名信息和辅助信息生成结构化信息数据,构建通讯录信息数据库。
[0010]可选地,所述别名信息至少包括完整中文姓名、名字部分、英文名、关系称谓信息、习惯称谓信息。
[0011]可选地,所述辅助信息至少包括城市信息、公司信息、学校信息、职位信息。
[0012]可选地,对别名信息进行后处理至少包括:冲突别名结果筛选。
[0013]可选地,所述辅助信息大于2个字符。
[0014]第二方面,本发明还提供了一种移动终端联系人信息提取系统,所述移动终端包括有一通讯录,该通讯录中包含多个通讯录条目,每个通讯录条目记录有联系人的原始姓名字符串及对应的电话号码,所述系统包括:
[0015]预处理模块,用于对于通讯录中多个原始姓名字符串中任一个原始姓名字符串,对所述原始姓名进行预处理,过滤所述原始姓名字符串中敏感字符,所述敏感字符至少包括非数字、非字母和非汉字的字符;
[0016]分词模块,用于对所述原始姓名的预处理结果进行分词处理;
[0017]解析模块,用于通过解析分词结果,提取别名信息和辅助信息,并对别名信息进行后处理,所述别名信息至少包括中文别名和英文别名,所述辅助信息为修饰信息;
[0018]通讯录信息数据库生成模块,用于对应每个通讯录条目,根据别名信息和辅助信息生成结构化信息数据,构建通讯录信息数据库。
[0019]可选地,所述别名信息至少包括完整中文姓名、名字部分、英文名、关系称谓信息、习惯称谓信息。
[0020]可选地,所述辅助信息至少包括城市信息、公司信息、学校信息、职位信息。
[0021]可选地,对别名信息进行后处理至少包括:冲突别名结果筛选。
[0022]可选地,所述辅助信息大于2个字符。
[0023]由上述技术方案可知,本发明提出了一种移动终端联系人信息提取方法及系统,通过剔除通讯录联系人原始姓名字符串中的敏感字符,从中解析提取出别名信息和辅助信息,构建结构化通讯录信息数据库,可以筛选出通讯录中的有效信息,提高人名语义解析的鲁棒性和准确性,对于通讯录中的辅助信息可以加以利用,为智能化的人机交互提供支持。
[0024]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0025]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0026]图1为本发明一实施例提供的移动终端联系人信息提取方法的流程示意图;
[0027]图2为本发明一实施例提供的移动终端联系人信息提取系统的结构示意图。
【具体实施方式】
[0028]为了实现对通讯录原始信息中别名和辅助信息的提取,从而为智能化的人机交互提供支持,本发明实施例提供了一种移动终端联系人信息提取方法及系统。
[0029]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0030]本发明实施例涉及一种对通讯录信息进行智能分析,提取别名以及辅助信息的解析系统,通过此系统的应用,可以为手机、车载设备等拨号领域的语义解析提供辅助和支持。
[0031]图1示出了本发明一实施例提供的移动终端联系人信息提取方法的流程示意图,如图1所示,该方法包括以下步骤:
[0032]在本发明实施例中,移动终端包括有一通讯录,该通讯录中包含多个通讯录条目,每个通讯录条目记录有联系人的原始姓名字符串及对应的电话号码。
[0033]101、对于通讯录中多个原始姓名字符串中任一个原始姓名字符串,对所述原始姓名进行预处理,过滤所述原始姓名字符串中敏感字符,所述敏感字符至少包括非数字、非字母和非汉字的字符;
[0034]在本发明实施例中,可以通过信息预处理器对所有原始姓名字符串进行预处理,过滤原始姓名字符串中敏感字符。
[0035]其中该敏感字符包括但不限于非数字、非字母和非汉字的字符。
[0036]102、对所述原始姓名的预处理结果进行分词处理;
[0037]在本发明实施例中,可以对该原始姓名的预处理结果进行分词处理,首先对该原始姓名的预处理结果进行分词切割,将该原始姓名的预处理结果切割成若干词语,再过滤掉其中的助词、连词等虚词,从而得到若干能够表示某种特定特征的分词。
[0038]103、通过解析分词结果,提取别名信息和辅助信息,并对别名信息进行后处理,所述别名信息至少包括中文别名和英文别名,所述辅助信息为修饰信息;
[0039]其中,该别名信息包括但不限于完整中文姓名、名字部分、英文名、关系称谓信息、习惯称谓信息。例如:王哥、happy哥等。
[0040]其中,该辅助信息至少包括城市信息、公司信息、学校信息、职位信息。例如:上海交大、北京等。
[0041]需要说明的是,本发明实施例通过解析分词结果,对别名信息和辅助信息提取的先后顺序不做具体限定,可以是通过解析分词结果,先提取别名信息,再解析分词结果,提取辅助信息,也可以是解析分析结果,同时提取别名信息和辅助信息。
[0042]优选地,对别名信息进行后处理,包括但不限于冲突别名结果筛选。
[0043]可以理解的是,在本发明实施例中,该辅助信息大于2
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1