一种识别身份的方法、装置及电子设备与流程

文档序号:15518391发布日期:2018-09-25 18:51阅读:160来源:国知局

本说明书涉及身份识别技术领域,特别涉及一种识别身份的方法、装置及电子设备。



背景技术:

随着网络技术的不断发展,基于网络上的数据信息分析确认用户身份的需求越来越大,例如:很多网络金融、客户挖掘、网络推广等领域均需要获取用户的身份信息。

现有技术中,对用户身份的确认,通过是基于社交网络进行关键词匹配来实现,例如:a对b的备注为:房产中介小李;c对d的备注为:上海中学陈老师,通过职业关键字“房产中介”、“中学老师”的匹配,可以识别出b为房产中介,d为中学老师。但是,实际应用过程中,用户在进行备注时,往往依据自己的习惯、认知来填写,很多信息无法与职业关键字匹配上,从而无法识别,导致身份识别率较低,亟需一种新的确认身份的方法,来提高身份识别率。



技术实现要素:

本说明书实施例提供一种识别身份的方法、装置及电子设备,实现对用户身份的语义识别,提高身份识别的识别率。

第一方面,本说明书实施例提供一种识别身份的方法,该方法包括:

基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

根据所述n条备注信息,获得所述待识别用户的用户向量;

基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

可选的,所述方法还包括:

获取已确认身份的用户被备注的m条备注信息,m≥2;

根据所述m条备注信息,获得所述已确认身份的身份向量。

可选的,所述根据所述n条备注信息,获得所述待识别用户的用户向量,包括:

对所述n条备注信息进行预处理,去除无实义的备注信息;

对预处理后的备注信息进行分词,并将每个分词转换为词向量;

基于所有所述词向量,获得所述待识别用户的用户向量。

可选的,在根据所述n条备注信息,获得所述待识别用户的用户向量之前,所述方法还包括:

获取所述n条备注信息中的身份关键词;

判断出现所述身份关键词的备注信息条数k与n的比值是否在预设范围内;

若k与n的比值在第一预设范围内,确认所述待识别用户的身份为所述身份关键词;

若k与n的比值不在第一预设范围内,根据所述n条备注信息,获得所述待识别用户的用户向量。

可选的,基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份,包括:

获得所述身份向量与所述用户向量之间的相似度大于设定阈值的目标身份向量;

基于所述目标身份向量对应的目标身份,获得所述待识别用户的身份。

可选的,基于所述目标身份向量对应的目标身份,获得所述待识别用户的身份,包括:

将所述目标身份向量对应的目标身份作为所述待识别用户的身份;或者,

判断所述待识别用户所属群体中已确认身份为所述目标身份的用户比例是否属于第二预设范围,若所述比例属于第二预设范围,确定所述待识别用的身份为所述目标身份。

可选的,所述方法还包括:

在获得所述待识别用户的身份后,获得被所述待识别用户标注为预设关键词的目标用户,所述预设关键词为表征相同身份的关键词;

确认所述目标用户的身份与所述待识别用户相同。

可选的,所述方法还包括:

判断所述待识别用户所属群体中身份为相同身份的用户与所述群体的总用户数之间的比值是否属于第三预设范围;

若是,确认所述待识别用户的身份为所述相同身份。

第二方面,本说明书实施例提供一种识别身份的装置,包括:

获取单元,用于基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

转换单元,用于根据所述n条备注信息,获得所述待识别用户的用户向量;

识别单元,用于基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

可选的,所述装置还包括:

创建单元,用于获取已确认身份的用户被备注的m条备注信息,m≥2;根据所述m条备注信息,获得所述已确认身份的身份向量。

可选的,所述获取单元用于:

对所述n条备注信息进行预处理,去除无实义的备注信息;

对预处理后的备注信息进行分词,并将每个分词转换为词向量;

基于所有所述词向量,获得所述待识别用户的用户向量。

可选的,所述装置还包括:

匹配单元,用于在根据所述n条备注信息,获得所述待识别用户的用户向量之前,获取所述n条备注信息中的身份关键词;判断出现所述身份关键词的备注信息条数k与n的比值是否在预设范围内;若k与n的比值在第一预设范围内,确认所述待识别用户的身份为所述身份关键词;若k与n的比值不在第一预设范围内,根据所述n条备注信息,获得所述待识别用户的用户向量。

可选的,所述识别单元用于:

获得所述身份向量与所述用户向量之间的相似度大于设定阈值的目标身份向量;

基于所述目标身份向量对应的目标身份,获得所述待识别用户的身份。

可选的,所述识别单元用于:

将所述目标身份向量对应的目标身份作为所述待识别用户的身份;或者,

判断所述待识别用户所属群体中已确认身份为所述目标身份的用户比例是否属于第二预设范围,若所述比例属于第二预设范围,确定所述待识别用的身份为所述目标身份。

可选的,所述装置还包括:

扩展单元,用于在获得所述待识别用户的身份后,获得被所述待识别用户标注为预设关键词的目标用户,所述预设关键词为表征相同身份的关键词;确认所述目标用户的身份与所述待识别用户相同。

可选的,所述装置还包括:

扩展单元,用于判断所述待识别用户所属群体中身份为相同身份的用户与所述群体的总用户数之间的比值是否属于第三预设范围;若是,确认所述待识别用户的身份为所述相同身份。

第三方面,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:

基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

根据所述n条备注信息,获得所述待识别用户的用户向量;

基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

第四方面,本说明书实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

根据所述n条备注信息,获得所述待识别用户的用户向量;

基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:

本说明书实施例提供一种识别身份的方法,基于社交网络,获取待识别用户被备注的多条备注信息;根据获得的多条备注信息,获得待识别用户的用户向量;进而,基于各个身份的身份向量和待识别用户的用户向量进行语义识别,大大增大了基于备注信息识别出用户身份的可能性,尤其是在备注信息中不包含预设身份关键词的情况下,解决了现有技术中关键词匹配进行身份识别存在的识别率较低的技术问题,提高了身份识别的识别率。

附图说明

为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种识别身份的方法流程图;

图2为本说明书实施例提供一种识别身份的装置的示意图;

图3为本说明书实施例提供的一种电子设备的示意图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。

下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

请参考图1,本说明书实施例提供的一种识别身份的方法,包括:

s110:基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

s120:根据所述n条备注信息,获得所述待识别用户的用户向量;

s130:基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

在社交网络中如微信、微博、钉钉等,用户之间往往会互加好友,并对好友进行备注以便于分辨,其中很多备注信息都与用户的身份信息相关,如:“乐健小刘”、“链家小李”、“恒大小妹”等。本申请实施例基于社交网络中用户的备注信息进行身份识别,先执行s110基于社交网络,获取待识别用户被备注的n条备注信息。

具体的,可以从一个或多个社交平台获得多个用户对待识别用户进行备注的多条备注信息。对于不同的社交平台,可以通过用户的基本信息识别其是否为同一用户,例如:通过同一手机号、邮箱或者账号注册的可以认为是同一用户,相互关联的账号可以认为是同一用户。一个用户被其他备注的备注信息越多,由此进行身份识别的准确性越高,为此可以尽可能多的获得其备注信息,即n越大越好。

在获得待识别用户的n条备注信息之后,可以执行s120、s130来获得待识别用户的身份,也可以先通过身份关键词匹配来获得待识别用户的身份。具体的,可以利用身份关键词词典匹配备注信息,获取n条备注信息中的身份关键词;判断出现身份关键词的备注信息条数k与n的比值是否在预设范围内,若k与n的比值在第一预设范围内,确认待识别用户的身份为身份关键词;若k与n的比值不在第一预设范围内,根据n条备注信息,获得待识别用户的用户向量。

s120获取待识别用户的用户向量,具体可以对获得的每条备注信息进行分词,将每个分词转换为词向量,如利用word2vec算法,转换得到备注中每一个分词的词向量vword。进一步基于待识别用户的所有词向量,获得待识别用户的用户向量。

其中,可以待识别用户的所有备注对应的词向量组合得到待识别用户的用户向量vcandidate_person,即

vcandidate_person=f(vword)

组合方法f(vword)可选择将待识别用户的所有词向量的每一维加和取平均。f(vword)也可以选择将待识别用户的所有词向量的每一维加和取平均作为参考向量,去除距离参考向量最远的k(k≥1)个词向量,再将去除后剩余的词向量的每一维重新加和取平均得到用户向量。通过去除距离最远的词向量来对词向量进行筛选,去除明显偏离用户身份的词向量,从而提高用户向量获取的准确性。

实际应用过程中,获取到的备注信息可能会包含无实义的信息,在获取用户向量时,还可以先对备注信息进行预处理,去除无实义的备注信息,如空备注、乱码备注、符号备注等。若备注信息是从不同社交网络获得的其格式可能不同,为了便于后续的识别处理,还可以将预处理后的备注信息编码归一化。在备注信息预处理和/或编码归一化后,在对处理后的备注信息进行分词、向量转换,以更快速、准确的获得用户向量。

在获得用户向量之后,进一步执行s130基于身份向量和用户向量进行语义识别,识别获得待识别用户的身份。其中,本实施例所指的身份具体可以是职业、职务、籍贯、年龄等任一信息,下面以职业为例对身份识别的方法进行举例说明。每一种身份对应一个身份向量,在进行身份识别之前,需要对每一种身份建立一个身份向量,具体可以采用如下任一方式建立身份向量。

方式一、通过身份关键词转换获得身份向量。例如:假设某一身份关键词为“律师”,可以利用word2vec算法转换“律师”获得其身份向量。

方式二、获取已确认身份的用户被备注的m条备注信息,m≥2;根据已确认身份的用户被备注的m条备注信息,获得已确认身份的身份向量。通过已确认身份的用户被备注的多条备注信息广泛、全面的涵盖了与已确认身份相关的信息,根据该多条备注信息来建立已确认身份的身份向量更为准确。具体的,可以根据m条备注信息,获得已确认身份的用户向量,然后根据该用户向量获得已确认身份的身份向量,即可以将所有已确定身份的用户向量组合得到职业向量vjob_i。其中,用户向量的组合方法可选择将已确认身份的所有用户向量的每一维加和取平均:

vjob_i=g(vcandidate_person),wherevcandidate_person∈job_i

其中job_i表示已确认身份,vcandidate_person表示根据备注信息获取到的用户向量。进一步的,还可以利用已确认身份的用户向量来不断的更新已确认身份的身份向量,使得每一种身份的身份向量越来越准确,且不断的贴近用户的意识。

方式三、基于身份关键词和已确认身份的用户被备注的备注信息来建立身份向量。具体的,可以获得身份关键词的词向量vcandidate_key,及根据已确认身份的用户被备注的多条备注信息获取其用户向量vcandidate_person,再根据身份关键词向量和已确认身份的用户向量的线性加和获得身份向量vjob_i:

vjob_i=vcandidate_key+λ·g(vcandidate_person),wherevcandidate_person∈job_i

其中,λ为权值,可以根据实验训练获得。同样的,身份关键词的词向量vcandidate_key可以由一种身份对应的所有关键词的词向量加和取平均得到。

基于通过上述任一方式建立的身份向量和待识别用户的用户向量进行身份识别,可以先获得身份向量与用户向量之间的相似度大于设定阈值的目标身份向量,然后,基于获得的目标身份向量对应的目标身份,获得待识别用户的身份。

具体的,可以将待识别用户的用户向量vcandidate_person与身份向量vjob求cosin,得到待识别用户的用户向量与身份向量的相似度ρ,当相似度ρ大于设定阈值θ时:

ρ=cos(vjob,vcandidate_person)>θ

获得该身份向量为目标身份向量,基于目标身份向量对应的目标身份获得待识别用户的身份。需要说明的是,本实施例并不限制用户向量与身份向量之间相似度的具体计算方法,不仅可以用cosin的方法获得,还可以用欧几里德距离、tanimoto系数、曼哈顿距离等方法获得。

基于目标身份获得待识别用户的身份时,可以目标身份确认为待识别用户的身份,也可以进一步根据待识别用户的社交网络拓扑结构优化其身份的获取。

社交网络拓扑结构

(1)、对于某些特殊职业,比如中介类职业,其热度φ(被人存储的次数din+存储人的个数dout,即社交网络中的“朋友”个数)高于普通人,因此对于此类职业可以在ρ=cos(vjob,vcandidate_person)>θ的基础上加入φ大于某阈值γ的条件,即不仅需要获得目标身份,当目标身份为预设类型身份时,获得待识别用户φ,当φ>γ时,确认目标身份为待识别用户的身份,通过对待识别用户热度的进一步判断使待识别用户的身份更加精确。

(2)、用户作为社交网络中的一员,不可避免的会要与其他用户产生各种社交关系,比如同事关系、师徒、上下级等。可以运用社交关系来优化身份识别:

i.在获得待识别用户的身份后,获得被待识别用户标注为预设关键词的目标用户,该预设关键词为表征相同身份的关键词,如“同事”、“师傅”、“助理”等,确认该目标用户的身份与待识别用户相同。例如:通过上述实施例中的语义识别出待识别用户a的职业λ以后,a若明显标注b为“同事”,那b的职业自然与a相同,可以确认b的职业也为λ。随着b被其他与a相同职业的人标注为同事的数量增加时,b的职业为λ的置信度会随之增加,也可以在多个相同职业的人标识b为“同事”时,确认b的职业为λ。

ii.判断待识别用户所属群体中已确认身份为目标身份的用户比例是否属于第二预设范围,若比例属于第二预设范围,确定待识别用户的身份为目标身份。例如:假设第二预设范围为≥3,小明属于“10级3班”聊天群,通过对小明的用户向量和身份向量进行识别,获得目标身份为“医生”,判断“10级3班”这个聊天群中,是否有其他用户的身份也为“医生”且其数量≥3,若是,则确定小明的身份为“医生”,即利用待识别用户所属群体中相同身份数量的判断,来提高用户身份识别的准确率。

iii.在进行身份识别之前,类似于聚类的思想,判断待识别用户所属群体(如某一网络平台、聊天群等)中身份为相同身份的用户与群体的总用户数之间的比值是否属于第三预设范围(大于某一比例);若是,表明该群体中的用户为该相同身份的概率非常大,可以确认待识别用户的身份为相同身份。当然,也可以在识别出待识别用户的身份λ之后,获得待识别用户所属群体如一个社交子网中其它用户的身份,若身份λ的人数的占比较高时,可以比较置信的认为此子网中其他未被识别身份的人的身份也为λ。

通过如上i和iii两点,使用社交网络拓扑结构进行身份的传播,从而使整个身份识别方法的覆盖率增加。

基于上述实施例提供的一种身份识别的方法,本实施例还对应提供一种身份识别的装置,请参考图2,该装置包括:

获取单元21,用于基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;

转换单元22,用于根据所述n条备注信息,获得所述待识别用户的用户向量;

识别单元23,用于基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

作为一种可选的实施方式,所述装置还包括:创建单元24,用于获取已确认身份的用户被备注的m条备注信息,m≥2;根据所述m条备注信息,获得所述已确认身份的身份向量。

作为一种可选的实施方式,所述获取单元21用于:对所述n条备注信息进行预处理,去除无实义的备注信息;对预处理后的备注信息进行分词,并将每个分词转换为词向量;基于所有所述词向量,获得所述待识别用户的用户向量。

作为一种可选的实施方式,所述装置还包括:

匹配单元25,用于在根据所述n条备注信息,获得所述待识别用户的用户向量之前,获取所述n条备注信息中的身份关键词;判断出现所述身份关键词的备注信息条数k与n的比值是否在预设范围内;若k与n的比值在第一预设范围内,确认所述待识别用户的身份为所述身份关键词;若k与n的比值不在第一预设范围内,根据所述n条备注信息,获得所述待识别用户的用户向量。

作为一种可选的实施方式,所述识别单元23用于:

获得所述身份向量与所述用户向量之间的相似度大于设定阈值的目标身份向量;基于所述目标身份向量对应的目标身份,获得所述待识别用户的身份。可选的,所述识别单元还用于:将所述目标身份向量对应的目标身份作为所述待识别用户的身份;或者,判断所述待识别用户所属群体中已确认身份为所述目标身份的用户比例是否属于第二预设范围,若所述比例属于第二预设范围,确定所述待识别用的身份为所述目标身份。

作为一种可选的实施方式,所述装置还包括:

扩展单元26,用于在获得所述待识别用户的身份后,获得被所述待识别用户标注为预设关键词的目标用户,所述预设关键词为表征相同身份的关键词;确认所述目标用户的身份与所述待识别用户相同。

作为一种可选的实施方式,扩展单元26还可以用于判断所述待识别用户所属群体中身份为相同身份的用户与所述群体的总用户数之间的比值是否属于第三预设范围;若是,确认所述待识别用户的身份为所述相同身份。

关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述,此处不再详细阐述。

请参考图3,是根据一示例性实施例示出的一种用于实现数据查询方法的电子设备700的框图。例如,电子设备700可以是计算机,数据库控制台,平板设备,个人数字助理等。

参照图3,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,输入/输出(i/o)的接口710,以及通信组件712。

处理组件702通常控制电子设备700的整体操作,诸如与显示,数据通信,及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。

i/o接口710为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件712经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件712还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得电子设备能够执行一种数据查询方法,所述方法包括:

基于社交网络,获取待识别用户被备注的n条备注信息,n≥2;根据所述n条备注信息,获得所述待识别用户的用户向量;基于身份向量和所述用户向量进行语义识别,识别获得所述待识别用户的身份。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制,以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1