用户识别方法和装置的制造方法_2

文档序号：9551336阅读：来源：国知局

运行的应用提供支持的后台服务器。后台服务器可以获取终端的行为日志，并对得到的数据进行分析和学习。
[0033]需要说明的是，本申请实施例所提供的用户识别方法一般由服务器105执行，相应地，用户识别装置一般设置于服务器105中。
[0034]应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
[0035]继续参考图2，示出了根据本申请的用户识别方法的一个实施例的流程200。所述的用户识别方法，包括以下步骤:
[0036]步骤201，获取多组用户行为数据。
[0037]在本实施例中，用户识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行网络访问或应用操作的多个终端上获取多组用户行为数据。一组用户行为数据可以代表用户某一次访问网络时的访问记录。在实践中，用户行为数据一般可以从用户的行为日志中获取。用户的行为日志可以记录用户在终端上执行的所有行为，例如，网页浏览行为、网络搜索行为、信息的收发行为以及各种网络应用的使用行为。这些终端可以是移动终端也可以是固定终端(例如图1所示的终端设备)。
[0038]需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB (ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
[0039]步骤202，将任意两组用户行为数据共同作为样本集合中的一个训练样本。
[0040]在本实施例中，基于步骤201中得到的多组用户行为数据，上述电子设备(例如图1所示的服务器)可以从上述多组数据中任意选择两组数据共同形成一个数据对，然后将该数据对作为一个训练样本。这样，通过对上述多组用户行为数据的多次随机组合，就可以得到多个数据对。若将每一个数据对都作为一个训练样本，就可以得到样本集合。
[0041]在本实施例的一些可选的实现方式中，可以将任意两组用户行为数据中相应特征之间的相似度值，作为上述训练样本的特征值。对于每一组用户行为数据来说，可以根据网络访问的特点从该组数据中提取出多个特征。每组用户行为数据所包括的特征数量和种类应该都是相同的。在将两组用户行为数据共同作为一个训练样本时，可以首先计算两组用户行为数据中相应的即属于同一类的两个特征之间的相似度值，然后再将得到的多个相似值均作为一个训练样本的特征值。
[0042]在本实施例的一些可选的实现方式中，一组用户行为数据包括以下至少一个特征:用户地址、访问时间、访问地址、搜索词和终端标识。用户地址可以是用户在访问网络时自己所使用的IP (Internet Protocol，网络互连协议)地址。访问时间可以是用户接入网络或访问某个网站的时间。访问地址可以是指用户所访问的网页的IP地址。搜索词可以是用户进行网页搜索或在搜索应用中进行搜索时所输入的关键词。终端标识可以是电子设备所具备的唯一的设备标识，例如，设备的物理地址，即MAC (Media Access Control或者Medium Access Control)地址。
[0043]这样，在将两组用户行为数据共同作为一个训练样本时，可以计算从两组用户行为数据中得到的两个用户地址之间的相似度值，然后将该值作为训练样本的一个特征值。类似的，可以得到访问时间、访问地址、搜索词以及终端标识的相似度值，并均可以作为训练样本的特征值。需要说明的是，上述相似度可以通过例如谷本系数(Jaccard)、余弦相似度、欧几里得距离或皮尔森相关性等相似度计算方法获得，由于上述各种方法是目前广泛研究和应用的公知技术，在此不再赘述。
[0044]步骤203，使用样本集合进行模型训练，并通过训练后的模型确定两组待识别的用户行为数据是否对应于同一用户。
[0045]在本实施例中，用户识别方法运行于其上的电子设备上可以预先存储有机器学习模型。本实施例中的模型可以是现有技术中常见的机器学习模型，例如DNN(De印NeuralNetwork，深度神经网络)模型。
[0046]在本实施例中，上述电子设备可以首先使用在上述步骤202中得到的样本集合对预先存储的基础模型进行训练。在对模型进行训练之前，还可以对样本集合中的多个训练样本进行分类，也就是确定出属于同一个用户的训练样本以及不属于同一个用户的训练样本。然后使用模型同时对这两类样本的特征进行学习，就可以得到训练后的模型。此时，训练后的模型具备对用户进行识别的能力。如果将两组待识别的用户行为数据输入训练后的模型，该模型就可以输出对这两组数据是否对应于同一用户的判断结果。
[0047]在一种可选的实现方式中，在对训练样本进行分类时，可以判断上述任意两组用户行为数据是具有相同的终端标识；若是，将上述训练样本确定为正例训练样本，否则，将上述训练样本确定为负例训练样本。具体地，可以将两组用户行为数据所包括的两个终端标识进行匹配。如果匹配成功，则可以确认这两组用户行为数据是通过同一台终端设备产生的。由于在实践中，每个终端设备通常都由一个固定的用户使用，因此当两组数据具有相同的终端标识时，可以认为它们都是同一个用户产生的。这样，通过这两组数据得到的训练样本就可以作为样本集合中的一个正例训练样本。相反地，如果两组数据的终端标识不同，则可以认为它们是由不同用户产生的。此时，通过这两组数据得到的训练样本就可以作为样本集合中的一个负例训练样本。
[0048]在一种可选的实现方式中，上述任意两组用户行为数据包括:具有相同用户地址的两组用户行为数据。在从多组用户行为数据中选择任意两组时，可以首先筛选出那些具有相同用户地址的用户行为数据，然后再从这些具有相同用户地址的用户行为数据中任选两组，共同作为一个训练样本。由于同一个用户通常会通过几个固定的IP地址(例如，公司和家里IP地址)访问网络，因此通过用户地址对用户行为数据进行筛选，可以更容易得到同一个用户的行为数据，从而能够得到更加可靠的正例训练样本。
[0049]本申请的上述实施例提供的用户识别方法，可以将两组用户行为数据共同作为一个训练样本来进行模型训练，从而提高了样本的泛化能力，使得训练后的模型能够准确的确定出两组待识别的用户行为数据是否对应于同一用户，从而实现了对用户的准确识别。
[0050]进一步参考图3，其示出了用户识别方法的又一个实施例的流程300。该用户识别方法的流程300，包括以下步骤:
[0051 ] 步骤301，获取多组用户行为数据。
[0052]在本实施例中，用户识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行网络访问或应用操作的多个终端上获取多组用户行为数据。
[0053]步骤302，将任意两组用户行为数据共同作为样本集合中的一个训练样本。
[0054]在本实施例中，上述电子设备(例如图1所示的服务器)可以从上述多组数据中任意选择两组数据共同形成一个数据对，然后将该数据对作为一个训练样本。
[0055

完整全部详细技术资料下载

当前第2页1 2 3 4