一种数据处理方法和装置与流程

文档序号:11591392阅读:159来源:国知局

本申请涉及但不限于数据分析领域,尤指一种数据处理方法和装置。



背景技术:

随着智能电视领域技术的日益渐进,电视设备也从传统电视变为如今具备操作系统、具有平台特性的智能电视,智能电视逐渐成为每个家庭必备的娱乐设备。智能电视允许用户在欣赏普通电视节目的同时,自行安装和卸载各类应用软件以对其功能进行扩充,并具备通过网络回传用户数据的功能。

如今,随着多样化的网民属性估算技术的日趋成熟,家庭人口属性估算成为当务之急。准确的定位一个家庭的组成情况对于媒体的精准投放,广告主的商业营销方向,政府的监管及人口统计,人口大数据的分析有着至关重要的意义。而现有对家庭人口属性统计的方法仍然停留在人工走访调研的水平,此种做法费时费力,同时统计期限漫长。



技术实现要素:

本申请提供了一种数据处理方法和装置,能够更加快速、便捷的获知家庭的组成构架。

为了达到本申请目的,本申请提供了一种数据处理方法,包括:

收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识id;

统计在该预设时间段内,与智能设备关联的终端id访问各个预设网站的上网行为向量;

分别计算终端id的上网行为向量与各个样本的上网行为向量之间的第一相似度;

根据计算出的第一相似度确定终端id的身份类别。

进一步地,当与该智能设备关联的终端id是两个或者两个以上时,在所述统计所述与智能设备关联的终端id的上网行为向量之后,在所述计算所述第一相似度之前,该方法还包括:

根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端id进行分类。

进一步地,所述根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端id进行分类包括:

分别计算与所述智能设备关联的终端id中任意两个终端id的上网行为向量之间的第二相似度;

判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;

当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端id分为相同类并计算分为相同类的终端id的上网行为向量;

计算分类后的终端id中任意两个终端id的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。

进一步地,所述计算分为相同类的终端id的上网行为向量包括:计算分为相同类的所述两个终端id的上网行为向量的向量和值作为所述分为相同类的两个终端id的上网行为向量。

进一步地,该方法之前还包括:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。

进一步地,所述根据计算出的第一相似度确定终端id的身份类别包括:

分别确定各个分类后的终端id的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为所述分类后的该终端id的身份类别。

进一步地,当与该智能设备关联的终端id是一个时,所述根据计算出的第一相似度确定终端id的身份类别包括:

确定所述终端id的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为所述终端id的身份类别。

本申请还提供了一种数据处理装置,包括:确定模块、统计模块、计算模块和分类模块

确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识id;

统计模块,用于统计在该预设时间段内,与智能设备关联的终端id访问各个预设网站的上网行为向量;

计算模块,用于分别计算终端id的上网行为向量与各个样本的上网行为向量之间的第一相似度;

分类模块,用于根据计算出的第一相似度确定终端id的身份类别。

进一步地,当与该智能设备关联的终端id是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端id进行分类。

进一步地,所述处理模块,具体用于:

分别计算与所述智能设备关联的终端id中任意两个终端id的上网行为向量之间的第二相似度;

判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;

当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端id分为相同类并计算分类后的终端id的上网行为向量;

计算分类后的终端id中任意两个终端id的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。

进一步地,所述处理模块计算分类后的终端id的上网行为向量包括:计算分为相同类的所述两个终端id的上网行为向量的向量和值作为所述分为相同类的两个终端id的上网行为向量。

进一步地,该装置还包括存储模块,用于:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。

进一步地,所述分类模块,具体用于:

分别确定各个分类后的终端id的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为所述分类后的该终端id的身份类别。

进一步地,当与该智能设备关联的终端id是一个时,所述分类模块,具体用于:

确定所述终端id的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为所述终端id的身份类别。

本申请技术方案包括:收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识id;统计在该预设时间段内,与智能设备关联的终端id访问各个预设网站的上网行为向量;分别计算终端id的上网行为向量与各个样本的上网行为向量之间的第一相似度;根据计算出的第一相似度确定终端id的身份类别。本申请技术方案实现了更加快速、便捷的获知家庭的组成构架。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例数据处理方法的流程图;

图2为本发明实施例数据处理装置的结构示意图。

具体实施方式

下文中将结合附图对本申请实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

发明人发现,智能电视不同于移动终端设备,由于绝大多数家庭都会使用智能电视且其具备不可移动性,因此,在一定程度上一台智能电视可以代表一户家庭,因此可以通过智能电视和与其关联的其它终端设备来确定家庭的组成构架(即家庭人口属性)。

图1为本发明实施例数据处理方法的流程图,如图1所示,包括:

步骤101:收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识(id)。

其中,智能设备是智能电视;终端包括:手机、pad、笔记本电脑等。

其中,智能设备的行为数据包括:智能设备的ip地址、智能卡id、开机时间和关机时间。

其中,预设时间段可以为一个默认值,如为一个月,也可以为15天;也可以由管理员根据自身需求进行设定。

其中,按照收集的行为数据确定与该智能设备关联的终端id包括:在该智能设备的开机时间到关机时间内查找与智能设备的ip地址相同的终端id并记录查找到的次数;

获取大于或等于预设次数阈值的查找到的次数对应的与智能设备的ip地址相同的终端id;

关联智能卡id与获得的终端id。

其中,预设次数阈值可以为一个默认值,如为5,也可以为3天;也可以由管理员根据自身需求进行设定。

步骤102:统计在该预设时间段内,与智能设备关联的终端id访问各个预设网站的上网行为向量。

步骤102具体包括:

获取在该预设时间段内关联的终端id的上网行为数据;

根据获得的上网行为数据统计与该智能设备关联的终端id访问各个预设网站的上网行为向量。其中,上网行为数据包括:终端id、访问网址和访问时间。

其中,上网行为向量包括终端id访问各个预设网站的次数。需要说明的是上网行为向量的维度与预设网站的个数相等。

步骤103:分别计算终端id的上网行为向量与各个样本的上网行为向量之间的第一相似度。

其中,按照公式(1)计算第一相似度:

其中,用户a(即终端id可以看成a)的上网行为向量为(a1,...,an),样本b的上网行为向量为(b1,...,bn)。

进一步地,当与该智能设备关联的终端id是两个或者两个以上时,在步骤102之后,在步骤103之前,该方法还包括:

根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端id进行分类。

其中,根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端id进行分类包括:

分别计算与智能设备关联的终端id中任意两个终端id的上网行为向量之间的第二相似度;

判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;

当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端id分为相同类并计算分为相同类的终端id的上网行为向量;

计算分类后的终端id中任意两个终端id的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。

其中,按照公式(2)计算任意两个终端id的上网行为向量之间的第二

相似度:

其中,id1和id2分别为终端1的id和终端2的id,d1的上网行为向量为(f1,...,fn),id2的上网行为向量为(y1,...,yn)。

其中,相似度阈值可以为一个默认值,如为0.8,也可以为0.6;也可以由管理员根据自身需求进行设定。

其中,计算分为相同类的终端id的上网行为向量包括:计算分为相同类的两个终端id的上网行为向量的向量和值作为分为相同类的两个终端id的上网行为向量。

举例说明,假设分为相同类的两个终端id分别为终端id1和终端id2,其中,终端id1的上网行为向量为(f1,...,fn),终端id2的上网行为向量为(y1,...,yn),则分为相同类的终端id1和终端id2可以合并成一个终端id,其中合并后的终端id可以在终端id1和终端id2中任选一个,也可以定义一个新的id,则其上网行为向量为(f1+y1,...,fn+yn);具体的终端id1的上网行为向量为(6,9,10,20,0,0…,0),终端id2的上网行为向量为(4,7,12,19,0,0…,0),则合并后的终端id的上网行为向量为(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。

步骤104:根据计算出的第一相似度确定终端id的身份类别。

其中,当与该智能设备关联的终端id是两个或者两个以上时,步骤104具体包括:

分别确定各个分类后的终端id的第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为分类后的该终端id的身份类别。

其中,当与该智能设备关联的终端id是一个时,步骤104具体包括:确定终端id的第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为终端id的身份类别。

进一步地,当最大第一相似度有两个或两个以上时,确定终端id的第一相似度中的最大第一相似度对应的样本的上网行为向量包括:选择两个或两个以上最大第一相似度中的任意一个最大第一相似度对应的样本的上网行为向量作为确定出的样本的上网行为向量。

进一步地,该方法之前还包括:收集并对应存储各个样本的上网行为向量以及各个样本的属性信息。

其中,样本的属性信息包括:年龄、性别、受教育程度和收入等。

本发明实施例中,通过计算与智能设备关联的终端id的上网行为向量与各个样本的上网行为向量的第一相似度来确定终端id的身份类别,实现了更加快速、便捷的获知家庭的组成构架。

下面结合具体实施例对本申请技术方案进行详细描述,本实施例中,以与该智能设备关联的终端id是两个或者两个以上为例进行的阐述。

步骤一:选取1000个样本进行处理整合。

包括以下内容:每个人的年龄、性别、受教育程度、收入等属性以及使用的电子设备(或称为终端)id。

步骤二:收集最近一个月内的智能电视的收视行为数据(或称为行为数据)以及手机和个人电脑等电子设备id的上网行为数据。

其中,智能电视的收视行为数据包括智能电视设备id,开机时间,关机时间,ip地址等。电子设备id的上网行为数据包括电子设备id,访问时间,访问网址等。

其中,假设判断智能电视设备id与电子设备id关联次数的阈值为5次,进行id合并的相似度阈值为0.8.假设收集到下面的智能电视日志和手机和电脑等电子设备日志。

智能电视日志

2015-09-01-18-00-01,tvid1,162.105.20.10,开机

2015-09-01-20-00-05,tvid1,162.105.20.10,关机

2015-09-02-19-10-04,tvid1,162.105.20.12,开机

2015-09-02-22-00-01,tvid1,162.105.20.12,关机

……

电子设备上网日志

2015-09-01-18-20-11,id1,162.105.20.10,www.youku.com

2015-09-01-18-30-11,id1,162.105.20.10,www.sina.com

2015-09-02-20-20-13,id2,162.105.20.12,www.163.com

2015-09-02-21-10-15,id2,162.105.20.12,www.iqiyi.com

……

统计得到智能电视tvid1关联的所有设备id包括id1,id2,id3,id4,id5,关联次数依次为10,3,15,18,2。假设过滤阈值为5,则智能电视tvid1关联的设备id包括id1,id3,id4,假设id1,id3,id4的上网行为向量依次为:

id1,(3,4,5,0….,0)

id3,(3,4,4,0….,0)

id4,(0,0,10,0….,0)

步骤三:根据统计出的上网行为向量对两个或两个以上的终端id进行分类合并。

根据公式(1)或公式(2)计算id1,id3,id4两两之间的相似度为:sim(id1,id3)=0.99,sim(id1,id4)=0.71,sim(id3,id4)=0.62。

由于id1和id3的相似度最大并且大于阈值0.8,将id1和id3合并,id簇{id1,id3}的上网行为向量为(6,8,9,0,…,0),重新计算{id1,id3}与id4的相似度为:sim({id1,id3},id4)=0.67。

由于,目前所有的相似度均小于0.8,因此id合并结束。

步骤四:确定各个分类合并后的终端id的身份类别。

假设所有样本的上网行为向量依次是:

y1,(6,8,8,0,…,0)

y2,(0,0,9,0,…,0)

……

计算{id1,id3}与每个样本户的相似度为:

假设{id1,id3}与其他998个样本的相似度分别为0.90,0.88,…,0.2;则{id1,id3}与y1的相似度最高,将{id1,id3}归为y1类,假设y1是30岁的男性,则{id1,id3}标记为30岁的男性。类似可计算id4与所有样本的相似度,假设id4与y2的相似度最高,y2是28岁的女性,则id4标记为28岁的女性。由此推断出使用tvid1这个电视的家庭有两个人,分别是30岁的男性,28岁的女性。

图2为本发明实施例数据处理装置的结构示意图,如图2所示,包括:确定模块、统计模块、计算模块和分类模块。其中,

确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识(id)。

其中,智能设备的行为数据包括:智能设备的ip地址、智能卡id、开机时间和关机时间。

其中,预设时间段可以为一个默认值,如为一个月,也可以为15天;也可以由管理员根据自身需求进行设定。

其中,确定模块按照收集的行为数据确定与该智能设备关联的终端id包括:在该智能设备的开机时间到关机时间内查找与智能设备的ip地址相同的终端id并记录查找到的次数;

获取大于或等于预设次数阈值的查找到的次数对应的与智能设备的ip地址相同的终端id;

关联智能卡id与获得的终端id。

其中,预设次数阈值可以为一个默认值,如为5,也可以为3天;也可以由管理员根据自身需求进行设定。

统计模块,用于统计在该预设时间段内,与智能设备关联的终端id访问各个预设网站的上网行为向量。

其中,统计模块,具体用于:获取在该预设时间段内关联的终端id的上网行为数据;

根据获得的上网行为数据统计与该智能设备关联的终端id访问各个预设网站的上网行为向量。其中,上网行为数据包括:终端id、访问网址和访问时间。

其中,上网行为向量包括终端id访问各个预设网站的次数。需要说明的是上网行为向量的维度与预设网站的个数相等。

计算模块,用于分别计算终端id的上网行为向量与各个样本的上网行为向量之间的第一相似度。

其中,计算模块按照公式(1)计算第一相似度:

其中,用户a(即终端id可以看成a)的上网行为向量为(a1,...,an),样本b的上网行为向量为(b1,...,bn)。

分类模块,用于根据计算出的第一相似度确定终端id的身份类别。

其中,当与该智能设备关联的终端id是两个或者两个以上时,分类模块,具体用于:

分别确定各个分类后的终端id的第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为分类后的该终端id的身份类别。

其中,当与该智能设备关联的终端id是一个时,分类模块,具体用于:

确定终端id的第一相似度中的最大第一相似度对应的样本的上网行为向量;

在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;

将查找到的样本的属性信息作为终端id的身份类别。

进一步地,当与该智能设备关联的终端id是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端id进行分类。

其中,处理模块,具体用于:

分别计算与智能设备关联的终端id中任意两个终端id的上网行为向量之间的第二相似度;

判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;

当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端id分为相同类并计算分类后的终端id的上网行为向量;

计算分类后的终端id中任意两个终端id的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。

其中,处理模块按照公式(2)计算任意两个终端id的上网行为向量之间的第二相似度:

其中,id1和id2分别为终端1的id和终端2的id,d1的上网行为向量为(f1,...,fn),id2的上网行为向量为(y1,...,yn)。

其中,相似度阈值可以为一个默认值,如为0.8,也可以为0.6;也可以由管理员根据自身需求进行设定。

其中,处理模块计算分类后的终端id的上网行为向量包括:计算分为相同类的两个终端id的上网行为向量的向量和值作为分为相同类的两个终端id的上网行为向量。

举例说明,假设分为相同类的两个终端id分别为终端id1和终端id2,其中,终端id1的上网行为向量为(f1,...,fn),终端id2的上网行为向量为(y1,...,yn),则分为相同类的终端id1和终端id2可以合并成一个终端id,其中合并后的终端id可以在终端id1和终端id2中任选一个,也可以定义一个新的id,则其上网行为向量为(f1+y1,...,fn+yn);具体的终端id1的上网行为向量为(6,9,10,20,0,0…,0),终端id2的上网行为向量为(4,7,12,19,0,0…,0),则合并后的终端id的上网行为向量为(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。

进一步地,该装置还包括存储模块,用于:收集并对应存储各个样本的上网行为向量以及各个样本的属性信息。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1