居民区入住率的计算方法与流程

文档序号:16608885发布日期:2019-01-14 21:24阅读:2024来源:国知局
居民区入住率的计算方法与流程

本发明涉及互联网应用技术领域,更具体地,涉及居民入住率的计算方法。



背景技术:

传统居民区入住率统计主要采用夜晚开灯情况或者上门调查等手段,需要依赖大量人力和时间。现有的手段无法有效感知入住的流动情况,同时投入产出不匹配,结果数据价值单一。

随着云计算、大数据、人工智能的不断发展,数据成为重要资产,因此以问题为导向,对传统手段和效果存在的诸多壁垒积极分析研究,探索构建互联网环境下的居民区入住模型具有重要的意义。

用户画像即用户信息标签化,就是通过收集和分析用户的社会属性、生活习惯、消费行为等数据后,抽象出一个用户全貌,用户画像是支撑个性化推荐、自动化营销等大数据应用的基本方式。通常帮助企业快速找到用户需求等更广泛的信息。但现有的用户画像构建过程中对用户的数据分析不全面、不准确,导致构建的用户画像并不能很好地体现用户全貌。



技术实现要素:

本发明提供一种克服上述问题或者至少部分地解决上述问题的居民入住率的计算方法。

根据本发明的一个方面,提供一种居民区入住率的计算方法,包括:选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;

将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

优选地,所述居民区入住模型的训练方法,具体为:

获取种子用户的入住信息,所述入住信息包括用户画像和用户入住特征,所述用户入住特征为与用户居住行为相关的信息;

获取种子用户所住的居民区,将所述种子用户所住的居民区作为所述入住信息对应的标注结果;

将所述种子用户的入住信息和标注结果作为居民区入住模型的训练样本,训练所述居民区入住模型。

优选地,所述根据每个用户的互联网数据和运营商数据,获得对应的用户画像,具体为:

对于选取的任意一个用户,获取该用户的互联网数据和运营商数据并进行数据清洗;

对数据清洗后的所述互联网数据和运营商数据进行特征提取,得到所述用户的属性特征;

基于预先创建的多维特征库训练的标签分类,根据所述用户的属性特征在所述多维特征库中进行匹配,获得所述用户的多维度属性标签;

根据所述多维度属性标签构建对应该用户的用户画像。

优选地,所述对数据清洗后的所述互联网数据和运营商数据进行特征提取,得到所述用户的属性特征,具体为:

分别通过离线和在线方式对预处理后的所述互联网数据和运营商数据进行分析处理,获得所述用户的属性特征。

优选地,所述多维度属性标签至少包括行为习惯属性标签、兴趣属性标签、收入属性标签以及社会属性标签。

优选地,所述以预先创建的多维特征库包括运营商基础信息库、终端类型基础库、访问网站及行为规律统计特征库、用户群体分类库、生活行为规律统计特征库。

优选地,所述基于预先创建的多维特征库训练的标签分类之前,还包括创建所述多维特征库,其中:

建立所述运营商基础信息库包括:对所有用户的所属运营商、网络类型、归属地、漫游地、通信套餐、宽带数据中的至少一种进行提取分析,累积得到所述运营商基础信息库;

建立所述终端类型基础库包括:对用户的终端型号、品牌类型、终端操作系统中的至少一个信息进行提取分析,累积得到所述终端类型基础库;

建立所述访问网站及行为规律统计特征库包括:对用户常去访问的网站以及行为进行提取分析,累积得到访问网站及行为规律统计特征库;

建立所述用户群体分类库包括:对具有相同特征标签或者相同属性或者相同业务特征的用户进行特征合并,对用户群体进行分类,形成所述用户群体分类库;

建立生活行为规律统计特征库包括:对用户的作息时间、饮食特定、消费偏好进行提取分析,累积得到生活行为规律统计特征库。

优选地,所述用户入住特征包括用户的快递地址、移动支付缴费地址、出行目的地和出发地。

根据本发明的另一个方面,还提供一种居民入住率的计算装置,包括:

用户画像模块,用于选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;

入住率计算模块,用于将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

根据本发明的另一个方面,还提供一种计算设备,包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本发明实施例的居民区入住率的计算方法及其所有可选实施例的方法。

本发明提出的居民区入住率的计算方法,首先改变了传统由人工统计小区用电/开灯情况或者上门调查的采集方式,通过采集用户的互联网数据和运营商数据的方式,达到了速度更快、可动态更新采集数据的优势;其次改变了传统单纯通过统计学方法计算入住率的分析方式,通过根据互联网数据和运营商数据构建用户的用户画像,能够将用户标签化,达到高度精炼准确的目的,进而为后续计算居民区入住率提供了坚实准确的基础;再次通过构建居民区入住模型达到了将用户画像和用户所住小区相匹配的效果,这样通过输入用户画像,即可获知用户是否住在居民区中,通过统计居住在小区的用户的比例可以知道居民区的入住率,效率更高。

附图说明

图1为根据本发明实施例的居民入住率的计算方法的流程示意图;

图2为根据本发明实施例的获得用户画像的流程示意图;

图3为根据本发明实施例的居民入住率的计算装置的功能框图;

图4为根据本发明实施例的用户画像模块的功能框图;

图5为根据本发明实施例的计算设备的设备框图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

为了克服现有技术的上述问题,本发明实施例提供一种居民入住率的计算方法,参见图1,图1为本发明实施例的居民入住率的计算方法的流程示意图,包括:

101、选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;

本发明实施例摒弃了现有技术直接通过观察小区夜间开灯比例或者上门调查的方式,而是先根据居民的互联网数据和运营商数据构建用户画像,形成实际用户的虚拟代表。用户的互联网数据记录了相当多的信息,例如从购物信息、快递信息和打车信息中可以推测用户的常用地址。在具体选取居民区周边一定范围内的若干个用户的过程中,可以使用运营商数据中的手机上网数据,获取在居民区周边3公里范围内产生手机上网的用户,并以此作为选取的目标用户,也可以根据互联网数据中购物网站(如淘宝、唯品会)、生活网站(如58同城、美团)、房屋网站(如途家、好房子网)以此居民区作为地址的用户选为目标用户。

102、将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

需要说明的是,本发明实施例的居民区入住率的计算方法,首先改变了传统由人工统计小区用电/开灯情况或者上门调查的采集方式,通过采集用户的互联网数据和运营商数据的方式,达到了速度更快、可动态更新采集数据的优势;其次改变了传统单纯通过统计学方法计算入住率的分析方式,通过根据互联网数据和运营商数据构建用户的用户画像,能够将用户标签化,达到高度精炼准确的目的,进而为后续计算居民区入住率提供了坚实准确的基础;再次通过构建居民区入住模型达到了将用户画像和用户所住小区相匹配的效果,这样通过输入用户画像,即可获知用户是否住在居民区中,通过统计居住在小区的用户的比例可以知道居民区的入住率,效率更高。

例如从某用户的手机上网数据获知该用户的用户画像包括“夜猫子”标签,并且该用户上网的地点在居民区中,可知该用户晚上住在居民区中,再根据该用户的用户入住特征,可知该用户大部分打车的目的地和出发地都在居民区中,将用户画像和用户入住特征输入至居民区入住模型中,获知该用户确实住在居民区中。

在上述实施例的基础上,所述居民区入住模型的训练方法,具体为:

获取种子用户的入住信息,所述入住信息包括用户画像和用户入住特征,所述用户入住特征为与用户居住行为相关的信息;

获取种子用户所住的居民区,将所述种子用户所住的居民区作为所述入住信息对应的标注结果;

将所述种子用户的入住信息和标注结果作为居民区入住模型的训练样本,训练所述居民区入住模型。

在上述实施例的基础上,所述根据每个住户的互联网数据和运营商数据,获得对应的用户画像,参见图2,图2为本发明实施例的获得用户画像的流程示意图具体为:

201、对于选取的任意一个住户,获取该住户的互联网数据和运营商数据并进行数据清洗。

需要说明的是,通过对互联网数据和运营商数据进行数据清洗,使得互联网数据和运营商数据按照统一规范进行格式化,因为互联网的信息满足4a(anyone、anytime、anywhere、anything)特效,这些非结构化信息可以被统一表示为何时(when)、何地(where)、与谁(who)和关于什么(what)被分享给谁(who)。因此设计一种表述格式:who,when,whereandwhattowhom,以此达到使数据清理后的互联网数据和运营商数据能够统一格式。

202、对数据清洗后的所述互联网数据和运营商数据进行特征提取,得到所述住户的属性特征。

需要说明的是,通过特征提取可以得到用户的属性特征。用户的属性特征是指能够标识用户特征的关键信息。比如用户的年龄、收入水平都属于属性特征。

203、基于预先创建的多维特征库训练的标签分类,根据所述住户的属性特征在所述多维特征库中进行匹配,获得所述住户的多维度属性标签。

需要说明的是,本发明实施例的多维特征库是指多个不同特征库组合在一起的统称。其中特征库是经过对大数据分析统计,并不断训练而得到的特征与不同标签分类对应的特征库。比如对所有用户的互联网数据进行分析统计。确定所访问网址中含预定字段为租房网站,将含有该预定字段的网站归并作为特征,而租房作为该特征对应的标签。在后续进行匹配时,只要用户访问的网站属于包含该预设字段的网站,即通过特征库的匹配可知用户的一个多维度属性标签为租房。

204、根据所述多维度属性标签构建对应该住户的用户画像。

标签通常是任务规定的高度精炼的特征标识。如年龄段标签:25~35岁,地域标签:武汉。标签呈现的两个重要特征为:1、语义化,人和计算机能够方便地理解标签的含义;2、短文本,标签本身无需再做过多的文本分析工作。可以理解的是,用户画像即用户所有标签的总和。

通过上述步骤所得的多维度标签,为用户打算多维度标签,或者对已经打上的多维度标签进行更新,以完成用户画像的构建。

在上述实施例的基础上,所述对数据清洗后的所述互联网数据和运营商数据进行特征提取,得到所述住户的属性特征,具体为:

分别通过离线和在线方式对预处理后的所述互联网数据和运营商数据进行分析处理,获得所述住户的属性特征。

在本发明实施例中,可以通过在线或离线相结合的方式对数据清理后的互联网数据和运营商数据进行分析处理,进而得到用户的属性特征。在线处理方式只能对当前的互联网数据和运营商数据进行处理,而离线处理方式可以结合历史存储数据进行分析处理,从而对在线处理方式没有提取的用户属性特征进行补充和完善,使得提取的用户属性更加全面完整。

在上述实施例的基础上,所述多维度属性标签至少包括行为习惯属性标签、兴趣属性标签、收入属性标签以及社会属性标签。

本发明实施例中用户的多维度属性标签是构建用户画像的主要要素。本发明实施例中的多维度属性标签是指从多个维度反应用户特征的属性标签。其中,本发明实施例中的多维度属性标签包括但不限于行为习惯属性标签、兴趣属性标签、收入属性标签以及社会属性标签。更进一步地,行为习惯属性标签包括但不限于常登陆的网站/app、常光临的消费场所、常购买的消费品等。兴趣属性标签包括但不限于体育、音乐、社交、购物、旅游、理财等。收入属性标签包括但不限于职业、银行卡、会员卡、交通工具等。社会属性标签包括但不限于学历、行业、性别等。其中用户的社会属性标签是通常体现的用户静态属性,是相对稳定的信息。而行为习惯属性标签、兴趣属性标签和收入属性标签则体现的是用户动态属性,是随时间变化的属性。

在具体实现时,可通过以下方式分析确定用户的动态属性:

1、统计用户常登陆的网站/app、常光临的消费场所、常购买的消费品等,从而对用户的行为习惯特征属性进行分析。

2、从用户内容偏好/用户业务偏好等方面综合分析用户的兴趣特征属性。比如购买商品类型、浏览网页内容、搜索内容、下载内容等分析用户的兴趣特征属性。比如用户浏览、搜索的大部分为购物网站可以确定购物是用户的一个兴趣特征属性。

在上述实施例的基础上,所述以预先创建的多维特征库包括运营商基础信息库、终端类型基础库、访问网站及行为规律统计特征库、住户群体分类库、生活行为规律统计特征库。

在本发明实施例中,多维特征库是实现本发明方法的基础和关键,因此,本发明实施例进一步提供了多维特征库的建立方法,一下分别对本发明设计的多维特征库的建立进行详细描述。

建立所述运营商基础信息库包括:对所有住户的所属运营商、网络类型、归属地、漫游地、通信套餐、宽带数据中的至少一种进行提取分析,累积得到所述运营商基础信息库;

建立所述终端类型基础库包括:对住户的终端型号、品牌类型、终端操作系统中的至少一个信息进行提取分析,累积得到所述终端类型基础库;

建立所述访问网站及行为规律统计特征库包括:对住户常去访问的网站以及行为进行提取分析,累积得到访问网站及行为规律统计特征库;

建立所述住户群体分类库包括:对具有相同特征标签或者相同属性或者相同业务特征的住户进行特征合并,对住户群体进行分类,形成所述住户群体分类库;

建立生活行为规律统计特征库包括:对住户的作息时间、饮食特定、消费偏好进行提取分析,累积得到生活行为规律统计特征库。

本发明还提供了一种居民入住率的计算装置,图3示出了本发明实施例的居民入住率的计算装置的功能框图,如图所示,该计算装置包括:

用户画像模块301,选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征。

本发明实施例摒弃了现有技术直接通过观察小区夜间开灯比例或者上门调查的方式,而是先根据居民的互联网数据和运营商数据构建用户画像,形成实际用户的虚拟代表。用户的互联网数据记录了相当多的信息,例如从购物信息、快递信息和打车信息中可以推测用户的常用地址。在具体选取居民区周边一定范围内的若干个用户的过程中,可以使用运营商数据中的手机上网数据,获取在居民区周边3公里范围内产生手机上网的用户,并以此作为选取的目标用户,也可以根据互联网数据中购物网站(如淘宝、唯品会)、生活网站(如58同城、美团)、房屋网站(如途家、好房子网)以此居民区作为地址的用户选为目标用户。

入住率计算模块302,将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

需要说明的是,本发明实施例的居民区入住率的计算方法,首先改变了传统由人工统计小区用电/开灯情况或者上门调查的采集方式,通过采集用户的互联网数据和运营商数据的方式,达到了速度更快、可动态更新采集数据的优势;其次改变了传统单纯通过统计学方法计算入住率的分析方式,通过根据互联网数据和运营商数据构建用户的用户画像,能够将用户标签化,达到高度精炼准确的目的,进而为后续计算居民区入住率提供了坚实准确的基础;再次通过构建居民区入住模型达到了将用户画像和用户所住小区相匹配的效果,这样通过输入用户画像,即可获知用户是否住在居民区中,通过统计居住在小区的用户的比例可以知道居民区的入住率,效率更高。

例如从某用户的手机上网数据获知该用户的用户画像包括“夜猫子”标签,并且该用户上网的地点在居民区中,可知该用户晚上住在居民区中,再根据该用户的用户入住特征,可知该用户大部分打车的目的地和出发地都在居民区中,将用户画像和用户入住特征输入至居民区入住模型中,获知该用户确实住在居民区中。

在上述实施例的基础上,本发明实施例的居民区入住率的计算装置还包括:

居民区入住模型训练模块,用于获取种子用户的入住信息,所述入住信息包括用户画像和用户入住特征,所述用户入住特征为与用户居住行为相关的信息;获取种子用户所住的居民区,将所述种子用户所住的居民区作为所述入住信息对应的标注结果;将所述种子用户的入住信息和标注结果作为居民区入住模型的训练样本,训练所述居民区入住模型。

图4示出了本发明实施例的用户画像模块的功能框图,如图4所示,用户画像模块包括:

数据清洗单元401,用于对于选取的任意一个住户,获取该住户的互联网数据和运营商数据并进行数据清洗;

需要说明的是,通过对互联网数据和运营商数据进行数据清洗,使得互联网数据和运营商数据按照统一规范进行格式化,因为互联网的信息满足4a(anyone、anytime、anywhere、anything)特效,这些非结构化信息可以被统一表示为何时(when)、何地(where)、与谁(who)和关于什么(what)被分享给谁(who)。因此设计一种表述格式:who,when,whereandwhattowhom,以此达到使数据清理后的互联网数据和运营商数据能够统一格式。

属性特征单元402,用于对数据清洗后的所述互联网数据和运营商数据进行特征提取,得到所述住户的属性特征。

需要说明的是,通过特征提取可以得到用户的属性特征。用户的属性特征是指能够标识用户特征的关键信息。比如用户的年龄、收入水平都属于属性特征。

标签生成单元403,用于基于预先创建的多维特征库训练的标签分类,根据所述住户的属性特征在所述多维特征库中进行匹配,获得所述住户的多维度属性标签。

需要说明的是,本发明实施例的多维特征库是指多个不同特征库组合在一起的统称。其中特征库是经过对大数据分析统计,并不断训练而得到的特征与不同标签分类对应的特征库。比如对所有用户的互联网数据进行分析统计。确定所访问网址中含预定字段为租房网站,将含有该预定字段的网站归并作为特征,而租房作为该特征对应的标签。在后续进行匹配时,只要用户访问的网站属于包含该预设字段的网站,即通过特征库的匹配可知用户的一个多维度属性标签为租房。

画像生成单元404,根据所述多维度属性标签构建对应该住户的用户画像。

标签通常是任务规定的高度精炼的特征标识。如年龄段标签:25~35岁,地域标签:武汉。标签呈现的两个重要特征为:1、语义化,人和计算机能够方便地理解标签的含义;2、短文本,标签本身无需再做过多的文本分析工作。可以理解的是,用户画像即用户标签的总和。

通过上述步骤所得的多维度标签,为用户打算多维度标签,或者对已经打上的多维度标签进行更新,以完成用户画像的构建。

图5示出了本发明实施例的计算设备的设备框图,参见图5,该接收端包括:处理器(processor)501、存储器(memory)502和总线503;其中,所述处理器501和存储器502通过所述总线503完成相互间的通信。

所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

本发明另一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

本发明另一实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:选取居民区周边一定范围内的若干个用户,根据每个用户的互联网数据和运营商数据,获得对应的用户画像和用户入住特征;将获得的所有用户画像和用户入住特征输入至预先训练的居民区入住模型中,获知各用户是否居住在所述居民区中,根据居住在所述居民区中的用户的比例获知居民区入住率。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1