一种用户标签的生成方法及系统与流程

文档序号:18353047发布日期:2019-08-06 22:42阅读:205来源:国知局
一种用户标签的生成方法及系统与流程

本发明涉及互联网技术领域,具体而言,涉及一种用户标签的生成方法及系统。



背景技术:

随着互联网,尤其是电商的快速发展,越来越多的人已经习惯通过互联网浏览新闻、看电影、购物等。

目前互联网平台、商家的用户信息只有注册时填写的基本信息,没有其他重要信息,比如职业、收入、年龄等,所以在做运营推送、广告推送、售后服务时,对每个用户都是一视同仁,没有区别对待。这使得运营推送和广告推送对部分用户来说可能是垃圾信息,对用户会造成不必要的干扰,降低用户体验。

由此可见,研发一种能有效解决上述问题的用户标签的生成方法及系统是目前急需解决的技术问题。



技术实现要素:

本发明解决的问题是在做运营推送、广告推送、售后服务时,对用户会造成不必要的干扰,降低用户体验。

为解决上述问题,本发明提供一种用户标签的生成方法,其特征在于,包括以下步骤:

s100、收集用户在多个平台上的访问数据;

s200、提取所述访问数据的关键字;

s300、根据所述访问数据的关键字生成用户标签。

这样,可以根据用户标签有针对性地对不同的用户进行运营推送、广告推送、售后服务等,避免运营推送和广告推送对部分用户会造成不必要的干扰,减少客户投诉,从而提高用户体验。

可选的,所述步骤s200,提取所述访问数据的关键字,包括:

s210、从所述访问数据中筛选出有效数据;

s220、根据不同的平台关键字提取规则从所述多个平台中提取所述有效数据的关键字;

s230、若从所述多个平台中未提取到所述有效数据的关键字,则根据公共关键字提取规则提取所述有效数据的关键字。

这样,在提取访问数据的关键字时,可先过滤掉无效数据,降低了提取工作量,提高了效率;且针对性的通过不同的关键字提取规则提取关键字,更加准确、科学,保证了访问数据关键字的真实性和可靠性。

可选的,所述步骤s210,从所述访问数据中筛选出有效数据,包括:

s211、根据所述访问数据的类型,分别对所述多个平台的所述访问数据进行数据分类;

s212、将分类后的所述访问数据的格式转化为统一规格;

s213、从统一规格后的所述访问数据中筛选出有效数据。

这样,在进行有效数据筛选时,可先对访问数据进行分类和统一规格,便于对同一类型的访问数据进行统一筛选,优化了筛选流程,提高了筛选效率。

可选的,所述步骤s300,根据所述访问数据的关键字生成用户标签,包括:

s310、将所述访问数据的关键字与预设标签的关键字进行比对,判断两者是否相同;

s320、若是,则将所述预设标签设置为所述访问数据的指定标签;若否,则将所述访问数据的关键字组合生成所述访问数据的指定标签;

s330、分别统计每组用户数据的数量,并分别计算每组所述用户数据的数量在所述访问数据的总数量中的占比,其中,所述用户数据为所述访问数据中所述指定标签相同的数据的集合;

s340、根据多组所述用户数据的占比和多组所述用户数据的标签的属性生成用户标签。

这样,可根据访问数据的关键字生成用户标签。

可选的,所述步骤s340,根据多组所述用户数据的占比和多组所述用户数据的标签的属性生成用户标签,包括:

s341、分别将多组所述用户数据的占比与预设比值进行比较,判断所述用户数据的占比是否不小于所述预设比值;

s342、若所述用户数据的占比不小于所述预设比值,则判断所述用户数据的标签的类别为单选类还是多选类;

s343、若所述用户数据的标签的类别为多选类,则提取所述用户数据的标签存入标签池中;若所述用户数据的标签的类别为单选类,则判断所述用户数据的标签的属性的种类是否唯一;

s344、若唯一,则提取所述用户数据的标签存入所述标签池中;若不唯一,则判断标签类别相同的多个所述用户数据的占比大小是否相同;

s345、若是,则提取末尾数据的标签存入所述标签池中,其中,所述末尾数据为标签类别相同的多个所述用户数据中,最后接收到的一条数据;若否,则提取标签类别相同的多个所述用户数据中,占比最大的所述用户数据的标签存入所述标签池中;

s346、将所述标签池中的标签设为用户标签。

这样,可以避免最后得出的用户标签中出现多个单选类标签,从而进一步提高生成用户标签的准确性和正确性。

可选的,所述预设比值的范围为8%-12%。

此范围内的预设比值,即可保证标签池中标签的全面性,又避免了冗余的标签。

相对于现有技术,本发明所述的用户标签生成方法具有以下优势:

本发明所述的用户标签生成方法可以根据用户标签有针对性地对不同的用户进行运营推送、广告推送、售后服务等,避免运营推送和广告推送对部分用户会造成不必要的干扰,减少客户投诉,从而提高用户体验。

本发明的另一目的在于提供一种用户标签生成系统,以解决在做运营推送、广告推送、售后服务时,对用户会造成不必要的干扰,降低用户体验的问题。

为达到上述目的,本发明的技术方案是这样实现的:

一种用户标签生成系统,其特征在于,包括:

数据收集单元,其用于收集用户在多个平台上的访问数据;

数据分析单元,其用于提取所述访问数据的关键字;

用户标签生成单元,其用于根据所述访问数据的关键字生成用户标签。

可选的,所述数据分析单元包括:

数据过滤模块,其用于从所述访问数据中筛选出有效数据;

平台关键字提取模块,其用于根据不同的平台关键字提取规则从所述多个平台中提取所述有效数据的关键字;

公共关键字提取模块,其用于若从所述多个平台中未提取到所述有效数据的关键字,则根据公共关键字提取规则提取所述有效数据的关键字。

可选的,所述数据过滤模块包括:

数据分类子模块,其用于根据所述访问数据的类型,分别对所述多个平台的所述访问数据进行数据分类;

格式转换子模块,其用于将分类后的所述访问数据的格式转化为统一规格;

数据筛选子模块,其用于从统一规格后的所述访问数据中筛选出有效数据。

可选的,所述用户标签生成单元包括:

关键字比对模块,其用于将所述访问数据的关键字与预设标签的关键字进行比对;

数据标签生成模块,其用于若所述访问数据的关键字与预设标签的关键字相同,则将所述预设标签设所述访问数据的指定标签;

计算模块,其用于分别统计多个用户数据的数量,并分别计算多个所述用户数据的数量在所述访问数据的总数量中的占比,其中,所述用户数据为所述访问数据中所述指定标签相同的数据;

用户标签生成模块,其用于根据多个所述用户数据的占比和多个所述用户数据的标签的属性生成用户标签。

可选的,所述用户标签生成单元还包括:

关键字组合模块,其用于若所述访问数据的关键字与预设标签的关键字不同,则将所述访问数据的关键字组合生成所述访问数据的指定标签。

所述用户标签的生成系统与上述用户标签的生成方法相对于现有技术所具有的优势相同,在此不再赘述。

附图说明

图1为本发明实施例中用户标签的生成方法的流程图;

图2为本发明实施例中步骤s200的流程图;

图3为本发明实施例中步骤s210的流程图;

图4为本发明实施例中步骤s300的流程图;

图5为本发明实施例中步骤s340的流程图;

图6为本发明实施例中用户标签的生成系统的原理图;

图7为本发明实施例中数据分析单元的原理图;

图8为本发明实施例中数据过滤模块的原理图;

图9为本发明实施例中用户标签生成单元的原理图;

图10为本发明实施例中用户标签生成模块的原理图。

附图标记说明:

10-数据收集单元,20-数据分析单元,21-数据过滤模块,211-数据分类子模块,212-数据筛选子模块,213-格式转化子模块,22-平台关键字提取模块,23-公共关键字提取模块,30-用户标签生成单元,31-关键字比对模块,32-数据标签生成模块,33-计算模块,34-用户标签生成模块,341-第一判断子模块,342-第二判断子模块,343-标签提取子模块,344-第三判断子模块,345-标签设置子模块,35-关键字组合模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

在本发明的描述中,需要说明的是,术语“上”、“下”、“左”、“右”、“高”、“低”等指示的方向或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

结合图1所示,本实施例提供一种用户标签的生成方法,包括以下步骤:

步骤s100、收集用户在多个平台上的访问数据;

在步骤s100中,通过手机号在多个平台上收集用户的访问数据,其中,平台包括但不限于购物网、音视频网、社交网以及新闻网等。比如使用爬虫工具在微博、百度、知乎等热门的平台根据手机号查询用户信息、评论、发表文章、关注话题等数据。用户在访问购物网平台时,在平台上的操作都会生成相关的操作日志,保存在elk日志分析系统中,这些操作日志包括但不限于购物网平台的基本功能使用日志、界面使用日志、电商下单日志、消息推送点击日志、智能功能使用日志等;用户在访问音视频网平台时,收集的访问数据包括但不限于用户访问的视频id、以及用户针对该视频进行的评论、弹幕、下载、收藏或分享等用户行为。

步骤s200、提取所述访问数据的关键字;

具体的,利用elasticsearch(分布式多用户能力的全文搜索引擎)的分词功能提取出访问数据的关键字。另外,需要解释说明是的,前文以及下文中所说的关键字都是指一个字或多个字的词组。

步骤s300、根据所述访问数据的关键字生成用户标签。

本实施例中的用户标签的生成方法,可以根据用户标签有针对性地对不同的用户进行运营推送、广告推送、售后服务等,避免运营推送和广告推送对部分用户会造成不必要的干扰,减少客户投诉,从而提高用户体验。

可选的,结合图2所示,步骤s200具体包括:

步骤s210、从所述访问数据中筛选出有效数据;

在步骤s210中,数据库中预先设置了数据筛选规则表,如果访问数据的关键字与数据筛选规则表中的关键字匹配,就直接将该条访问数据设置为无效数据。可选的,如果数据被判断为无效时,后续将不对该数据进行处理,直接删除。而那些没有被设置成无效数据的数据即为有效数据。其中,数据筛选规则表中设置了需要筛选的关键字,例如,筛选不文明的评论时,可以在数据筛选规则表中设置与脏话、反革命、消极等相关的词组;在筛选垃圾广告时,可以在数据筛选规则表中设置与微信、淘宝、网站链接、打折等相关的词组。

步骤s220、根据不同的平台关键字提取规则从所述多个平台中提取所述有效数据的关键字;

在步骤s220中,不同平台的访问数据会去对应平台的关键字提取系统中提取关键字,比如说,购物平台的数据会去购物网关键字提取系统中提取关键字,售后平台的数据会去售后关键字提取系统中提取关键字等。每个平台的关键字都预先设置有对应的关键字提取规则,且不同平台的平台关键字提取规则不同,例如,购物平台的关键字提取规则中会设置商品型号、价格、数量、收货地址等则,售后关键字提取规则中会设置故障类型、故障现象等。

步骤s230、若从所述多个平台中未提取到所述有效数据的关键字,则根据公共关键字提取规则提取所述有效数据的关键字。

在步骤s230,如果某一条有效数据根据平台关键字提取规则没有提取到关键字,则会根据公共关键字提取规则来提取关键字。如果根据公共关键字提取规则还是没有提取到关键字,就将数据转入备份数据库中,待重新设置平台关键字提取规则时,再从备份数据库中提取访问数据的关键字。

这样,通过步骤s210-s230,本实施例在提取访问数据的关键字时,可先过滤掉无效数据,降低了提取工作量,提高了效率;且针对性的通过不同的关键字提取规则提取关键字,更加准确、科学,保证了访问数据关键字的真实性和可靠性。

可选的,结合图3所示,步骤s210具体包括:

步骤s211、根据所述访问数据的类型,分别对所述多个平台的所述访问数据进行数据分类;

其中,多个平台的访问数据会先发送至消息队列服务中,不同类型的数据会发送至不同的消息主题用以数据分类,例如日志数据会发送至日志主题、电商订单数据会发送至电商订单主题等,系统会订阅消息队列服务的消息主题,只要有访问数据发送至消息队列服务,系统就会获得该数据。

步骤s212、将分类后的所述访问数据的格式转化为统一规格;

步骤s213、从统一规格后的所述访问数据中筛选出有效数据。

这样,通过步骤s211-s213,本实施例在进行有效数据筛选时,可先对访问数据进行分类和统一规格,便于对同一类型的访问数据进行统一筛选,优化了筛选流程,提高了筛选效率。

可选的,结合图4所示,步骤s300具体包括:

步骤s310、将所述访问数据的关键字与预设标签的关键字进行比对,判断两者是否相同;

其中,预设标签为预先设置的标签,其关键字可实时更新。

步骤s320、若是,则将所述预设标签设置为所述访问数据的指定标签;若否,则将所述访问数据的关键字组合生成所述访问数据的指定标签;

其中,将每一条访问数据的关键字与每一个预设标签的关键字进行比对,若某一条访问数据的关键字与某个预设标签的关键字相同,则将此预设标签设置为此条访问数据的指定标签。例如预先设置标签“男性”的关键字为“剃须刀”,若某一条访问数据的关键字也为“剃须刀”,则此访问数据的指定标签为“男性”。

步骤s330、分别统计每组用户数据的数量,并分别计算每组所述用户数据的数量在所述访问数据的总数量中的占比,其中,所述用户数据为所述访问数据中所述指定标签相同的数据的集合;

例如,若指定标签为“男性”的访问数据有10条,则此10条访问数据为一组用户数据。

步骤s340、根据多组所述用户数据的占比和多组所述用户数据的标签的属性生成用户标签。

这样,通过步骤s310-s340,本实施例可根据访问数据的关键字生成用户标签。

可选的,结合图5所示,步骤s340具体包括:

步骤s341、分别将多个所述用户数据的占比与预设比值进行比较,判断所述用户数据的占比是否不小于所述预设比值;

步骤s342、若所述用户数据的占比不小于所述预设比值,则判断所述用户数据的标签的类别为单选类还是多选类;

其中,单选类标签指的是标签属性只有一种可能的标签,例如性别(只能是男和女中的一种)、年龄阶段(只能是青少年、成年人、老年人中的一种)、收入(只能是高、中、低中的一种)等,而多选类标签指的是标签属性可以有多种可能的标签,例如职业(可以有兼职)、爱好(可以有多个爱好)等。

步骤s343、若所述用户数据的标签的类别为多选类,则提取所述用户数据的标签存入标签池中;若所述用户数据的标签的类别为单选类,则判断所述用户数据的标签的属性的种类是否唯一;

步骤s344、若唯一,则提取所述用户数据的标签存入所述标签池中;若不唯一,则比较标签类别相同的多个所述用户数据的占比大小;

步骤s345、若是,则提取末尾数据的标签存入所述标签池中,其中,所述末尾数据为标签类别相同的多个所述用户数据中,最后接收到的一条数据;若否,则提取标签类别相同的多个所述用户数据中,占比最大的所述用户数据的标签存入所述标签池中;

步骤s346、将所述标签池中的标签设为用户标签。

这样,通过步骤s341-s346,可以避免最后得出的用户标签中出现多个单选类标签,从而进一步提高生成用户标签的准确性和正确性。

可选的,预设比值的范围为8%-12%。若预设比值太小,则标签池会存在过多的冗余标签;若预设比值太大,则无法保证标签池中标签覆盖的广度。经实际验证,此范围内的预设比值,即可保证标签池中标签的全面性,又避免了冗余的标签。

结合图6所示,本实施例还提供一种用户标签生成系统,包括:

数据收集单元10,其用于收集用户在多个平台上的访问数据;

数据分析单元20,其用于提取所述访问数据的关键字;

用户标签生成单元30,其用于根据所述访问数据的关键字生成用户标签。

本实施例中的用户标签的生成系统可以根据用户标签有针对性地对不同的用户进行运营推送、广告推送、售后服务等,避免运营推送和广告推送对部分用户会造成不必要的干扰,减少客户投诉,从而提高用户体验。

可选的,结合图7所示,数据分析单元20包括:

数据过滤模块21,其用于从所述访问数据中筛选出有效数据;

平台关键字提取模块22,其用于根据不同的平台关键字提取规则从所述多个平台中提取所述有效数据的关键字;

公共关键字提取模块23,其用于若从所述多个平台中未提取到所述有效数据的关键字,则根据公共关键字提取规则提取所述有效数据的关键字。

这样,本实施例在提取访问数据的关键字时,可先过滤掉无效数据,降低了提取工作量,提高了效率;且针对性的通过不同的关键字提取规则提取关键字,更加准确、科学,保证了访问数据关键字的真实性和可靠性。

可选的,结合图8所示,数据过滤模块21包括:

数据分类子模块211,其用于根据所述访问数据的类型,分别对所述多个平台的所述访问数据进行数据分类;

格式转换子模块212,其用于将分类后的所述访问数据的格式转化为统一规格;

数据筛选子模块213,从统一规格后的所述访问数据中筛选出有效数据。

这样,本实施例在进行有效数据筛选时,可先对访问数据进行分类和统一规格,便于对同一类型的访问数据进行统一筛选,优化了筛选流程,提高了筛选效率。

可选的,结合图9所示,用户标签生成单元30包括:

关键字比对模块31,其用于将所述访问数据的关键字与预设标签的关键字进行比对;

数据标签生成模块32,其用于若所述访问数据的关键字与预设标签的关键字相同,则将所述预设标签设所述访问数据的指定标签;

计算模块33,其用于分别统计每组用户数据的数量,并分别计算每组所述用户数据的数量在所述访问数据的总数量中的占比,其中,所述用户数据为所述访问数据中所述指定标签相同的数据的集合;

用户标签生成模块34,其用于根据多组所述用户数据的占比和多个所述用户数据的标签的属性生成用户标签。

这样,可根据访问数据的关键字生成用户标签。

可选的,结合图9所示,用户标签生成单元30还包括:

关键字组合模块35,,其用于若所述访问数据的关键字与预设标签的关键字不同,则将所述访问数据的关键字组合生成所述访问数据的指定标签。

可选的,结合图10所示,用户标签生成模块34包括:

第一判断子模块341,其用于分别将多个所述用户数据的占比与预设比值进行比较,判断所述用户数据的占比是否不小于所述预设比值;

第二判断子模块342,其用于若所述用户数据的占比不小于所述预设比值,则判断所述用户数据的标签的类别为单选类还是多选类;

标签提取子模块343,其用于若所述用户数据的标签的类别为多选类,则提取所述用户数据的标签存入标签池中;第三判断子模块344,其用于若所述用户数据的标签的类别为单选类,则判断所述用户数据的标签的属性的种类是否唯一;

标签提取子模块343,其还用于若所述用户数据的标签的属性的种类唯一,则提取所述用户数据的标签存入所述标签池中;若不唯一,则判断标签类别相同的多个所述用户数据的占比大小是否相同;

标签提取子模块343,其还用于若标签类别相同的多个所述用户数据的占比大小相同,则提取末尾数据的标签存入所述标签池中,其中,所述末尾数据为标签类别相同的多个所述用户数据中,最后接收到的一条数据;若标签类别相同的多个所述用户数据的占比大小不同,则提取标签类别相同的多个所述用户数据中,占比最大的所述用户数据的标签存入所述标签池中;

标签设置子模块345,其用于将所述标签池中的标签设为用户标签。

这样,本实施例可分别提取不同类别的用户数据的标签。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1