本发明涉及计算机技术领域,具体涉及一种群组用户画像创建方法、装置、计算机可读存储介质。
背景技术:
用户画像,即企业通过收集分析消费者社会属性、生活习惯、消费行为等数据后,抽象出用户的商业全貌,进而挖掘潜在的商业价值。目前,用户画像包括个体用户画像和群体用户画像,前者主要用于个性化定制,后者主要用于对群体用户的定位。
现有与群体用户画像相关的产品比如包括bluemc营销捕手、小u管家等,通常为先创建个体用户画像(比如,通过确定每个用户的相关属性值等方式),再创建整个用户群体的画像(比如,通过统计各属性值在各属性中所占的比例等方式)。在上述方案中,由于用户信息存在的完整性、时效性等问题,导致个体用户画像可能存在误差,从而基于个体用户画像创建群体用户画像时,误差仍存在或被叠加,导致群体用户画像的精确度不高。
针对相关技术中群组用户画像精确度不高的问题,目前尚未提出有效的解决方案。
技术实现要素:
本发明的目的在于提供一种群组用户画像创建方法、装置、计算机设备及可读存储介质,进而在一定程度上克服上述现有技术中存在的问题,可提高群组用户画像的精确度。
本发明是通过下述技术方案来解决上述技术问题:
根据本发明的一个方面,提供了一种群组用户画像创建方法,包括如下步骤:
s01,获取即时通信群组用户的历史发言记录,选取即时通信群组中的任一用户作为目标用户;
s02,根据历史发言记录,获取目标用户发言中的关键信息;
s03,根据所述关键信息确定目标用户的特征信息;
s04,根据所述特征信息对所述目标用户标注相应的标签;
s05,根据用户标签按照预置维度对即时通信群组用户进行分类;
s06,根据分类结果创建即时通信群组用户画像。
进一步的,s02根据历史发言记录,获取目标用户发言中的关键信息,包括:
提取目标用户发言内容中的关键词;
s03根据所述关键信息确定目标用户的特征信息,包括:
判断所述关键词在目标用户发言内容中的出现次数是否超过预置次数;
若是,则将所述关键词确定为该目标用户的特征信息。
进一步的,s02根据历史发言记录,获取目标用户发言中的关键信息,包括:
提取目标用户发言内容中的关键词;
s03根据所述关键信息确定目标用户的特征信息,包括:
判断所述关键词在目标用户发言内容中的出现次数是否超过预置次数;
若是,则记录所述关键词的出现次数;
将出现次数超过预置次数的关键词,根据出现次数进行排序;
将出现次数较多的预置数量的关键词确定为该目标用户的特征信息。
进一步的,所述提取目标用户发言内容中的关键词,包括:
根据预置规则删除目标用户发言内容中的无用信息,获取目标用户发言内容中的有效内容;
对目标用户发言内容中的有效内容进行分词处理,得到分词结果;
从分词结果中提取关键信息。
进一步的,s02根据历史发言记录,获取目标用户发言中的关键信息,包括:
统计目标用户的发言次数;
s03根据所述关键信息确定目标用户的特征信息,包括:
确定目标用户的发言次数在用户发言总次数中所占的比重值,并将所述比重值确定为目标用户的活跃度值。
进一步的,所述预置维度包括:兴趣类型、资产条件、人生阶段、金融需求、活跃度中的至少一个维度。
进一步的,所述方法还包括:
定时获取更新的通信群组用户的历史发言记录,以便定时更新即时通信群组用户画像。
为了实现上述目的,本发明还提供一种群组用户画像创建装置,包括:
历史发言记录获取模块,用于获取即时通信群组用户的历史发言记录,选取即时通信群组中的任一用户作为目标用户;
关键信息获取模块,用于根据历史发言记录,获取目标用户发言中的关键信息;
特征信息确定模块,用于根据所述关键信息确定目标用户的特征信息;
标签标注模块,用于根据所述特征信息对所述目标用户标注相应的标签;
用户分类模块,用于根据用户标签按照预置维度对即时通信群组用户进行分类;
画像创建模块,用于根据分类结果创建即时通信群组用户画像。
进一步的,关键信息获取模块,可具体用于:
提取目标用户发言内容中的关键词。
更进一步的,关键信息获取模块,可具体用于:
根据预置规则删除目标用户发言内容中的无用信息,获取目标用户发言内容中的有效内容;
对目标用户发言内容中的有效内容进行分词处理,得到分词结果;
从分词结果中提取关键词。
基于此,特征信息确定模块,可包括:
判断单元,可用于判断关键词在目标用户发言内容中的出现次数是否超过预置次数;
特征信息确定单元,可用于在判断单元的判断结果为是时,将关键词确定为该目标用户的特征信息。
进一步的,特征信息确定模块,可包括:
判断单元,可用于判断关键词在目标用户发言内容中的出现次数是否超过预置次数;
记录单元,可用于在判断单元的判断结果为是时,记录关键词的出现次数;
排序单元,可用于将出现次数超过预置次数的关键词,根据出现次数进行排序;
特征信息确定单元,可用于将出现次数较多的预置数量的关键词确定为该目标用户的特征信息。
进一步的,关键信息获取模块,可具体用于:
统计目标用户的发言次数。
基于此,特征信息确定模块,可具体用于:
确定目标用户的发言次数在用户发言总次数中所占的比重值,并将所述比重值确定为目标用户的活跃度值。
进一步的,所述预置维度包括:兴趣类型、资产条件、人生阶段、金融需求、活跃度中的至少一个维度。
进一步的,所述历史发言记录获取模块,还可用于定时获取更新的通信群组用户的历史发言记录,以便定时更新即时通信群组用户画像。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明提供的群组用户画像创建方法、装置、计算机设备及可读存储介质,可在即时通信群组用户的历史发言记录中确定目标用户发言中的关键信息并利用关键信息得到对应的特征信息,再根据特征信息对目标用户进行标签标注,在群组用户都具有各自的标签后,可根据用户的标签按照兴趣、资产条件、活跃度等维度进行分类,最后根据分类结果创建即时通信群组用户画像。通过上述方案,可通过对用户的历史发言记录进行分析,挖掘出较为贴合用户自身情况且较为准确的用户特征并基于该用户特征给用户打标签,然后再根据用户标签对用户进行分类并创建群组用户画像,以此,一方面,以上述方式创建的群组用户画像的精确度更高,且内容更为丰富具体;另一方面,基于精确度更高的群组用户画像,可更有利于挖掘群组用户的潜在需求,进而更有利于向群组用户实施精准营销。
附图说明
图1是根据本发明实施例的群组用户画像创建方法的一种可选的流程示意图;
图2是根据本发明实施例的群组用户画像创建装置的一种可选的程序模块示意图;
图3是根据本发明实施例的群组用户画像创建装置的另一种可选的程序模块示意图;
图4是根据本发明实施例的群组用户画像创建装置的又一种可选的程序模块示意图;以及
图5是根据本发明实施例的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
下面结合附图对本发明提供的群组用户画像创建方法进行说明。
图1为本发明群组用户画像创建方法的一种可选的流程示意图,如图1所示,该方法可以包括以下步骤:
s01,获取即时通信群组用户的历史发言记录,选取即时通信群组中的任一用户作为目标用户。
在本实施例中,即时通信群组可为微信群、qq群等,通常在一个即时通信群组中包括多个(如至少3个)用户,该些用户会不定时的在群组中进行发言以与其他用户进行交流,由此会产生历史发言记录,其中,历史发言记录中可包括用户id、用户id对应的发言内容、发言时间等。
由于考虑到数据量、处理效率等问题,在具体实现时,可获取一定时间段的历史发言记录作为处理对象,该时间段可根据实际需要进行设置,比如近一周、近半个月等。
在获取即使通信群组用户的历史发言记录后,可在即时通信群组的用户中,选取任一用户作为目标用户以参与后续步骤。
s02,根据历史发言记录,获取目标用户发言中的关键信息。
在s01获取历史发言记录后,可在历史发言记录中确定目标用户的发言内容,在本实施例中,涉及到的目标用户发言中的关键信息,可包括目标用户发言内容中的关键词和目标用户的发言次数。
其中,针对目标用户发言内容中的关键词,可预先设置用于去除发言内容中无用信息的规则,比如该预置规则中可包括,发言内容中的“啊”、“哦”、“嗯”、“在吗”以及标点符号等为应予以去除的无用信息。
以此,可根据该预置规则对目标用户发言内容中的无用信息进行删除,比如,可将目标用户发言内容中的“在吗”、“啊”、“哦”、“嗯”以及标点符号等内容删除,以获取目标用户发言内容中的有效内容。
接下来,可通过现有技术中的分词处理方式对目标用户发言内容中的有效内容进行分词处理,以得到分词结果,然后可从分词结果中提取出关键词。在确定了目标用户发言内容中的关键词后,可在后续步骤中根据关键词本身、关键词的出现次数等因素来进一步确定目标用户的特征信息。
针对目标用户的发言次数,在本实施例中,也可理解为目标用户发言的条数,比如可根据目标用户id在历史发言记录中统计其发言的次数,在确定了目标用户的发言次数后,可在后续步骤中根据目标用户的发言次数、用户发言总次数(比如可通过直接统计历史发言记录包含的发言记录条数、或者可统计所有目标用户发言条数的总和等方式来确定)等因素来进一步确定目标用户的特征信息。
以此,可从用户发言中,通过提取关键词、统计用户发言次数等方式获取与用户想法、行为相关的关键信息并参与后续步骤,以便在后续步骤中得到更为贴合用户自身情况的相关信息。
s03,根据关键信息确定目标用户的特征信息。
在具体实现时,在s02中获取目标用户发言内容中的关键词之后,可通过如下方式来确定目标用户的特征信息。
在一种方式下,可判断关键词在目标用户发言内容中的出现次数是否超过预置次数。其中,可根据实际需要对预置次数进行设置,比如预置次数为2次,也就是说,当关键词在目标用户发言内容中的出现次数超过预置次数时,则可将该关键词的内容看作目标用户的兴趣点或关注点,从而可将该关键词确定为该目标用户的特征信息。比如,在某用户的发言内容中“女儿”出现了3次,则可将“女儿”作为该用户的特征信息。
在另一种方式下,可如上述第一种方式判断关键词在目标用户发言内容中的出现次数是否超过预置次数(比如为2次),在关键词出现次数超过预置次数时,可先记录该关键词的出现次数,在实际情况中,在用户发言内容中,出现次数超过预置次数的关键词可能不止一个。
接下来,可将出现次数超过预置次数的关键词,根据其出现次数进行排序,然后将出现次数较多的预置数量的关键词确定为该目标用户的特征信息。其中,该预置数量可根据实际需要进行设置,比如可设置为3个,也就是说,可将出现次数较多的前三个关键词(也就是正序排序前三名的关键词)确定为该目标用户的特征信息。
比如,某用户发言内容中的“女儿”出现4次、“课外”出现3次、“学而思”出现4次、“上学”出现1次,则可对“女儿”出现4次、“课外”出现3次、“学而思”出现4次进行记录,然后将上述出现次数进行排序,正序排序后依次为“女儿”、“学而思”、“课外”,则可将出现次数较多的前三个关键词“女儿”、“学而思”、“课外”确定为该用户的特征信息。
在具体实现时,在s02中获取目标用户的发言次数之后,可通过如下方式来确定目标用户的特征信息。
可预先得到用户发言总次数,比如可通过直接统计历史发言记录包含的发言记录条数,或者,可以在确定每个目标用户的发言条数后进一步统计所有目标用户发言条数的总和等方式来获取。
然后,确定目标用户的发言次数在用户发言总次数中所占的比重值,并将比重值确定为目标用户的活跃度值,比如某两个用户的发言次数分别为10次、6次,用户发言总次数为100次,则该两个用户的发言次数在用户发言总次数中的比重值分别为10%、6%,并可将比重值10%、6%作为该两个用户的活跃度值,也即活跃度值包含于用户的特征信息中。其中,上述比重值越大,则可表明用户的活跃度越高。
基于用户发言内容中的关键词、用户发言次数等与用户想法、行为相关的关键信息,确定用户的特征信息,可确保得到更为准确更为贴合用户自身情况的用户特征信息。
s04,根据特征信息对目标用户标注相应的标签。
具体的,在s03确定了目标用户的特征信息后,则可进一步根据特征信息对目标用户标注相应的标签。比如,在确定某用户的特征信息为“女儿”、“活跃度值为10%”后,则可对该用户标注标签:“女儿”、“活跃度值10%”;在确定某用户的特征信息为“已育类”、“保险”、“活跃度值20%”后,则可对该用户标注标签:“已育类”、“保险”、“活跃度值20%”。
在即时通信群组中的用户都具有各自的标签后,可形成一个群组标签体系,基于该群组标签体系可更利于了解用户的特性,可更便于对用户进行精准定位。
s05,根据用户标签按照预置维度对即时通信群组用户进行分类。
在本实施例中,可预先设置多个用于分类的维度,比如,可包括兴趣类型、资产条件、人生阶段、金融需求、活跃度等,当然,还可以根据实际需要设置其他维度以用于对群组用户分类。
其中,每个维度可对应至少一个类别,比如,“兴趣类型”可对应投资类、健康类、艺术类等;“资产条件”可对应有贷款类、无贷款类等;“人生阶段”可对应学生类、工作类、已婚类、已育类等;“金融需求”可对应贷款需求类、理财需求类、保险需求类等;“活跃度”可对应活跃类和非活跃类(比如可设置活跃度值超过10%则为活跃类,反之则为非活跃类)。
在用户具有各自的标签后,则可根据上述维度对即时通信群组用户进行分类,以将用户归类。具体的,比如某用户的标签为“女儿”、“二套房”、“银行”、“贷款”,则可将用户划分到“已育类”、“贷款需求类”、“有贷款类”;再比如某用户的标签为“上课”、“生病”、“保险”、“活跃度值20%”,则可将用户划分到“学生类”、“健康类”、“保险需求类”、“活跃类”,等等。
基于上述多个维度对群组用户进行分类,可得到更为具体且丰富的分类结果,在分类结果中,用户可根据多个维度被归类,可更好的挖掘出用户的潜在需求,从而更有利于对群组用户进行精准定位并实施精准营销。
s06,根据分类结果创建即时通信群组用户画像。
在s05对即时通信群组用户进行分类之后,可以得到基于多个维度的分类结果,然后可根据分类结果(比如,可根据实际需要选择某一类内容或某几类的内容)创建即时通信群组用户画像。
在本实施例中,比如即时通信群组用户画像中可包括上述“人生阶段”维度中各类人群占比情况的内容,则可根据上述“学生类”、“工作类”、“已婚类”、“已育类”的划分结果来创建即时通信群组用户画像。具体的,可先统计即时通信群组用户中分别属于“学生类”、“工作类”、“已婚类”、“已育类”的人数,再计算“学生类”、“工作类”、“已婚类”、“已育类”的人数分别在即时通信群组用户总数中的占比,然后可根据“学生类”、“工作类”、“已婚类”、“已育类”的占比情况创建即时通信群组用户画像。
再比如,即时通信群组用户画像中可包括上述“资产条件”维度中各类人群的数量情况,以及“金融需求”维度中各类人群的数量情况的内容,则可根据上“贷款类”、“无贷款类”的划分结果,以及上述“贷款需求类”、“理财需求类”、“保险需求类”的划分结果来创建即时通信群组用户画像。具体的,可先统计即时通信群组用户中分别属于“贷款类”、“无贷款类”的人数,再统计即时通信群组用户中分别属于“贷款需求类”、“理财需求类”、“保险需求类”的人数,然后可根据属于“贷款类”、“无贷款类”的人数情况,以及属于“贷款需求类”、“理财需求类”、“保险需求类”的人数情况创建即时通信群组用户画像。
由此,可基于更为具体且丰富的分类结果,灵活的创建所需内容的即时群组用户画像,从而可得到更为精准且多样的群组画像。
此外,在实际应用中,由于群组中的用户随时会发言,发言的内容随时会增加,历史发言记录的内容也会被更新,因此,还可以定时获取更新的通信群组用户的历史发言记录,比如可设置12小时获取一次、24小时获取一次等,可基于更新的历史发言记录,通过上述步骤得到更新的即时通信群组用户画像,以保证即时通信群组用户画像保持新鲜且准确。
根据本实施例的各个实施方式,可在即时通信群组用户的历史发言记录中确定目标用户发言中的关键信息并利用关键信息得到对应的特征信息,再根据特征信息对目标用户进行标签标注,然后则可根据用户的标签按照兴趣、资产条件、活跃度等维度进行分类,最后根据分类结果创建即时通信群组用户画像。通过上述方案,可通过对用户的历史发言记录进行分析,挖掘出较为贴合用户自身情况且较为准确的用户特征并基于该用户特征给用户打标签,然后再根据用户标签对用户进行分类并创建群组用户画像,以此,一方面,以上述方式创建的群组用户画像的精确度更高,且内容更为丰富具体;另一方面,基于精确度更高的群组用户画像,可更有利于挖掘群组用户的潜在需求,进而更有利于向群组用户实施精准营销。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
实施例二
基于上述实施例一中提供的群组用户画像创建方法,本实施例中提供一种群组用户画像创建装置,具体地,图2至4示出了该群组用户画像创建装置的可选的结构框图,该群组用户画像创建装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述群组用户画像创建装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图2所示,群组用户画像创建装置20可包括:
历史发言记录获取模块21,可用于获取即时通信群组用户的历史发言记录,选取即时通信群组中的任一用户作为目标用户。
关键信息获取模块22,可用于根据历史发言记录,获取目标用户发言中的关键信息。
特征信息确定模块23,可用于根据关键信息确定目标用户的特征信息。
标签标注模块24,可用于根据特征信息对目标用户标注相应的标签。
用户分类模块25,可用于根据用户标签按照预置维度对即时通信群组用户进行分类。
其中,预置维度可包括:兴趣类型、资产条件、人生阶段、金融需求、活跃度中的至少一个维度。
画像创建模块26,可用于根据分类结果创建即时通信群组用户画像。
在具体实现时,关键信息获取模块22,可具体用于:提取目标用户发言内容中的关键词。
更具体的,关键信息获取模块22,可具体用于:
根据预置规则删除目标用户发言内容中的无用信息,获取目标用户发言内容中的有效内容;
对目标用户发言内容中的有效内容进行分词处理,得到分词结果;
从分词结果中提取关键词。
基于此,参看图3所示,特征信息确定模块23,可包括:
判断单元231,可用于判断关键词在目标用户发言内容中的出现次数是否超过预置次数;
特征信息确定单元234,可用于在判断单元231的判断结果为是时,将关键词确定为该目标用户的特征信息。
在另一种实现方式下,参看图4所示,特征信息确定模块23,可包括:
判断单元231,可用于判断关键词在目标用户发言内容中的出现次数是否超过预置次数;
记录单元232,可用于在判断单元231的判断结果为是时,记录关键词的出现次数;
排序单元233,可用于将出现次数超过预置次数的关键词,根据出现次数进行排序;
特征信息确定单元234,可用于将出现次数较多的预置数量的关键词确定为该目标用户的特征信息。
进一步的,关键信息获取模块22,可具体用于:统计目标用户的发言次数。
基于此,特征信息确定模块23,可具体用于:确定目标用户的发言次数在用户发言总次数中所占的比重值,并将比重值确定为目标用户的活跃度值。
此外,历史发言记录获取模块21,还可用于:
定时获取更新的通信群组用户的历史发言记录,以便定时更新即时通信群组用户画像。
关于上述实施例中的装置,其中各个单元、模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
通过本实施例的各个实施方式,可在即时通信群组用户的历史发言记录中确定目标用户发言中的关键信息并利用关键信息得到对应的特征信息,再根据特征信息对目标用户进行标签标注,然后则可根据用户的标签按照兴趣、资产条件、活跃度等维度进行分类,最后根据分类结果创建即时通信群组用户画像。通过上述方案,可通过对用户的历史发言记录进行分析,挖掘出较为贴合用户自身情况且较为准确的用户特征并基于该用户特征给用户打标签,然后再根据用户标签对用户进行分类并创建群组用户画像,以此,一方面,以上述方式创建的群组用户画像的精确度更高,且内容更为丰富具体;另一方面,基于精确度更高的群组用户画像,可更有利于挖掘群组用户的潜在需求,进而更有利于向群组用户实施精准营销。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算机设备50至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件51-52的计算机设备50,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备50的内部存储单元,例如该计算机设备50的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备50的外部存储设备,例如该计算机设备50上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,存储器51还可以既包括计算机设备50的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备50的操作系统和各类应用软件,例如实施例二的群组用户画像创建装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备50的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如群组用户画像创建装置等。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于群组用户画像创建装置,被处理器执行时实现实施例一的群组用户画像创建方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。