样本可信度的验证方法、装置、存储介质及处理器与流程

文档序号:15982432发布日期:2018-11-17 00:29阅读:390来源:国知局
本发明涉及数据统计领域,具体而言,涉及一种样本可信度的验证方法、装置、存储介质及处理器。
背景技术
调查问卷是以问题形式系统地记载调查内容的一种载体。调查问卷的作用通常包括以下三点:第一、帮助研究者加深对研究课题的认知;第二、为问题设计提供丰富的素材;第三、形成对目标总体的清除概念。目前,相关技术中所提供的调查问卷处理方式通常引导样本自身填写属性资料。然而,出于被调查对象是否愿意如实回答问题、被调查对象个人隐私等因素考虑,此种处理方式在大多数情况下无法准确获知属性内容的可信度。而且,属性资料的填写过程支持随时改动,易导致属性内容缺乏稳定性。由此可见,相关技术中所提供的调查问卷处理方式存在如下缺陷:缺陷一,依靠样本自身填写属性,可信度低。缺陷二,样本属性波动性大。缺陷三,样本属性没有得到精确划分。缺陷四,不支持快速选择在特定属性指定范围值的样本。针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:本发明至少部分实施例提供了一种样本可信度的验证方法、装置、存储介质及处理器,以至少解决相关技术中所提供的调查问卷处理方式可信度较低的技术问题。根据本发明其中一实施例,提供了一种样本可信度的验证方法,包括:获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类;根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证。可选地,根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证包括:根据第一参数信息、第二参数信息和第三参数信息获取多个属性选项中每个属性选项的参考属性值以及参考属性值的可信度;采用每个属性选项的参考属性值以及参考属性值的可信度与单位样本实际在预设应用中输入的属性值进行比对,对单位样本的可信度进行验证。可选地,多个属性选项至少包括:性别属性、教育程度属性、婚姻状况属性、有无子女属性以及收入状况属性,根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度包括:当第三参数信息的取值小于第一预设阈值时,计算第一参数信息的取值与第二参数信息的取值之间的比值;根据比值与第二预设阈值之间的比较关系获取每个属性选项的参考属性值以及参考属性值的可信度。可选地,多个属性选项至少还包括:年龄属性,根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度包括:从第二参数信息中提取最大属性值和最小属性值;当最大属性值与最小属性值的差值大于第三预设阈值时,参考属性值为第二参数信息中剔除最大属性值和最小属性值之后的剩余属性值的平均值,参考属性值的可信度最低;当最大属性值与最小属性值的差值小于或等于第三预设阈值时,根据一致性占比确定参考属性值以及参考属性值的可信度,其中,一致性占比由答复相同年龄属性值的次数与第一参数信息确定。可选地,在根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度之后,还包括:获取第四参数信息,其中,第四参数信息为预设时间周期内单位样本所在地理位置的参考属性信息以及地址位置的可信度信息;从第四参数信息中选取最高的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比时,选取最高的设备标识一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比并且相同的地址位置代码一致性占比对应的设备标识一致性占比也相同时,选取更新版本最多的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息。可选地,在每个属性选项配置的答案种类中通过自定义方式设定每个属性选项同时选取多种类别答案。可选地,在根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证之后,还包括:根据可信度验证结果对单位样本进行分类;按照分类结果确定对单位样本的信息投放方式。根据本发明其中一实施例,还提供了一种样本可信度的验证装置,包括:获取模块,用于获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类;验证模块,用于根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证。可选地,验证模块包括:第一获取单元,用于根据第一参数信息、第二参数信息和第三参数信息获取多个属性选项中每个属性选项的参考属性值以及参考属性值的可信度;验证单元,用于采用每个属性选项的参考属性值以及参考属性值的可信度与单位样本实际在预设应用中输入的属性值进行比对,对单位样本的可信度进行验证。可选地,多个属性选项至少包括:性别属性、教育程度属性、婚姻状况属性、有无子女属性以及收入状况属性,获取模块包括:计算单元,用于当第三参数信息的取值小于第一预设阈值时,计算第一参数信息的取值与第二参数信息的取值之间的比值;第二获取单元,用于根据比值与第二预设阈值之间的比较关系获取每个属性选项的参考属性值以及参考属性值的可信度。可选地,多个属性选项至少还包括:年龄属性,获取模块包括:提取单元,用于从第二参数信息中提取最大属性值和最小属性值;处理单元,用于当最大属性值与最小属性值的差值大于第三预设阈值时,参考属性值为第二参数信息中剔除最大属性值和最小属性值之后的剩余属性值的平均值,参考属性值的可信度最低;当最大属性值与最小属性值的差值小于或等于第三预设阈值时,根据一致性占比确定参考属性值以及参考属性值的可信度,其中,一致性占比由答复相同年龄属性值的次数与第一参数信息确定。可选地,上述获取模块,还用于获取第四参数信息,其中,第四参数信息为预设时间周期内单位样本所在地理位置的参考属性信息以及地址位置的可信度信息;上述装置还包括:处理模块,用于从第四参数信息中选取最高的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比时,选取最高的设备标识一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比并且相同的地址位置代码一致性占比对应的设备标识一致性占比也相同时,选取更新版本最多的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息。可选地,在每个属性选项配置的答案种类中通过自定义方式设定每个属性选项同时选取多种类别答案。可选地,上述装置还包括:分类模块,用于根据可信度验证结果对单位样本进行分类;确定模块,用于按照分类结果确定对单位样本的信息投放方式。根据本发明其中一实施例,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述样本可信度的验证方法。根据本发明其中一实施例,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述样本可信度的验证方法。在本发明至少部分实施例中,采用获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类的方式,通过第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证,达到了对单位样本的可信度进行有效分析的目的,从而实现了灵活、准确地确认样本可信度以精准投放问卷及广告的技术效果,进而解决了相关技术中所提供的调查问卷处理方式可信度较低的技术问题。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明其中一实施例的样本可信度的验证方法的流程图;图2是根据本发明其中一实施例的样本可信度的验证装置的结构框图;图3是根据本发明其中一优选实施例的样本可信度的验证装置的结构框图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本发明其中一实施例,提供了一种样本可信度的验证方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明其中一实施例的样本可信度的验证方法的流程图,如图1所示,该方法包括如下步骤:步骤s12,获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类;步骤s14,根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证。通过上述步骤,可以采用获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类的方式,通过第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证,达到了对单位样本的可信度进行有效分析的目的,从而实现了灵活、准确地确认样本可信度以精准投放问卷及广告的技术效果,进而解决了相关技术中所提供的调查问卷处理方式可信度较低的技术问题。本发明至少部分实施例所提供的技术方案需要通过数据库中存储的数据信息来完成。以下将分别对该数据库中存储的各类表格的字段及其含义进行详细地说明。(1)答案(answer)表用于存储性别、年龄、婚姻状况、教育程度、有无子女、收入情况六个属性答案的原始数据。表1为answer表存储的字段以及每个字段对应的含义,如表1所示:表1字段含义user_id有奖问答用户标识task_id任务标识survey_id问卷标识wendax_survey_id问答箱子设计链接slug问答箱子答题链接user_created_at用户的创建时间original_birthdaycsv文件的年龄birthday经翻译、标准化后的年龄original_gendercsv文件的性别gender经翻译、标准化后的性别original_incomecsv文件的收入income经翻译、标准化后的收入original_educationcsv文件的教育education经翻译、标准化后的教育original_marriagecsv文件的婚姻marriage经翻译、标准化后的婚姻has_children经翻译、标准化后的有无子女created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间例如:用户标识为79280的用户性别为男,年龄25岁,婚姻状况为已婚,教育程度为本科并且已有子女。(2)answer_map表用于存储answer表答案的记录。表2为answer_map表存储的字段以及每个字段对应的含义,如表2所示:表2字段含义id表格内容序号user_id有奖问答用户标识count在answer表中的记录数genderanswer表中性别项的答案记录incomeanswer表中收入项的答案记录educationanswer表中教育项的答案记录marriageanswer表中婚姻项的答案记录has_childrenanswer表中有无子女项的答案记录birthdayanswer表中年龄项的答案记录pid导入answer表的日期created_at记录产生时间updated_at记录修改时间(3)answer_credible表用于存储answer表计算得到的结果。answer表是数据基础表,用于表示每个样本每次回答问卷的结果。而answer_credible表便是以answer表为基础的结论表。因此,在每次有一批样本答案进入到系统时,便会重新计算一次,生成一个新的结论表。表3为answer_credible表存储的字段以及每个字段对应的含义,如表3所示:表3字段含义user_id有奖问答用户标识count(user_id)该用户回答问卷的次数education_judge教育项判断结果education_credible教育项结果的可信度birthday_judge年龄项判断结果birthday_credible年龄项结果的可信度income_judge收入项判断结果income_credible收入项结果的可信度gender_judge性别项判断结果gender_credible性别项结果的可信度marriage_judge婚姻项判断结果marriage_credible婚姻项结果的可信度(4)user_area表用于存储样本近一个月地理位置信息(其可以包括:ip地址和经纬度)。表4为user_area表存储的字段以及每个字段对应的含义,如表4所示:表4字段含义id表格记录序号user_id有奖问答用户标识device_id设备标识lon_loc_code经纬度得到的地域lon_version经纬度库使用的版本ip_loc_codeip得到的地域ip_versionip库使用的版本created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间(5)area_credible表用于存储样本近一个月地址位置的可能位置及可能性。表5为area_credible表存储的字段以及每个字段对应的含义,如表5所示:表5字段含义id表格记录序号user_id有奖问答用户标识pidarea表录入的日期lon_c_judge经纬度得到的城市lon_p_judge经纬度得到的省份lon_c_credible经纬度得到的城市可信度lon_p_credible经纬度得到的省份可信度ip_c_judgeip得到的城市ip_p_judgeip得到的省份ip_c_credibleip得到的城市可信度ip_p_credibleip得到的省份可信度created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间(6)geo_location表用于解析area_credible表中得到的地域代号,由此得到省市名称。例如:假设在area_credible表中lon_c_judge的属性值为1156431000,lon_c_credible的属性值为0.55,lon_p_judge的属性值为1156431000,lon_p_credible的属性值为1,则在geo_location表中通过1156431000可以解析出地理位置处于湖南省郴州市。(7)user_match表用于将上述性别、年龄、婚姻状况、教育程度、有无子女、收入情况六个属性的取值以及地理位置与用户实际填写资料进行对比。表6为user_match表存储的字段以及每个字段对应的含义,如表6所示:表6字段含义user_id有奖问答用户标识gender_answer由answer表得到的性别属性值gender_profile由用户自身填写的性别属性gender_match性别属性是否一致birthday_answer由answer表得到的年龄属性值birthday_profile由用户自身填写的年龄属性birthday_gapanswer表与用户自身填写的年龄属性差距created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间(8)user_profile表用于记录样本在有奖问答应用(app)内填写的资料。表7为user_profile表存储的字段以及每个字段对应的含义,如表7所示:表7字段含义id表格内容序号user_id有奖问答用户标识pid更新用户自身填写属性的时间gender用户自身填写的性别income用户自身填写的收入education用户自身填写的教育marriage用户自身填写的婚姻has_children用户自身填写的有无子女birthday用户自身填写的年龄province用户自身填写的省份city用户自身填写的城市created_at记录产生时间updated_at记录修改时间(9)children_answer表用于存储样本孩子年龄的原始答案。表8为children_answer表存储的字段以及每个字段对应的含义,如表8所示:表8字段含义user_id有奖问答用户标识task_id任务标识survey_id问卷标识wendax_survey_id问答箱子设计链接slug问答箱子答题链接user_created_at用户的创建时间has_chirdrencsv文件的有无子女gendercsv文件的性别chirdren_brithdaycsv文件的孩子年龄write_datecsv文件的填写日期created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间(10)children_credible用于记录样本孩子年龄的判断及可信度。表9为children_credible表存储的字段以及每个字段对应的含义,如表9所示:表9字段含义id表格记录序号user_id有奖问答用户标识pid导入children_answer表的日期count导入children_answer表的记录数has_children_judge有无子女属性的值has_children_credible有无子女的可信度gender_judge孩子性别属性的值gender_credible孩子性别的可信度birthday_judge孩子年龄属性的值birthday_credible孩子年龄的可信度birthday_fc孩子年龄的方差created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间(11)children_map表用于存储children表答案的记录。表10为children_map表存储的字段以及每个字段对应的含义,如表10所示:表10字段含义id表格记录序号user_id有奖问答用户标识count在answer表中的记录数has_childrenanswer表中有无子女项的答案记录genderanswer表中性别项的答案记录incomeanswer表中收入项的答案记录birthdayanswer表中年龄项的答案记录educationanswer表中教育项的答案记录pid导入answer表的日期created_at该条记录在数据库的生成时间updated_at该条记录在数据库的更新时间通过数据库中提供的上述表格,利用样本属性对样本进行问卷投放以及广告投放。通过分析得到样本最有可能的属性值及其可信度。检验样本的属性可信度是通过样本回答多次问卷答案得出的最高占比的值及可信度。例如:样本1回答过4次问卷(4次问卷都询问性别属性),这4次问卷的答案有3次答案是“男”,即样本1的性别属性为“男”,可信度为75%(3/4)。本发明以下可选实施例检验单位样本的如下属性:性别、年龄、婚姻、有无孩子、教育、收入、地域(经纬度和ip地址)、孩子的年龄(-10~24个月)。而且,在得出样本最大可能的属性值及可信度基础上,还支持自定义选择样本属性输出结果。例如:可以知道教育程度在本科及以上的样本有哪些以及样本的可信度是多少。另外,上述教育程度和收入状况属性支持多个值逗号分隔输入。用户年龄、孩子年龄属性则支持范围值的输入,教育程度属性支持输入的值可以包括但不限于:未受过正式教育、小学、初中、高中、中专、专科、本科、硕士、博士及以上。收入状况属性支持输入的值包括:与收入项对应的序号值。表11为不同收入状况与不同序号值之间的对应关系,如表11所示:表11收入序号没有收入1人民币1000元以下2人民币1000-1499元3人民币1500-1999元4人民币2000-2499元5人民币2500-2999元6人民币3000-3499元7人民币3500-3999元8人民币4000-4499元9人民币4500-4999元10人民币5000-5499元11人民币5500-5999元12人民币6000-6999元13人民币7000-7999元14人民币8000-8999元15人民币9000-9999元16人民币10000-11999元17人民币12000-14999元18人民币15000-19999元19人民币20000以上20拒绝回答21可选地,在步骤s14中,根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证可以包括以下执行步骤:步骤s141,根据第一参数信息、第二参数信息和第三参数信息获取多个属性选项中每个属性选项的参考属性值以及参考属性值的可信度;步骤s142,采用每个属性选项的参考属性值以及参考属性值的可信度与单位样本实际在预设应用中输入的属性值进行比对,对单位样本的可信度进行验证。具体地,样本自身填写的属性资料用作参考与对比依据,进而辅助确定最终得到的样本属性结论。根据样本多次回答问卷的答案得到属性最有可能的值及可信度,然后,再与样本自身填写的属性资料进行对比。若根据问卷答案得到的特定属性与样本自身填写的特定属性一致,则判定该样本自身填写的该属性可信度较高。另外,针对特定属性的题目至少需要被样本回答过4次之后才会认为该样本的特定属性的值是可信的。而且,在已经回答问卷超过4次之后的样本再回答该问卷,即便答案存在差异,也不会引起最有可能的属性值出现较大波动。可信度最高的属性值可能因为回答问卷的次数而改变,但不会因为一次问卷的答案而发生改变。当可信度高的属性值发生变更时,则可信度最高即一致性占比最高的值将会被用作最终的属性结论值。可选地,多个属性选项至少包括:性别属性、教育程度属性、婚姻状况属性、有无子女属性以及收入状况属性,在步骤s12中,根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度可以包括以下执行步骤:步骤s121,当第三参数信息的取值小于第一预设阈值时,计算第一参数信息的取值与第二参数信息的取值之间的比值;步骤s122,根据比值与第二预设阈值之间的比较关系获取每个属性选项的参考属性值以及参考属性值的可信度。对于answer表中的性别、婚姻状况、有无子女、收入状况以及教育程度属性,以user_id为单位查阅全部问卷答案的情况,以“education”为例:假设“本科”答案次数为n,教育选项的答案种类数为p,该user_id回答问卷的次数为m,则会得到以下结论:若p≥3(相当于上述第一预设阈值),education_judge:“不确定”,education_credible:0;即如果样本特定属性的答案种类大于或等于3种,则会直接判定该特定属性是不确定的。例如:如果样本在教育选项存在“本科”、“研究生”、“博士”三种类别,那么这个样本的教育属性便是不确定的。相反地,若p<3,则可以根据以下情况来确定属性值及其可信度:若n/m>50%(相当于上述第二预设阈值),education_judge:“本科”,education_credible:53%;若n/m=50%,education_judge:“不确定”,education_credible:50%;若n/m<50%,education_judge:“研究生或博士”,education_credible:100%-n/m(数据库中可信度不会小于50%)。可选地,多个属性选项至少还包括:年龄属性,在步骤s12中,根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度可以包括以下执行步骤:步骤s123,从第二参数信息中提取最大属性值和最小属性值;步骤s124,当最大属性值与最小属性值的差值大于第三预设阈值时,参考属性值为第二参数信息中剔除最大属性值和最小属性值之后的剩余属性值的平均值,参考属性值的可信度最低;当最大属性值与最小属性值的差值小于或等于第三预设阈值时,根据一致性占比确定参考属性值以及参考属性值的可信度,其中,一致性占比由答复相同年龄属性值的次数与第一参数信息确定。对于answer表中的年龄属性birthday,假设相同user_id的一组年龄数据中的最大值为max,最小值为min,数据个数为n,以及回答的年龄值次数与该样本回答年龄这一问题的总次数的比值为q,那么将会得到以下结论:若max-min>5(其为经验值,相当于上述第三预设阈值),则birthday_judge为去掉最大值和最小值后的数据平均值,birthday_credible为0,birthday_fc为去掉最大值和最小值后数据的方差。若max-min≤5,则birthday_judge选取q最大的年份数值;若q占比相同,取最小的年份数值,birthday_credible为q,birthday_fc为全部数据的方差。另外,关于孩子年龄可以采用如下计算方式。(1)适用于has_chlidren、gender的计算方式:如果属性值种类≥3种,则judge=“不确定”,credible=0%;如果属性值种类<3种,则judge=占比最高的值,credible=占比q。(2)birthday的特殊计算方式:根据每个用户每次填写的children_birthday值和write_date值,精准到月,计算月龄值。月龄值<-10或>24的值不参与一致性占比的计算,其中,“<-10”表示孩子还有10个月出生,即妈妈刚怀孕,由此得到从刚怀孕到孩子小于2岁的样本。对于每个用户参与一致性占比计算的一组数据,如果最大年月-最小年月>3个月(即孩子年龄误差未在3个月之内),则认为该用户不可信。在计算过程中可以将年月看作数值计算。例如:2017/11即为201711。birthday_judge表示去掉最大值和最小值后的数据平均值,birthday_credible为0,birthday_fc为去掉最大值和最小值后数据的方差。如果最大年月-最小年月≤3个月(即孩子年龄误差在3个月之内),则认为该用户具有可信度。此时birthday_judge为q最大的数值;若q占比相同,则取最小的数值。此时,birthday_credible为q,birthday_fc为全部数据的方差。通过上述分析,至少回答过4次问卷的用户才会用于目标样本的精细化投放。相比于现有技术中,仅通过样本自身一次性填写的属性资料进行精细化投放,往往触达到真实目标样本的触达率低,本发明其中一实施例所提供的方案能够有针对性地(即更加精细的样本属性)进行精细化投放。例如:在只有妈妈属性的样本的基础上,精细到孩子年龄对妈妈进行筛选,以便向抚育小于2岁孩子的妈妈推送问卷。可选地,在步骤s14,根据第一参数信息、第二参数信息和第三参数信息获取每个属性选项的参考属性值以及参考属性值的可信度之后,还可以包括以下执行步骤:步骤s15,获取第四参数信息,其中,第四参数信息为预设时间周期内单位样本所在地理位置的参考属性信息以及地址位置的可信度信息;步骤s16,从第四参数信息中选取最高的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比时,选取最高的设备标识一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比并且相同的地址位置代码一致性占比对应的设备标识一致性占比也相同时,选取更新版本最多的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息。对于地理位置(分为ip地址、经纬度的计算)属性,ip地址与经纬度可以按月计算分开计算。具体地,从user_area表得到的每一条代码(code)拆分为省code和市code。省份code选取占比最高的code省份值,市code选取占比最高的code值,即省和市分开算。直辖市可以按照省份计算。当选取占比最高的code时,若占比一致,则选取device_id数量最多的code;若device_id数量也一致,则选取经纬度库版本最多的code。即,在获取到样本的经纬度信息之后,需要根据一个经纬度库将获取到的经纬度信息解析为省份和城市信息。在此过程中,该经纬度库是会不断更新的。因此,在经纬度库更新之后,需要重新解析经纬度信息。为此,如果多个版本的经纬度库解析得到的省份和城市信息均相同,那么该省份和城市信息通常较为可信。同理,关于ip地址的计算求解过程可以参照上述关于经纬度信息的计算求解过程,此处不再赘述。可选地,在每个属性选项配置的答案种类中通过自定义方式设定每个属性选项同时选取多种类别答案。具体地,在样本特定属性的最大可能值的基础上,添加了可以自定义选择样本属性的范围。例如:相关技术中所提供的调查问卷通常仅能够获知教育属性为“本科”的样本,只能进行单项选择。而在本发明其中一实施例中,可以自定义选择“本科、研究生、博士…”中的一项或多项,由此便可以获知教育程度在本科及其以上的样本以及样本为本科以上学历的可信度。关于自定义样本属性范围值的计算,支持个性化选择操作,其目的在于:由于数据库通常可以得到特定可能值的可能性,而通过个性化选择操作,可以扩展到特定可能范围值的可能性。例如:用户a今年18岁的可能性为0.7,而通过个性化选择操作可以得到该用户今年18岁以上的可能性为0.8。当然,通过执行上述个性化选择操作并不意味着该用户今年18岁以上的可能性就一定会升高,其还有可能下降,例如:通过个性化选择操作可以得到该用户今年18岁以上的可能性为0.6。可选地,在步骤s14,根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证之后,还可以包括以下执行步骤:步骤s17,根据可信度验证结果对单位样本进行分类;步骤s18,按照分类结果确定对单位样本的信息投放方式。通过上述可信度验证结果可以将样本进行质量分群,控制成本。对于样本属性可信度高(>70%)的样本,可对其投放精准性要求较高的调研任务。对于样本属性可信度低(<50%)的样本,可减少其回答问卷次数,而无需将成本耗费在低质量样本上。此外,还可以对样本属性进行细分,例如:可以向特定的母婴人群(性别女,年龄35岁以下,孩子-10~24个月)投放问卷,以使目标更加明确。由此可见,样本的属性不再依赖于样本自身填写的属性,而是更多地依靠通过本发明至少部分实施例计算得到的属性结论为准,由此使得样本属性更加稳定。此外,使用自定义属性模块可以快速支持更多、更复杂的投放样本要求。下面将结合一个实际应用场景对本发明实施例所提供的技术方案的具体应用进行说明。如果希望获知用户在20-30岁、教育程度是本科及以上、收入状况在6000-8000的可能性分别是多少,则可以采用上述answer_map表中记录的答案分布计算。例如:调查问卷用户标识为433的用户总共具有13条答案记录,其中,所填写的教育程度有8条记录都是本科及以上(8/13),所填写的收入状况有3条记录在人民币6000-8000区间(3/13),所填写的年龄情况有6条记录是在20-30岁(6/13)。由此对该用户在20-30岁、教育程度是本科及以上、收入状况在6000-8000区间进行可能性分析。根据本发明其中一实施例,提供了一种样本可信度的验证装置的实施例,图2是根据本发明其中一实施例的样本可信度的验证装置的结构框图,如图2所示,该装置包括:获取模块10,用于获取第一参数信息、第二参数信息和第三参数信息,其中,第一参数信息为单位样本对预设调查问卷的答复次数,第二参数信息为每次答复过程中针对预设调查问卷中配置的多个属性选项提交的属性值,第三参数信息为多个属性选项中每个属性选项配置的答案种类;验证模块20,用于根据第一参数信息、第二参数信息和第三参数信息对单位样本的可信度进行验证。可选地,验证模块20包括:第一获取单元(图中未示出),用于根据第一参数信息、第二参数信息和第三参数信息获取多个属性选项中每个属性选项的参考属性值以及参考属性值的可信度;验证单元(图中未示出),用于采用每个属性选项的参考属性值以及参考属性值的可信度与单位样本实际在预设应用中输入的属性值进行比对,对单位样本的可信度进行验证。可选地,多个属性选项至少包括:性别属性、教育程度属性、婚姻状况属性、有无子女属性以及收入状况属性,获取模块10包括:计算单元(图中未示出),用于当第三参数信息的取值小于第一预设阈值时,计算第一参数信息的取值与第二参数信息的取值之间的比值;第二获取单元(图中未示出),用于根据比值与第二预设阈值之间的比较关系获取每个属性选项的参考属性值以及参考属性值的可信度。可选地,多个属性选项至少还包括:年龄属性,获取模块10包括:提取单元(图中未示出),用于从第二参数信息中提取最大属性值和最小属性值;处理单元(图中未示出),用于当最大属性值与最小属性值的差值大于第三预设阈值时,参考属性值为第二参数信息中剔除最大属性值和最小属性值之后的剩余属性值的平均值,参考属性值的可信度最低;当最大属性值与最小属性值的差值小于或等于第三预设阈值时,根据一致性占比确定参考属性值以及参考属性值的可信度,其中,一致性占比由答复相同年龄属性值的次数与第一参数信息确定。可选地,上述获取模块10,还用于获取第四参数信息,其中,第四参数信息为预设时间周期内单位样本所在地理位置的参考属性信息以及地址位置的可信度信息。图3是根据本发明其中一优选实施例的样本可信度的验证装置的结构框图,如图3所示,上述装置还包括:处理模块30,用于从第四参数信息中选取最高的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比时,选取最高的设备标识一致性占比来确定参考属性信息以及地址位置的可信度信息;或者,当第四参数信息中存在多个相同的地址位置代码一致性占比并且相同的地址位置代码一致性占比对应的设备标识一致性占比也相同时,选取更新版本最多的地址位置代码一致性占比来确定参考属性信息以及地址位置的可信度信息。可选地,在每个属性选项配置的答案种类中通过自定义方式设定每个属性选项同时选取多种类别答案。可选地,如图3所示,上述装置还包括:分类模块40,用于根据可信度验证结果对单位样本进行分类;确定模块50,用于按照分类结果确定对单位样本的信息投放方式。根据本发明其中一实施例,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述样本可信度的验证方法。上述存储介质可以包括但不限于:u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。根据本发明其中一实施例,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述样本可信度的验证方法。上述处理器可以包括但不限于:微处理器(mcu)或可编程逻辑器件(fpga)等的处理装置。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1