一种行为预测方法和装置与流程

文档序号:11155572阅读:259来源:国知局
一种行为预测方法和装置与制造工艺

本发明涉及行为预测技术领域,具体而言,涉及一种行为预测方法和装置。



背景技术:

随着社会的进步和经济的发展,青少年犯罪现象日益加重,且犯罪向低龄化、暴力型、团伙犯罪转变。这一社会问题的产生原因是多方面的,既有主观方面的原因,也有客观方面的原因,即有学校方面的原因,更有社会和家庭方面的原因。近年来,从美国发生的校园枪击案到我国发生的数起青少年杀死亲生父母、同学老师等案件,均与青少年暴力犯罪有关。青少年犯罪的预防已经成为一个不容忽视的社会问题,已经引起全球的共同关注。

现有技术中提出了如下两种青少年犯罪倾向预测方法,一种是基于社会科学的预测方法,该方法主要利用专家在社会学、心理学、家庭教育等方面的相关经验,对青少年的社会背景、家庭背景、社会人员关系等方面进行研究,以判断青少年的行为是否会导致其呈现某种犯罪倾向,并可以针对上述犯罪倾向及时的进行疏导教育以阻止青少年犯罪行为的发生,另一种是基于关联规则的预测方法,该方法的目的就是在一个数据集中找出项与项之间的关系,多采用基于Apriori算法进行上述关系查找。

发明人在研究中发现,基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,而基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,且难于从较多的关联规则结果中找到正确的预测结果,降低了预测准确度。另外,目前对于准确度高和实用性佳的青少年犯罪倾向预测尚无完善的方案。



技术实现要素:

有鉴于此,本发明的目的在于提供一种行为预测方法和装置,基于改进朴素贝叶斯算法对约简后的信息进行分类预测,预测的准确度和精确度均较高,实用性较佳。

第一方面,本发明实施例提供了一种行为预测方法,所述方法包括:

获取用户的基本属性信息和行为属性信息;

计算所述基本属性信息和所述行为属性信息之间的互信息量;

根据所述互信息量和区分矩阵对所述基本属性信息进行约简,得到目标基本属性信息;

基于余弦相似度和分类合理系数对根据所述目标基本属性信息和所述行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,所述余弦相似度表示所述目标基本属性信息和所述行为属性信息之间的余弦值,所述分类合理系数表示将所述目标基本属性信息分类为所述行为属性信息的合理程度;

基于所述行为预测函数对所述用户的倾向行为进行预测,得到预测结果。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述基本属性信息包括基本属性及其对应的第一属性值,所述行为属性信息包括行为属性及其对应的第二属性值,所述计算所述基本属性信息和所述行为属性信息之间的互信息量,包括:

记A={A1,A2,…,Ai,…,An}为所有的所述基本属性组成的基本属性集,Ai为任意一个所述基本属性,且基本属性Ai对应的所述第一属性值为V(Ai)={vi1,vi2,…,vij,…,vin},n为所述第一属性值的总个数,另记C为行为属性,且行为属性C对应的所述第二属性值为V(C)={c1,c2,…,ck},k为所述第二属性值的总个数,则根据下式计算所述基本属性Ai与所述行为属性C的互信息量:

上述公式中,表示在所述基本属性Ai的所述第一属性值为vij的条件下所述分类属性C的所述第二属性值为ck的条件概率;p(vij)表示所述基本属性Ai的所述第一属性值为vij的概率;表示所述分类属性C的所述第二属性值为ck的概率。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述互信息量和区分矩阵对所述基本属性信息进行约简,得到目标基本属性信息,包括:

将所有的所述基本属性信息组成基本属性集,将所有的所述行为属性信息组成行为属性集,将所述基本属性集和所述行为属性集组成总属性集;

基于所述基本属性集和所述行为属性集计算区分矩阵,所述区分矩阵为区别所述总属性集中元素的所有属性的集合;

将所述基本属性集的核作为所述目标基本属性信息的第一属性信息,并在所述区分矩阵中剔除包含所述核所对应的属性,得到剔除后的区分矩阵;

判断剔除后的所述区分矩阵是否为空集,并在判断出不为空集时,按照所述互信息量由大到小的排序顺序对所述基本属性信息进行排名;

将排名后的最高名次对应的基本属性信息作为所述目标基本属性信息的第二属性信息,并在所述区分矩阵中剔除最高名次所对应的基本属性信息,得到剔除后的区分矩阵;判断剔除后的所述区分矩阵是否为空集,并在判断出不为空集时,将排名后的第二名次对应的基本属性信息作为所述目标基本属性信息的第三属性信息,直至在判断出剔除后的所述区分矩阵为空集时,停止剔除,得到所述目标基本属性信息的第四属性信息;

将所述第一属性信息、所述第二属性信息、所述第三属性信息和所述第四属性信息进行组合,得到所述目标基本属性信息。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于余弦相似度和分类合理系数对根据所述目标基本属性信息和所述行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,包括:

将所有的所述目标基本属性信息组成目标基本属性集;

基于朴素贝叶斯算法对所述目标基本属性集和所述行为属性集进行分析,得到对应的初始行为预测函数;

基于余弦相似度和分类合理系数对所述初始行为预测函数进行更新,得到行为预测函数,所述余弦相似度表示所述目标基本属性集和所述行为属性集之间的余弦值,所述分类合理系数表示将所述目标基本属性信息分类为所述行为属性信息的合理程度。

结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于余弦相似度和分类合理系数对所述初始行为预测函数进行更新,得到行为预测函数,包括:

基于所述初始行为预测函数、所述余弦相似度及其对应的第一权重,建立第一行为预测函数;

基于所述初始行为预测函数、所述分类合理系数及其对应的第二权重,建立第二行为预测函数;

根据所述第一行为预测函数和所述第二行为预测函数的叠加运算结果,得到所述行为预测函数。

第二方面,本发明实施例还提供了一种行为预测装置,所述装置包括:

获取模块,用于获取用户的基本属性信息和行为属性信息;

计算模块,用于计算所述基本属性信息和所述行为属性信息之间的互信息量;

约简模块,用于根据所述互信息量和区分矩阵对所述基本属性信息进行约简,得到目标基本属性信息;

更新模块,用于基于余弦相似度和分类合理系数对根据所述目标基本属性信息和所述行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,所述余弦相似度表示所述目标基本属性信息和所述行为属性信息之间的余弦值,所述分类合理系数表示将所述目标基本属性信息分类为所述行为属性信息的合理程度;

预测模块,用于基于所述行为预测函数对所述用户的倾向行为进行预测,得到预测结果。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述基本属性信息包括基本属性及其对应的第一属性值,所述行为属性信息包括行为属性及其对应的第二属性值,所述计算模块还用于,记A={A1,A2,…,Ai,…,An}为所有的所述基本属性组成的基本属性集,Ai为任意一个所述基本属性,且基本属性Ai对应的所述第一属性值为V(Ai)={vi1,vi2,…,vij,…,vin},n为所述第一属性值的总个数,另记C为行为属性,且行为属性C对应的所述第二属性值为V(C)={c1,c2,…,ck},k为所述第二属性值的总个数,则根据下式计算所述基本属性Ai与所述行为属性C的互信息量:

上述公式中,表示在所述基本属性Ai的所述第一属性值为vij的条件下所述分类属性C的所述第二属性值为ck的条件概率;p(vij)表示所述基本属性Ai的所述第一属性值为vij的概率;表示所述分类属性C的所述第二属性值为ck的概率。

结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述约简模块包括:

第一组成单元,用于将所有的所述基本属性信息组成基本属性集,将所有的所述行为属性信息组成行为属性集,将所述基本属性集和所述行为属性集组成总属性集;

计算单元,用于基于所述基本属性集和所述行为属性集计算区分矩阵,所述区分矩阵为区别所述总属性集中元素的所有属性的集合;

生成单元,用于将所述基本属性集的核作为所述目标基本属性信息的第一属性信息,并在所述区分矩阵中剔除包含所述核所对应的属性,得到剔除后的区分矩阵;

判断单元,用于判断剔除后的所述区分矩阵是否为空集,并在判断出不为空集时,按照所述互信息量由大到小的排序顺序对所述基本属性信息进行排名;

根据生成单元将排名后的最高名次对应的基本属性信息作为所述目标基本属性信息的第二属性信息,并在所述区分矩阵中剔除最高名次所对应的基本属性信息,得到剔除后的区分矩阵;根据判断单元判断剔除后的所述区分矩阵是否为空集,并在判断出不为空集时,将排名后的第二名次对应的基本属性信息作为所述目标基本属性信息的第三属性信息,直至在判断出剔除后的所述区分矩阵为空集时,停止剔除,得到所述目标基本属性信息的第四属性信息;

组合单元,用于将所述第一属性信息、所述第二属性信息、所述第三属性信息和所述第四属性信息进行组合,得到所述目标基本属性信息。

结合第二方面的第二种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述更新模块包括:

第二组成单元,用于将所有的所述目标基本属性信息组成目标基本属性集;

分析单元,用于基于朴素贝叶斯算法对所述目标基本属性集和所述行为属性集进行分析,得到对应的初始行为预测函数;

更新单元,用于基于余弦相似度和分类合理系数对所述初始行为预测函数进行更新,得到行为预测函数,所述余弦相似度表示所述目标基本属性集和所述行为属性集之间的余弦值,所述分类合理系数表示将所述目标基本属性信息分类为所述行为属性信息的合理程度。

结合第二方面的第三种可能的实施方式,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述更新单元包括:

第一建立子单元,用于基于所述初始行为预测函数、所述余弦相似度及其对应的第一权重,建立第一行为预测函数;

第二建立子单元,用于基于所述初始行为预测函数、所述分类合理系数及其对应的第二权重,建立第二行为预测函数;

更新子单元,用于根据所述第一行为预测函数和所述第二行为预测函数的叠加运算结果,得到所述行为预测函数。

本发明实施例提供的行为预测方法和装置,与现有技术中的基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,预测准确度相比,其首先获取用户的基本属性信息和行为属性信息,计算上述基本属性信息和行为属性信息之间的互信息量,并根据该互信息量和区分矩阵对上述基本属性信息进行约简,得到目标基本属性信息,然后基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,最后基于该行为预测函数对用户的倾向行为进行预测,得到预测结果,其在基于互信息量对信息进行约简后,利用改进朴素贝叶斯算法对约简后的目标基本属性信息进行行为属性信息的预测,预测的准确度和精确度均较高,实用性较佳。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种行为预测方法的流程图;

图2示出了本发明实施例所提供的另一种行为预测方法的流程图;

图3示出了本发明实施例所提供的另一种行为预测方法的流程图;

图4示出了本发明实施例所提供的另一种行为预测方法的流程图;

图5示出了本发明实施例所提供的一种行为预测装置的结构示意图;

图6示出了本发明实施例所提供的一种行为预测装置中更新模块的结构示意图。

主要元件符号说明:

11、获取模块;22、计算模块;33、约简模块;44、更新模块;55、预测模块;441、第二组成单元;442、分析单元;443、更新单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到现有技术中,基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,而基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,且难于从较多的关联规则结果中找到正确的预测结果,降低了预测准确度。另外,目前对于准确度高和实用性佳的青少年犯罪倾向预测尚无完善的方案。基于此,本发明实施例提供了一种行为预测方法和装置,基于改进朴素贝叶斯算法对约简后的信息进行分类预测,预测的准确度和精确度均较高,实用性较佳。

参见图1所示的本发明实施例提供的行为预测方法的流程图,所述方法具体包括如下步骤:

S101、获取用户的基本属性信息和行为属性信息;

具体的,考虑到本发明实施例所提供的行为预测方法的具体应用场景,本发明实施例中,上述获取的用户的基本属性信息和行为属性信息来自于公安大数据中的青少年犯罪人员数据库。其中,上述基本属性信息包括青少年的性别、年龄段、家庭情况、户籍,家庭收入,家庭成长背景、上学情况、父母教育程度、不良习惯、犯罪诱因、是否参与团伙作案、犯罪记录、独生子女、在校表现情况,与长辈相处情况,性格类型,出入场所等信息,而行为属性信息即是指青少年的犯罪倾向,如打架斗殴、偷盗抢、吸毒赌博、暴力侵害、网络犯罪等信息。

另外,本发明实施例不仅可以应用在对青少年犯罪的预测,还可以对成人犯罪进行预测。

S102、计算基本属性信息和行为属性信息之间的互信息量;

S103、根据互信息量和区分矩阵对基本属性信息进行约简,得到目标基本属性信息;

具体的,本发明实施例中根据基本属性信息中的第一属性值和行为属性信息中的第二属性值进行互信息量的计算,然后再根据互信息量和区分矩阵对上述基本属性信息进行约简,得到目标基本属性信息。

另外,对于获取的基本属性信息和行为属性信息而言,本发明实施例所提供的行为预测方法在对其进行约简后,还将对其进行数据转化,得到的目标基本属性信息为:年龄段={10-13,14-16,17-19};家庭情况={正常、单亲、留守、孤儿};户籍={城市、小镇、农村};家庭收入={富裕、小康、贫穷};家庭成长背景={正常、溺爱、棍棒教育、放任自流};上学情况={就读、辍学};父母教育程度={文盲、初中及以下、高中、大学及以上};不良习惯={吸毒、赌博、烟酒、网瘾、多种(同时具有前面行为中的两种及以上)、无};是否参与团伙作案={是、否};犯罪记录={一次、两次、多次};在校表现={优、良、中、差};与长辈相处情况={正常,一般,较差,恶劣};冲动易怒情况={经常、一般、很少};出入场所={网吧、游戏厅、歌舞厅、多种(同时具有前面行为中的两种及以上)、无};行为属性信息为:犯罪倾向={打架斗殴、偷盗抢、吸毒赌博、暴力侵害、网络犯罪}。

S104、基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,余弦相似度表示目标基本属性信息和行为属性信息之间的余弦值,分类合理系数表示将目标基本属性信息分类为行为属性信息的合理程度;

具体的,在阐述对初始行为预测函数进行更新之前,先对上述初始预测函数的生成过程进行简要说明。

首先,D为训练元组(目标基本属性信息)和对应的类标号(行为属性信息)的集合,每个训练元组均由一个n维属性向量X={x1,x2,…,xn}表示,描述n个基本属性和其对应的某个属性值。

后验概率p(H|X)是指:在给定的条件X的前提下,事件H所发生的概率。因此,p(Ci|X)是指:给定X的属性描述,找出元组X属于类C的概率。

设有m个类别:C1,C2,…,Cm,对于给定的训练元组X,分类法将预测X属于具有最高后验概率的类,即最大化p(Ci|X),贝叶斯公式为:

因为p(X)对于所有类是常数,因此p(Ci|X)∝p(X|Ci)p(Ci),则贝叶斯分类器的分类目标函数为f(X)=Max[p(X|Ci)p(Ci)]。

其中,假定元组X中的各个组成属性之间存在条件相互独立:

则有其中,p(Ci)=|Ci,D|/|D|(D为样本个数、|Ci,D|为D中Ci类的样本个数)

朴素贝叶斯分类器的分类目标函数可变形为:该公式即为初始预测函数。

然后,基于余弦相似度和分类合理系统对上述得到的初始预测函数进行更新,得到行为预测函数。

S105、基于行为预测函数对用户的倾向行为进行预测,得到预测结果。

具体的,通过本发明实施例所提供的行为预测方法中的行为预测函数可知,任意一个目标属性信息可以归类为各个行为属性信息的分类预测结果,将分类预测结果对应的最大值作为最终的预测结果即可。

其中,基于更新后的行为预测函数对上述经过约简和转化的目标基本属性信息进行用户的倾向行为预测,得到的预测结果为:

1)青少年a的行为元组(目标基本属性信息)为Xa={年龄段=14-16,家庭情况=留守,户籍=农村,家庭收入=贫穷,家庭成长背景=溺爱,上学情况=辍学,父母教育程度=文盲,不良习惯=网瘾,是否参与团伙作案=是,犯罪记录=多次,在校表现=中,与长辈相处情况=恶劣,冲动易怒情况=一般,出入场所=多种};预测结果所属类Ya=偷盗抢。

2)青少年b的行为元组(目标基本属性信息)为Xb={年龄段=17-19,家庭情况=单亲,户籍=小镇,家庭收入=小康,家庭成长背景=放任自流,上学情况=辍学,父母教育程度=初中及以下,不良习惯=烟酒,是否参与团伙作案=是,犯罪记录=一次,在校表现=差,与长辈相处情况=恶劣,冲动易怒情况=经常,出入场所=游戏厅};预测结果所属类Yb=暴力侵害。

3)青少年C的行为元组(目标基本属性信息)为Xc={年龄段=17-19,家庭情况=正常,户籍=城市,家庭收入=富裕,家庭成长背景=溺爱,上学情况=就读,父母教育程度=大学及以上,不良习惯=多种,是否参与团伙作案=是,犯罪记录=多次,在校表现=差,与长辈相处情况=恶劣,冲动易怒情况=一般,出入场所=歌舞厅};预测结果所属类Yc=吸毒赌博。

可见,给定某个青少年的行为元组,可以用改进后的朴素贝叶斯算法对其进行即将犯罪的倾向进行预测,针对即将可能会犯罪的类型,相关司法工作者或父母长辈可以对青少年进行针对性的劝导教育,或适当采取一些强制性的措施,例如戒网瘾、戒毒、戒赌等,从而达到有效阻止青少年的犯罪行为。

本发明实施例提供的行为预测方法,与现有技术中的基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,预测准确度相比,其首先获取用户的基本属性信息和行为属性信息,计算上述基本属性信息和行为属性信息之间的互信息量,并根据该互信息量和区分矩阵对上述基本属性信息进行约简,得到目标基本属性信息,然后基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,最后基于该行为预测函数对用户的倾向行为进行预测,得到预测结果,其在基于互信息量对信息进行约简后,利用改进朴素贝叶斯算法对约简后的目标基本属性信息进行行为属性信息的预测,预测的准确度和精确度均较高,实用性较佳。

为了更好的计算基本属性信息和行为属性信息之间的互信息量,上述S102的计算过程,具体通过如下内容来实现:

记A={A1,A2,…,Ai,…,An}为所有的基本属性组成的基本属性集,Ai为任意一个基本属性,且基本属性Ai对应的第一属性值为V(Ai)={vi1,vi2,…,vij,…,vin},n为第一属性值的总个数,另记C为行为属性,且行为属性C对应的第二属性值为V(C)={c1,c2,…,ck},k为第二属性值的总个数,则根据下式计算基本属性Ai与行为属性C的互信息量:

上述公式中,表示在基本属性Ai的第一属性值为vij的条件下分类属性C的第二属性值为ck的条件概率;p(vij)表示基本属性Ai的第一属性值为vij的概率;表示分类属性C的第二属性值为ck的概率。

其中,上述基本属性及其对应的第一属性值组成基本属性信息,上述行为属性及其对应的第二属性值组成行为属性信息。

其中,本发明实施例中的的互信息量指:若X不确定且其不确定性为H(X),给出Y后X的不确定性变为H(X|Y),则不确定性的减少量即为X,Y间的互信息I(X;Y)=H(X)-H(X|Y)。

另外,通过上述互信息量的计算,可以得知各个基本属性信息对行为属性信息的信息量,信息量越大,表明对应的基本属性信息对行为属性信息的影响越大。本发明实施例结合上述互信息量和区分矩阵对基本属性信息进行约简,以将基本属性信息剔除冗余属性信息得到目标基本属性信息的同时,还能保证约简后的属性信息的准确性,实用性更佳。上述S103的约简过程,具体通过如下步骤实现,参见图2所示的流程图,所述方法还包括:

S201、将所有的基本属性信息组成基本属性集,将所有的行为属性信息组成行为属性集,将基本属性集和行为属性集组成总属性集;

S202、基于基本属性集和行为属性集计算区分矩阵,区分矩阵为区别总属性集中元素的所有属性的集合;

S203、将基本属性集的核作为目标基本属性信息的第一属性信息,并在区分矩阵中剔除包含核所对应的属性,得到剔除后的区分矩阵;

S204、判断剔除后的区分矩阵是否为空集,并在判断出不为空集时,按照互信息量由大到小的排序顺序对基本属性信息进行排名;

S205、将排名后的最高名次对应的基本属性信息作为目标基本属性信息的第二属性信息,并在区分矩阵中剔除最高名次所对应的基本属性信息,得到剔除后的区分矩阵;判断剔除后的区分矩阵是否为空集,并在判断出不为空集时,将排名后的第二名次对应的基本属性信息作为目标基本属性信息的第三属性信息,直至在判断出剔除后的区分矩阵为空集时,停止剔除,得到目标基本属性信息的第四属性信息;

S206、将第一属性信息、第二属性信息、第三属性信息和第四属性信息进行组合,得到目标基本属性信息。

具体的,本发明实施例通过上述互信息量和区分矩阵对基本属性信息进行约简,为了便于说明上述整个约简过程,接下来通过如下方式进行具体阐述。

输入:信息系统S=<U,A,V,f>,其中A=C∪D为总属性集,C为基本属性集,D为行为属性集。

输出:约简red。

Step1:

Step2:计算区分矩阵M={mij},并将某一个元素Ax进行操作:core(C)=core(C)∪(Ax);

Step3:red=core,剔除M={mij}中含core(C)的所有项,并计算|M|;

Step4:令所有基本属性信息按互信息值I(Ai,C)大小顺序排列;

Step5:当|M|≠0时,将其按从大到小的顺序将当前对应的属性A(max)加入red,剔除M={mij}中含A(max)的所有项,并计算|M|;

Step6:按照基本属性信息加入red的顺序,将加入的属性单独放入集合P中,若存在满足不可分辨关系:ind(P)=ind(C),则此时集合P即为所求约简red。

可见,上述约简red即为目标基本属性信息。

本发明实施例所提供的行为预测方法还能够基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,参见图3,上述更新过程具体通过如下步骤实现:

S301、将所有的目标基本属性信息组成目标基本属性集;

S302、基于朴素贝叶斯算法对目标基本属性集和行为属性集进行分析,得到对应的初始行为预测函数;

S303、基于余弦相似度和分类合理系数对初始行为预测函数进行更新,得到行为预测函数,余弦相似度表示目标基本属性集和行为属性集之间的余弦值,分类合理系数表示将目标基本属性信息分类为行为属性信息的合理程度。

具体的,本发明实施例所提供的行为预测方法基于能够得到初始行为预测函数,而对于目标基本属性信息组成的目标基本属性集而言,其基于该目标基本属性集和行为属性集之间的余弦值和将目标基本属性信息分类为行为属性信息的合理程度的分类合理系数对上述初始行为预测函数进行更新,得到行为预测函数。

其中,训练样本(用户)个数为m,用m行n+1列矩阵表示数据表格,m个数据样本,1~n列为n个目标基本属性信息:A1~An,第n+1列为标号属性(行为属性信息)Y={y1,y2,…,yi,…,yn}。

其中,第i列为Ai={Ai1,Ai2,…,Aij,…,Ain},则目标基本属性信息Ai与行为属性信息Y的余弦相似度为:

分类合理系数为:

其中,值越大,则样本属性(目标基本属性信息)取值Ai=vip的样本分为C类更为合理。

其中,为了更好的对上述初始行为预测函数进行更新,参见图4,本发明实施例所提供的行为预测方法具体通过如下步骤进行实现:

S401、基于初始行为预测函数、余弦相似度及其对应的第一权重,建立第一行为预测函数;

S402、基于初始行为预测函数、分类合理系数及其对应的第二权重,建立第二行为预测函数;

S403、根据第一行为预测函数和第二行为预测函数的叠加运算结果,得到行为预测函数。

具体的,本发明实施例所提供的行为预测方法基于初始行为预测函数、余弦相似度及其对应的第一权重,建立第一行为预测函数和基于初始行为预测函数、分类合理系数及其对应的第二权重,建立第二行为预测函数,然后根据第一行为预测函数和第二行为预测函数的叠加运算结果,得到行为预测函数

其中,基于上述计算得到的余弦相似度和分类合理系数,可以通过w(Ai)=log[α(Ai)×β(Ai)+1]得到对应的权重系数,然后基于该权重系数对初始行为预测函数进行更新,得到行为预测函数可见,通过引入权重系数对朴素贝叶斯算法进行改进,克服了现实中的条件独立性假设关系弱而导致朴素贝叶斯算法精度低的缺陷,提高了朴素贝叶斯算法的分类性能。

本发明实施例提供的行为预测方法,与现有技术中的基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,预测准确度相比,其首先获取用户的基本属性信息和行为属性信息,计算上述基本属性信息和行为属性信息之间的互信息量,并根据该互信息量和区分矩阵对上述基本属性信息进行约简,得到目标基本属性信息,然后基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,最后基于该行为预测函数对用户的倾向行为进行预测,得到预测结果,其在基于互信息量对信息进行约简后,利用改进朴素贝叶斯算法对约简后的目标基本属性信息进行行为属性信息的预测,预测的准确度和精确度均较高,实用性较佳。

本发明实施例还提供了一种行为预测装置,所述装置用于执行上述行为预测方法,参见图5,所述装置包括:

获取模块11,用于获取用户的基本属性信息和行为属性信息;

计算模块22,用于计算基本属性信息和行为属性信息之间的互信息量;

约简模块33,用于根据互信息量和区分矩阵对基本属性信息进行约简,得到目标基本属性信息;

更新模块44,用于基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,余弦相似度表示目标基本属性信息和行为属性信息之间的余弦值,分类合理系数表示将目标基本属性信息分类为行为属性信息的合理程度;

预测模块55,用于基于行为预测函数对用户的倾向行为进行预测,得到预测结果。

为了更好的计算基本属性信息和行为属性信息之间的互信息量,上述计算模块22还用于,记A={A1,A2,…,Ai,…,An}为所有的基本属性组成的基本属性集,Ai为任意一个基本属性,且基本属性Ai对应的第一属性值为V(Ai)={vi1,vi2,…,vij,…,vin},n为第一属性值的总个数,另记C为行为属性,且行为属性C对应的第二属性值为V(C)={c1,c2,…,ck},k为第二属性值的总个数,则根据下式计算基本属性Ai与行为属性C的互信息量:

上述公式中,表示在基本属性Ai的第一属性值为vij的条件下分类属性C的第二属性值为ck的条件概率;p(vij)表示基本属性Ai的第一属性值为vij的概率;表示分类属性C的第二属性值为ck的概率。

其中,上述基本属性及其对应的第一属性值组成基本属性信息,上述行为属性及其对应的第二属性值组成行为属性信息。

通过上述互信息量的计算,可以得知各个基本属性信息对行为属性信息的信息量,信息量越大,表明对应的基本属性信息对行为属性信息的影响越大。本发明实施例结合上述互信息量和区分矩阵对基本属性信息进行约简,以将基本属性信息剔除冗余属性信息得到目标基本属性信息的同时,还能保证约简后的属性信息的准确性,实用性更佳。上述约简模块33包括:

第一组成单元,用于将所有的基本属性信息组成基本属性集,将所有的行为属性信息组成行为属性集,将基本属性集和行为属性集组成总属性集;

计算单元,用于基于基本属性集和行为属性集计算区分矩阵,区分矩阵为区别总属性集中元素的所有属性的集合;

生成单元,用于将基本属性集的核作为目标基本属性信息的第一属性信息,并在区分矩阵中剔除包含核所对应的属性,得到剔除后的区分矩阵;

判断单元,用于判断剔除后的区分矩阵是否为空集,并在判断出不为空集时,按照互信息量由大到小的排序顺序对基本属性信息进行排名;

根据生成单元将排名后的最高名次对应的基本属性信息作为目标基本属性信息的第二属性信息,并在区分矩阵中剔除最高名次所对应的基本属性信息,得到剔除后的区分矩阵;根据判断单元判断剔除后的区分矩阵是否为空集,并在判断出不为空集时,将排名后的第二名次对应的基本属性信息作为目标基本属性信息的第三属性信息,直至在判断出剔除后的区分矩阵为空集时,停止剔除,得到目标基本属性信息的第四属性信息;

组合单元,用于将第一属性信息、第二属性信息、第三属性信息和第四属性信息进行组合,得到目标基本属性信息。

本发明实施例所提供的行为预测装置还能够基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,参见图6,上述更新模块44包括:

第二组成单元441,用于将所有的目标基本属性信息组成目标基本属性集;

分析单元442,用于基于朴素贝叶斯算法对目标基本属性集和行为属性集进行分析,得到对应的初始行为预测函数;

更新单元443,用于基于余弦相似度和分类合理系数对初始行为预测函数进行更新,得到行为预测函数,余弦相似度表示目标基本属性集和行为属性集之间的余弦值,分类合理系数表示将目标基本属性信息分类为行为属性信息的合理程度。

其中,为了更好的对上述初始行为预测函数进行更新,本发明实施例所提供的行为预测装置中的更新单元443包括:

第一建立子单元,用于基于初始行为预测函数、余弦相似度及其对应的第一权重,建立第一行为预测函数;

第二建立子单元,用于基于初始行为预测函数、分类合理系数及其对应的第二权重,建立第二行为预测函数;

更新子单元,用于根据第一行为预测函数和第二行为预测函数的叠加运算结果,得到行为预测函数。

本发明实施例提供的行为预测装置,与现有技术中的基于社会科学的预测方法,由于操作过程复杂,导致实用性较差,基于关联规则的预测方法,由于受限于数据源的数据量而导致适用性较差,预测准确度相比,其首先获取用户的基本属性信息和行为属性信息,计算上述基本属性信息和行为属性信息之间的互信息量,并根据该互信息量和区分矩阵对上述基本属性信息进行约简,得到目标基本属性信息,然后基于余弦相似度和分类合理系数对根据目标基本属性信息和行为属性信息进行贝叶斯计算得到的初始行为预测函数进行更新,得到行为预测函数,最后基于该行为预测函数对用户的倾向行为进行预测,得到预测结果,其在基于互信息量对信息进行约简后,利用改进朴素贝叶斯算法对约简后的目标基本属性信息进行行为属性信息的预测,预测的准确度和精确度均较高,实用性较佳。

本发明实施例所提供的进行行为预测的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

本发明实施例所提供的行为预测的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1