一种基于SVM的篮球比赛结果预测方法与流程

文档序号:18197489发布日期:2019-07-17 05:56阅读:498来源:国知局
本发明涉及篮球数据分析
技术领域
:,尤其涉及一种基于svm的篮球比赛结果预测方法。
背景技术
::篮球比赛结果预测不仅可以满足观众的好奇心,而且可以帮助教练员制度适当的测量。因为影响篮球比赛结果的因素是多种多样的,如环境因素、不可预测的运气、关键选手发生不可预料的伤害,而且在篮球比赛中,因为队员的表现并不仅仅依赖独立的个人能力,而是依赖于比赛中的复杂配合。因此,一场比赛的结果也不是队员能力的叠加之和,而是根据不同战略团队合作发挥的一个总体水平。此外,在小组赛中,球队是以两两对战的方式累积分数,比赛结果不能直接显示每个队在所有参赛队伍的水平。从整体上看,因为结果受环境因素、不可预知的运气、不可预知的关键球员伤害的影响,即样本内部的噪声和内部特征的噪声会影响结果预测的准确率。此外,篮球成绩的训练数据往往是有限的,因为数据收集的时间不能太长。这种限制主要是由于以下原因。首先,每个球队在一个赛季都进行有限的比赛。因此,在一个和一定规则内的比赛是稀少的。第二,不同的赛季球员组合也有变化,球员可按合同期选择加入不同的球队,所以每个队的球员并不是固定不变的。在不同的赛季一个团队的主力球员很可能不同。通过这些方面,一个团队在这个赛季的结果很可能与下一个赛季结果完全不同。因此,数据收集的周期不能太长,并且当训练数据量较小时,预测的性能可能变差。技术实现要素:本发明实施例提出一种基于svm的篮球比赛结果预测方法,解决内部噪声对预测结果的影响,提高预测的准确性。本发明实施例提供一种基于svm的篮球比赛结果预测方法,包括:分别获取主队和客队的若干场比赛数据,分别提取出主队和客队的特征向量,并根据预设的指数衰减加权策略,对所述主队和客队的所有特征向量进行加权;按照bagging的bootstrap抽样方法,将加权后的特征向量随机抽样成n份,获得n份样本子集;其中,n为大于1的正整数;将所述n份样本子集按照randomsubspace的方法进行特征抽样,获得n*k份子集;k为大于1的正整数构建n*k个svm分类器,并分别将所述n*k份子集作为所述n*k个svm分类器的输入,输出n*k个置信因子;根据n*k个置信因子,按照预设的投票规则,得到所述主队和客队的篮球比赛结果的预设结果。进一步的,所述比赛数据包括:2分球数据、3分球数据、罚球数据、进攻数据、防守数据、助攻数据、犯规数据、抢断数据、失误数据、投篮数据、快攻数据和扣篮数据。进一步的,所述提取出主队和客队的特征向量,并根据预设的指数衰减加权策略,对所述主队和客队的所有特征向量进行加权,具体为:主队的特征向量表示为客队的特征向量表示为则未来某场比赛的主队特征向量表示为:其中,t为主队最新比赛的标识,t+1为未来某场比赛的标识,l为未来某场比赛之前的几场比赛的标识;βl是主队第(t-l)场比赛的权重;所述指数衰减加权策略为:βl=β0e-λl;β0=1-e-λ。进一步的,所述按照bagging的bootstrap抽样方法,将加权后的特征向量随机抽样成n份,获得n份样本子集,具体为:按照bagging的bootstrap抽样方法,将加权后的特征向量随机抽样成n份样本子集sn,n=1...n;定义超参数ωn和ξn为第n个子集的超参数;ξn是第n个子集的样本采样率;则子集sn中样本数为ξnm;超参数ξn为ξn=ξmin+ωn(ξmax-ξmin);其中,ξmin和ξmax是ξn可设置的最小值和最大值。进一步的,所述将所述n份样本子集按照randomsubspace的方法进行特征抽样,获得n*k份子集,具体为:按照randomsubspace的方法,将子集sn进行k次特征抽样,定义超参数υk和δk为第k个子集的超参数;δk是第k个子集的特征采样率;δk=δmin+υk(δmax-δmin);其中,δmin和δmax是δk可设置的最小值和最大值。进一步的,所述构建n*k个svm分类器,并分别将所述n*k份子集作为所述n*k个svm分类器的输入,输出n*k个置信因子,具体为:分别将所述n*k份子集作为所述n*k个svm分类器的输入,训练出n*k个svm分类器,每个svm分类器的结果对应一个置信因子其中,进一步的,所述根据n*k个置信因子,按照预设的投票规则,得到所述主队和客队的篮球比赛结果的预设结果,具体为:若置信因子大于0.5,则确定为主队获胜,否则确定为客队获胜;分别统计所有置信因子,比较主队和客队获胜的次数,得到主队和客队的篮球比赛结果的预设结果。实施本发明实施例,具有如下有益效果:本发明实施例提供的基于svm的篮球比赛结果预测方法,先通过对主客队最近若干场比赛数据进行特征向量的加权,无需采集大量比赛数据;然后将加权后的特征向量进行抽样,消除样本内部噪音和特征内部噪音,提高预测的准确性;最后通过svm分类器实现篮球比赛结果的预测,相比于现有技术的预测方法,不仅节省了数据收集的成本,而且预测准确度高。附图说明图1是本发明提供的基于svm的篮球比赛结果预测方法的一种实施例的流程示意图;图2是本发明提供的基于svm的篮球比赛结果预测方法的另一种实施例的流程示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1,是本发明提供的基于svm的篮球比赛结果预测方法的一种实施例的流程示意图,如图1所示,该方法包括步骤101至步骤105,各步骤具体如下:步骤101:分别获取主队和客队的若干场比赛数据,分别提取出主队和客队的特征向量,并根据预设的指数衰减加权策略,对所述主队和客队的所有特征向量进行加权。在本实施例中,预测篮球结果的问题可以简单地描述如下,每队的比赛数据包括:2分球数据、3分球数据、罚球数据、进攻数据、防守数据、助攻数据、犯规数据、抢断数据、失误数据、投篮数据、快攻数据和扣篮数据。在本实施例中,主队的特征向量表示为客队的特征向量表示为设yi∈{1,0}为第i场篮球比赛的结果标签,其中,yi=1表示主队获胜,而yi=0表示客队获胜,因此,一场篮球比赛的特征和结果被表示为(xi,yi)。对于未来的篮球比赛,这场比赛的特征向量是不可能事先知道的,而该球队最近几场比赛将会一定程度上代表了该球队的普遍状态。即某个队伍该场比赛的特征向量可以由该队伍的之前已发生的比赛的特征向量通过加权组合来表示。则未来某场比赛的主队特征向量表示为:其中,t为主队最新比赛的标识,t+1为未来某场比赛的标识,l为未来某场比赛之前的几场比赛的标识;βl是主队第(t-l)场比赛的权重;客队的计算方式与主队相似。因为某个团队的发挥的水平状态会随着时间的推移而改变,如果使用过多场次的比赛来衡量某个团队的最新状态,则在这些比赛中,会削弱某些加权特征向量所做的贡献。另一方面,如果引入的比赛场次太少,数据噪声会极大地降低加权特征向量的可靠性。此外,因为最近的一场比赛更能代表一个团队的此刻状态,所以最近的比赛场次应该被赋予更大的权重,而在这场比赛之前更早的一些比赛的场次应该被赋予更少的权重,以此迭代。故本发明采用指数衰减加权策略为:β1=β0e-λl;β0=1-e-λ。因此,的限制为1。如果时间间隔l>l′,则剩余加权小于从经验上讲,如果l等于或大于5,则剩余加权足够小,可以省略。并采用交叉验证法确定了λ>0。在计算了主队和客队的特征向量加权后,在未来的某一场比赛的特征向量可以呈现为作为本实施例的一种举例,除了对特征向量进行加权外,还可以计算主客队的平均向量,以此作为步骤102的输入数据。但是经过验证,加权的方式比平均向量的预测效果更好,而且采用加权的方法,能够解决队伍实力不断变化而影响结果预测的问题。步骤102:按照bagging的bootstrap抽样方法,将加权后的特征向量随机抽样成n份,获得n份样本子集;其中,n为大于1的正整数。在本实施例中,步骤102具体为:按照bagging的bootstrap抽样方法,将加权后的特征向量随机抽样成n份样本子集sn,n=1...n;定义超参数ωn和ξn为第n个子集的超参数;ξn是第n个子集的样本采样率;则子集sn中样本数为ξnm;超参数ξn为ξn=ξmin+ωn(ξmax-ξmin);其中,ξmin和ξmax是ξn可设置的最小值和最大值。在本实施例中,bagging的bootstrap抽样方法为现有的抽样方法,其详细的流程不再赘述。本发明采用该抽样方法能够解决样本内部噪声。步骤103:将n份样本子集按照randomsubspace的方法进行特征抽样,获得n*k份子集;k为大于1的正整数。在本实施例中,步骤103具体为:按照randomsubspace的方法,将n份子集sn进行k次特征抽样,定义超参数υk和δk为第k个子集的超参数;δk是第k个子集的特征采样率;δk=δmin+υk(δmax-δmin);其中,δmin和δmax是δk可设置的最小值和最大值。在本实施例中,randomsubspace为现有的抽样方法,其详细的流程不再赘述。本发明采用该抽样方法能够解决特征内部噪声。步骤104:构建n*k个svm分类器,并分别将n*k份子集作为n*k个svm分类器的输入,输出n*k个置信因子。在本实施例中,步骤104具体为:分别将所述n*k份子集作为所述n*k个svm分类器的输入,训练出n*k个svm分类器,每个svm分类器的结果对应一个置信因子其中,表示分类标签1或0。步骤105:根据n*k个置信因子,按照预设的投票规则,得到主队和客队的篮球比赛结果的预设结果。在本实施例中,步骤105具体为:若置信因子大于0.5,则确定为主队获胜,否则确定为客队获胜;分别统计所有置信因子,比较主队和客队获胜的次数,得到主队和客队的篮球比赛结果的预设结果。为了更好的说明本发明的技术方案,参见图2,图2是本发明技术方案的一种举例。如图2所示,经加权构建好的m场比赛作为输入;引入bagging进行参数为ξn的样本抽样,得到n个子集大小为ξn*m的子集;在每一个子集里引入randomsubspace进行参数为δk的特征抽样,得到n*k子集特征大小为12*δk样本大小为ξn*m的子集,再在每个自己上训练强分类器svm,每个svm会输出对每场比赛的一个置信因子,最后通过投票获得m场比赛的最后结果。作为本实施例的一种举例,将本发明的方法应用于数据集中,模型的精度(accuracy)和f1-score列于表1。现有技术给出的精确度或f1-score在0.7~0.8之间,采用bagging和randomsubspace的混合集成学习框架达到了84%的精确率,f1-score达到了82%。该模型的实现准确率为84%,这意味着它成功地预测了该季度超过五分之四的游戏(总共380场比赛)的结果。表1(table1):不同方法的实验结果.(experimentalresultsofdifferentmethods.)由上可见,本发明的技术方案具有以下有益效果:1、本方法是第一次将机器学习集成算法作用于篮球比赛结果的预测,它解决了现有技术中必须要用极大的数据才能得到结果的问题,极大的节省了数据收集时的成本。2、本发明得到84%的精确度优于最新的和经常使用的模型。将该模型推广到nba常规赛,其准确性为82%,与现有的评估方法相比,准确度更高。3、本发明针对篮球比赛的数据噪声多,不稳定等特征进行建模,对该模型稍加改进也可应用到其他领域中。在今后的工作中,引进其他的集成学习策略和深度学习技术将会效果更好。以上所述是本发明的优选实施方式,应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1