赛事关键信息挖掘及预测方法与流程

文档序号：33399588发布日期：2023-03-08 15:43阅读：31来源：国知局

1.本技术涉及运动大数据技术领域，尤其是涉及一种赛事关键信息挖掘及预测方法。

背景技术：

2.在信息技术快速发展的今天，数据信息是重要资源，由大数据衍生开来的技术革命正逐年影响各行各业。
3.以体育大数据为例：传统的，对于运动员的训练，依赖于各个教练的自身素质；多为：教练观测运动员的训练表现，结合其过往经验，制定训练任务，以使运动员在赛前达到最佳状态。
4.而当前，随着在体育运动中引入大数据概念，已经出现借助智能穿戴设备，实时、长期监测运动员的各项生理参数变化，结合历次训练记录智能分析，引导教练调整训练任务的强度和量的大数据系统，以实现更科学、精准、有效的训练。
5.基于上述，发明人认为：当前对于体育赛事的实时播报、讲解，类同于上述的教练制定训练任务，过于依赖相关人员的工作经验和职业素养，导致从业人员的工作压力、难度较大，因此本技术提出一种新的技术方案。

技术实现要素：

6.为了减小体育赛事播报和讲解的工作难度，本技术提供一种赛事关键信息挖掘及预测方法。
7.本技术提供一种赛事关键信息挖掘及预测方法，采用如下的技术方案：一种赛事关键信息挖掘及预测方法，包括：q1、构建模型基础，其包括：获取多场赛事信息作为样本数据；基于预录入的赛事得分规则、得分因素解析样本数据，并定义预测分析所需特征变量；对解析后的样本数据做特征提取，并基于时序逻辑，建立特征变量组合和得分结果的映射关系；基于映射关系和预录入的特征组合范例，定义特征变量组合规则；q2、预测模型训练，其包括：采集，并调用任一运动员的过往赛事数据作为历史样本；对历史样本进行特征提取，产生运动员个人规范数据；随机采样，二分割历史样本，得到测试样本和训练样本；基于测试样本和训练样本，训练和测试预设的预测模型算法，并输出，根据运动员的身份进行存储；q3、赛事关键点挖掘，其包括：
获取当前赛事的视频数据，对上场运动员做人脸识别，得到在场运动员的身份信息；根据身份信息，调用匹配的预测模型；获取当前赛事的赛事数据，并做特征变量提取，导入匹配的预测模型分析，得到预测结果，输出用作关键提示。
8.可选的，定义一次得分所对应的前序特征变量、特征变量组合为一组数据；对同一运动员的各组数据做统计，得到相同的特征值、特征变量组合出现的次数占比d，并基于次数占比d定义特征变量的权重值；对各个特征变量的标准差/相似度分别计算计算；判断标准差/相似度是否小于预设的第一阈值，如果否，则计算同一特征变量多个不同预设取取值范围的占比，记为单量占比dm；综合权重值和单量占比dm，得到新的权重值并输出。
9.可选的，还包括：获取预对接的赛事在线平台的用户发言数据；对用户发言数据进行关键字/词识别，定位；基于关键字/词对用户发言中的预判行为信息抓取，并基于时序逻辑，对在后的赛事得分数据比对；统计用户预判行为正确的次数，且定义次数超出预设第一阈值的用户为参考用户；为参考用户建立用户档案，用户档案记录预判行为信息、对应赛事真实得分数据以及预判行为匹配的运动员；对当前赛事的在场运动员做参考用户预判统计，并输出统计结果用作关键提示。
10.可选的，所述定位包括：对关键字/词所在的某一条、前后发言进行语义解析，判定是否触发对运动员的行为预判，如果是，则定位成功，执行下一步；如果否，则返回关键字/词识别。
11.可选的，还包括：统计参考用户的预判结果，记为数据集a；将数据集a与对应的赛事得分数据比较，进行一致性判定，结果记为km；将模型预测结果与对应的赛事得分数据比较，进行一致性判定，结果记为kn；若历史km数据集中的一致次数大于kn数据集中的一致次数，则定义用户预判为特征变量，更新预测。
12.可选的，所述将数据集a与对应的赛事得分数据比较，进行一致性判定，其包括：统计各种用户预判结果的数量，取数量最大的一种用户预判结果为与赛事得分数据比较；且，若相同，则认定为一致。
13.可选的，基于关键字/词对参考用户发言中的偏好倾向信息抓取，且识别偏好倾向信息的类别；其中，类别包括正向偏好和负面偏好；基于参考用户发言匹配偏好倾向信息与对应的运动员；统计数据集a时，跳过对当前运动员为负面偏好，且频次超过第二阈值的参考用
户。
14.可选的，还包括：基于关键字/词对参考用户发言进行跟风行为判定，若判定为跟风，则统计数据集a时，跳过该参考用户。
15.综上所述，本技术包括以下至少一种有益技术效果：赛事播报、讲解人员可以利用本方法预测某一运动员在当前赛事中的随后表现，以预测结果作为引导，着重关注，讲解分析对应运动员的行为等，以实现对赛事关键信息的挖掘和提前发现，提高赛事播报、讲解的效果，同时也减小相关工作压力和难度。
附图说明
16.图1是本技术的主流程示意图。
具体实施方式
17.以下结合附图1对本技术作进一步详细说明。
18.本技术实施例公开一种赛事关键信息挖掘及预测方法，其可通过对应的计算机程序，以处理器加载运行实现。
19.参照图1，赛事关键信息挖掘及预测方法包括：q1、构建模型基础，其包括：获取多场赛信息作为样本数据；基于预录入的赛事得分规则、得分因素解析样本数据，并定义预测分析所需的特征变量。
20.上述解析样本数据指的是，诸如：当赛事信息为语音播报内容，则对音频文件进行语音识别，转文本，文本做关键词句提取，提取预定义的赛事特征语句。其中，赛事特征语句指：排除赛事中讲解人调侃、广告推广、场外信息讲解外的实时赛事数据，可以是运动员行为。
21.特征变量的定义，可以根据预上传的赛事得分规则、得分因素的进行匹配筛选。
22.后续，对解析后的样本数据做特征提取，并基于时序逻辑，建立特征变量组合和得分结果的映射关系；基于映射关系和预录入的特征组合范例，定义特征变量组合规则。
23.在本实施例中，以足球为例，特征变量可以是：位置、拦截人数、射门类型、射门时间、射门距离等。
24.关于特征变量组合，例如：针对赛事数据足够全面的组合a：坐标（x，y）位置+拦截（0）+开场时间（34min）+射门距离（10m）；针对赛事数据有限的组合b：坐标（x，y）位置+拦截（2人）+开场时间（34min）；针对未得球的组合c：拦截（0）+坐标（x，y）位置。
25.q2、预测模型训练，其包括：采集，并调用任一运动员的过往赛事数据作为历史样本；对历史样本进行特征提取，产生运动员个人规范数据。
26.在本技术的一个实施例中，上述数据预处理环节根据下述预测模型所采用的方式
决定,例如：当选择逻辑回归、决策树、基于决策树的boosting和bagging等集成学习模型时，考虑到其对于特征取值大小并不敏感，过程中可以不需要做数据标准化处理。其中，特征取值大小可以理解的两个特征变量的差异，当差异化大，预测模型又对其敏感，则可做方差/标准差处理。根据上述可得类表格数据，例如：columns_list = ['位置','拦截人员','开场时间','射门距离']；formath_methor in[
……
]；temp=data.groupby('id',as_index=false)[columns_list].agg(math_methor)；//id，即数据对应的运动员身份；temp.columns = ['id'] + [name + x + math_methor for x in temp.columns[1:]]；feature = pd.merge(feature,temp,how='left')。
[0027]
得到所需数据后，后续：随机采样，二分割历史样本，得到测试样本和训练样本；诸如：15%作为测试，75%用作训练；定义模型参数；诸如：模型涉及到决策树，定义交叉验证次数；调用训练样本对预设的预测模型算法训练和预测，产生预测模型。可以理解的是，上述预测模型算法为后台自由选择，诸如：随机森林回归算法（rfr = randomforestregressor()）、逻辑回归算法。
[0028]
在模型初步训练后：调用测试样本以预测模型进行预测，产生预测结果，并记录；之后，比对测试样本和预测结果，产生模型评估数据；判断评估是否通过，如果是，则模型输出、存储；如果否，则重新产生测试样本和训练样本，再次训练，测试模型。
[0029]
q3、赛事关键点挖掘，其包括：获取当前赛事的视频数据，对上场运动员做人脸识别（检索预设人脸数据库），得到在场运动员身份信息；基于在场运动员身份信息，调用匹配的预测模型；获取当前赛事的赛事数据，并做特征变量提取，导入匹配的预测模型分析，得到预测结果，输出用作关键信息提示。
[0030]
根据上述内容，赛事播报、讲解人员可以利用本方法预测某一运动员在当前赛事中的随后表现，以预测结果作为引导，着重关注，讲解分析对应运动员的行为等，以实现对赛事关键信息的挖掘和提前发现，提高赛事播报、讲解的效果，同时也减小相关工作压力和难度。
[0031]
在本方法的一个实施例中，对于特征变量做以下处理：定义一次得分所对应的前序特征变量、特征变量组合为一组数据；对同一运动员的各组数据做统计，得到相同的特征值、特征变量组合出现的次数占比d，并基于次数占比d定义特征变量的权重值；对各个特征变量的标准差/相似度分别计算计算；判断标准差/相似度是否小于预设的第一阈值，如果否，则计算同一特征变量多个
不同预设取取值范围的占比，记为单量占比dm；综合权重值和单量占比dm（如：相乘），得到新的权重值并输出。
[0032]
可以理解的是，在预测行为中，判断某一结果是否出现，其由各个特征变量的分数（贡献度）之和来确定，分数高，表示更有机会出现对应结果；诸如上述逻辑回归，其参数涉及有类型权重参数；xgboost（梯度提升树），其参数涉及有样本权重。
[0033]
即，本技术上述对特征变量的处理步骤，可以用于定义、更新预测模型中涉及的权重值，且不再通过诸如生成特征热力图一类去分选筛查特征变量；又因为，此时引入了单量占比dm；即，在某一特征变量取值变化很大时，进一步细化某一特征变量不同取值时的对结果的影响，从而使得结果更为真实。
[0034]
例如：坐标（x=2，y=2）位置与坐标（20，20）位置对结果的影响差异认为是较大的，因此引入了单量占比dm。
[0035]
需要注意的是，若定义的模型算法中不涉及权重概念，则上述权重计算过程独立，模型预测过程中并行，且直接输出结果用作另一提示。
[0036]
在本方法的一个实施例中，本方法还包括：获取预对接的赛事在线平台（图文直播平台、视频直播平台）的用户发言数据；对用户发言数据进行关键字/词识别，定位。
[0037]
可以理解的是，上述关键字/词识别可以认为是文本中的字符查找，匹配，更为核心的在于：定位。
[0038]
在本方法中，定位，并非只是简单的诸如：查看关键字/词的时间戳，定位其出现的时间以及根据文本绑定的用户标签一类定位是哪一用户作出的发言，而是：进一步的引入语义理解，即，对关键字/词所在的某一条、前后（一条）发言进行语义解析，判定是否触发对运动员的行为预判，如果是，则定位成功，执行下一步；如果否，则返回关键字/词识别。
[0039]
关于上述语义解析，以人工智能的问答功能解释，如：华为手机的“小艺”，当用户唤醒人工智能小艺，对其说出：今天的天气如何，则其对应的给出今日天气状况的文本/音频结果；在此过程中，即包含了语义解析，智能后台需要先理解用户提问是需要查找天气信息。
[0040]
在本方法的一个实施例中，一种基础的语义解析方式：建立大量词汇、词汇组合与语义解读信息的映射关系，为语义解读信息下定义；使用时，映射关系查找确定。
[0041]
当完成关键字/词识别，定位，则：基于关键字/词对用户发言中的预判行为信息抓取，并基于时序逻辑，对在后的赛事得分数据比对；例如：发言是a球员突进至c区射门进球，则抓取的预判行为信息有：a球员，c区，得分1。
[0042]
后续，统计用户预判行为正确的次数，且定义次数超出预设第一阈值的用户为参考用户；为参考用户建立用户档案，用户档案记录预判行为信息、对应赛事真实得分数据以及预判行为匹配的运动员；对当前赛事的在场运动员做参考用户预判统计，并输出统计结果用作关键提示。
[0043]
可以理解的是，提示方式可以是ui界面的弹窗、滚动文本框等方式。
[0044]
在本方法的一个实施例中，本方法还包括：统计参考用户的预判结果，记为数据集a；将数据集a与对应的赛事得分数据比较，进行一致性判定，结果记为km；其中，数据集a采用少数服从多数规则，即占比大的结果认定为真实的用户预判结果；将模型预测结果与对应的赛事得分数据比较，进行一致性判定，结果记为kn；若历史km数据集中的一致次数大于kn数据集中的一致次数，则定义用户预判为特征变量，更新预测。
[0045]
在本方法的一个实施例中，本方法还包括：基于关键字/词对参考用户发言中的偏好倾向信息（例如：辱骂、褒义、贬义词汇）抓取，且识别偏好倾向信息的类别；其中，类别包括正向偏好和负面偏好；基于参考用户发言（词汇出现的时序逻辑/词汇之间的关系）匹配偏好倾向信息与对应的运动员；统计数据集a时，跳过对当前运动员为负面偏好，且频次超过第二阈值的参考用户。
[0046]
根据上述内容，可以减小部分参考用户情绪性行为对本方法的影响，提高信息提示准确性。
[0047]
在本技术的一个实施例中，本方法还包括：基于关键字/词对参考用户发言进行跟风行为判定，若判定为跟风，则统计数据集a时，跳过该参考用户。
[0048]
关于跟风行为的判定逻辑，其可以是以下的任意一种：1）、发言内容与前一发言完全一致；2）、t1时间周期（例如：5s）内出现大量（预设的第三阈值）相同发言，且内容一致；3）、发言中出现预定义的附和性词汇。
[0049]
在本技术的一个实施例中，若运动员穿戴智能感知设备，且不考虑各个团体、组织对运动员体征/生理数据，尤其是赛时数据保密的前提，本方法还包括：基于时间轴建立各个体征/生理数据变化曲线图；提取各个得分周期运动员的体征/生理数据变化曲线图，记为得分曲线；其中，得分周期为从一个分数变化为另一分数所经历时间；判定某一运动员前n次得分曲线的变化趋势（上升z1、下降z2）；其中，n、z1、z2均为任意自然数；若某一运动员当前周期（前一分数变化时间点至当前）的体征/生理数据变化曲线图变化趋势与前n次分曲线的变化趋势相同，则定义当前曲线的变化趋势为特征变量，更新预测。
[0050]
以上均为本技术的较佳实施例，并非依此限制本技术的保护范围，故：凡依本技术的结构、形状、原理所做的等效变化，均应涵盖于本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：楚仕成胡云
技术所有人：肇庆市智云体育信息科技有限公司
我是此专利的发明人

上一篇：一种基于随机森林算法的电缆电场分布预测方法
上一篇：文件转换方法、装置及电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。