在NBA中,预测每个球员的得分在篮球分析领域至关重要。它是一个关键的表现指标,允许教练、分析师和球迷评估球员的得分能力和对球队的整体进攻贡献。了解球员的得分潜力有助于比赛中的战略决策、球员选择和人才发掘。在本篇报告中,我们深入研究了篮球数据分析领域并使用机器学习技术来预测每个球员的得分水平。
预测所采用的回归模型:
通过使用这些回归模型,旨在了解它们在预测球员得分方面的表现,并比较各自的预测能力。通过对比分析,可以从实际意义上考量不同模型各自的优劣,并在这个特定的数据集中确定最适合预测球员得分的模型。
2023_nba_player_stats.csv
在该数据集中,包含2023年所有NBA球员的各项指标数据。其中各列名简称的实际解释意义如下:
PName | Pos | Team | Age | GP | W |
---|---|---|---|---|---|
球员姓名 | 球员位置 | 所属球队 | 年龄 | 出场次数 | 胜场 |
L | Min | PTS | FGM | FGA | FG% |
负场 | 出场时间 | 总得分 | 投篮命中数 | 投篮总次数 | 投篮命中率 |
3PM | 3PA | 3P% | FTM | FTA | FT% |
三分命中数 | 三分出手数 | 三分命中率 | 罚球命中数 | 罚球总次数 | 罚球命中率 |
OREB | DREB | REB | AST | TOV | STL |
进攻篮板数 | 防守篮板数 | 总篮板数 | 总助攻数 | 总失误数 | 总抢断数 |
BLK | PF | FP | DD2 | TD3 | +/- |
总盖帽数 | 个人犯规数 | 虚拟得分 | 两双数 | 三双数 | 正负值总和 |
其中,球员虚拟得分(FP)指的是在NBA2K2023中进行模拟球队对局所产生的常规赛各球员得分总数。其余各项指标均为篮球基本术语,在此不过多解释。
在进行数据分析与处理的过程中,需要在pycharm编辑器中导入数据操作与可视化所需的库。
利用pandas库读取csv文件,读取后的数据类型为DataFrame类型。
数据集包含539行,30列,其中完全重复数据为0条。
将原始数据的列名缩写修改为全称。
从加载的数据集基本信息表发现,除Position列存在NaN型数据外,其余列数据项均完整。
从描述性统计来看,出现频率最高的球员位置为SG(得分后卫),出现频率为96次,不同的球员位置包括7种,分别为PG、SG、SF、PF、C以及不明确的G与F,其中PG、SG属于G的划分,SF、PF则属于F的划分。NBA球员的平均年龄为26岁,最小的仅19岁。
在数据集探索过程中,发现Position列中存在NaN型数据,在描述性统计中发现SG为Position列中出现频率最高的一项,因此,考虑将缺失项修正为SG。
在此之后,可以考虑将数据按照球员位置分组进行可视化呈现。其中包括根据球员位置分组得到的平均总得分、球员年龄的频数分布直方图、按位置分组下球员年龄与总得分、投篮命中率、总助攻的二维关系散点图等。
在篮球中,球员通过出手投篮或罚篮获得个人得分。在比赛中,球员的得分可能受到其它因素的影响,如该球员的出场时间、抢到的篮板数、贡献的助攻数等,篮板数与助攻数可能无法从现象上反映对于球员得分的贡献,但纵观全局,所引发的蝴蝶效应是巨大的。
在NBA体育环境中,詹姆斯、杜兰特、库里等超级巨星拥有着大量球迷和广泛的商业价值,球迷与行业专家对于他们的赛场表现也相当关注,该节通过对比詹姆斯、杜兰特、库里、扬尼斯以及伦纳德五名超级巨星的各项数据,观察他们2023年的登场表现并做出评价。
球员对比分析步骤:
通过球员对比分析雷达图发现,司职大前锋的扬尼斯在总篮板数、总得分数以及出场时间上均位于五名球员之首,詹姆斯、杜兰特与伦纳德分别在助攻数、盖帽数与抢断数上位列首位,司职控球后卫、以三分见长的库里则在总得分上仅次于扬尼斯、位列第二名。
单从球员个人数据方面分析,2023年的扬尼斯可谓是做到了真正的攻防一体,作为雄鹿队的球队核心,扬尼斯在2023年常规赛的表现十分亮眼,无愧为一名超级巨星。
在NBA中,衡量一名球员的水平不仅仅参考其进攻能力,防守能力也同样重要。一名出色的NBA球员应该具备强大的意志品质,在进攻端高效发挥自己的得分能力,在防守端尽职尽责,尽可能不让对手得分,做到攻防一体,这才是巨星的衡量标准。
在给定的衡量指标下,得到如上图的十大防守球员,其中2023赛季的mvp乔尔-恩比德位列榜中,除此之外,安东尼-戴维斯、鲁迪-戈贝尔以及小将爱德华兹也都入选了十大防守球员名单。2023赛季NBA官方评定的最佳防守球员为小贾伦-杰克逊,位于上图第二位。
在进攻端,主要考虑球员的得分、进攻篮板(用于二次进攻)以及助攻数据,一名优秀的进攻球员,不仅具备自己单打得分的绝对实力,还应具备团队组织能力。考虑到中锋、大前锋在得分、助攻上的数据不比后卫,因此加入进攻篮板数据,用于更加均衡地评价全位置球员的进攻能力。
在给定的衡量指标下,特雷杨登上进攻球员榜首,他优秀的传控能力使得他在球场上能够完美地掌控球队,东契奇、约基奇也同样作为各自球队的核心登上进攻球员榜单,作为联盟中少有的两名欧洲球员,东契奇和约基奇经常能在球场上贡献大三双的表现,入选进攻球员榜单当之无愧。注意到,2023赛季mvp乔尔-恩比德同样也出现在榜单中,他也是唯一一位同时出现在十大防守球员榜单和十大进攻球员榜单中的角色,常规赛mvp当之无愧。
上述分析所依赖的的数据集为所有球员个人的数据,但是并没有包含球队整体的数据。接下来给出的数据为2023年球队的数据,用于对球队进行整体性的分析。
NBA2022-2023(1).xlsx
根据球队整体的数据,统计出全部球队在当年的胜负场数并利用excel绘制图表。从图表所反映的信息可知,2023年胜场数最高的球队为扬尼斯领衔的密尔沃基雄鹿队,有趣的是,在季后赛的第一轮,东部第一雄鹿队惨遭东部第八热火队爆冷淘汰。
在对球队胜负场进行统计分析后,统计球队场均得分并绘制图表,发现场均得分最高的为西部的国王队,各球队之间的场均得分差距并不大。因此,在比赛中做好防守、控制失误、尽量少让对手得分对于赢得比赛显得至关重要。
回到原来的球员个人数据集,按照单一变量划分数据,绘制箱线图反映各变量下数据分布的中心位置和散布范围。
在考虑各变量间的相关性时,需要剔除各变量下数据的异常值,这里考虑剔除三分出手数低于10次、罚球次数少于10次的球员数据,用于保证数据的质量和准确性,以便进行进一步的分析和建模。
根据7.2相关性分析中热力图所反映的各变量间的相关系数,考虑到多重共线性,剔除高相关性的变量,旨在潜在地提高后续模型的性能。
在进行模型的建立与计算之前,需要先划分训练集和测试集。
其中,参数网络中限制了树的最大深度、叶子结点的最小样本数目,目的是为了防止过拟合,提高模型的泛化能力。
对比线性回归、KNN回归、决策树回归以及随机森林回归模型的预测结果,发现线性回归与随机森林回归的预测结果相对较好,KNN的预测结果相对较差。同时,对于每个模型的预测结果而言,随着球员总得分的不断上升,预测的偏差也会随之增大。从结果上而言,随机森林的预测结果最优,它通过集成多棵决策树以实现最优解,但是,它在运算时间上消耗最大。
本篇报告对于2023赛季的NBA球员个人表现以及球队整体表现进行了数据分析,包括对于数据集的探索以发现变量间可能具有的相关关系、对数据进行可视化展示、分析影响球员个人得分的因素、对比球员数据评价球员表现、分析球队赛季的整体表现,最后,使用机器学习技术对球员个人得分进行预测并得出结论。