点击蓝字 关注我们
01
问题背景
从2008到2012年,朝气蓬勃的斗牛士军团在整个欧洲足坛独领风骚、称霸群雄——时隔44年重回欧洲之巅,2010年首捧大力神杯,随后在2012年成为首支卫冕欧洲杯的球队。四年三冠,红色王朝的传奇属于西班牙的黄金一代。而如今,巅峰不再,西班牙在本届2020欧洲杯的征战惊险而坎坷。小组赛艰难出线,淘汰赛阶段常规时间内均未分出胜负,分别在加时赛和点球大战中淘汰对手,最终在半决赛中倒在宿敌意大利的十二码线前。
西班牙足球成也球员,败也球员。黄金一代的球队阵容群星璀璨,锋线上有托雷斯、比利亚这对“T9V7”黄金双枪,同时拥有世界顶级的中场传控大师哈维和伊涅斯塔,后防线固若金汤,门将则是被称为“圣卡西”的卡西利亚斯。他们牢牢地控制着比赛的节奏,向世界展示了传控足球的魅力。时间太快,当英雄谢幕,准备将接力棒传递给下一代球员时,球队却出现了青黄不接的尴尬境地。本届欧洲杯西班牙队阵容公布后,外界一致唱衰,球迷首先将矛头指向主教练恩里克。主教练弃用主力大将,启用大赛经验不足的年轻球员,单是从数据来看,这支西班牙队纸面实力最弱。如今的西班牙已经没有太多选择余地,主教练必须利用现有的人才储备,打造一支稳定平衡且极具成长潜力的球队去冲击明年的世界杯,帮助球队书写伊比利亚半岛的下一个传奇。
改革球队刻不容缓,而 数据是促进球队进步的关键动力之一。在评估球员和分析战术时,教练传统的工作通常需要实地考察球员在联赛的上百场比赛,并在赛后观看录像,进行复盘分析。这样的搜索方式效率低下,并且人工观察不可避免地会遗漏许多比赛关键数据,出现评估上的偏差。现代足球引入视频跟踪系统和智能穿戴设备等高科技技术,能够记录球员在每场比赛中的体能、跑动路线、射门次数等多项数据,全方位评估球员的防守和进攻能力。在实际比赛中,分析师和观众已经开始融入数字足球的世界中来,例如,云计算服务平台AWS为观众提供了球员在任何位置射门得分概率。
掌握数据分析技术的职业足球教练往往能够帮助球队取得稳定进步。就在本届欧洲杯开赛前,英格兰国家队主帅盖雷斯·索斯盖特通过球员数据跟踪系统,分析球员的赛季表现,最终剔除掉7名候选运动员,确定参赛大名单。这份名单帮助英格兰时隔55年后再次闯进决赛,创造了历史。不仅如此,数据还改变了观众对教练的刻板印象。过去谈及教练,人们就会想起六七十岁的老头,现如今却出现了女数据分析师升级为男足主教练的案例。现任香港东方足球队主教练的陈婉婷曾经是一名女数据分析员,她利用数据技术分析带领东方足球队夺得了香港超级联赛冠军,成为世界足坛第一位带领男子足球队夺得此殊荣的女教练。可见数据已经从各个方面改革这项运动,它正慢慢成为球场上影响球赛走向的关键因素。
然而,由于足球运动的保守发展,数据技术在赛事普及度不够,限于技术的不成熟性,大多数球队中的技术分析师仅考虑到利用本赛季比赛中出现的历史数据评估球员能力值和技术发挥。但是 球员过往表现的数据并不能完全反映其未来的发展轨迹,球场上的风云变幻,球员的年龄增长带来的伤病情况以及速度下降等问题都将影响球员的未来表现。传统的统计指标体系仅能呈现出球员在本赛季的各项能力表现,而忽略了历史数据中的时序因素,不能评估未来时刻球员的状态,因此增加了教练用人的风险。
为了帮助西班牙主教练打造一支世界杯冠军之师,本报告利用历史数据观察和学习球员的成长轨迹,预测球员的发展潜力,挖掘球员能为国家队带来的价值。研究方法采用机器学习的方法,搜集2016-2021年西班牙球员的联赛数据,将每位球员后一赛季的综合评分作为目标变量,输入球员前一赛季的各项能力数据训练模型。最后利用2021年现役西班牙球员的数据预测2022年的综合能力值。根据球员预测能力值,报告还将进一步给出基于不同位置球员组合得到的阵型得分评估,为教练选人和用人提供可行建议。数据还能让球迷更客观公正地看待赛事进展和球队表现,拉近教练、球员和球迷的关系。球员产生数据,数据赋能技术,技术改变足球,希望数字时代的足球运动能继续为大众创造精彩和奇迹。
02
数据介绍与说明
本文所使用的数据抓取自2016到2021年的FIFA数据库网站sofifa,共包含1359名球员,3961条数据,其中每条数据代表一名西班牙足球运动员一个赛季的相关信息。综合能力是对球员该赛季表现的评分,不同于射门率等客观数据,该评分由FIFA团队的专业数据调查员评定。他们通过人工观察,综合考量球员类型、技术能力和球队技术定位等给出反馈值。本文主要研究球员未来一年的发展潜力,因此将下一赛季球员的综合能力评分作为因变量。自变量归纳为基本信息、个人能力以及其他信息。基本信息包括球员年龄、身高、体重、位置、惯用脚、所属联赛等变量,个人能力包括进攻、技巧、移动、力量、心理、防守以及守门七个方面,其他信息包括球员逆足能力、花式技巧和国际声誉等变量。具体变量说明如表1所示。
03
数据描述
(一)因变量——综合能力
图1 综合能力评分分布直方图
综合能力反映出一名球员在其对应的球队战术体系中所表现出的个人能力。如图1所示, 本案例中的西班牙球员综合能力分布大致呈现正态分布,能力分均值约为72分。大部分球员集中在65-75分之间,少部分个人能力出众的球员达到了85分以上,如在队期间帮助巴塞罗那球队两度夺得三冠王的传奇中场伊涅斯塔,其巅峰期的个人综合能力评分达到88分。而大多数综合评分较低的球员属于球队替补,由于个人能力和球队技术的限制,他们极少获得出场机会,因此综合评分较低。
(二)自变量
1. 基本信息——年龄、身高、体重
图2 关于年龄、身高和体重的分组箱线图
职业足球运动员往往拥有自己的“黄金年龄段”,本案例将球员的年龄离散化后,发现西班牙球员职业巅峰期在25岁左右,在这期间球员综合能力评分最高。另外,凭借球赛经验的积累,处于衰退期的球员能力仍比发展期的球员更高。如17-18赛季的皇马左后卫拉莫斯综合能力获得了90分,近几年随着年龄增长,其能力评分下降到89分,但这仍比初登西甲赛场时的能力得分高。(b)图显示球员身高差异不会对评分产生较大影响,结合实际,身高较高的球员常常出现在球队防守端,而身高矮小的球员灵活性更高,常出现在球队进攻端,两者均会对球队产生关键影响,因此评分不会有太大差异。为了维持良好的竞技状态,职业足球运动员需要控制饮食,保持较低的体脂率。图2(c)显示体重偏强壮的球员综合能力评分比消瘦和一般的球员更高,这类球员具有更强的对抗能力,面对对方球员时拥有更高的主动性。
2.基本信息——联赛、位置、惯用脚
欧洲足球五大联赛(英超、西甲、法甲、德甲、意甲)代表了当今世界足坛的顶级水平,本案例将球员按其俱乐部所在联赛进行分类,图3(a)显示,一半以上的球员属于“其他”类,这些球员有些来自联赛乙级球队,有些因为年龄增长带来的竞技状态下滑,转会至其他联赛度过职业生涯末期。而其余大部分西班牙球员选择在本国的西班牙甲级联赛中踢球,英超是除去本国联赛外第二吸引西班牙球员的联赛。另外,对于效力于不同联赛的球员,其综合能力评分出现了差异。 意甲是平均综合能力评分最高的联赛,其次是英超,而西甲在五大联赛中排名最末。一个典型的案例是现在效力于意甲尤文图斯的高中锋莫拉塔,他最初效力于西甲皇马,而后经历了转会意甲尤文、重返皇马、转会英超切尔西、被租借至西甲马德里竞技、重返尤文的联赛旅程。在这些联赛中,他在西甲两大俱乐部的综合能力均为82分,比意甲时期的83分和英超时期的84分都低,这可以从侧面反映出近年来英超和意甲在联赛整体水平上要高于西甲。其他联赛的球员多属于处在职业上升期或衰退期的球员,因此平均综合能力评分较低。
注:(a)图中其他类包括五大联赛B队、乙级球队以及五大联赛之外的联赛球队(如:神户胜利船)
图3 关于俱乐部、位置和惯用脚的分组箱线图
由图3(b)可知,大部分西班牙球员的惯用脚为右脚,但惯用脚差异并不会对球员能力评分带来影响。图3(c)显示了足球运动员在球场上的战术位置,案例中的大部分球员均属于主力替补。在常年首发的名单中,司职右后卫和守门员的西班牙球员最多。整体上中场和后防线上西班牙球员人数较多,而锋线上人数最多的是中锋,前锋人数最少,这些和西班牙擅长组织传控和无锋体系的战术特点有关。球员在不同位置上的能力评分各异,其中 前场球员和守门员由于直接关系进球数目和比赛胜负,更易获得高评分,如在案例数据中得分最高的球员是曼联门将大卫·德赫亚,他在17-18赛季获得91分高分,而中场和后场球员由于不直接参与进攻,平均能力得分较低。
3. 其他信息——逆足能力、花式技巧、国际声誉
逆足能力是指球员使用非惯用脚时的踢球精准度,案例中的大部分球员逆足能力中等,如图7(a)所示, 逆足能力较高的球员会获得更高的综合能力评分,这意味着在球场上综合使用惯用脚和非惯用脚有助于提升球员处理球的能力。另外,在足球比赛中,除了精彩绝伦的进球能使球员大饱眼福外,球员一闪而过的花式技巧也能提高比赛的观赏度。如球王马拉多纳的花式过人、齐祖齐达内的马赛回旋以及在禁区内的假射等等,既能迷惑对方防守队员,又能使球迷惊叹不已。图7(b)显示大部分球员不擅长使用花式技巧,但 花式技巧会大大提升球员的综合能力,花式技巧水平值为5分的球员平均综合能力值约为84,较前一水平的球员有大幅提升。图7(c)说明较高的个人能力往往会使球员获得更高的国际声誉,如国际声誉等级为5分的“小白”伊涅斯塔,他凭借高超的传控技术和组织能力,成为巴萨和西班牙辉煌伟业的基石,又因其极强的团队意识和低调谦逊的性格深受球员和球迷的爱戴。但大部分西班牙球员的国际声誉水平较低,其中不乏像皇马球员阿森西奥这样自身能力出众但因伤病折磨未能兑现自身天赋的球员,但大多数是在乙级球队踢球或根本无法获得出场机会的替补球员。
图4 关于逆足能力、花式技巧、国际声誉的分组箱线图
4.个人能力
从防守端到进攻端,每一名球员的各项得分都会影响个人综合能力评分。图5展示了西班牙球员不同个人能力之间相关关系的情况,其中从上至下分属于技巧、移动、力量、心理、防守和守门能力。从图中可以看出,弹跳能力与其他能力相关性最弱,而守门能力与其他几类能力呈现负相关关系。包含在守门能力内的鱼跃、手形、占位、守门反应等都属于守门员的能力打分,它们内部的相关性很高,但其他位置的球员不会出现这些动作,因此其守门能力一般较低。 在进攻组织端,进攻和技巧两类能力之间的相关关系较强,可见精细的脚下技术会提升传中和射门的准确度。另外,图中显示具有良好技术的球员同样具有较好的心理能力,其跑位、视野和点球能力随着进攻和技巧能力增加而提升。而在 防守端的各项能力与其他能力之间相关性较弱,但它们与侵略性和拦截意识高度相关,这是由于后场防守球员为了阻挡对方进球,时常需要拦截对方球员或者直接采取战术犯规动作,以此保护本方禁区。
图5 球员个人能力的相关关系矩阵图
04
模型分析
由图5得出,每位球员的个人能力之间存在高度相关性,因此首先对个人能力变量进行因子分析,再将公共因子的得分和其他原始变量结合作为自变量进行回归分析。进行因子分析前需进行适用性检验,检验结果显示KMO值为0.969,Bartlett球状检验p值小于0.05,说明变量具有显著相关性,因子分析参考意义较大。当因子个数达到5时,方差的累计贡献率超过85%,因此确定需要提取的公共因子个数为5个。
图6 因子载荷矩阵热力图
图6显示了经过正交旋转后得到的因子载荷矩阵,其中第一个因子能解释的变量主要包含射术、凌空、任意球精度、远射、跑位及视野等,将这些归纳为球员的进攻因子。第二个因子主要解释侵略性、拦截意识、抢断以及铲球等变量,因此将第二个因子命名为防守因子。剩下的三个因子分别解释为守门因子、移动因子以及力量因子。本案例选用基于BIC准则的全子集回归进行模型选择,筛选掉了身高、体重、惯用脚、逆足能力、花式技巧以及移动因子这6个变量,将剩下的8个变量进行回归建模,结果如表3所示。
由表3所示,年龄对综合能力影响显著,这说明度过职业黄金期后的球员年龄越大,竞技状态有所下降。高水平的国际声誉能显著提升综合能力评分,例如本案例数据中唯一取得5分国际声誉的球员是15-16赛季的巴塞罗那球员伊涅斯塔,他在该赛季达到88分综合能力评分,而他在随后几个赛季,国际声誉降至4分,综合能力也有所下降。联赛变量以其他类为基准组,结果显示在其他变量保持一致时,效力于西甲、德甲、英超、意甲球员的得分均显著高于其他类的球员,其中意甲联赛最能提升综合能力,而在法甲踢球影响并不显著。球员位置以替补类球员为基准组,其结果显示主力球员的综合能力得分均显著高于替补球员,而其中守门员位置上差异最大,中场球员和替补球员的得分差异较其他位置上最小。另外,进攻 、防守、守门、力量这四个公共因子对综合能力的影响均显著,其中系数较大的因子为进攻因子、守门因子、力量因子。球员的进攻和力量分值越高,综合能力也随之增高,而守门因子却会拉低一般球员的综合能力评分。
为了提升预测准确度,本案例还采用随机森林回归和XGBoost两种机器学习模型在数据集上进行训练,调整模型参数后,得到5折交叉验证的结果如表4所示。对比发现,随机森林和XGBoost模型较线性回归模型有较大提升,其中随机森林回归模型的预测效果最好,XGBoost略微逊色,两个模型在测试集上的均方根误差均在2.3左右,较多元线性回归模型拟合优度提升了约10%。
图6 模型重要度排序图
图6显示了两种机器学习方法的自变量重要度排序,对比发现,弹跳、平衡、体重、花式技巧、逆足能力这五个能力值均位列自变量重要度前10,说明它们对综合能力的影响度较大。两个模型都着重考虑了球员移动、力量和心理,但随机森林模型更侧重于区别球员的技巧。这些能力是不同位置上的优秀球员都具备的能力,而进攻、防守以及守门三大能力却没有出现在重要度前十的特征中。原因并不是进攻和防守端的能力水平不影响球员的综合能力,而是不同位置的球员所具备的技术特点并不均衡,例如前锋的进攻能力非常突出,但其防守能力相对较弱,而门将其他能力较弱,守门能力最为突出,因此单独比较这两个变量的差异难以反映球员的综合能力水平。例如西班牙籍曼联门将大卫·德赫亚进攻和技巧等能力值仅为10-20分,但是他的守门能力值均在80分以上,因此其综合能力达到87分,以此显示综合能力值并不是上述所有能力的平均,而是取决于不同位置上的能力技术特点。另外,花式技巧和逆足能力在以上三个模型中都被证实是影响综合能力评分较大的因素,说明双脚均衡和丰富的花式技巧能够帮助球员在球场上牢牢掌握控球权。
05
模型应用
综合上述模型分析结果,本案例选用预测效果最优的随机森林回归模型对现役西班牙球员2022年的综合能力进行预测。将球员按照其所在位置进行分类排序,从高到低筛选得到不同位置上能力最佳的球员组成23人世界杯大名单(表5)。另外,案例还将结合名单中球员的擅长位置和能力特点,给出几大经典阵型(如4-3-3、4-4-2等)的主力阵容和阵型评分,为球队在2022世界杯上打造一支冠军之师。
每个阵型都有各自的优缺点,如4-3-3阵型(图7)的优势是攻击力强,劣势在于中场薄弱。该阵型常用于加强边路进攻,它通过左右边锋撕破对方防线,这对三名中场球员要求极高,需要他们退能守,进能攻,交叉换位时能够为前场球员提供掩护。而以4-3-3阵型为基础又衍生出中场人数较多的阵型4-2-3-1(图10),该阵型可以利用科克和布斯克茨这对双后腰,增加中路的防守,另外还可以轻易的封堵对方的边路进攻。同时,在本方进攻时,至少有一名防守型中场保护中路,方便采用防守反击战术来增加攻防转换,提升防守稳定性。曾经帮助西班牙获得2012年欧洲杯的4-1-4-1阵型(图8)依托于强大的中场实力,面对如今锋线疲软的西班牙,若能利用布斯克茨这名出色的后腰,将中场和后场连接起来,这个阵型就可以灵活地转变成4-5-1或者5-4-1等阵型,因此单后腰的位置是该阵型的定海神针。而恰恰是这名中场自由人的两侧空位处易被对手利用,产生威胁,因此两名边后卫需要与中场线保持适当间距,以便及时补上,避免危险。4-4-2阵型(图9)作为历史上变种最多的阵型,其攻守均衡的特点受很多球队的喜爱。在球赛的防守阶段,莫拉塔可以回撤到中场协助防守,而进入进攻阶段,他可以作为前场支点协助进攻。但由于该阵型的平行站位,一旦出现空挡容易被利用,因此在实际运用时需要采用更多的走位和布局来实时调度球队。
06
总结与建议
本案例以西班牙球员过去5个赛季产生的联赛数据为例,挖掘出球员的成长轨迹,基于此预测出2022年西班牙国家队的最佳球员名单。这份名单能够辅助西班牙国家队主教练为下一届卡塔尔世界杯挑选球员,组成一支综合实力极强的队伍。这些球员中有保持巅峰状态的老将,也有初出茅庐的足坛新秀,教练在挑选人选时需着重考虑球员的以下因素:1. 球员年龄:为了避免球队老化严重,在组成球队时要注意新老搭配。2. 球员技巧、力量和心理能力:教练需要观察球员的花式技巧和逆足能力,并在训练时增加相关训练。另外,在大赛淘汰赛中经常出现点球大战,这对球员心理素质要求极高,因此教练可以分析球员以往点球的胜负率来决定点球出场名单。3. 球员进攻能力:球队锋线的质量直接决定进球率的高低,因此教练需要安排进攻能力值高的锋线球员和进攻型中场球员,提高球队的整体进攻能力。
现代足球经过百余年的发展,成为了世界上最流行的球类运动之一。当足球来到大数据时代,数据又能赋予足球新的增长空间,让更多人感受足球的魅力,体验足球带来的激情和奇迹。从球员产生数据,到数据分析师分析数据做出判断,再到教练将这些挖掘后的信息应用到球场上,这一流程能够将球赛化繁为简,帮助球队提高训练效率,增加获胜可能。西班牙足球经过十载沉浮,复兴之路任重道远,如今已经来到更新换代的关键时刻。若能将数字技术的战术蓝图融合到下一代斗牛士军团中,定能帮助西班牙早日复刻王朝时代,重回世界巅峰。
本案例来自狗熊会人才计划第六期学员作品,作者严斯祺,中央财经大学,指导教师:水妈
点击“阅读原文”发现更多精彩