探秘足球数据复兴

AI导读

比利时鲁汶大学教授Jesse Davis及其体育分析实验室以机器学习与大规模数据重塑足球决策。通过分析超140万次传球与数万次掷边线球,团队发现中场将球踢出对手一侧边线可显著提升进攻效率,助力在有限次数内创造射门机会。其研究涵盖阵容评估、远射价值与点球策略,影响安德莱赫特、布鲁日等俱乐部及足协,推动事件数据与追踪数据融合。实验室坚持开源输出VAEP、xG等工具,并尝试用Transformer模型统一数据标注。尽管数据标准化仍具挑战,其成果已在赛场落地,为足球战术进化提供可量化的实践路径。

AI Prism 智棱 - 大模型 分类封面图

当世界杯的揭幕战哨声响起,倘若有球员在己方半场得球后,不假思索地将球直接踢向对手一侧的边线之外,屏幕前的普通观众难免会感到费解:比赛才刚刚开始,何以主动放弃球权?然而在比利时鲁汶大学(KU Leuven)计算机科学教授Jesse Davis及其团队眼中,这一看似反常的举动,很可能正是撕开对手防线的前奏。

作为该校体育分析实验室(Sports Analytics Lab)的负责人,Davis过去十余年始终站在足球数据革命的前沿。尽管实验室的研究触角同样延伸至篮球、排球与曲棍球,但其对职业足坛的影响尤为深远。从阵容评估到策略效率,再到潜藏在比赛表象之下的战术规律,机器学习与高级数据方法正在重塑俱乐部的决策逻辑。“他的实验室是足球领域最具影响力的体育分析机构之一。”比利时皇家安德莱赫特体育俱乐部(Royal Sporting Club Anderlecht)的数据招募负责人Hugo Rios-Neto如此评价。

这种影响力并非停留在理论层面。近年来,欧洲顶级联赛频繁出现一种情境:球员在本方中场区域将球踢出对手一侧的边线,随后由对方掷边线球还回场内。表面看,这是对球权的“主动让渡”;但在Davis团队构建的统计模型中,这一选择被证明能够显著提升进攻效率。研究人员以超过140万次传球与约6万次掷边线球作为训练数据,其中不乏2022年世界杯的实战样本,并借助树集成模型(tree ensemble models)对战术路径进行模拟。

2024年,团队以恰如其分的标题“Boot it”发表论文指出:当球处于中场区域时,将其踢出对手一侧边线,往往能在10次以内(含传球、盘带等)的后续行动内形成极具威胁的射门机会。在一场通常包含1500次以上行动、却仅能完成寥寥数次进球的比赛中,这样的效率提升意义重大。Davis的解释直白而务实:主动让球出界,是为了在对手回传失误或处理不当时,更高概率地在有利位置夺回球权。

如果说上述发现为临场决策提供了微观参考,那么Davis在体育分析领域的独特定位,则体现在开放与学术自由之间。他将大量研究成果以开源工具形式对外发布,使俱乐部与分析师得以在日常工作中直接调用。与此同时,学术身份也赋予他探索更复杂议题的空间——例如统一比赛数据的标注标准,这一长期困扰行业的难题,正在他与其他机构研究者的协作下,尝试借助以ChatGPT为代表的Transformer架构逐步破局。

Davis的学术轨迹并非一开始就与足球相连。1979年出生于美国威斯康星州的他,少年时代更倾心于篮球与美式橄榄球,足球几乎不在其兴趣版图之中。直到2002年世界杯,巴西队近乎统治级的表现将他“拉入”这项运动。彼时的他并未预料到,自己会以解构足球的方式与之产生深度交集。在威斯康星大学麦迪逊分校攻读计算机科学博士期间,他曾协助放射科医生分析乳腺X光报告,随后于2010年加入鲁汶大学,研究方向聚焦于人工智能与医疗健康的交叉领域,尤其关注运动员心率、训练负荷与跑步生物力学等指标。

转变发生在一次关键的人事选择上。Davis雇佣了工程学学生Jan Van Haanen,一位痴迷足球的人工智能方向学生。后者不断追问:数据能否用来衡量传球质量、射门选择与推进效率?彼时,这些概念刚刚开始被数字化记录。Davis很快意识到,机器学习与人工智能工具,恰好契合足球的高度复杂性与瞬息万变。2014年,体育分析实验室正式成立。

在Van Haanen看来,实验室奠定了当代足球分析的“知识基石”。研究人员开始为控球权、点球策略(模型建议瞄准中路)以及远射价值赋予可量化的意义。Davis指出,近五到十年间,顶级联赛中的远射频率显著上升,而数据的作用,正是将这些直觉转化为概率判断。

随着时间推移,实验室的理念逐步渗透至职业俱乐部与国家队体系。比利时布鲁日俱乐部(Club Brugge KV)、美国与比利时的足协,均在不同层面借鉴其方法。如今担任布鲁日足球情报主管的Van Haanen,正带领团队将实验室的学术成果转化为可执行的战术指标。通过融合事件数据(记录有球行为)与追踪数据(记录球员移动),俱乐部得以更精确地评估中后卫的推进能力,或在转会市场上识别符合战术需求的球员。

实验室同样关注宏观层面的策略优化。2021年,博士后研究员Maaike Van Roy与团队采用马尔可夫决策过程(Markov decision process)模拟英格兰足球超级联赛球队行为。结果显示,若切尔西在比赛中将20%的射门选择转向更远距离,单赛季预期进球数可提升1.6球。此类研究为“远射是否值得鼓励”提供了量化依据。

然而,与北美部分职业体育相比,足球在数据采集层面仍显滞后。大量比赛解读依赖人工标注,分析师需耗费数小时逐帧整理战术细节,过程繁琐且主观。正因如此,Davis近年来联合多家机构推进数据标准化,试图以机器学习模型替代重复性的人工标注。尽管进展显著,他仍坦言这一过程“依然相当艰难”。

与此同时,实验室持续向外界输出实用工具。其中包括评估球员行动价值的VAEP模型、衡量射门质量的预期进球(xG)模型,以及同步事件数据与追踪数据的工具包。这些开源代码已在行业内获得广泛使用,成为分析师日常工作的基础设施。

对于Davis而言,代码被下载与引用的数字固然重要,但更令他振奋的,是理论在真实赛场中产生回响。正如他所言,驱动自己不断前行的动力,始终来自解决现实问题,并见证研究成果真正改变比赛的方式。在数据与足球持续交汇的浪潮中,这样的实践,或许正是这项运动进化的另一种“进球”。

内容声明

本文内容基于公开市场信息与媒体报道进行整理,部分观点来自社区讨论。如涉及事实性问题,欢迎通过 xurj005@163.com 与我们指正,我们将及时核实并更新。