探秘足球数据复兴

当世界杯的揭幕战哨声响起，倘若有球员在己方半场得球后，不假思索地将球直接踢向对手一侧的边线之外，屏幕前的普通观众难免会感到费解：比赛才刚刚开始，何以主动放弃球权？然而在比利时鲁汶大学（KU Leuven）计算机科学教授Jesse Davis及其团队眼中，这一看似反常的举动，很可能正是撕开对手防线的前奏。

作为该校体育分析实验室（Sports Analytics Lab）的负责人，Davis过去十余年始终站在足球数据革命的前沿。尽管实验室的研究触角同样延伸至篮球、排球与曲棍球，但其对职业足坛的影响尤为深远。从阵容评估到策略效率，再到潜藏在比赛表象之下的战术规律，机器学习与高级数据方法正在重塑俱乐部的决策逻辑。“他的实验室是足球领域最具影响力的体育分析机构之一。”比利时皇家安德莱赫特体育俱乐部（Royal Sporting Club Anderlecht）的数据招募负责人Hugo Rios-Neto如此评价。

这种影响力并非停留在理论层面。近年来，欧洲顶级联赛频繁出现一种情境：球员在本方中场区域将球踢出对手一侧的边线，随后由对方掷边线球还回场内。表面看，这是对球权的“主动让渡”；但在Davis团队构建的统计模型中，这一选择被证明能够显著提升进攻效率。研究人员以超过140万次传球与约6万次掷边线球作为训练数据，其中不乏2022年世界杯的实战样本，并借助树集成模型（tree ensemble models）对战术路径进行模拟。

2024年，团队以恰如其分的标题“Boot it”发表论文指出：当球处于中场区域时，将其踢出对手一侧边线，往往能在10次以内（含传球、盘带等）的后续行动内形成极具威胁的射门机会。在一场通常包含1500次以上行动、却仅能完成寥寥数次进球的比赛中，这样的效率提升意义重大。Davis的解释直白而务实：主动让球出界，是为了在对手回传失误或处理不当时，更高概率地在有利位置夺回球权。

如果说上述发现为临场决策提供了微观参考，那么Davis在体育分析领域的独特定位，则体现在开放与学术自由之间。他将大量研究成果以开源工具形式对外发布，使俱乐部与分析师得以在日常工作中直接调用。与此同时，学术身份也赋予他探索更复杂议题的空间——例如统一比赛数据的标注标准，这一长期困扰行业的难题，正在他与其他机构研究者的协作下，尝试借助以ChatGPT为代表的Transformer架构逐步破局。

Davis的学术轨迹并非一开始就与足球相连。1979年出生于美国威斯康星州的他，少年时代更倾心于篮球与美式橄榄球，足球几乎不在其兴趣版图之中。直到2002年世界杯，巴西队近乎统治级的表现将他“拉入”这项运动。彼时的他并未预料到，自己会以解构足球的方式与之产生深度交集。在威斯康星大学麦迪逊分校攻读计算机科学博士期间，他曾协助放射科医生分析乳腺X光报告，随后于2010年加入鲁汶大学，研究方向聚焦于人工智能与医疗健康的交叉领域，尤其关注运动员心率、训练负荷与跑步生物力学等指标。

转变发生在一次关键的人事选择上。Davis雇佣了工程学学生Jan Van Haanen，一位痴迷足球的人工智能方向学生。后者不断追问：数据能否用来衡量传球质量、射门选择与推进效率？彼时，这些概念刚刚开始被数字化记录。Davis很快意识到，机器学习与人工智能工具，恰好契合足球的高度复杂性与瞬息万变。2014年，体育分析实验室正式成立。

在Van Haanen看来，实验室奠定了当代足球分析的“知识基石”。研究人员开始为控球权、点球策略（模型建议瞄准中路）以及远射价值赋予可量化的意义。Davis指出，近五到十年间，顶级联赛中的远射频率显著上升，而数据的作用，正是将这些直觉转化为概率判断。

随着时间推移，实验室的理念逐步渗透至职业俱乐部与国家队体系。比利时布鲁日俱乐部（Club Brugge KV）、美国与比利时的足协，均在不同层面借鉴其方法。如今担任布鲁日足球情报主管的Van Haanen，正带领团队将实验室的学术成果转化为可执行的战术指标。通过融合事件数据（记录有球行为）与追踪数据（记录球员移动），俱乐部得以更精确地评估中后卫的推进能力，或在转会市场上识别符合战术需求的球员。

实验室同样关注宏观层面的策略优化。2021年，博士后研究员Maaike Van Roy与团队采用马尔可夫决策过程（Markov decision process）模拟英格兰足球超级联赛球队行为。结果显示，若切尔西在比赛中将20%的射门选择转向更远距离，单赛季预期进球数可提升1.6球。此类研究为“远射是否值得鼓励”提供了量化依据。

然而，与北美部分职业体育相比，足球在数据采集层面仍显滞后。大量比赛解读依赖人工标注，分析师需耗费数小时逐帧整理战术细节，过程繁琐且主观。正因如此，Davis近年来联合多家机构推进数据标准化，试图以机器学习模型替代重复性的人工标注。尽管进展显著，他仍坦言这一过程“依然相当艰难”。

与此同时，实验室持续向外界输出实用工具。其中包括评估球员行动价值的VAEP模型、衡量射门质量的预期进球（xG）模型，以及同步事件数据与追踪数据的工具包。这些开源代码已在行业内获得广泛使用，成为分析师日常工作的基础设施。

对于Davis而言，代码被下载与引用的数字固然重要，但更令他振奋的，是理论在真实赛场中产生回响。正如他所言，驱动自己不断前行的动力，始终来自解决现实问题，并见证研究成果真正改变比赛的方式。在数据与足球持续交汇的浪潮中，这样的实践，或许正是这项运动进化的另一种“进球”。

AI导读

关注微信公众号

大模型

快速导航

探秘足球数据复兴

AI导读

关注微信公众号

相关推荐

解读对中国AI的恐慌情绪

Anthropic launches Opus 5

How Cars24 scales conversations and builds faster

AI公司CEO拒绝用‘超级智能’标签，称其概念模糊

大模型

快速导航