随着疫情逐渐消退,足球运动的热度不断复苏。 主流联赛已全部重启,英超和西甲冠军也已提前揭晓。 欧洲五大联赛中,只有意甲联赛尤文图斯仍有获胜悬念。 作为多年的假球迷,我在为皇马时隔3年重夺第34座联赛冠军、尤文图斯在争冠形势上取得良好成绩而感到高兴的同时,不禁感慨武磊现在的俱乐部(俱乐部)西班牙人队()已降级为西甲副主席。 后悔。 因此,本文将分析武磊距离顶级前锋还有多远?
我想通过这篇文章恭喜皇马夺得34冠
01 数据采集与分析框架
获取球员数据的渠道有很多,比如德国转会市场(德国转会市场)和足球最大的移动平台奇球地等,都可以获取实时更新且相对完整的数据。 但考虑到爬取的难度西甲球队分布图,笔者寻找了一个简单而又权威的足球运动员数据平台——PES官方数据库。 作为最经典的足球游戏之一,PES的数据一般来自官方授权。 虽然更新不及时,但好在获取极其简单(有分页json API),对爬虫初学者非常友好。 更重要的是,它非常容易获得。 无需考虑防攀爬问题。
实况足球2020数据库
对网页请求API进行简单分析后,我们可以得到从数据库获取的json接口,共有752页超过150万条足球运动员信息,每个球员总共有30多个特征信息。 除了球员姓名、国籍等基本属性外,还影响球员的能力。 特征也有20+,值得分析的切入点也很多,但受限于篇幅和兴趣点:本文主要分析框架如下:
个人选手排名:“各种”顶尖选手
借助机器学习挖掘玩家属性信息
注:本文数据来源于,所有分析观点和结论仅供参考。 文章最后给出了源代码和数据文件的获取方法。
02 基本概况分析
为了从宏观上了解主流联赛现役球员的现状,首先从以下四个维度给出球员分布:
玩家宏分布
由此可以得出以下明确的结论:
其次,对球员的基本属性(肖像)进行分析,主要关注球员的自然属性和得分问题。
玩家基本属性
从球员基本属性来看:
接下来用一个很酷的桑基图来展示主流联赛的球员来源。 这里除了西班牙、英格兰、意大利、法国四大联赛球队的完整信息外,只选取了德甲联赛的几支顶级俱乐部,与其他几支欧洲强队一起纳入联赛标签下。 “其他欧洲球队”。 同时,为了了解中超联赛的情况,中超联赛也被纳入分析。
可能华丽的桑基图
毫无疑问,欧洲主流联赛的球员仍然以欧洲国家为主。 这当然与俱乐部对外籍球员数量的限制有关(欧盟国家不占用外籍球员配额),但同样不可否认的是,欧洲足球的顶级水平是摆在那里的。 与此同时,南美和非洲也为五大联赛贡献了多名球员,其中包括巴塞罗那前三叉戟MSN(目前N曾效力于法甲巴黎圣日耳曼),两人均来自南美国家。 英超新贵利物浦的两名主力前锋萨拉赫和马内都来自非洲。 此外,亚洲近年来也向欧洲输出了不少球员,其中包括亚洲一哥孙兴慜、中超代表武磊等,其中孙兴慜是中国唯一的亚洲5星球员。
下面的箱线图可以更清晰地表达目前几个大联盟的球员水平状况。 从整体分布范围、均值和极值来看,联赛级别排名应该是:西甲联赛-英超联赛-意甲联赛-法甲联赛-其他欧洲球队(包括德甲几支强队)-中超联赛。
几个大联盟球员的评分分布
另外值得注意的是,西意大利、法国等欧洲球队都有得分超过90分的极值点,盲猜应该是巴萨的梅西、尤文图斯的C罗、巴黎的内马尔和拜仁的莱万多夫斯基。 这也基本上代表了当今足坛排名前四的前锋。
03 个人球员分析
首先是对球员整体的宏观分析,接下来重点是球员个人能力指标的对比排名。
首先,让我们重点介绍当今世界的顶级足球明星(评分>90):
球员基本信息如下:
足坛八位顶级巨星(评分90+)
顶级超巨的评分都在90+。 需要注意的是,90+的收视率在国内算是绝对顶级水平了。 评分在90以上的球员仅有19人(即评分90的球员有11人,其中包括拉莫)。 西、姆巴佩、丁丁、格列兹曼、萨拉赫等)。 虽然姆巴佩算得上是一位非常有前途的年轻人,而内马尔、阿扎尔、阿利森也正处于职业生涯的巅峰期,但我们还是不得不感叹梅罗能以这样的成绩继续称霸世界足坛前十。高龄。 于念,真是天下两大骄子。
让我们根据位置来细分排名。 这里,将球员简单地分为前、中、后防线、守门员等4类位置,并分别选出前5名。 获取以下列表:
4条线TOP5
从位置上来说,进入名单的都是各俱乐部的主力球员,这并不奇怪。 但如果说有哪个名字比较陌生的话,那就是那不勒斯中后卫库利巴利,由于俱乐部的原因,知名度可能会稍差一些。
梅洛在如此高龄的情况下,已经统治足坛十多年了。 然而,足坛还有一个更为传奇的不朽神话,堪称足坛老妖。 比如瑞典大神伊布,已经38岁了,依然享受着5星级的待遇。
5位球星中34岁以上的球员只有7人,而且都是传奇
如果仅仅根据星级和年龄来评价足坛老将不够权威和公正,那么定义老将指数=等级*年龄,选出老将指数前10名的球员,你会发现有球员是甚至比伊布还要传奇的面孔——布冯! 虽然时间已经不允许他继续以5颗星闪耀世界,但没有人会质疑他占据足坛第一把交椅的资格。 此外,伊布和C罗依然位居榜单前5,这足以证明他们有活化石的能力; 而巴萨前中场大脑哈维在这份榜单中排名第7,但他的真实身份是阿尔萨德俱乐部主帅。
老魔指数=分数*年龄
英雄不问出身,名声不问年龄。 足球界那些能够吸引全世界目光、撬动资本市场的,其实都是足球小怪兽,或者说潜力股。 几年前,刚刚展现才华的姆巴佩就以这样的身份向世人展示了自己。 直到他随法国队夺得第18届世界杯正式证明自己,他不再只是球迷眼中的“怪物”。 当然,在姆巴佩之后,足球界从来就不缺少怪物,比如:
五星中已有8名U22球员,其中大部分已进入豪门俱乐部。
同时,与老妖指数类似,这里对小妖指数也有类似的定义:小妖指数=分数/年龄,仍然选择TOP10,得到如下排行榜:
小魔指数=分数/年龄
位居榜首的是一名 15 岁的智利球员,他在该国甲级联赛效力。 不过,他的胜利更多是因为年龄优势。 他的潜力和成长空间还有待验证。 相比之下,更值得一提的是尤文图斯的德里赫特和皇马的巴西小将双子星(维尼修斯和罗德里戈,都是2000年出生的)。 尤其是德利赫特20岁就能夺冠,5星中后卫评分实在是凤毛麟角。
除了单属性巨星之外,现代足球还需要全能型球员,被称为绿茵场上的“六角勇士”——除了门将位置之外什么都能打。 为了找到足球中的这些六边形勇士,类似于电商会员价值分析中的RFM模型,选择以下指标来计算球员的六维指数:
在此基础上,当一名玩家在某个维度的能力值高于所有玩家的平均值时,则计为1,否则计为0。当所有六个维度都高于相应的平均值时,则为6星不断积累,就能成就六角武士。 选择六大变形金刚中评分最高的10名玩家,并创建相应的雷达图,如下所示:
六角战士能力雷达图前十名(守卫超半座)
最后,让我们关注另一个有趣的统计数据:受伤病困扰的足球巨星。 谈到伤病对职业生涯的影响,C罗或许有发言权:尽管职业生涯并不辉煌,但他曾效力过西甲和意甲的对手豪门(皇马vs巴塞罗那、米兰vs国际米兰) ),并拥有无数的个人和集体荣誉。 他曾被誉为继贝利、马拉多纳之后第三位获得世界冠军的球员,但不得不感叹伤病对他职业生涯巅峰的巨大影响。 放眼当今足坛,虽然医疗水平和饮食科学日益提高,但仍有不少巨星饱受伤病困扰。 根据数据库中的抗伤指数信息,筛选出最容易受伤的TOP10巨星,得到以下结果:
足球界十大玻璃巨星
不过可能是由于这个指标的区分度较低(PES数据中这个字段只有三个值1、2、3,值越高越不容易受伤),所以表现有些明星的形象与现实并不相符。 比如本泽马和克罗斯目前都是皇马球员,出勤率极高; 而“玻璃名家”也不少,比如贝尔、蒂亚戈、罗伊斯等。 可以毫不夸张的说,如果没有伤病困扰,他们现在的足坛地位将会高很多!
从这个角度来说,像梅罗这样天赋出众、不易受伤、巅峰期很长的超级巨星,确实是多年难得一见。
04 机器学习筛选
数据记录数量充足,特征丰富。 如果不在上面运行几个机器学习模型就太可惜了!
这部分主要从三个角度进行分析,属于机器学习中的三个主流问题:
进一步,将机器学习模型得到的ML评分和星级作为球员的“真实能力”,与PES评分和星级进行比较,分析那些被PES高估和低估的球员;
球员位置预测:这也是一个分类任务,但考虑到分类的难度和准确性,将球员的角色分为前场、中场、后场和守门员四类,构建四类任务来探索“不兼容”功能”或“没有正确履行职责”的玩家
球员聚类分析基于物以类聚的思想,重点探索PES中哪些球员与武磊更“相似”。 要了解一个人的价值,可以判断他与谁交往。 因此,通过分析武磊聚集在同一集群的球员有哪些,我们可以在一定程度上窥见武磊在足坛的地位和水平。
上述机器学习模型中,回归和分类任务均调用随机森林模型,没有进行特征工程或优化参数调整; 聚类任务在进行归一化处理后调用K-means聚类模型,并使用轮廓系数来选择最佳聚类数作为度量。
首先我们来看看球员能力分析。
使用玩家评分作为预测值,进行随机森林回归后西甲球队分布图,R2得分为0.95,具有良好的学习效果。 基于该模型,通过ML评分和PES评分之间的差异,得到PES高估(PES评分高于ML评分)和低估(PES评分低于ML评分)的前十名球员:
【评分】十大被高估球员:豪门溢价导致“高分低能”
【评分】十大被低估球员:低级别联赛限制了他们的价值
同样,使用随机森林分类模型来预测玩家星级,最终准确率得分为0.88,略低。 使用这个模型来预测所有玩家的星级,并与PES给出的星级进行比较,我们得到以下结果:
[明星] 被高估的十大球员:全部来自欧洲豪门球员
[明星] 十大被低估球员:多为二线球队球员
通过以上两个模型训练和预测结果分析,最直接的结论是:
接下来,利用球员位置分类模型来分析哪些球员可能“与职责不相适应”或“没有做好本职工作”。
仍然调用随机森林分类模型对所有玩家执行4次分类任务,分类准确率得分为0.9,这意味着学习效果可以接受。 给出混淆矩阵结果是为了直观地探究各类球员的位置预测误差:
玩家预测结果混淆矩阵
左边的索引是真实位置,上面的列是预测位置。
容易发现:
给出了预测位置与实际位置不符的前十名超级巨星:
“功能不符”的十大巨星均在“合理”范围内
最后,利用聚类模型对与武磊(左边锋)同位置的球员样本进行聚类任务西甲球队分布图,以了解武磊在左边锋队伍中属于什么级别,以及与武磊相比如何。左翼中的顶级巨星(如C罗、内马尔和阿扎尔(以内马尔为代表))以及差距有多大。
经过简单的聚类训练(用剪影系数作为评价指标,但总体得分处于较低水平),将K-means聚类参数设置为5,每个聚类中玩家的平均得分可视化为如下:
5组球员平均评分:武磊处于“1”组,以微弱劣势排名第三
与武磊一起踢球的左翼球员
总体来看,与武磊同组的左翼球员中,大部分评分都在80分左右(对应3-4级明星球员),并没有出现人气方面特别出色的球员。
最后,选择左边锋位置最重要的两个能力是速度和射门。 散点图制作如下:
武磊与五星级左翼球队仍有较大差距
显然,单看速度和射门两个属性:武磊在速度上有一定的优势,甚至超越了一些5星左翼,但射门属性却相差甚远,这在一定程度上可以体现武磊目前的状态在足球领域。 还有地位和等级的差异,更重要的是其他很多能力属性的差异。 武磊的现状或许就是国内足球现状的一个缩影!
05 后记
本文使用玩家数据库作为数据源。 主要完成机器学习模型下的球员宏观分布、球员个人排名以及球员属性分析。 得出了一些有意义的结论,对于足球爱好者来说也称得上有趣。
同时,后续可能的优化思路有:
最后再次指出,由于数据准确性和时效性等因素,本文所有分析观点和结论仅供参考和娱乐,不足以说明任何实质性结论。 如果有兴趣分析源码和数据集,可以扫码加微信获取(百度网盘确实很难用)。
如果您对源码和数据感兴趣,可以扫码加微信获取。