我爱篮球。我喜欢打篮球、看篮球和谈论篮球。有时我会和我的朋友们谈论诸如“如果科比和勒布朗对决谁会赢?”之类的事情。我需要使用这个机器学习项目来结合我的两个爱好,篮球和数据科学。去年夏天,金州勇士队引进了连续两届NBA总决赛MVP(最有价值球员奖)的凯文杜兰特,引进了德安吉洛拉塞尔。于是体育分析师开始猜测拉塞尔在勇士队的契合度,如下:来源:clutchpoints这也让我开始思考:德安吉洛-拉塞尔将如何融入勇士队的节奏?可以用机器吗?学习对NBA球员进行分类并预测球员与给定球队的兼容性如何?该项目的研究目标是确定几种球员类型,并根据历史活动或他们对空间的使用来确定他们在球场上的角色。得分、篮板、助攻、抢断、盖帽等数据不会被用作特征,因为它们依赖于上场时间或进球数等数据(这些数据也不会出现在特征中)。将得分、篮板、助攻、抢断、盖帽等数据作为特征,可能会使最终结果与这些特征紧密相关,这就背离了本项目的初衷。我将在下面的研究方法部分详细介绍所有特征。数据让我们看一下数据部分。使用Python和Selenium包从stats.nba.com提取和处理数据。大多数选定的功能都是基于播放频率。许多比赛同时涉及进攻和防守定位。例如,“offensivepost-uprate”指的是球员在打背身单打时处于进攻位置的频率;“防守背身单打率”是指球员在打背身单打时处于防守位置的频率。关于这些特征的解释,可以参考这个链接:https://stats.nba.com/help/glossary/。样本数据:272名玩家初始数据集包含531名玩家。从样本数据中删除了少于半个赛季和1000分钟的球员。这样做的原则是去掉所有不稳定的玩家。以下是完整的球员样本列表:球员名册选取的特征:41筛选前的特征总数超过600个,最后选取描述走位和运球的特征。特征列表研究方法和模型选择由于该项目属于无监督学习,其得到的结果有待进一步分析。我在模型和聚类数量选择上有两个目标:1.突出聚类之间的显着差异。聚类的数量太少,每个聚类中的样本太多,无法得出各个球员之间的风格差异。2.避免过多的簇。如果每个玩家都是一个簇,结果只能说明每个个体都是个体,对研究帮助不大。模型选择:在以上三种模型DBSCAN、K-means和MeanShift中,K-Means最有效地达到了研究目标。DBSCAN和MeanShift生成的结果都包含多个只有一个玩家的集群。簇数:10我决定将簇数设为5的倍数,因为篮球场上有5个位置。这10个集群符合我设想的研究方法。ResearchResults我用得到的结果计算每组所有特征的平均值,并根据最高和第二高的特征对每组进行排名。术语定义如下:主要特征:所列特征的平均值在一组中最高。次要特征:所列特征的平均值在该组中排名第二。除此之外,每个组的主要特征都通过条形图显示,以便与其他玩家进行比较。第一队斯蒂芬库里布拉德利比尔,巴迪希尔德,斯蒂芬库里,埃文,特雷沃阿里扎,凯尔洛瑞,乔英格尔斯,小奥托波特,博格丹博格丹诺维奇,艾弗里布拉德利,小蒂姆哈达威,杰森塔图姆,贾斯蒂斯温斯洛,杰里米兰姆,E'TwaunMoore,KevinKnox,KevinHuerter,BogdanBognovic,GaryHarris,BrynForbes,EricGordon,TylerJohnson,DamianDotson,TaureanPrince,GarrettTemple主要特征:防守单打命中率次要特征:传球,绕掩护的防守投篮率,防守掩护率,防守背身单打率,快攻率,交手进攻率,进攻掩护命中率防守远投频率组2卡尔-安东尼-唐斯,拉马库斯-阿尔德里奇,乔尔-恩比德,赛迪斯-杨,布雷克-格里芬,安东尼-戴维斯,尼古拉-约基奇,朱利叶斯兰德尔,尼古拉武切维奇,德安德烈艾顿,迈尔斯特纳,阿尔霍福德,马克加索尔,马文巴格利三世,小贾伦杰克逊,塞尔吉伊巴卡,鲍比波蒂斯,埃内斯坎特,乔纳斯瓦兰丘纳斯,罗宾洛佩兹,马基夫莫里斯,戈尔吉让托p特质:进攻性背身单打率、背身单打触球率次要特征:进攻篮板率调整进攻性背身单打率第三组PJTucker、DraymondGreen、MarvinWilliams、JaeCrowder、BrookeLopez、DarioSaric、DewayneDead杰夫格林,凯利奥利尼克,戴维斯贝尔坦斯,迈克穆斯卡拉,马克西克雷伯,贾里德杜德利,迈克斯科特,乔纳斯杰尔布克,安东尼托利弗,文斯卡特主要特征:接球投篮命中率,进攻定点命中率,无人防守投篮命中率,防守单打百分比,防守低位百分比次要特征:防守定点投篮百分比,传球接球百分比组4JoshRichardson,CJMcCollum,MikeConley,JamalMurray,De'AaronFox,TraeYoung,SaiDeeOsman,AlfredPayton,KrisDunn、丹尼·施罗德、埃里克·布莱索、马尔科姆·布罗格登、托马斯·萨托兰斯基、帕特里克·贝弗利、小丹尼·史密斯、伊曼纽尔·穆迪埃、弗雷德·范弗里特、瑞奇·卢比奥、夏伊·吉尔吉斯-亚历山大、达伦·科里森、雷吉·杰克逊、D.J.奥古斯丁、科里约瑟夫、德里克怀特、莱恩阿什蒂亚克诺主要特征:防守篮板距离、进攻挡拆执行率、平均持球运球次数、均匀进攻的次要特征:平均持球秒数、进攻挡拆执行率,进攻篮板距离,远距离运球命中率,防守持球频率,第五组勒布朗詹姆斯,朱赫利迪,保罗乔治,扎克拉文,托拜厄斯哈里斯,布兰登英格拉姆,吉米巴特勒,德文布克,科怀伦纳德,德玛尔德罗赞,肯巴沃克,拉塞尔威斯布鲁克,达米安利拉德,安德鲁维金斯,多诺万米切尔,凯尔欧文,凯文杜兰特,勒布朗詹姆斯,詹姆斯哈登,克里斯和米多t;Middleton、LukaDoncic、CollinSexton、D'AngeloRussell、ChrisPaul、RajonRondo、JordanClarkson主要特征:远距离投篮命中率、进攻单打率、进攻挡拆执行率、平均触球秒数次要特征:平均运球触及防守挡拆执行频率防守篮板球概率调整,无人防守投篮命中率带球平均运球第六组尼古拉斯·巴图姆、朗佐·鲍尔、米卡尔·布里奇斯、丹尼·格林、小凯利·乌布雷、乔纳森·艾萨克斯、泰伦斯·弗格森、杰伦·布朗、多里安·芬尼·史密斯、肯里奇·威廉姆斯、乔希奥肯基,德马雷卡罗尔安德烈本布里,莫里斯哈克利斯,安德烈伊戈达拉,罗迪恩斯克鲁兹,詹姆斯恩尼斯三世,沙奎尔哈里森,帕特康诺顿伊斯奥尼尔,OG安纳诺比,托里克雷格,贾斯汀杰克逊,布鲁斯布朗,弗兰克杰克逊主要特点:快攻率,防守低位命中率,防守命中率次要特征:防守单打命中率,进攻定点命中率,无人防守命中率快攻率第七组德安德烈乔丹,蒙特雷兹尔哈雷尔,巴姆阿德巴约,贾迈克尔格林,梅森普拉穆利,米切尔罗宾逊,扎克柯林斯主要特点:其他进攻率,其他进攻率,近距离对抗命中率,防守挡拆执行率,防守定点投篮率秒ondaryTraits:对抗投篮率,防守投篮率,手肘触球率,进攻性空切率,进攻性背身单打率,油漆区/三秒区触球率,低位背身触球率近距离对抗投篮率第八组扬尼斯-阿德托昆博凯尔-库兹马,阿隆-戈登,本·西蒙斯、哈里森·巴恩斯、杰拉米·格兰特、帕斯卡·西亚卡姆、扬尼斯·阿德托昆博、劳里·马尔卡宁、T.J.沃伦、凯尔-安德森、达尼洛-加里纳利、阿尔-法鲁克-阿米努、贾巴里-帕克、诺阿-冯莱、内曼贾-比利卡、威尔逊-钱德勒、迈尔斯-布里奇斯、朗达和米iddot;Horris-Jefferson、MarioHezonja、JamesJohnson、DerrickJonesJr.主要特征:防守篮板率变化、防守定点跳投率、防守掩护投篮率次要特征:防守单打率、防守挡拆执行投篮率、防守定点投篮率,进攻单打率,防守篮板率变化组IX克莱汤普森,JJ雷迪克,贾斯汀假日,乔哈里斯,雷吉巴洛克,韦斯利马修斯,泰伦斯罗斯,亚伦克拉布,肯塔维厄斯考德威尔波普,兰德里沙梅特,韦恩EllingtonCoBelinelli,DariusMiller,LangstonGalloway,KyleKorver,DougMcDermott,TonySnellTopTrait:OffensiveHandoffRate,进攻绕掩护投篮率,无人防守投篮率,进攻篮板距离,防守投篮率,防守掩护率次要特征:制服进攻、接球和冲球率、防守篮板距离和无人防守投篮率第10队史蒂夫亚当斯、克林特卡佩拉、鲁迪戈贝尔、安德烈德拉蒙德、约翰柯林斯、威尔ieCauley-Stein,TristanThompson,YusuFooNurkic,CodyZeller,JarrettAllen,LarryNanceII,WendellCarterII,DemantasSabotes,TyGibson,DelReyGFavors,DwightPowell,JaValeMcGee,HassanWhiteside,ThomasBryant,AlexLane,KevonRooney,EdDavisVitsiaZubac,JakobPoeltl,AnteZizicTopTraits:进攻挡拆执行率,进攻切入率,投篮命中率,进攻篮板率调整,传球次数多于接球次数,手肘接触率,三秒区/油漆接触率结果让我吃惊。通常,我们认为像斯蒂芬库里这样的联盟顶级得分后卫会与其他明星球员并列。不过这次使用的模型,把他放在了第一组,大部分都是Averageplayerability。相比之下,第五组包含了很多明星球员。作为控球手,他们的主要特点是:远距离运球命中率、进攻单打率、进攻挡拆执行率、平均触球秒数。详细讨论每个组的数据特征会很好,但由于这是一个数据科学项目,我将在下面转向数据可视化问题。结果可视化由于难以将所有41个维度可视化,我使用主成分分析(PCA)将41个维度减少为3个维度。对主成分分析不熟悉的读者可以参考下面的定义:“主成分分析负责寻找一个新的维度序列(或一组基本视点系统),使所有维度呈现正交关系(即是,彼此线性独立),并根据它们之间的差异来排列数据。这意味着主成分分析保留了那些更重要的原则。”综合K-means输出和主成分分析降维的结果,生成了Plotly的三个三维聚类。截图如下:Three-dimensional图表的三维空间更容易显示聚类之间的差异,图表也可以直观地展示K-means如何将41个维度划分为4个聚类。结论和反思回到最初的问题:D'AngeloRussell能否与StephenCurry一起有效发挥?让我们回到第五组。勇士队将凯文杜兰特交易给德安吉洛拉塞尔。两人都属于第五组,即控球球员组。所以我对勇士队主教练史蒂夫-科尔的建议是同时打库里和拉塞尔。当然,这肯定是他预料之中的,他也不需要再让模特出谋划策了。期待拉塞尔在控球方面有所进步,而库里则更多地扮演无球角色。未来我希望能够对每个组的选手进行一个一个的分析,看看每个选手在小组的主次特征上的表现如何。增加分析内容,思考如何改进自己不喜欢的地方,或者如何重新定位球员在球队中的角色,都有助于提高球员的表现。
