2018俄罗斯世界杯将于北京时间6月14日23:00在莫斯科卢日尼基体育场正式开赛.在比赛开始之前,我们不妨用Python来分析一下参赛球队的实力,大胆预测夺冠热门球队。通过数据分析,可以发现很多有趣的结果,例如:找出哪些球队是进入世界杯的黑马球队找出2018年32强球队中有哪些曾经进入过世界杯,但没有赢过比赛在世界杯球队中当然,我们这次的主要任务是通过数据分析来预测2018年世界杯夺冠热门球队。本次分析的数据来自Kaggle,其中包含从1872年到今年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家间友谊赛等,共约4万场。这次的环境是:Window7系统Python3.6JupyterNotebookpandasversion0.22.0先来看一下数据:csv')df.head()该数据集包含的数据列信息如下:日期主队名称客队名称主队进球数(不含点球)客队进球数(不含点球)比赛类型citywherethegame国家是否中立的结果如下:获取所有世界杯比赛的数据(不包括预选赛)df_FIFA_all=df[df['tournament'].str.contains('FIFA',regex=True)]df_FIFA=df_FIFA_all[df_FIFA_all['tournament']=='FIFAWorldCup']df_FIFA.head()结果如下:对数据做初步排序,代码如下:df_FIFA.loc[:,'date']=pd.to_datetime(df_FIFA.loc[:,'date'])df_FIFA['year']=df_FIFA['date'].dt.yeardf_FIFA['diff_score']=df_FIFA['home_score']-去向_FIFA['away_score']df_FIFA['win_team']=''df_FIFA['diff_score']=pd.to_numeric(df_FIFA['diff_score'])然后创建一个包含获胜球队信息的新数据列,代码如下:#Thefirstmethodtogetthewinnersdf_FIFA.loc[df_FIFA['diff_score']>0,'win_team']=df_FIFA.loc[df_FIFA['diff_score']>0,'home_team']df_FIFA.loc[df_FIFA['diff_score']<0,'win_team']=df_FIFA.loc[df_FIFA['diff_score']<0,'away_team']df_FIFA.loc[df_FIFA['diff_score']==0,'win_team']='Draw'df_FIFA.head()#Thesecondmethodtogetthewinnersdeffind_win_team(df):winners=[]fori,rowindf.iterrows():ifrow['home_score']>row['away_score']:winners.append(row['home_team'])elifrow['home_score']
