Back to Search
Start Over
Key Performance Indicators for Swedish Football : Statistical Learning Approaches
- Publication Year :
- 2022
- Publisher :
- Umeå universitet, Institutionen för matematik och matematisk statistik, 2022.
-
Abstract
- Football is the indisputable most popular sport globally, and the central question within this game is how to become the winning outcoming part. A possible approach to answer this question is to utilise data and its information for analysis and provide keyperformance indicators that distinguish the successful from the unsuccessful teams. This master’s thesis aims to investigate the main differences between successful and unsuccessful teams by using statistical learning approaches. Two different approaches, Binary Regression and Random Forest, were adopted. Forbinary regression, three types of models (based on the link functions) were investigated: Logit, Probit, and Hazard. Comparisons between these models were conducted for obtaining the best performing model. For analysing leagues with convergence problems, implementation of K-means clustering and permutation with restrictions of features was applied. Using the Feature Importance for the Random Forest, a comparison between each feature and its importance for the model can be visualised. Furthermore, a uniformly distributed random variable in the Feature Importance was employed to obtain a benchmark for indicators more critical than randomness. This thesis resulted in an overall, for both approaches, significance and importance of shooting/finishing for all leagues and subsets. Moreover, the results do not substantially differ between the men’s leagues, Allsvenskan and Superettan, where both shots and passes show significance and importance. However, the women’s league, Damallsvenskan, is distinctly dominated by only shots. Hence, the indicator that distinguishes and separates successful from unsuccessful teams is shots. Finally, by connecting the results with common knowledge within football, the performed analysis provides powerful tools for future work within football analysis. Fotboll är odiskutabelt den mest populära sporten i världen, och huvudfrågan inom detta är hur man uppnår den vinnande utkomsten. Ett möjligt antågande av denna fråga, är att utnyttja data och dess information för analys och förse nyckelfaktorer som urskiljer framgångsrika och misslyckade lag. Målet med denna Master-uppsats är att undersöka huvudskillnaden mellan framgångsrika och misslyckade lag genom att använda statistisk inlärnings metoder. Två olika metoder, Binär Regression och Random Forest, användes. För Binär Regression, tre olika typer av modeller (baserat på link-funktionerna) investigerades:Logit, Probit och Hazard. Jämförelse mellan dessa modeller genomförs för att erhålladen bäst presterade modellen. Vid analys av ligor med konvergeringsproblem, implementeras en K-means klustring samt permutation med restriktioner av features. Genom användning av Feature Importance för Random Forest, så visualiseras en jämförelse mellan varje features och dess betydelse för modellen. Sedermera implementeras en likformig sannolikhetsfördelad slumpvariabel i Feature Importance, och detta för att erhålla ett riktmärke som ska visa hur betydelsefulla indikatorerna är i jämförelse med slumpen. Denna uppsats resulterade, för båda tillvägagångssätten, i en översiktlig signifikans och betydelse av skott/avslut för samtliga ligor och subsets. Dessutom, resultaten skiljer sig knappt mellan herrarnas ligor, Allsvenskan och Superettan, där både skott och passningar visar signifikans och betydelse. Däremot domineras damernas liga, Damallsvenskan, enbart av skott. Så, den nyckelfaktor som urskiljer och särskiljer framgångsrika från misslyckade lag är skott. Slutligen, vid sammankoppling av resultaten och den allmänna kunskapen kring fotboll, så förser den genomförda analysen ett starkt verktyg för framtida arbeten inom fotbollsanalys.
- Subjects :
- Matematik
Mathematics
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Accession number :
- edsair.dedup.wf.001..873ffd0c341edb2469a81cf470aeb745