Metodikk · Hvem vinner VM?

Vi har vel alle en idé om at i en kamp mellom Frankrike og Serbia vil det være større sjanse for at Frankrike vinner enn at Serbia vinner. Vi ønsker å formalisere slike betraktninger, slik at vi ved hjelp av en statistisk modell kan anslå sannsynligheten for H, U og B i enhver kamp, og faktisk også sannsynligheten for ethvert mulig resultat (0-0, 1-0, osv. har hver sin sannsynlighet). Ethvert lag tilordnes et styrketall, og ut fra styrketallene til to lag som møtes, skal en kunne avlese sannsynligheten for H, U og B. Styrketallene vil være noe a la FIFA-rankingen, men vil være mer direkte relatert til utfallet av enkeltkamper.

Før mesterskapet begynner fastsettes disse styrketallene ut fra vurderinger gitt av fotball-eksperter.

Etter hvert som det spilles kamper i mesterskapet oppdateres styrketallene, slik at styrketallene bestemmes mer og mer ut fra de spilte kampene, og mindre og mindre ut fra forhåndsvurderingene. Eksempelvis vil Frankrike i utgangspunktet ha et bedre styrketall enn Serbia, men hvis Frankrike taper den første kampen, mens Serbia vinner, vil dette justeres noe i Serbias favør. Dog kan vi i modellen ikke ta hensyn til detaljer, som for eksempel at en sentral spiller er skadet, eller at både Frankrike og Serbia er klare for videre spill før de spiller siste kamp mot hverandre i gruppespillet.

Modell

Antall skårede mål til hvert av de to lagene i en kamp er avhengig av hvor gode de to lagene er i forhold til hverandre. Samtidig vil det i noen grad være tilfeldig hvor mange mål hvert lag skårer. La oss ta for oss en kamp hvor lag A møter lag B. I vår modell er antall mål som lag A skårer Poissonfordelt med parameter, dvs. et tall, \(L(A,B)\). Dette vil si at vi kan forvente at lag A skårer omtrent \(L(A,B)\) mål mot lag B. Her er

\[ L(A,B)=\text{Normalt antall mål}\times \frac{\text{Styrketall lag A}}{\text{Styrketall lag B}} \]

“Normalt antall mål” er en parameter (et tall) som angir hvor mange mål et lag typisk vil skåre i en kamp mellom to jevngode motstandere. “Styrketall lag A” er en parameter (et tall) som angir hvor godt lag A er, mens “Styrketall lag B” angir hvor godt lag B er. Styrketallet til Tyskland er fastsatt til 100, og styrketallene til de andre lagene må ses relativt til dette.

Tilsvarende er antall mål til lag B Poissonfordelt med parameter \(L(B,A)\). Utover dette antar vi uavhengighet mellom antall skårede mål til hvert av lagene.

Dette betyr at om lag A har et høyt styrketall i forhold til lag B, vil vi forvente at lag A skårer mange mål (fordi \(L(A,B)\) er stor) og lag B få mål (fordi \(L(B,A)\) er liten). Det vil i så fall være størst sannsynlighet for at lag A vinner kampen, men det vil også være en viss sannsynlighet for uavgjort eller at lag B vinner.

Modellen vi har valgt er enkel, og dekker selvsagt ikke alle viktige aspekter ved en fotballkamp. I mesterskapet vil vi ha få relevante data til å estimere parameterne i en modell, og vår relativt enkle modell med få parametre er valgt i henhold til dette. I andre sammenhenger med mer data, for eksempel seriespill over en hel sesong, kan man tenke seg en rekke utvidelser av modellen. Dette inkluderer blant annet:

hjemmebanefordel
en forsvarsstyrke og en angrepsstyrke til hvert lag
styrken til hvert lag varierer over sesongen (formutvikling)
antall skårede mål til lag A er avhengig av antall mål skårede mål til lag B

Det er publisert flere artikler om dette emnet i den statistiske litteraturen. En passende og lettlest introduksjon er Lee, A. (1997), “Modeling Scores in the Premier League: Is Manchester United Really the Best?”, Chance, Vol 10, s. 15-19.

Estimering av parametere

Parameterne i modellen er “Normalt antall mål” og styrketallene til de enkelte lag. Disse må estimeres, det vil si tallfestes, før vi kan beregne sannsynligheter. Før mesterskapet er dette gjort fra vurderingene til flere fotball-eksperter. Disse vurderingene er “oversatt” til tallverdier på parameterne. Hver av bidragsyterne har fått angitt en rekke tenkte kamper mellom ulike lag. For hver av de tenkte kampene har fotball-ekspertene angitt tre rimelige resultater for utfallet hvis en slik kamp blir spilt under mesterskapet. Dette gir oss et sett med hypotetiske kampresultater, og ut fra dette er parameterne estimert før det er spilt noen kamper.

Etterhvert som kampene i turneringa blir spilt, blir også de virkelige kampene brukt til å estimere parameterne. Informasjonsmengden fra de syntetiske kampene (forhåndsvurderingene) og de virkelige kampene blir vekta i forhold til hverandre, slik at de syntetiske kampene har like stor betydning som de virkelige kamper. Det vil si at forhåndstipsene har like stor betydning som de virkelige kampene etter at hvert lag har spilt to kamper. Når alle lag har spilt flere enn to kamper betyr derimot de virkelige kampene mest.

Estimering av parameterne vil si at de tallfestes slik at de passer best mulig til dataene (kampresultatene). I vårt tilfelle estimeres parameterne ved å maksimere en modifisert Poisson-likelihood. Forskjellen fra ordinær Poisson-likelihood er at den er gjort mer robust ved at store seire vektes ned og at det er innført et straffeledd som krymper de individuelle styrketallene mot hverandre.

Estimerte styrketall

Per i dag er “Normalt antall mål” estimert til å være 2.48.

De estimerte styrketallene er gjengitt i tabellen under (sortert), sammen med FIFA-rankingen per 29. mai 2019. Vi ser at de to kriteriene gir noe ulik rangering av lagene. Dette skyldes for det første at forhåndsvurderingen av lagene er anderledes enn FIFA-rankingen tilsier. For det andre vil styrketallene også påvirkes av kampresultatene som er spilt så langt i mesterskapet.

Oppdatert: May 13 2021 14:34