25. september 2018

Glicko vs Tjukken 2

Da er det dags å trene Tjukken. Jeg har en versjon som jeg har kjørt på løpene i sommer, så den er trent på et OK nivå allerede. Men jeg aner ikke hvordan den vil prestere i den samme testen hvor Glicko klarte 64,3%. Dette første forsøket er veldig spennende.


Tjukken må opp i form. Problemet med Tjukken er at den bygger på informasjonen som man får av strekktidene i orienteringsløpene, altså, alle mellomtidene. Men ikke alle løp har mellomtider, og nå skal den slåss mot Glicko som forutsier resultater i alle løp. Så den må få gjort noe med denne svakheten sin. 



Andre svakheter Tjukken har per nå:

Den overvurderer løp i korte løyper, slik at en som løper mest korte løyper blir overvurdert kontra en som helst løper lange. Effekten er ikke supertydelig, men jeg tror den gjør det.

Den antar at alle løyper skiller like mye, slik at løpere som er 20% bak teten i lette løyper også forventes å være 20% bak i tunge. Den burde justere for at løyper kan skille mer eller mindre enn normalt, uavhengig av kilometertiden til teten. Altså at teten kan ha hatt en mer-enn-vanlig fordel.


Og, igjen, hva gjør Tjukken hvis en god løper blir disket, eller enda vanskeligere, bruker konkurransen til å ta seg en joggetur. Per i dag stryker den alle diskløpene og regner med alle joggeturene.

Aii aiii.

Vi har første kjøring, og den kommer ut med 33,86%


 Full krise, langt under apenivå, og jeg reagerer med dyp skuffelse, er jeg så mye dårligere enn Glickman. Men det må jo være en feil her. Så tjukk i hodet kan ikke Tjukken være.

Ah! Feilen er banal.

Når Glicko rangerer, er en høy ranking bra. Men når Tjukken rangerer løpere, gjetter han kilometertiden deres, så derfor er LAV ranking bra. Jeg brukte samme test som for Glicko, som gjør at Tjukken konsekvent har gjettet det motsatte av det den mener.


Det burde bli 100% - 33,86% = 66,14%

Jeg kjører om igjen og får

Fitness 65,9261711892075

De 0,2% jeg mister er tilfellene der løpstiden til de to løperne er ulik og rankingen deres er lik, der får han jo ikke rett uansett hvilken vei han snur seg.

Men det er forstatt noe som ikke stemmer, for Tjukken har gjort 110000 vurderinger mens Glicko gjorde 86000. Maskinen skulle hoppe over å teste hvis en av løperne ikke har løpt før, men i Glicko-testen formulerte jeg det som standardavvik under 400, (start-usikkerheten), og løpere som ikek har løpt på lenge faller jo tilbake til 400. Så Tjukken har tatt med folk som har vært lenge borte fra sporten, mens Glicko ikke gjorde det. Jeg må teste dem på akkurat de samme 86000 for at det skal bli rettferdig.

Bekymring.

Jeg kjører om igjen, med bare disse, og får

Fitness 67,421090586342713



Med alle sine feil og mangler gjør Tjukken det 3,1 prosentpoeng bedre enn Glicko, i første forsøk. Det er knock out. Det er regelrett mord. Det er ikke noen vits å flikke videre på Glicko. Vi har en vinner.









1 kommentar:

Jo sa...

Spennende! Hvordan har opptreningen gått videre?

Hvilket datamateriale har du trent Glicko og Tjukken på?

Kanskje en variabel som plukker opp sammløping, og reduserer betydningen av slike resultater også kan gjøre en liten forskjell?