Sull'attendibilità di una classifica di un torneo con sistema svizzero

Il sistema svizzero è la risposta alla richiesta di disputare i tornei di scacchi con costi e tempi ragionevoli. In altra sede se ne sono discusse le caratteristiche, invece ora ci soffermeremo sull'attendibilità di una classifica ottenuta con tale sistema, cioè con un limitato numero di turni di gran lunga inferiore a quello dei giocatori (si consulti anche la pagina sui turni accelerati).

Nel caso di un sistema con girone all'italiana la risposta sarebbe semplice: la classifica finale è attendibile per definizione (il torneo si fa proprio per conoscerla). Tuttavia si troverà sempre qualcuno pronto a criticarla per la presenza di alcune partite finite con risultati a sorpresa e che l'avrebbero falsata. Chi critica confonde il significato di probabile con quello di certo e non conosce le basi statistiche del sistema Elo. Un torneo all'italiana può dare origine a tante classifiche più o meno probabili ma tutte con il medesimo diritto di esistenza. Chi contesta l'attendibilità di una classifica di solito lo fa sull'erronea convinzione che essa debba essere la conferma della forza iniziale (punti elo) dei giocatori partecipanti. Si tratta di un errore piuttosto ingenuo che porta a conseguenze logiche assurde. Se tale classifica esistesse davvero i tornei verrebbero assegnati per semplice esibizione dei titoli (punteggio elo) senza alcuna necessità di giocare. Per fortuna questo non è il punto di vista dei giocatori i quali investono tempo e denaro quasi a dimostrare l'inesistenza di un destino ineludibile. Tutte le classifiche finali di un torneo all'italiana sono attendibili e sulla loro scorta si modifica il rating dei partecipanti per riaggiustare le probabilità dei risultati dei prossimi tornei.

Nel caso dei tornei svizzeri l'attendibilità non è automatica perché ognuno gioca solo contro un limitatissimo sottoinsieme dei partecipanti e questi devono essere scelti con cura e non a caso. Inoltre la classifica finale è fatta dalla somma di tanti 1 ed 1/2, ma un 1 ottenuto in ultima scacchiera e cosa ben diversa da un 1 ottenuto in prima, eppure nella somma questa considerazione viene persa. Sebbene non esistano formule, dal tabellone finale i giocatori sono in grado di sentire in qualche modo se il vincitore ha davvero dimostrato di essere il più forte. Questa valutazione avviene in modo qualitativo sia diretto che indiretto. In modo diretto attraverso il risultato dello scontro diretto tra il giocatore che valuta e chi lo precede in classifica; in modo indiretto attraverso i risultati di giocatori intermedi (A non ha giocato con B, ma A ha vinto C che a sua volta ha vinto B e quindi quest'ultimo si sente inferiore ad A). In genere le valutazioni sono di entrambi i tipi e possono essere piuttosto complesse. Tuttavia, quando il numero dei turni è scelto in modo opportuno, le relazioni esistenti nei vari sottoinsiemi giocatore-avversari, e che forma una ragnatela tra i vari gruppi di punteggio, sono sufficienti per far riconoscere ad ogni giocatore che tutto sommato merita la posizione che ha avuto. In altri termini egli accetta che chi lo precede abbia dimostrato, in quel torneo, di essergli stato superiore e che un ulteriore aumento del numero dei turni, al limite completando il torneo all'italiana, non avrebbe modificato la sostanza delle cose.

A fine torneo ci si sofferma a controllare le relazioni incrociate del gruppo in testa alla classifica. Esso non solo è il più importante perché ritirerà i premi, ma anche perché è quello sotto gli occhi di tutti i giocatori. Questi ultimi infatti guardano sempre con occhio molto critico chi li precede in classifica per verificare la legittimità dell'altrui superiorità mentre dà per scontata la propria nei confronti di chi sta dietro. Il controllo della forza relativa per i giocatori che non occupano la testa della classica è di secondaria importanza se non trascurabile. In altra sede discuteremo i criteri matematici che sostituiscono alle valutazioni qualitative dei criteri oggettivi per fornire una classifica ideale.

Quindi l'attendibilità di una classifica di un torneo svizzero va necessariamente valutata solo alla fine eseguendo quei controlli incrociati e verificando che, almeno nel gruppo di testa, non vi siano giocatori privi di quella legittimità di cui si parlava prima. Sbaglia grossolanamente chi pensa che in un torneo svizzero la classifica attendibile deve essere quella ordinata per rating. Se essa non esiste per i tornei all'italiana a maggior ragione non esisterà per i tornei svizzeri per i quali le conseguenze di una sconfitta possono essere addirittura catastrofiche per l'esito finale.

I comuni principi ispiratori dei vari sistemi svizzeri sono i seguenti:

  1. numero dei turni  decisi prima del torneo
  2. una partita tra gli stessi giocatori giocatori avviene solo una volta
  3. accoppiare giocatori aventi gli stessi punti o la minima differenza
  4. pareggiare i colori
  5. alternare i colori

Con questi principi è possibile tessere quella ragnatela di cui si parlava prima e che si estende invisibile sull'intero tabellone finale. Ciò che invece li diversifica sono i seguenti aspetti:

  • il modo di accoppiamento all'interno di un gruppo di punteggio;
  • l'importanza del colore
  • la scelta e destino del floater (cioè del giocatore dispari all'interno di un gruppo).

La modifica di uno o più aspetti sopra elencati produce una variante di svizzero. Sul sito di Jonathan Berry vi è una loro panoramica. Il loro numero sta ad indicare che non sono tra loro equivalenti, cioè gli avversari di ogni giocatore saranno diversi da sistema a sistema (in modo più o meno marcato). Questo implica che in principio ogni sistema potrebbe avere una classifica diversa. Ciò però non deve preoccupare. Infatti lo scopo di un sistema svizzero non è riprodurre una certa classifica che nessuno conosce e che anzi non esiste a priori, ma solo quello di fornirne una che sia legittima a posteriori in quanto accettabile dai giocatori. Se la classifica è legittima lo diventerà anche il sistema che l'ha generata.

Nel seguito ci soffermeremo solamente sulle varianti dello svizzero accettate dalla FIDE, Lim, Dutch e Dubov, oltre ad una variante del sistema Dubov nota come variante Danubio (implementata in Vega) cercando di metterne in risalto le peculiarità con una serie di tornei test. Allo scopo occorre munirsi di criteri oggettivi per analizzare la classifica finale nel gruppo di testa. Nel seguito useremo quelli segnalati dall'Arbitro Internazionale Mikko Markkula componente dello Swiss Pairing Commettee della FIDE (seminario arbitrale FSI, marzo 2005, Roma). Essi sono:

 

C1. Il numero di partite giocate fra giocatori che occupano la  parte alta della classifica;
C2. L'ordine di classifica deve riprodurre quello delle performance;
C3. L'elo medio degli avversari deve essere il più possibile lo stesso per i giocatori aventi gli stessi punti.

Tali criteri condivisibili ci dicono che: chi è in testa deve aver giocato col maggior numero di giocatori che si trovano al vertice, questi avversari devono essere anche tra i più forti (elo iniziale alto), ed in caso di pari merito i giocatori devono aver avuto avversari ugualmente forti. In altri termini trovare al vertice un giocatore che ha incontrato avversari significativamente più deboli di altri depone a sfavore del sistema di abbinamento. Per gruppo di testa intenderemo i primi 5 giocatori.

 

Test 1

I dati di questo test sono

Giocatori: 24
rating iniziale: il piu' forte ha 2600 punti e poi a diminuire di 40 punti per ogni giocatore successivo (i loro nomi sono ordinati per elo decrescente, cioè il giocatore A è il piu' forte di tutti, poi segue B, ecc...)
turni di gioco: 6
Spareggio: ARO (media elo degli avversari incontrati);
generazione dei risultati degli incontri: sistematica vittoria al giocatore più forte

Si tratta di un caso ideale per il quale la classifica dell'equivalente torneo all'italiana sarebbe quella ordinata alfabeticamente. Si noti subito che il Lim ed il Dutch forniscono degli abbinamenti basati sull'ordine relativo del rating e non sul suo specifico valore. In altri termini se mantenessimo invariato l'ordine del rating dei 24 giocatori ma usassimo valori completamente diversi da quelli proposti, Lim e Dutch fornirebbero gli stessi abbinamenti. Il Dubov al contrario dipende dal rating iniziale dei giocatori. I tornei generati possono essere consultati qui di seguito

Lim (grazie alla collaborazione di Massimo Megale)
Dutch
Dubov
Dubov (variante Danubio)

 

Riassunto delle classifiche per i primi 3 gruppi di punteggio

 

LIM

Pos

Score

ID

NAME

Rat

PRat

ARO

1

6.0

1

GM ALVARES

2600

3141

2406.67

2

5.0

2

GM BROWN

2560

2639

2366.67

3

5.0

3

GM COLIN

2520

2566

2293.33

4

4.0

4

GM DAVIS

2480

2438

2313.33

5

4.0

5

GM EDUARD

2440

2438

2313.33

6

4.0

8

GM HALLEY

2320

2385

2260.00

7

4.0

7

GM GARRISON

2360

2325

2200.00

8

4.0

10

GM KELLY

2240

2305

2180.00

DUTCH

Pos

Score

ID

NAME

Rat

PRat

ARO

1

6.0

1

GM ALVARES

2600

3135

2400.00

2

5.0

3

GM COLIN

2520

2639

2366.67

3

5.0

2

GM BROWN

2560

2619

2346.67

4

4.0

6

GM FRANK

2400

2438

2313.33

5

4.0

5

GM EDUARD

2440

2418

2293.33

6

4.0

4

GM DAVIS

2480

2411

2286.67

7

4.0

7

GM GARRISON

2360

2318

2193.33

8

4.0

10

GM KELLY

2240

2285

2160.00

DUBOV

Pos

Score

ID

NAME

Rat

PRat

ARO

1

6.0

1

GM ALVARES

2600

3108

2373.33

2

5.0

2

GM BROWN

2560

2646

2373.33

3

5.0

5

GM EDUARD

2440

2579

2306.67

4

4.0

3

GM COLIN

2520

2498

2373.33

5

4.0

4

GM DAVIS

2480

2405

2280.00

6

4.0

7

GM GARRISON

2360

2338

2213.33

7

4.0

9

GM IRISH

2280

2298

2173.33

8

4.0

10

GM KELLY

2240

2265

2140.00

DUBOV
(Danubio)

Pos

Score

ID

NAME

Rat

PRat

ARO

1

6.0

1

GM ALVARES

2600

3108

2373.33

2

5.0

2

GM BROWN

2560

2659

2386.67

3

5.0

5

GM EDUARD

2440

2579

2306.67

4

4.0

3

GM COLIN

2520

2505

2380.00

5

4.0

6

GM FRANK

2400

2418

2293.33

6

4.0

8

GM HALLEY

2320

2298

2173.33

7

4.0

9

GM IRISH

2280

2278

2153.33

 

 

 

 

 

 

 

 

 

 

 

 

 

Rispetto alla classifica che avevamo arbitrariamente immaginato ad inizio torneo come la più probabile, cioè quella in ordine alfabetico, notiamo che il Lim la riproduce per le prime 5 posizioni. Il Dutch inverte il secondo col terzo mentre il giocatore 4 viene relegato al sesto posto. Il Dubov conferma i primi due ma porta il 5 al terzo posto. Il Dubov-D ha una classifica più definita con solo sette giocatori invece di 8 nei primi tre gruppi ma il giocatore 4 è passato all'ottavo posto. La mancata corrispondenza tra la classifica dell'italiano e dello svizzero, non ci stancheremo di ripeterlo, non può farci concludere alcunché. Rispetto alla legittimità del gruppo di testa ed ai criteri C1, C2, e C3 si nota che essi sono soddisfatti.

i) criterio c1

Ecco i tabelloni riordinati per posizione e riferiti al solo gruppo di testa.

 

tl_files/music_academy/ss/swiss1.jpg

 

In rosso sono indicati gli incontri tra giocatori del gruppo di vertice. I primi 5 hanno giocato tra loro un totale di 12 partite con ogni sistema, circa il 50% degli incontri totali. Ma la media di 2.4 partite non tutti la rispettano. In particolare il Lim genera per il giocatore 1, il vincitore, un torneo molto forte e forse penalizzante. Se il numero 1 avesse uno scarto in rating molto ampio col numero 2 allora potrebbe essere giustificato tale trattamento, ma se egli ha solo un punto elo di vantaggio questa disparità di trattamento sembra esagerata. Meglio equilibrati il Dutch ed il Dubov-D, mentre nel Dubov si fa notare il 5_EDUARD che figura terzo dopo aver incontrato solo un giocatore dei primi cinque, il 2.

 

ii) criterio c2

Tutti i sistemi soddisfano il criterio. Il fatto che il Lim non distingua tra i giocatori 4 e 5 appare irrilevante.  

 

iii) criterio c3

Il lim appare quello che meglio soddisfa tale criterio.

Sarebbe interessante vedere come cambierebbe la classifica rispetto a C2 e C3 con una distribuzione del rating iniziale più realistica.

 

data: ottobre, 2005

 


Aggiungi un commento

Comment by Eros Ravera | 2016-03-29

Credo che le maggiori differenze in un test con la distribuzione iniziale del rating più realistica (una distribuzione gaussiana) le vedremmo nel Dubov e nel Dubov-D.
*
*
What is the sum of 3 and 1?*