Epistemes | Uccidete la statistica!

di Michele Bottone e Antonio Mele

I due autori di queste brevi considerazioni, essendo curiosi di natura, hanno deciso di lasciare da parte la ritrosia a commentare le solite vacuità italiane e vederci piu chiaro sul dibattito brevemente infuriato la settimana scorsa sul film-documentario di Deaglio e Cremagnani sulle presunte manipolazioni alle elezioni politiche del 9 e 10 aprile 2006 (che potete trovare qui). Astraendo dalle considerazioni sul valore artistico del film – abbastanza noiosetto, per la veritá – questo documentario é un esempio di come la cultura statistica in Italia, al di fuori di pochi centri di eccellenza, faccia pena, e come si possa far credere qualsiasi cosa ai cittadini senza necessitá di essere particolarmente rigorosi. É ben noto che il dibattito politico italiano puó tranquillamente prescindere dai dati, o nel caso utilizzarli appositamente mistificati per convincere senza particolare contraddittorio. Tuttavia, cosa si puó dire sull’interrogativo posto dal film– chiamiamolo cosí, anche se gli autori usano il termine tabú – in termini scientifici?

Si puó senz’altro concludere che il film manca totalmente di rigore metodologico. In particolare, oltre alla giá nota poca attenzione all’effettivo meccanismo di spoglio ufficiale da parte delle Corti d’Appello e della Corte di Cassazione, ci sono vistose lacune nel modo nel quale analizza i dati a disposizione.

Facciamo alcuni esempi per rendere l’idea. Verso metá film gli autori iniziano a confrontare i dati delle schede bianche del 2006 coi dati del 2001, e rilevano come ci sia stata una forte flessione sia a livello nazionale, sia a livello locale. Niente di strano, direte voi.
E invece sí, che é strano: dal punto di vista statistico é come confrontare mele con pere. Le elezioni del 2001 si sono svolte con un sistema elettorale prevalentemente maggioritario, dove gli incentivi degli elettori sono completamente diversi dagli incentivi in un sistema proporzionale come quello del 2006. Per capire a cosa alludiamo, pensate al caso di un elettore leghista che deve andare a votare, in un sistema maggioritario, per un candidato UDC. Se non riesce a mandare giú il rospo, é probabile che voti scheda bianca o nulla. Per questo, in un sistema maggioritario a coalizioni multipartito, é fisiologico avere un maggior numero di schede bianche che in un sistema proporzionale. Confrontare i dati del 2001 con quelli del 2006 é fuorviante. Per questo, obietterá qualche lettore attento, sarebbe necessario limitarsi al confronto tra dati della parte proporzionale della Camera. É esattamente quello che fanno gli autori del documentario. Ma neanche questo approccio é del tutto corretto: la stessa motivazione dell’andare a votare é diversa, quando i sistemi elettorali sono diversi. La campagna elettorale si svolge in maniera diversa: di solito nei sistemi maggioritari ci si confronta sui programmi sia a livello nazionale sia a livello locale, mentre nei sistemi proporzionali si tende a spostare lo scenario sull’identitá politica dell’elettore.

Tale fenomeno si palesa anche nel documentario, attorno al 61esimo minuto: viene infatti mostrato il grafico delle schede nulle e bianche dal 1946 al 2006. Con un fermo immagine, si vede chiaramente anche a occhio nudo e senza grosse conoscenze statistiche che il dato del 2006 non é poi tanto diverso da quelli delle elezioni svoltesi prima del 1992 (con sistema proporzionale). Purtroppo non disponiamo di dati a livello regionale e provinciale anteriori al 1992, coi quali sarebbe interessante confrontare i dati sulle schede bianche provincia per provincia. Ci accontentiamo di dire che, ragionevolmente, la drastica diminuzione delle schede bianche non é per nulla anomala, se si tiene conto del cambio di sistema elettorale.

Un ulteriore pezzo di evidenza che il film indica come anomalia statistica é quello riferito all’omologazione della percentuale delle schede bianche in tutte le regioni e province italiane. In particolare, sempre attorno al minuto 61, viene mostrato un grafico tendenziale delle schede bianche di tutte le regioni, che ha una forma a freccia, ovvero diminuisce fortemente sia la media delle schede bianche per regione, sia la variabilitá. Il numero di schede bianche é, per tutte le regioni, compreso tra l’1 e il 2%, mentre nel 2001 stava tra l’1% e il 10%.
Anomalia? Ovviamente no. Immaginate di dover confrontare la variabilitá di due gruppi di dati che hanno la stessa media. In questo caso, la statistica vuole che la varianza (o la deviazione standard) vi dicano senza ombra di dubbio quale é il gruppo di dati piú variabile rispetto al dato medio. Ma se dovete confrontare due gruppi di dati con media diversa, non potete usare la varianza! Dovete tenere conto del fatto che la media é diversa, e non state piu’ testando una ipotesi singola (come ad esempio la diminuzione della varianza) , ma una ipotesi congiunta. La misura statistica da utilizzare é un’altra: il coefficiente di variazione, ovvero la rapporto tra deviazione standard e media.
Possiamo calcolare i due coefficienti di variazione per i dati regionali del 2001 e del 2006, e poiché, per alcune province e regioni, il documentario di Deaglio e Cremagnani fornisce i dati disaggregati, é possibile avere un quadro molto dettagliato. Pertanto utilizziamo i dati riportati attorno al minuto 62 del documentario per sei regioni. Otteniamo la seguente tabella (tutto il file Excel utilizzato per preparare la tabella é scaricabile qui):

Come si puó vedere, sui sei casi indicati, quattro presentano un aumento della variabilitá del numero di schede bianche, e non una diminuzione come fanno intendere gli autori di “Uccidete la democrazia!”.

C’é poi l’interessante ipotesi che non possa essere concepibile che tutti i sondaggi – e includiamo tra questi anche gli exit polls – abbiano sbagliato clamorosamente le previsioni elettorali. Questo significa peró non aver capito cosa é un sondaggio demoscopico. Dal punto di vista statistico, non esistono eventi impossibili, al massimo sono poco probabili. Sondaggi ed exit poll sono rilevazioni campionarie, quindi si basano su due ipotesi fondamentali: che il campione sia il piú vicino possibile alla popolazione campionata (l’elettorato) e che le estrazioni del campione siano indipendenti (per esempio, non é possibile fare la stessa domanda a due persone nello stesso posto). Un bravo sondaggista vi dirá che esiste sempre un certo margine di errore quantificabile e saprá dirvi se i dati sono significativi o no, cioé se siano a prova di margine d’errore. Il dato degli exit poll era il seguente: Cdl 45-49%, Unione 50-54%. Questo dato implica un margine di errore del 2%, che a sua volta dipende dalla dimensione del campione (sulle migliaia) e dal suo livello di significativitá. Supponiamo per ipotesi che abbiano scelto un livello di significativitá abbastanza standard del 95%. Cosa significa questa percentuale? Che, se si fosse estratto 100 volte da un campione – pari a 1000 persone per semplicitá – rappresentativo della popolazione italiana (e quindi con la stessa distribuzione geografica, per sesso, etá, ecc. della popolazione italiana), 95 volte su 100 il risultato dell’exit poll sarebbe corrisposto a un conteggio finale contenuto all’interno della forchetta. Come potete notare, esiste la possibilitá, neanche cosí improbabile, che il dato ufficiale fosse fuori dalla forchetta indicata, pari al 5% delle estrazioni dal campione. Si puó ritenere un livello del 5% poco probabile in senso frequentista, ma in realtà é un coefficiente incredibilmente ampio [1]. Ció significa che era molto improbabile, ma che si poteva verificare. Tutti ricorderanno un dimesso Emilio Fede che, durante lo spoglio delle elezione regionali del 1995, passó la serata a cambiare il colore della bandierina posta su ogni regione, bandierine che erano state posizionate inizialmente sulla base di exit polls completamente sbagliati. Era improbabile, ma successe.

C’é anche una considerazione economica da fare. Secondo uno studio piuttosto famoso di Kahneman e Tversky, gli individui tendono a rimanere vittima di effetti di framing, cioé sovrastimano probabilitá grandi e tendono a sottostimare le probabilitá piccole (come nel caso del nostro 5%).

Rimane ora da spiegare l’apparente anomalia della convergenza dei dati durante lo spoglio. Ebbene, l’anomalia é quello che é, solo apparente. Cerchiamo di considerare una ipotesi esplicativa non inclusa nel documentario, ma che sarebbe potuta apparire banale a chiunque masticasse un po’ di statistica. Da dieci anni – e qui togliamo il 1994, perché di assestamento – il sistema elettorale italiano si basa su un confronto tra due coalizioni. É quindi assimilabile, molto crudamente, a un ballottaggio, almeno se consideriamo il totale dei voti ricevuti dalle coalizioni. Un simile ragionamento é difficile da fare con un sistema maggioritario in mancanza di premi espliciti di maggioranza (anche se l’effetto del maggioritario é di dare un premio implicito di maggioranza alle coalizioni piú coese a livello territoriale). Nel 2006, tuttavia, abbiamo avuto un sistema elettorale a liste bloccate e premio di maggioranza dato alla coalizione vincente per spoglio nazionale (con alcune eccezioni, particolarmente per il Senato, che ha un sistema regionale previsto dalla Costituzione), quindi qualcosa di concettualmente simile a un ballottaggio. L’ipotesi che si puó porre é che il centrodestra, pur in un clima ostile ad esso in gran parte del paese, fosse effettivamente maggioranza (o perlomeno avesse almeno la metá dei voti). Questa ipotesi non é peregrina se si va a controllare il totale dei voti per coalizione: malgrado una certa erosione del suo consenso negli ultimi dieci anni, il centrodestra ha mantenuto un suo zoccolo duro rispetto ai massimi del voto popolare che raggiunse nel 1996, quando, giova ricordarlo, perse contro l’Ulivo del primo governo Prodi. Era inoltre dato in trend leggermente crescente da parecchi commentatori politici nei mesi che portavano al voto [2]. Che si puó dire da un punto di vista scientifico, e considerando questa ipotesi esplicativa, sull’apparente convergenza minuto per minuto nello spoglio dei dati dai risultati degli exit poll al risultato finale?

Si puó avanzare una spiegazione che segue il famoso problema del ballottaggio di Joseph Bertrand. Supponiamo che, durante le elezioni, il candidato D riceva d voti e il candidato S ne riceva s, con d>s e d+s=n, il numero totale di voti validi. Supponiamo anche che gli elettori siano ordinati in modo casuale (se non gli elettori, lo spoglio dei voti). Quale é la probabilitá P che D sia sempre davanti a S nel conteggio dei voti? Attraverso semplici considerazioni di probabilitá condizionata, si puó dimostrare che questa probabilitá converge in modo ricorsivo a P=(d-s)/(d+s).
Dopo aver notato che molte delle condizioni del problema sono verificate (i voti ricevuti da liste al di fuori delle coalizioni in ballottaggio sono trascurabili), e che é ragionevole presumere che (in assenza di brogli, certo) gli elettori siano ordinati in modo relativamente casuale per quanto riguarda lo spoglio, applichiamolo al nostro caso: se D avesse effettivamente ricevuto il 50.2% dei voti e S il 49.8% dei voti, la probabilitá che D in ogni momento fosse sempre davanti a S é pari a 50.2-49.8/(50.2+49.8)= 0.004%. Come si nota é una possibilitá molto bassa, e in effetti durante lo spoglio il centrodestra é stato in vantaggio solo nelle battute finali, mentre il centrosinistra ha condotto la gara in vantaggio per tutta la notte. Ma anche questo evento ha probabilitá molto bassa: se ipotizziamo che S avesse il 50.2%, la probabilitá che S fosse sempre in testa e’ sempre 0.004%. Ora immaginiamo che i dati corretti fossero quelli usciti dagli exit poll, ovvero Centro sinistra 52%, Cdl 48%: in tal caso la probabilitá che S fosse sempre in testa e’ del 4%. Comunque un evento con probabilitá bassa, anche se in tal caso il dato finale dello spoglio sarebbe stato diverso (appunto 52% a 48%).

Dobbiamo pero aggiungere un dato: i primi risultati che affluiscono al Viminale sono storicamente quelli che provengono da Regioni dove il centrosinistra ha maggioranza schiacciante, pertanto fortemente distorti a loro favore. Se l’ipotesi di elezione molto combattuta é corretta, deve esserci una convergenza nei dati successivi. Si puo obiettare che la convergenza ha seguito un percorso che aveva probabilita molto bassa. Ma questo fatto si puó spiegare utilizzando un altro teorema opportunamente modificato legato alle passeggiate aleatorie, il teorema di convergenza di tipo Donsker che afferma, in estrema sintesi, che per una serie di variabili indipendenti a media zero (viene naturale pensare allo scarto tra le coalizioni, molto vicino a zero secondo la nostra ipotesi), le somme parziali (ovvero i dati dello spoglio) convergono a una passeggiata aleatoria quanto piú lo spoglio si protrae nel tempo. Quindi, qualsiasi “andamento” dello spoglio per coalizione é compatibile con i dati effettivi.

Concludiamo queste piccole considerazioni con un ragionamento: si puó uccidere la democrazia coi brogli, ma perlomeno é consigliabile mantenere in vita la statistica.

[1] Possiamo cercare di migliorare la previsione aumentando il coefficiente di significativitá e la dimensione campionaria fino a un livello ottimale, dati i costi di effettuazione del sondaggio.

[2] A quanto ci risulta, solo una persona ha azzeccato il risultato elettorale, sia al Senato che alla Camera, e ci é riuscito analizzando per mesi i sondaggi, gli stessi che tutti gli altri analisti avevano sotto il naso.