Uccidete la statistica!

di Michele Bottone e Antonio Mele

I due autori di queste brevi considerazioni, essendo curiosi di natura, hanno deciso di lasciare da parte la ritrosia a commentare le solite vacuità italiane e vederci piu chiaro sul dibattito brevemente infuriato la settimana scorsa sul film-documentario di Deaglio e Cremagnani sulle presunte manipolazioni alle elezioni politiche del 9 e 10 aprile 2006 (che potete trovare qui). Astraendo dalle considerazioni sul valore artistico del film – abbastanza noiosetto, per la veritá – questo documentario é un esempio di come la cultura statistica in Italia, al di fuori di pochi centri di eccellenza, faccia pena, e come si possa far credere qualsiasi cosa ai cittadini senza necessitá di essere particolarmente rigorosi. É ben noto che il dibattito politico italiano puó tranquillamente prescindere dai dati, o nel caso utilizzarli appositamente mistificati per convincere senza particolare contraddittorio. Tuttavia, cosa si puó dire sull’interrogativo posto dal film– chiamiamolo cosí, anche se gli autori usano il termine tabú – in termini scientifici?

Si puó senz’altro concludere che il film manca totalmente di rigore metodologico. In particolare, oltre alla giá nota poca attenzione all’effettivo meccanismo di spoglio ufficiale da parte delle Corti d’Appello e della Corte di Cassazione, ci sono vistose lacune nel modo nel quale analizza i dati a disposizione.

Facciamo alcuni esempi per rendere l’idea. Verso metá film gli autori iniziano a confrontare i dati delle schede bianche del 2006 coi dati del 2001, e rilevano come ci sia stata una forte flessione sia a livello nazionale, sia a livello locale. Niente di strano, direte voi.
E invece sí, che é strano: dal punto di vista statistico é come confrontare mele con pere. Le elezioni del 2001 si sono svolte con un sistema elettorale prevalentemente maggioritario, dove gli incentivi degli elettori sono completamente diversi dagli incentivi in un sistema proporzionale come quello del 2006. Per capire a cosa alludiamo, pensate al caso di un elettore leghista che deve andare a votare, in un sistema maggioritario, per un candidato UDC. Se non riesce a mandare giú il rospo, é probabile che voti scheda bianca o nulla. Per questo, in un sistema maggioritario a coalizioni multipartito, é fisiologico avere un maggior numero di schede bianche che in un sistema proporzionale. Confrontare i dati del 2001 con quelli del 2006 é fuorviante. Per questo, obietterá qualche lettore attento, sarebbe necessario limitarsi al confronto tra dati della parte proporzionale della Camera. É esattamente quello che fanno gli autori del documentario. Ma neanche questo approccio é del tutto corretto: la stessa motivazione dell’andare a votare é diversa, quando i sistemi elettorali sono diversi. La campagna elettorale si svolge in maniera diversa: di solito nei sistemi maggioritari ci si confronta sui programmi sia a livello nazionale sia a livello locale, mentre nei sistemi proporzionali si tende a spostare lo scenario sull’identitá politica dell’elettore.

Tale fenomeno si palesa anche nel documentario, attorno al 61esimo minuto: viene infatti mostrato il grafico delle schede nulle e bianche dal 1946 al 2006. Con un fermo immagine, si vede chiaramente anche a occhio nudo e senza grosse conoscenze statistiche che il dato del 2006 non é poi tanto diverso da quelli delle elezioni svoltesi prima del 1992 (con sistema proporzionale). Purtroppo non disponiamo di dati a livello regionale e provinciale anteriori al 1992, coi quali sarebbe interessante confrontare i dati sulle schede bianche provincia per provincia. Ci accontentiamo di dire che, ragionevolmente, la drastica diminuzione delle schede bianche non é per nulla anomala, se si tiene conto del cambio di sistema elettorale.

Un ulteriore pezzo di evidenza che il film indica come anomalia statistica é quello riferito all’omologazione della percentuale delle schede bianche in tutte le regioni e province italiane. In particolare, sempre attorno al minuto 61, viene mostrato un grafico tendenziale delle schede bianche di tutte le regioni, che ha una forma a freccia, ovvero diminuisce fortemente sia la media delle schede bianche per regione, sia la variabilitá. Il numero di schede bianche é, per tutte le regioni, compreso tra l’1 e il 2%, mentre nel 2001 stava tra l’1% e il 10%.
Anomalia? Ovviamente no. Immaginate di dover confrontare la variabilitá di due gruppi di dati che hanno la stessa media. In questo caso, la statistica vuole che la varianza (o la deviazione standard) vi dicano senza ombra di dubbio quale é il gruppo di dati piú variabile rispetto al dato medio. Ma se dovete confrontare due gruppi di dati con media diversa, non potete usare la varianza! Dovete tenere conto del fatto che la media é diversa, e non state piu’ testando una ipotesi singola (come ad esempio la diminuzione della varianza) , ma una ipotesi congiunta. La misura statistica da utilizzare é un’altra: il coefficiente di variazione, ovvero la rapporto tra deviazione standard e media.
Possiamo calcolare i due coefficienti di variazione per i dati regionali del 2001 e del 2006, e poiché, per alcune province e regioni, il documentario di Deaglio e Cremagnani fornisce i dati disaggregati, é possibile avere un quadro molto dettagliato. Pertanto utilizziamo i dati riportati attorno al minuto 62 del documentario per sei regioni. Otteniamo la seguente tabella (tutto il file Excel utilizzato per preparare la tabella é scaricabile qui):

Come si puó vedere, sui sei casi indicati, quattro presentano un aumento della variabilitá del numero di schede bianche, e non una diminuzione come fanno intendere gli autori di “Uccidete la democrazia!”.

C’é poi l’interessante ipotesi che non possa essere concepibile che tutti i sondaggi – e includiamo tra questi anche gli exit polls – abbiano sbagliato clamorosamente le previsioni elettorali. Questo significa peró non aver capito cosa é un sondaggio demoscopico. Dal punto di vista statistico, non esistono eventi impossibili, al massimo sono poco probabili. Sondaggi ed exit poll sono rilevazioni campionarie, quindi si basano su due ipotesi fondamentali: che il campione sia il piú vicino possibile alla popolazione campionata (l’elettorato) e che le estrazioni del campione siano indipendenti (per esempio, non é possibile fare la stessa domanda a due persone nello stesso posto). Un bravo sondaggista vi dirá che esiste sempre un certo margine di errore quantificabile e saprá dirvi se i dati sono significativi o no, cioé se siano a prova di margine d’errore. Il dato degli exit poll era il seguente: Cdl 45-49%, Unione 50-54%. Questo dato implica un margine di errore del 2%, che a sua volta dipende dalla dimensione del campione (sulle migliaia) e dal suo livello di significativitá. Supponiamo per ipotesi che abbiano scelto un livello di significativitá abbastanza standard del 95%. Cosa significa questa percentuale? Che, se si fosse estratto 100 volte da un campione – pari a 1000 persone per semplicitá – rappresentativo della popolazione italiana (e quindi con la stessa distribuzione geografica, per sesso, etá, ecc. della popolazione italiana), 95 volte su 100 il risultato dell’exit poll sarebbe corrisposto a un conteggio finale contenuto all’interno della forchetta. Come potete notare, esiste la possibilitá, neanche cosí improbabile, che il dato ufficiale fosse fuori dalla forchetta indicata, pari al 5% delle estrazioni dal campione. Si puó ritenere un livello del 5% poco probabile in senso frequentista, ma in realtà é un coefficiente incredibilmente ampio [1]. Ció significa che era molto improbabile, ma che si poteva verificare. Tutti ricorderanno un dimesso Emilio Fede che, durante lo spoglio delle elezione regionali del 1995, passó la serata a cambiare il colore della bandierina posta su ogni regione, bandierine che erano state posizionate inizialmente sulla base di exit polls completamente sbagliati. Era improbabile, ma successe.

C’é anche una considerazione economica da fare. Secondo uno studio piuttosto famoso di Kahneman e Tversky, gli individui tendono a rimanere vittima di effetti di framing, cioé sovrastimano probabilitá grandi e tendono a sottostimare le probabilitá piccole (come nel caso del nostro 5%).

Rimane ora da spiegare l’apparente anomalia della convergenza dei dati durante lo spoglio. Ebbene, l’anomalia é quello che é, solo apparente. Cerchiamo di considerare una ipotesi esplicativa non inclusa nel documentario, ma che sarebbe potuta apparire banale a chiunque masticasse un po’ di statistica. Da dieci anni – e qui togliamo il 1994, perché di assestamento – il sistema elettorale italiano si basa su un confronto tra due coalizioni. É quindi assimilabile, molto crudamente, a un ballottaggio, almeno se consideriamo il totale dei voti ricevuti dalle coalizioni. Un simile ragionamento é difficile da fare con un sistema maggioritario in mancanza di premi espliciti di maggioranza (anche se l’effetto del maggioritario é di dare un premio implicito di maggioranza alle coalizioni piú coese a livello territoriale). Nel 2006, tuttavia, abbiamo avuto un sistema elettorale a liste bloccate e premio di maggioranza dato alla coalizione vincente per spoglio nazionale (con alcune eccezioni, particolarmente per il Senato, che ha un sistema regionale previsto dalla Costituzione), quindi qualcosa di concettualmente simile a un ballottaggio. L’ipotesi che si puó porre é che il centrodestra, pur in un clima ostile ad esso in gran parte del paese, fosse effettivamente maggioranza (o perlomeno avesse almeno la metá dei voti). Questa ipotesi non é peregrina se si va a controllare il totale dei voti per coalizione: malgrado una certa erosione del suo consenso negli ultimi dieci anni, il centrodestra ha mantenuto un suo zoccolo duro rispetto ai massimi del voto popolare che raggiunse nel 1996, quando, giova ricordarlo, perse contro l’Ulivo del primo governo Prodi. Era inoltre dato in trend leggermente crescente da parecchi commentatori politici nei mesi che portavano al voto [2]. Che si puó dire da un punto di vista scientifico, e considerando questa ipotesi esplicativa, sull’apparente convergenza minuto per minuto nello spoglio dei dati dai risultati degli exit poll al risultato finale?

Si puó avanzare una spiegazione che segue il famoso problema del ballottaggio di Joseph Bertrand. Supponiamo che, durante le elezioni, il candidato D riceva d voti e il candidato S ne riceva s, con d>s e d+s=n, il numero totale di voti validi. Supponiamo anche che gli elettori siano ordinati in modo casuale (se non gli elettori, lo spoglio dei voti). Quale é la probabilitá P che D sia sempre davanti a S nel conteggio dei voti? Attraverso semplici considerazioni di probabilitá condizionata, si puó dimostrare che questa probabilitá converge in modo ricorsivo a P=(d-s)/(d+s).
Dopo aver notato che molte delle condizioni del problema sono verificate (i voti ricevuti da liste al di fuori delle coalizioni in ballottaggio sono trascurabili), e che é ragionevole presumere che (in assenza di brogli, certo) gli elettori siano ordinati in modo relativamente casuale per quanto riguarda lo spoglio, applichiamolo al nostro caso: se D avesse effettivamente ricevuto il 50.2% dei voti e S il 49.8% dei voti, la probabilitá che D in ogni momento fosse sempre davanti a S é pari a 50.2-49.8/(50.2+49.8)= 0.004%. Come si nota é una possibilitá molto bassa, e in effetti durante lo spoglio il centrodestra é stato in vantaggio solo nelle battute finali, mentre il centrosinistra ha condotto la gara in vantaggio per tutta la notte. Ma anche questo evento ha probabilitá molto bassa: se ipotizziamo che S avesse il 50.2%, la probabilitá che S fosse sempre in testa e’ sempre 0.004%. Ora immaginiamo che i dati corretti fossero quelli usciti dagli exit poll, ovvero Centro sinistra 52%, Cdl 48%: in tal caso la probabilitá che S fosse sempre in testa e’ del 4%. Comunque un evento con probabilitá bassa, anche se in tal caso il dato finale dello spoglio sarebbe stato diverso (appunto 52% a 48%).

Dobbiamo pero aggiungere un dato: i primi risultati che affluiscono al Viminale sono storicamente quelli che provengono da Regioni dove il centrosinistra ha maggioranza schiacciante, pertanto fortemente distorti a loro favore. Se l’ipotesi di elezione molto combattuta é corretta, deve esserci una convergenza nei dati successivi. Si puo obiettare che la convergenza ha seguito un percorso che aveva probabilita molto bassa. Ma questo fatto si puó spiegare utilizzando un altro teorema opportunamente modificato legato alle passeggiate aleatorie, il teorema di convergenza di tipo Donsker che afferma, in estrema sintesi, che per una serie di variabili indipendenti a media zero (viene naturale pensare allo scarto tra le coalizioni, molto vicino a zero secondo la nostra ipotesi), le somme parziali (ovvero i dati dello spoglio) convergono a una passeggiata aleatoria quanto piú lo spoglio si protrae nel tempo. Quindi, qualsiasi “andamento” dello spoglio per coalizione é compatibile con i dati effettivi.

Concludiamo queste piccole considerazioni con un ragionamento: si puó uccidere la democrazia coi brogli, ma perlomeno é consigliabile mantenere in vita la statistica.

[1] Possiamo cercare di migliorare la previsione aumentando il coefficiente di significativitá e la dimensione campionaria fino a un livello ottimale, dati i costi di effettuazione del sondaggio.

[2] A quanto ci risulta, solo una persona ha azzeccato il risultato elettorale, sia al Senato che alla Camera, e ci é riuscito analizzando per mesi i sondaggi, gli stessi che tutti gli altri analisti avevano sotto il naso.

Annunci

5 Comments

  1. Eccellente analisi. Davvero complimenti: era l’ora che qualcuno chiarisse le cose. Solo tre osservazioni. 1. Senza scomodare alcun teorema, e dato lo scalino iniziale a vantaggio dell’Unione dovuto all’afflusso iniziale, come primi seggi scrutinati, di quelli delle regioni rosse, mi pare ovvio che poi l’afflusso dei dati dalle restanti sezioni – a quel punto (senza cioè molte sezioni del Centro Italia) complessivamente a chiara maggioranza CdL – dovesse segnare un lento, ma costante (costante in termini generali, perché oscillazioni nella velocità della rimonta ci sono comunque state e si percepiscono anche nel “famigerato” grafico dell’andamento orario dello scrutinio) recupero del centrodestra, “spalmato” sulle restanti ore di durata dello scrutinio. 2. Il vero mistero, come ho già scritto altrove, rimane a mio avviso l’assenza del ribaltamento a vantaggio della CdL anche alla Camera. Dato che al Senato la CdL ha vinto per circa 400000 voti e dato che gli elettori giovani, che votano solo alla Camera, sono circa 4 milioni, si deve ipotizzare che il sorpasso della CdL non ci sia stato perchè di questi 4 milioni il 55% (cioè 2200000) ha votato Unione e solo il 45% (cioè 1800000) ha votato CdL. Ora, a parte il fatto che in TUTTE E TRE le elezioni politiche precedenti la CdL aveva sempre fatto MOLTO MEGLIO alla Camera che al Senato e quindi ora ci sarebbe stato un capovolgimento di tale consolidato pattern (certo, è cambiato il sistema elettorale, ma di fatto quello di Aprile era comunque un maggioritario a collegio unico nazionale), a parte questo, dicevo, mi lascia perplesso il fatto che il ruolo dei “gggiovani” nel far vincere Prodi non sia stato poi esaltato più di tanto dall’Unione e dai suoi media. Per dire, non ho visto su Repubblica o Raitre nessuna inchiesta o servizio elogiativo del tipo “i diciottennni che hanno salvato l’Italia”, o “i nuovi ragazzi del ’99 (meglio dell’88)”, ecc. Niente di niente, come se nessuno si fosse accorto del ruolo decisivo appunto dei “gggiovani” nel mandare a casa l’odiato Berlusca. E soprattutto: perché nessun valoroso sondaggista si è preso la briga di andare a verificare se DAVVERO nelle preferenze dei 18 – 25enni lo scarto tra Unione e CdL è di 10 punti percentuali? Questo non sarebbe certo un sondaggio difficile: si tratta di sondare un gruppo di elettori omogeneo, facilmente campionabile, in genere onesto ed aperto nelle risposte. E poi si tratta di verificare un dato macroscopico: ben 10 punti percentuali di distacco! Perché Mannheimer e soci non si sono presi la briga di verificarlo? O forse tale sondaggio c’è stato e non me ne sono accorto? 3. Da ultimo, consentitemi un tocco di presunzione. Anche il sottoscritto aveva QUASI indovinato il risultato elettorale: avevo previsto la vittoria della CdL di misura in Italia, ma la sconfitta all’estero, in termini di seggi al Senato ed avevo previsto alla Camera la CdL al 50% e l’Unione al 49,7%. Come vedete, o sbagliato, ahimé, di molto poco, ma soprattutto non ho messo su Internet la mia previsione: l’ho solo fatta circolare fra gli amici, specie tra quelli quassù, nel Paradiso del Liberismo.

  2. Egregi Dottori Statistici,

    in termini scientifici direi che avete usato un metodo di valutazione sbagliato dal momento che siete partiti da IPOTESI ERRATE poiché SECONDO VOI i due gruppi di dati hanno “media diversa” COSA al QUANTO SIBBILLINA in QUANTO STIAMO PARLANDO DELLA STESSA POPOLAZIONE E NON DI DUE GRUPPI A MEDIA DIFFERENTE !!!!
    Per cui tutto il resto tabelle, varianze , ecc.. ecc.. sono ERRATE .

    Saluti cari, dottori STATISTICI.

    P.s.

    Povera STATISTICA.

  3. Premesso che i commenti su Epistemes sono di default in moderazione, essendo i suoi redattori in genere occupati a fare altro durante la giornata, e che in un corso serio di Statistica 1 si insegna a distinguere tra popolazione campionaria, popolazione obiettivo e gruppi di dati, sarebbe bastato leggersi ciò che era stato scritto poco prima per giungere a conclusioni corrette. Cioè che non abbiamo a disposizione popolazioni obiettivo omogenee, né gli stessi campioni, essendo i pochi dati delle stesse province riferibili ad anni diversi, ma solo poche percentuali di schede bianche (oltretutto arrotondate) tratte dalla visione di un film. Popolazioni? Campioni? No, gruppi di dati, appunto. Se ha i dati relativi alla popolazione campionaria delle varie province nel 2001 e nel 2006, ci faccia un paper, esponga una tesi e lo invii a una rivista specializzata per sottoporla a peer review.

  4. Gentile Statistico, grazie per il suo commento. L’ipotesi di medie diverse non e’ sibillina (con una sola b, direi), ma semplicemente in linea con i dati delle schede bianche delle elezioni svoltesi con sistema proporzionale, antecedenti quindi al 1992. Se per lei confrontare i dati delle elezioni svoltesi con sistemi elettorali diversi e’ un metodo degno di uno statistico, La pregherei di ripassare alcuni concetti fondamentali come break strutturale e regime switching.
    Ha proprio ragione: POVERA STATISTICA…

I commenti sono chiusi.