La correlazione è un legame diretto o indiretto fra due o più variabili.

In statistica esiste una definizione precisa di correlazione, ma in questo articolo mi riferisco ad una relazione leggermente diversa chiamata correlazione pratica.

Le correlazioni pratiche sono quelle effettivamente utili nella vita reale. La definizione formale è la seguente:
 

Una grandezza x è [praticamente] correlata con y se tutti o alcuni cambiamenti di x modificano la probabilità che cambi anche y.

 

La definizione può sembrare un po’ contorta, ma il concetto è molto semplice: se cambiando una grandezza x sai che potrebbe cambiare anche un’altra grandezza y, allora x è correlata con y.
 
 

Correlazione
 
 

La correlazione pratica, che d’ora in poi chiamerò semplicemente correlazione, serve ad individuare i casi in cui una variabile ha una influenza comprensibile su un’altra (variabile e grandezza sono termini equivalenti).

La capacità di individuare e capire la correlazione fra più grandezze nella vita reale è fondamentale per poter prendere giuste decisioni e migliorare la propria qualità della vita.
 
 

In teoria tutte le variabili sono in qualche modo legate fra loro, in quanto tutto è governato dalle leggi della fisica.

Tuttavia, dato che la correlazione pratica deve essere di una qualche utilità, non ha senso studiare le relazioni che non siamo in grado di osservare o comprendere almeno in parte.

Per esempio, il battito d’ali di una farfalla potrebbe innescare un tifone a 1000km di distanza, ma si tratta di una correlazione inutile in quanto inutilizzabile nella pratica.
 

Come si individuano i casi utili? Per farlo la definizione parla di probabilità.

La probabilità del verificarsi di un evento, infatti, cambia a seconda di quali e quante informazioni abbiamo a disposizione.

Nell’esempio di prima non si può sapere se, a seguito del volo della farfalla, la probabilità che si verifichi il tifone cambi o meno. Per questo motivo non si può parlare di correlazione pratica.

Non è infatti sufficiente sapere che esiste un legame fra due grandezze, ma è anche necessario sapere che un cambiamento della prima grandezza modifica la probabilità che cambi anche la seconda.
 
 
 

Analizzare le correlazioni

 
 

La conoscenza delle correlazioni fa parte dell’esperienza personale.

Le correlazioni più universali e comuni si imparano dallo studio e dalle altre persone. Molte di esse, infatti, richiederebbero troppo tempo e strumenti troppo complessi per essere studiate autonomamente.

Tramite lo studio si imparano, ad esempio, alcune correlazioni fra grandezze fisiche (come fra massa e gravità, oppure fra variabili meteorologiche e cambiamenti climatici), di tipo medico (fra assunzione di sostanze e metabolismo), di tipo comportamentale e così via.

Accanto a queste, nel corso della vita si possono anche individuare correlazioni legate esclusivamente all’esperienza personale.
 

Le correlazioni sono utilissime per fare scelte migliori e più consapevoli, ma è fondamentale saperle analizzare.
In particolare, si devono considerare tre parametri fondamentali:

  1. l’incertezza;
     
  2. la validità;
     
  3. l’accuratezza.

 
 

Incertezza

Per affermare che esiste una correlazione devi avere dei dati scientificamente e logicamente validi.

Non sempre puoi essere sicuro che una correlazione sia reale. L’incertezza ti dice quanto ritieni probabile che la correlazione esista veramente: più l’indice è alto, meno sicura è la correlazione.

Nel caso di correlazioni studiate o comunque imparate da altri, devi fidarti di chi l’ha esposta e del metodo che ha usato per arrivare ad essa, e questo livello di fiducia si rispetta anche nell’incertezza della correlazione.

Nel caso di correlazioni trovate personalmente, invece, devi considerare i limiti dei tuoi metodi e dei dati che hai a disposizione.
 

Ecco un esempio: la correlazione fra vaccini e autismo è stata formulata da Andrew Wakefield, un ex-medico britannico, nel 1998. L’indice di incertezza di questa correlazione è strettamente legata alla fiducia che hai in quella persona e nel suo metodo.

Dato che il lavoro Wakefield è considerato fraudolento sia dalla giustizia che dalla quasi totalità del mondo scientifico, l’incertezza di tale correlazione non può che essere estremamente alta.

Al contrario, molte correlazioni affermate dalla fisica (pensa a una qualsiasi delle formule che hai studiato) sono confermate quotidianamente anche nei fatti, essendo usate nella pratica ogni giorno. Anche se tu di persona non le hai mai controllate, puoi sicuramente dire che il loro indice di incertezza è molto basso.
 
 

Validità

La validità di una correlazione indica quanto questa sia applicabile in più ambiti. In pratica dice quanto vale l’indice di incertezza nei vari contesti in cui la correlazione funziona.

Sbagliare l’analisi della validità porta spesso ad un errore di generalizzazione, di cui parlerò in un prossimo articolo.
 

Quando si utilizzano le correlazioni si dovrebbe sempre considerare l’ambito in cui le stiamo applicando.

Pensa agli studi clinici sui farmaci: si testa un farmaco su un gruppo di pazienti, e si nota che l’assunzione del farmaco è correlata ad un miglioramento delle condizioni di salute.

Anche se la correlazione è vera, non ha validità assoluta ma solo in un certo ambito, cioè solo per chi è affetto da specifici problemi di salute.

In una persona sana, invece, l’assunzione del farmaco non sarebbe correlato con nessun tipo di miglioramento.
 
 

Accuratezza

L’accuratezza di una correlazione fra x e y indica quanto possiamo sapere di y conoscendo x.

Il legame fra x e y è dato dalla funzione di correlazione. Questa funzione permette di ottenere, a partire da un certo valore di x, alcune informazioni su y.

Più queste informazioni su y sono precise, e più l’accuratezza della correlazione è elevata.

Le leggi fisiche sono esempi di correlazioni molto accurate, dato che permettono di ottenere il valore esatto di una certa grandezza conoscendo l’altra.
 

Molte correlazioni sono invece molto meno accurate, e sono quelle che spesso danno più problemi di interpretazione. Il motivo è che noi abbiamo la tendenza a cercare sempre un legame preciso (cioè una maggiore accuratezza) anche quando non c’è.

Un esempio è la correlazione fra fumo di sigaretta e incidenza di cancro.

In questo caso l’accuratezza è limitata, in quanto a partire dalla prima variabile (il fatto di fumare) possiamo solo dire che la seconda variabile (incidenza del cancro) sarà positiva con maggiore probabilità.

Non possiamo però avere la sicurezza che ciò accada. A volte qualcuno (di solito un fumatore) prende ad esempio una persona fumatrice anziana ancora relativamente sana, come a “dimostrare” che il fumo non fa poi così male.

L’errore logico è che si smonta una tesi (il fumo provoca il cancro) che non è quella vera (il fumo aumenta la probabilità di cancro).

È lo stesso errore di dire che “il casco è inutile perché si può morire anche indossandolo”. Si dimostra solo che non sempre il casco salva la vita (infatti non è vero), ma resta il fatto che diminuisce la possibilità di morire in un incidente.
 
 
 

Gli errori di correlazione

 
 

Ogni giorno usiamo le correlazioni per prendere decisioni e per arrivare a certe conclusioni.

I possibili errori che si possono commettere sono tanti, soprattutto di tipo logico. Molti saranno approfonditi in articoli dedicati, ma possiamo introdurne alcuni già qui.

Ecco gli errori più comuni che devi evitare:

  1. trovare “a intuito” una funzione di correlazione (spesso una causalità);
  2. ignorare gli indici di incertezza e di validità;
  3. applicare proprietà non valide alla funzione di correlazione (transitiva, riflessiva, proporzionale).

 

Il primo errore è piuttosto comune: si osserva una correlazione e si arriva ad una conclusione errata, che sembra “ragionevole” ma in realtà non è legata alla correlazione in modo logico.

Infatti se due grandezze sono correlate non significa necessariamente che una sia la causa dell’altra.
 

Questo errore si ritrova spesso, ad esempio, quando si studiano gli effetti salutistici delle abitudini alimentari.

Si sa da molto tempo che mangiare spesso al fast food è correlato con una maggiore incidenza di diverse malattie. Tuttavia, questa informazione da sola non è sufficiente a dire che il cibo del fast food sia la causa di tali problemi.

Basta osservare, infatti, che chi mangia spesso al fast food ha tante altre cattive abitudini (è sedentario, stressato, fumatore…) e senza trovare correlazioni più precise non si può sapere quali di questi fattori influisca sulla salute.
 
 

Fast food
 
 

Il secondo errore è quello di considerare una correlazione come una statistica certa, ignorando quindi il suo indice di incertezza (cioè quanto sei sicuro della veridicità della correlazione) e quello di validità (in quali ambiti si può applicare).

Un errore di questo tipo è quello di fidarsi di ciò che si legge su internet, magari su siti o pagine senza alcuna autorevolezza. In pratica è l’equivalente online del sentito dire.

La fiducia in chi propone una correlazione è la chiave principale da usare per assegnarle un giusto indice di incertezza.
 

Una catena di errori a cui si assiste spesso è la seguente.

Esce il risultato di uno studio clinico su un argomento di interesse generale, ad esempio gli integratori vitaminici. Una rivista o un quotidiano online sfrutta la notizia per creare un articolo acchiappa click, interpretando in modo arbitrario i risultato dello studio.

Magari lo studio afferma che un integratore vitaminico è utile in caso di carenze nutrizionali, il giornale però si inventa la funzione di correlazione dicendo che prendere l’integratore migliora sempre e comunque la salute.

Il giornale commette l’errore di non considerare la validità della correlazione (vale solo per chi ha una carenza), e il lettore che si fida troppo di quello che legge non assegna alla correlazione il giusto indice di incertezza.
 
 
 

Cos'è la correlazione e quali errori devi evitare. Click to Tweet

 
 

Arriviamo infine all’ultimo errore: l’applicazione di proprietà non valide alla funzione di correlazione.
 

Partiamo dalla proprietà transitiva. Prendi la seguente osservazione:
 

“L’eccesso di alcol favorisce l’insorgenza di cancro; l’insorgenza di cancro aumenta la mortalità; quindi l’eccesso di alcol aumenta la mortalità.”

 

Questa affermazione, anche se è convincente, contiene un grave errore logico che risiede in quel “quindi”.

In realtà non si può usare la proprietà transitiva nella correlazione, tranne in certi casi. Per capirlo basta un esempio:
 

“Più tempo passo su Internet e più imparo l’inglese; più imparo l’inglese e più possibilità ho di ottenere un lavoro; quindi più tempo passo su Internet e più possibilità ho di ottenere un lavoro.”

 

Ovviamente la conclusione non ha senso.

Nel primo esempio la proprietà transitiva funziona solo per un caso, nello specifico perché la prima variabile (l’eccesso di alcol) non ha nessuna correlazione negativa con la terza variabile (l’aumento di mortalità).

Questo però non è sempre detto.

Nel secondo esempio infatti non è così, perché passare tanto tempo su Internet si correla in tanti altri modi con la ricerca del lavoro. Ecco perché, quando si analizza una correlazione, non si può usare la proprietà transitiva tranne in casi ben specifici.
 
 

La proprietà riflessiva (sarebbe più corretto parlare di iniettività, ma riflessività è più chiaro) è un’altra proprietà che non è applicabile, infatti l’affermazione:
 

“Prendere un sonnifero fa venire sonno => il sonno è causato dai sonniferi”.
 

non ha senso logico. Eppure spesso si cade in questo errore banale.

Quante volte si sente ancora dire che: “i grassi fanno ingrassare quindi per non ingrassare devo diminuire i cibi grassi”?

L’errore (a parte il fatto che si dovrebbe parlare di eccesso) è che qualsiasi macronutriente fa ingrassare (ecco la non iniettività: ci sono altri valori assunti dalla variabile “cibo” che causano lo stesso effetto).
 
 

Vediamo infine la proprietà proporzionale. Si tratta, in pratica, di dire che se x è correlato con y, allora anche un valore maggiore di x è correlato con un valore altrettanto maggiore di y.

Questo errore mette in evidenza la scarsa capacità di quantificare e di limitarsi ad analisi qualitative.

Un semplice esempio:
 

“Bere due litri di acqua al giorno fa bene”

 

Questa frase può anche essere vera, ma di sicuro “bere venti litri di acqua al giorno fa molto molto bene” non lo è!
 
 

A presto,
Alessandro