5
Nov
2019
3

La “p” degli studi scientifici: da dove viene? Cosa indica?

Sir Ronald Fisher (1890 – 1962), statistico britannico che per primo ha proposto, nel 1935, l’impiego di test di significatività statistica basati sul valore-p.

Molti di coloro che leggono abitualmente la letteratura scientifica spesso puntano direttamente alla sezione “Risultati” dell’abstract, andando a cercare il valore della “p”. Questo parametro è diventato per molti versi l’arbitro che stabilisce ciò che è vero e ciò che è falso in ambito scientifico, compresa la Medicina, pur rimanendo spesso frainteso e mal utilizzato. Questo post vuole essere un piccolo “Bignami” per poterlo interpretare al meglio (vedi le avvertenze al termine del post).

Un’esperimento usando palline rosse e verdi

Immaginiamo di avere due urne, A e B. Entrambe contengono uno stesso numero di palline, molto ingente, in parte rosse e in parte verdi. Ci viene chiesto di stabilire se il numero di palline verdi in entrambe le urne è uguali, potendo estrarne 20 da ognuna della due. Eseguiamo l’estrazione e otteniamo:

  • Urna A: 6 palline verdi e 14 palline rosse (30% vs 70%)
  • Urna B: 13 palline verdi e 7 palline rosse (65% vs 35%)

A partire da questi dati, possiamo confermare l’ipotesi di partenza secondo cui il numero di palline verdi è lo stesso nelle due urne?

Intuitivamente, al crescere della differenza tra il numero di palline verdi estratto dalle due urne, questa eventualità appare sempre meno verosimile. In altri termini, data l’ipotesi iniziale di equivalenza, è sempre meno probabile ottenere una differenza pari o superiore a quella emersa dai dati, a mano a mano che quest’ultima cresce.

Figura 1. Correlazione tra la differenza in termini di palline verdi estratte e probabilità (calcolata con il test esatto di Fisher) di ottenere una differenza pari o più elevata a partire dall’ipotesi nulla. V = palline versi, R = palline rosse.

Come vediamo dalla figura 1, la probabilità di ottenere una differenza pari o superiore a 7 palline verdi, ipotizzando che il numero di palline verdi sia lo stesso nelle due urne, è pari al 3% circa. Questa probabilità corrisponde a tutti gli effetti alla “p” (o valore-p). Come interpretarlo?

L’approccio attuale è quello di confrontarlo con un valore soglia, ormai universalmente fissato a 0,05 (5%): se il valore-p che otteniamo non lo supera, possiamo considerarlo sufficientemente basso da poter escludere che la differenza registrata sia spiegabile con l’ipotesi nulla che nelle due urne vi sia lo proporzione di palline verdi. Al contrario, se la p ottenuta è maggiore del 5%, la probabilità che si possano ottenere i valori registrati e più estremi se non vi sono differenze tra le due urne è considerata troppo alta per poterla rifiutare.

E’ possibile fare lo stesso ragionamento quando il confronto si basa su valori medi o mediani. Per un approfondimento si veda il materiale aggiuntivo.

Cos’è il valore-p

Questo esempio astratto ci può aiutare cosa sia e cosa non sia il valore-p. Per fare ciò ci appoggeremo ai principi, pubblicati dall’American Statistical Association nel 2016 (1) per promuoverne una corretta interpretazione.

  1. Il valore- p è la probabilità che, partendo dal presupposto che l’ipotesi nulla sia vera (vedi glossario alla fine del post), un parametro statistico (come una media, o una proporzione) sia uguale o più estrema rispetto a quella osservata nello studio.

2. I valori-p possono indicare quanto siano incompatibili i dati rispetto a uno specifico modello.

In caso ripetessimo le estrazioni molte volte, una differenza di 7 o più palline verdi si otterrebbe circa nel 3% dei casi. E’ dunque una possibilità piuttosto remota, scarsamente compatibile con l’ipotesi di partenza che la proporzione di palline verdi sia la stessa nelle due urne. Detto diversamente, minore il valore-p, minore la possibilità che i dati ottenuti siano spiegabili con l’ipotesi nulla di partenza.

Cosa NON è il valore-p

  1. Il valore-p non è la probabilità che l’ipotesi di studio sia vera.

Il valore-p esprime quanto sia compatibile una teoria con i dati ottenuti in un esperimento ma non permette di trarre conclusioni più generali sulla sua correttezza (a questo proposito, si veda anche l’esempio sull’impatto dello zodiaco sulle diagnosi di dimissione ospedaliere del materiale aggiuntivo).

2. Il valore-p non è la probabilità che i dati dello studio siano prodotti unicamente dal caso.

Nuovamente, il valore-p non consente di trarre conclusioni sulla verosomiglianza dei dati ottenuti in uno studio ma solo quanto siano compatibili con un’ipotesi di lavoro formulata in partenza.

3. Il valore-p non è l’unico fondamento su cui basare conclusioni scientifiche o decisioni di programmazione.

La riduzione del ragionamento scientifico al semplice accertamento meccanico del superamento di una soglia numerica può condurre a conclusioni errate e a un impoverimento del processo decisionale. Come vedremo successivamente, per formarsi un’opinione circa l’efficacia di un farmaco o la rilevanza di un test diagnostico è necessario considerare, insieme alla statistica-p, altri elementi quali la qualità dello studio, la validità delle procedure adottate e le evidenze già esistenti sul fenomeno studiato, compresa la plausibilità biologica.

4. Il valore-p non può essere il parametro sulla base del quale regolare la pubblicazione dei lavori scientifici.

Una delle conseguenze più estreme dell’applicazione indiscriminata della statistica-p consiste nella pubblicazione selettiva dei soli risultati che superano la magica soglia di 0,05. Le riviste scientifiche pubblicano più volentieri studi con valori-p significativi (2) e probabilmente molti ricercatori, consapevoli di ciò, non sottopongono neanche ai giornali i loro lavori quando questa condizione non è soddisfatta, sottraendo alla comunità scientifica importanti dati empirici.

Un altro problema riguarda il “p-hacking”, ovvero la conduzione di molteplici confronti senza delle ipotesi ben definite a priori, andando a selezionare successivamente quelli con il valore-p più promettente. Ciò è sbagliato poiché, come abbiamo visto, se viene condotto un numero sufficiente di confronti, il 5% circa di questi presenterà un valore-p significativo, anche quando l’ipotesi nulla è vera (vi rimando all’esempio sullo zodiaco del materiale aggiuntivo per un esempio di approfondimento).

5. Il valore-p non è misura dell’entità di un effetto o della rilevanza di un risultato.

Infatti, il valore-p è correlato alla precisione dei risultati e alle dimensioni della popolazione dello studio. Relativamente a quest’ultimo aspetto, quando le dimensioni campionarie sono cospicue, anche piccole differenze tra i due gruppi di studio possono associarsi a valori-p molto bassi (3), statisticamente significativi (figura 2).

Figura 2. Impatto del numero di palline estratte sul valore p. In questo caso, a fronte di proporzioni invariate di palline verdi nelle due estrazioni, l’aver raddoppiato il numero di palline estratte a permesso di raggiungere, nella seconda estrazione, una p molto bassa.

In modo speculare, l’assenza di significatività statistica non esclude la mancanza di un effetto: quest’ultimo potrebbe non essere stato correttamente rilevato solo perché è stato arruolato un numero sufficiente di pazienti per questo scopo.

6. Di per sé, il valore-p non rappresenta una stima valida dell’evidenza relativa a un modello o a un’ipotesi.

Un’ulteriore conseguenza di quanto detto finora: un valore-p statisticamente significativo non implica automaticamente che l’ipotesi vagliata nello studio sia vera ma indica solo che i risultati ottenuti sono scarsamente spiegabili con l’ipotesi nulla formulata in partenza. Altri fattori confondenti non presi in considerazione potrebbero spiegare l’incompatibilità dei risultati con l’ipotesi nulla, magari anche meglio rispetto all’intervento studiato dai ricercatori; ciò è particolarmente vero per gli studi osservazionali.

Noi ci occupiamo di pazienti, non di palline

Proviamo ad applicare tutto ciò ai lavori scientifici nell’ambito delle scienze della salute. Nella maggior parte dei casi, questi si basano su un confronto: per quanto riguarda la diagnosi, si confronta un gruppo costituito da pazienti notoriamente affetti da una certa patologia con un gruppo di individui nei quali la patologia è ragionevolmente esclusa e si confronta la prevalenza di un elemento diagnostico (che può emergere dall’esame obiettivo, da indagini ematochimiche o radiologiche). In ambito terapeutico, classicamente si confrontano pazienti sottoposti o meno a un certo provvedimento (farmacologico piuttosto che chirurgico o psicologico) valutando potenziali differenze in termini di guarigione, controllo dei sintomi o comparsa di eventi avversi. Infine, in epidemiologia si confrontano popolazioni di persone esposte a un certo fattore di rischio e si confronta la frequenza di insorgenza di una patologia, etc.

Il meccanismo alla base di questi confronti è simile a quello descritto metaforicamente con le palline nelle urne: le due urne rappresentano le due diverse popolazioni dello studio, il diverso colore delle palline lo status dei soggetti (outcome raggiunto/non raggiunto, fattore di rischio assente/presente).

Sulla base dell’utilizzo del valore-p in lavori scientifici di questo tipo è stato costruito negli anni un processo di interpretazione degli studi scientifici ormai standardizzato, i cui passi fondamentali sono sintetizzati nella figura 3.

Figura 3. Processo di inferenza statistica basato sull’impiego del valore-p.

Lo studio THEMIS.

Proviamo a leggere un recente studio alla luce di quanto ci siamo detti. Lo studio THEMIS (4) è un trial randomizzato nel corso del quale 19220 soggetti diabetici con più di 50 anni sono stati divisi in due gruppi: in quello sperimentale, ai pazienti veniva somministrato ticagrelor + acido acetilsalicilico (ASA) mentre in quello di controllo il trattamento consisteva in un’associazione di placebo e ASA. Dopo 40 mesi di trattamento, l’incidenza di eventi ischemici (morte cardiovascolare, infarto miocardico o ictus) nel gruppo sperimentale era pari a 7,7%, più bassa rispetto all’8,5% registrato nel gruppo di controllo. Questa differenza dimostra un’effettiva efficacia del ticagrelor o è semplicemente legata a una fluttuazione del caso?

In questo caso, secondo l’ipotesi nulla non vi è alcuna differenza tra i gruppi di studio, ovvero la duplice terapia anti-aggregante non è più efficace della sola ASA per ridurre gli eventi ischemici. Nel nostro esempio, il valore-p è pari a 0,04 (4%); in altri termini, partendo dall’ipotesi nulla la probabilità di ottenere una differenza di mortalità pari o superiore all’0,8% è del 4%. Essendo questo valore inferiore al 5%, possiamo escludere che l’ipotesi nulla sia una spiegazione plausibile di questi dati.

La lettura di questo studio ci porta a fare alcune riflessioni:

  • il valore-p ottenuto ci permette di escludere che l’ipotesi nulla sia una spiegazione valida della differenza osservata in termini di mortalità;
  • la differenza assoluta ottenuta con il trattamento è assai modesta, pari allo 0,8%; nonostante ciò raggiunge la significatività statistica viste le grandi dimensioni dello studio. Da qui emerge un aspetto importante: significatività statistica non è sinonimo di significatività clinica, in quanto è possibile registrare talvolta differenze che raggiungono la prima ma con uno scarso impatto al letto del paziente (5).
  • anche per questo motivo, la rilevanza dello studio THEMIS dovrebbe essere interpretato alla luce delle nostre conoscenze sulla fisiopatologia dell’aterosclerosi, sui meccanismi d’azione del ticagrelor e sulla base dei risultati di precedenti studi sul farmaco e non solo sul confronto del valore-p ottenuto con la soglia di significatività statistica.

Un’esempio tratto dalla letteratura di confronto tra valori mediani è sintetizzato nel materiale aggiuntivo.

Quali alternative?

L’obiettivo di questo post è semplicemente quello di suggerire cautela nel considerare il valore-p, evitando di farvi eccessivo affidamento e ricordando sempre di interpretarlo tenendo in considerazione le modalità con cui è stato condotto lo studio, le dimensioni del campione e l’esistenza di basi fisiopatologiche valide per le conclusioni ottenute.

I limiti della statistica-p hanno comunque stimolato la ricerca di possibili alternative, di cui sarebbe al di là dello scopo di questo post fornire una panoramica esaustiva. Ne segnalo alcune, per chi desiderasse approfondire:

  • mandare direttamente in pensione il concetto di significatività statistica (6);
  • abbassare il livello convenzionale di significatività statistica a 0,005 (7);
  • adottare approcci completamente diversi, come quello bayesiano (8).

Glossario

Ipotesi nulla = è l’ipotesi di partenza che i test statistici prendono in considerazione per calcolare il valore-p e che sostiene che non vi sia alcuna associazione tra le variabili considerate (9).

Significatività statistica = proprietà dei risultati ottenuti dall’analisi dei dati di uno studio per i quali si è dimostrato che è inverosimile che si siano verificati per una fluttuazione del caso (9). In altri termini, una differenza indicata come statisticamente significativa in uno studio esiste anche nella popolazione (5).

Bibliografia

Immagine di copertina: © Paul Sableman, CC BY 2.0

  1. Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. Am Stat 2016; 70: 129-133. Link
  2. Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan A-W, et al. Systematic Review of the Empirical Evidence of Study Publication Bias and Outcome Reporting Bias. PLoS ONE 2008; 3(8): e3081. Link
  3. Goodman SN. Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy. Ann Intern Med. 1999; 130: 995-1004. Link
  4. Steg PG, Bhatt DL, Simon T, et al. for the THEMIS Steering Committee and Investigators. Ticagrelor in Patients with Stable Coronary Disease and Diabetes. N Engl J Med. 2019 Oct 3;381(14):1309-1320. Link
  5. Sedgwick P. Clinical significance versus statistical significance. BMJ 2014;348: g2130. Link
  6. Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019;567(7748):305-307. Link
  7. Ioannidis JPA.  The proposal to lower P value thresholds to .005.  JAMA. 2018;319(14):1429-1430. Link
  8. Goodman SN. Toward Evidence-Based Medical Statistics. 2: The Bayes Factor. Ann Intern Med. 1999; 130: 1005-1013. Link
  9. Glossary. In: Guyatt G, Rennie D, Meade MO, Cook DJ, editors. Users’ Guides to the Medical Literature. A manual for Evidence-based clinical Practice. 3rd ed. New York, NY: McGraw Hill; 2015.

[Avvertenza: questo post non ambisce a esaurire tutte le questioni relative ai fondamenti filosofici, alla natura, all’interpretazione e all’applicazione della statistica-p. Lo scopo è semplicemente di fornire una breve introduzione sull’argomento, rimandando alle citazioni bibliografiche per ulteriori approfondimenti.]

3

Potresti anche essere interessato a

scale-a-chiocciola
Antivirali e paralisi di Bell, la storia continua…
Come organizzare gli articoli scientifici senza impazzire
Uso dei farmaci off-label
Suicidio e rischio suicidario

2 Commenti

  1. Lorenzo Viola

    Complimenti, una piacevole lettura riguardo ad un concetto che troppo spesso necessita di chiarificazioni nel mondo scientifico.
    Sono felice di aver scoperto questo blog!
    Buon lavoro,

    Dr. L Viola

    1. Paolo Balzaretti

      Grazie per l’apprezzamento. Sono contento che abbia trovato interessante il post e l’intero blog! cordiali saluti, Paolo.

Lascia un commento

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

EMPills newsletter
Leggi gli ultimi post pubblicati sul blog
Rispettiamo la tua privacy