New Guidelines for Statistical Reporting in the New England Journal of Medicine

El passat 18 de juliol de 2019, The New England Journal of Medicine publicà una editorial on clarificava i difonia les noves guies estadístiques per als assatjos clínics i els estudis observacionals (1). Aquestes noves directrius sorgeixen com a conseqüència i necessitat de l’editorial publicada per l’American Statistical Association (endavant anomenada ASA) l’any 2016: The ASA’s statement on p-values: context, process, and purpose (2). En aquesta editorial es posava de manifest l’alarmant preocupació per part de l’ASA sobre l’ús incorrecte i la mala interpretació dels p-valors.

El p-valor és una mesura estadística que pot resultar útil sempre que les tècniques estadístiques siguin escollides de manera adient, sempre que es duguin a terme les anàlisis estadístiques adequadament, i es realitzi una correcta interpretació dels resultats estadístics. Per definició, el p-valor no és res més que la probabilitat d’obtenir un resultat (efecte o associació; per exemple, la diferència de mitjanes entre dos grups) major o igual a l’observat, donada una hipòtesi nul·la verdadera.

Però, el desenvolupament de la recerca científica i l’augment d’enormes i complexos conjunts de dades en els últims anys, ha ampliat l’abast d’aplicació dels mètodes estadístics. I encara que tot això significa que la ciència progressa, també és cert que s’ha despertat una certa preocupació sobre les conclusions trobades en els resultats de les investigacions. Aquestes preocupants conclusions poden derivar d’una mala pràctica estadística o d’una incorrecta interpretació dels resultats, i com a conseqüència es dóna lloca una manca de reproductibilitat de les conclusions científiques.

Part d’aquestes alarmants conclusions, l’ASA les reflexa a un llistat de principis que pretenen ajudar a millorar la interpretació en la comunitat científica i estadística.

  1. Els p-valors proveeixen un enfocament per a resumir la incompatibilitat entre un particular conjunt de dades i una hipòtesi proposada, habitualment aquesta hipòtesi nul·la indica una absència d’efecte o associació. Com més petit sigui el p-valor, major és la incompatibilitat o major és l’evidència en contra de la hipòtesi nul·la.

  2. El p-valor no és una mesura de probabilitat del fet que la hipòtesi estudiada és certa, ni tampoc la probabilitat de què les dades foren produïdes de manera aleatòria.

  3. Les conclusions científiques i la presa de decisions no deuen estar basades únicament en si el p-valor sobrepassa un llindar determinat. Aquesta pràctica pot desencadenar conviccions errònies i una desastrosa presa de decisions. Les conclusions no es converteixen “certes” a un costat del llindar i “falses” a l’altre costat. Es deuen tenir en compte molts altres factors del context que prenen un paper fonamental en les inferències científiques, com poden ser: el disseny de l’estudi, la qualitat de les mesures, les evidències externes sobre el fenomen d’estudi i la validesa de les assumpcions que sostenen les anàlisis.

  4. Una inferència adequada requereix una completa transparència i informació de les anàlisis dutes a terme. Les anàlisis relacionades i els p-valors obtinguts no deuen ser mostrats de forma selectiva. Dur a terme múltiples anàlisis i mostrar solament aquells p-valors inferiors a 0,05, fa que els p-valors no es puguin interpretar. Açò és el que es coneix com a inferència selectiva o “p-hacking“, i comporta un fals excés de significança estadística en els resultats que acaben sent publicats a la literatura científica. Es deu evitar radicalment aquesta pràctica. Les conclusions científiques vàlides basades en p-valors deuen anar sempre acompanyades d’altres estimacions com els efectes, els intervals de confiança i el nombre d’anàlisis que s’han dut a terme, així com la manera que van ser aquestes anàlisis amb p-valors seleccionades per a la publicació.

  5. Un p-valor o la significança estadística, no mesura la grandària de l’efecte o la importància del resultat. P-valors petits no impliquen necessàriament la presència d’un efecte gran o rellevant, així com un p-valor gran no implica una falta d’importància o d’efecte. Qualsevol efecte, independentment de quant petit sigui, pot produir un p-valor molt xicotet si la grandària mostral és suficientment gran.

  6. Per si sol, un p-valor no és una bona mesura d’evidència en relació amb un model o hipòtesi. La comunitat científica deu reconèixer que un p-valor sense context o altres evidències proveeix una informació limitada. Per tant, l’anàlisi de dades no deu finalitzar amb el càlcul d’un p-valor quan existeixen altres perspectives més apropiades i factibles.

A causa tots els usos incorrectes i les idees equivocades que s’han presentat ací pel que fa als p-valors, molts estadístics prefereixen suplementar o inclòs substituir els p-valors per altres enfocaments, com per exemple: intervals de confiança, credibilitat o predicció, mètodes bayesians, o mesures alternatives d’evidència com les ràtios de versemblança o el Factor Bayes.

L’ASA conclou l’editorial destacant que una bona pràctica estadística, com a component essencial d’una bona pràctica científica, emfatitza els principis d’un correcte disseny d’estudis, el càlcul d’una gran quantitat de mesures numèriques i gràfiques que resumeixen les dades i que ajuden a entendre el fenomen d’estudi, així com una completa, adequada i lògica interpretació dels resultats en context. Per tant, cap valor en si mateix com el p-valor, pot substituir el raonament científic.

A conseqüència d’aquesta comunicació per part de l’American Statistical Association, que per primera vegada s’ha involucrat en aquest tema que fa dècades que preocupa a la comunitat estadística, The New England Journal of Medicine decidí intervenir-hi i en juliol de 2019 publicà “New Guidelines for Statistical Reporting in the Journal”.

L’editorial publicada es dirigeix als autors i lectors de la mateixa revista establint que, és possible que s’hagin adonat de la prudent i parsimoniosa publicació de p-valors als seus articles d’investigació durant el passat any. I és que donades les últimes publicacions per part de l’ASA, la revista ha decidit implementar certes mesures a les seves Guidelines per a limitar l’ús de p-valors. Les noves guidelines discuteixen alguns aspectes com els que es mostren a continuació:

  1. Limitar la utilització de p-valors solament a objectius primaris. És a dir, en el cas dels objectius secundaris es deuran substituir els p-valors per l’estimació dels efectes o associacions i els intervals de confiança al 95% quan no s’hagin especificat mètodes d’ajust per múltiples comparacions al protocol de l’estudi o al pla d’anàlisi estadístic. Aquesta decisió s’ha pres amb l’objectiu d’evitar l’augment desproporcionat de l’error de tipus I. Aquest error de tipus I, habitualment determinat en 5%, es refereix a la probabilitat de concloure que la hipòtesi nul·la és falsa quan en realitat és certa. Quan es publiquen p-valors per a múltiples variables resposta sense ajustar per múltiples comparacions, la probabilitat de declarar que existeix un efecte o associació quan en realitat no existeix és molt més alta que 5%.

  2. Donat que els p-valors no proveeixen informació sobre la grandària de l’efecte o associació, la inferència sobre els efectes o associacions deu anar sempre resumida a través de l’estimació dels efectes i del seu respectiu interval de confiança al 95%. Els p-valors solament indiquen el nivell d’incompatibilitat de les dades observades donada una hipòtesi nul·la especificada.

  3. La inflació dels p-valors deguda a les múltiples comparacions també succeeix quan es duen a terme múltiples anàlisis, tot i que aquests no es mostren finalment a l’article. D’aquesta manera, cal prendre dues mesures: la primera, detallar i especificar totes les hipòtesis plantejades i analitzades, i la segona, especificar al pla d’anàlisi estadístic el mètode que s’utilitzarà per a controlar l’error de tipus I.

The New England Journal of Medicine declara que malgrat les dificultats que plantegen els p-valors, no creuen que aquests deuen ser completament eliminats, però si que deuen ser interpretats i tractats de manera cautelosa, sempre prestant atenció al disseny de l’estudi i al pla d’anàlisi estadístic, a les anàlisis realitzades, i al control de l’error de tipus I.

 

Bibliografia
(1) Harrington, D., D’Agostino Sr, R. B., Gatsonis, C., Hogan, J. W., Hunter, D. J., Normand, S. L. T., … & Hamel, M. B. (2019). New Guidelines for Statistical Reporting in the Journal.
(2) Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.