New Guidelines for Statistical Reporting in the New England Journal of Medicine

El pasado 18 de julio de 2019, The New England Journal of Medicine publicó una editorial en la que clarificaban y expandían las nuevas guías estadísticas para los ensayos clínicos y los estudios observacionales (1). Estas nuevas directrices surgen como consecuencia y necesidad de la editorial que la American Statistical Association (en adelante ASA) publicó en 2016: The ASA’s statement on p-values: context, process, and purpose (2). En esta editorial se ponía de manifiesto la alarmante preocupación por parte del ASA acerca del uso incorrecto y la mala interpretación de los p-valores.

El p-valor es una medida estadística que puede resultar útil, siempre y cuando las técnicas estadísticas sean elegidas apropiadamente, se lleven a cabo los análisis estadísticos de manera adecuada, y se realice una correcta interpretación de los resultados estadísticos. Por definición, el p-valor no es otra cosa que la probabilidad de obtener un resultado (efecto o asociación; por ejemplo, la diferencia de medias entre dos grupos) mayor o igual que el observado dada una hipótesis nula verdadera. En otras palabras, mide la incompatibilidad de nuestros datos con una hipótesis nula especificada.

Sin embargo, el desarrollo de la investigación científica y el incremento de enormes y complejos conjuntos de datos en los últimos años, ha ampliado el alcance de aplicación de los métodos estadísticos. Y aunque esto significa que la ciencia progresa, también es verdad que se ha despertado cierta preocupación sobre las conclusiones halladas en los resultados de las investigaciones. Estas preocupantes conclusiones pueden derivar de una mala práctica estadística o una incorrecta interpretación de los resultados, que dan lugar a una falta de reproducibilidad y replicabilidad de las conclusiones científicas.

Parte de estas alarmantes conclusiones las refleja el ASA en un listado de principios que pretenden ayudar a mejorar la interpretación en la comunidad científica y estadística.

1) Los p-valores proveen un enfoque para resumir la incompatibilidad entre un particular conjunto de datos y una hipótesis propuesta, habitualmente indicando una ausencia de efecto o asociación en esta hipótesis nula. Cuanto más pequeño sea el p-valor, mayor es la incompatibilidad o mayor es la evidencia en contra de la hipótesis nula.

2) El p-valor no es una medida de probabilidad de que la hipótesis estudiada es cierta, o la probabilidad de que los datos fueron producidos de manera aleatoria.

3) Las conclusiones científicas y la toma de decisiones no deben estar basados únicamente en si un p-valor sobrepasa un umbral determinado. Esto puede desencadenar convicciones erróneas y una desastrosa toma de decisiones. Las conclusiones no se vuelven “ciertas” en un lado del umbral y “falsas” en el otro. Se deben tener en cuenta muchos otros factores del contexto que juegan un papel fundamental en las inferencias científicas, como pueden ser: el diseño del estudio, la calidad de las medidas, las evidencias externas acerca del fenómeno en estudio y la validez de las asunciones que sustentan los análisis.

4) Una inferencia adecuada requiere de una completa transparencia e información de los análisis. Los análisis relacionados y los p-valores obtenidos no deben ser mostrados de forma selectiva. Llevar a cabo múltiples análisis y mostrar solamente aquellos p-valores inferiores a 0.05, hace que los p-valores que mostremos sean esencialmente ininterpretables. Esto es lo que se conoce como inferencia selectiva o “p-hacking”, y conlleva un falso exceso de significancia estadística en los resultados que terminan por ser publicados en la literatura científica. Se debe evitar radicalmente esta práctica. Las conclusiones científicas válidas basadas en p-valores deben ir siempre acompañadas de otras estimaciones como los efectos, intervalos de confianza y el número de análisis que se han llevado a cabo, y cómo fueron esos análisis con p-valores seleccionados para su publicación.

5) Un p-valor, o la significancia estadística, no mide el tamaño del efecto o la importancia del resultado. P-valores pequeños no implican necesariamente la presencia de un efecto grande o relevante, así como un p-valor alto no implica una falta de importancia o de efecto. Cualquier efecto, independientemente de lo pequeño que sea, puede producir un p-valor muy pequeño si el tamaño muestral es suficientemente grande.

6) Por si solo, un p-valor no es una buena medida de evidencia en relación con un modelo o hipótesis. La comunidad científica debe reconocer que un p-valor sin contexto u otras evidencias prove una información limitada. Por tanto, el análisis de datos no debería finalizar con el cálculo de un p-valor cuando existen otros enfoques apropiados y factibles.
Por todos los usos incorrectos y las ideas equivocadas que se han presentado en cuanto a los p-valores, muchos estadísticos prefieren suplementar o incluso sustituir los p-valores por otros enfoques, como por ejemplo: intervalos de confianza, credibilidad o predicción, métodos bayesianos, o medidas alternativas de evidencia como las ratios de verosimilitud o el Factor Bayes.

El ASA concluye la editorial destacando que una buena práctica estadística, como componente esencial de una buena práctica científica, enfatiza los principios de un buen diseño de estudios, el cálculo de una gran cantidad de medidas numéricas y gráficas que resumen los datos y que ayudan a entender el fenómeno de estudio, y una completa, adecuada y lógica interpretación de los resultados en contexto. Por tanto, ningún valor en si mismo como el p-valor, puede sustituir el razonamiento científico.

Dada esta comunicación por parte de la American Statistical Association, que por primera vez se ha involucrado en este tema que lleva décadas preocupando a la comunidad estadística, The New England Journal of Medicine decidió tomar cartas en el asunto y en julio de 2019 publicó “New Guidelines for Statistical Reporting in the Journal”.

La editorial publicada se dirige a los autores y lectores de la propia revista diciendo que, es posible que se hayan percatado de la prudente y parsimoniosa publicación de p-valores en sus artículos de investigación durante el último año. Y es que dadas las últimas publicaciones del ASA, la revista ha decidido implementar ciertas medidas en sus Guidelines para limitar el uso de p-valores. Las nuevas guidelines discuten algunos aspectos como los que se muestran a continuación:

1) Limitar el uso de p-valores solamente a los objetivos primarios. Es decir, en el caso de los objetivos secundarios se deberán sustituir los p-valores por la estimación de los efectos o asociación y los intervalos de confianza al 95% cuando no se hayan especificado métodos de ajuste por múltiples comparaciones en el protocolo del estudio ni en el plan de análisis estadístico.

Esta decisión se ha tomado con el objetivo de evitar el aumento desproporcionado del error de tipo I. Este error de tipo I, habitualmente fijado en 5%, se refiere a la probabilidad de concluir que la hipótesis nula es falsa cuando en realidad es cierta. Cuando se publican p-valores para múltiples variables respuesta sin ajustar por múltiples comparaciones, la probabilidad de declarar que existe un efecto o asociación cuando en realidad no existe es mucho más alto que 5%.

2) Dado que pues los p-valores no proveen información sobre el tamaño de efecto o asociación, la inferencia sobre los efectos o asociaciones siempre debe ir resumida a través de la estimación de los efectos y de su respectivo intervalo de confianza al 95%. Los p-valores solamente indican el nivel de incompatibilidad de los datos observados dada una hipótesis nula especificada.

3) La inflación de los p-valores debido a las múltiples comparaciones también ocurre cuando se llevan a cabo múltiples análisis, aunque estos no se hayan mostrado finalmente en el artículo. De modo que hay que tomar dos medidas, la primera detallar y especificar todas las hipótesis planteadas y analizadas, y la segunda especificar en el plan de análisis estadístico el método a utilizar para controlar el error de tipo I.

The New England Journal of Medicine declara que a pesar de las dificultades que plantean los p-valores, no creen que éstos deban ser completamente eliminados, pero sí deben ser interpretados y tratados cautelosamente, siempre prestando atención al diseño del estudio y al plan de análisis estadístico, a los análisis realizados, y al control del error de tipo I.

Bibliografia
(1) Harrington, D., D’Agostino Sr, R. B., Gatsonis, C., Hogan, J. W., Hunter, D. J., Normand, S. L. T., … & Hamel, M. B. (2019). New Guidelines for Statistical Reporting in the Journal.
(2) Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.