Durante las últimas décadas la tecnología ha experimentado un avance hasta ahora desconocido, y por tanto, inaudito. Especialmente, en las tecnologías ómicas del campo biomédico, la capacidad para crear información crece a un ritmo vertiginoso, generando así una cantidad ingente de datos. Los datos son una fuente de información, y la información es fuente de conocimiento, avance y desarrollo.

Por este motivo, tan importante como tener la capacidad para obtener los datos, lo es el ser capaz de extraer conclusiones correctas, reproducibles y fidedignas. Y esto solamente es posible a través de la aplicación de la metodología estadística más adecuada a los datos del experimento. En el curso de Análisis de datos ómicos presentamos diversas alternativas de análisis para aquellos conjuntos de datos que presentan un muy elevado número de variables.

Comenzamos la materia pasando de puntillas por los métodos clásicos de análisis que se suelen utilizar para contrastar las diferencias entre grupos cuando analizamos datos ómicos. Estos métodos están basados en metodología desarrollada hace alrededor de 100 años en la mayoría de casos. Es obvio que, en esos tiempos, los objetivos y los tipos de datos eran muy distintos a los que nos encontramos hoy en día cuando tratamos con tecnologías ómicas. El principal problema de utilizar el test t, ANOVA y métodos similares es el incremento en la tasa de falsos positivos, como consecuencia de la realización de numerosos contrastes de hipótesis. Sin embargo, aunque somos capaces de corregir este incremento en la tasa de falsos positivos a través de métodos como Bonferroni o FDR, esta corrección conlleva un coste: un incremento en la tasa de falsos negativos, ya que somos mucho más restrictivos al determinar qué diferencias consideramos como significativas. Si a esto le sumamos un tamaño muestral escaso, como es habitual en la mayoría de datos ómicos, y además, le añadimos que estos análisis solamente permiten una interpretación muy limitada de la información proporcionada, terminaremos por buscar alternativas de análisis más apropiadas para un aprovechamiento óptimo de los datos.

De este modo, continuamos la sesión presentando los conocidos modelos de regresión lineal y regresión logística (multivariables), así como otros modelos de regresión como la binomial negativa, la regresión beta, la regresión ordinal, la multinomial o la Gamma. Finalizamos esta primera parte con la realización práctica de un ejemplo de juguete.

A continuación, exploramos los métodos de proyección como el Principal Component Analysis o el Partial Least Squares, y finalizamos el curso entrando suficientemente en detalle, tanto de manera teórica como práctica, en los métodos de penalización (Ridge Regression, Lasso y Elastic Net), Random Forest, y en diversas opciones de validación interna (Holdout, Validación cruzada y Bootstrapping).

(TallerDatosOmicos.pptx) – (Pendiente)