Durant les últimes dècades la tecnologia ha experimentat un avanç fins ara desconegut, i per tant, inaudit. D’especial menció, les tecnologies òmiques del camp de la biomedicina, han incrementat de manera desmesurada la capacitat per a crear informació a un ritme vertiginós, generant com a resultat una quantitat ingent de dades. Les dades són font d’informació, i la informació és font de coneixement, avanç i desenvolupament.

Per aquest motiu, tan important com tenir la capacitat d’obtenir les dades, ho és la capacitat per a extraure conclusions informatives, correctes, reproduïbles i fidedignes. I tot això solament és possible mitjançant l’aplicació de la metodologia estadística més adequada a les dades de l’experiment. Al taller d’Anàlisi de dades òmiques presentem diverses alternatives d’anàlisi per a aquells conjunts de dades que presenten un molt elevat nombre de variables.

Començarem la matèria repassant els mètodes clàssics d’anàlisi que solen utilitzar-se per a contrastar les diferències entre grups quan analitzem dades òmiques. Aquests mètodes estan basats en metodologia desenvolupada fa més de 100 anys en la major part dels casos. És més que evident que, en aquells anys, els objectius i els tipus de dades eren molt diferents de les dades amb què tractem actualment amb les tecnologies òmiques. Aquells tests no es desenvoluparen amb la finalitat d’aplicar-los a aquests tipus de dades, perquè per aquells temps, no existien. El principal problema d’utilitzar el test t, ANOVA i mètodes similars és l’increment de la tassa de falsos positius, a conseqüència de la realització de nombrosos contrastaments d’hipòtesis. No obstant això, som capaços de corregir aquest increment a través de mètodes com Bonferroni o False Discovery Rate, però també comporta un cost: un augment de la tassa de falsos negatius, ja que som molt més restrictius a l’hora de determinar quines diferències considerem estadísticament significatives. Si a tot això li afegim una mostra considerablement petita, com és habitual en la gran part dels experiments amb dades òmiques, i a més, tenim en compte que aquestes anàlisis solament permeten una interpretació molt limitada de la informació proporcionada donada la impossibilitat d’integrar els resultats, acabarem per buscar alternatives d’anàlisi més apropiades per a un aprofitament òptim de les dades.

Tot seguit, continuarem la sessió presentant els ja coneguts models de regressió lineal i regressió logística (multivariables), així com altres models de regressió com la binomial negativa (per a recomptes), la regressió beta (per a dades de metilació), la regressió ordinal (per a escales), la multinomial (per a variables nominals de més de dos grups) o la Gamma (distribucions estrictament positives). Finalitzàrem aquesta primera part del taller amb la realització pràctica d’un exemple de joguet.

A continuació, exploràrem els mètodes de projecció com l’Anàlisi de Components Principals o Partial Least Squares. Finalitzàrem el taller entrant amb suficientment detall, tant de manera teòrica com pràctica, en els mètodes de penalització (Ridge Regression, Lasso i Elastic Net), Random Forest, i en diverses opcions de validació interna (Holdout, Cross-validation i Bootstrapping).