Tot anàlisi experimental es du a terme amb l’objectiu i interès científic d’aconseguir informació sobre la població, una població caracteritzada per un conjunt de mesures d’interès. No obstant això, en la majoria de les situacions és impossible recollir tota la informació sobre una població d’interès, perquè suposa un altíssim cost econòmic o senzillament perquè és una tasca inabastable a causa del temps que comportaria. Per aquest motiu, la decisió més sensata és considerar un subconjunt suficientment representatiu de la població, anomenat mostra. Una mostra és qualsevol subconjunt de mesures seleccionades que descriuen la població global. La finalitat de l’estadística és fer inferència sobre la població d’interès basada en la informació continguda en la mostra.

L’objectiu d’aquest curs fou introduir nocions elementals d’estadística per a poder entendre els fonaments de l’anàlisi de dades. És primordial la comprensió de determinats conceptes per a dur a terme les anàlisis en investigació, com per exemple ser capaç de destriar entre l’estadística descriptiva i l’estadística inferencial, comprendre la diferència entre estadístic i paràmetre, determinar el caràcter de les variables d’estudi segons funcionalitat o naturalesa, així com saber plantejar i determinar les hipòtesis adequades per al correcte i eficaç anàlisi de l’experiment.

Aquestes sessions estan dirigides a una àmplia pluralitat de perfils professionals, tant per a estudiants, investigadors i empleats d’empreses de R+D+i. Aquest curs està especialment preparat per a tots aquells professionals que necessiten nocions d’estadística en el seu camp de treball, independentment de si ja han rebut formació especialitzada en el camp, o si no estan familiaritzats amb l’estadística, però així i tot senten curiositat per aprendre a utilitzar-la com a ferramenta. Quatre sessions són la clau per a emprendre un viatge cap a la ciència de l’estadística, viatge en el qual s’aprèn a ser autosuficient i crític amb l’aplicació de la metodologia estadística.

 

Sesión 1. Introducción a l’estadística. Conceptes bàsics

Aquesta sessió del curs començà tractant la importància de la ciència estadística al camp de la investigació, recalcant especialment la col·laboració del Data Scientist i l’investigador en totes les fases d’un projecte d’investigació. Existeixen múltiples conceptes clau que és fonamental tenir clars ja en la fase inicial de qualsevol projecte. En aquesta sessió s’explicaren diverses nocions com: la diferència entre mostra i població, els tipus de dades, els tipus de variables, l’elecció de la grandària mostral i els tipus d’error que podem cometre en un estudi.

Tan important com els conceptes estadístics i el coneixement, és l’habilitat per a reflectir correctament la informació en una base de dades, ja que és el mitjà que ens permet un òptim aprofitament de la investigació. Per això, considerem rellevant donar una àmplia sèrie d’instruccions i consells per a la creació de bases de dades en funció de les característiques del nostre estudi, com poden ser la presència de dades faltant o l’aplicació de regles de validació.

Per últim, acabarem la sessió ubicant la fase d’anàlisi de dades en el flux de treball d’una adequada planificació de la investigació.

 

 

 

Sesión 2. Estadística descriptiva amb R-commander

La segona sessió del curs està formada per dues parts, una primera teòrica i una segona pràctica. A la primera part, profunditzarem amb les diferents mesures de tendència central i dispersió de l’estadística descriptiva a través de diversos exemples. Aixi mateix, parlarem sobre les mesures descriptives de la distribució Normal i d’una gran varietat de gràfics descriptius que podem utilitzar, tant per a descriure variables contínues com categòriques. Per exemple: gràfics o diagrames de dispersió, taules de contingència, diagrames de barres, diagrames de caixes, gràfics de densitat condicional i heatmaps.

A la segona part de la sessió, s’introduí el software de codi lliure R. Aquest és el llenguatge de programació més utilitzat al camp de l’anàlisi estadístic i presenta múltiples avantatges com la seva contínua evolució i la seva potent versatilitat. Tot seguit, continuarem la part pràctica amb la instal·lació del software i de diversos paquets com R-commander i clickR. El primer ofereix una interfase gràfica, guanyant d’aquesta manera en facilitat per a aquells més reticents a la programació. El segon paquet, clickR, conté una col·lecció de funcions que permeten la detecció d’inconsistències de forma i contingut en les variables de la base de dades, i la seva posterior correcció, així com diverses funcions descriptives.

Ací deixem la presentació.

 

 

 

Sesión 3. Conceptes d’estadística inferencial

Quan es du a terme un experiment dins del context de la investigació, habitualment es formula una hipòtesi inicial que avalua un efecte o associació d’interès que es pretén contrastar. En aquesta sessió ens centrem en dos conceptes fonamentals de la inferència estadística: el contrast d’hipòtesis i els intervals de confiança. Mitjançant múltiples exemples, demostrem la importància que tenen els paràmetres de la fórmula del càlcul de la grandària mostral en el contrastament d’hipòtesis i els intervals de confiança.

També, abans de començar la part pràctica d’R on aplicarem tot allò que havíem après, parlarem sobre la normalitat de les dades, les variables ocultes i els perills de les comparacions múltiples (i com enfrontar-los).

 

 

 

Sesión 4. Models lineals generalitzats

A l’última sessió ens centrarem en l’aplicació e interpretació dels models de regressió lineal i regressió logística, tant univariables com multivariables. Vegerem cóm els softwares estadístics tracten les variables categòriques d’un model i prestarem especial atenció a l’explicació i interpretació de les interaccions entre variables. Per últim, abans de continuar amb la pràctica amb R-commander utilitzant diferents bases de dades d’exemple, estudiarem les assumpcions que els models lineals deuen complir, i cóm comprovar-les abans d’acceptar com a vàlids els resultats.