Todo análisis experimental viene empujado por el interés científico de conseguir información sobre la población, una población caracterizada por un conjunto de medidas de interés. Sin embargo, en la mayoría de situaciones es imposible recoger toda la información acerca de una población, porque supone un altísimo coste económico o simplemente porque es una tarea inabarcable debido al tiempo que conllevaría. Por este motivo, lo más sensato es considerar un subconjunto lo suficientemente representativo de la población, llamado muestra. Una muestra es cualquier subconjunto de medidas seleccionadas de la población global. La finalidad de la estadística es hacer inferencia acerca de la población basada en la información contenida en la muestra.

El objetivo de este curso fue introducir nociones primarias de estadística para poder entender los cimientos del análisis de datos. Es primordial la comprensión de determinados conceptos para llevar a cabo los análisis en investigación, como por ejemplo ser capaz de discernir entre la estadística descriptiva y la estadística inferencial, comprender la diferencia entre estadístico y parámetro, determinar el carácter de las variables en estudio, así como saber plantear y determinar las hipótesis oportunas para el adecuado análisis del experimento.

Estas sesiones están dirigidas a una amplia pluralidad de perfiles profesionales, tanto para estudiantes, investigadores y empleados de empresas de I+D+i. Este curso está especialmente preparado para todos aquellos profesionales que necesitan nociones de estadística en su campo de trabajo, independientemente de si ya han recibido formación especializada en el campo, o si no están familiarizados con la estadística pero sienten curiosidad por aprender a utilizarla. Cuatro sesiones son la clave para emprender un viaje hacia la ciencia de la estadística y aprender a ser autosuficiente y crítico.

 

Sesión 1. Introducción a la estadística. Conceptos básicos

Esta sesión del curso comenzó tratando la importancia de la ciencia estadística en el campo de la investigación, haciendo especial hincapié en la colaboración del Data Scientist y el Investigador en todas las fases de un proyecto de investigación. Existen múltiples conceptos clave que es fundamental tener claro en la fase inicial de cualquier proyecto. En esta sesión se explicaron diversas nociones como: la diferencia entre muestra y población, los tipos de datos, los tipos de variables, la elección del tamaño muestral y los tipos de error que podemos cometer en un estudio.

No menos importante que los conceptos estadísticos y el conocimiento, es la habilidad para reflejar correctamente la información en una base de datos, pues es el medio que nos permite un óptimo aprovechamiento de la investigación. Por eso, consideramos relevante dar una amplia serie de instrucciones y consejos para la creación de bases de datos en función de las características de nuestro estudio, como podrían ser la presencia de datos faltantes o la aplicación de reglas de validación.

Por último, terminamos la sesión situando la fase del análisis de datos en el flujo de trabajo de una adecuada planificación de la investigación.

(sesion1_Tauanalytics.pptx) – (Pendiente)

 

Sesión 2. Estadística descriptiva con R-commander

La segunda sesión del curso constó de dos partes, una primera teórica y una segunda parte práctica. En la primera parte, profundizamos en las distintas medidas de tendencia central y dispersión de la estadística descriptiva a través de diversos ejemplos. Asimismo, hablamos de las medidas descriptivas de la distribución Normal y de una gran variedad de gráficos descriptivos que podemos utilizar, tanto para describir variables continuas como categóricas. Por ejemplo: gráficos o diagramas de dispersión, tablas de contingencia, diagramas de barras, diagramas de cajas, gráficos de densidad condicional y heatmaps.

En la segunda parte de la sesión, introducimos el software de código libre R. Este es el lenguaje de programación más utilizado en el campo del análisis estadístico y presenta múltiples ventajas como su continua evolución y su potente versatilidad. Continuamos la parte práctica con la instalación del software y de diversos paquetes como R-commander y clickR. El primero nos ofrece una interfaz gráfica, ganando de esta manera en facilidad. El segundo contiene una colección de funciones que permiten la detección de inconsistencias en las bases de datos y su posterior corrección, así como diversas funciones descriptivas.

Aquí dejamos la presentación.

(sesion2_Tauanalytics.pptx) – (Pendiente)

 

Sesión 3. Conceptos de estadística inferencial

Cuando se lleva a cabo un experimento en el contexto de la investigación, habitualmente se formula una hipótesis inicial que se pretende contrastar. En esta sesión nos centramos en dos conceptos fundamentales de la inferencia estadística como son el contraste de hipótesis y los intervalos de confianza. A través de múltiples ejemplos, demostramos la importancia que tienen los parámetros de la fórmula del tamaño muestral en el contraste de hipótesis y los intervalos de confianza.

También, antes de comenzar la parte práctica en R donde aplicamos todo lo aprendido, hablamos sobre la normalidad de los datos, las variables ocultas y las peligrosas comparaciones múltiples (y como afrontarlas).

(sesion3_Tauanalytics.pptx)

 

Sesión 4. Modelos lineales generalizados

La última sesión se centró en la aplicación e interpretación de los modelos de regresión lineal y regresión logística, tanto univariables como multivariables. Vimos cómo los softwares estadísticos tratan las variables categóricas de un modelo y prestamos especial atención a la explicación e interpretación de las interacciones entre variables. Por último, antes de pasar a la práctica en R-commander con diversas bases de datos de ejemplo, estudiamos las asunciones que los modelos lineales deben cumplir, y cómo comprobarlas antes de dar por válidos los resultados.

(sesion4_Tauanalytics.pptx)