Compartiendo maneras de ilustrar los conceptos estadísticos complejos

Los mejores profesores de introducción a la estadística saben que el simple hecho de memorizar la forma de realizar los procedimientos no es suficiente: los estudiantes deben entender qué significan realmente sus resultados. 

A lo largo de 15 años de docencia, la Dra. Julie Belock, una profesora de Salem State University, ha desarrollado varios proyectos estudiantiles que exploran el sentido detrás de las técnicas estadísticas. En una ponencia que presentó durante la XXV Conferencia Internacional Anual sobre Tecnología en Matemáticas Universitarias, Belock aborda tres de los conceptos que los estudiantes consideran más complicados, explicándolos con Minitab Statistical Software.

“Utilizo el software de Minitab en estos proyectos por su facilidad de uso y porque produce gráficas excelentes, que ayudan a los estudiantes a interpretar y presentar sus trabajos”, escribe Belock.

Intervalos de confianza

En estadística, estimamos las características de las poblaciones analizando un subconjunto de individuos, lo que se conoce como una muestra. Pero cuando se utilizan datos muestrales para estimar un parámetro poblacional, como la media, es muy poco probable que se calcule con exactitud el parámetro real. Un intervalo de confianza es un rango en que es probable que se halla ese valor real, de manera que aunque no se puede proporcionar el valor exacto, se puede decir con confianza que la media real se encuentra dentro de ese rango.

Los intervalos de confianza se miden según sus niveles de confianza, y es esto lo que suele confundir a los estudiantes. Con frecuencia, ellos presuponen que un intervalo de confianza de 90% tiene una probabilidad de 90% de incluir la media real. Sin embargo, lo que el nivel de confianza realmente indica es la probabilidad de seleccionar aleatoriamente una muestra cuyo intervalo de confianza contenga el parámetro real. “Una vez que se calcula un intervalo de una muestra en particular, este o contiene la media real o no la contiene”, explica Belock. “¡Ya no hay nada aleatoria al respecto!”.

Los alumnos de Belock comprueban esto por sí mismos al utilizar Minitab para simular un gran número de muestras aleatorias y generar intervalos de confianza para cada una. Cuando calculan el porcentaje de intervalos de confianza que contienen el parámetro verdadero, los estudiantes se percatan de que este porcentaje se aproxima al nivel de confianza.

gráfica de efectos principales

En el ejemplo anterior, los estudiantes pueden ver que cada uno de estos intervalos de confianza de 90% o bien incluye la media real o no la incluye y que 17 de los 20 (aproximadamente el 90%) sí contienen la media real de 100.

Valores p

Belock utiliza una estrategia similar para ilustrar el concepto de valor p, la probabilidad de obtener un resultado al menos tan extremo como el de los datos de su muestra simplemente en virtud de las probabilidades. La profesora utiliza un ejemplo en el cual el 39% de los estudiantes de una muestra dice que irá directamente a una escuela de postgrado, mientras que datos anteriores revelan que aproximadamente el 35% de todos los estudiantes va directamente a la escuela de postgrado. ¿Indica esta muestra que la proporción de estudiantes que va directamente a la escuela de postgrado ha aumentado? 

Una prueba Z de 1 proporción calculará el valor p del resultado de 39% de la muestra. Pero primero, los estudiantes de Belock intentan obtener el valor p de otra manera. Generan 100 muestras aleatorias simuladas a partir de una población en la que el 35% de los estudiantes va directamente a la escuela de postgrado. Luego determinan qué porcentaje de esas muestras da como resultado valores al menos tan altos como 39%. Cuando los estudiantes comparan esta frecuencia con un valor p generado usando la prueba de 1 proporción, notan que el resultado es muy similar, y logran entender con claridad lo que representa el valor p.

Diagnósticos de regresión

Una ecuación de regresión modela la relación entre dos o más variables. Una gráfica de dispersión grafica las variables de regresión una en función de la otra, de manera que se pueda visualizar la correlación. Una gráfica de residuos es una herramienta diagnóstica para un análisis de regresión que permite visualizar lacantidad de la variación de los datos que la regresión no puede explicar, una idea que suele ser difícil de entender para los estudiantes. 

Una gráfica de dispersión muestra un patrón si los datos están correlacionados. Pero una gráfica de residuos no mostrará un patrón si el modelo de regresión provee un ajuste adecuado. Para ver cómo funciona esto, los alumnos de Belock utilizan datos reales sobre los osos (tomados de un conjunto incluido en la carpeta de datos de muestra de Minitab) para crear varias gráficas de dispersión. Algunas de las gráficas muestran una fuerte correlación lineal, mientras otras no. Cuando los estudiantes hacen regresiones lineales con datos que no están correlacionados, el resultado es una gráfica de residuos “mala”, lo que indica que la regresión provee un ajuste deficiente. 

gráfica de contorno de disolución

La regresión que se muestra en la gráfica de línea ajustada de arriba es un ajuste deficiente y produce una gráfica de residuos con un patrón claramente curvo.

Después, los estudiantes hacen la regresión con variables que están correlacionadas y modifican su análisis para refinar aún más el ajuste de la regresión. A medida que lo hacen, todos los patrones en los residuos desaparecen y terminan con una gráfica de residuos aleatoriamente dispersa que indica un ajuste adecuado.

gráfica de contorno de disolución

Una regresión que se ajusta adecuadamente a los datos produce una gráfica de residuos sin patrones como la que se muestra arriba.

Conclusión

Estos ejercicios han demostrado ser útiles para los estudiantes de todos los niveles, destaca Belock. Los estudiantes se mantienen activamente involucrados en el proceso de aprendizaje debido al enfoque práctico, y al usar Minitab para los cálculos y las gráficas, los estudiantes pueden concentrarse en los conceptos.

“Minitab funciona mejor que otros programas para estas actividades en particular debido a varios factores”, escribe Belock, “entre ellos la facilidad de uso, las gráficas claras y las opciones adecuadas, como la capacidad de generar y mostrar múltiples intervalos de confianza simultáneamente”.

Las lecciones de Belock, con instrucciones paso a paso, se detallan en “Addressing Challenging Statistical Topics with Minitab” (Abordando temas estadísticos complejos con Minitab),una ponencia presentada en la XXV Conferencia Internacional Anual sobre Tecnología en Matemáticas Universitarias.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado. Leer nuestra política