Estadística avanzada MAT-G10-DBA5

Grado 10 · Matemáticas


La estadística avanzada profundiza en los modelos probabilísticos que describen variables cuantitativas. Las nociones de centralización y dispersión se formalizan ahora con parámetros poblacionales articulados con el modelo continuo más importante: la distribución normal.

La media poblacional, denotada μ, mide la tendencia central de toda la población. La desviación estándar, σ, mide la dispersión típica de los datos respecto a la media. La varianza, σ², es el cuadrado de la desviación estándar y se calcula como el promedio de los cuadrados de las desviaciones respecto a la media. Por construcción, σ y σ² nunca toman valores negativos.

La distribución normal, denotada N(μ, σ²), es un modelo continuo con forma de campana simétrica alrededor de μ y dispersión controlada por σ. Cuando μ = 0 y σ = 1, la distribución se denomina normal estándar, N(0, 1). Muchas variables reales —alturas, errores de medición, calificaciones a gran escala— se ajustan a este modelo por efecto del teorema central del límite.

La regla empírica describe cómo se reparten los datos en una distribución normal: aproximadamente el 68% cae dentro de [μ − σ, μ + σ]; aproximadamente el 95% cae dentro de [μ − 2σ, μ + 2σ]; y aproximadamente el 99.7% cae dentro de [μ − 3σ, μ + 3σ]. Esta regla suministra una primera estimación de probabilidades sin tablas.

Como ejemplo, supóngase que las alturas de los estudiantes de décimo en una región siguen N(165, 64) en centímetros: μ = 165, σ² = 64 y σ = 8. Por la regla empírica, aproximadamente el 68% mide entre 157 y 173 cm; aproximadamente el 95% mide entre 149 y 181 cm; y aproximadamente el 99.7% mide entre 141 y 189 cm.

El coeficiente de correlación, denotado r, mide la fuerza y dirección de la asociación lineal entre dos variables cuantitativas, con rango −1 ≤ r ≤ 1: valores cerca de +1 indican correlación positiva fuerte; valores cerca de −1 indican correlación negativa fuerte; valores cercanos a 0 indican ausencia de asociación lineal. El diagrama de dispersión lo ilustra gráficamente y la recta de regresión resume la tendencia lineal.

Conviene distinguir la correlación de la causalidad. Un r elevado revela que dos variables varían conjuntamente, pero no demuestra que una sea causa de la otra; pueden existir variables ocultas. La verificación causal exige diseños experimentales que la estadística descriptiva por sí sola no provee.

μ − 3σ μ − 2σ μ − σ μ = 0 μ + σ μ + 2σ μ + 3σ 68% 95% 99.7% N(0, 1)

Práctica

Si las puntuaciones de un examen siguen una distribución normal con μ = 75 y σ = 10, ¿qué porcentaje de estudiantes obtuvo entre 65 y 85? ¿Y entre 55 y 95? Aplica la regla empírica. El intervalo [65, 85] coincide con [μ − σ, μ + σ]; por la regla empírica, aproximadamente el 68% queda en ese rango. El intervalo [55, 95] coincide con [μ − 2σ, μ + 2σ]; por la regla empírica, aproximadamente el 95% queda en ese rango.
Argumenta la diferencia entre correlación y causalidad. Si dos variables tienen r = 0.95, ¿puede afirmarse que una causa a la otra? Un coeficiente r = 0.95 indica correlación lineal positiva fuerte: las variables varían conjuntamente cerca de una recta de pendiente positiva. Pero la correlación no implica causalidad; pueden existir variables ocultas que influyan sobre ambas, o el orden causal puede no estar resuelto. La verificación exige diseños experimentales.
Según la curva normal estándar de arriba, identifica el porcentaje aproximado de datos entre μ − σ y μ + 2σ. El intervalo [μ − σ, μ + σ] aporta el 68%, repartido por simetría en 34% por mitad. La franja [μ + σ, μ + 2σ] aporta (95% − 68%)/2 = 13.5%. La suma 34% + 34% + 13.5% = 81.5% aproxima la proporción buscada.