Estadística avanzada MAT-G10-DBA5

Grado 10 · Matemáticas

La estadística avanzada profundiza en los modelos probabilísticos que describen variables cuantitativas. Las nociones de centralización y dispersión se formalizan ahora con parámetros poblacionales articulados con el modelo continuo más importante: la distribución normal.

La media poblacional, denotada μ, mide la tendencia central de toda la población. La desviación estándar, σ, mide la dispersión típica de los datos respecto a la media. La varianza, σ², es el cuadrado de la desviación estándar y se calcula como el promedio de los cuadrados de las desviaciones respecto a la media. Por construcción, σ y σ² nunca toman valores negativos.

La distribución normal, denotada N(μ, σ²), es un modelo continuo con forma de campana simétrica alrededor de μ y dispersión controlada por σ. Cuando μ = 0 y σ = 1, la distribución se denomina normal estándar, N(0, 1). Muchas variables reales —alturas, errores de medición, calificaciones a gran escala— se ajustan a este modelo por efecto del teorema central del límite.

La regla empírica describe cómo se reparten los datos en una distribución normal: aproximadamente el 68% cae dentro de [μ − σ, μ + σ]; aproximadamente el 95% cae dentro de [μ − 2σ, μ + 2σ]; y aproximadamente el 99.7% cae dentro de [μ − 3σ, μ + 3σ]. Esta regla suministra una primera estimación de probabilidades sin tablas.

Como ejemplo, supóngase que las alturas de los estudiantes de décimo en una región siguen N(165, 64) en centímetros: μ = 165, σ² = 64 y σ = 8. Por la regla empírica, aproximadamente el 68% mide entre 157 y 173 cm; aproximadamente el 95% mide entre 149 y 181 cm; y aproximadamente el 99.7% mide entre 141 y 189 cm.

El coeficiente de correlación, denotado r, mide la fuerza y dirección de la asociación lineal entre dos variables cuantitativas, con rango −1 ≤ r ≤ 1: valores cerca de +1 indican correlación positiva fuerte; valores cerca de −1 indican correlación negativa fuerte; valores cercanos a 0 indican ausencia de asociación lineal. El diagrama de dispersión lo ilustra gráficamente y la recta de regresión resume la tendencia lineal.

Conviene distinguir la correlación de la causalidad. Un r elevado revela que dos variables varían conjuntamente, pero no demuestra que una sea causa de la otra; pueden existir variables ocultas. La verificación causal exige diseños experimentales que la estadística descriptiva por sí sola no provee.

Práctica

Si las puntuaciones de un examen siguen una distribución normal con μ = 75 y σ = 10, ¿qué porcentaje de estudiantes obtuvo entre 65 y 85? ¿Y entre 55 y 95? Aplica la regla empírica.

El intervalo [65, 85] coincide con [μ − σ, μ + σ]; por la regla empírica, aproximadamente el 68% queda en ese rango. El intervalo [55, 95] coincide con [μ − 2σ, μ + 2σ]; por la regla empírica, aproximadamente el 95% queda en ese rango.

Argumenta la diferencia entre correlación y causalidad. Si dos variables tienen r = 0.95, ¿puede afirmarse que una causa a la otra?

Un coeficiente r = 0.95 indica correlación lineal positiva fuerte: las variables varían conjuntamente cerca de una recta de pendiente positiva. Pero la correlación no implica causalidad; pueden existir variables ocultas que influyan sobre ambas, o el orden causal puede no estar resuelto. La verificación exige diseños experimentales.

Según la curva normal estándar de arriba, identifica el porcentaje aproximado de datos entre μ − σ y μ + 2σ.

El intervalo [μ − σ, μ + σ] aporta el 68%, repartido por simetría en 34% por mitad. La franja [μ + σ, μ + 2σ] aporta (95% − 68%)/2 = 13.5%. La suma 34% + 34% + 13.5% = 81.5% aproxima la proporción buscada.

← Cálculo diferencial intro Límites →