Estadística avanzada MAT-G10-DBA5
Grado 10 · Matemáticas
La estadística avanzada profundiza en los modelos probabilísticos que describen variables cuantitativas. Las nociones de centralización y dispersión se formalizan ahora con parámetros poblacionales articulados con el modelo continuo más importante: la distribución normal.
La media poblacional, denotada μ, mide la tendencia central de toda la población. La desviación estándar, σ, mide la dispersión típica de los datos respecto a la media. La varianza, σ², es el cuadrado de la desviación estándar y se calcula como el promedio de los cuadrados de las desviaciones respecto a la media. Por construcción, σ y σ² nunca toman valores negativos.
La distribución normal, denotada N(μ, σ²), es un modelo continuo con forma de campana simétrica alrededor de μ y dispersión controlada por σ. Cuando μ = 0 y σ = 1, la distribución se denomina normal estándar, N(0, 1). Muchas variables reales —alturas, errores de medición, calificaciones a gran escala— se ajustan a este modelo por efecto del teorema central del límite.
La regla empírica describe cómo se reparten los datos en una distribución normal: aproximadamente el 68% cae dentro de [μ − σ, μ + σ]; aproximadamente el 95% cae dentro de [μ − 2σ, μ + 2σ]; y aproximadamente el 99.7% cae dentro de [μ − 3σ, μ + 3σ]. Esta regla suministra una primera estimación de probabilidades sin tablas.
Como ejemplo, supóngase que las alturas de los estudiantes de décimo en una región siguen N(165, 64) en centímetros: μ = 165, σ² = 64 y σ = 8. Por la regla empírica, aproximadamente el 68% mide entre 157 y 173 cm; aproximadamente el 95% mide entre 149 y 181 cm; y aproximadamente el 99.7% mide entre 141 y 189 cm.
El coeficiente de correlación, denotado r, mide la fuerza y dirección de la asociación lineal entre dos variables cuantitativas, con rango −1 ≤ r ≤ 1: valores cerca de +1 indican correlación positiva fuerte; valores cerca de −1 indican correlación negativa fuerte; valores cercanos a 0 indican ausencia de asociación lineal. El diagrama de dispersión lo ilustra gráficamente y la recta de regresión resume la tendencia lineal.
Conviene distinguir la correlación de la causalidad. Un r elevado revela que dos variables varían conjuntamente, pero no demuestra que una sea causa de la otra; pueden existir variables ocultas. La verificación causal exige diseños experimentales que la estadística descriptiva por sí sola no provee.
