Estadística inferencial MAT-G9-DBA5

Grado 9 · Matemáticas


La estadística inferencial estudia cómo extraer conclusiones acerca de una población —el conjunto total de individuos sobre los que se investiga— a partir de una muestra, un subconjunto representativo. Su propósito complementa al de la estadística descriptiva: mientras la descriptiva organiza y resume datos observados, la inferencial generaliza a partir de ellos.

La distinción entre parámetro y estadístico es central. Un parámetro describe una característica de la población completa y se denota con letras griegas: μ para la media poblacional, σ para la desviación estándar, p para una proporción. Un estadístico describe la misma característica sobre la muestra y se denota con letras latinas: x̄ para la media muestral, s para la desviación estándar, p̂ para la proporción muestral. El estadístico estima al parámetro; la calidad de la estimación depende del tamaño de la muestra y de la ausencia de sesgo.

La inferencia consiste en usar el estadístico calculado para hacer afirmaciones cuantitativas sobre el parámetro desconocido. Un ejemplo cotidiano es la encuesta de intención de voto: se entrevista a una muestra y, a partir del estadístico observado, se infiere el comportamiento del electorado completo. La inferencia incluye además un margen de error y un nivel de confianza, conceptos cuyo tratamiento formal se desarrolla en grado décimo y once.

El muestreo aleatorio asegura que cada individuo tenga la misma probabilidad de ser seleccionado. Cuando este principio se viola aparece el sesgo, una desviación sistemática que conduce a inferencias incorrectas. El sesgo de selección ocurre cuando el método favorece a un grupo (por ejemplo, encuestar solo a personas con teléfono fijo); el sesgo de no respuesta ocurre cuando ciertos participantes elegidos no responden y este grupo difiere sistemáticamente del resto.

Los estudios se clasifican en observacionales —los datos se recogen sin intervenir— y experimentales —se asigna a los participantes a condiciones controladas. Como ejemplo, si en una encuesta nacional de 1200 personas el 38 % declara usar transporte público a diario, la población son los habitantes del país, la muestra son las 1200 personas encuestadas y el estadístico calculado es p̂ = 0.38.

A B C D E categoría frec. muestra (n = 200) población (N = 10000)

Práctica

En una encuesta nacional de 1200 colombianos, el 38 % afirma usar transporte público a diario. Identifica: (a) la población; (b) la muestra; (c) el parámetro de interés; (d) el estadístico calculado. (a) La población es el conjunto de habitantes adultos de Colombia. (b) La muestra son las 1200 personas encuestadas. (c) El parámetro de interés es la proporción real p de habitantes que usan transporte público a diario en todo el país. (d) El estadístico calculado es la proporción muestral p̂ = 0.38, que se utiliza como estimación de p.
Explica por qué una encuesta realizada solo en Bogotá NO produce un estadístico válido para inferir el porcentaje de uso de transporte público en toda Colombia. ¿Qué tipo de sesgo aparece? Bogotá tiene una infraestructura de transporte público —TransMilenio, SITP— que no es representativa del resto del país; muchas zonas rurales carecen de sistemas comparables. Aparece sesgo de selección: la muestra no refleja la diversidad nacional y la estimación sobrestima la proporción real.
Según el gráfico de arriba que compara la muestra (n = 200) con la población hipotética, ¿la muestra parece representativa? ¿Qué característica de la distribución muestral apoya la conclusión? Las barras azules de la muestra y los contornos naranja de la población siguen la misma forma sobre las cinco categorías, con máximo en C y caídas simétricas hacia los extremos. La coincidencia de forma sugiere que la muestra es representativa y los estadísticos estiman razonablemente los parámetros poblacionales.