3. Intervalo de Confianza I

Texto completo

(1)

INSTITUCIÓN UNIVERSITARIA ANTONIO JOSÉ CAMACHO Asignatura: Estadística Aplicada Tutor: Julián Andrés Tamayo Cardona

CUARTO ENCUENTRO Intervalos de Confianza

INTRODUCCIÓN

En no pocas ocasiones hacemos uso de la inferencia inductiva para sacar conclusiones de tipo general.

El científico realiza “unas pocas” experiencias y concluye a partir de ellas.

Cotidianamente hacemos generalizaciones, aún cuando somos conscientes de que existe algún contraejemplo (o excepción), así oímos decir: “las mujeres son más detallistas que los hombres”, quien lanza esa afirmación universal no ha hecho la comparación de todos los hombre con todas las mujeres, sin embargo tiene ese criterio basado en los casos particulares que ha conocido y a partir de ellos generaliza.

Generalizar con base en información correspondiente a unas cuantas observaciones conlleva a un riesgo, lo cual no hace inútil la generalización, siempre y cuando se asocie a la generalización un valor que cuantifique el riesgo de equivocarse.

Mientras que las conclusiones obtenidas con la inferencia inductiva son solo probables, las obtenidas con la inferencia deductiva son válidas absolutamente.

Veamos un caso típico de inferencia deductiva:

Proposición general: p ⇒ q : “siempre que ocurra p, necesariamente ocurre q” Tomamos un caso particular y verificamos que cumple p

Conclusión: dicho caso particular satisface q.

La inferencia estadística es inferencia inductiva y proporciona las herramientas para generalizar conclusiones a partir de observaciones particulares y para medir el error que puede cometerse al generalizar. La medición de dicho error expresada en términos de probabilidad.

(2)

Ejemplo 1

Usted está interesado en conocer el número total de habitantes de una población dada.

Usted dispone de un mapa de la población la cual consta de 1000 manzanas y no tiene el tiempo ni los recursos para hacer un censo de dicha población. Defina un procedimiento a seguir. (Piénselo antes de seguir leyendo). Un procedimiento podría ser el siguiente:

Tomar al azar un conjunto de 10 manzanas de las 1000 que constituyen la población y contar el número de habitantes en esas 10 manzanas, digamos que había 750 habitantes. Ahora para inferir a toda la población usted podría hacer el siguiente razonamiento:

“si en 10 manzanas hay 750 habitantes en 1000 manzanas cuantos habrá? y una respuesta sería:

750/10× 1000 = 75000 habitantes

- ¿Está usted seguro que en la población hay exactamente 75000 habitantes? No. Solo puedo jurar que en las 10 manzanas que escogí hay 750 habitantes. - ¿Si no está seguro, con cual criterio va a utilizar ese resultado?

Debo conocer alguna medida que me indique que tan lejos estoy del verdadero valor de la población.

- Pero para ello usted necesitaría conocer la verdadera población para decidir si está lejos o cerca y en este caso sería absurdo realizar todo ese trabajo puesto que lo que se persigue es conocer el verdadero valor de la población.

Tendría usted razón si yo pretendiera conocer con absoluta certeza el error que estoy cometiendo, pero para mí sería suficiente una medición del error en los siguientes términos: “La probabilidad de que el valor de la estimación se aleje en más de 3000 habitantes del verdadero valor es de un 5%” o de otra manera?:

P(| E - R | < 3000) = 0.95

Donde E es el valor estimado y R es el verdadero valor.

- ¿Por qué sugirió usted el valor 3000 para la diferencia?

Porque considero que si el verdadero valor se aleja hasta 3000 del valor que yo estime la decisión que yo tome con base en dicho número no cambia sustancialmente, es decir estoy dispuesto a tolerar un error de 3000 habitantes.

- ¿Pero con la forma que usted sugiere para medir el error, no le garantiza que necesariamente el error sea menor que 3000, entonces?

Es cierto, pero estoy dispuesto a aceptar el riesgo del 5%.

(3)

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

Hasta ahora, podemos estimar parámetros en forma puntual; hemos definido también algunas propiedades deseables en los estimadores puntuales, que sirven como criterios para juzgar la bondad de los estimadores, pero de hecho, todo esto no nos garantiza una cierta confianza de que el valor estimado esté “suficientemente” cerca del parámetro que se estima, dicho de otra forma, sería conveniente acompañar la estimación puntual de un intervalo aleatorio alrededor de ella, asociándole la probabilidad de que un intervalo generado en forma aleatoria atrape al parámetro en cuestión.

No debemos perder de vista que un estimador es una variable aleatoria y como tal tiene asociada una distribución de probabilidad, de este hecho nos valemos para desarrollar lo concerniente a intervalos de confianza.

Una analogía para comprender del significado de “confianza” cuando se habla de “estimación por intervalos de confianza”.

El concepto de estimación por medio de intervalos de confianza es de los más importantes y útiles en estadística, sin embargo cuesta mucha dificultad comprender su significado. En este concepto, muy posiblemente, es donde puede haber mayor acuerdo entre frecuentistas y Bayesianos.

Con el enfoque frecuentista, el contexto en el cual se explica el significado de “confianza”, es el de la repetición de las estimaciones, de esta manera “la confianza” no la tiene el intervalo concreto que se obtuvo mediante un procedimiento aleatorio, sino que la confianza está asociada al procedimiento que genera el intervalo.

Puede hacerse la analogía del mecanismo de generación de intervalos, con una pistola cuya munición son los datos y dispara una “grapa”.

(a) Juicio sobre la calidad (confianza) del generador de intervalos. (b) Aplicación del generador de intervalos a una situación particular de la realización de una muestra aleatoria.

(4)

línea horizontal en la pared. Es decir que la confianza está asociada al instrumento generador (constructor) de intervalos, y esta confianza existe antes de hacer el disparo concreto con mis datos como se ilustra en la parte (b) de la figura, es decir antes de conocer “mi” intervalo de confianza calculado con los datos resultantes de la realización de una muestra aleatoria.

El vendedor de la pistola “lanza _ intervalos” garantiza que el 95% de las veces que se dispara la grapa, da en el “blanco”, es decir atrapa la verdadera media poblacional.

Con esta información disponible a priori, hacemos nuestro único disparo, como se ilustra en la parte (b), la pared está en blanco y al final, solo se verá una sola grapa clavada en la pared y nada más. Sin embargo, por las credenciales que tiene la pistola (procedimiento de construcción de intervalos de confianza), al momento de tomar una decisión, no es descabellado suponer que si el 95% de las veces que se dispara la pistola, da en el blanco, esta vez también le habría atinado. La verdad es que si habrá dado en el blanco o no, esto jamás se sabrá , no obstante por las credenciales del procedimiento, si toca decidir, puede suponerse que si ha atrapado la media verdadera, asumiendo un riesgo conocido de fallar en mi decisión.

Es difícil comprender que aumentar la confianza, sin que haya aumentado el tamaño de muestra, no representa una mejora en la estimación, sino una manera distinta de expresar la calidad de la estimación, pues en esta situación el aumento de la confianza se hace en detrimento del margen de error. En la Figura anterior, en la mesa se ven varias pistolas, cada una con un nivel de confianza distinto, podría intentar visualizarse, el efecto de aumentar la confianza, como que la pistola lanza grapas más largas, de tal manera que aumenta el porcentaje de veces que da en el blanco, pero por supuesto, que aumentar el porcentaje de éxitos a costa de alargar las grapas no es una virtud. Lo meritorio sería aumentar el porcentaje de los aciertos (nivel de confianza) con grapas más cortas (menor margen de error), lo cual solo se lograría aumentando el tamaño de la muestra.

CALCULO DEL INTERVALO DE CONFIANZA

Supongamos que deseamos estimar la media de la estatura de una población mediante un intervalo de confianza al 95% de nivel de confianza, con una muestra de tamaño 50. Supongamos que tras los cálculos necesarios, el intervalo en cuestión es (a,b). Pues bien, esto quiere decir que si elegimos 100 muestras de tamaño 50 y cada vez calculamos el intervalo de confianza resultante, acertaremos en nuestro pronóstico en 95 de las 100 veces que realizaríamos la estimación con cada muestra.

Un dato importante como es de esperar, es el tamaño de la muestra, que representaremos por n.

(5)

Si el tamaño de la muestra permanece constante y variamos 1- α. el tamaño del intervalo se hará más grande cuanto más aumente 1- α, es decir que el margen de error se hará más grande cuanto más precisión exijamos.

Por ejemplo, si para dar un intervalo de confianza de la media de la estatura de una población de adultos de un país, es seguro que acertaría al cien por cien si el intervalo que diese fuese (150 cm, 190 cm), pero sería una estimación absurda ya que no sabría apreciar realmente la media. Por tanto se trata de dar un intervalo lo más reducido posible.

El cálculo de intervalos de confianza no es un proceso fácil cuando la variable en estudio no sigue unas pautas de normalidad, por lo que nosotros vamos a suponer siempre que la variable con la que vamos a trabajar sigue una distribución normal. Dicho esto, el proceso para obtener el intervalo es dar una variable aleatoria donde intervenga el parámetro a estimar y el correspondiente de la muestra. Se utiliza la siguiente formula de cálculo:

Pues bien, esa expresión donde interviene la media muestral, la media poblacional, la desviación típica y el tamaño muestral, sigue una distribución de probabilidad conocida. Esta fórmula se aplica cuando se conoce el verdadero valor del parámetro o cuando el tamaño de muestra es grande (n>30). En caso contrario se debe utilizar la distribución t-student para el cálculo del intervalo de confianza, de la siguiente manera:

Intervalo de Confianza para una Media

Supongamos que hemos aplicado un test de coeficiente intelectual a una muestra aleatoria de 1000 trabajadores de una empresa de servicios para estimar el coeficiente intelectual medio de la población de trabajadores y se obtuvo que . Sabiendo por otras pruebas que la desviación típica de esta variable para los trabajadores es de , estimar el valor del parámetro por medio de un intervalo de confianza del 95%, haríamos lo siguiente:

=1.96 por trabajar un nivel de confianza del 95% y

(6)

Intervalo de Confianza para una Proporción

Queremos estimar la proporción p de que ocurra un determinado suceso en una población y tomamos una muestra de tamaño n, por lo tanto la fórmula de cálculo del intervalo de confianza esta dado por:

Supongamos que en una encuesta hecha por alumnos y alumnas de un instituto a un total de 100 votantes elegidos al azar en su Municipio, se obtiene que el 55% volvería a votar al actual alcalde. Calcular un intervalo de confianza al 99% para la proporción de votantes favorables al actual alcalde.

Tenemos que p=0.55, n=100 y =0.99, por lo tanto el valor de =2.57

Así pues, podemos afirmar que con un nivel de confianza del 99%, la proporción de votantes que están a favor del actual alcalde se encuentra entre el 42.2% y 67.8%.

Ejercicios Propuestos

1. Una empresa realizó una investigación para determinar la cantidad promedio que los trabajadores fumadores gastan en cigarrillos durante una semana. La empresa encontró que la distribución de cantidades gastadas por semana tendía a seguir una distribución normal, con una deviación estándar de $5. Una muestra de 64 trabajadores fumadores reveló que . Cuál es el intervalo de confianza del 95% para el verdadero gasto promedio en cigarrillos ( ? Interpretar el resultado

(7)

3. Rodrigo Guerrero considero postulante para la alcaldía de la ciudad de Cali. Antes de solicitar la postulación, decide realizar una encuesta entre los electores de la ciudad de Cali. una muestra de 400 electores revela que 300 lo apoyarían en las elecciones de noviembre. Construya un intervalo de confianza del 99% para la proporción poblacional. Interprete el resultado.

Figure

Actualización...

Referencias

Actualización...