• No se han encontrado resultados

Estadistica Inferencial.pdf

N/A
N/A
Protected

Academic year: 2021

Share "Estadistica Inferencial.pdf"

Copied!
111
0
0

Texto completo

(1)
(2)

Contenido

1 Distribuciones fundamentales de muestreo 3

1.1 Errores y t´ecnicas de muestreo . . . 4

1.1.1 Errores muestrales y no muestrales . . . 4

1.1.2 T´ecnicas de muestreo aleatorio . . . 9

1.2 Estad´ısticos y distribuciones muestrales . . . 18

1.3 Distribuci´on muestral de la media . . . 24

1.3.1 El caso para muestras grandes . . . 28

1.3.2 El caso para muestras peque˜nas . . . 31

1.4 Distribuci´on muestral de una proporci´on muestral . . . 42

1.5 Distribuci´on muestral de diferencia de dos proporciones muestrales . . . 49

1.6 Distribuci´on muestral de diferencia de medias . . . 52

1.6.1 Datos pareados (muestras dependientes) . . . 53

1.6.2 Muestras independientes . . . 55

1.7 Distribuci´on muestral de la varianza y raz´on de varianzas muestrales . . . 64

1.7.1 Distribuci´on muestral de la varianza muestral . . . 64

1.7.2 Distribuci´on muestral de la raz´on de dos varianzas . . . 69

(3)

3 Pruebas de hip´otesis 79

3.1 Conceptos de la prueba de hip´otesis . . . 80

3.1.1 Comentarios acerca de los t´erminos “aceptar” y “rechazar” . . . 86

3.2 Prueba para la media . . . 87

3.2.1 El caso de muestras grandes . . . 87

3.2.2 Caso de muestra peque˜nas . . . 89

3.3 Pruebas para la proporci´on . . . 90

3.4 Prueba para la diferencia de dos proporciones . . . 92

3.5 Prueba para la diferencia de dos medias . . . 95

3.5.1 Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes . . . 96

3.5.2 Segundo caso: varianzas poblacionales iguales, desconocidas y mues-tras peque˜nas . . . 99

3.5.3 Tercer caso: varianzas poblacionales diferentes, desconocidas y mues-tras peque˜nas . . . 102

3.6 Prueba para la varianza . . . 103

3.7 Prueba para la raz´on de dos varianzas . . . 105

(4)
(5)

1

Distribuciones fundamentales de

muestreo

Contenido

1.1 Errores y t´ecnicas de muestreo . . . 4

1.1.1 Errores muestrales y no muestrales . . . 4

1.1.2 T´ecnicas de muestreo aleatorio . . . 9

1.2 Estad´ısticos y distribuciones muestrales . . . 18

1.3 Distribuci´on muestral de la media . . . 24

1.3.1 El caso para muestras grandes . . . 28

1.3.2 El caso para muestras peque˜nas . . . 31

1.4 Distribuci´on muestral de una proporci´on muestral . . . 42

1.5 Distribuci´on muestral de diferencia de dos proporciones mues-trales . . . 49

1.6 Distribuci´on muestral de diferencia de medias . . . 52

1.6.1 Datos pareados (muestras dependientes) . . . 53

1.6.2 Muestras independientes . . . 55

1.7 Distribuci´on muestral de la varianza y raz´on de varianzas muestrales . . . 64

1.7.1 Distribuci´on muestral de la varianza muestral . . . 64

1.7.2 Distribuci´on muestral de la raz´on de dos varianzas . . . 69

(6)

☞ Objetivos del cap´ıtulo

1. Desarrollar el concepto de distribuci´on muestral.

2. Examinar el teorema central del l´ımite.

3. Analizar la distribuci´on muestral de la media, proporci´on, diferencia de dos medias, dife-rencia de dos proporciones, varianza y raz´on de dos varianzas.

☞ Empleo de la estad´ıstica

≪Un fabricante de neum´aticos ha desarrollado un nuevo producto que, seg´un cree, tendr´a una mayor duraci´on en relaci´on con las millas recorri-das comparado con la l´ınea actual de neum´aticos. Para evaluar el nuevo neum´atico, los gerentes necesitan un estimado (o una estimaci´on) de la me-dia de las millas que dura el nuevo producto. Selecciona una muestra de 120 neum´aticos para probarlos. El resultado de la prueba es una media de la muestra de 36.500 millas. En consecuencia, se obtuvo 36.500 como estimado de la media para la poblaci´on de neum´aticos nuevos.≫

Introducci´

on

En este cap´ıtulo, dedicaremos gran parte de nuestra atenci´on a analizar problemas que tienen por objeto averiguar algo acerca de las propiedades de una poblaci´on a partir de la informaci´on proporcionada por una muestra de dicha poblaci´on. Este es el objetivo de la estad´ıstica inferencial. La raz´on principal para observar una muestra en lugar de la poblaci´on completa es el hecho de que la recogida de toda la informaci´on ser´a, en la mayor´ıa de las ocasiones, exageradamente cara. Incluso en los casos en que se dispone de recursos suficientes para analizar la poblaci´on completa, puede resultar preferible dedicar esos re-cursos a un subconjunto peque˜no de la poblaci´on, con la esperanza que tal concentraci´on de esfuerzos produzca medidas m´as precisas.

1.1

Errores y t´

ecnicas de muestreo

1.1.1

Errores muestrales y no muestrales

Cuando nos interesa estudiar las caracter´ısticas de poblaciones grandes, utilizamos muestras por muchas razones. Una enumeraci´on completa de poblaci´on, llamada censo, puede ser econ´omicamente imposible; o puede no haber tiempo suficiente para examinar a la poblaci´on

(7)

completa. En algunas situaciones, el censo puede ser imposible. Por ejemplo, un censo de la poblaci´on marina que vive en el oceano Atl´antico es imposible.

Ejemplo 1.1.1 A continuaci´on veremos los usos del muestreo en diversos campos:

• Pol´ıtica. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opini´on p´ublica y el apoyo en las elecciones.

• Sociolog´ıa. El soci´ologo que desea conocer las actitudes de los adolescentes frente al aborto, no emprende la tarea de entrevistar a todos los adolescentes que hay en el pa´ıs sino elige una muestra de ellos y los entrevista.

• Educaci´on. Las muestras de las calificaciones de los ex´amenes de estudiantes se usan para determinar la eficiencia de una t´ecnica o programa de ense˜nanza.

• Industria. Muestras de los productos de una l´ınea de ensamblaje sirve para el prop´osito de controlar la calidad.

• Medicina. Un fabricante de drogas que desea saber los resultados de alg´un medicamento para bajar la tensi´on en la sangre y compararlo con una droga de la competencia, no lleva a cabo un experimento con todos los pacientes conocidos que sufran de hipertensi´on.

• Agricultura. Las muestras del ma´ız cosechado en una parcela proyectan en la producci´on los efectos de un fertilizante nuevo.

• Gobierno. Una muestra de opiniones de los votantes se usar´ıa para determinar los criterios del p´ublico sobre cuestiones relacionadas con el bienestar y la seguridad nacionales.

Cuando se usan valores muestrales (o estad´ısticos) para estimar valores poblacionales (o par´ametros), pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral (o sistem´atico).

Errores muestrales

Es improbable, por ejemplo, que la media de la muestra fuera id´entica a la media de la poblaci´on. Asimismo, tal vez la desviaci´on est´andar u otra medici´on que se calcule con base en la muestra no sea exactamente igual al valor correspondiente de la poblaci´on. As´ı, es posible que existan cierta ciertas diferencias entre las estad´ısticas de la muestra, como la media o la desviaci´on est´andar de la muestra, y los par´ametros de la poblaci´on correspon-dientes.

(8)

Definici´on 1.1.2 El error muestral es la diferencia entre un estad´ıstico de la muestra y el par´ametro correspondiente de la poblaci´on.

En general, el error muestral se refiere a la variaci´on natural existente entre muestras tomadas de la misma poblaci´on, cuando una muestra no es copia exacta de la poblaci´on.

Ejemplo 1.1.3 Se toman muestras de tama˜no 2 de una poblaci´on consistente en tres valores: 2, 4 y 6. Supongamos que el muestreo se hace con reemplazo (es decir, el n´umero elegido se reemplaza antes de escoger el siguiente) y que se seleccionan muestras ordenadas.1 Halle la media poblacional, todas las muestras, la media de cada muestra y los errores muestrales.

SOLUCI ´ON:

La media poblacional es igual a µ = (2 + 4 + 6)/3 = 4. La tabla 1.1 contiene una lista de todas las muestras ordenadas de tama˜no 2 que es posible escoger con reemplazo de la poblaci´on de valores 2, 4 y 6. Tambi´en contiene las medias muestrales y los correspondientes errores muestrales.

Tabla 1.1: Muestras ordenadas de tama˜no 2 de la poblaci´on de valores 2, 4 y 6. ◭ Muestras ordenadas Media muestral x Error muestral e = x − µ

(2,2) 2 2 − 4 = −2 (2,4) 3 3 − 4 = −1 (2,6) 4 4 − 4 = 0 (4,2) 3 3 − 4 = −1 (4,4) 4 4 − 4 = 0 (4,6) 5 5 − 4 = 1 (6,2) 4 4 − 4 = 0 (6,4) 5 5 − 4 = 1 (6,6) 6 6 − 4 = 2

A´un si hemos tenido gran cuidado para asegurar que dos muestras del mismo tama˜no sean representativas de una cierta poblaci´on, no esperar´ıamos que las dos sean id´enditcas en todos sus detalles. El error es un concepto importante que nos ayudar´a a entender mejor la naturaleza de la estad´ıstica inferencial.

1En una muestra ordenada, el orden en que se escogen las observaciones es importante. Por ejemplo, la muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se escogi´o primero 4 y luego 2.

(9)

Errores no muestrales o sistem´aticos

En los an´alisis pr´acticos, existe la posibilidad de que aparezca un error que no est´e rela-cionado con el procedimiento de muestreo usado. Estos errores aparecer´ıan tambi´en si se tomara un censo de la poblaci´on completo. Se conocen como errores no muestrales o sistem´aticos. En un estudio particular, existen potenciales errores no muestrales por varias causas, como se muestran los ejemplos 1.1.4, 1.1.5 y 1.1.7.

Ejemplo 1.1.4 (La poblaci´on de la que realmente se muestrea no es la relevante) Un c´elebre ejemplo es el estudio de las actitudes de varios millones de personas, realizado por el Literary Digest, un peri´odico popular en ese entonces, para predecir al ganador de la presidencia en 1936, cuando el republicano Alfred Landon compet´ıa contra el dem´ocrata Franklin Rooselvelt. Los nombres de las personas que se incluyeron en la encuesta los obtuvo el Digest del directorio telef´onico y de otras listas, tales como la de suscriptores de la revista y los registros de autom´oviles. Estas fuentes no representaban en absoluto a las clases m´as pobres, puesto que mucha gente que prefer´ıa votar por Roosolvelt no ten´ıa tel´efono y no se suscrib´ıa a peri´odicos. La mayor´ıa de los entrevistados mostraron su preferencia por Landon, y el peri´odico predijo que este candidato ganar´ıa por un gran margen. Pero, Landon perdi´o. La moraleja de la historia es que si uno quiere realizar inferencia sobre una poblaci´on (en este caso, el electorado de Estados Unidos), es importante muestrear de la poblaci´on y no de alg´un subgrupo de ella, aunque la segunda opci´on

parezca conveniente. ◭

Ejemplo 1.1.5 (Los individuos bajo estudio dan respuestas inexactas o inciertas) Esto podr´ıa pasar si las preguntas se redactasen de manera que fuesen dif´ıciles de entender o de forma que parezca que una respuesta particular es m´as aceptable o m´as deseable. Adem´as, muchas preguntas que uno desear´ıa formular pueden ser delicadas y ser´ıa temerario esperar respuestas uniformemente sinceras. Supongamos, por ejemplo, que el director de una f´abrica quiere valorar las p´erdidas anuales de la compa˜n´ıa debidas a robos de los empleados. En principio, podr´ıa se-leccionarse una muestra aleatoria de empleados y preguntarles: “¿Qu´e ha robado usted de esta f´abrica en los ´ultimos doce meses?” Claramente, ¡´esta no es la mejor forma de proceder para obtener la informaci´on deseada! De hecho, ya hemos hablado de una posibilidad para abordar este problema. Para obtener una descripci´on y una ilustraci´on de este procedimiento (llamado el m´etodo de respuesta aleatorizada) se puede acudir a los ejemplos ?? y ??. ◭

El sesgo de las muestras es un tipo de error no muestral.

Definici´on 1.1.6 El sesgo muestral es la tendencia sistem´atica a favorecer la selecci´on de ciertos elementos de una muestra en lugar de otros.

Ejemplo 1.1.7 (Otra posibilidad surge de la no respuesta) Si ´esta es importante, puede inducir a errores muestrales y sistem´aticos adicionales. Los errores muestrales surgen como conse-cuencia de que el tama˜no muestral conseguido sea mucho menor de lo que se esperaba. Los errores

(10)

sitem´aticos pueden presentarse si la poblaci´on que ha sido muestreada no es la poblaci´on de in-ter´es. Los resultados obtenidos pueden considerarse como una muestra aleatoria de la poblaci´on de los individuos que responder´ıan. Estas personas pueden ser distintas de la poblaci´on general en alg´un sentido importante. Si esto es as´ı, inducir´a un sesgo en las estimaciones resultantes.

Si se sospecha que el sesgo de la no respuesta presumiblemente ser´a molesto, hay tres posibil-idades abiertas. Primero, el investigador puede solicitar informaci´on mediante un mecanismo del que se sepa que produce una proporci´on de respuestas altas. Segundo, hasta donde sea posible, deben compararse las caracter´ısticas de los individuos que responden y de los que no, en aspec-tos tales como sexo, edad y raza, para comprobar si hay diferencias obvias entre los dos grupos. Finalmente, se debe intentar entrar en contacto con los individuos que no respondieron, algunos de los cuales pueden estar bien dispuestos para contestar a unas pocas preguntas claves. Si sus respuestas difieren significativamente de las de los individuos que respondieron al principio, debe hacerse una correcci´on del sesgo de la no respuesta. ◭

Es importante se˜nalar que el sesgo muestral se refiere a una tendencia sistem´atica inheren-te a un m´etodo de muestreo que da estimaciones de un par´ametro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo), que el par´ametro real. Los ejemplos 1.1.4 y 1.1.8 ilustran situaciones para errores que resultan de colecciones de datos que caen en esta categor´ıa.2

Ejemplo 1.1.8 Si queremos obtener informaci´on relativa a las actitudes hacia el aborto y ob-tenemos una muestra que consta proponderadamente de hombres, podr´ıamos encontrar un sesgo

muestral. ◭

Los errores que resultan de la acumulaci´on de datos o de su procesamiento se clasifican tambi´en como errores no muestrales, como se ilustra en el siguiente ejemplo.

Ejemplo 1.1.9 Al recabar datos pueden generarse errores no muestrales cuando los instrumentos usados para realizar las mediciones est´an fuera de ajuste o mal calibrados. Pueden ocurrir errores de procesamiento si los datos est´an mal colocados, si se pierden al registrarlos o si las respuestas proporcionadas por las personas durante el estudio no son verdaderas. Este ´ultimo caso puede darse con preguntas relativas a la edad, en las que mucha gente miente por vanidad. ◭

No existe un procedimiento general para identificar y analizar errores sistem´aticos. No ob-stante, los efectos de estos errores pueden ser muy importantes. La principal recomendaci´on es que el investigador ponga cuidado en cosas tales como identificar la poblaci´on relevante, dise˜nar el cuestionario y tratar la no respuesta de manera que minimice su importancia. En el resto de este cap´ıtulo, asumiremos que se han tomado estas precauciones, y nuestra exposici´on se centrar´a en el tratamiento de los errores muestrales.

(11)

1.1.2

ecnicas de muestreo aleatorio

El sesgo muestral puede suprimirse, o minimizarse, usando el principio de aleatori-zaci´on. Este principio se refiere a cualquier proceso de selecci´on de una muestra de la poblaci´on en el que la selecci´on es imparcial o no est´a sesgada. Una muestra elegida con procedimientos aleatorios se llama muestra aleatoria. Los tipos m´as comunes de t´ecnicas de muestreo aleatorio son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistem´atico. Ahora, explicaremos brevemente cada uno de ellos.

Muestreo aleatorio simple

Como ya se ha dicho anteriormente, para evitar el sesgo muestral y lograr inferencias v´alidas acerca de la poblaci´on, es importante que el proceso de selecci´on de la muestra est´e basado en el principio de aleatorizaci´on. La forma m´as sencilla para conseguir esto es dise˜nar un mecanismo de selecci´on en el cual todas las muestras de un tama˜no dado tengan la misma probabilidad de ser elegidas. Esto conduce a la siguiente

Definici´on 1.1.10 Un procedimiento de muestreo aleatorio simple es aquel en el que todas las posibles muestras del mismo tama˜no tienen la misma probabilidad de ser escogidas. A las muestras obtenidas por procedimientos de este tipo se las denomina muestras aleatorias simples.

Este m´etodo se usa con tanta frecuencia que, en muchos casos, el adjetivo “simple” se elimina de ambos t´erminos definidos anteriormente.

Ejemplo 1.1.11 Se asume que una cadena nacional de comidas r´apidas desea seleccionar aleato-riamente 5 de los 10 estados de un pa´ıs para tomar muestras sobre el gusto de los consumidores. Una muestra aleatoria simple garantizar´a que las 105

= 252 muestras de tama˜no 5 tengan la misma probabilidad de ser utilizada en el estudio. En este caso, la probabilidad de escoger una muestra aleatoria simple de tama˜no 5 ser´a

P (escoger una muestra de tama˜no 5) = 101

5

 = 1

252 ≈ 0, 00397 ≈ 0, 397%. Analogamente, la probabilidad de escoger una muestra aleatoria simple de tama˜no 7 ser´a

P (escoger una muestra de tama˜no 7) = 101

7

 = 1

120 = 0, 00833 ≈ 0, 83%. ◭

Puede pensarse en el proceso de muestreo aleatorio simple de la forma siguiente: Supon-gamos que los miembros de la poblaci´on se introducen en una caja y se mezclan entre s´ı.

(12)

Una muestra aleatoria se obtiene extrayendo, digamos, n de ellos. En la pr´actica, para el caso de una poblaci´on finita, (digamos, con N individuos) no es necesario hacerlo de este modo; pueden usarse tablas de n´umeros aleatorios para conseguir el mismo resultado.

Definici´on 1.1.12 Una tabla de n´umeros aleatorios consiste en una tabla de n´umeros que se hace y se presenta en tal forma que cada uno de los n´umeros 0 a 9 aparecen en ella con una frecuencia aproximadamente igual. Es decir, cada uno de estos n´umeros aparecen en la tabla con la misma probabilidad.

Las tablas est´an construidas de forma que el proceso descrito en la definici´on 1.1.12 tiene las mismas propiedades que el muestreo aleatorio simple. Una de las posibles formas de construir una tabla de n´umeros aleatorios consistir´ıa en meter en un caja 10 bolas numer-adas de 0 a 9. Despu´es de haberlas mezclado bien, se extrae una de las bolas y se anota su n´umero. A continuaci´on se devuelve esta bola a la caja y se repite el proceso. Puede repetirse el procedimiento para obtener n´umeros con tantas cifras como se precisen. Este proceso tiene la propiedad de que cada uno de los posibles n´umeros tiene la misma pro-babilidad, y las elecciones sucesivas son independientes unas de otras. El problema es que resulta extremadamente tedioso.

En la pr´actica, pueden generarse n´umeros aleatorios de manera mucho m´as r´apida con la ayuda de un computador, ya que existen mecanismos que imitan de forma efectiva el procedimiento que acabamos de describir. La tabla del ap´endice es una p´agina de n´umeros aleatorios, tomados de una tabla que contine un mill´on de d´ıgitos aleatorios. Expliquemos el procedimiento de sacar una muestra aleatoria simple por medio de un ejemplo.

Ejemplo 1.1.13 Hay 180 estudiantes de primer a˜no en un colegio rural. Con el fin de obtener informaci´on acerca de la costumbre que tienen los estudiantes de ver televisi´on, un consejero de orientaci´on desea seleccionar una muestra aleatoria simple de diez estudiantes para llenar un cues-tionario. En la oficina del rector se encuentra una lista alfab´etica de los estudiantes numerados consecutivamente de 1 a 180. El consejero utiliza la tabla del ap´endice para determinar qu´e estu-diantes formar´an la muestra.

Como el n´umero de estudiantes de la poblaci´on es de 180 (un n´umero de tres d´ıgitos) es con-veniente pensar en los n´umeros de 1 a 180 como los n´umeros 001, 002, 003, . . ., 180. Solamente se aprovechar´an los n´umeros de tres d´ıgitos que queden entre 001 y 180.

El consejero selecciona al azar un punto de partida en la p´agina de los n´umeros aleatorios cerrando los ojos y tocando con la punta de su l´apiz. El n´umero que quede m´as cerca a la punta de su l´apiz es el punto de partida. La punta del l´apiz toca el papel en un punto que est´a m´as cercano al n´umero 1, ubicado en la intersecci´on de la fila 36 y la columna 7, que a cualquier otro n´umero (v´ease la tabla 1.2a).

(13)

Tabla 1.2: Una parte de tabla de n´umero aleatorios. ... ... 66790 72193 · · · 16427 71681 · · · 63988 0 1 319 · · · 67468 22553 · · · ... ...

(a) El 1 est´a en la fila 36 y la columna 7. ... ... 66790 72193 · · · 16427 71681 · · · 63988 0 131 9 · · · 67468 22553 · · · ... ... (b) El primer n´umero de tres d´ıgitos es 131. ... ... 66790 72193 · · · 16427 71681 · · · 63988 01319 · · · 67468 2 255 3 · · · ... ... (c) El siguiente n´umero a 131 es 225.

Como el primer n´umero de tres d´ıgitos que hay en esta posici´on es 131 (v´ease la tabla 1.2b), el estudiante n´umero 131 de la lista queda incluido en la muestra. El consejero mueve hacia abajo (la direcci´on del movimiento es arbitraria y pudo haber sido hacia arriba, hacia la diagonal, etc.) el l´apiz hasta el siguiente n´umero de tres d´ıgitos que, como es 225 (v´ease la tabla 1.2c), no se puede utilizar.

Siguiendo hacia abajo, los siguientes n´umeros utilizables son 063 y 120 (v´ease la tabla 1.3a). Por tanto, los estudiantes 63 y 120 quedan incluido en la muestra. Cuando el consejero llegue hasta el final de la p´agina, simplemente mueve hacia la derecha un d´ıgito, que seg´un la tabla 1.3b, ser´ıa 302. Como este n´umero no es utilizable, tiene en cuenta los n´umeros de tres d´ıgitos que van hacia arriba3 y que son utilizables como, por ejemplo, el 065 (v´ease la tabla 1.3c). Al final, el procedimiento seguido por el consejero arroja los siguientes n´umeros aleatorios:

131, 063, 120, 065, 154, 117, 002, 166, 031, 101.

Por tanto, la muestra aleatoria simple consta de los 10 estudiantes identificados con estos n´umeros

en la lista. ◭

El muestreo aleatorio simple se puede llevar a cabo de dos maneras: con reemplazo o sin reemplazo. Cuando el muestreo es sin reemplazo, solamente se permite a una entidad dada aparecer una vez en la muestra. Cuando se emplean los n´umeros aleatorios para se-leccionar la muestra, se descartan los n´umeros repetidos cuando salen. Cuando el muestreo es con reemplazo, no hay ning´un l´ımite para el n´umero de veces que una entidad pueda aparecer en la muestra. En las aplicaciones pr´acticas se usa el muestreo sin reemplazo. Es imposible determinar por simple inspecci´on si una muestra es aleatoria o no. Para

3Nuevamente, la direcci´on es arbitraria. Por ejemplo, el consejero pudo haber corrido el l´apiz hacia la izquierda o empezar en la parte superior de la p´agina.

(14)

Tabla 1.3: Una parte de tabla de n´umero aleatorios. ... ... 63988 0 131 9 · · · 67468 22553 · · · ... ... 70321 26394 · · · 98710 5 063 9 · · · ... ... 57652 46065 · · · 35933 3 120 3 · · · ... ... 69865 39302 · · ·

(a) Los siguientes

n´umeros son 063 y 120. ... ... 63988 01319 · · · 67468 22553 · · · ... ... 70321 26394 · · · 98710 50639 · · · ... ... 57652 46065 · · · 35933 31203 · · · ... ... 69865 39 302 · · · (b) Al final, se corre un d´ıgito a la derecha. ... ... 63988 01319 · · · 67468 22553 · · · ... ... 70321 26394 · · · 98710 50639 · · · ... ... 57652 46 065 · · · 35933 31203 · · · ... ... 69865 39302 · · · (c) El siguiente n´umero utilizable es 065.

determinar si una muestra es aleatoria, debemos conocer el proceso de selecci´on que se us´o. Ilustremos esto a trav´es del siguiente

Ejemplo 1.1.14 Suponga que queremos elegir tres meses al a˜no para estudiar cierto compor-tamiento ambiental y que hemos escogido enero, julio, octubre y noviembre. ¿Representan estos cuatros meses una muestra aleatoria?

SOLUCI ´ON:

A partir de la informaci´on dada, es imposible decir si esta muestra es aleatoria. Estos meses pueden haber sido escogidos porque est´an distribuidos a lo largo del a˜no y siendo as´ı, la muestra no es aleatoria. Si embargo, si se escogieron con la ayuda de una tabla de n´umeros aleatorios o de otros procedimientos aleatorios, entonces, s´ı representan una muestra aleatoria. ◭

Muestreo estratificado

Consideremos inicialmente el siguiente

Ejemplo 1.1.15 El Ministerio de Agricultura de cierto pais se interes´o en el impacto de las condiciones de sequ´ıa sobre la producci´on de trigo. Especial preocupacion caus´o la tasa de ban-carrota que hac´ıa que los granjeros perdieran sus tierras. Se sent´ıa que un conteo de los niveles de producci´on por parte de los agricultores de las cuatro ciudades golpeadas m´as duramente por la sequ´ıa, podr´ıan probar que son ´utiles en el dise˜no de un programa de alivio. El ministerio decidi´o que deber´ıa tomarse una muestra de la cosecha de este a˜no por varios cientos de agricultores de

(15)

cada ciudad.

Sin embargo, se not´o que el n´umero de agricultores era muy diferente en cada estado. Si se tomaba una muestra aleatoria simple de las cuatro ciudades como un todo, podr´ıa incluir pro-porcionalmente pocos agricultores de algunas ciudades y demasiados de otras ciudades. Esto resultar´ıa en una muestra no representativa, lo cual incrementar´ıa el error de muestreo.

El Ministerio decidi´o dividir a todos los agricultores en subgrupos o estratos y de cada sub-grupo tomar muestras aleatorias. En este caso, los subsub-grupos l´ogicos ser´ıan las cuatro ciudades

en menci´on. ◭

El ejemplo anterior trata sobre una de las muchas situaciones en las cuales el muestreo aleaorio simple es poco pr´actico, imposible o no deseado. El procedimiento utilizado por el Ministerio para la selecci´on de una muestra se cononoce con el nombre de muestreo estrat-ificado.

Definici´on 1.1.16 Suponga que una poblaci´on de N individuos puede subdividirse en K grupos mutuamente excluyentes (disyuntos), llamados estratos. El muestreo (aleatorio) estratificado es la selecci´on de muestras aleatorias simples independi-entes de cada uno de los estratos de la poblaci´on.

Dos observaciones importantes son las siguientes:

• Si los K estratos de la poblaci´on contienen N1, N2, . . . , Nkelementos, entonces,N1+N2+· · ·+Nk = N .

• No es necesario tomar muestras con el mismo n´umero de elementos en cada estrato. Si representamos los tama˜nos muestrales de cada estrato por n1, n2, . . . , nk, entonces, el tama˜no total de la muestra es n = n1+ n2+ · · · + nk.

Ejemplo 1.1.17 Suponga que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad sobre un grupo importante. Puede ser dif´ıcil obtener una muestra con todos esos profesores, as´ı que supongamos que elegimos una muestra aleatoria de cada colegio o departamento acad´emico. Los estratos vendr´ıan a ser esos colegios o departamentos acad´emicos. ◭

El muestreo estratificado se usa frecuentemente para encuestas de opini´on nacional porque las opiniones tienden a variar m´as entre localidades diferentes que al interior de las mis-mas. Para esta aplicaci´on, los criterios para formarlos deben asegurar que las observaciones dentro de cada uno se asemejen tanto como sea posible. Estas observaciones han de tener menos variaci´on que la existente entre observaciones de estratos diferentes.

Otro hecho que es importante mencionar es lo siguiente: una vez que la poblaci´on se divide en estratos, es posible seleccionar una muestra proporcional o no proporcional.

(16)

Definici´on 1.1.18 En un muestreo estratificado proporcional, la proporci´on muestral de elementos de un estrato es la misma que la proporci´on poblacional de elementos de ese estrato. Es decir, para el j-´esimo estrato, tenemos

nj n = Nj N , luego nj = Nj N · n,

siendo Nj, N , nj y n como en la definici´on 1.1.16. Por el contrario, en un muestreo estratificado no proporcional, la cantidad de elementos que se seleccionan en cada estrato no guarda proporci´on con los n´umeros respectivos en la poblaci´on.

Ejemplo 1.1.19 Si en el ejemplo 1.1.15, el procedimiento utilizado por el Ministerio de Agricul-tura es el muestreo estratificado proporcional, entonces, la proporci´on de agricultores incluidos en la muestra de cada ciudad debe ser igual a todas las proporciones de todos los agricultores en cada ciudad. Por ejemplo, si los agricultores de una ciudad constitu´ıan el 30% de todos los agricultores de todas las ciudades, entonces, un 30% de los agricultores de la muestra ser´ıan seleccionadas

aleatoriamente de esa ciudad. ◭

En algunos casos el muestreo estratificado tiene la ventaja de poder reflejar con mayor precisi´on las caracter´ısticas de la poblaci´on que un muestreo aleatorio simple, como se muestra en el siguiente

Ejemplo 1.1.20 Suponga que se quiere estudiar los gastos de publicidad de 352 empresas de un pais y que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre su inversi´on (una medici´on de rentabilidad) ha gastado una mayor proporci´on de su pre-supuesto de ventas de publicidad que las empresas que tienen un menor rendimeinto o incluso un d´eficit. Sup´ongase que las empresas se dividieron en cinco estratos y que en total se van a escoger 50 empresas (v´ease la tabla 1.4).

Obs´ervese que el 2 por ciento de las empresas tienen un rendimeinto sobre la inversi´on de 30 por ciento o m´as (estrato 1) y el 1 por ciento tiene un d´eficit (estrato 5). Si se tomara una muetra aleatoria simple de 50 empresas, quiz´as por azar no se habr´ıa seleccionado ninguna empresa en los estratos 1 o 5. Una muestra aleatoria estratificada asegurar´ıa que al menos una empresa del estrato 1 y otra del estrato 5 est´an representadas en la muestra. ◭

Muestreo por conglomerados

Supongamos que un investigador quiere estudiar una poblaci´on que se extiende sobre una amplia ´area geogr´afica, como una ciudad o una regi´on. Si se usa un muestreo aleatorio simple o un muestreo aleatorio estratificado, inmediatamente surgen dos problemas. En primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente precisa de los elementos de la poblaci´on. Esta lista puede no estar disponible o puede ser

(17)

Tabla 1.4: N´umero seleccionado para una muestra aleatoria estratificada proporcional

Rentabilidad N´umero

mues-Estrato (Rendimiento N´umero N´umero treado se

en-sobre la inversi´on) de firmas muestreado cuentra por

1 30 por ciento y m´as 8 1 8

352× 50 2 De 20 a 30 por ciento 35 5 35235 × 50 3 De 10 a 20 por ciento 189 27 189352× 50 4 De 0 a 10 por ciento 115 16 115 352× 50 5 D´eficit 5 1 3525 × 50 TOTAL 352 50

que obtenerla conlleve un elevado costo. En segundo lugar, incluso el investigador posee una lista de la poblaci´on, los miembros de la muestra resultante, casi inevitablemente, estar´an dispersos por una extensa ´area. En ese caso, contactar con cada individuo de la muestra puede ser muy costoso. Desde luego, si se env´ıa un cuestionario por correo, este ´ultimo problema no aparece. Sin embargo, esta manera de obtener la informaci´on puede acarrear una tasa de no respuesta inevitablemente alta, por lo que el investigador preferir´a utilizar entrevistas personales.

Para afrontar cualquiera de los dos problemas expuestos en el p´arrafo anterior, el investi-gador puede usar un procedimiento de muestreo alternativo conocido como muestreo por conglomerados.

Definici´on 1.1.21 Supongamos que una poblaci´on puede dividirse convenientemente en unidades relativamente peque˜nas y geogr´aficamente compactas llamadas conglomerados (por ejemplo, una ciudad puede dividirse en distritos o barrios). En el muestreo por conglomerados, se selecciona de la poblaci´on una muestra aleatoria simple de conglom-erados, y se contacta con cada individuo de los conglomerados de la muestra, es decir, se lleva a cabo un censo completo en cada uno de los conglomerados elegidos.

Ejemplo 1.1.22 Suponga que una compa˜n´ıa de servicio de televisi´on por cable est´a pensando en abrir una sucursal en una ciudad grande. La compa˜n´ıa planea realizar un estudio para determinar

(18)

el porcentaje de familias que utilizar´ıan sus servicios. Como no es pr´actico preguntar en cada casa, la empresa decide escoger una parte de la ciudad al azar para estudiar ah´ı cada hogar. Esa parte de la ciudad forma un conglomerado. ◭

Ejemplo 1.1.23 Consideremos la situaci´on del ejemplo 1.1.15. El Ministerio de Agricultura, en su estudio sobre las condiciones de sequ´ıa, puede decidir que una muestra por conglomerados es preferible. Una muestra por conglomerados se toma identificando los barrios en cada ciudad como conglomerados. Una muestra de estos barrios (conglomerados) se selecciona luego aleatoriamente utilizando una tabla de n´umeros aleatorios o alg´un otro medio generalmente aceptado. Todos los agricultores seleccionados de esta manera en los barrios est´an incluidos en la muestra. Este pro-cedimiento con frecuencia es m´as f´acil y r´apido que el muestreo aleatorio simple o el estratificado. Por ejemplo, si es necesario viajar a cada finca de la muestra para observar los efectos de la sequ´ıa, es m´as f´acil visitar varios agricultores en el mismo barrio. ◭

En el muestreo por conglomerados, ´estos se forman para representar, tan fielmente como sea posible, a toda la poblaci´on. Entonces, se usa una muestra aleatoria simple de cada con-glomerado para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. La poblaci´on completa puede estudiarse de manera efectivamente el an´alisis de sus copias en miniatura o conglomerados. Si un conglomerado es muy grande para analizarse de manera completa, pueden elegirse aleatoriamente algunos de sus elementos.

Muestreo sistem´atico

Definici´on 1.1.24 El muestreo sistem´atico es una t´ecnica de muestreo que requiere de una selecci´on aleatoria inicial de observaciones seguida de otra selecci´on de observaciones obtenida usando alg´un sistema o regla.

Ejemplo 1.1.25 Para obtener una muestra de suscriptores telef´onicos en una ciudad grande, puede sacarse primero una muestra aleatoria de los n´umeros de las p´aginas del directorio telef´onico. Al elegir el vig´esimo nombre de cada p´agina obtendr´ıamos un muestreo sistem´atico. Tambi´en podemos escoger un nombre de la primera p´agina del directorio y despu´es escoger cada nombre del lugar n´umero cien a partir del ya escogido. Por ejemplo, podr´ıamos seleccionar un n´umero al azar de entre los primeros 100. Supongamos que el elegido es el 40. Entonces, escogemos los nombres del directorio que corresponden a los n´umeros 40, 140, 240, 340 y as´ı sucesivamente. ◭

En general, un muestreo sistem´atico se analiza de la misma manera que un muestreo aleao-torio simple, ya que, en relaci´on al asunto que se estudia, la lista de la poblaci´on ya est´a en orden aleatorio. El peligro es que pueda haber alg´un sutil e inesperado v´ınculo ente el orden de la poblaci´on y el asunto que se estudia. Por este motivo, al emplear un muestreo sistem´atico puede inducirse un sesgo. En otras palabras, no debe utilizarse un muestreo sistem´atico si existe un patr´on o arreglo que se relacione con el elemento de inter´es.

(19)

✍ Ejercicios de la secci´

on 1.1

1. Use el primer d´ıgito de la quinta fila de la tabla aleatoria del ap´endice como punto de partida y, movi´endose horizontalmente a la derecha, seleccione una muestra aleatoria de tama˜no 13 de la lista de los estudiantes de su curso de Estad´ıstica.

2. Simule el lanzamiento de un moneda 12 veces usando la tabla aleatoria del ap´endice. Em-piece con el tercer d´ıgito de la sexta fila y mu´evase verticalmente hacia abajo.

3. Un distribuidor de computadores nuevos quiere obtener una muestra aleatoria de 20 opin-iones relativas a un ´ultimo modelo, de entre 85 clientes a partir de la lista de direcciones de quienes compraron computadores nuevos el a˜no pasado. Explique c´omo podr´ıa seleccionarse la muestra con la ayuda de una tabla de n´umeros aleatorios.

3. Asignemos un n´umero de dos d´ıgitos de 00 a 84 a cada uno de los 85 clientes. Luego, desde un punto aleatorio de partida en la tabla, nos movemos horizontalmente a la derecha hasta escoger 20 clientes.

4. Consideren las primeras diez filas de la tabla aleatoria del ap´endice y anote la frecuencia con la que figura cada d´ıgito. ¿Cu´antas veces esperar´ıa usted que aparezca cada n´umero? 5. Para el ejercicio 4, ¿piensa usted que la variaci´on entre las frecuencias observadas y la

frecuencia de cada d´ıgito indica una variaci´on debido al error muestral? Complete la tabla adjunta y encuentre el promedio de los errores muestrales.

D´ıgito Frecuencia Frecuencia esperada Error muestral 0 1 2 3 4 5 6 7 8 9

6. Comience con el primer d´ıgito de la sexta fila y mu´evase horizontalmente a la derecha, en la tabla aleatoria del ap´endice, para elegir una muestra aleatoria de 12 lanzamientos de un dado. Construya una tabla semejante a la del ejercicio 5 y encuentre el promedio de los errores muestrales

7. ¿Dan lugar los siguientes procedimientos a muestras aleatorias? Explique por qu´e s´ı o por qu´e no.

(a) Para obtener una muestra aleatoria de profesores en un grupo, escoja a todos los que tienen carro.

(20)

(b) Para lograr una muestra aleatoria de habitantes de cierta ciudad elija a cada cuarta persona que entra por la puerta de una de las tiendas de la ciudad.

(c) Para conseguir una muestra aleatoria de los estudiantes matriculados en cierta universi-dad, selecci´onelos usando una tabla de n ´umeros aleatorios y los ´ultimos cuatro d´ıgitos de su carnet de estudiante.

7. (a) No (b) No (c) S´ı

8. Se va a escoger una muestra de 5 administradores en una poblaci´on de 200 para participar en una capacitaci´on.

(a) Etiquete a los maestros de 001 a 200. ¿Cu´ales se escoger´an para la capacitaci´on si se usa la tabla aleatoria del ap´endice y el punto de partida es el primer d´ıgito de la cuarta fila en la segunda columna y los d´ıgitos se leen horizontalmente para la derecha? (b) Un proceso m´as eficiente de la selecci´on requiere clasificar a los administradores como en

la parte (a), y asignar los n´umeros 001, 201, 401, 601 y 801 al primer maestro, 002, 202, 402, 602 y 802 al segundo, 003, 203, 403, 603 y 803 al tercer maestro..., y 200, 400, 600, 800 y 000 al ´ultimo maestro. Escoja una muestra aleatoria de cinco administradores usando este esquema y empezando en el mismo punto.

9. ¿Constituye la muestra no ordenada (1,3,5,7,9) una muestra aleatoria de la poblaci´on de todos los n´umeros enteros del 1 al 10, inclusive? Explique.

9. No.

1.2

Estad´ısticos y distribuciones muestrales

A partir de esta secci´on, nos centraremos en m´etodos para analizar los resultados muestrales con el fin de obtener informaci´on acerca de la poblaci´on. Por el momento nos limitaremos a muestras que hayan sido seleccionadas mediante esquemas de muestreo aleatorio simple (v´ease la definici´on 1.1.10). Sin embargo, como ya se explicado en la secci´on 1.1.2, ´este no es el ´unico procedimiento que existe para elegir individuos de la poblaci´on, y que, en determinadas circunstancias, pueden resultar preferibles esquemas de muestreo alternativos. El principio de aleatorizaci´on en la selecci´on de los miembros de la muestra proporciona cierta protecci´on contra la presencia en la muestra de individuos no representativos de la poblaci´on, en el sentido de que, en media, si se extraen repetidas muestras de la poblaci´on seg´un este mecanismo, ning´un subgrupo particular deber´ıa estar m´as representado en la muestra. Adem´as, el concepto de distribuci´on muestral nos permite determinar la pro-babilidad de que la muestra particular que se ha obtenido no sea representativa en un determinado grado.

(21)

de la poblaci´on de la que procede la muestra. La distribuci´on de todos los valores de inter´es de esta poblaci´on puede ser representada a trav´es de una variable aleatoria. Ser´ıa demasi-ado ambicioso pretender describir completamente la distribuci´on poblacional bas´andonos en una peque˜na muestra aleatoria de observaciones. Sin embargo, s´ı seremos capaces de hacer inferencias bastante firmes sobre algunas de las caracter´ısticas m´as importantes de la distribuci´on poblacional como se ilustra en el siguiente

Ejemplo 1.2.1 Dada una muestra aleatoria de consumo de combustible de 20 autos de un deter-minado modelo, se puede hacer inferencia sobre la media y la varianza del consumo de combustible de todos los autos de ese modelo. Tal inferencia estar´a basada en la informaci´on muestral, y ser´a natural plantearnos cuestiones del tipo: “Si el consumo de combustible de todos los autos de un determinado modelo, medido en kil´ometros por litro, tiene una media de 10 y una desviaci´on est´andar de 2, ¿cu´al es la probabilidad de que, en una muestra aleatoria de 18 autos de ete tipo, el consumo medio de combustible sea menor de 8 kil´ometros por litro?”. Al plantearnos la pregunta de este modo, estamos asumiendo impl´ıcitamente que las inferencias sobre la media poblacional estar´an basadas en la media muestral. ◭

Es importante distinguir entre las caracter´ısticas poblacionales y sus correspondientes can-tidades muestrales. En el ejemplo 1.2.1, el c´onsumo de combustible de todos los autom´oviles de ese modelo tendr´a una distribuci´on con una determinada media. Esta media, que es un atributo, se extrae una muestra de la poblaci´on y se calcula su media muestral. Puesto que para cada muestra que se extraiga se obtendr´a un valor diferente de la media muestral, podemos pensar en esta cantidad como en una variable aleatoria con una cierta distribuci´on de probabilidad. La distribuci´on de probabilidades de los posibles resultados muestrales proporciona una base para realizar inferencias sobre la poblaci´on. Nuestro objetivo en este cap´ıtulo ser´a examinar las propiedades de distribuciones muestrales de este tipo.

Definici´on 1.2.2 Supongamos que se ha extra´ıdo una muestra aleatoria de una poblaci´on y que se desea hacer inferencia sobre ciertas caracter´ısticas de la distribuci´on de la poblaci´on. Esta inferencia estar´a basada en alg´un estad´ıstico muestral, es decir, en alguna funci´on particular de la informaci´on muestral.

Matem´aticamente, un estad´ıstico muestral puede definirse de la siguiente manera: Sean X1, . . . , Xn variables aleatorias de tal forma que el vector aleatorio (X1, . . . , Xn) conforme una muestra aleatoria extraida de alguna poblaci´on. Entonces, un estad´ıstico muestral para esta muestra es un func´ıon que depende s´olo de las variables aleatoriasX1, . . . , Xn.

Algunos ejemplos t´ıpicos de estad´ısticos son la media muestral, la mediana muestral, la moda muestral, el rango muestral, la varianza muestral, la desviaci´on est´andar muestral y la proporci´on muestral, entre otros.

(22)

Debido a que un estad´ıstico muestral tambi´en es una variable aleatoria (por ser funci´on de variales aleatorias), entonces, ese estad´ıstico posee una distribuci´on. Esto conduce a la siguiente

Definici´on 1.2.3 La distribuci´on de un estad´ıstico muestral recibe el nombre de dis-tribuci´on muestral, o distribuci´on en el muestreo y se define como la distribuci´on de probabilidades de los valores que puede tomar el estad´ıstico a lo largo de todas las posibles muestras con el mismo n´umero de observaciones que pueden ser extra´ıdas de la poblaci´on. Para ilustrar la importancia del concepto de distribuci´on muestral, consideremos el siguiente

Ejemplo 1.2.4 Supongamos que un supervisor tiene a su cargo a seis empleados, cuyas experien-cias (medidas en a˜nos de trabajo) son 2, 4, 6, 6, 7 y 8. Se eligen al azar cuatro de estos empleados y se les asigna una nueva tarea. F´acilmente se puede determinar que el n´umero medio de a˜nos de experiencias para los seis empleados es 5,5. Estamos interesados en el n´umero medio de a˜nos de experiencia para los cuatros empleados concretos a los que se les ha asignado el cambio de tarea. Podemos pensar en este ejemplo como en una muestra aleatoria simple de cuatro valores extra´ıdos de una poblaci´on de seis. El n´umero de muestras diferentes que pueden ser seleccionadas es 64 = 15. En la tabla 1.5 aparece cada una de las posibles muestras con su correspondiente media muestral. Las muestras como (2, 4, 6, 7) aparecen dos veces porque hay dos empleados en la poblaci´on con seis a˜nos de experiencia de trabajo.

Tabla 1.5: Posibles muestras de cuatro observaciones con sus correspondientes medias mues-trales para la poblaci´on 2, 4, 6, 6, 7 y 8.

Muestra Media muestral Muestra Media muestral

2,4,6,6 4,50 2,6,7,8 5,75 2,4,6,7 4,75 2,6,7,8 5,75 2,4,6,8 5,00 4,6,6,7 5,75 2,4,6,7 4,75 4,6,6,8 6,00 2,4,6,8 5,00 4,6,7,8 6,25 2,4,7,8 5,25 4,6,7,8 6,25 2,6,6,7 5,25 6,6,7,8 6,75 2,6,6,8 5,50

Puesto que todas las posibles muestras tienen la misma probabilidad de ser seleccionadas, la probabilidad que tiene cada una de las muestras de ser elegidas es 1/15. Usando esta informaci´on, podemos determinar la probabilidad de cada uno de los valores de la media muestral. Para ello, podemos construir la distribuci´on de frecuencias de la media, como se muestra en la tabla 1.6. Por ejemplo, en la tabla 1.5, vemos que tres de las posibles muestras tienen media 5, 75; dos de las posibles muestras tienen media 5, 25, etc. Por tanto, la probabilidad de que los cuatros empleados

(23)

Tabla 1.6: Distribuci´on de frecuencias para las medias muestrales de la tabla 1.5 Media muestral 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75

Frecuencia 1 2 2 2 1 3 1 2 2

seleccionados para la nueva tarea tangan una experiencia media de 5,75 a˜nos es de 3/15. De la misma forma podemos encontrar la probabilidad de cada una de las posibles medias muestrales. La colecci´on de todas estas probabilidades constituye la distribuci´on muestral de la media muestral.

La forma m´as simple de describir esta distribuci´on es, posiblemente, a trav´es de su funci´on de probablidad. Si representamos la media muestral por X, a un posible valor de X por x y a la correspondiente funci´on de probabilidad de X por fX, entonces, la distribuci´on muestral de X es como se muestra en la tabla 1.7

Tabla 1.7: Distribuci´on de probabilidades para la media muestral

x 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75

fX 1/15 2/15 2/15 2/15 1/15 3/15 1/15 2/15 2/15

El gr´afico de esta funci´on de probabilidad aparece en la figura 1.1.

Figura 1.1: Funci´on de probabilidad de la distribuci´on de la distribuci´on muestral de la media de cuatro observaciones extra´ıdas de la poblaci´on 2, 4, 6, 6, 7 y 8.

N´otese que, mientras que el n´umero de a˜nos de trabajo de los seis trabajadores se mueve entre dos y ocho, los valores posibles de la media muestral tienen un rango mucho m´as restringido: de

(24)

4,5 a 6,75. Adem´as, la mayor parte de la probabilidad se sit´ua en la zona central de este rango. ◭

En la siguiente secci´on, analizaremos la distribuci´on muestral de la media muestral para poblaciones m´as generales.

✍ Ejercicios de la secci´

on 1.2

10. Suponga que de la poblaci´on de valores 2, 5 y 12 se toman nueve muestras de tama˜no 2 con reemplazo.

(a) Construya una distribuci´on de frecuencias para las nueve sumas muestrales.

(b) Verifique que la media de la distribuci´on muestral de la suma muestral est´a dada por µ1 = nµ.

(c) Verifique que el error est´andar de la suma muestral est´e dado por σ1 =√nσ.

11. Cierto juguete se vende en tres tama˜nos: de 25, 40 y 65 cent´ımetros. Veinte por ciento de los compradores seleccionan el juguete de 25 cent´ımetros, 50% el de 40 cent´ımetros y 30% el de 65 cent´ımetros. Sean X1 y X2 los tama˜nos de juguete seleccionados por dos

compradores independientes. Determine la distribuci´on muestral de la media muestral X, calcule su media E(X) y comp´arela con la media poblacional µ.

11. E(X) = 44, 5 = µ

12. Hay dos retenes de control en mi viaje hacia otra otra ciudad. Suponga que X1 es el n´umero

de retenes en los que debo detenerme y que la distribuci´on de X1 es:

x1 0 1 2

p(x1) 2 5 3

Adem´as, la media y varianza poblacional son µ = 1, 1 y σ2 = 0, 49, respectivamente. Sea X2 el n´umero de retenes en los que debo detenerme al regresar a casa; X2 es independiente

de X1, de modo que X1, X2 es una muestra aleatoria de taman˜no n = 2.

(a) Sea X = X1+ X2 y determine la distrubuci´on de probabilidad de X.

(b) Calcule µX. ¿C´omo se relaciona con µ?

(c) Calcule σX2. ¿C´omo se relaciona σ2?

13. Considere la situaci´on que se plante´o en el ejercicio 11. Determine la distribuci´on muestral de la varianza muestral S2, calcule E(S2) y comp´arela con σ2.

(25)

14. Se sabe que 80% de todos los estudiantes de cierta universidad son de estrato medio-bajo. Suponga que n = 10 estudiantes se seleccionan al azar y sea X la variable aleatoria que representa el n´umero de estudiantes del estrato medio-bajo en la muestra. El estad´ıstico. Obtenga la distribuci´on muestral del estad´ıstico X/n, que es la proporci´on muestral de estudiantes del estrato medio-bajo en la muestra. [Sugerencia: un posible valor de X/n es 0,3 y corresponde a X = 3. ¿Cu´al es la probabilidad de este valor (qu´eclase de variable aleatoria es X)?]

15. Sea X la variable aleatoria que representa el n´umero de clientes que entran a una tienda. Suponga que la distribuci´on de X es:

x 1 2 3 4

f (x) 0,4 0,3 0,2 0,1

(a) Considere una muestra aleatoria de tama˜no n=2 clientes y sea X el n´umero medio muestral de paquetes enviados. Obtenga la distribuci´on de probabilidad de X.

(b) Considere el inciso (a) y calcule P (X ≤ 2, 5)

(c) En otra considere una muestra aleatoria de tama˜no n=2, pero ahora conc´entrese en el estad´ıstico R = “rango muestral (diferencia entre los valores m´aximo y m´ınimo de la muestra)”. Obtenga la distribuci´on de R. [Sugerencia: calcule el valor de R para cada resultado y utilice las probabilidades del inciso (a).]

(d) Si se selecciona una muestra aleatorio de tama˜no n = 4, ¿cu´al es P (X ≤ 1, 5)? [Sug-erencia: no deben tener una lista de todos los posibles resultados, sino s´olo para los que x ≤ 1, 5.]

15. (b) 0,85

16. Una gaveta contiene diez cajas selladas y numeradas del 1 al 10. Las primeras cinco est´an vac´ıas, las siguientes tres contienen 5 d´olares cada una, y hay un billete de 10 d´olares en cada una de las dos ´ultimas. Se selecciona una muestra de tama˜no 3 con reemplazo (de modo que tenemos una muestra aleatoria) y se obtiene la max´ıma cantidad en cualesquiera de las cajas seleccionadas. Si X1, X2 y X3 son variables aleatorias que representan las

cantidades de las cajas seleccionadas, el estad´ıstico de inter´es es M = “el m´aximo de X1,

X2 y X3”.

(a) Obtenga la distribuci´on de probabilidad de este estad´ıstico.

(b) Describa c´omo realizar´ıa un experimento de simulaci´on para comprar las distribuciones de M para varios tama˜nos muestrales. ¿C´omo sabr´ıamos que la distribuc´ıon cambiar´ıa medida que n aumenta?

17. Una casa comercial se compone de tres sucursales, cada una manejada por dos trabajadores. La informaci´on de salarios anuales (en miles de d´olares) es:

Sucursal 1 1 2 2 3 3

Trabajador 1 2 3 4 5 6 Salario 19,7 23,6 20,2 23,6 15,8 19,7

(26)

(a) Suponga que dos empleados se seleccionan al azar de entre los seis (sin reemplazo). Determine la distribuci´on muestral del salario medio muestral X.

(b) Suponga que una de las tres sucursales se selecciona al azar y que X1 y X2son variables

aleatorias que representan los salarios de los dos trabajadores. Determine la distribuci´on muestral de X.

(c) ¿C´omo se compara E(X) de los incisos (a) y (b)con el salario medio poblacional µ.

1.3

Distribuci´

on muestral de la media

La media y la varianza de medias muestrales

En esta secci´on Supondremos que se ha extra´ıdo una muestra de n observaciones de una poblaci´on con media µ y varianza σ2. Antes de que la muestra haya sido observada, habr´a incertidumbre sobre los resultados. Esta incertidumbre es consecuencia del hecho de que cada uno de los miembros de la muestra es una variable aleatoria con media µ y varianza σ2. Nuestro objetivo primordial es analizar la distribuci´on muestral de la media muestral X. Un punto de partida obvio es determinar la media µX y la varianza σ2

X de esta distribuci´on. La correspondiente desviaci´on est´andar σX se conoce como error est´andar de X. Primero consideraremos el caso en que la poblaci´on es finita.

Teorema 1.3.1 Supongamos que la poblaci´on en donde se hace el muestreo es finita de tama˜no N .

(a) Cuando el muestreo se hace con reemplazo, entonces,

• La media µX de la distribuci´on muestral de X es igual a la media de la poblaci´on en que se toma la muestra, es decir, µX = µ.

• La varianza σ2

X de la distribuci´on muestral es igual a la varianza de la poblaci´on dividida por el tama˜no de la muestra, es decir, σ2

X = σ2

n. (b) Cuando el muestreo se hace sin reemplazo, entonces,

• La media µX de la distribuci´on muestral de X es igual a la media de la poblaci´on en que se toma la muestra, es decir, µX = µ.

• La varianza σ2

X de la distribuci´on muestral es igual a σ2

n

 N −n N −1.

Ejemplo 1.3.2 Supongamos que se eligen muestras de tama˜no 2 de una poblaci´on de tama˜no 3 con valores 0, 2 y 4.

(27)

(a) Si el muestreo se hace con reemplazo, entonces, verifique el teorema 1.3.1a. (b) Si el muestreo se hace sin reemplazo, entonces, verifique el teorema 1.3.1b.

SOLUCI ´ON:

En este caso, n = 2 y N = 3. F´acilmente se puede encontrar que la media µ y varianza σ2 poblacional est´an dadas por

µ = 0 + 2 + 4 3 = 2 y σ 2 = (0 − 2)2+ (2 − 2)2+ (4 − 2)2 3 = 8 3,

respectivamente. Ahora, distinguiremos los casos en que el muestreo se hace con o sin reemplaza-miento.

(a) Si el muestreo se hace con reemplazo, entonces, las posibles muestras que se pueden escoger son

(0, 0), (0, 2), (0, 4), (2, 0), (2, 2), (2, 4), (4, 0), (4, 2), (4, 4).

Ahora, obtenderemos los posibles valores x de la media muestral X. Estos se encuentran reunidos en siguiente tabla:

Muestras (0,0) (0,2) (0,4) (2,0) (2,2) (2,4) (4,0) (4,2) (4,4)

x 0 1 2 1 2 3 2 3 4

Por consiguiente, la variable aleatoria X tiene 9: valores 0, 1, 2, 1, 2, 3, 2, 3 y 4. Por tanto, la media µX de la distribuci´on muestral de X es igual a

µX = 0 + 1 + 2 + 1 + 2 + 3 + 2 + 3 + 4

9 = 2 = µ,

es decir, µX = µ. La varianza σX2 de la distribuci´on muestral es igual a

σX2 = (0 − 2)

2+ (1 − 2)2+ (2 − 2)2+ · · · + (3 − 2)2+ (4 − 2)2

9 =

4 3.

Debido que σn2 = 8/32 = 43, entonces, σ2 X =

σ2

n. De eta forma queda verificada la parte (a) del

teorema 1.3.1.

(b) Supongamos que el muestreo se hace sin reemplazamiento. Debemos considerar dos casos: el muestreo es con orden o sin orden.4

• Primer caso: El muestreo se hace sin reemplazamiento, pero con orden. En este caso, las posibles muestras que se pueden escoger son

(0, 2), (0, 4), (2, 0), (2, 4), (4, 0), (4, 2).

Los posibles valores x de la media muestral X se encuentran reunidos en la siguiente tabla:

(28)

Muestras (0,2) (0,4) (2,0) (2,4) (4,0) (4,2)

x 1 2 1 3 2 3

Por consiguiente, en este caso, la variable aleatoria X tiene 6 valores: 1, 2, 1, 3, 2 y 3. Por tanto, la media µX de la distribuci´on muestral de X es igual a

µX = 1 + 2 + 1 + 3 + 2 + 3

6 = 2 = µ. La varianza σ2

X de la distribuci´on muestral es igual a

σ2X = (1 − 2) 2+ (2 − 2)2+ (1 − 2)2+ (3 − 2)2+ (2 − 2)2+ (3 − 2)2 6 = 2 3. Debido que σ2 n  N − n N − 1  = 8/3 2  3 − 2 3 − 1 = 2 3, entonces, σ2 X = σ2 n  N −n

N −1. De esta forma queda verificada la parte (b) del teorema

1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero teniendo en cuenta el orden.

• Segundo caso: El muestreo se hace sin reemplazamiento, pero sin orden.

En este caso, hay Nn = 32 = 3 posibles muestras que se pueden escoger y son (0, 2), (0, 4) y (2, 4). Como antes, reuniremos los posibles valores x de la media muestral X en una tabla como la que se muestra a continuaci´on:

Muestras (0,2) (0,4) (2,4)

x 1 2 3

Por consiguiente, en este caso, la variable aleatoria X tiene 3 valores: 1, 2 y 3. Por tanto, la media µX de la distribuci´on muestral de X es igual a

µX = 1 + 2 + 3

3 = 2 = µ. La varianza σ2X de la distribuci´on muestral es igual a

σX2 = (1 − 2) 2+ (2 − 2)2+ (3 − 2)2 3 = 2 3. Debido que σ2 n  N − n N − 1  = 8/3 2  3 − 2 3 − 1 = 2 3, entonces, σ2 X = σ2 n  N −n

N −1. De esta forma queda verificada la parte (b) del teorema

1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero sin tener en

cuenta el orden. ◭

El factor N −n

N −1 se denomina factor de correcci´on (de poblaci´on finita). Podemos pasarlo por alto si el tama˜no n de la muestra es peque˜no en relaci´on con el tama˜no N de la poblaci´on. Si N es mucha m´as grande que n, la diferencia entre σn2 y σn2 N −n

N −1 

(29)

se puede despreciar. Una regla de uso muy frecuente establece que el factor de correcci´on de poblaci´on finita se puede pasar por alto cuando cuando Nn ≤ 0, 05, es decir, cuando la muestra contiene menos del 5% de los elementos de la poblaci´on.

Como hasta ahora hemos concentrado nuestra atenci´on en el caso en que el muestreo se hace en una poblaci´on finita, podr´ıamos preguntarnos qu´e resultados se obtienen cuando el muestreo se hace en una poblaci´on infinita. El muestreo con reemplazamiento en una poblaci´on finita es equivalente al muestreo en una poblaci´on infinita. Por tanto, los resul-tados analizados en el teorema 1.3.1a se pueden aplicar tambi´en al caso de un muestreo hecho en una poblaci´on infinita. Es decir,

Teorema 1.3.3 Cuando el muestreo se hace en una poblaci´on infinita, entonces, sin im-portar si el muestreo es con o sin reemplazo, se tiene que

• La media µx de la distribuci´on muestral de x es igual a la media de la poblaci´on en que se toma la muestra, es decir, µx = µ.

• La varianza σ2

x de la distribuci´on muestral es igual a la varianza de la poblaci´on dividida por el tama˜no de la muestra, es decir, σ2

x = σ

2

n (con la condici´on de que la poblaci´on en que se toma la muestra tenga una varianza conocida).

Para tener una visi´on global de los resultados presentados en los teoremas 1.3.1 y 1.3.3, podemos reunir estos resultados en una tabla como la que se muestra en la tabla 1.8.

Tabla 1.8: µX y σ2

X cuando la poblaci´on es normal con σ

2 conocida µX = µ Poblaci´on finita Poblaci´on infinita Muestreo con reemplazo σ2

X = σ2

n σX2 =

σ2

n

Muestreo sin reemplazo σ2 X = σ2 n  N −n N −1  σ2 X = σ2 n

Hemos visto ya de qu´e manera se pueden determinar la media y la varianza de la distribuci´on de las medias muestrales sin calcularlar realmente. Ahora deseamos investigar la forma funcional de las distribuciones de medias muestrales. Vamos a distinguir dos casos: el caso de tener muestras grandes y el de tener muestras peque˜nas.

(30)

1.3.1

El caso para muestras grandes

En este caso, determinaremos la forma de la distribuci´on muestral de la media muestral suponiendo que se cumple alguna de las tres condiciones:

• La poblaci´on es normal con varianza conocida.

• La poblaci´on es normal con varianza desconocida y el tama˜no de la muestra es grande. • La forma de la poblaci´on es desconocida (o no normal), su varianza es conocida o

desconocida y el tama˜no de la muestra es grande.

Teorema 1.3.4 Sea x la media de una muestra aleatoria de tama˜no n tomada de una poblaci´on con media µ y varianza σ2 > 0. Supongamos que se cumple alguna de las sigu-ientes condiciones:

(a) La poblaci´on es normal y σ2 es conocida (no importa el tama˜no de n); (b) La poblaci´on es normal, σ2 es desconocida y n ≥ 30;

(c) La forma de la poblaci´on es desconocida (o no normal), σ2 es conocida o desconocida y n ≥ 30.

Entonces, la distribuci´on muestral de la media muestral X es normal con media µX y varianza σ2

X, calculadas de acuerdo a los casos mostrados en los teoremas 1.3.1 y 1.3.3.

Como consecuencia de este teorema, se puede concluir que la variable aleatoria Z = X−µX

σX est´a distribuida normalmente con media 0 y varianza 1. Adem´as, en los casos en que la varianza sea desconocida yn ≥ 30, reemplazamos la desviaci´on poblacional σ por la desviaci´on muestral s.

A continuaci´on, explicaremos con ejemplos la utilidad de los resultados presentados en el teorema 1.3.4.

Ejemplo 1.3.5 Supongamos que el incremento porcentual de los salarios de los funcionarios de todas las corporaciones medianas se distribuye siguiendo una normal con media 12, 2% y desviaci´on t´ıpica 3, 6%. Se toma una muestra aleatoria de nueve observaciones de esta poblaci´on de incremen-tos porcentuales de salario. ¿Cu´al es la probabilidad de que la media muestral sea mayor del 10%?

SOLUCI ´ON:

Tenemos que µ = 12, 2, σ = 3, 6 y n = 9. Nos piden calcular P (X > 10). Como no conocemos el tama˜no de la poblaci´on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´andar de la distribuci´on muestral de X son

µX = µ = 12, 2 y σX = √σ n =

3, 6 √

(31)

Por consiguiente, la probabilidad requerida es P (X > 10) = P  X − µX σX > 10 − µX σX  = P  Z > 10 − µX σX  = P  Z > 10 − 12, 2 1, 2  = P (Z > −1, 83) = 1 − P (Z ≤ −1, 83).

Ahora, como la poblaci´on es normal y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la distribuci´on muestral de la media muestral es normal o, lo que es equivalente, la variable Z tiene normal est´andar (comp´arese con la definici´on ??). Por tanto, teniendo que Φ es la funci´on de distribuci´on normal est´andar, entonces, de la tabla normal del ap´endice, tenemos que

P (X > 10) = 1− P (Z ≤ −1, 83) = 1 − Φ(−1, 83) = 1 − 0, 0336 = 0, 9664 ≈ 97%. Concluimos, entonces, que la probabilidad de que la media muestral sea mayor que un 10% es

aproximadamente del 97%. ◭

Ejemplo 1.3.6 Un fabricante declara que la duraci´on de las buj´ıas que ´el fabrica sigue una distribuci´on normal con una media de 36.000 kil´ometros y una desviaci´on est´andar de 4.000 kil´ometros. Para una muestra aleatoria de dieciseis buj´ıas, se obtuvo una duraci´on media de 34.500 kil´ometros. Si la afirmaci´on del fabricante es correcta, ¿cu´al es la probabilidad de obtener una media muestral tan peque˜na como ´esta o menor?

SOLUCI ´ON:

Tenemos que µ = 36.000, σ = 4.000 y n = 16. Nos piden calcular P (X < 34.500). Como no conocemos el tama˜no de la poblaci´on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´andar de la distribuci´on muestral de X son

µX = µ = 36.000 y σX = σ n =

4.000 √

16 = 1.000.

Por consiguiente, la probabilidad requerida es

P (X < 34.500) = P  X − µX σX < 34.500 − µX σX  = P  Z < 34.500 − µX σX  = P  Z < 34.500 − 36.000 1.000  = P (Z < −1, 5).

Ahora, como la poblaci´on es normal y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la distribuci´on muestral de la media muestral es normal o, lo que es equivalente, la variable Z tiene normal est´andar (comp´arese con la definici´on ??). Por tanto, teniendo que Φ es la funci´on de distribuci´on normal est´andar, entonces, de la tabla normal del ap´endice, tenemos que

P (X < 34.500) = P (Z <−1, 5) = Φ(−1, 5) = 0, 0668 ≈ 6, 68%.

El resultado nos indica que, en el caso de que la afirmaci´on del fabricante fuese correcta, la probabilidad de obtener un valor tan bajo de la media muestral ser´ıa bastante peque˜na. Esto

(32)

introduce ciertas dudas sobre la veracidad de la afirmaci´on. En el cap´ıtulo 3 discutiremos un m´etodo general para contrastar tales afirmaciones o hip´otesis sobre la base de la evidencia muestral. ◭

Ejemplo 1.3.7 Los tiempos requeridos para que unos trabajadores terminen cierta labor, se distribuyen normalmente con media de 30 minutos y una desviaci´on est´andar de 9 minutos. Si de la planta de trabajadores se toma una muestra aleatoria de 25, encuentre la probabilidad de que la media del tiempo requerido para concluir la tarea en la muestra, est´e entre 28 y 33 minutos.

SOLUCI ´ON:

En este ejemplo, µ = 30, σ = 9 y n = 25. Nos piden calcular P (28 < X < 33). Como no conocemos el tama˜no de la poblaci´on, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la media y el error est´andar de la distribuci´on muestral de X son

µX = µ = 30 y σX = √σ n =

9 √

25 = 1, 8. Por consiguiente, la probabilidad requerida es

P (28 < X < 33) = P  28 − µX σX < Z < 33 − µX σX  = P 28 − 30 1, 8 < Z < 28 − 33 1, 8  = P (−1, 11 < Z < 1, 67) = P (Z < 1, 67) − P (Z < −1, 11).

Ahora, como la poblaci´on es normal y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la variable Z tiene normal est´andar. Por tanto, de la tabla normal del ap´endice, tenemos que

P (28 < X < 33) = P (Z < 1, 67) − P (Z < −1, 11) = Φ(1, 67) − Φ(−1, 11) = 0, 819 ≈ 82%. Por consiguiente, la probabilidad pedida es aproximadamente del 82%. ◭

Ejemplo 1.3.8 Un estudio de tr´ansito revela que el n´umero promedio de ocupantes de un auto es 1,75. En una muestra de 50 autos con desviaci´on est´andar 0,65, seleccionada de una poblaci´on normal, encuentre la probabilidad de que el n´umero promedio de ocupantes sea mayor que 2.

SOLUCI ´ON:

Nos piden calcular P (X > 2). Sabemos que µ = 1, 75, n = 50 y s = 0, 65. La media y error est´andar de la distribuci´on muestral de la media es

µX = µ = 1, 75 y σX = s/√n = 0, 092.

Por consiguiente, por el teorema 1.3.4 y teniendo en cuenta la tabla normal del ap´endice, se tiene que P (X ≤ 2) = P  Z ≤ 2 − 1, 750, 092  = P (Z ≤ 2, 72) = 0, 9967. Por lo tanto, la probabilidad pedida estar´a dada por

(33)

Ejemplo 1.3.9 Una empresa emplea 1.500 personas. La cantidad promedio gastada, durante un a˜no determinado, en servicios m´edicos personales por empleado fue de 2.575 d´olares y la desviaci´on t´ıpica de 525 d´olares. ¿Cu´al es la probabilidad de que una muestra aleatoria de 100 empleados (seleccionados sin reemplazo) arroje una media comprendida entre 2.500 y 2.700 d´olares?

SOLUCI ´ON:

Tenemos que N = 1.500, µ = 2.575, σ = 525 y n = 100. Nos piden calcular P (2.500 ≤ X ≤ 2.700). Teniendo en cuenta que la poblaci´on dada es finita y que la varianza poblacional se conoce, en-tonces, por la tabla de la figura 1.8, la media y el error est´andar de la distribuci´on muestral de X son µX = µ = 2.575 y σX =  σ √ n  r N − n N − 1 =  575 √ 100  r 1.400 1.499 ≈ 50, 74. Por consiguiente, la probabilidad requerida es

P (2.500 < X < 2.700) = P  2.500 − µX σX < Z < 2.700 − µX σX  = P 2.500 − 2.575 50, 74 < Z < 2.700 − 2.575 50, 74  = P (−1, 48 < Z < 2, 46) = P (Z < 2, 46) − P (Z < −1, 48). Ahora, como la distribuci´on de la poblaci´on se desconoce y la varianza poblacional es conocida, entonces, por el teorema 1.3.4, la variable Z tiene distribuci´on normal est´andar. Por tanto, de la tabla normal del ap´endice, tenemos que

P (2.500 < X < 2.700) = P (Z < 2, 46) − P (Z < −1, 48) = Φ(2, 46) − Φ(−1, 48) = 0, 9931 − 0, 0694 = 0, 9237.

Por consiguiente, la probabilidad pedida es aproximadamente del 92, 37%. ◭

1.3.2

El caso para muestras peque˜

nas

El teorema 1.3.4 afirma que, bajo ciertas condiciones especiales, la variable Z = X − µX

σX

est´a distribuida normalmente y tiene una media igual a 0 y una varianza igual a 1. Adem´as, tambi´en afirma que, en los casos en que la varianza sea desconocida y n ≥ 30, utilizamos la desviaci´on muestral s como una estimaci´on de σ. Con esto, los teoremas 1.3.1 y 1.3.3 o, mejor dicho, la tabla 1.8, se pueden reformular como se muestra en la tabla 1.9.

Ahora, cuando la la poblaci´on es normal con varianza poblacional desconocida y las mues-tras son peque˜nas (n < 30), entonces, la distribuci´on muestral de la media muestral no es la normal. Este caso, juega un rol bien importante una distribuci´on continua llamada distribuci´on t de Student.

(34)

Tabla 1.9: µX y σ2

X cuando s se usa como estimaci´on de σ

2 desconocida µX = µ Poblaci´on finita Poblaci´on infinita Muestreo con reemplazo σ2

X = s2 n σ 2 X = s2 n

Muestreo sin reemplazo σ2 X = s2 n  N −n N −1  σ2 X = s2 n La distribuci´on t de Student

En 1908, el investigador estad´ıstico W. S. Gosset5 describi´o la distribuci´on de la variable t = x − µs

√n

cuando el muestreo se hace en una poblaci´on que est´a distribuida normalmente. Esta dis-tribuci´on, que se conoce con el nombre de distribuci´on t de Student, nos permite hacer inferencias acerca de medias poblacionales cuando no se conoce la desviaci´on t´ıpica de la poblaci´on.

La dsitribuci´on t, de la misma manera que la distribuci´on normal est´andar, tiene forma de campana y tiene media igual a 0, alrededor de la cual es sim´etrica. Su varianza, en cambio, es mayor que 1, hecho que origina que la t´ıpica distribuci´on t sea menos aguda en el centro y “m´as alta” en las colas que la distribuci´on normal est´andar. La figura 1.2 explica la relaci´on general entre la distribuci´on normal y una distribuci´on t.

El ´area total bajo la distribuci´on t es igual a 1. Hay una distribuci´on t diferente para cada valor de n − 1 (llamado grado de libertad). La figura 1.3 muestra las curvas de la distribuci´on t para varios valores de n − 1.

Hay tablas que se pueden usar en las plicaciones que requieren el uso de la distribuci´on t. Una de estas es la tabla del ap´endice. La columna que est´a m´as a la izquierda de esta tabla contiene diversos valores de n−1, o grados de libertad. Los encabezamientos de las columnas indican qu’e proporci´on del ´area total de la curva de la distribuci´on t, para determinado n´umero de grados de libertada, se encuentra a la derecha del valor correspondiente de t dado en el cuerpo de la tabla, como se muetra en el siguiente

5William Sealy Gosset se gradu´o en matem´aticas en Oxford y trabaj´o en la cervecer´ıa Guinnes Brewerie en Dublin (Irlanda). Gosset escrib´ıa bajo el seud´onimo de Student puesto que los empleados de Guinnes no estaban autorizados para publicar trabajos de investigaci´on con su nombre. En general, ´el desarroll´o una nueva teor´ıa estad´ıstica al trabajar con muestras peque˜nas y en experimentos donde interven´ıan temperaturas en esa cervecer´ıa.

Referencias

Documento similar