1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
UNIDAD DE CIENCIAS BÁSICAS
AUTOR
JORGE ELIECER RONDON DURAN DANIS BRITO ROSADO
100403 – INFERENCIA ESTADÍSTICA
DANIS BRITO ROSADO (Director Nacional)
LIDA ANGELICA VEGA Acreditador
2
COMITE DIRECTIVO
Jaime Alberto Leal Afanador Rector
Gloria Herrera
Vicerrectora Académica
Roberto Salazar ramos
Vicerrector de Medios y mediaciones Pedagógicos
Maribel Córdoba Guerrero Secretaria General
Inferencia Estadística
Primera Versión Copyright
Universidad Nacional Abierta y a Distancia
ISBN
2008
3
CAMPOS DE FORMACIÓN Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72 Horas
TIPO DE CURSO Teórico CÓDIGO:100403 ACOMPAÑAMIENTO TUTORIAL: 24 Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la inferencia estadística en diversos campos de su saber formativo, y que dicha aplicación se convierta en una herramienta de uso matemático para la toma de decisiones sobre hipótesis cuantitativas de datos, basado en la información extraída de una muestra.
OBJETIVOS ESPECÍFICOS:
Que el estudiante identifique las técnicas y procedimientos que se deben emplear para que las muestras sean representativas de la población que se pretende estudiar, de forma que los errores en la determinación de los parámetros de la población objeto de estudio sean mínimos.
Que el estudiante comprenda el comportamiento de una población a partir del análisis metódico de una muestra aleatoria de la misma, y que entienda que la inferencia inductiva de los parámetros estadísticos que estime sobre dicha muestra, conlleva un error, el cual es posible de ser cuantificado.
Conocer los criterios técnicos que hay que tener en cuenta antes de seleccionar un tamaño de muestra.
Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.
Diferenciar y analizar las ventajas y desventajas de la estimación por intervalos de confianza y las pruebas de hipótesis.
Determinar la prueba o técnica apropiada a aplicar en las diferentes pruebas de hipótesis paramétricas y No paramétricas.
COMPETENCIA GENERAL DE APRENDIZAJE:
Identificar un procedimiento adecuado para seleccionar de una población una parte de ella, con el fin de obtener resultados confiables y poder generalizar los resultados obtenidos a toda la población.
4
conocimiento de la teoría elemental del muestreo y de las distribuciones muestrales.
Plantear y desarrollar el proceso de la inferencia estadística para resolver problemas concretos de investigación en el ámbito de otras disciplinas.
Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia estadística de estimación y prueba de hipótesis en el marco de la modelación.
5 UNIDADES DIDÁCTICAS:
UNIDAD UNO: MUESTREO, DISTRIBUCION MUESTRAL E
INTERVALOS DE CONFIANZA 8
CAPÍTULO 1. TEOREMA GENERAL DE MUESTREO 9
Lección 1: Conceptos Cásicos 10
Lección 2: Clases de muestreo 15
Lección 3: Tipos de selección de muestras 26
Lección 4: Métodos de Inferencia: Paramétrico y No paramétrico 28 Lección 5: Estimadores y propiedades de los estimadores 29
Ejercicios 31
CAPÍTULO 2: DISTRIBUCIÓN MUESTRAL: 34
Lección 6: Distribución muestral de la media y de la Proporción 34 Lección 7: Distribución muestral de la diferencias de medias y de
proporciones 40
Lección 8: Teorema Central del Límite 44
Lección 9: Tamaño de la muestra para estimar la media (µ), la Proporción y
el total de la Población 50
Lección 10: Tamaño de la muestra para estimar la diferencia de medias y
la diferencia de Proporciones 57
Ejercicios 59
CAPÍTULO 3. INTERVALOS DE CONFIANZA PARA UNA Y DOS
POBLACIÓNES 61
Lección 11: Nociones Fundamentales 63
Lección 12: Intervalos de confianza para la media y la diferencia de medias
y muestras grandes 74
Lección 13: Intervalos de confianza para la proporción y la diferencia de
proporciones 81
Lección 14: Intervalos de confianza para medias y diferencia de medias y
muestras pequeñas 84
Lección 15: Intervalos de confianza para la varianza 89
Ejercicios 91
6
UNIDAD DOS: PRUEBAS DE HIPÓTESIS, ANÁLISIS DE VARIANZA Y
ESTADÍSTICA NO PARAMÉTRICA 98
CAPÍTULO 4. PRUEBAS DE HIPOTESIS 99
Lección 16: Nociones fundamentales 100
Lección 17: Pruebas para la media y la diferencia de medias y muestras
grandes 102
Lección 18: Pruebas para la proporción y la diferencia de proporciones 112 Lección 19: Pruebas para la media y la diferencia de medias y muestras
pequeñas 120
Lección 20: Pruebas para la varianza 129
Ejercicios 131
CAPÍTULO 5. ANÁLISIS DE VARIANZA 144
Lección 21: Generalidades 145
Lección 22: Análisis de varianza de un factor 151 Lección 23: Comparación múltiple de medias maestrales 156 Lección 24: Análisis de varianza con dos factores 156 Lección 25: Análisis de varianza de dos factores con interacción 162
Ejercicios 178
CAPÍTULO 6. ESTADÍSTICA NO PARAMÉTRICA 200
Lección 26: Generalidades 201
Lección 27: Prueba de la Bondad de Ajuste χ2 202 Lección 28: Prueba bondad de ajuste Kolmogorov- Smirnov 202 Lección 29: Prueba de Rango Con signos: Wilcoxon 203
Lección 30: Prueba U de Man Whitney 204
Lección 31: Prueba de Kruskal Wallis. 204
Ejercicios 205
7
INTRODUCCIÓN
El presente modulo esta dirigido a estudiantes de programas de pregrado que oferta la UNAD, bajo la modalidad de educación superior a distancia.
El material esta estructurado en dos unidades que son las temáticas macro del curso académico.
El contenido de cada una de las partes fue seleccionado, teniendo en cuenta los saberes mínimos que se esperaría debe alcanzar un estudiante de la Universidad Nacional Abierta y a Distancia en el campo de la Inferencia estadística.
La propuesta permite que los estudiantes reconozcan los conocimientos mínimos del curso en mención, que le permita resolver situaciones propias del mismo y además, abordar posteriores temáticas que requieran de éstos conocimientos.
Para el mejor aprovechamiento de este material, se recomienda que el estudiante posea como conocimientos previos: de estadística descriptiva y de la teoría de probabilidad.
El modulo se caracteriza porque en cada lección se presentan ejemplos modelos del tema en estudio, al final de cada capitulo se exponen ejercicios con respuesta, que permite a los estudiantes contextualizarse en diversas áreas del conocimiento, con el fin de fortalecer las temáticas propias del curso.
Al final de cada unidad se presenta una Autoevaluación de un nivel medio-alto, las cuales permiten verificar los alcances de los estudiantes en las temáticas analizadas y detectar las debilidades y así centrarse en éstas, con el fin de alcanzar las metas propuestas.
8
UNIDAD UNO
9 CAPITULO UNO: PRINCIPIOS DE MUESTREO
Introducción
En los estudios de investigación lo primero que se define es el fenómeno a analizar, luego la población objeto de estudio, la cual puede ser finita cuando se conocen todos los elementos, o infinita cuando no se conocen todos los elementos de la misma. Desde estos puntos de vista analizar la población no es práctico, por tiempo y costos, lo que induce a seleccionar una muestra, cuya importancia radica en el proceso de consecución de datos que proporcionan la información suficiente y necesaria a cerca de la población, además que con la muestra se están utilizando menos recursos, debido a que sólo una parte de la población se encuentra bajo observación, lo que resulta significativamente beneficioso sobre todo cuando se trata de poblaciones grandes y dispersa.
Otro aspecto que justifica la decisión de tomar una muestra es en casos donde se debe destruir los elementos de ésta, por ejemplo cuando se desea identificar el grado de vacío de un producto enlatado, la resistencia de un material y otros. En las encuestas de opinión sobre la preferencia de un producto se nota más claramente la utilidad de una muestra en contraste con la población, para conocer las preferencias de los consumidores y poder acomodar rápidamente el sistema de producción a dichos cambios.
Objetivo general
Que los estudiantes identifiquen los principios sobre población y muestra, métodos de muestreo, distribución de muestreo para medias, el teorema central del límite, aplicados al cálculo de tamaños de muestras pertinentes. Objetivos específicos
Comprender los conceptos de población y muestra.
Identificar los diferentes diseños de muestreo y su utilidad en diferentes campos del saber.
Conceptuar una distribución muestra y calcular las estimaciones requeridas, la varianza y el error de estimación para los mismos.
Conocer y comprender los elementos del teorema central de límite y su utilidad.
Determinar un tamaño de muestra representativo tanto para medias como para proporciones.
10 Lección No 1:Conceptos Básicos
Dentro de la inferencia estadística, el proceso de muestreo permite que a partir de los resultados obtenidos al analizar una muestra, se pueda obtener conclusiones en cuanto a una o varias de las características o parámetros de una población. Esta área de la Estadística, ayuda a determinar la confiabilidad de la inferencia de que los fenómenos observados en la muestra ocurrirán también en la población de donde se selecciona la muestra. Es decir, sirve para estimar la eficacia del razonamiento inductivo con el cual se infiere que lo observado en una parte ser equivalente a lo observado en la población.
Las técnicas de muestreo son importantes en la medida que se utilice en forma adecuada para la situación que se requiera. De las técnicas más conocidas y utilizadas se tienen el Muestro Aleatorio Simple (M.A.S), Muestreo Aleatorio Estratificado (M.A.E), Muestro Sistemático (M.S) y Muestreo por Conglomerados (M.C). Se tratara de analizar estas técnicas, especialmente el M.A.S y M.A.E.
El Éxito en el desarrollo del curso en mención está en los buenos conocimientos previos en Estadística Descriptiva, Probabilidad y, algebra, Trigonometría y Geometría analítica. Lo anterior debido a que se debe predecir resultados o tomar decisiones que tienen un grado de incertidumbre o un grado de error que se debe definir de antemano.
Población y muestra
Existe una serie de términos estadísticos básicos, que son muy utilizados y se requiere sean comprendidos para avanzar en otros temas o unidades, en esta sección se trataron los conceptos de población y muestra.
11 POBLACIÓN O UNIVERSO
Se considera a todo aquello sobre el que se desea hacer un estudio estadístico. Según el número de unidades, elementos o casos que la constituyen, la población puede ser finita o infinita.
Cuando el número de unidades que integra una población es muy grande, se puede considerar a ésta como una población infinita. La población finita es aquella conformada por un determinado o limitado número de elementos. El investigador define la población objeto de estudio en términos de espacio y tiempo, ya que de esta manera los resultados serán sobre la población definida en el espacio demarcado y en el tiempo definido. Por ejemplo que podemos decir de las siguientes poblaciones:
- Estudiantes del Programa de Ingeniería de Sistemas
- Estudiantes del programa de ingeniería de sistemas de la UNAD
- Estudiantes del programa de Ingeniería de sistemas en la UNAD de los años 2.005, 2.006 y 2.007
Cuál de esas poblaciones estarán mejor definida? Analícelo con su grupo colaborativo y realicen las observaciones al respecto.
El fin fundamental de la Inferencia Estadística es analizar algunas características de la población denominados parámetros. Entre los más importantes tenemos:
N = Tamaño total de la población
Promedio Poblacional
2
Varianza Poblacional
Desviación estándar Poblacional Total Poblacional
p = Proporción Poblacional MUESTRA
Se considera una muestra al subconjunto representativo de la población, que ha sido seleccionada de manera técnica mediante un procedimiento denominado diseño de muestreo, para garantizar que dicha muestra es representativa de la población, es decir, que las unidades seleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de haber sido seleccionadas para el análisis.
12
1. Naturaleza Destructiva: Existen casos donde se requiere destruir los elementos de la muestra para medir la característica, como es el caso de medir la resistencia de un material, el vacío de un producto enlatado, otros. 2. Imposibilidad Física de Medir Todos los Elementos de la Población: Se
sabe que existen poblaciones muy grandes, consideradas infinitas y es casi imposible conocer todos los elementos de la misma.
3. Costos: Estudiar todos los elementos de la población es muy costoso, tanto en tiempo como en dinero, por lo que es más rentable hacer un estudio Muestra. 4. Confiabilidad del Estudio Muestra: Esta demostrado con soporte matemático
que una muestra representativa arroja resultados que permiten inferir sobre la población con una confiabilidad muy alta.
El objetivo fundamental del muestreo es Estimar los parámetros de la población a partir de algunos elementos cuyas mediciones se conocen como Estadísticos.
Los estadísticos más utilizados por su importancia son:
n = Tamaño de la muestra X = Promedio de muestra S 2 Varianza Muestra
S Desviación estándar Muestra à Total Estimado
p = Proporción Muestra UNIDAD DE OBSERVACION:
Son los elementos que se miden; es decir, sobre los que se toman los datos de las variables a medir. En el caso de los hogares, la unidad de observación serán las personas y en el caso de las llantas del automóvil, cada una serán las unidades de observación.
MARCO DE MUESTREO:
13 ERROR DE MUESTREO:
En estadística se sabe que existen diferencias entre lo que se obtuvo en el estudio y lo que se esperaba. En el proceso de estimación es poco probable que la media Muestra sea idéntica a la media poblacional, igual para la varianza y la desviación estándar. El error de muestreo es la diferencia entre el estadístico y el parámetro.
à
Es el parámetroy à es el estadístico. ERROR TOLERABLE:
Se considera el error tolerable al error máximo que se está dispuesto a aceptar y aún considerar que el muestreo ha alcanzado su objetivo. En todo estudio estadístico siempre se considera un error tolerable, partiendo del principio que a menor error tolerable, mayor será el tamaño de la muestra. Si es el parámetro y à es el estadístico, el error tolerable está determinado por B, donde:
error
à
B
ERROR ESTANDAR
14 ESTADSTICO
Un estadístico es una medida usada para describir alguna característica de una muestra, tal como una media aritmética, una mediana o una desviación estándar de una muestra.
PARAMETRO
Una parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población.
Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimación en inferencia estadística puede ser descrito como el proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media muestra (un estadístico) para estimar la media de la población (un parámetro).
ETAPAS EN LA SELECCION DE LA MUESTRA
El todo estudio de muestreo se debe definir las etapas que permiten su desarrollo. Definición del Objeto de Estudio: Comprende la identificación del problema y el establecimiento de las metas que busca el estudio.
Marco de Muestreo: Establecimiento de una metodología para identificar los elementos que estarán en el muestreo, sus características y el modelo que los identifica.
Identificación de Variables: Es pertinente identificar las variables de estudio, para así definir la forma de medición que se haría.
Tamaño de la Muestra: Por medio del modelo de muestreo pertinente seleccionar la muestra representativa, sobre la que se realizarán las mediciones. Unidad de Muestreo: Se debe extraer las unidades de muestreo según el modelo definido que determinan las n unidades maestrales de la población N.
Trabajo de Campo: Son todas las acciones necesarias para obtener la información, definiendo los costos, desplazamientos, herramientas física y logísticas para su realización.
15 ocupa se deben hacer los dos.
Resultados: Con el proceso desarrollado sobre los datos obtenidos, se procede a la emisión de los resultados y la confrontación con las metas propuestas para verificar el grado de eficiencia del trabajo realizado. Es pertinente saber presentar los resultados, ya que un buen trabajo que no se presente de la mejor manera, quedaría oscuro en su información.
Lección No 2: Clases de muestreo
Con los conceptos previos que se han analizado, ahora corresponde estudiar las clases de muestreo. Los dos grandes grupos están enmarcados en las siguientes clases:
- Muestreo probabilístico. - Muestreo no probabilístico. Muestreo No Probabilístico.
Son aquellos muestreos donde los elementos de la muestra se toman al azar, siendo imposible determinar el grado de representatividad de la muestra. Para el caso de una población homogénea, la representatividad de tal muestra puede considerarse satisfactoria.
Por otra parte, en problemas comerciales diarios y en la toma de decisiones que a falta de tiempo no permiten disecar métodos de muestreo probabilístico hay que recurrir a este tipo de muestreo, donde el investigador conoce la población.
Dentro del muestreo no probabilístico se conoce varios tipos: - Muestreo por conveniencia.
- Muestreo por juicio - Muestreo Causa / Efecto - Muestreo por Cuotas
- Muestreo de Poblaciones Móviles MUESTREO POR CONVENIENCIA
16
puede usar alumnos voluntarios para formar la muestra, tan solo porque dispone fácilmente de ellos y participan como elementos a un costo pequeño o nulo. Tiene la ventaja de ser de fácil selección y recolección de sus datos. Tiene la desventaja de no poderse evaluar en su bondad de la muestra en función de la representatividad de la población, motivo por el cual se hace imposible inferir a cerca de la población correspondiente.
MUESTREO POR JUICIO
En este método la persona por experiencia y capacidad selecciona a los individuos u otros elementos de la población, que supone son los más representativos de esa población. Por ejemplo un reportero puede muestrear uno o dos senadores, por considerar que ellos reflejan la opinión general de todos. MUESTREO CAUSA / EFECTO
Se realiza cuando no hay una población definida y se requiere tomar elementos para el estudio en cuestión, caso por el cual se toman los elementos disponibles. MUESTREO POR CUOTAS:
Cuando es necesario obtener una cantidad dada de elementos que constituyen una muestra proporcional a la población, se toman elementos hasta cubrir dicha cuota. El caso de tomar una cantidad de carros en una esquina para hacer un estudio sobre accidentalidad en dicho sitio.
MUESTREO DE POBLACIONES MÓVILES:
Método propio de poblaciones móviles como en estudios de migración ocurridos en un sitio determinado. El caso típico es con animales que migran, donde se hace captura-marca- recaptura.
Muestreo probabilístico
El muestreo aleatorio o muestreo probabilístico, es aquel en que cada uno de los elementos de la población objeto de estudio, tienen una probabilidad matemática conocida, y frecuentemente igual, para ser elegido en la muestra. Dentro del muestreo probabilístico o aleatorio existen cuatro métodos:
1. Muestreo aleatorio simple 2. Muestreo estratificado 3. Muestreo sistemático
17
Una muestra se considera probabilística si cumple con las siguientes condiciones: a) Se pueda definir un conjunto de muestras M1, M2, M3,Ö posibles derivados
del proceso de selección propuesta. Así se puede identificar que unidades de muestreo pertenecen a la muestra M1, M2,Ö
b) A cada muestra posible le debe corresponder una probabilidad de selección conocida P(S).
c) El proceso de selección garantiza que todos los elementos de la población tienen una probabilidad P(yi)>0 de ser elegido en alguna muestra.
d) La selección es un proceso aleatorio que garantiza que cada muestra S tenga una probabilidad P(S) de ser elegida.
Muestreo aleatorio simple
El M A S es la forma má s sencilla de muestreo probabilístico y es la base de técnicas más complejas. La muestra se puede tomar de una población finita o infinita, la cantidad de muestras posibles depende del tipo de diseño y la forma de tomar las muestras. Este tipo de muestreo se utiliza cuando se considera que la población es más o menos homogénea. Como ya sabemos el muestreo puede ser con y sin reemplazamiento.
El marco de muestreo corresponde a la lista codificada de todas las observaciones que hacen parte de la población. La muestra se elige de tal manera que cada observación tiene la misma probabilidad de ser elegida, la elección de una observación NO tiene influencia sobre la elección de otra. Es de aclarar que en el M. A. S. La unidad de muestreo es igual a la unidad de observación.
Para seleccionar los elementos de la muestra se puede utilizar varias técnicas: a) Tabla de números aleatorios: (Ver tabla siguiente). Se enumeran las
18
Ejemplo 1:
Se desea obtener una muestra aleatoria de tamaño n = 10, los elementos de la población están codificados de 1 a 200.
Solución:
Seleccionemos la fila 06 y columna 12345, como punto de inicio y la lectura la hacemos vertical. Se debe escoger los primeros tres dígitos que estén entre 1 y 200, hasta completar el tamaño de la muestra. La lectura será de los tres primeros dígitos de la tabla.
Veamos: El primer número es 884, no se incluye, el segundo es 100, se incluye, el tercero es 007, se incluye, así sucesivamente. Por consiguiente la muestra ser·:
n = 100, 007, 141, 151, 142, 128, 146, 042, 156, 134
Ejemplo 2:
Obtengamos una muestra aleatoria de 6 elementos de una población cuyos elementos están codificados de 01 a 50.
Solución:
Elegimos el punto de inicio de la fila 08 y columna 67890. Lectura del primer dígito y lectura vertical.
19 Fuente: Web
20
elementos se escogen en forma individual y aleatoriamente de la totalidad de la población. Esta selección puede ser sin reemplazamiento, similar a la que se realiza en la extracción aleatoria de números en el juego denominado baloto. Cada elemento que constituye la muestra se selecciona una sola vez, denominándose extracciones sin reposición.
En otras ocasiones, cada elemento puede ser elegido má s de una vez en la misma muestra, como por ejemplo, cuando se selecciona aleatoriamente el número ganador de una lotería, que puede ocurrir ser el mismo número; en estos casos se dice que las extracciones son realizadas con reposición.
Programa de Computador: Utilizando el programa Excel que es el más común se puede desarrollar números aleatorios de la siguiente manera:
Si la población es de N = 1.000 observaciones y se desea una muestra de 20, entonces: Sobre una celda se escribe =ALEATORIO ()*N y se da clic, el sistema genera el primer número aleatorio, se despliega en la parte inferior derecha de la celda del número hasta el tamaño de la muestra definida.
Al dar clic se genera el primer numero aleatorio y desplegando se obtiene los que se desea.
21
De esta manera se obtiene los números aleatorios que se requieren para tomar la muestra aleatoria de la población objeto de estudio. Si se vuelve a hacer el proceso, se obtendrán nuevos números y cada que se realice un nuevo proceso, se generarán diferentes números; esto por lo de Aleatorio.
b) Método de Fan Muller: Se definen los números aleatorios Ó1, Ó2, Ó3,Ö independientes bajo la distribución uniforme u (0,1). Si Ók=1 < n / N. (Siendo N el tamaño de la población y n el tamaño de la muestra), entonces k = 1 es seleccionado para la muestra, en otro caso no. Para los siguientes números k = 2, 3, 4,Ö, nk los seleccionados deben cumplir
k = <
el proceso termina cuando nk = n. N ñ k + 1 es el marco muestral; es decir, el tamaño disponible. Los Ók son generados bajo la distribución uniforme y se comparan con (n ñ nk) / (N ñ k + 1).
c) Coordinado Negativo: El proceso general es de la siguiente manera: - Se adiciona una variable aleatoria U con distribución uniforme U (0, 1) - Se ordena el marco muestral según la distribución U.
- La muestra se forma de los n primeros elementos del marco ordenado Muestreo Aleatorio Estratificado
En el diseño de muestreo probabilístico, es pertinente identificar la población Primer numero
aleatorio.
Se despliega desde la parte inferior derecha hasta completar 20 elementos
22
objeto de estudio, ya que no siempre la variable de análisis es más o menos homogénea. Si se desea analizar la variable peso; por lo general los hombres pesan más que las mujeres, en estratos altos se paga más arriendo que en estratos bajos. En estos y otros muchos casos el M. A. S. no es adecuado. En casos donde la población es muy heterogénea respecto a la variable de estudio el muestreo estratificado es mejor que el muestreo aleatorio simple. La palabra estratificar hace referencia a formar Capias.
Obtenidos los estratos, en cada uno se obtiene la muestra por M. A. S. para el estudio de la variable de interés.
La justificación de seleccionar una muestra por muestreo aleatorio estratificado más que por muestreo aleatorio simple son entre otras.
1. Evitar la obtención de muestras erróneas, tal es el caso de escoger elementos que podrían sesgar el muestreo, por consiguiente se puede perder representatividad de la población.
2. Obtener información precisa de ciertos subgrupos para hacer comparaciones 3. Producir un límite de error de estimación (B) más pequeño, comparado con el
obtenido en el M.A.S. para un mismo tamaño de muestra.
4. Los costos por observación en las encuestas son más reducidos ya que se evitan desplazamientos extremos.
5. Las estimaciones se obtienen por subgrupos así los estratos se hacen identificables.
Como los elementos de los estratos son disyuntos, entonces cada unidad de muestreo pertenece solo a un estrato. Las muestras seleccionadas en los estratos deben ser independientes; es decir, la elegida en un estrato no debe afectar la elección de otra muestra en otro estrato.
La esencia de la estratificación es que ésta saca provecho de la homogeneidad conocida de las su poblaciones, de tal forma sólo se requieran muestras relativamente pequeñas para estimar las características de cada sub-población, estas estimaciones individuales pueden entonces ser fácilmente combinadas para producir una estimación de toda la población; además, la economía en el tamaño de la muestra, un valioso sub-producto del esquema de
23
muestreo estratificado es que las estimaciones obtenidas para diferentes partes de la población se pueden usar posteriormente para hacer comparaciones.
Para una descripción general del muestreo aleatorio estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h su poblaciones o estratos de tamaños conocidos N1, N2,...,Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión.
Partiendo de la población o universo U cuyo tamaño es N, se definen NL estratos.
La media poblacional del estrato, la varianza poblacional del estrato, el total poblacional del estrato y el total poblacional, se obtiene de la siguiente manera:
µ
i=
1= t
i= t
=
p
l=
µN = N1 + N2 +Ö+ NL Nl = Tamaño del estrato l.
x l j = Valor de la observación j en el Estrato l. µl = Media poblacional en el estrato l.
Û2l = Varianza poblacional en el estrato l. Ù l = Total poblacional en el estrato l. p l = Proporción poblacional en el estrato l.
1 Nl
Nl
j=l
X
y (xiy -µ
i)
Nl- 1 NlJ=l
NlX
y j=l
t
lj=l
N1Nµ
j=l
X
li
1 Nl
24
s
l l
En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el estrato l, se puede hacer el siguiente análisis.
nl = Tamaño de la muestra en le estrato l xl = Promedio muestral en el estrato l
2
= Varianza muestral en el estrato l p = Proporción estimada del estrato l
=
sl=
p
l=
µMuestreo Sistemático
Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios, etc., por ser un método directo y económico. Consiste en seleccionar uno a uno, los elementos de la muestra en un orden determinado, dando un inicio aleatorio. La fracción de muestreo se establece por medio de la siguiente relación:
Ejemplo 1
De una población de 1.000 observaciones, se desea tomar una muestra de 10, cuales serían las observaciones que harían parte de la muestra sistemática.
1 Nl
Nl
j=l
X
lj
Donde lj son los elementos j del estrato l
Nlj=l
(xij - i
)
2 Nl- 1Nµ
j=l
X
li
1
Nl = Elementos j del estrato l que tiene la característica
Donde:
25
Solución:
La fracción de muestreo es:
El primer elemento se selecciona aleatoriamente en el intervalo cero a cien, por ejemplo seleccionando el número 25, el segundo elemento que se selecciona es 125 (25+100), luego el 225 (125+100) y así sucesivamente, hasta completar la muestra de diez.
Un problema específico del muestreo sistemático es la existencia de cualquier factor periódico o cíclico en la lista de la población que pudiera conducir a un error sistemático en los resultados muestrales.
Ejemplo: Si en un hospital hay un universo de quince mil cien historias clínicas que están numeradas interrumpidamente y se desea tener una muestra equivalente al 10%, o sea, mil quinientas diez historias, ello significa que ha de tomarse una de cada 10, ya que (15.100 ˜1.510 = 10). La primera historia puede seleccionarse del primer grupo de 10. Si la primera historia seleccionada es la número 8 en la población, teniendo en cuenta que el ocho es un número cualquiera tomado aleatoriamente; la segunda ser· la 18= (8+10) la tercera ser· la 28 = (18 + 10), la cuarta ser· la 38 = (28 + 10), y así sucesivamente.
La estimación y tamaño de muestra tiene un análisis similar al muestreo aleatorio simple M.A.S.
Muestreo Conglomerados
Este es un método de muestreo aleatorio en el que los elementos de la población se dividen en forma natural en subgrupos, de tal forma que dentro de ellos sean lo más heterogéneo posible y entre ellos sean homogéneos, caso contrario al muestreo estratificado.
26
estudiar; otra diferencia es que en este el investigador conoce la distribución de la variable, todo lo contrario que en el muestreo por conglomerado.
El proceso se indica definiendo los conglomerados, después se seleccionan los subconjuntos a estudiar (o sea, que se realiza un muestreo de conglomerados); de estos seleccionados se procede a hacer el listado de las unidades que componen cada conglomerado, continuando posteriormente con la selección de las unidades que integrarán la muestra, siguiendo algunos de los métodos aleatorios indicados.
Si se desea hacer un estudio en las escuelas de educación primaria sobre un determinado fenómeno, inicialmente se seleccionan las escuelas que se estudiarán, de esas escuelas seleccionadas se determinan los grados o clases que deben incluir y posteriormente se escogen los alumnos, que serán las unidades de observación, utilizando uno de los métodos aleatorios. Se estima que las inferencias que se hacen en una muestra conglomerada no son tan confiables como las que se obtienen de un estudio hecho por muestreo aleatorio.
Ejemplo:
Si un analista de la S ecretaría de S alud necesita hacer un estudio de los servicios médico-asistenciales que reciben los trabajadores del área metropolitana, sería difícil obtener una lista de todos los trabajadores de la población objetivo. Sin embargo podría obtenerse una lista de las empresas y fábricas del área. Con esta lista, el analista puede tomar una muestra aleatoria de las empresas o fábricas, que representan conglomerados de trabajadores, y obtener la información de los servicios médicos que se les están prestando.
Lección No 3
: Tipos de Selección de Muestras
27
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al seleccionar dos bolas éstas sean blancas.
Solución:
La probabilidad de que la primera sea negra es: La probabilidad de que la segunda sea negra es:
Selección sin Reemplazamiento: Los elementos elegidos una vez la medición, estos NO vuelven a la muestra, lo que hace que el espacio muestral cambie a medida que se van tomado elementos de la muestra.
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al seleccionar dos bolas estas sean blancas, la selección es sin reemplazamiento
Solución:
La probabilidad de que la primera sea negra es: 4/9 La probabilidad de que la segunda sea negra es: 3/8
Recordemos que una vez elegida la primera, ésta vuelve a la muestra.
Ejemplo:
Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una población hipotética y desea seleccionar muestras con reemplazamiento y sin reemplazamiento de tamaño n=2
Solución:
28
Lección No 4: Métodos de Inferencias: Paramétricos y No Paramétricos
Los procedimientos de inferencia permiten establecer conclusiones acerca de una población, a partir de las propiedades estudiadas en una muestra de ella. Además, como dichas conclusiones dependen de sucesos aleatorios, se les asociará un nivel de confianza o de verosimilitud.
Respecto de los objetivos que resuelven las técnicas de inferencia estadística se clasifican en:
Métodos Paramétrico
Resuelve objetivos relacionados con parámetros de una población, tales como media, varianza, proporción etc. Estos modelos se apoyan en el conocimiento de la distribución de probabilidad asociada a dicha población aunque se desconozca algún parámetro de dicho modelo. Por ejemplo podemos suponer que el número de clientes atendidos por hora en una entidad bancaria sigue un modelo de Poisson pero de parámetro µ desconocido.
Para resolver un problema de inferencia paramétrico se utilizan dos tipos de procedimientos:
Estimación: Puntual cuando obtenemos valores aproximados del parámetro desconocido y una medida de error asociado; por Intervalos cuando obtenemos un rango de valores, que contiene el verdadero valor del parámetro con una probabilidad o confiabilidad prefijada.
Test de Hipótesis: Cuando aceptamos o rechazamos una hipótesis relacionada con uno o varios parámetros de una población desconocidos, con un cierto nivel de error prefijado.
Métodos no paramétrico
29
El término no paramétrico no se significa implicar que tales modelos carecen totalmente parámetros, sino que el número y la naturaleza de los parámetros son flexibles y no fijados por adelantado.
Ventajas y Desventajas
Las pruebas no paramétricas no necesitan suposiciones respecto a la composición de los datos poblacionales. Las pruebas no paramétricas son de uso común:
1. Cuando no se cumplen las suposiciones requeridas por otras técnicas usadas, por lo general llamadas pruebas paramétricas.
2. Cuando es necesario usar un tamaño de muestra pequeño y no es posible verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a información útil para la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de manera cualitativa.
Las pruebas no paramétricas tienen varias ventajas sobre las pruebas paramétricas:
1. Por lo general, son fáciles de usar y entender.
2. Eliminan la necesidad de suposiciones restrictivas de las pruebas paramétricas.
3. Se pueden usar con muestras pequeñas. 4. Se pueden usar con datos cualitativos.
También las pruebas no paramétricas tienen desventajas: 1. A veces, ignoran, desperdician o pierden información. 2. No son tan eficientes como las paramétricas.
Lección No 5: Estimadores y propiedades de los estimadores
30
estimación
Propiedades de un estimador:
El concepto de estimación de parámetros mediante la especificación de las propiedades que deben cumplir los estimadores y el desarrollo de técnicas apropiadas para implementar el proceso de estimación. Se utilizar· el punto de vista práctico de la teoría del muestreo, que considera un parámetro como una cantidad fija pero desconocida.
Para evaluar la calidad de un estadígrafo como un estimador este debe cumplir las siguientes propiedades:
1. Insesgado:
El término in sesgado se refiere al hecho de que una media muestra es igual a un estimador no sesgado de la media de una población, porque la media de la distribución muestra de las medias muéstrales tomada de esa misma población es igual a la media de la población. Se puede decir que un estadígrafo es un estimador no sesgado, si en promedio tiende a asumir valores por encima de los valores que se están estimando, tan frecuentes como tienda a asumir valores que están por debajo del parámetro de la población que se estima.
2. Eficiencia:
La eficiencia se refiere al tamaño del error estándar del estadígrafo de la muestra. Si se comparan dos estadígrafos de una muestra del mismo tamaño y se desea decidir cual de los dos es el estimador más eficiente, se escogerá el estadígrafo que tenga el menor error estándar o desviación de la distribución muestra. Supóngase que se escoge una muestra de un tamaño dado y se decide cuando usar la media muestra o la mediana muestra para estimar la media de la población. Si se calcula el error estándar de la media muestra y se encuentra que es igual a 2.15 y luego se calcula el error estándar de la mediana muestra y se encuentra que es de 2.6, se podrá decir que la media muestra es un estimador más eficiente de la media de la población porque su error estándar es menor o con menos variación, tendrá una mayor oportunidad de producir un estimador más cercano al parámetro de la población bajo estudio.
3. Consistencia:
31
Cuando un estimador es consistente, se vuelve más confiable tomando muestras grandes. De esta manera, cuando usted se preocupa por aumentar el tamaño de la muestra para obtener más información acerca de un parámetro de la población, debe primero encontrar si su estadígrafo es un estimador consistente, si no es así, usted desperdiciará dinero y tiempo al tomar muestras grandes.
Ejercicios: 1
1. En un estudio por muestreo a un lote de envases para un medicamento, con una población de 8000 unidades, Se desea determinar la media de la capacidad de los envases en centímetros cúbicos. Se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión de 0.25 centímetros cúbicos, Y un nivel de significación del 5%, equivalente a un nivel de confianza de 1.96. De que tamaño debe ser la muestra:
R/ta: 238 frascos
2. En cierta cadena de centros comerciales trabajan 150 personas en el departamento de personal, 450 en el departamento de ventas, 200 en el de contabilidad y 100 en el de servicios al cliente. Con el objeto de realizar una encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores. Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad
R/ta: 30, 90, 40, 20
3. Suponga que se quiere estimar el número de días-hombre perdidos debido a accidentes de trabajo en un mes particular. Además se sabe que la mayor parte de dichos accidentes se presentan en los niveles operativo, técnico y administrativo. ¿Cual de los siguientes diseños de muestreo es el más aconsejable?:
R/ta: Estratificado, identificando como estrato los niveles de trabajo
4. Supongamos que en la ciudad “T” hay 200 barrios. Si elegimos al azar dos de estos barrios, de manera que la muestra esté compuesta por todos los individuos de esos dos barrios. Se trata de de:
T/ta: Por conglomerados
5. Se ha proyectado realizar una encuesta sobre el consumo de leche en las familias. El número de familias de la población es 6000 y el tamaño de la muestra 840, con la siguiente clasificación de profesión u oficio:
32
Operarios: 2000 Agricultores: 600 Servicios Generales: 1900 Empleados: 1200
Cuantas familias de agricultores deben estar representados en la muestra. R/ta: 84
6. Supongamos que en la ciudad “T” hay 200 barrios. Si elegimos al azar dos de estos barrios, de manera que la muestra esté compuesta por todos los individuos de esos dos barrios. Se trata de de:
R/ta: Muestreo por conglomerados
7. Con un nivel de confianza del 95% y un error de muestreo del 3%, se quiere estimar el verdadero promedio de consumo de agua diario y la verdadera proporción de familias compuestas por más de 3 miembros por unidad familiar, de una ciudad con 10.000 unidades familiares, durante un periodo estacional seco. Sí se sabe que en el mismo periodo del año anterior en un estudio realizado a través de un muestreo, el consumo promedio diario fue de 42, 5 metros cúbicos, con una variancia de 12,5. El tamaño de muestra necesario es: R/ta: 965
8. Se quiere obtener una muestra sistemática que seleccione estudiantes de un programa y CEAD de la UNAD que tiene 800 de ellos. La variable clave del estudio es dicotómica y se aduce que la proporción es del 20%, además, se quiere un error del 4% y una confiabilidad del 95%.
R/ta: 2; 5; 8; 11; 14; 17;……….
9. Se realiza un estudio para estimar el porcentaje de ciudadanos del Bajo Cauca que están a favor de que su agua se trate con flúor. Qué tan grande debe ser una muestra si se desea tener una confianza de al menos 95% de que la estimación estará dentro del 2% del porcentaje real? Realice las consideraciones necesarias para calcular n
R/ta: 2400 habitantes
10.En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan más a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar.
-Explicar qué procedimiento de selección sería más adecuado utilizar: muestreo con o sin reposición. ¿Por qué? R/ta: Sin reemplazamiento para que sea representativa.
33
anterior utilizando un muestreo estratificado. Determinar el tamaño muestral correspondiente a cada estrato.
R/ta: 25 niños, 70 adultos y 5 ancianos.
11. En cierta cadena de centros comerciales trabajan 150 personas en el departamento de personal, 450 en el departamento de ventas, 200 en el departamento de contabilidad y 100 en el departamento de atención al cliente. Con objeto de realizar una encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores.
-¿Qué tipo de muestreo deberíamos utilizar para la selección de la muestra si queremos que incluya a trabajadores de los cuatro departamentos mencionados?
R/ta: Utilizaremos un muestreo aleatorio estratificado, ya que queremos que haya representantes de cada uno de los departamentos.
-¿Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad?
R/ta: (30,90, 40, 20)
12. Se desea hacer una encuesta para determinar la proporción de familias que carecen de medios económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima a 0´35. Se desea determinar un intervalo de confianza del 95% con un error de estimación de 0´05. ¿De qué tamaño debe tomarse la muestra?
R/ta: n=350.
34
CAPITULO DOS: DISTRIBUCIONES MUESTRALES
Como se ha señalado anteriormente, el propósito del muestreo es averiguar las características de la población en estudio, y cuando se diseña una muestra por uno de los modelos dados. Una distribución muestra es una distribución de probabilidad de un estadístico, calculado a partir de una muestra aleatoria de tamaño n, elegida de manera aleatoria de una población determinada, es decir, se está interesado en conocer una o más de las siguientes características:
La forma funcional.
La media
La desviación estándar
Lección No 6: Distribución Muestral de la Media y de la Proporción:
Los estadísticos obtenidos en una muestra son variables aleatorias, por lo cual deben tener una distribución de probabilidad, así que la media muestral tiene una distribución.
Supongamos que se tiene una muestra aleatoria de tamaño n observaciones, tomada de una población normal N(,2) cada observación X1 = 1, 2, 3, …, n
tendrá la misma distribución que la población de donde fue tomada la muestra.
Teorema:
---
Sea
n X X
X
X 1 2 ... n la media de la muestra aleatoria de tamaño n, proveniente de una población infinita con media y varianza 2
. Entonces:
---
Comentario:
Valor esperado de la media muestral es la media poblacional.
) (X E
) (X E
n X V
2
35
La varianza del estimador es igual a la varianza poblacional dividida por el tamaño de la muestra.
El caso anterior es dado para cuando la población es infinita, pero se pueden presentar los casos donde se conoce la población; es decir, es finita. En estos casos se tiene el siguiente teorema.
Teorema:
---
Sea
n X X
X
X 1 2 ... n la media de la muestra aleatoria de tamaño n, proveniente de una población finita de tamaño N con media y varianza 2
. y Entonces:
---
Comentario:
1 N
n N
Se conoce como el factor de corrección para poblaciones finitas. Cuando
N es muy grande comparado con n, la diferencia se hace despreciable lo que origina que para poblaciones infinitas dicho factor de corrección se hace uno. Ejemplo:
Un Colegio tiene siete profesores, la retribución por hora cátedra es la que se muestra a continuación:
Salario profesores Profesor Salario $ 1
2 3 4 5 6 7
7.000 7.000 8.000 8.000 7.000 8.000 9.000 Cuadro 2.3
n X V
2
) (
) (X E
1 * )
(
2
N n N n X
36
Cuál es la media de la población? Solución:
Se sabe por los conocimientos de estadística descriptiva que:
N i i x N 1 1 Para i = 1, 2, …, 7
Entonces: 3 . 714 . 7 $ 7 54000 7 9000 8000 7000 8000 8000 7000 7000
Cual será la varianza de dicha población.
Solución:
Al igual que el caso anterior, la varianza poblacional esta dada por:
N i i x N 1 2 2 ) ( 1 Entonces: 85 , 699 ) 3 . 7714 9000 ( ... ) 3 . 7714 7000 ( 7 1 1 2 22
N
i
Cuál es la distribución muestral de las medias para muestras de tamaño dos?
Solución:
Para determinar la distribución muestral de las medias, se seleccionaron todas las muestras posibles de tamaño 2, sabiendo que son sin reemplazamiento y que no interesa el orden de selección en la población. Se calculan las medias de cada muestra y se calcula la media de las medias maestrales.
Para saber cuantas muestras posibles se pueden tomar, se utiliza la combinatoria, por los preceptos tomados: Sin repetición y no importa el orden.
2 2142 2 ! 5 ! 5 6 7 ! 2 ! 5 ! 7 ! 2 ! 2 7 ! 7 7
2
37
El valor de 21, es el número de muestras tamaño 2 que se pueden formar de una población de 7 elementos. A continuación se indican las 21 muestras posibles y el valor de la media para cada una de las muestras:
Muestreo sin reemplazamiento y las medias
Muestra Prof. Salario Media Muestra Prof. Salario Media
1 1 y 2 7000-7000 7000 12 3 y 4 8000-8000 8000
2 1 y 3 7000-8000 7500 13 3 y 5 8000-7000 7500
3 1 y 4 7000-8000 7500 14 3 y 6 8000-8000 8000
4 1 y 5 7000-7000 7000 15 3 y 7 8000-9000 8500
5 1 y 6 7000-8000 7500 16 4 y 5 8000-7000 7500
6 1 y 7 7000-9000 8000 17 4 y 6 8000-8000 8000
7 2 y 3 7000-8000 7500 18 4 y 7 8000-9000 8500
8 2 y 4 7000-8000 7500 19 5 y 6 7000-8000 7500
9 2 y 5 7000-7000 7000 20 5 y 7 7000-9000 8000
10 2 y 6 7000-8000 7500 21 6 y 7 8000-9000 8500
11 2 y 7 7000-9000 8000
Suma Total 162.000
Cuadro 2.4
En el cuadro siguiente se indica la distribución de probabilidad para el muestreo de medias, donde la sumatoria de todas las probabilidades es igual a uno:
Distribución de probabilidad
Media muestral Número de medias Probabilidad
7000 3 0.1429
7500 9 0.4285
8000 6 0.2857
8500 3 0.1429
Suma 21 1.0000
Cuadro 2.5 Cuál es la media de la distribución Muestral? Solución:
38
muestras de
total Número
muestrales medias
de Suma 1
1
N
i i
X x
N
A partir de los datos:
30 . 714 . 7 $ 21
000 . 162
X
Según lo obtenido podemos concluir: La media de la población es igual a la media de las medias muestrales. X
Estas características se analizan en el siguiente apartado. Distribución Muestral de Medias: Poblaciones Finitas:
Las poblaciones finitas, tiene la característica de que N es conocido, al hacer la distribución muestral de las medias y muestreo sin reemplazamiento, se obtiene una gráfica de la distribución que presenta forma aproximadamente acampanada, lo cual se puede observar en la siguiente gráfica.
Distribución muestral
39
Distribución Muestral de Medias: Poblaciones No Finitas:
La gráfica de la distribución muestras de medias para poblaciones no finitas y muestreo con reemplazamiento tiene una distribución normal, tal como se puede observar a continuación:
Distribución muestral de medias
Figura 2.4
La tercera propiedad del teorema central del límite se expresa: No importa que distribución tenga la población, pero la distribución muestral de medias a partir de esa población, tiene una distribución normal.
Ejemplo:
La altura media de 400 alumnos de un plantel de secundaria es de 1,50 mts. Y su desviación típica es de 0,25 mts. Determinar la probabilidad de que en una muestra de 36 alumnos, la media sea superior a 1,60 mts.
Solución: P(X > 1,60) = ? 40 , 2 25 , 0
60 , 0
6 25 , 0
10 , 0
36 25 , 0
50 , 1 60 , 1
Z
0,4918
40 ,
2 A
Z
40
Distribución muestral de proporciones
En el análisis de una característica cualitativa o atributo, se emplea la proporción de éxitos y no el número de éxitos como en la distribución binomial. Ahora, en vez de expresar la variable en términos de éxitos (X) nos referiremos, al número de atributos en la muestra (a) y lo dividimos por el tamaño de la muestra n:
n a p i
NP A
A i Total de elementos que presentan la característica en la Población
P P
p
N A N
A
P i Proporción de elementos que presenta la característica en la población
P N
A N
Q 1 Proporción de elementos que no presenta la característica
1 Q P
PQ P
2
Varianza de la proporción en la población
PQ
p
Desviación estándar
n PQ n
p
p
Error estándar de la proporción
En muchos casos podemos utilizar la distribución normal para evaluar la distribución muestral de proporciones, siendo:
p p p
n PQ
P p Z
41 Ejemplo:
Cuarenta y seis por ciento de los sindicatos del país están en contra de comerciar con la China Continental; ¿Cuál es la probabilidad de que en una encuesta a 100 sindicatos muestre que más del 52% tengan la misma posición? Solución: P = 0,46 p = 0,52 n = 100 P(p>0,52) = ?
1,21100 2484 , 0
06 , 0
100 54 , 0 46 , 0
46 , 0 52 , 0
n PQ
P p Z
0,3869
0,1131 21,
1
A
Z
p
P( >0,52)11,31%
Lección No 7
: Distribución Muestral de Diferencias de medias y
de proporciones
Distribución muestral de diferencias de dos medias
Se tienen dos poblaciones independientes identificadas la primera por X y la segunda por Y, de tamaño y , cuyas medias se simbolizan por y , y sus desviaciones típicas son y . Se obtiene un número (M) de pares de muestras. Las medias muéstrales de la primera población se identifican por ; ; … . Y las muestras de la segunda variable por ; ; … .
Ahora, si consideramos las diferencias para cada par, la media aritmética de dichas diferencias se simbolizará por , donde:
Se puede demostrar que la media de la diferencia de todos los pares de medias muéstrales posibles, es igual a la diferencia entre las medias poblacionales
42
Se puede considerar que la desviación típica de las diferencias entre los pares de medias muéstrales, denominado como error estándar de las diferencias entre las medias muéstrales, es igual a:
siendo:
ó
Suponiendo que la distribución de diferencias entre las medias muéstrales tenga un comportamiento similar a la distribución normal, la variante estadística estará dada por la fórmula:
2 2
1 2
n n y x y
x Z
y x
y x
y x
y x
Se puede aplicar esta distribución cuando no se conocen las varianzas poblacionales x2 y y2, las cuales pueden ser sustituidas por varianzas muéstrales sx2 y sy2 siempre y cuando que n1 y n2 sean mayores que 30.
Ejemplo:
El rendimiento de los autos de la marca A es de 20 kilómetros por galón de gasolina, con una desviación estándar de 6 k.p.g. las cifras comparables para los autos B son de 25 y 5,5 k.p.g. se supone que el rendimiento de cada una de ambas marcas está normalmente distribuido. ¿cuál es la probabilidad de que en un concurso, el rendimiento medio para 10 autos de la marca A sea mayor que el de 9 autos de la marca B?
Solución: x= 20 y= 25 x= 6 y= 5,5 n1= 10 n2= 9
43
90 , 1 96 , 6 5 36 , 3 6 , 3 5 0 9 25 , 30 10 36 25 20 0 Z
0,4713
90 ,
1 A
Z
P(xy> 0) = 0,5000 - 0,4713 = 0,0287 = 2,87%
Distribución muestral de diferencias de dos proporciones
En el caso de dos poblaciones independientes de tamaño N1 y N2, distribuidas binomialmente, con parámetros, medias poblacionales P1 y P2 (también se pueden representar las medias por
1 P y
2 P
) y desviaciones proporcionales 1 P y 2 P
, siendo:
1 1
1 PQ P
y P2 P2Q2 .
El error estándar de las diferencias entre las dos medias proporcionales estará dada por: 2 2 2 1 1 1 2 1 n Q P n Q P P
P
Cuando son valores poblacionales
Cuando n1 y n2 corresponden a muestras grandes, es decir, ambas superiores a 30: 2 2 2 1 1 1 2 1 n q p n q p sPP
La media de las diferencias entre dos medias proporcionales, se simboliza por:
2 1
2 1 2
1 P P P P P
P
44
2 2 2 1 1 1 2 1 2 1 2 2 2 1 1 1 21 1 2
n q p n q p P P p p n Q P n Q P p p
Z P P
cuando n1 y n2> 30
Ejemplo:
Consideremos dos máquinas que producen un determinado artículo, la primera produce por término medio un 14% de artículos defectuosos, en tanto que otra, produce el 20% de artículos defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades en la segunda, ¿Cuál es la probabilidad que difiera A de B en 8% o más?
Solución: P(P1P2 0,08) = ? n1= 200 n2= 100 P1= 0,14 P2= 0,20
2 1 P P
= 0,14 – 0,20 = -0.06
2 1 p
p = 8% = 0,08
0,047 2,98 14 , 0 100 8 , 0 2 , 0 200 86 , 0 014 06 , 0 08 ,0
Z
0,4986
98 ,
2 A
Z
P(P1P2 0,08) = 0,5000 – 0,4986 = 0,0014 = 0,14%
Lección No 8
: Teorema central del límite.
En el caso de una población con media y varianza 2
, la distribución muestral de medias de todas las muestras posibles de tamaño n a partir de la población, tendrá una distribución aproximadamente normal (siendo la media de la distribución muestral igual a y la varianza igual a 2/n) considerando que el tamaño de la muestra es bastante grande.
45
Hay que destacar aspectos importantes del teorema central de límite.
Si el tamaño de la muestra n es suficientemente grande, la distribución muestral de las medias será más o menos normal. Esto se cumple ya sea que la población esté o no distribuida normalmente. Esto es, el teorema se verifica, ya sea que la población esté distribuida en forma normal, o bien sea sesgada o uniforme.
Como se mostró con anterioridad, la media de la población, , y la media de todas las medias muestrales posibles,
x , son iguales. Si la población es grande y se selecciona un número grande de muestras de la población, la media de las medias muestrales se aproximará a la media poblacional. La varianza de la distribución de medias muestrales se determina de 2/n. No existe acuerdo general sobre lo que constituye un tamaño de muestra “suficientemente grande”. Algunos estadísticos consideran que es 30; otros piensan que un número pequeño como 12 es adecuado. El ejemplo sobre los salarios por hora de todos los profesores del colegio funcionó bastante bien con una muestra de 2. Sin embargo, a menos que la población sea aproximadamente normal, los tamaños de muestra así de pequeños, por lo general no dan como resultado una distribución muestral que se distribuya normalmente. A medida que el tamaño de la muestra se vuelve cada vez más grande, la distribución de la media muestral se aproxima más a la distribución normal con forma de campana.Ejemplo:
Suponga que se tiene una población conformada por 5 empleados de una empresa (N = 5), y la variable de interés es el número de años de experiencia laboral de cada empleado. Los datos de la población son: Xi 1,2,3,4,5
TEOREMA CENTRAL DEL LÍMITE:
Sea X1, X2,…, Xn una variable aleatoria independiente e idénticamente
distribuida de una población infinita con media µ y varianza σ2. Para σ2< ∞,
Entonces:
n X
Z Presenta una distribución Normal estándar.
46
Muestreo sin Reemplazamiento:
1. Determine la media y la desviación estándar para la población. Solución:
a) Para este caso la media poblacional se obtiene así:
3
5
5
4
3
2
1
1
1
N i ix
N
Promedio de años de experiencia por empleado.
b) La desviación estándar de la población: Primero calculamos la varianza y luego la desviación:
999 . 1 ) 3 5 ( ... ) 3 2 ( ) 3 1 ( 5 1 ) (
1 2 2 2
1
2
2
N i i x N
Ahora extraemos la raíz cuadrado a la varianza y obtenemos la desviación estándar. 414 . 1
2. Seleccione ahora todas las muestras posibles de tamaño dos, sin reemplazamiento (poblaciones finitas):
Solución:
Recordemos que cuando el muestreo es sin reemplazamiento y no interesa el orden, entonces tenemos una combinatoria.
! ! ! xn n N N CNN
Reemplazando:
102 ! 3 ! 3 4 5 ! 2 ! 3 ! 5 ! 2 ! 2 5 ! 5 5
2
x x x x
C