Proyecto final Unidad V

(1)

INSTITUTO TECNOLOGICO DE TIJUANA

Alumno(a): Fuentes De Anda Evelyn

Marcela

No. De control: 14210124

Profesor(a): Castillo Lopez Marisela

Unidad V:

Proyecto Final

(2)

Inferencia estadística

La estadística inferencial es una parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población estadística, a partir de una pequeña parte de la misma. La estadística inferencial comprende como aspectos importantes:

 La toma de muestras o muestreo.

 La estimación de parámetros o variables estadisticas.

 El contraste de hipótesis.

 El diseño experimental.

 La inferencia bayesiana.

 Los métodos no paramétricos

Estadísticas y parámetros.

 Matemáticamente, podemos describir muestras y poblaciones al emplear

mediciones como la media, la mediana, la oda y la desviación estándar. Cuando estos términos describen las características de una población, se llaman parámetros. Cuando describen las características de la muestra, se llaman estadísticos. Una estadística es una característica de una muestra y un parámetro es una característica de la población.

 Se emplean letras latinas minúsculas para denotar estadísticas de muestra y letras griegas o latinas mayúsculas para representar parámetros de población.

Población Muestra

Definición Colección de elementos _considerados Parte o porción de la población _{seleccionada para su estudio}

Características Parámetros Estadísticas

Símbolos

Tamaño de la población: N

Media de la población:

Desviación estándar: 

Tamaño de la muestra: n

Media de la muestra: x

(3)

Estimacion Puntual Y Por Intervalos De Confianza

Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Lo más importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo

(varianza mínima)

Un estadístico utilizado para aproximar un parámetro de población se denomina estimador del parámetro. El número obtenido cuando se evalúa el estimador para una muestra en particular, es una estimación del parámetro.

Si quiero conocer la estatura promedio de los colombianos podría hacer dos cosas:

 Tomar la estatura de todos y cada uno de los colombianos y calcular el valor promedio.

 Tomar una muestra de colombianos y calcular el valor promedio de la muestra.

El valor que encontramos en el primer caso es el valor real y se denomina parámetro. En el segundo caso tendremos un valor aproximado al valor real que se denomina estimación. Es decir, un parámetro de la poblaciones estimado a partir de una muestra, siendo el estimador la función o estadístico elegido entre los posibles para caracterizar al parámetro. El valor tomado por dicho estimador en cada caso concreto recibe el nombre de

estimación.

En la notación utilizada en publicaciones sobre estos temas, los parámetros se representan con letras griegas y los estimadores o estadísticos con letras latinas . Es decir, si estamos hablando del promedio de todos los colombianos se denota como µ y el valor que arroja la muestra se denota como . Para lograr que la muestra nos permita obtener un estimador lo más cercano al parámetro se deben cumplir dos condiciones:

 Asegurar un adecuado proceso de muestreo.

(4)

Obtener un buen estimador permite sacar conclusiones que sean aplicables a toda la población de la cual se sacó la muestra.

Se deben distinguir dos tipos de estimación: la estimación puntual y la estimación por intervalo.

La estimación puntual: consiste en asignar un único valor como estimación del parámetro; esta estimación se utiliza cuando queremos conocer el valor concreto de un parámetro poblacional y no disponemos de este valor.

La estimación por intervalo: es aquella que calcula un intervalo que contenga entre sus límites, con cierta probabilidad, el verdadero valor del parámetro poblacional. Este intervalo se llama INTERVALO DE CONFIANZA.

ESTIMACIÓN POR INTERVALOS

Hemos visto que la media muestral es un buen estimador puntual de la media poblacional. El inconveniente principal es que un único valor observado de generalmente no es exactamente igual a µ; habrá cierta diferencia entre y µ . Sería conveniente tener idea de lo cerca que está nuestra estimación del verdadero valor de la media poblacional. También sería bueno poder dar información de lo seguros o confiados que estamos de la precisión de la estimación.

Para tener una idea, no solo del valor de la media, sino también de la precisión de la

(5)

Ejemplo

Hallemos un intervalo de confianza, del 95%, de µ, número medio de microgramos de partículas en suspensión por metro cúbico de aire, sobre la base de una muestra aleatoria de tamaño 5 dada en la que se ha calculado que una estimación puntual de µ es . Supongamos que por experiencias anteriores se sabe que , número de microgramos de partículas en suspensión por metro cúbico de aire, está normalmente distribuido, con varianza . Queremos extender la estimación puntual a un intervalo, de forma talque podamos tener una confianza del 95 % de que el intervalo obtenido contenga al verdadero valor de µ . Es decir, queremos determinar y de forma que Así:

Para hacerlo así, consideremos la partición de la curva normal tipificada dibujada en la siguiente figura:

Estimación de parámetros

La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de

(6)

Estimación de una proporción

Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios de la muestra (N) son:

1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y

Zα/2 de 1,96.

2. P: Valor de la proporción que se supone existe en la población.

3. i: Precisión con que se desea estimar el parámetro ( es la amplitud del intervalo de confianza).

Estimación de una media

Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios en la muestra (N) son:

1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y

Zα/2 de 1,96.

2. : Varianza de la distribución de la variable cuantitativa que se supone que existe en la población.

3. : Precisión con que se desea estimar el parámetro ( es la amplitud del intervalo de confianza). yo lo dije asi....

Contraste de hipótesis

Para conocer el tamaño de la muestra en un estudio de investigación en el que queremos conocer las diferencias existentes entre dos hipótesis, debemos conocer previamente:

 error tipo I y tipo II : Hay que establecer el riesgo de cometer un error de tipo I que se está dispuesto a aceptar. Normalmente de forma arbitraria se acepta un riesgo del 5%. Además hay que establecer el riesgo que se acepta de cometer un error tipo II, que suele ser entre el 5 y el 20%.

 Si la hipótesis es unilateral o bilateral: El planteamiento de una hipótesis bilateral o "de dos colas" requiere mayor tamaño muestral.

 Definir la Magnitud de la diferencia efecto o asociación que se desea detectar: A mayores diferencias preestablecidas en el planteamiento de la hipótesis, menor tamaño muestral, y a menor diferencia, mayor espacio muestral.

 Conocer la variabilidad del criterio de evaluación en la población.

Prueba de la hipótesis y planteamiento de la hipótesis

Dentro del estudio de la inferencia estadística, se describe como se puede tomar una

(7)

la cual se puede emplear el método de muestreo y el teorema del valor central lo que permite explicar como a partir de una muestra se puede inferir algo acerca de una población, lo cual nos lleva a definir y elaborar una distribución de muestreo de medias muestrales que nos permite explicar el teorema del limite central y utilizar este teorema para encontrar las probabilidades de obtener las distintas medias maestrales de una población.

Pero es necesario tener conocimiento de ciertos datos de la población como la media, la desviación estándar o la forma de la población, pero a veces no se dispone de esta información.

En este caso es necesario hacer una estimación puntual que es un valor que se usa para estimar un valor poblacional. Pero una estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina intervalote confianza y se espera que dentro de este intervalo se encuentre el parámetro poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un rango de valores en el que se espera se encuentre el parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra.

2.- HIPOTESIS Y PRUEBA DE HIPOTESIS

Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.

Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación

razonable.

(8)

Pruebas unilaterales y bilaterales

Un contraste bilateral adopta en general la forma:

H0: θ = θ0 contra H1: θ ≠ θ0

En determinadas ocasiones el experimentador prefiere plantear directamente un contraste de la forma:

H0: θ = θ0 contra H1: θ > θ0

conocido como contraste unilateral derecho. Obviamente, otra posibilidad es el unilateral izquierdo:

H0: θ = θ0 contra H1: θ < θ0

En estos tres casos, el contraste de hipótesis es simple contra compuesta.

En la mayoría de situaciones aplicadas, se desean realmente resolver contrastes unilaterales que comportan hipótesis compuestas. El unilateral derecho es entonces:

H0: θ ≤ θ0 contra H1: θ > θ0

y el izquierdo es:

H0: θ ≥ θ0 contra H1: θ < θ0

Aunque esta última formulación está relacionada con los contrastes unilaterales simple contra compuesta anteriores, las dos hipótesis no son técnicamente equivalentes Para simplificar la interpretación de los contrastes unilaterales, atendiendo a los casos de los que se ocupa Statmedia, se formulan los contrastes de esta última manera (compuesta contra compuesta) y se toma el nivel de significación como si fuera el del contraste simple contra compuesta.

En cualquier caso, es importante entender que sólo debe resolverse uno de los tres contrastes (bilateral o unilateral) con un conjunto de datos concreto.

(9)

Prueba de hipótesis para una distribución muestra de diferencias de medias

Puesto que deseamos estudiar dos poblaciones, la distribución de muestreo que nos interesa es la distribución de muestreo de la diferencia entre medias muestrales.

Conceptos básicos de las distribuciones de población, distribuciones de muestreo de la media y distribuciones de muestreo de diferencias entre medias muestrales.

Ambas tienen medias y desvaciones estadar, respectivamente, debajo de cada población se muestra distribución de muestreo de la media para esa población.. Las dos distribuciones teoricas de muestreo de la media están integradas todas las muestras posibles de

determinado tamaño que pueden extraerse de la correpondiete distribución de la población 2, si después restamos las dos medias muestrales, obtenemos la diferencia entre medias muestrales. Esta diferencia será positiva si X1 es mayor que X2 y negativa si X3 es mayor que X1. Al construir esta distribución de todas las diferencias posibles de muestreo de X1 – X2, terminamos teniendo la distribución de muestreo entre las medias muestrales.

Prueba de hipótesis para diferencias de proporciones

El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fabrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una característica particular.

El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue:

Ho: p .08 (funciona correctamente)

H1: p > .08 (no funciona correctamente)

La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:

En donde

(10)

Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de día índican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de significancía de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra:

Y la regla de decisión sería:

Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.

Con los datos que se tienen,

= = .05

Y entonces,

= = = = −1.107

Z −1.107 < + 1.645; por tanto no rechazar Ho.

La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha

encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día.

Pruebas de hipótesis a partir de proporciones.

Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma

utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situación particular.

La proporción de una población

Las hipótesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p ¹ p0

En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:

(11)

Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o unilateral ), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1.

En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos

poblaciones

La situación más frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las

medias:

Ho: p1 = p2 Þ p1 - p2 = 0

H1: p1 ¹ p2

Puede la hipótesis alternativa enunciarse unilateralmente.

El estadígrafo de prueba para el caso de muestras independientes:

Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p.

Está de más que te diga que este estadígrafo se distribuye normal estándar.

La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores

H1: p1 ¹ p2