• No se han encontrado resultados

Distribuciones de Probabilidad Continuas

N/A
N/A
Protected

Academic year: 2021

Share "Distribuciones de Probabilidad Continuas"

Copied!
29
0
0

Texto completo

(1)

Distribuciones de Probabilidad Continuas

En el caso de variables aleatorias continuas, las funciones densidad de probabilidad más comunes y de uso más frecuente en inferencia estadística son:

1. Función de densidad de probabilidad Uniforme. 2. Función de densidad de probabilidad Normal.

3. Función de densidad de probabilidad Chi-cuadrado. 4. Función de densidad de probabilidad T de Student. 5. Función de densidad de probabilidad F de Snedecor.

En el caso de variables aleatorias continuas, determinar un tipo de experimento que se pueda explicar con alguna de estas distribuciones ya no es tan sencillo. Cuando se tiene un conjunto de datos, producto de unas mediciones, existen formas aproximadas de determinar si ellos provienen de alguna distribución específica.

Las cuatro distribuciones que se estudiaran a continuación se pueden considerar como las piedras angulares de lo que se denomina la teoría de la inferencia estadística.

Para variables aleatorias continuas, la probabilidad de que esta se encuentre entre dos valores a y b cualesquiera corresponde al área debajo de la curva comprendida entre estos dos valores

(2)
(3)

Recordemos que para variables aleatorias continuas la probabilidad en un punto siempre es igual a cero. Por esta razón la siguiente secuencia de igualdades se satisface siempre que X sea una v.a. continua,

Función de distribución acumulada para variables aleatorias continúas

Retomando lo estudiando en el capítulo de variables aleatorias continuas, la f.d.a es útil para determinar funciones de distribución de probabilidad de variables aleatorias continuas, así como para determinar el valor probabilístico que se tiene cuando una variable aleatoria alcanza un valor fijo.

Definición. La función de distribución acumulada, la cual se denota por de una variable aleatoria continua X, cuya función densidad de probabilidad es , se define como,

Esta función resulta ser continua en Si existe una función tal que

para todo x donde dicha derivada exista, entonces es llamada

Función de Densidad de Probabilidad o f.d.p (en inglés p.d.f). Por el teorema fundamental del cálculo se tiene que:

Esta expresión quiere decir que para hallar la probabilidad de que la variable aleatoria X sea menor o igual a x se debe hallar la integral de la función densidad de probabilidad en los límites apropiados. Esta función tiene la propiedad de que cuando y cuando .

(4)

1. Función de densidad de probabilidad Uniforme

Este es el modelo de distribución de probabilidad más simple.

Sea X una v.a continua definida en el intervalo , es proporcional a la longitud de , en particular:

( ) .

Diremos que X tiene una f.d.p uniforme en y escribimos La f.d.p de X esté dada por:

{ Además, [ ] [ ] La f.d.a para X está dada por:

{

(5)

Distribución Uniforme (a, b).

Ejemplo: La longitud de una bisagra para puertas es un v.a X, distribuida uniformemente en el intervalo (74.6 , 75.4).

La f.d.p para la variable aleatoria X está dada por:

{ a. Calcule ∫

b. ¿Qué proporción de bisagras miden más de 75.0 mm?

(6)

c. ¿Cuál es la probabilidad de que la bisagra mida menos de 74.9 mm?

2. Función de densidad de probabilidad Normal

Esta distribución juega un papel clave en el desarrollo de la inferencia estadística, pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas de hipótesis, tienen su fundamento en esta distribución. Un gran número de estudios pueden ser aproximados usando una distribución normal. Algunas variables físicas, datos meteorológicos (temperatura, precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas o puntajes en pruebas de admisión o de aptitud, errores en instrumentación, proporciones de errores en diversos procesos, etc.

(7)

Densidad de probabilidad normal. Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal con parámetros  y  (estos parámetros determinan el centro y la dispersión de la distribución y la caracterizan completamente), lo cual se escribe , si X tiene función densidad de probabilidad dada por,

Por medio del cálculo se puede probar que realmente esta función es función de densidad de probabilidad. Además, es simétrica alrededor de . Tiene forma acampanada, el área bajo la curva (considerando todo el dominio de la v.a) siempre es igual a 1.

La distribución normal cumple la siguiente regla:

 El intervalo  contiene aproximadamente el 68% de las mediciones.  El intervalo  2 contiene aproximadamente el 95% de las mediciones.  El intervalo  3 contiene algo más del 99% de las mediciones.

(8)

Si X es una v.a. normal con parámetros  y , la probabilidad de que se calcula así:

Para calcular probabilidades relacionadas con la normal se hace necesario utilizar tablas estándar de normalidad. Esto es porque las integrales que surgen en este tipo de problemas son extremadamente difíciles de resolver. Afortunadamente,

(9)

cualquier variable aleatoria normal se puede transformar en una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente transformación. Suponga que X es una variable aleatoria normal con parámetros  y . La variable aleatoria Z, se define como:

Pero ¿Es equivalente la probabilidad original a la obtenida con esta transformación? La respuesta es afirmativa, ya que,

√ ∫

Una variable aleatoria X que se transforme de esta manera se dice que es una variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es necesario resolver la integral ya que sus valores están tabulados.

(10)

Propiedades de la distribución de probabilidad Normal Estándar

Usando el hecho de que la distribución normal estándar es simétrica con respecto al cero, es posible hacer algunas afirmaciones que en un momento dado pueden facilitar el uso de la tabla.

Suponga que la variable ; las siguientes afirmaciones se cumplen,

a. b. c.

d.

Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento puede modelarse por medio de una distribución normal con una resistencia media de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por centímetro cuadrado?

Solución

Sea X: Resistencia a la compresión de una muestra de cemento. Por la información del problema se sabe que . La probabilidad pedida es,

Entonces,

( ) De esta forma se estandariza.

(11)

Ejemplo: Una encuesta realizada entre 1000 estaciones de gasolina en los estados unidos reveló que el precio por galón tiene aproximadamente una distribución normal con media $1.90 y desviación estándar $0.20. ¿Cuántas de estas estaciones cobran entre $1.50 y $2.30 por un galón de gasolina corriente?

Solución

Observe que el precio de $1.50 por galón está a dos desviaciones estándar abajo de la media y el precio de $2.30 está a dos desviaciones estándar arriba de la media. Por la regla empírica, 95.4% de los datos se encuentra entre dos desviaciones estándar de la media. Por lo tanto 0.954*1000=954 de las estaciones cobran entre $1.50 y $2.30 por galón de gasolina corriente en los estados unidos

Ejemplo: Se observó durante un largo tiempo que la cantidad semanal gastada en el mantenimiento y en las reparaciones de cierto taller tiene aproximadamente una distribución normal con media de $400000 y desviación estándar de $20000. Si el presupuesto para la próxima semana es de $450000, ¿Cuál es la probabilidad de que los costos sean mayores que la cantidad presupuestada?

Solución: Sea X=cantidad gastada en mantenimiento y reparación

( ) Por lo tanto, es muy improbable que los costos reales superen la cantidad presupuestada.

(12)

Ejemplo: Se puede ajustar una máquina de café de tal manera que llene los vasos con un promedio de  onzas por vaso. Si la cantidad de onzas por vaso X se puede asumir que es una  . Halle el valor de  de tal manera que los vasos de ocho onzas se derramen con una probabilidad de 0.01.

Solución:

Sea X = cantidad de onzas por vasos. Se sabe que  . Es claro que un vaso de ocho onzas se derramará si . Se debe hallar el valor de  que garantice la siguiente condición:

Normalizando se tiene que,

( ) ( )

Si se observa l atabla de la normal estándar, hay un valor abajo del cual el área es igual a 0.99 y tal valor es 2.33; por lo tanto el área arriba de 2.33 será 0.01; entonces,

Despejando se obtiene que  , es decir, la máquina de café debe ajustarse a un promedio de llenado de 7.301 para garantizar que los vasos de ocho onzas se derramen con una probabilidad de 0.01

(13)

Tabla de la Normal Estándar

Entendido el concepto de transformar cualquier normal a una normal estándar, el problema se simplifica debido a que esta última se encuentra tabulada.

Tarea 020

1. Calcule las siguientes probabilidades utilizando las talas de la normal estandarizada. a. b. c. d. e.

2. Identifique como se puede evaluar el supuesto de normalidad para cada uno de los siguientes casos:

a. Modo gráfico (no aplica la generación de histograma) b. Método analítico (Pruebas no paramétricas)

c. Por medio de R

3. Seleccione mínimo 50 datos de una variable de interés y utilice los tres caminos propuestos en el punto anterior para revisar el supuesto de normalidad y concluya si dicha variable cumple o no el supuesto.

(14)

Ejemplo: Usando una tabla de la normal estándar calcule las siguientes probabilidades: a. b. c. d. e. Solución: a. b. = c. d. e.

(15)

Evaluación del supuesto de normalidad.

Cuando se está en presencia de una muestra aleatoria, es ciertamente importante determinar si proviene o no de una población la cual se distribuye normalmente. Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos sobre una variable proviene o no de una distribución normal.

Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos) de los cuartiles de una normal. Si los datos provienen de una distribución normal, el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta. Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera muy aproximada sobre una línea recta con intercepto µ y pendiente σ.

(16)

Retomemos los datos de estudiantes de Quinto grado estudiando en los capítulos de estadística descriptiva. Quinto Grado Peso en Kg. 20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6 30.4 33.1 34.6 34.6 35 35.1 35.4 36.2 36.6 36.9 37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3

En R es posible realizar el gráfico Q-Q plot para cualquier variable cuantitativa. La siguiente figura ilustra este gráfico para la variable Peso.

Quinto Grado Edad en años.

9 10 9 10 9 9 10 10 9 9 10 9 8 10 9 10 11 9 10 11 9 10 9 9 9 8 10 10 8 10

(17)

El siguiente es el código en R

PESO <- c(33.1,35.4,36.6,45.3,37,38.7,23.5,34.6,44.5,41,35, 36.2,27.3,28.6,39.9,36.9,38.7,21.4,42,30.4,25.3,20.6,29.6, 42,26,24.5,35.1,40.6,28,34.6)

qqnorm(PESO); qqline(PESO, col = 2)

Esta gráfica nos podría dar entender que la variable Peso podría poseer un comportamiento normal debido a que muchos puntos se traslapan con la línea a lo largo de esta.

Las siguientes figuras fueron generadas en el paquete estadístico IBM SPSS Statistic.

(18)

Esta gráfica nos podría dar entender que la variable Edad posiblemente no tenga un comportamiento normal debido a que muchos puntos son repetitivos sin permitir que se traslapen con la línea a lo largo de esta.

Prueba de Normalidad Shapiro-Wilk (No Paramétrica)

Para probar normalidad univariada este test es el que más se recomienda. Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov. Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos actuales están en capacidad de calcularlo para muestras más grandes. El alcance de este curso no abordará el cálculo analítico de esta prueba de normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se encuentra en detalle el desarrollo analítico.

(19)

Las hipótesis de esta prueba son:

(Hipótesis nula): es una función de distribución normal, con media y varianza no especificadas.

(Hipótesis alternativa): no es normal.

Para la variable EDAD rechazo y para PESO no se puede rechazar Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk. > EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,

+ 9,10,11,9,10,9,9,9,8,10,10,8,10) > shapiro.test(EDAD)

Shapiro-Wilk normality test data: EDAD

W = 0.86, p-value = 0.001014

> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,

+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3) > shapiro.test(PESO)

Shapiro-Wilk normality test data: PESO

(20)

Índice de Asimetría

La asimetría de una distribución hace referencia al grado en que los datos se reparten por encima (derecha) y por debajo (izquierda) de la tendencia central.

Índice de Curtosis

La Curtosis hace referencia al grado de apuntamiento de la distribución.

Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de una posible distribución normal aunque es indispensable apoyarse en otras verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están muy bien distribuidos.

Se pudiera pensar que si la media, mediana y moda de una variable presentaran valores muy similares, se dice que los datos se distribuyen normalmente.

(21)

Descriptivos

Estadístico Error típ.

EDAD Media 9,43 ,141

Intervalo de confianza para la media al 95% Límite inferior 9,14 Límite superior 9,72 Media recortada al 5% 9,43 Mediana 9,00 Varianza ,599 Desv. típ. ,774 Mínimo 8 Máximo 11 Rango 3 Amplitud intercuartil 1 Asimetría -,001 ,427 Curtosis -,214 ,833 PESO Media 33,747 1,2645

Intervalo de confianza para la media al 95% Límite inferior 31,160 Límite superior 36,333 Media recortada al 5% 33,835 Mediana 35,050 Varianza 47,971 Desv. típ. 6,9261 Mínimo 20,6 Máximo 45,3 Rango 24,7 Amplitud intercuartil 11,2 Asimetría -,288 ,427 Curtosis -,895 ,833

(22)
(23)
(24)

3. Función de densidad de probabilidad Chi-cuadrado

Este tipo de distribución se utiliza para modelar procesos que tienen que ver con tiempos de llegada, por ejemplo el tiempo que tarda una persona en una sala de espera de un hospital; observe que intuitivamente es razonable pensar que es más probable que transcurra un intervalo de tiempo entre minutos que un intervalo de tiempo pequeño comprendido entre minutos; también tiempos de espera grandes comprendidos entre son poco probables; gráficamente se puede visualizar lo anterior.

Fuente: Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de Colombia. Sede Medellín

Esta distribución es sesgada a derecha (y por lo tanto no es simétrica) y puede considerarse como uno de los pilares sobre los que reposa la teoría de la inferencia estadística clásica ya que otras importantes distribuciones se pueden derivar a partir de ella y ella misma sirve para probar hipótesis.

(25)

Definición: Sea X una v.a continua. Se dice que X se distribuye como una chi-cuadrado con r grados de libertad, lo cual se denota variable , si su f.d.p está dada por:

 es llamada la función gamma, la cual se define como

Para calcular probabilidades relacionadas con la distribución chi-cuadrado se cuenta con tablas que dependen de los grados de libertad y de paquetes estadísticos como R.

Para entender intuitivamente el concepto de grado de libertad considere la siguiente situación: si se tienen tres casillas las cuales deben ser llenadas de manera que su suma sea 10 y de antemano se fijan dos números, solamente hay una elección posible para el tercer número, por lo que se considera que para completar la operación se tiene un grado de libertad; por ejemplo, el problema es llenar las tres casillas _+_+_=10, si se realiza 2+6+_=10 es claro que para la tercera casilla la única elección posible es el número 2; es decir, solo hay un grado de libertad en nuestra elección.

(26)

Uso de la Tabla de la distribución Chi-Cuadrado

Usualmente, los libros de probabilidad incluyen tablas de esta distribución que pueden ser de cola inferior o de cola superior. A continuación se presenta la una imagen de cola superior:

Ahora se verán algunos ejemplos para ilustrar su uso.

EJEMPLO. Usando la tabla de la chi-cuadrado calcule las siguientes probabilidades: a.

b.

c.

Tarea 021

1. Investigue la relación entre la distribución Chi-Cuadrado y la distribución Normal.

2. Investigue la relación entre la distribución Normal y la distribución Chi-Cuadrado.

(27)

4. Función de densidad de probabilidad T de Student

Esta función se relaciona estrechamente con la normal estándar y la chi-cuadrado. Juega un papel importante en la teoría de la inferencia estadística. Para calcular probabilidades relacionadas con la t se utilizan unas tablas que dependen de los grados de libertad.

Esta distribución de probabilidad surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Definición: Sea Z una variable aleatoria normal estándar y sea W una variable aleatoria chi-cuadrado con r grados de libertad. Entonces si Z y W son independientes, se dice que tiene una distribución t de Student con r grados de libertad. Un gráfico de la distribución t y de la normal estándar.

Observe que las colas de la distribución t son mucho más alargadas que en la distribución normal. Valores muy extremos para la normal que tienen probabilidades muy pequeñas son valores con probabilidades significativas para la

(28)

distribución t. También a medida que se incrementan los grados de libertad de la t esta se parece mucho más a la normal estándar.

Ejemplo: Usando la tabla de la t de Student calcule las siguientes probabilidades: a.

b. Ejemplo: Usando la tabla de la t de Student calcule los valores de x

a.

b. que implica que y según la tabla corresponde a un valor de

5. Función de distribución de probabilidad F de Snedecor.

Esta función se relaciona estrechamente con la chi-cuadrado. Juega un papel importante en la teoría de la inferencia estadística. Para calcular probabilidades relacionadas con la F se utilizan unas tablas que dependen de los grados de libertad.

Definición: Sea una variable aleatoria chi-cuadrado con grados de libertad y sea una variable aleatoria chi-cuadrado con grados de libertad. Entonces si

y son independientes,

(29)

Se dice que tiene una distribución F de Snedecor con grados de libertad en el numerador y grados de libertad en el denominador.

Esta distribución no es simétrica y por lo tanto la tabla de la F no puede usarse de manera igual a la de la normal

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza, en modelos lineales (por ejemplo los de regresión lineal) y los modelos lineales mixtos.

Ejemplo: Usando la tabla de la F calcule las siguientes probabilidades a.

Referencias

Documento similar

El ter- cer modelo incluye las variables fiabilidad y valencia, probabilidad estimada y decisión interactiva de refuerzo, en los Tiempos Uno y Dos (DR). Las rectas continuas que

Se aplica este modelo a una situación derivada de repetir n veces una prueba o experimento aleatorio con sólo dos resultados posibles que llamamos éxito y fracaso.. Sea p

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

Además de aparecer en forma de volumen, las Memorias conocieron una primera difusión, a los tres meses de la muerte del autor, en las páginas de La Presse en forma de folletín,

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y