Pr´
actico: Funciones de Distribuci´
on de
Probabilidad
Herramientas Cuantitativas 2017
Luis A. Cubillos
24 de abril de 2017
Distribuci´
on Normal
La funci´on de distribuci´on normal se utiliza ampliamente en ecolog´ıa pesque-ra, como en otras disciplinas. Sin embargo, es la distribuci´on normal est´andar la que posee algunas propiedades de inter´es en inferencia. La distribuci´on normal est´andar puede ser descrita por:
f(x) =√1
2πexp(−x 2/2)
Se caracteriza porque la media es cero y la varianza es igual a 1 (N(0,1)). La regla 68-95-99 indica que:
68.3 % de los datos caen dentro de±1 desviaci´on est´andar.
95.4 % de los datos caen dentro de±1,96 desviaciones est´andar.
99.7 % de los datos caen dentro de±3 desviaciones est´andar.
Para graficar una distribuci´on normal, se deben definir los elementos (x1, x2, ..., xn) de una variable aleatoria X, y utilizardnormpara generar la funci´on de densidad en dichos valores de X. Por ejemplo:
> x <- seq(-4,4,0.1)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dnor
m(x, mean = 0, sd = 1)
Para calcular la probabilidad acumulada, P r[X ≤ x], equivalente al ´area bajo la curva, se utilizapnorm. Por ejemplo, la probabilidad acumulada hasta
x= 1 es:
> pnorm(1,mean=0,sd=1)
[1] 0.8413447
El siguiente c´odigo ilustra el ´area bajo la curva, cuyo resultado hasta el valor
x= 1 se observa en la Figura 2, y corresponde a una probabilidad acumulada de 84.1 %.
plot(x,dnorm(x),type="l",col="blue") x2=seq(-4,1,length=200)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dnor
m(x)
Sin embargo, se debe recordar quepnormcalcula la probabilidad acumulada, i.e.,P r[X≤x]. De esta manera, la probabilidad de 68.3 % en±1 (P r[−1≤X ≤
1]) se puede calcular por:
> pnorm(1,mean=0,sd=1)-pnorm(-1,mean=0,sd=1)
[1] 0.6826895
Cuartiles, deciles, y percentiles
En probabilidad la funci´on cuantil de una distribuci´on de probabilidad es la inversa de la funci´on de distribuci´on. Para calcularvalores cr´ıticosde la variable X, se debe considerar:
a) Cuartiles: Son tres valores de la variable X que dividen al conjunto de datos (x1, x2, ..., xn) en cuatro partes porcentualmente iguales, i.e., 25 %, 50 % y 75 %.
Para obtener valores cr´ıticos, se puede usarqnorm, por ejemplo:
> #p=0.05, cola superior de la distribci´on > qnorm(0.95,mean=0,sd=1)
[1] 1.644854
> #p=0.05, dos colas > qnorm(c(0.025,0.975))
[1] -1.959964 1.959964
> #deciles para la dsitribuci´on normal > qnorm(seq(0.1,0.9,0.1))
[1] -1.2815516 -0.8416212 -0.5244005 -0.2533471 0.0000000 0.2533471 0.5244005 [8] 0.8416212 1.2815516
Si se conoce la media y la desviaci´on est´andar, ´estos deben ser introducidos como argumentos en la funci´on, p.e.,
> qnorm(0.95,mean=300,sd=50)
[1] 382.2427
En otras funciones de distribuci´on de probabilidad, se requieren m´as par´ a-metros, p.e.,
> #Distribuci´on t-Student
> pt(2.101,df=8) #area bajo la curva hasta t=2.101, con 8 grados de libertad
[1] 0.9655848
> qt(0.965,df=8) # valor cr´ıtico
[1] 2.090166
> #Distribuci´on Chi-cuadrado
> qchisq(0.95,df=1) #valor cr´ıtico para 1 grado de libertad
[1] 3.841459
> #Distribuci´on F de Fisher > qf(c(0.025,0.975),df1=3,df2=12)
Cuantiles emp´ıricos
Al tener una muestra aleatoria y se desea calcular cuartiles, deciles y per-centiles a partir de los datos, cualquiera sea la muestra o distribuci´on de proba-bilidad emp´ırica, se puede utilizar la funci´onquantile:
> set.seed(89)
> x <- rnorm(50,mean=10,sd=5)
> quantile(x,na.rm=FALSE,names=TRUE,type=7)
0% 25% 50% 75% 100% -1.807787 4.800504 9.374590 13.405625 19.647350
Compare con los resultados obtenidos consummary, i.e.,
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max. -1.808 4.801 9.375 8.923 13.410 19.650
Prueba de normalidad
Los procedimientos de inferencia como la prueba t, F (ANOVA), correlaci´on, entre otros asumen que los datos se distribuyen normal. Hay varias formas de probar normalidad.
La funci´onqqnorm()permite una evaluaci´on gr´afica, p.e.,
−2 −1 0 1 2
0
5
10
15
20
Normal Q−Q Plot
Theoretical Quantiles
Sample Quantiles
Si los valores de X se distribuyen normal, los puntos en el gr´afico describir´an una l´ınea recta. Esta l´ınea puede agregarse al gr´afico conqqline(), p.e.,
−2 −1 0 1 2
0
5
10
15
20
Normal Q−Q Plot
Theoretical Quantiles
Sample Quantiles
Si generamos 50 datos que no se distribuyen normal, por ejemplo conλ= 2, y probabmos normalidad, se tendr´ıa la siguiente figura:
> set.seed(10)
Gamma(1,10)
y
Frequency
0 5 10 15 20 25 30
0
2
4
6
8
10
Al hacer la prueba gr´afica, se puede observar que la distribuci´on de los puntos no sigue una l´ınea recta y por lo tanto evidencia en contra de la normalidad, i.e.,
−2 −1 0 1 2
0
5
10
15
20
25
30
Normal Q−Q Plot
Theoretical Quantiles
Sample Quantiles
Las pruebas de normalidad como Shapiro-Wilks, permiten ratificar la prueba gr´afica,i.e.,
> shapiro.test(y)
Shapiro-Wilk normality test
data: y
W = 0.86641, p-value = 4.44e-05
Otra prueba de normalidad es Kolmogorov-Smirnov, i.e.,
> ks.test(y,"pnorm",alternative="two.sided")
One-sample Kolmogorov-Smirnov test
data: y
D = 0.82523, p-value = 8.882e-16 alternative hypothesis: two-sided
igua-Actividades
En una sesi´on de R, repita los comandos utilizados en los p´arrafos previos. Una vez completo, realice los siguientes ejercicios:
Ejercicios
1. En una piscicultura, una muestra aleatoria de truchas present´o un pe-so promedio de 250 gramos con una desviaci´on est´andar de 80 gramos. Asumiendo una distribuci´on normal, a usted se le pide calcular:
a) La probabilidad de contar con truchas de peso menor o igual que 150 gramos.
b) La probabilidad de contar con truchas de peso mayor o igual a 300 gramos.
c) La probabilidad de contar con truchas con calibre entre 300 y 200 gramos.
d) Grafique la funci´on de distribuci´on de probabilidad normal e indique el ´area bajo la curva entre 200 y 300 gramos.
2. En un banco de erizo rojoLoxechinus albusse sabe ocurren dos grupos de tama˜no. El primer grupo tiene una talla promedio de 50 mm de diametro con desviaci´on est´andar de 20 mm; y el segundo grupo tiene una talla promedio de 80 mm y desviaci´on est´andar de 30 mm.
a) Obtenga una muestra aleatoria de 50 ejemplares de cada grupo, co-nociendo la importancia de cada grupo. Grafique el histograma de frecuencia de tallas total y caracterice la distribuci´on de frecuencia emp´ırica con cuartiles.
b) Verifique si la muestra aleatoria se distribuye normal con qqnorm()
y con el test de Shapiro-Wilks y Kolmogorov-Smirnov ¿que puede concluir?
b) Si se acepta que la talla de madurez es de 60 mm, ¿cual es la pro-babilidad emp´ırica de que los ejemplares sean menor o igual que 60 mm?