• No se han encontrado resultados

TEMA 4. Algunos modelos de probabilidad de tipo continuo

N/A
N/A
Protected

Academic year: 2021

Share "TEMA 4. Algunos modelos de probabilidad de tipo continuo"

Copied!
21
0
0

Texto completo

(1)

TEMA 4. Algunos modelos de probabilidad de tipo continuo

Vamos a abordar en este capítulo el estudio de aquellas distribuciones de probabilidad de tipo continuo, que se nos presentan con bastante frecuencia en el mundo real, y que tienen por tanto bastante utilidad práctica.

Se trata de distribuciones con nombre propio. Su estudio no encierra ninguna dificultad añadida, pues se trata de aplicar a modelos concretos toda la teoría general estudiada en las funciones de probabilidad de las variables aleatorias. Comenzaremos analizando las distribuciones uniformes, o rectangulares, como el caso más sencillo de distribuciones continuas.

A continuación se explicita la distribución normal (que en realidad es una «familia» de distribuciones normales, pues su función de probabilidad está caracterizada por dos parámetros). De ella debe el alumno conocer con detalle cuáles son las causas que permiten su aparición, así como todas sus características, y conclusiones que encierra. A la distribución normal debe dedicársele tiempo suficiente, hasta su total comprensión pues el papel que desempeña es de vital importancia, no sólo per se sino por las consecuencias que implica el llamado TEOREMA CENTRAL DEL LIMITE que posibilita -con ciertas condiciones- el sustituir en plan límite gran número de distribuciones por una distribución de tipo normal.

También deberá el alumno conocer otras importantes distribuciones continuas que pueden considerarse como derivadas de la normal. Así:

 La distribución (chi-cuadrado) de Pearson.

 La distribución «t» de Student.

 La distribución «F» de Snedecor.

4.1 Al finalizar el tema el alumno debe conocer...

(2)

características.

 Relación entre la distribución N

,

y la distribución N

 

0, 1 .

 Utilización de tablas estadísticas de la N

 

0, 1 para el cálculo de probabilidades.

 Relación que existe entre la distribución binomial, Poisson y normal.

 El Teorema Central del Límite.

 Distribuciones asociadas a la normal y utilización de sus tablas estadísticas para el cálculo de probabilidades.

4.2 Introducción.

Los modelos continuos se caracterizan porque el conjunto de valores que puede tomar la variable aleatoria es un conjunto infinito no numerable. Dentro de estos modelos continuos vamos a dar una especial importancia a la distribución Normal, que es de muchas maneras, la piedra angular de la estadística moderna.

Modelos de distribuciones de probabilidad de variables continuas.

1. Uniforme. Es la distribución donde todos resultados posibles tienen la misma probabilidad, en este caso la variable aleatoria al ser de tipo continuo toma todos los posibles valores en un intervalo finito.

2. Exponencial. Se utiliza para estudiar el tiempo entre dos sucesos.

3. Beta. Sirve para el estudio de variaciones, a través de varias muestras, de un porcentaje que representa algún fenómeno.

4. Gamma. Se utiliza para estudiar variables cuya distribución puede ser asimétrica.

5. Normal. Es la distribución más utilizada porque la mayoría de las variables utilizadas en fenómenos sociales se distribuyen aproximadamente siguiendo este modelo. La estudiaremos más detalladamente a continuación y se le llama comúnmente distribución normal.

(3)

4.3 Distribución uniforme continua.

Es la más sencilla de las distribuciones continuas, surge al considerar una variable aleatoria que toma valores equiprobables en un intervalo finito. Su nombre se debe al hecho de que la densidad de probabilidad de esta variable aleatoria es uniforme sobre todo su intervalo de definición.

La distribución uniforme es aquella que puede tomar cualquier valor dentro de un intervalo, todos ellos con la misma probabilidad. Diremos que una variable aleatoria sigue una distribución uniforme en un intervalo

 

a,b si la probabilidad de que la variable aleatoria tome un valor en cualquier subintervalo es proporcional a la longitud del subintervalo. La función de densidad es:

 

donde a b y a bdos parámetros

resto el en b x a a b x f , , 0 1              

Abreviadamente esta distribución la indicaremos por:xU

 

a,b

Características de ésta distribución: 1. Función de distribución:

  

 

              

b x si b x a si a b a x a x si dx x f x X P x F x a 1 0 2. Media :

Se calcula como vimos anteriormente en el valor esperado de una variable aleatoria de tipo continuo:

 

 

dx

a b x dx x f x x E b a   

  1 . Realizando los cálculos llegamos al siguiente resultado

 

2

a b x

E   . Como podemos observar es el centro del intervalo de definición y coincide con la mediana. 3. Varianza:

Se calcula como vimos anteriormente en el caso de una variable aleatoria de

(4)

Si calculamos el momento de segundo orden:

 

 

a b a b dx a b x dx x f x x E b a      

  3 1 3 3 2 2 2 Luego:

 

 

 

 

12 2 2 2 b a x E x E x Var    

Los parámetros de esta distribución son:

Distribución Uniforme Parámetros

Media 2 b a Varianza

12 2 a b Desviación típica

12 2 a b4.4 Distribución normal.

Esta distribución resulta útil no sólo porque un gran número de distribuciones de frecuencias presentan formas aproximadamente normales, sino también por su gran significado teórico en el campo de la estadística inferencial. En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal:

- Caracteres morfológicos de individuos: talla, peso,..

- Caracteres sociológicos: consumo de un cierto producto por un grupo de individuos, puntuaciones de examen…

- Caracteres psicológicos: cociente intelectual, grado de adaptación a un medio,..

- Valores estadísticos muestrales: la media.

- Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.

(5)

No obstante, hay que tener cuidado al suponer que un determinado conjunto de observaciones se puede aproximar por una distribución normal.

La distribución normal la obtuvo inicialmente De Moivre en 1733 como límite o aproximación de la distribución B ,

 

n p cuando n . Posteriormente Gauss en 1809 y Laplace en 1812 llegaron a obtenerla empíricamente al estudiar la distribución de errores accidentales en Astronomía y Geodesia.

Una justificación de la frecuente aparición de la distribución normal es el teorema central del limite, que veremos más tarde, que establece que cuando los resultados de un experimento son debidos a un conjunto muy grande de causas independientes, que actúan sumando sus efectos, siendo cada efecto individual de poca importancia respecto al conjunto, es esperable que los resultados sigan una distribución normal La curva normal responde al tipo de curva perfectamente simétrica, y unimodal basada en un número infinito de casos, por lo que sólo puede ser tratada de forma aproximada cuando se opera con datos reales. Por tratarse de una curva simétrica coinciden la media, la moda y la mediana.

Diremos que la variable aleatoria, de tipo continuo, sigue una distribución Normal de parámetros  y 2, si su función de densidad es:

 

       x e x f x 2 2 2 2 1  

 , donde ,R y tales que  y

0

La función de densidad depende de dos parámetros: media y varianza de la distribución, y puede verse por la definición que no hay una única distribución normal sino una familia completa de distribuciones.

Abreviadamente esta distribución la indicaremos por: xN

,

Se observa que tiene forma de campana, de aquí que frecuentemente se le llame curva o campana de Gauss.

(6)

Los parámetros:

- , es el centro de la distribución y también se corresponde con el punto máximo de la distribución.

-  nos da una idea del grado de apertura de la distribución.

Veamos los siguientes ejemplos:

a) En este caso tenemos dos curvas normales N

1,

y N

2,

que tienen

distintas medias  1 <  2 pero tienen la misma desviación típica, por tanto sus

centros están en diferentes lugares pero el grado de apertura de ambas distribuciones es el mismo.

b) En este segundo caso tenemos dos curvas normales N

,1

y N

,2

que

tienen distintas desviaciones típicas  12 pero tienen la misma media. Ahora

las curvas están centradas en el mismo punto  pero su grado de apertura es distinto. Como  1 <  2 la curva de mayor desviación típica, en este caso  2

(7)

Características de ésta distribución: 1. Función de distribución:

 

        

x dx e x X P x F x x 2 2 2 2 1   

La integral correspondiente a esta función de distribución sólo puede calcularse mediante métodos numéricos aproximados. Una manera de simplificar estos cálculos es mediante el proceso de tipificación de una variable aleatoria normal, que nos permite pasar de una N

,

a una

 

0,1

N

La variable normal con media cero y desviación típica la unidad se denomina normal estándar N

 

0,1 ; su función de distribución está tabulada. Para calcular probabilidades en el caso general, transformaremos la variable aleatoria normal x en la variable normal estándar z, mediante:

 

  x

z

Si aplicamos el cambio de variable tenemos como función de densidad:

 

ze z f z 2 2 2 1 

y su función de distribución es:

  

 

     

z dz e z Z P z F z z 2 2 2 1 

(8)

Las características que presenta la normal tipificada son:

 No depende de ningún parámetro.

 La curva f

 

z es también es simétrica respecto del eje OY.

 Para realizar la representación gráfica de la función de densidad f

 

z

correspondiente a la normal N

 

0,1 procederíamos de forma análoga a como se hizo para la distribución N

,

.

2. Media :

La media de la variable aleatoria es ; es decir: E

 

x  , es al mismo tiempo la media, la mediana y la moda de la distribución

3. Varianza:

 

 

2 

 

2 2 x E x E x

Var , considerando que: E

 

x2 2 2 Igualmente, es la desviación típica que nos da una idea de cual es la

dispersión entorno a la media.

Los parámetros básicos de la distribución son:

Distribución N ( ,  ) Parámetros

Media 

Varianza  2

Desviación típica 

Cálculo de probabilidades:

Sea x una variable aleatoria normal N

,

con función de distribución acumulada

 

x

F , y sean a y b dos posibles valores que verifican que ab. Entonces:

a x b

F

 

b F

 

a

(9)

Cualquier probabilidad puede obtenerse a partir de la función de distribución acumulada, sin embargo, como vimos anteriormente calcular la integral correspondiente a esta función de distribución sólo puede hacerse mediante métodos numéricos aproximados. No obstante cualquier distribución normal puede expresarse como una normal estándar N

 

0,1 :

 

b* F

 

a* F a F b F b z a P b x a P b x a P                                                     

Donde zes una variable aleatoria normal estándar que está tabulada. En esta tabla encontraremos los valores de:

  

 

     

z dz e z Z P z F z z 2 2 2 1 

No debemos olvidar que se trata de una distribución simétrica y que el área bajo la curva normal es igual a la unidad. Por tanto:

P

Zz

F

 

zP

Zz

1F

 

z

(10)

Valoración de la normalidad:

La decisión de describir una distribución mediante una curva normal puede determinar el análisis que posteriormente se haga de los datos. Una forma de ver si los datos son aproximadamente normales es observando su histograma. Este nos puede revelar de forma clara características no normales de una distribución: las asimetrías prolongadas, los vacíos entre datos, etc.

Una forma de valorar si una distribución es normal es señalando los puntos ,

 , 2, 3 en el eje de las x y observando la probabilidad

comprendida en estos intervalos. En el caso de una distribución normal N

,

:

 El 68,3 % de las observaciones se encuentran entre 

 El 95,5 % de las observaciones se encuentran entre 2  El 97,7 % de las observaciones se encuentran entre 3

Propiedades de ésta distribución:

1. Si

x1,x2,,xn

n son variables aleatorias independientes, distribuidas

según una N

i,i

i1,2n, y si a1, a2 ,……., an y bson números

reales. Entonces la variable aleatoria:ya1x1 anxnb Sigue una distribución: N

a11 annb, a1212 an2n2

2. La suma de “ n ” variables aleatorias independientes,

x1,x2,,xn

y distribuidas según una N

i,i

i1,2nsigue una distribución:N

1 n, 12 n2

(11)

idénticamente distribuidas según una N

, 

, entonces la variable aleatoria suma de las “ n ” variables: yx1 xn. Sigue una distribución: N

n,  n

4. Si

x1,x2,,xn

son “n ” variables aleatorias independientes e

idénticamente distribuidas según una ,N

, 

entonces la variable aleatoria media aritmética de estas n variables:

n x x x 1  n Sigue una distribución:       n N , 

Aproximación a la distribución normal la distribución binomial.

El teorema de Moivre (1.756) permite realizar esta aproximación considerando que las variables aleatorias sigan una distribución binomial con:

2 1

 q

p (este

teorema fue generalizado posteriormente por Laplace en 1.810 para distribuciones no simétricas pq).

Vimos que la variable aleatoria binomial era el número de éxitos que tienen lugar cuando se realizan n repeticiones independientes de un experimento o prueba de

Bernoulli. La variable aleatoria x puede escribirse como la suma de n variables

aleatorias de Bernoulli: xxxx2 xn E

 

xnp Var

 

xnpq

Si x es una variable aleatoria binomial, B ,

n p

, con media E

 

xnp y desviación típica   Var

 

xnpq entonces, cuando n la variable aleatoria:

 

 

npq N

 

0,1 np x x Var x E x Z      Es decir: xN

np,npq

En la práctica, decir que n es lo suficientemente grande, se traduce en:

2 1 5 2 1 5     p y nq p y np

(12)

Lo que se hace es aproximar una distribución discreta, como es la binomial, a una distribución normal que es continua, y ya que en el caso continuo la probabilidad o masa asociada a un valor concreto de la variable aleatoria es nulo, tendremos que utilizar la corrección de continuidad de Fisher para calcular la probabilidad deseada:

Probabilidad en B ,

 

n p Corrección de continuidad

P ( X = x ) P ( x – ½ ≤ X ≤ x + ½ ) P ( a ≤ X ≤ b ) P ( a – ½ ≤ X ≤ b + ½ ) P ( X ≤ x ) P ( X ≥ x ) P ( X ≤ x +½) P ( X ≥ x -½)

Aproximación a la distribución normal la distribución de Poisson.

En el caso de la distribución de Poisson, la variable aleatoria nos establece el número de veces que ocurre un suceso en un determinado intervalo de tiempo, sabemos que la media y la varianza de esta distribución coincide con el parámetro

.

Si el número de ocurrencias esperadas  es elevado y el intervalo de tiempo se divide en subintervalos de idéntica longitud. En ese caso, el número total de ocurrencias es la suma de las ocurrencias de cada subintervalo, y puede verse como la suma de un número moderadamente grande de variables aleatorias, cada una de las cuales representa el número de ocurrencias en un subintervalo del periodo de tiempo, puede utilizarse la distribución normal como una aproximación a la distribución de Poisson. En la práctica la aproximación es aceptable si  10, aunque algunos autores aceptan la aproximación cuando  5.

El procedimiento práctico es análogo al caso de la binomial, así pues si tenemos una variable aleatoria x que se distribuye según una distribución de Poisson de parámetro, entonces cuando 10 la variable aleatoria:

 

 

x x N

 

0,1 Var x E x Z        Es decir: xN

, 

(13)

Al igual que en el caso de la distribución binomial es necesario aplicar la corrección de continuidad para calcular las probabilidades.

4.5 Teorena Central del Límite

No existe un único Teorema Central del Límite, sino un conjunto de teoremas, todos ellos dando condiciones para que una sucesión de variables aleatorias tienda a distribuirse según una distribución normal. Muchas variables aleatorias que se encuentran en la práctica son sumas o promedios de un número grande de variables aleatorias independientes.

Consideremos que x1,,xn es una sucesión de n variables aleatorias

independientes e idénticamente distribuidas, con media  y varianza 2

(ambas finitas). Definimos una nueva variable:

n x x x x x  2 

 

 

2   Var x n n x E  

Para cualquier variable aleatoria, al restar la media y dividir por la desviación típica se obtiene una variable aleatoria tipificada de media 0 y varianza 1:

 

 

2  n n x x Var x E X

Z     Cuando n entonces podemos decir que ZN

 

0,1 o bien xN

n, n

.

El teorema central del límite tiene un impacto sustancial en la práctica estadística. Afirma que cualquiera que sea la distribución común de un conjunto de variables aleatorias, suponiendo que la media y la varianza son finitas, la suma de un número moderadamente grande de ellas será una variable aleatoria con distribución parecida a la normal.

(14)

- Si las variables aleatorias no son independientes o no tienen la misma distribución de probabilidad, en ese caso habrá que utilizar otras condiciones de mayor dificultad que no consideraremos en este caso.

Otro resultado interesante de este teorema es el siguiente, consideramos que

n

x

x1,, es una sucesión de n variables aleatorias independientes e idénticamente distribuidas, con media y varianza 2 (ambas finitas). Definimos una nueva variable x que es el promedio de estas variables aleatorias:

n x n x x x 1 n

 

 

n n n x Var n n x E 2 2 2      

Para cualquier variable aleatoria, al restar la media y dividir por la desviación típica se obtiene una variable aleatoria tipificada de media 0 y varianza 1:

 

 

n x x Var x E x

Z     Cuando n entonces podemos decir que ZN

 

0,1 o

bien        n N x ,  .

En los próximos apartados consideraremos el problema de hacer inferencia sobre una población, basado en los resultados que obtenemos de una muestra. Muchas de las medidas calculadas a partir de una muestra son sumas o promedios. Por consiguiente, el teorema central del límite es muy relevante y proporciona validez a muchas de las técnicas que se utilizan para enfocar estos problemas.

4.6 Distribuciones asociadas a la normal.

Seguimos en esta parte estudiando distribuciones continuas unidimensionales, muy estrechamente relacionadas con la distribución normal, pues las variables aleatorias asociadas a estas distribuciones son combinaciones de variables aleatorias normales. Estas distribuciones fueron introducidas para estudiar las distribuciones de las diferentes variables aleatorias que nos aparecerán en los procesos de estimación y

(15)

que son muy utilizadas en la Inferencia Estadística.

Distribución

2

de Pearson.

Aparece, naturalmente en la teoría, asociada a la suma de los cuadrados de variables aleatorias independientes e igualmente distribuidas según una distribución normal. Es, por tanto, una distribución de variable continua cuyo dominio se extiende de 0 a  .

Dadas n variables aleatorias independientes distribuidas según:

 

 

 

          1 , 0 1 , 0 1 , 0 . 2 N z N z N z ntes independie a Variables n  Se define la variable 2

con n grados de libertad como:

2 2 1 2 2 n nzz z  Y se denota como: z

 

n n i i i 2 1  

Los parámetros fundamentales son:

Parámetro Valor Media n Varianza 2n Características fundamentales:  La distribución 2

es asimétrica, cuyo dominio se extiende de 0 a .

 La distribución

2

se encuentra tabulada en función de n . Para el cálculo

de probabilidades es preciso recurrir a tablas que, al igual que en el caso de la N

 

0,1 , proporcionan valores aproximados. Las tablas estadísticas nos proporcionarán la probabilidad del suceso

 

na

2

, siendo la mecánica

(16)

 Su propiedad fundamental es que si sumamos dos

2

independientes de

1

n

y n grados de libertad, obtenemos una 2

2

con

2

1 n

n  grados de libertad. Esto lo podríamos generalizar para n1,,nn.

 En la práctica a partir de 30 grados de libertad se aplica la convergencia a la distribución normal: 2n2  2n1 es aproximadamente N

 

0,1 .

Distribución t de Student.

Una segunda distribución muy relacionada con la normal y con la

2

y muy

ampliamente utilizada en la inferencia es la distribución t de Student o simplemente distribución t. Esta distribución fue estudiada por W.S. Gosset y publicada por primera vez en 1.908.

Sean x , ,xn,

n1

variables aleatorias independientes e idénticamente distribuidas según una N

 

0, Entonces se dice que la variable aleatoria:

2 2

1 1 n n x x n x t    

Se distribuye según una t de Student con n-grados de libertad, el número de grados de libertad es igual al número de variables que figuran en el denominador de t

 

n. Teniendo en cuenta la definición dada anteriormente para la distribución

2

, si

transformamos las variables aleatorias distribuidas según una N

 

0, en N

 

0,1 de manera que el numerador:

 

0,1 N x   Y el denominador: n x x n n n 2 2 2 1 1                        

(17)

n x t n n 2   

Abreviadamente lo indicaremos por: Ttn

Los parámetros fundamentales son:

Parámetro Valor Media 0 Varianza 2  n n .

La importancia de esta variable aleatoria reside en el hecho de que su función de densidad depende de la varianza de las variables que la integran, y su utilidad se verá plenamente cuando se estudie la Inferencia Estadística en los casos donde la varianza poblacional se desconoce.

 El campo de variación de la variable tn es el intervalo

,

. La variable

n

t es simétrica, con mayor dispersión que la distribución normal estándar, aunque se observa que cuando n aumenta la distribución t de Student

tiende a la N

 

0,1 .

 No debemos olvidar que esta distribución está tabulada, las tablas estadísticas nos proporcionarán la probabilidad del suceso

t

na

 

. Para el manejo de tablas es importante recordar la simetría de la función de densidad, siendo la mecánica del cálculo muy similar a lo visto en la N

 

0,1

 Cuando n30, la distribución tn converge a la distribución

normal:       2 , 0 n n N

(18)

Distribución F de Snedecor..

Una distribución utilizada frecuentemente y relacionada con la distribución normal es la distribución F de Snedecor. Esta distribución se utiliza fundamentalmente en problemas relacionados con la varianza, y muy concretamente en la técnica de análisis de la varianza.

Sean x1,,xm,e y1,,yn,

mn

variables aleatorias independientes e idénticamente distribuidas según una N

 

0, . Entonces decimos que la variable aleatoria: n y y m x x F n m n m 2 2 1 2 2 1 ,       

Se distribuye según una F de Snedecor con myn grados de libertad.

Si realizamos la misma transformación que en el caso de la t de Student, para poder expresar esta variable como el cociente de dos2, transformando las variables aleatorias distribuidas según una N

 

0, en N

 

0,1 .

 

0,1

 

0,1 1 N x N x m     

 

0,1

 

0,1 1 N y N y n      Tendremos lo siguiente: n m Fmn 2 2 ,  

Es decir, hemos expresado esta variable aleatoria como el cociente de dos 2 que no dependen de la 2 de las variables integrantes.

Abreviadamente lo indicaremos por:FFm,n

(19)

Parámetro Valor Media 2  n n si n > 2 Varianza

2

 

4

2 2 2 2     n n m n m n si n > 4

 No es simétrica, su campo de variación, como procedente de la suma de cuadrados, es el intervalo

0,

y tiene una asíntota para x.

 No debemos olvidar que esta distribución está tabulada, las tablas estadísticas nos proporcionarán la probabilidad del suceso

F

  

m,na . La presentación de las tablas de la distribución F es distinta de las anteriores, debido a la existencia de dos parámetros en la función de densidad. En general las tablas se utilizan en sentido inverso, es decir, conocida la probabilidad del suceso

F

  

m,na hallar el valor de a .

(20)
(21)

Referencias

Documento similar

A Carlos Eduardo, Oscar y Gilma, mis colegas de doctorado que ya se graduaron y que fueron mi ejemplo y grupo de apoyo. Por supuesto a todos los Emes, amigos

Se llega así a una doctrina de la autonomía en el ejercicio de los derechos que es, en mi opinión, cuanto menos paradójica: el paternalismo sería siempre una discriminación cuando

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

Sabemos que, normalmente, las ​cookies deben ser almacenadas y enviadas de vuelta al servidor sin modificar; sin embargo existe la posibilidad de que un atacante

El tercero tiene notas bajas pero la mayor es estadística, una de las temáticas trabajadas de forma más mecánica, asimismo el último arquetipo muestra que, aun con notas buenas,

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..