TEMA 65. Distribuciones de probabilidad de variable

(1)

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 1

TEMA 65. Distribuciones de probabilidad de variable

discreta. Características y tratamiento. Distribuciones

binomial y de Poisson. Aplicaciones

1. Introducción.

1.1 Histórica.

Los conceptos de azar e incertidumbre son tan viejos como la propia civilización. La humanidad siempre ha debido soportar la incertidumbre del clima, de las cosechas y otros aspectos de medio que lo rodea, así como buscar los efectos que los regulan para tratar de reducir las probabilidades que generan efectos negativos.

El origen de la probabilidad desde un punto de vista matemático se cree que surge con los juegos de azar. Así en el Egipto antiguo ( 3500 aC) se tiene constancia de la existencia de juegos de azar practicado con objetos de hueso, siendo estos los predecesores de los dados actuales. También los egipcios construyeron dados con marcas como los actuales.

Se suele aceptar como el comienzo de la teoría matemática de la probabilidad con Fermat y Pascal, matemáticos franceses del siglo XVIII. Estos lograron calcular la probabilidad exacta para ciertos juegos de azar relacionados con los dados. Desde este momento la teoría de la probabilidad ha sido constantemente desarrollada y aplicada a más diversos campos de estudio.

1.2. Espacio de probabilidad.

En este tema se usará la concepción matemática de la Teoría de Probabilidad sin tener en cuenta las concepciones filosóficas que la soportan. Para usarla tenemos en cuenta los tres elementos fundamentales que forman un espacio de probabilidad: • Ω el espacio muestral, que es conjunto de todos los resultado posibles distintos de

un experimento aleatorio.

• S es el conjunto de todos los sucesos que se dan sobre Ω (técnicamente es un σ-álgebra de sucesos sobre Ω):

1) Ω∈S

2) Si A∈S Ac∈S 3) Si A y B∈S A∪B∈S

• ℘ es la función de probabilidad que refleja la regularidad estadística del experimento; es una función real definida sobre S, ℘: S → ℝ, que satisface los siguientes axiomas:

1) ℘(A)≥0, ∀A∈C 2) ℘(Ω)=1 3)

( ) { }

1 1 1 , n n n n n n A A A ∞ ∞ ≥ = =   ℘_ _= ℘ ∀

(2)

2. Variable aleatoria discreta. Función probabilidad

Sea (Ω,S, ℘) un espacio de probabilidad definimos una variable aleatoria a una aplicación que asigna a cada uno de los posibles resultados del experimento aleatorio un determinado valor real que identifica el resultado elementales del experimento y le diferencia de los demás. Veamos un ejemplo con el lanzamiento de dados:

X: Ω ℝ Ejemplo en los dados X(“sacar 1”)=1, X(“sacar 2”)=2m…., C(“sacar 3”)=3… A _X(A)

Definimos variable aleatoria discreta como una variable aleatoria donde la imagen de la aplicación X es finita o al menos numerable, es decir X(Ω)={x1, x2,….,xn}. Ejemplos: sacar una carta de la baraja española, tirar dado, posibles resultados de una quiniela…

La aplicación ℘°X-1 que asigna a cada número real de X(Ω)={x1, x2,….,xn} la probabilidad del suceso X-1(xi) se denomina función de probabilidad y la denotaremos con la letra p: p=℘°X-1.

Ejemplo: estudiemos el experimento aleatorio tirar un dado y anotar el número que sale.

El espacio muestral es Ω={A1=”salga 1”, A2=”salga 2”, A3=”salga 3”, A4=”salga 4”, A5=”salga 5”, A6=”salga 6”}. La aplicación X es de la forma X(Ai)=i con i={1,2,3,4,5,6} y la aplicación p(xi)=1/6.

3. Función distribución.

Sea X una variable aleatoria sobre el espacio probabilístico, llamamos función distribución

de la variable aleatoria X a la aplicación F definida de la siguiente manera:

F: X _{[0,1] siendo F(x}i)=p(x≤xi)=

(

_k

)

i k

x

p

∑

≤ Propiedades:

1. F es definida creciente, es decir si a<b F(a)≤F(b) 2. F(∞)=1 y F(-∞)=0

3. 0≤F(x)≤1

4. P(a≤x≤b)=F(b)-F(a) 5. F’(X)=p(X)

Vamos a ver como es la función distribución en el caso del lanzamiento del dado:

(3)

4. Esperanza matemática o valor esperado.

Se llama esperanza matemática, o valor esperado al valor medio que toma la variable. Se cumple que este valor se calcula sumando cada valor de X por su probabilidad. Se denota como E(X) o

x

o µ y su valor viene dado como hemos definido:

∑

∞ = = 1 ) ( · ) ( i i i p x x X E

En el ejemplo propuesto de los dados la esperanza vendrá dada por:

E(X)= 2 7 6 1 · 6 6 1 · 5 6 1 · 4 6 1 · 3 6 1 · 2 6 1 · 1 + + + + + =

Proposición: Si X⊆ℕ entonces se cumple que E(X)= ( )

0 k x p k ≥

∑

∞ = Demostración: E(x)=0·p(0)+1·p(1)+2·p(2)+…+n·p(n)=0·p(0)+1·(p(1)+p(2)+…+p(n))+1(p(2)+…+p(n))+ …+1·(p(n)) Si tenemos dos variables aleatorias, X e Y relacionadas entre sí (Y=g(X)) la esperanza de Y se calcular como:

∑

∞ = = = 1 ) ( )· ( )) ( ( ) ( i i i p x x g X g E Y E

Veamos un ejemplo para asentar conceptos: se lanza el dado de tal forma que si sale 6 gana 7€, si sale un 5 no gana ni pierde nada, y si sale 1, 2, 3, 4 se pierden 2€. Cual es valor esperado del dinero que ganaríamos o perderíamos en este juego:

La variable Y={7,0,-2} siendo g la aplicación g(6)=7€, g(5)=0, g(4)=g(3)=g(2)=g(1)=-2€. Las probabilidades por tanto de p(Y=7)=p(X=6)=1/6, p(Y=0)=p(X=5)=1/6, y p((X=-2)=4/6. Por tanto el valor esperado vendrá dado por E(Y)=7·1/6+0·1/6-2·4/6=-1/6€ (pierde dinero).

Propiedades de la esperanza matemática:

1) Min(X)≤E(X)≤max(X)

(4)

5. Momentos.

Llamamos momento de orden k respecto al origen de la variable aleatoria X a la expresión

∑

=

i i k i k k

E

(

X

)

x

· p

(

x

)

α

. El momento de orden 1 es la esperanza (α1=E(X)).

Llamaremos momentos centrales (respecto la media) de orden k de la variable aleatoria X

(

)

( ) ) ) (( − =

∑

− = i i k i k k E X

µ

x

µ

p x

µ

El momento central de orden 2 es el más importante y se denomina varianza de X, denotándose generalmente como Var(X) o σ2

. Su raíz cuadrada positiva es denominada como

desviación típica de X y se denota como σ o DT(X).

Propiedades de la varianza:

1. Independencia del cambio de origen: Var(X+c)=Var(X) 2. Cambio de escala: Var(k·X)=k2·Var(X)

3. Var(x)=α2-α1 2

=E(x2)-E(x)2 4. Var(X+Y)=Var(x)+Var(Y)

5. Si Z es la variable tipificada definida como Z=(X-µ)/σ entonces E(X)=0 y Var(X)=1. Demostraciones: 1. Var(X c) (x c ( c))2·p(x ) (x2 )p(x_i) Var(X) i i i i i + − + = − = = +

∑

µ

∑

µ

(donde

hemos aplicado que µ(X+c)=µ(x)+c.

2. _Var(_k·_X) (_k·_x ( ·_k))2·_p(_x ) _k2 (_x2 )_p(_x ) _k2·_Var(_X) i i i i i i − = − = =

∑

µ

∑

µ

(donde

hemos aplicado que µ(k·X)=k·µ(x)

3. ( )

(

)

2 ( )

(

2 2 2 ·

)

( ) ( 2) 2 2 · ( 2) ( ) X E X E X E x p x x x p x X Var i i i i i i i− = + − = + − = − =

∑

µ

∑

µ

4.

)

(

)

(

0 )

(

)

(

)

(

)

(

)

(

)

)(

(

2 )

(

)

(

)

(

)

(

)

(

)

(

)

(

2 2 2 2 2

Y

Var

x

Var

x

p

y

Y

x

p

x

X

x

p

y

Y

x

X

x

p

y

Y

x

p

x

X

x

p

y

x

Y

X

Y

X

Var

i i i i i i i i i i i i

+

=

+

−

+

−

=

−

+

−

=

−

+

=

+

∑

5. La propiedad es un corolario de las propiedades 2 y 3.

Teorema de la desigualdad de Tchevychev: para cualquier variable X y cualquier número

real a se cumple la siguiente desigualdad: (| | ) 1 ₂( ) a x Var a x p −

µ

< ≥ − .

(5)

6. Medidas de centralización

Además de la esperanza existen más mediadas de centralización que se calculan a partir de la probabilidad de la variable de estudio. Las mediadas de centralización sirven para describir la distribución a partir de un único valor (valor central):

- Moda Mo: es el valor más probable, es decir p(M0)≥p(xi) ∀xi ∈X. Si hay dos puntos con máximo valor se dice que la distribución es bidmodal, igualmente con tres, cuatro… - Mediana Me: es el menor valor de X que verifica que p(x≤Me)≥0.5

- Media armónica Ma: Ma=

∑

i i i

x

p

(

)

1

(es la que se utiliza para calcular la media de

velocidades en función del tiempo que ha transcurrido el móvil). - Media geométrica Mg : =

∏

( )

i x p i i x

Mg ( ) (se utiliza en variables con carácter multiplicativo).

7. Medidas de dispersión.

Además de la varianza y de la desviación típica hay otras medidas de dispersión que nos indican cómo se alejan los valores de la media:

- Coeficiente de variación de Perarson: CV=

µ

σ

que es adimensional y es válido para comparar la dispersión de magnitudes diferentes.

- El rango o Recorrido, mide la diferencia entre el valor máximo y el mínimo: R=sup(X)-inf(X).

- Recorrido relativo, mide el recorrido relativo al valor de la media:

ν

R Rr =

8. Medidas de Asimetría y Curtosis.

Se suele utilizar la medida de asimetría γ1= 3₃

σ

µ

tal que se cumple: o Si γ1=0 la distribución totalmente simétrica

o γ1>0 antisimétrica a la derecha (mayor cuanto mayor sea) o γ1<0 antisimétrica a la izquierda (mayor cuanto menor sea) Para el aplastamiento de la distribución o curtosis se utiliza el parámetro γ2= 4₄

σ

µ

tal que: o Si γ2=0 distribución normal.

(6)

9. Distribución Binomial.

Sea A un suceso de probabilidad p y consideremos n pruebas independientes, en cada una de las cuales pueden o no presentarse el suceso A. Si tomamos como variable X= “el número de veces que ocurre el suceso A de las n veces” esta distribución se dice que es binomial con n elementos y probabilidad p.

Esta distribución quedará definida de la siguiente manera: X={0, 1, 2, …,n} siendo

k n k p p − −       = (1 ) k n k) =

p(x . La razón de esta probabilidad es lasiguiente: aplicando el

principio aditivo de la probabilidad hay _      k n

formas de obtener el resultado (sin más que ver las distintas ordenaciones de los k veces que ocurre A en n intentos), en todas ellas la probabilidad es la misma (aplicando ahora el principio multiplicativo) e igual a pk(1-p)n-k (k éxitos de probabilidad p y n-k fracasos de probabilidad 1-p).

La distribución binomial como hemos visto sólo depende del número de veces que repitamos los experimento, n, y de la probabilidad de que ocurra en cada uno de ellos el suceso A, p. Es por esto que la distribución binomial se denota como X aB(n,p).

Los parámetros más importantes de la distribución binomial en función de sus parámetros n y p son los siguientes (utilizaremos la notación q=1-p, probabilidad de fallo):

- Esperanza: E(X)=n·p - Varianza:

σ

2 =n ··pq - Desviación típica

σ

=

n ·

· p

q

- Mediana Me=

   

n·p o n·p - Moda Mo =



( +n 1)·p



- Coeficiente de asimetría: γ1= npq p 2 1 − - Curtosis: γ2= npq pq 6 1 −

- Función generadora de momentos: (1− p+ p·et)n Vamos a demostrar los tres primeros:

(7)

Varianza: Var(x)=E(x2)−

(

E(x)

)

2.

Veamos primero el valor de k n k

n k n k k n k _p _q p n k p p q p p n k x E − = = −

∑

_ _ = _∂∂ _ _ = 0 0 2 2₎ _· ( =

(

)

(

)

(

n p q pn n p q

)

pn p n p n p q p pn p p q p p p p p p q p p n p p p x E p p q p n n n n n k k n k 2 2 2 1 1 1 1 0 ) )( 1 ( ) ( ) ( ) ( ) ( − + = + − + + = + ∂ ∂ =       + ∂ ∂ ∂ ∂ =               ∂       ∂ ∂ ∂ = ∂ ∂ = + − − − = −

∑

(

)

2 2 ) ( ) ( ) (x E x E x Var = − = pn+p2n2− p2n-(pn)2=n·p(p-1)=n·p·q

Desviación típica:

σ

=

var(

X =

)

npq

Teorema de la adición: la suma de variables aleatorias binomiales independientes con el

mismo parámetro p es otra binomial de parámetro p.

Demostración: Sean XaB(n1,p) e Y aB(n2,p) entonces probemos que X+Y aB(n1+n2,p): La suma de X+Y nos indica el número de veces que ocurre el suceso Ax del experimento relacionado con X más la suma de las veces que ocurre el suceso Ay en el experimento Y. Es realizar n1+n2 veces un experimento (aunque sean distintos entre sí) de Bernouilli con probabilidad p de ocurrir, esto explica que entonces x+y aB(n1+n2,p).

Otra forma más matemática de entenderlo es viendo la función distribución de momentos, que como son variables independientes es igual al producto de ambas funciones de momentos:

ϕ

(X +Y)=

ϕ

(X)·

ϕ

(Y)=₍₁−_p+ _p_·_et₎n1_·(₁− _p+ _p_·_et₎n2 =₍₁− _p+ _p_·_et₎n1+n2

que es la función distribución de momentos Binomial B(n1+n2 , p)

Ejemplo: se lanza una moneda 10 veces y se mira el número de caras, luego se lanza un

dado 20 veces y contamos las veces que cae en número par. Si llamo X+Y al número de veces que la moneda cae en cara más las veces que el dado cae en par tiene lógica que aunque no sean el mismo experimento sean equivalente, y por tanto es equivalente a realizar un experimento de Bernuilli 30 veces con probabilidad p=0,5: X+Y aB(30,0,5).

10. Distribución de Poisson.

Es una distribución discreta en las que la variable aleatoria X toma los valores en ℕ, siendo la probabilidad para cada suceso

! · ) ( k e k x p k

λ

λ − =

= . El parámetro λ es el que rige el comportamiento de la distribución, es por eso que si X sigue esta distribución la notación habitual es X aP(λ).

(8)

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es) 8 La utilización de la distribución de Poisson es también muy utilizada como aproximación de la binomial cuando p es muy pequeño y n muy grande.

! · ) 1 ( lim ) ¡ ( lim · 0 · 0 k e p p k n k x p k k n k p n p n p n p n

λ

λ λ λ − − → →∞ → → →∞ → _ − =     = =

Ejemplo: Una fábrica produce 10000 piezas al día. La probabilidad de que una pieza sea

defectuosa es igual a 0.0001. Hallar la probabilidad de que 5 piezas salgan defectuosas. Si utilizamos la distribución binomial, como es realmente la distribución, supondrá una gran labor en los cálculos. En cambio tomando λ=n·p=10000·0,0001=1. X aP(λ). Y entonces p(5)=e-1/5!

Los parámetros más importantes de la distribución binomial en función de sus parámetros n y p son los siguientes:

- Esperanza: E(X)=λ - Varianza:

σ

2 =λ - Desviación típica

σ

=

λ

- Mediana Me= no fijada - Moda Mo =

 

λ

−1 - Coeficiente de asimetría: γ1=

λ

- Curtosis: γ2= 1 3+

λ

−

- Funciona generadora de momentos: eλ·

( )

et−1

Vamos a demostrar los tres primeros (utilizaremos que

∑

∞ =

=

0

!

i k

k

e

λ

) Media:

λ

λ λ λ λ λ

₌

−

=

−

=

∞ − = − − ∞ = ∞ = − −

∑

e

k

e

k

e

k

e

k

x

E

k k k k k k

· )!

1 (

)!

1 (

!

· )

(

1 1 0 1 Varianza:

Calculemos primero E(x2):

(9)

Teorema de la adición: la suma de variables aleatorias de Poisson independientes es

también una variable aleatoria de Poisson de parámetro la suma de los parámetros.

Demostración: La función generatriz de momentos Z=X+Y, al ser independientes será el producto de ambas:

₍

₎

=

1( −1)

_·

2( −1)

=

(1+ 2)( −1) t t t e e e z

t

e

λ λ λ λ

ϕ

que como vemos es la función

generadora de momentos de una distribución de Poisson con parámetro λ1+λ2

11. Conclusiones

La probabilidad se introduce en los cursos de 2º y 3º de la Eso teniendo un peso más fuerte en las dos ramas de las matemáticas del 4º curso, donde ya se habla de la probabilidad condicional y de la probabilidad total (no así del teorema de Bayes) .

La probabilidad cobra más importancia en el currículo de bachillerato, en especial en el bachillerato de ciencias sociales. Es en estos dos cursos donde se ven las distribuciones de probabilidad, en concreto la binomial y la normal.

La distribución de Poisson en cambio no se encuentra en el currículo de metamatemáticas, ni en secundaria ni en bachillerato.