UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Fundada en 1551

(1)

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Fundada en 1551

FACULTAD DE CIENCIAS MATEMÁTICAS

E.A.P. DE ESTADÍSTICA

“INTRODUCCIÓN A LA ESTADÍSTICA BAYESIANA (CASO DE COMPARACIÓN DE MEDIAS)”

MONOGRAFÍA

Para optar el Título Profesional de:

LICENCIADO EN ESTADÍSTICA AUTOR

ROSALYNN MILUSKA YUPANQUI PACHECO

LIMA – PERÚ 2005

(2)

AGRADECIMIENTO

Al profesor Antonio Bravo Quiroz quien con su constante apoyo y dedicación contribuyo a la realización del presente trabajo.

Al Profesor Jorge Chue Gallardo quien me inspiro para la realización del presente trabajo, como también a su invalorable apoyo en mi desarrollo académico.

(3)

DEDICADA

A mis padres y hermanas, en especial a mi madre por su constante apoyo y aliento.

A Papá Rubén que desde el cielo nos ilumina y bendice.

(4)

INDICE

I. Introducción

II. Materiales y equipos III. Revisión de literatura

3.1.Comparación de medias poblacionales cuando se conocen las varianzas poblacionales

3.2.Comparación de medias poblacionales cuando no se conocen las varianzas poblacionales

3.2.1 Comparación de medias poblacionales varianzas iguales 3.2.2 Comparación de medias poblacionales varianzas distintas IV. Marco teórico

4.1. Estadística Bayesiana

4.1.1 Inferencia Estadística 4.1.2 Inferencia Bayesiana 4.2. Conceptos Básicos

4.2.1. Teorema de Bayes

4.2.2. Naturaleza secuencial del Teorema de Bayes 4.2.3. Distribución a priori difusa o no informativa 4.2.4. Distribución a priori conjugada

4.3. Inferencia Bayesiana 4.3.1. Estimación puntual

4.3.2. Intervalos de credibilidad o regiones veraces 4.3.3. Prueba de Hipótesis de una media

4.3.4. Prueba de Hipótesis de dos medias V. Aplicaciones

VI. Conclusiones y recomendaciones VII. Bibliografía

Anexo

(5)

Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.

I. INTRODUCCION

En algunas situaciones de toma de decisiones, la gente necesita determinar si los parámetros de dos poblaciones se parecen o son diferentes. Una compañía quizá quiera probar, por ejemplo, si las empleadas reciben sueldos más bajos que los varones por realizar el mismo trabajo. Es posible que un director de capacitación desee determinar si la producción de empleados promovibles en una instalación gubernamental difiere de la proporción de otra instalación. Un fabricante de productos farmacéuticos quizá necesita saber si un nuevo medicamento ocasiona una reacción en un grupo de animales de experimentación, no así en otro grupo.

En todos los ejemplos citados, los que toman las decisiones se ocupan de los parámetros de dos poblaciones. En tales situaciones, les interesa menos el valor verdadero de los parámetros que la relación existente entre los valores de los parámetros, o sea en que difieren estos últimos.

¿Ganan menos las empleadas que los empleados por el mismo trabajo?

¿Es la proporción de empleadas promovibles en una instalación diferente de la proporción que hay en otra instalación? ¿Reaccionó un grupo de animales de experimentación en forma distinta a como lo hizo otro?

La prueba de hipótesis para diferencia de medias se puede dar para los siguientes casos:

• Cuando se conocen las varianzas

• Cuando no se conocen las varianzas

• Varianzas Iguales

• Varianzas Distintas

(6)

El presente trabajo de investigación brinda una alternativa al análisis de la Prueba de Hipótesis para diferencias entre medias utilizando el enfoque Bayesiano para el proceso de inferencia estadística, lo que nos permitirá obtener resultados más precisos y confiables al incorporar en el modelo información auxiliar tal como la experiencia del investigador u otro conocimiento de relevancia para el análisis.

El enfoque Bayesiano se basa en la interpretación subjetiva de la probabilidad, la cual considera a esta como un grado de creencia con respecto a al incertidumbre. El punto de vista Bayesiano considera un parámetro desconocido como una característica con respecto a la cual puede expresarse un grado de creencia que puede modificarse con base en la información muestral. Una inferencia con respecto al parámetro se formula con base en el grado de creencia existente. En otras palabras, un parámetro es visto como una variable a la que, antes de la evidencia muestral, se le asigna una distribución a priori con base al grado de creencia con respecto al comportamiento del parámetro aleatorio. Cuando se obtiene la evidencia muestral, la distribución a priori es modificada y entonces surge una distribución a posteriori. Es esta distribución a posteriori la que se emplea para formular inferencias con respecto al parámetro.

El objetivo del presente trabajo es:

• Presentar una metodología de Análisis Estadístico utilizando el enfoque Bayesiano.

(7)

II. MATERIALES Y EQUIPOS

Para la elaboración del presente trabajo se necesito de la ayuda primordial de la computadora y el método para obtener la información de algunos casos fue capturada vía Internet, así como la utilización de diferentes software que a continuación se detallan:

* Microsoft Windows XP 2000

* Microsoft Excel 2000

* Microsoft Word 2000 (Editor de ecuaciones, texto).

* Minitab 13

* Globalink Power Traslator Pro (Traductor).

* English – Spanish Interpreter Profesional

Materiales de Internet:

• Pagina web google (Buscador)

• Pagina web altavista (Buscador)

• Pagina web shef.ac.uk/≈st190/1b.html (Estadistica Bayesiana - Firts Bayes)

(8)

III. REVISION DE LITERATURA

COMPARACION DE MEDIAS POBLACIONALES

La inferencia estadística comprende dos partes principales, a saber: la estimación de parámetros y la docimasia de hipótesis. En este trabajo estudiaremos la segunda de ellas, con el objeto de describir métodos generales para la docimasia de hipótesis y su aplicación a algunos problemas.

En la investigación experimental se pretende a veces simplemente estimar un parámetro; por ejemplo puede que se interese estimar la producción de un nuevo híbrido de maíz. Muchas veces, el objetivo final es la utilización de dicha estimación. Así ocurre cuando se quiere comparar la producción del nuevo híbrido con la correspondiente a una variedad conocida, a fin de recomendar la sustitución de esta por aquel, en el caso de que parezca superior. Esto sucede corrientemente en la investigación;

puede ocurrir que interese determinar si un método nuevo para cerrar lámparas aumenta la vida de estas; si un nuevo germicida resulta más efectivo en el tratamiento de cierta infección; si un método de conservación de alimentos es preferible a otros, en lo que se refiere a la conservación de vitaminas, etc.

La prueba de hipótesis comienza con una suposición, denominada hipótesis, que hacemos en torno a un parámetro de la población. Después reunimos datos muestrales, producimos estadísticos de la muestra y nos

(9)

servimos de esta información para decidir la probabilidad de que el parámetro supuesto de la población sea correcto. Pongamos el caso de que suponemos cierto valor de una media de la población.

Para verificar la validez de nuestra suposición obtenemos los datos muestrales y determinamos la diferencia entre el valor supuesto y el valor real de la media muestral. A continuación juzgamos si la diferencia es significativa. Cuanto menor sea la diferencia, mayores probabilidades habrá de que sea correcto el valor supuesto de la media. Y a una diferencia más amplia corresponderá una menor probabilidad.

Por desgracia, la diferencia entre el parámetro supuesto de la población y el verdadero estadístico suele ser ni tan grande que automáticamente rechacemos la hipótesis ni tan pequeño que de inmediato la aceptemos.

Por ello, en la prueba de hipótesis como en las decisiones más trascendentes de la vida real, las soluciones bien definidas constituyen la excepción, no la regla.

POBLACIONES INDEPENDIENTES

3.1. CUANDO SE CONOCEN LAS VARIANZAS POBLACIONES

Si las medias muéstrales x1y x2están basadas en dos muestras aleatorias independientes de tamaño n1y n2respectivamente, obtenidas de dos poblaciones con distribución de probabilidad normal, con medias u1y u2; y con varianzas σ1²y σ2² respectivamente entonces:

( ) ( ) _Z

n n

u u x

x =

+

−

2 2 2 1

2 1

2 1 2 1

σ

σ ~N(0,1)

(10)

donde:

El error estándar de la diferencia de medias muéstrales es:

( )

2 2 2 1

2 1 2

1 x n n

x

EE − = σ +σ

Entonces el intervalo de confianza, al (¹⁻^α) de nivel de confianza para la diferencia de medias poblacionales (u1−u2) esta dado por:

(x1−x2)±EE(x1−x2)Z1−α/2

Para docimar las hipótesis:

d H

≠

−

=

−

2 1 1

2 1 0

: :

β β

Se usa la estadística:

( ) _Z

n n

d x

x =

+

−

2 2 2 1

2 1

σ

σ ~^N⁽⁰^,¹⁾

Al nivel de significación, la región critica esta dada por:

Rechazar H0 si el valor α de la estadística Z es menor o igual que -Z1−α/2

o es mayor que Z1−α/2.

3.2. CUANDO NO SE CONOCE LAS VARIANZAS POBLACIONALES

3.2.1 VARIANZAS IGUALES

Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias independientes de tamaños n1 y n2 respectivamente, obtenidas de dos

(11)

poblaciones con distribución de probabilidad normal, con medias u1 y u2

; y con varianzas desconocidas tal que 2² 2

1 σ

σ = , entonces:

( ) ( ) _T

n S n

u u x x

p

= +

−

2 1

2 1 2 1

1

1 ~ t₍n1+n2−2₎

donde:

( ) ( )

2 1 1

2 1

2 2 2 2 1 2 1

− +

= −

n n

S n S S_p n

es la varianza combinada y el error estándar de la diferencia de medias poblacionales es:

( )

2 1 2

1

1 1

n S n

x x

EE − = _p +

El intervalo de confianza, al (¹⁻^α) de nivel de confianza para la diferencia de medias poblacionales (u1−u2) esta dado por:

(x1−x2)±EE(x1 −x2)t₍n₁+n₂−2₎1−α/2

Para docimar la hipótesis:

d u u H

≠

−

=

−

2 1 1

2 1 0

: :

(12)

( ) ( ) _T

n S n

u u x x

p

= +

−

2 1

2 1 2 1

1

1 ~t₍n₁+n₂−2₎

Al nivel de significación α, la región critica esta dada por :

Rechazar H0 si el valor de la estadística ^T es menor o igual que -t1−α/2o es mayor que t1−α/2.

3.2.2 VARIANZAS DIFERENTES

Si las medias muéstrales x1 y x2 están basadas en dos muestras aleatorias independientes de tamaños n1y n2 respectivamente, obtenidas de dos poblaciones con distribución de probabilidad normal, con medias u1y u2 ; con varianzas desconocidas σ1²y σ2²; y diferentes, entonces:

( ) ( ) _T

n S n S

u u x

x =

+

−

2 2 2 1

2 1

2 1 2

1 ~ t_{( )}v

donde:

2 1 1 1

1

2 2

2 2 2 1

2

1 2 1

2

2 2 2 1 2 1

−





 +

  +





 +

 





 +

=

n n S n

n S

n S n S v

(13)

Cuando los tamaños de muestra son razonablemente grandes, donde el error estándar de la diferencia de medias muestrales es:

( )

2 2 1 1

2 1 2

1 n

S n x S

x

EE − = +

El intervalo de confianza, al (¹⁻^α) de nivel de confianza para la diferencia de medias poblacionales (u1−u2) esta dado por:

( ) ( )_{( )}

1 2 2 1 2

1−x ±EE x −x t_v −α

x

Para docimar la hipótesis:

d u u H

≠

−

=

−

2 1 1

2 1 0

: :

( ) ( )

T n

S n S

u u x

x =

+

−

2 2 2

1 2 1

2 1 2

1 ~ t_{( )}v

Al nivel de significación α, la región critica esta dada por :

Rechazar H0 si el valor de la estadística ^T es menor o igual que -t_{( )}v o es mayor que t_{( )}v .

(14)

IV. MARCO TEORICO

4.1. ESTADISTICA BAYESIANA

El interés por el teorema de Bayes trasciende esta aplicación clásica, especialmente cuando se amplía a otro contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad).

Afirmaciones del tipo "es muy probable que el partido X gane las próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se encuentre un tratamiento eficaz para el sida en los próximos 5 años", normales en el lenguaje común, no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto, tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto, el teorema de Bayes asume la forma siguiente:

P (H | datos) = [P (datos | H) / P (datos)] . P (H)

La probabilidad a priori de una hipótesis, P(H), se ve transformada en una probabilidad a posteriori, P(H | datos), una vez incorporada la evidencia que aportan los datos. El caso considerado se circunscribe a la

(15)

situación más simple, aquella en que P(H) representa un número único;

sin embargo, si se consiguiera expresar nuestra convicción inicial (y nuestra incertidumbre) mediante una distribución de probabilidades.

Entonces una vez observados los datos, el teorema nos "devuelve" una nueva distribución, que no es otra cosa que la percepción probabilística original actualizada por los datos.

Esta manera de razonar de la inferencia Bayesiana, radicalmente diferente a la inferencia clásica o frecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargo muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, a diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significación o no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con el conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la trascendencia de dicha visión actualizada no depende de una regla mecánica.

Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación.

Podemos argüir, por una parte, que el enfoque frecuentista no está exento de decisiones subjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.); de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable, especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Por otra parte, las

(16)

"manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso (incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sino de la honradez de los investigadores.

Aunque las bases de la estadística Bayesiana datan de hace más de 2 siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación. Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la absoluta necesidad de cálculo computarizado para la resolución de algunos problemas de mediana complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDAT y First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una era Bayesiana".

El proceso intelectual asociado a la inferencia Bayesiana es mucho más coherente con el pensamiento usual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen una tecnología emergente de procesamiento y análisis de información para la que cabe esperar una presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica y epidemiológica.

4.1.1 ¿QUÉ ES LA INFERENCIA ESTADÍSTICA?

La inferencia estadística es la ciencia de extraer conclusiones a partir de una muestra aleatoria para ser aplicadas a cantidades desconocidas de la población de la cual la muestra fue seleccionada. Este proceso origina muchas preguntas, como por ejemplo: ¿qué es una población?, ¿cómo la

(17)

muestra se relaciona con la población?, ¿cómo debe seleccionarse la muestra si todos tienen la opción de ser elegidos?.

Ejemplo. Supóngase que un ingeniero forestal desea estimar la proporción de árboles en un bosque de la selva que sufren una determinada enfermedad. Examinar a todos los árboles es impráctico, por lo que el ingeniero decide seleccionar una muestra de ⁿ árboles elegidos aleatoriamente de acuerdo a un diseño muestral previamente definido. La aleatoriedad debe entenderse en el sentido que si θ es la proporción de árboles que tienen la enfermedad en el bosque, entonces cada árbol en la muestra tendrá la enfermedad, independientemente de lo que suceda con los otros árboles en la muestra, con probabilidad θ. Sea ^X la variable aleatoria que corresponde al número de árboles enfermos en la muestra, el ingeniero usará el valor observado de ^X = ^x para realizar una inferencia acerca del parámetro poblacional θ. Esta inferencia podría tomar la forma de un estimado puntual (θ^ˆ=⁰^.¹); un intervalo de confianza (95 % de confianza que θ se encuentre en el intervalo (0.08, 0.12); una prueba de hipótesis (rechazar la hipótesis que θ <0.07 a un nivel α=0.05), una predicción (sostener que 15% de los árboles serán afectados por la enfermedad el próximo año); o una decisión (decidir identificar y remover todos los árboles infectados). En cada caso, el conocimiento del valor muestral observado es usado para realizar inferencias acerca de una característica de la población (parámetro).

Más aún, estas inferencias son realizadas mediante un modelo de probabilidad, que determina cómo, para un valor de θ, las probabilidades de los diferentes valores de x son distribuidos.

(18)

Por ejemplo, bajo las suposiciones del muestreo aleatorio, el modelo para el problema anterior podría ser:

X | θ ~ b(n, θ)

La inferencia estadística se realiza en base a un valor observado X=x, y estamos interesados en conocer los valores de θ que tienen la más alta probabilidad de haber generado el valor x en comparación con aquellos que tienen la más baja probabilidad de haberlo hecho. (Principio de máxima verosimilitud).

Antes de estudiar la inferencia Bayesiana en particular es necesario realizar algunas aclaraciones puntuales respecto de la aproximación clásica con la Bayesiana. El punto más importante es que el parámetro, mientras no es conocido, es tratado como una constante en lugar de una variable aleatoria. Esta es la idea fundamental de la teoría clásica pero que conduce a problemas de interpretación. Por ejemplo, sostener que con 95% de confianza el intervalo [.08, 0.12] incluye a la proporción poblacional de los árboles enfermos es incongruente desde que θ no es aleatorio. θ está en el intervalo o no lo está. El único elemento aleatorio en este modelo de probabilidad es el dato, por lo tanto la correcta interpretación del intervalo es que si aplicamos el procedimiento estadístico de construcción de intervalos un gran número de veces, entonces “a la larga” los intervalos construidos incluirán a θ en el 95% de dichos intervalos.

(19)

Todas las inferencias basadas en la teoría clásica son forzadas a tener este tipo de interpretación de frecuencia “a la larga”; a pesar de que como en el ejemplo de los árboles, solamente se tiene un intervalo (0.08, 0.12) para realizar el análisis.

El supuesto de la “intercambiabilidad” es útil en inferencia estadística, que significa que los ⁿ valores observados xi en la muestra pueden ser intercambiados, es decir, que la distribución conjunta p(x1, x2, ...xn) debe ser invariante a las permutaciones de los índices. Generalmente, los datos de una distribución “intercambiable” es útil modelarlos como independientementes e idénticamente distribuidas (iid) dado algún vector de parámetros desconocidos θ con distribución p(θ).

4.1.2. ¿QUÉ ES LA INFERENCIA BAYESIANA?

El marco teórico en que se aplica la inferencia Bayesiana es similar a la clásica: hay un parámetro poblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina la probabilidad de observar diferentes valores de X, bajo diferentes valores de los parámetros. Sin embargo, la diferencia fundamental es que la inferencia Bayesiana considera al parámetro como una variable aleatoria. Esto parecería que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a una aproximación diferente para realizar el modelamiento del problema y la inferencia propiamente dicha.

Algunos ejemplos que justifican lo anterior son: la verdadera proporción de artículos defectuosos que produce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, la verdadera

(20)

proporción de casas que se pierden por concepto de hipoteca varia dependiendo de las condiciones económicas, la demanda promedio semanal de automóviles también fluctuara como una función de varios factores incluyendo la temporada.

En esencia, la inferencia Bayesiana esta basada en la distribución de probabilidad del parámetro dado los datos (distribución a posteriori de probabilidad p(θθ/y) ) , en lugar de la distribución de los datos dado el parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para el proceso de inferencia Bayesiana es la especificación previa de una distribución a priori de probabilidad p(θθ), la cual representa el conocimiento acerca del parámetro antes de obtener cualquier información respecto a los datos.

La noción de la distribución a priori para el parámetro es el corazón del pensamiento Bayesiano. El análisis Bayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferencias basadas en análisis estadístico de datos.

El análisis Bayesiano la podemos dividir en las siguientes etapas:

Primero: Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta para todas las cantidades observables y no observables. El modelo debe ser consistente con el conocimiento acerca del problema fundamental y el proceso de recolección de la información.

Segundo: Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiada que se define como la

(21)

distribución de probabilidad condicional de las cantidades no observadas de interés, dados los datos observados.

Tercero: Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es el modelo apropiado a los datos?, ¿Son las conclusiones razonables?, ¿Qué tan sensibles son los resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas mencionadas.

4.2. CONCEPTOS BAYESIANOS BASICOS

4.2.1 TEOREMA DE BAYES

Sea Y = (y1,y2,...y_n)^' un vector de n observaciones cuya distribución de probabilidad ^p( )^y^/^θ depende de ^k parámetros involucrados en el vector

(θ1,θ2,...θ_k)^'

θ= . Supóngase también que θ tiene una distribución de probabilidades ^p( )^θ . Entonces, la distribución de conjunta de θ e ^Y es:

( ) (^y ^p ^y ) ( ) (^p ^p ^y) ( )^p ^y

p ,θ = /θ. θ = θ/ .

de donde la distribución de probabilidad condicional de θ dado el vector de observaciones ^y resulta:

( ) ( ) ( ) ( )^y

p p y y p

pθ /θ. θ

/ = con ^p( )^y ^≠⁰ (1)

(22)

A esta ecuación se lo conoce como el Teorema de Bayes, donde ^p( )^y ^{es la}

distribución de probabilidad marginal de ^y y puede ser expresada como:





=

∑∫

) ( ).

/ (

).

( ).

/ ) (

( θ θ

θ θ θ

p y p

d p y y p

p

si si

θ θ

es es

discreto continuo

donde la suma o integral es tomada sobre el espacio paramétrico de θ. De este modo, el Teorema de Bayes puede ser escrito como:

) ( ).

/ ( ) ( ).

/ ( . ) /

(θ y c p y θ p θ p y θ p θ

p = ≈ (2)

En esta expresión:

• ^p( )^θ representa lo que es conocido de θ antes de recolectar los datos y es llamada la distribución a priori de θ.

• ^p( )^θ^/^y representa lo que se conoce de θ después de recolectar los datos y es llamada la distribución posterior de θ dado ^y.

• ^c es una constante normalizadota necesaria para que ^p( )^θ^/^y sume o integre uno.

Dado que el vector de datos ^y es conocido a través de la muestra, ^p( )^y^/^θ

es una función de θ y no de ^y. En este caso a ^p( )^y^/^θ se le denomina función de verosimilitud de θ dado ^y y se le denota por ^l(^θ^/^y). Entonces la formula de Bayes puede ser expresada como sigue:

) ( ).

/ ( ) /

(θ y l θ y p θ

p ≈ (3)

(23)

Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme en el intervalo [0,1] y la variable aleatoria ^Y que tiene una distribución de probabilidades Binomial con parámetros ^m y θ, ^m conocido por conveniencia. Entonces se tienen las siguientes funciones de distribución:

1 ) (θ =

p ⁰≤θ≤¹

y m y

y y m

p  − ⁻



= (1 )

) /

( θ θ θ ^y=⁰^,¹^...^m

Ahora, para una muestra aleatoria de tamaño ⁿ la función de verosimilitud estará dada por:

− ∑

 ∑



 



 



 



=  ⁻

∏=ⁿ ^yⁱ ^nm ^yⁱ

i yi

y m

l( / ) (1 )

1

θ θ

θ ^yi =0,1,....^m ∀ⁱ

y aplicar el Teorema de Bayes dado en (2), la distribución a posteriori de θ dada la muestra ^y queda expresada como:

− ∑

∑

−

= ⁻

=

= ∏

∏

i

i mn y

y n

i

i n

i

i m y

y m c n

y

p (1 )

)!

(

! )

! ) (

/ (

1 1

θ θ

θ

Esta expresión puede escribirse de la siguiente manera:

( ¹)¹ ( ¹)¹

1 1

) 1 ( )!

(

! )

! ) (

/

( ⁺ ⁻ ⁻ ⁺ ⁻

=

− ∑

∑

−

= ∏ ∏

i

i nm y

y n

i

i n

i

i m y

y m c n

y

pθ θ θ

que tiene la forma de una distribución Beta con parámetros (_∑yi+1) y

(nm−_∑y_i+1).

Luego el valor adecuado de la constante normalizadota ^c será:

(24)

( )

( ) ( ) ( )⁽^! ⁾

! . !

1 1

2

m n

y m y y

nm y

c nm ⁱ ⁱ

i i

∏

∑ ∏

∑

− +

− Γ + Γ

+

= Γ

Nótese que es a través de ^l(^θ^/^y) que los datos (información muestral) modifican el conocimiento previo de θ dado por ^p( )^θ . Este proceso de revisión de las probabilidades iniciales, dada la información muestral, se ilustra en la siguiente figura:

Por ultimo, es conveniente señalar que la información muestral ^y por lo general será introducida en el modelo a través de estadísticas suficientes para θ, dado que estas contienen toda la información referente a los datos. Así, dado un conjunto de estadísticas suficientes ^t para los parámetros en θ, ^p( )^y^/^θ podrá ser intercambiada por ^p( )^t ^/^θ , para lo cual bastara con calcular la distribución condicional de ^t dado θ.

Información Inicial

Información nueva

Dist. a Priori

) (θ p

Func. de Verosimilitud

) /

( y

l θ

Teorem a de Bayes

Dist. a Posteriori

(25)

4.2.2 NATURALEZA SECUENCIAL DEL TEOREMA DE BAYES

Supóngase que se tiene una muestra inicial y1. Entonces, por la fórmula de Bayes dada anteriormente se tiene:

) ( ).

/ ( ) /

(θ y₁ l θ y₁ pθ

p ∝

Ahora supóngase que se tiene una segunda muestra y2 independiente de la primera muestra, entonces:

) ( ).

/ ( ) / ( ) ( ).

, / ( ) , /

(θ y₁ y₂ l θ y₁ y₂ pθ l θ y₁ l θ y₂ p θ

p ∝ =

) / ( ) / ( ) , /

( y₁ y₂ l y₂ p y₁

pθ ∝ θ θ

De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nueva distribución a priori para ser corregida por la segunda muestra.

En este proceso puede repetirse indefinidamente. Así, si se tienen ^r muestras independientes, la distribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:

) ,..., / ( ).

/ ( ) ,..., /

( y₁ ym ∝l ym p y₁ ym₋₁

pθ θ θ para ^m= ²^,...,^r

Nótese que p⁽θ^/ y1^,...,ym⁾ podría también ser obtenido partiendo de ^p( )^θ y considerando al total de las ^r muestras como una sola gran muestra.

La naturaleza secuencial del Teorema de Bayes, es tratada por Bernardo como un proceso de aprendizaje en términos de probabilidades, el cual

(26)

permite incorporar al análisis de un problema de decisión, la información proporcionada por los datos experimentales relacionados con los sucesos (parámetros) inciertos relevantes.

4.2.3. DISTRIBUCIÓN A PRIORI DIFUSA O NO INFORMATIVA

Como ya se habrá podido notar, la distribución a priori cumple un papel importante en el análisis Bayesiano ya que mide el grado de conocimiento inicial que se tiene de los parámetros en estudio. Si bien su influencia disminuye a medida que más información muestral es disponible, el uso de una u otra distribución a priori determinara ciertas diferencias en la distribución a posteriori.

Si se tiene un conocimiento previo sobre los parámetros, este se traducirá en una distribución a priori. Así, será posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y los diferentes resultados obtenidos en la distribución a posteriori bajo cada uno de los enfoques, adquirirán una importancia en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin embargo, cuando nada es conocido sobre los parámetros, la selección de una distribución a priori adecuada adquiere una connotación especial pues será necesario elegir una distribución a priori que no influya sobre ninguno de los posibles valores de los parámetros en cuestión.

Estas distribuciones a priori reciben el nombre de difusas o no informativas y en esta sección se tratara algunos criterios para su selección: