• No se han encontrado resultados

Redes Bayesianas y su uso en el

N/A
N/A
Protected

Academic year: 2022

Share "Redes Bayesianas y su uso en el"

Copied!
56
0
0

Texto completo

(1)

UNIVERSIDAD VERACRUZANA

FACULTAD DE MATEM ´ ATICAS

Redes Bayesianas y su uso en el Diagn´ ostico m´ edico

T E S I S

que para aprobar la Experiencia Educativa Experiencia Recepcional

Correspondiente al Plan de Estudios de la Licenciatura en Matem´ aticas

P R E S E N T A:

Adriana Laura L´ opez Lobato

DIRECTORES DE TESIS:

Dr. Francisco Sergio Salem Silva Dra. Juana Elisa Escalante Vega

Junio del a˜no 2014 Xalapa, Ver. M´exico

(2)

Introducci´on IV

1. Preliminares 1

1.1. Conceptos de Teor´ıa de Gr´aficas . . . 1

1.1.1. Definiciones . . . 1

1.1.2. Estructura de una gr´afica . . . 2

1.1.3. Gr´aficas dirigidas . . . 3

1.1.4. Gr´aficas ac´ıclicas dirigidas (DAG) . . . 4

1.1.5. Separaci´on gr´afica en una DAG . . . 4

1.1.6. Manta de Markov . . . 6

1.2. Conceptos de Teor´ıa de Probabilidad . . . 7

1.2.1. La probabilidad como una estructura de razonamiento . . . . 7

1.2.2. Principios b´asicos . . . 7

1.2.3. Probabilidad condicional e Independencia . . . 8

1.2.4. Teorema de Bayes . . . 9

1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta 9 1.3. Modelos gr´aficos probabil´ısticos . . . 10

2. Redes Bayesianas 12 2.1. Definici´on formal y propiedades . . . 13

2.1.1. Condici´on de Markov . . . 13

2.1.2. Razonamiento Bayesiano . . . 14

2.2. Redes Bayesianas en el diagn´ostico m´edico . . . 15

2.2.1. Diagn´ostico m´edico . . . 15

2.2.2. Ejemplo de diagn´ostico mediante pruebas cl´ınicas . . . 16

2.2.3. Ejemplo de diagn´ostico m´edico . . . 18

3. Inferencia Bayesiana por medio de ´arboles de uni´on 23 3.1. Estructuras gr´aficas de inter´es . . . 23

ii

(3)

3.1.1. Gr´afica moral . . . 24

3.1.2. Gr´afica triangular . . . 24

3.2. ´Arboles de uni´on . . . 25

3.3. Inferencia en los ´arboles de uni´on . . . 26

3.3.1. Consistencia local de los ´arboles de uni´on . . . 27

3.4. Ejemplo de inferencia bayesiana mediante el ´arbol de uni´on . . . 32

3.4.1. Ejemplo Bronquitis-C´ancer Pulmonar . . . 32

3.5. Uso del paquete gRain para realizar Inferencia Bayesiana . . . 40

3.5.1. C´odigo para “Diagn´ostico mediante pruebas cl´ınicas” . . . 42

3.5.2. C´odigo para “Diagn´ostico m´edico” . . . 43

3.5.3. C´odigo para “Bronquitis - C´ancer Pulmonar” . . . 44

3.5.4. C´odigo para obtener gr´aficas morales, triangulares y ´arboles de uni´on . . . 46

Conclusiones 48

Bibliograf´ıa 50

(4)

El diagn´ostico m´edico es un ejemplo de toma de decisiones, ya que se requiere tener en cuenta varios aspectos como el historial cl´ınico, la exploraci´on f´ısica (o s´ınto- mas del paciente) y exploraciones complementarias (es decir pruebas diagn´osticas o cl´ınicas) para determinar qu´e enfermedad padece una persona [10].

Las decisiones m´edicas son dif´ıciles de tomar y el resultado del proceso de decisi´on tiene implicaciones de largo alcance sobre el bienestar o incluso la propia vida de los pacientes.

En la actualidad la medicina utiliza innumerables adelantos que involucran el uso intensivo de alta tecnolog´ıa como el diagn´ostico por im´agenes, avances quir´urgicos como la laparoscopia, rob´otica y farmac´euticos [7].

Existen herramientas que tienen el potencial de hacer una diferencia en la medi- cina. Especialmente los m´etodos que aprovechan los datos disponibles, la experiencia cl´ınica y que al mismo tiempo tienen como base fundamentos s´olidos [2].

Una de estas herramientas son las Redes Bayesianas, que son especialmente ade- cuadas para el modelado de conocimiento incierto, ya que son capaces de describir de manera concisa un problema modelado a trav´es de un conjunto de variables re- lacionadas entre s´ı, adem´as de que se puede actualizar la informaci´on que se tiene acerca de las variables del problema, cuando se conoce el valor que toma alguna de ellas para casos concretos [6].

En el campo de la Medicina hay una gran cantidad de datos que se pueden uti- lizar para diagnosticar un paciente [8]. El objetivo de este trabajo es mostrar c´omo se realizan dichos diagn´osticos mediante el uso de Redes Bayesianas como modelos gr´aficos probabil´ısticos que involucren el historial del paciente, los s´ıntomas y las pruebas diagn´osticas para la toma de decisiones.

iv

(5)

La organizaci´on del trabajo es la siguiente:

Cap´ıtulo 1: Revisi´on de los conceptos sobre Teor´ıa de Gr´aficas y Teor´ıa de la Probabilidad que son necesarios para comprender y utilizar las Redes Bayesia- nas.

Cap´ıtulo 2: Discusi´on de las definiciones y propiedades esenciales de las Redes Bayesianas y algunos elementos del protocolo del diagn´ostico. En este cap´ıtulo se dar´an dos ejemplos de las representaciones m´as intuitivas del diagn´ostico m´edico: las pruebas cl´ınicas y el diagn´ostico entre dos enfermedades con un mismo s´ıntoma.

Cap´ıtulo 3: Explicaci´on de un modelo de Inferencia Bayesiana mediante ´arboles de uni´on que son una extensi´on de las Redes de Bayes, ya que se basan en la estructura de las mismas y las relaciones de dependencia entre las variables observadas para facilitar la realizaci´on de los c´alculos deseados. Los ´arboles de uni´on utilizan una estructura gr´afica-probabil´ıstica secundaria, que ser´a descrita en este cap´ıtulo.

Se dar´a soluci´on a un ejemplo de diagn´ostico en el que intervienen historial m´edico, s´ıntomas y pruebas cl´ınicas, adem´as se incluye un apartado que explica la Inferencia Bayesiana en el software libre R, donde se muestran los c´odigos y las soluciones computacionales de los ejemplos vistos en este trabajo.

(6)

Preliminares

Para poder utilizar las Redes Bayesiana en problemas concretos, se requiere del conocimiento de campos como la Teor´ıa de la Probabilidad y la Teor´ıa de Gr´aficas.

En este cap´ıtulo se dar´a una peque˜na introducci´on a la teor´ıa y propiedades b´asicas de las gr´aficas, as´ı como la terminolog´ıa y bases de Probabilidad, que son fundamentales para la descripci´on del modelo de estudio de este trabajo.

1.1. Conceptos de Teor´ıa de Gr´ aficas

En esta secci´on se definen los conceptos b´asicos de una gr´afica, as´ı como algunas propiedades de las mismas, con la finalidad de apoyar algunos resultados e inferencias posteriores.

1.1.1. Definiciones

Definici´on 1.1.1 (Gr´afica). Una gr´afica es un objeto matem´atico definido como un par G = (V, A) , donde V = {V1, V2, ..., Vn} es un conjunto finito y no vac´ıo y A un conjunto finito, que puede ser vac´ıo. A los elementos de V se les llamar´a v´ertices o nodos, a los elementos de A aristas o arcos, descritos como a = (u, v) que conectan a un par de nodos u, v ∈ V .

Definici´on 1.1.2 (V´ertices adyacentes). Decimos que los v´ertices u y v en V de la gr´afica G = (V, A) son adyacentes si est´an conectados mediante una arista a = (u, v) en A.

Dependiendo de la relaci´on de orden que existe entre los nodos de una gr´afica, se puede hablar de dos tipos de arcos: dirigidos (de u a v si el arco (u, v) es un par ordenado) y no dirigidos (si el arco (u, v) no es ordenado), se representan u → v y

1

(7)

CAP´ITULO 1 2

u− v, respectivamente.

Esta clasificaci´on de los arcos como dirigidos o no dirigidos induce una clasificaci´on de las gr´aficas:

Definici´on 1.1.3 (Gr´aficas dirigidas, no dirigidas o mixtas). Una gr´afica que tiene todas sus aristas dirigidas se define como gr´afica dirigida, si todas las aristas de la misma son no dirigidas, se denominar´a gr´afica no dirigida y cuando tiene aristas dirigidas y no dirigidas, se dice que la gr´afica es mixta.

C A

D

B E

(a) Gr´afica dirigida

D B

E C

A

(b) Gr´afica no dirigida (c) Gr´afica mixta

Figura 1.1: Tipos de gr´aficas

En la figura 1.1 aparece una gr´afica dirigida, una no dirigida y una mixta. En la gr´afica dirigida 1.1a se puede observar un orden entre los v´ertices, mientras que no existe orden aparente entre los v´ertices de los otros dos tipos de gr´aficas. Es por esta raz´on que s´olo se utilizar´a la teor´ıa perteneciente a las gr´aficas dirigidas para el estudio de las Redes Bayesianas.

1.1.2. Estructura de una gr´ afica

La estructura de una gr´afica es la configuraci´on en que se encuentran las aristas de la misma. Al estudiarla se pueden encontrar propiedades interesantes y de suma importancia, como los caminos o trayectorias.

Definici´on 1.1.4 (Camino). Sea G = (V, A) una gr´afica. Se dice que una sucesi´on de aristas w = a1, a2, ..., an es un camino en G si w ⊆ A y si ai = (vi−1, vi), entonces vi es adyacente a vi+1.

Observaci´on 1.1. Un camino tambi´en puede ser expresado en t´erminos de sus v´erti- ces, por ejemplo w = a1, a2, ..., an es expresado como w = v0 − v1 − ... − vn si ai = (vi−1, vi) para i = 1, ..., n.

(8)

Si se busca un camino entre dos nodos v1, vnse tendr´a una sucesi´on (v1, v2, ..., vn) donde las aristas que conectan a los v´ertices son asumidos como ´unicos, por lo que el camino pasa por cada arista s´olo una vez.

Definici´on 1.1.5 (Ciclo). Se dice que un camino w = v0− v1− ... − vn es un ciclo si el v´ertice inicial del camino coincide con el v´ertice final del mismo, es decir, vn= v0.

1.1.3. Gr´ aficas dirigidas

En las gr´aficas dirigidas existen agrupaciones y relaciones entre los v´ertices que definen conjuntos espec´ıficos como los que a continuaci´on se muestran.

Definici´on 1.1.6 (Ancestro,descendiente). Un ancestro del v´ertice vi es cualquier v´ertice que tiene un camino hasta vi. Un descendiente de vi es cualquier v´ertice al que se puede ir desde vi.

A los conjuntos de ancestros y descendientes de vi se le denotar´a como an(vi) y de(vi), respectivamente.

Definici´on 1.1.7 (Padres, hijos, familia). Si el camino entre los v´ertices vi y vj

est´a compuesto por solamente una arista (vi → vj) se dice que vi es padre de vj, y se denota por pa(vj) = vi, y vj es hijo de vi. Se llamar´a familia del nodo vi, f a(vi), al conjunto conformado por el nodo vi y sus padres pa(vi), es decir f a(vi) = vi∪ pa(vi).

B A

C D

E F G H I

Figura 1.2: Gr´afica dirigida

Por ejemplo, en la gr´afica dirigida de la figura 1.2 se tiene que:

an(F ) = {A, C}

de(F ) = {G, H, I}

pa(I) = {E, G}

Los hijos de B son los v´ertices D y E

f a(I) = {I, E, G}

(9)

CAP´ITULO 1 4

Observaci´on 1.2. En una gr´afica dirigida G = (V, A) se puede definir al conjunto de v´ertices que no son ancestros de un v´ertice vi como nas(vi) = V − (as(vi) ∪ vi) y al conjunto de los no descencientes de vi como nde(vi) = V − (de(vi) ∪ vi).

1.1.4. Gr´ aficas ac´ıclicas dirigidas (DAG)

Definici´on 1.1.8 (Gr´afica ac´ıclica dirigida). Se dice que una gr´afica dirigida G = (V, A) es ac´ıclica cuando no contiene ning´un ciclo.

En la figura 1.3 se muestra una gr´afica ac´ıclida dirigida. Las gr´aficas con esta estructura son b´asicas para poder especificar un problema con incertidumbre en el cual se relacionen las variables de manera causal [5].

B A

C

D E

Figura 1.3: Gr´afica ac´ıclica dirigida (DAG)

1.1.5. Separaci´ on gr´ afica en una DAG

En las gr´aficas ac´ıclicas dirigidas (DAG) es fundamental analizar los tipos de relaciones y conexiones que aparecen entre sus v´ertices.

1. Conexi´on en serie: Es cuando un v´ertice es padre de otro que a su vez es padre de un tercero. En la gr´afica dirigida 1.4a se puede ver dicha conexi´on.

2. Conexi´on divergente: Es cuando un v´ertice es padre de un conjunto de v´ertices no conectados entre s´ı. Vease la gr´afica 1.4b.

3. Conexi´on convergente: Es cuando un conjunto de v´ertices no conectados entre s´ı son padres de un v´ertice espec´ıfico. En la gr´afica 1.4c se presenta una conexi´on divergente.

(10)

B A

C

(a) Conexi´on en serie

B

A

C

(b) Conexi´on divergente

C

A B

(c) Conexi´on convergente

Figura 1.4: Conexiones entre los v´ertices de una DAG

La separaci´on gr´afica en una DAG, llamada d-separaci´on, es de suma importancia ya que es la que provee un camino conveniente para representar la dependencia e independencia entre las variables y as´ı poder encontrar las relaciones de probabilidad que se presentan entre las variables de la gr´afica, convergiendo en la condici´on de Markov para Redes Bayesianas, que se presentar´a en la secci´on 2.1.1 [15].

Definici´on 1.1.9 (d-separaci´on). Sean X,Y y Z tres conjuntos disjuntos de v´ertices de una DAG G = (V, A) . Se dice que Z d-separa X e Y , y se denota como X⊥GY|Z, si para cualquier camino entre un v´ertice de X y un v´ertice de Y existe un v´ertice v que satisface una de las siguientes dos condiciones:

v tiene aristas convergentes, es decir, existen dos arcos apuntando a v, y ni v o sus descendientes est´an en Z.

v se encuentra en Z y no tiene aristas convergentes.

En la figura 1.5 se muestra un DAG G = (V, A) , donde se pueden ver algunas relaciones de independencia condicionada entre las variables. As´ı se tiene que:

Z

X Y

V W

Figura 1.5: DAG G con relaciones de independencia condicionada

(11)

CAP´ITULO 1 6

X⊥GY | ∅: X y Y aparecen en una conexi´on convergente y el ´unico camino entre X y Y es X − Z − Y y ni Z ni sus descencientes est´an en ∅.

V⊥GW | Z: V y W aparecen en una conexi´on divergente donde el ´unico camino entre V y W es V − Z − W , siendo Z el padre de V y W en la conexi´on de la DAG.

(X ∪ Y )⊥G(V ∪ W ) | Z: X⊥GV | Z, X⊥GW | Z, Y ⊥GV | Z y Y ⊥GW | Z.

En los cuatro casos la conexi´on es en serie y en todos los casos Z es el ´unico v´ertice que aparece en el camino entre X y V , X y W , Y y V y Y y W , siendo v´ertice intermedio para cualquiera de los caminos mostrados.

1.1.6. Manta de Markov

Definici´on 1.1.10 (Manta de Markov). La manta de Markov de un v´ertice v es el conjunto conformado por los padres de v, los hijos de v y los v´ertices que comparten un hijo con v.

D C

A F

B E

Figura 1.6: DAG G

La manta de Markov ayuda a encontrar d-separaciones de una DAG ya que es el conjunto m´ınimo de v´ertices que d-separa al nodo V de todos los dem´as nodos de la red [19], por ejemplo consid´erese la DAG de la figura 1.6. La manta de Markov del v´ertice A es el conjunto S = {B, C, D, F }, entonces A⊥GE | S.

(12)

1.2. Conceptos de Teor´ıa de Probabilidad

En esta secci´on se dar´an, de manera resumida, los conceptos pertenecientes a la Teor´ıa de la probabilidad que, con los de Teor´ıa de Gr´aficas, permitir´an tener una idea clara de lo que es una Red Bayesiana y c´omo interpretarlas.

1.2.1. La probabilidad como una estructura de razonamiento

El t´ermino probable es el grado de creencia que tiene el investigador de que cierto hecho ocurra. Si no se sabe si se ha producido el hecho s´olo se le puede asignar un grado de certeza a la ocurrencia del mismo [15].

Para no hablar vagamente sobre las creencia fuertes o d´ebiles de que un hecho ocurra se asignan valores num´ericos a dichos grados de creencia mediane reglas bien definidas.

Estas reglas son las llamadas “Leyes de la probabilidad”. Al comprenderlas ser´an utilizadas para predecir las consecuencias l´ogicas de proposiciones y dar´an respuesta a preguntas como:

¿Cu´ales son las consecuencias respecto al grado de creencia de A si asumimos que el grado de creencia de B es alto o bajo?, ¿C´omo cambia el grado de creencia de A si es m´as bajo el grado de creencia de B?. Se pretende seguir la premisa:

“Realmente la probabilidad no se trata s´olo de n´umeros, es sobre la estructura del razonamiento”.

Glenn Shafer Despu´es de comprender estos conceptos se podr´an realizar inferencias l´ogicas en el tema que nos compete: el diagn´ostico m´edico.

1.2.2. Principios b´ asicos

La probabilidad comienza con un experimento aleatorio [3]:

Definici´on 1.2.1 (Experimento aleatorio). Un experimento aleatorio es cualquier actividad, proceso o experimento en el cual el resultado es incierto.

Dado un experimento aleatorio se tiene su espacio muestral definido como:

Definici´on 1.2.2 (Espacio muestral (Ω)). El espacio muestral es el conjunto de posibles resultados del experimento aleatorio.

En los conceptos de probabilidad que se dar´an a continuaci´on se utilizar´a un espacio discreto y finito, as´ı que en el caso de un espacio muestral discreto y finito se denota como evento a:

(13)

CAP´ITULO 1 8

Definici´on 1.2.3 (Evento). Cualquier subconjunto del espacio muestral Ω.

Desde una forma puramente matem´atica, una probabilidad es un n´umero entre 0 y 1 que se le asigna a un evento mediante una funci´on de probabilidad.

Definici´on 1.2.4 (Funci´on de probabilidad). Dado un experimento aleatorio con un espacio muestral discreto, una funci´on de probabilidad P es una funci´on en Ω con las siguientes propiedades:

i) 0 ≤ P (ω) ≤ 1, para todo ω ∈ Ω ii) P

ω∈ΩP(ω) = 1

iii) Para todos los eventos A ⊆ Ω, P (A) =P

ω∈AP(ω)

Definici´on 1.2.5 (Espacio de probabilidad). Un espacio de probabilidad consta de dos elementos (Ω, P ) donde Ω es el espacio muestral y P es una funci´on de probabi- lidad.

1.2.3. Probabilidad condicional e Independencia

Si A es un evento de inter´es, cuya probabilidad es P (A), y se agrega la informa- ci´on adicional de que un evento B ha ocurrido, ¿Cu´al es la nueva opini´on sobre la posibilidad de que ocurra A?

Definici´on 1.2.6 (Probabilidad condicional). Para los eventos A y B, tal que P(B) 6= 0, la probabilidad de A dado B es:

P(A | B) = P(A, B) P(B) Observaci´on 1.3. P (A, B) = P (A ∩ B)

Definici´on 1.2.7 (Independencia). Dos eventos A y B son independientes si se cumple que

P(A, B) = P (A)P (B).

Cuando esto sucede escribimos IP(A, B).

Observaci´on 1.4. Equivalentemente, A y B son independientes si P (A | B) = P (A) con P (A) 6= 0 y P (B) 6= 0.

Los eventos que no son independientes se dice que son dependientes.

(14)

TEOREMA 1.2.1 (Regla de la multiplicaci´on). Sup´ongase que B1, B2, ..., Bn son eventos en el mismo espacio de probabilidad (Ω, P ), entonces

P(B1, B2, ..., Bn) = P (B1)P (B2 | B1)P (B3 | B1, B2)...P (Bn| B1, B2, ..., Bn−1) Suponiendo que P (B1, B2, ..., Bi−1) > 0 para 0 ≤ i ≤ n

Definici´on 1.2.8 (Partici´on). Se dice que B1, B2, ..., Bn forman una partici´on de Ω si Bi∩ Bj = ∅ si i 6= j y ∪ni=1Bi = Ω.

Los eventos que conforman a una partici´on son llamados mutuamente exclusivos y exhaustivos.

TEOREMA1.2.2 (Ley de probabilidad total). Si A es cualquier evento y B1, B2, ..., Bn es una partici´on del espacio muestral Ω, entonces

P(A) = Xn

i=1

P(A | Bi)P (Bi) .

1.2.4. Teorema de Bayes

Se utiliza el Teorema de Bayes cuando no se puede determinar la probabilidad condicional de inter´es directamente, debido a que en algunas aplicaciones el espacio de probabilidad no se desarrolla en el orden adecuado a nuestros intereses [4].

TEOREMA 1.2.3 (Teorema de Bayes). Si A es cualquier evento con probabilidad P(A) > 0 y B1, B2, ..., Bn es una partici´on tal que P (Bi) 6= 0 ∀i (1 ≤ i ≤ n), entonces

P(Bj | A) = P(A | Bj)P (Bj)

P(A) = P(A | Bj)P (Bj) Pn

i=1P(A | Bi)P (Bi) .

1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta

Definici´on 1.2.9 (Variable aleatoria). Dado un espacio de probabilidad (Ω, P ) una variable aleatoria es una funci´on f : Ω → R la cual asigna a cada elemento de Ω un valor num´erico.

(15)

CAP´ITULO 1 10

Al conjunto de valores o estados que la variable aleatoria X puede asumir se le llama espacio de X. Para una variable aleatoria X se utiliza X = x para denotar al conjunto de todos los elementos e ∈ Ω en los que X toma el valor de x.

Una variable aleatoria induce una funci´on de probabilidad PX(x) = P (X = x) la cual es llamada distribuci´on de probabilidad de la variable aleatoria X.

Definici´on 1.2.10 (Distribuci´on de probabilidad conjunta). Dadas dos variables aleatorias X y Y , definidas en el mismo espacio muestral Ω, se define la distribuci´on de probabilidad conjunta de X y Y como:

P(x, y) = P (X = x, Y = y)

Observaci´on 1.5. Dada una distribuci´on de probabilidad conjunta de X y Y se puede calcular la distribuci´on de probabilidad marginal de X

P(x) = P (X = x) =X

y

P(X = x, Y = y)

1.3. Modelos gr´ aficos probabil´ısticos

Hasta este momento se han introducido definiciones b´asicas de Teor´ıa de Gr´aficas y Teor´ıa de Probabilidad. En esta secci´on se busca describir lo que es un modelo gr´afico probabil´ıstico, que ser´a de ayuda para describir y elaborar Redes Bayesianas en el cap´ıtulo 2.

En un modelo gr´afico probabil´ıstico intervienen dos componentes importantes re- lativas a la informaci´on de la que se dispone: informaci´on cualitativa e informaci´on cuantitativa [11]. La informaci´on cualitativa del modelo contiene informaci´on aso- ciada a las relaciones de dependencia entre los v´ertices de la gr´afica que representa al problema, apoy´andose en la Teor´ıa de Gr´aficas. La informaci´on cuantitativa es la informaci´on relativa a la distribuci´on de probabilidad de las variables del problema.

Dichas distribuciones pueden ser estimadas a partir de un conjunto de datos o me- diante la informaci´on que los expertos tienen acerca del problema de estudio.

En consecuencia, contando con la informaci´on cualitativa y cuantitativa del pro- blema se puede definir el modelo asociado al mismo, esto representa un nexo entre la Teor´ıa de Gr´aficas y la Teor´ıa de la Probabilidad:

Definici´on 1.3.1 (Modelo gr´afico probabil´ıstico). Un modelo gr´afico probabil´ıstico es un par (G, P ) donde G es la gr´afica que representa la informaci´on cualitativa del

(16)

problema, siendo los v´ertices las variables del modelo y las aristas las relaciones de dependencia entre dichas variables; y P es el conjunto de distribuciones, que pue- den ser condicionadas, mediante las cuales se obtiene la distribuci´on de probabilidad conjunta del problema.

Observaci´on 1.6. En este trabajo los modelos utilizar´an variables discretas.

Los modelos gr´afico probabil´ısticos juegan un papel importante en el dise˜no y an´alisis de sistemas de aprendizaje y de actualizaci´on de la informaci´on, lo que ha llamado la atenci´on en un amplio espectro de disciplinas como la Gen´etica, Ling¨u´ısti- ca, Epidemiolog´ıa, Psicolog´ıa, Ciencia forense, Ecolog´ıa, Biolog´ıa, Medicina, entre otras [14]. Para construir uno de ´estos modelos se debe de:

a) Definir el problema a resolver: por ejemplo el problema del diagn´ostico m´edico es un ejemplo cl´asico ya que normalmente se plantea la pregunta ¿cu´al es la enfermedad m´as probable que tenga un paciente dado que presenta una serie de s´ıntomas? La definici´on del problema es un paso crucial en el desarrollo del modelo, ya que un mal planteamiento inicial tendr´a consecuencias fatales.

b) Seleccionar las variables: aquellas que sean relevantes para la definici´on del problema. Esta tarea debe ser realizada por expertos en el problema a resolver, por ejemplo, las variables relevantes para el problema de diagn´ostico son las enfermedades y sus correspondientes s´ıntomas.

c) Obtenci´on de informaci´on relevante: adquirir y analizar los datos que sean relevantes para la definici´on del modelo, ya sean cualitativos (gr´afica) o cuantitativos (probabilidades). Normalmente son obtenidos de un experto en el tema o una base de datos.

d) Construir el modelo gr´afico-probabil´ıstico: ya que se conocen las va- riables relevantes y las relaciones entre ellas, el siguiente paso consiste en definir el modelo gr´afica y probabil´ısticamente. En este paso se utilizan las gr´aficas descritas en este cap´ıtulo ya que son herramientas muy potentes para describir de forma intuitiva las relaciones de dependencia e independencia existentes en el conjunto de variables a tratar [2].

Uno de los principales modelos gr´afico probabil´ısticos son las Redes Bayesia- nas [12], que se distinguen por el hecho de que sus gr´aficas son DAG’s por lo que sus aristas son dirigidas y las relaciones entre los v´ertices se desarrollan de manera causal.

(17)

Cap´ıtulo 2

Redes Bayesianas

El reverendo Thomas Bayes (1702-1761) desarroll´o el Teorema que lleva su nom- bre, que aparece en la publicaci´on Essay Towards Solving a Problem in the Doctrine of Chances (1763), en el siglo XVIII [16]. Desde ese momento el teorema ha tenido un gran impacto en la inferencia estad´ıstica debido a que capacita a quien lo usa a inferir la probabilidad de una causa cuando el efecto de la misma es observado [14].

El t´ermino “Red Bayesiana” es establecido por el inform´atico y fil´osofo Judea Pearl en 1985, al extender el Teorema de Bayes a modelos gr´aficos de las relaciones probabil´ısticas entre muchas variables causalmente relacionadas [17].

(a) Thomas Bayes (1702-1761) (b) Judea Pearl (1936)

Figura 2.1

Las Redes Bayesianas han tenido un gran impacto en la inferencia estad´ıstica.

Existen innumerables aplicaciones en muchas ramas de la ciencia, como se puede ver en [5], [9], [10], [11], [12] y [14].

12

(18)

En este cap´ıtulo se introducir´a la definici´on de Red Bayesiana y algunas aplica- ciones en el campo de la Medicina.

2.1. Definici´ on formal y propiedades

2.1.1. Condici´ on de Markov

Definici´on 2.1.1 (Condici´on de Markov). Sup´ongase que se tiene una distribuci´on de probabilidad conjunta P de las variables aleatorias en alg´un conjunto V y una DAG G = (V, A) . Se dice que G = (V, A) satisface la condici´on de Markov si para cada variable X ∈ V , {X} es condicionalmente independiente del conjunto de todos sus no descendientes dado el conjunto de todos sus padres, es decir:

IP({X}, nde(X) | pa(X))

Definici´on 2.1.2 (Red Bayesiana). Si (G, P ) satisface la condici´on de Markov, se dice que (G, P ) es una Red Bayesiana.

Cuando (G, P ) satisface la condici´on de Markov, se dice que G y P satisfacen la condici´on de Markov entre ellos [10].

Figura 2.2: Una DAG G que ilustra la condici´on de Markov

Por ejemplo, consid´erese el DAG G en la figura 2.2. Si (G, P ) satisface la condici´on de Markov, con alguna distribuci´on de probabilidad P de X, Y, Z, W y U, se tendr´an las siguientes independencias condicionales:

(19)

CAP´ITULO 2 14 V´ertice Padres No descendientes Independencia condicional

X ∅ ∅ Ninguna

Y X X, Z, U IP(Y, {Z, U} | X)

Z X X, Y IP(Z, Y | X)

W Y, Z X, Y, Z, U IP(W, {X, U} | {Y, Z}) U Z X, Y, Z, W IP(U, {X, Y, W } | Z)

Observaci´on 2.1. N´otese que pa(X) ⊆ nde(X), entonces podemos definir la condi- ci´on de Markov diciendo que X debe ser condicionalmente independiente de nde(X)−

pa(X) dado pa(X).

Una Red Bayesiana (G, P ) por definici´on es una DAG G y una distribuci´on de probabilidad P que satisfacen la condici´on de Markov [10]. Entonces ¿Por qu´e en la figura 2.2 se muestra una Red Bayesiana como una DAG y un conjunto de distribu- ciones de probabilidad condicional? La raz´on es que (G, P ) satisface la condici´on de Markov si y s´olo si P es igual al producto de sus distribuciones condicionales en G.

Espec´ıficamente se tiene el siguiente teorema:

TEOREMA 2.1.1. (G, P ) satisface la condici´on de Markov (y por lo tanto es una Red Bayesiana) si y s´olo si P es igual al producto de sus distribuciones condicionales, de todos los v´ertices dados sus padres en G, siempre que existan estas distribuciones condicionales.

Observaci´on 2.2. Es decir la gr´afica G es una Red Bayesiana, representando a las variables V1, V2, ..., Vn si y s´olo si

P(V1, V2, ..., Vn) = Yn j=1

P(Vj|pa(Vj))

Del teorema anterior se puede deducir la siguiente proposici´on:

Proposici´on 2.1. Cualquier distribuci´on de probabilidad conjunta puede ser repre- sentada mediante una Red Bayesiana.

La proposici´on claramente muestra el poder del modelaje con las Redes Bayesia- nas. Cualquier modelo probabil´ıstico puede ser representado como una Red Bayesia- na.

2.1.2. Razonamiento Bayesiano

Definici´on 2.1.3 (Abducci´on). La abducci´on es el proceso de formar una hip´otesis explicativa.

(20)

La abducci´on es la ´unica operaci´on l´ogica que introduce alguna idea nueva, ya que, la inducci´on solo determina un valor, prueba que algo debe ser, y la deducci´on desarrolla las consecuencias necesarias de una hip´otesis, puede extraer una predicci´on que puede comprobarse mediante la inducci´on [13].

Definici´on 2.1.4 (Razonamiento abductivo). El razonamiento abductivo es un tipo de razonamiento en el que, a partir de la descripci´on de un hecho o fen´omeno, se ofrece o se llega a una hip´otesis, la cual explica las posibles razones o motivos del hecho mediante las premisas obtenidas.

Desde un punto de vista probabil´ıstico-estad´ıstico, se tiene la siguiente definici´on:

Definici´on 2.1.5 (Inferencia Bayesiana o Razonamiento Bayesiano). Es un tipo de inferencia estad´ıstica en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hip´otesis pueda ser cierta.

El nombre “Bayesiana” proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia.

La Inferencia Bayesiana se presentar´a en la siguiente secci´on mediante dos ejem- plos de Redes Bayesianas en el diagn´ostico m´edico, un campo en el que, impl´ıcita- mente, se utiliza este tipo de razonamiento, ya que un buen diagn´ostico observa los s´ıntomas del paciente y determina la enfermedad que m´as probablemente tenga.

2.2. Redes Bayesianas en el diagn´ ostico m´ edico

La naturaleza cualitativa y cuantitativa de las Redes Bayesianas permiten vi- sualizar f´acilmente las relaciones probabil´ıstica entre las variables, as´ı como realizar inferencias como predicci´on, diagn´ostico y toma de decisiones. Es por estas razones que en el campo de la Medicina y Ciencias de la Salud, donde hay una gran canti- dad de datos estad´ısticos y probabil´ısticos, se ha recurrido a ellas para el an´alisis y procesamiento de los datos [9].

En los siguientes apartados se tratar´a el concepto de diagn´ostico m´edico y se desarrollar´an varios ejemplos de Redes Bayesianas en el campo de la Medicina.

2.2.1. Diagn´ ostico m´ edico

El diagn´ostico m´edico es un proceso en el que se realiza un razonamiento abductivo que involucra la construcci´on de la hip´otesis de una enfermedad dado un conjunto de

(21)

CAP´ITULO 2 16

s´ıntomas observados en el paciente.

Formalmente, esto es expresado como:

D= m´ax

i P(Ei | S)

donde P (Ei | S) es la probabilidad de la enfermedad Ei dada la evidencia S que representa el conjunto de los s´ıntomas, historial m´edico y resultados de las pruebas diagn´osticas que presente el paciente.

Algunas de las aplicaciones o sistemas de Redes Bayesianas para el diagn´ostico m´edico que se han propuesto desde hace m´as de una d´ecada son: CONVINCE, NESTOR, MUNIN, ALARM, PATHFINDER IV, CPCS MODEL Y DIAVAL [11].

En la siguiente secci´on se presentar´an algunos ejemplos de las aplicaciones m´as intuitivas de las Redes Bayesianas: las pruebas cl´ınicas y el diagn´ostico m´edico.

2.2.2. Ejemplo de diagn´ ostico mediante pruebas cl´ınicas

En una empresa les piden a sus trabajadores que se realicen radiograf´ıas de torax de manera regular, debido a la exposici´on que tienen a materiales que podr´ıan afec- tar su salud. Dar´ıo observa en un cartel del hospital que el 60 % de las personas que tienen c´ancer pulmonar tienen un resultado positivo en la prueba que est´a a punto de realizarse.

Despu´es de unos d´ıas va con el m´edico y ´este le dice que obtuvo un resultado positivo en su radiograf´ıa. Dario empieza a preocuparse. Despu´es de pensarlo un momento se da cuenta que el dato estad´ıstico que conoce es la probabilidad de tener una prueba positiva dado que se tiene c´ancer pulmonar y a ´el le interesa saber lo contrario

¿Cu´al es la probabilidad de tener c´ancer pulmonar dado que la prueba result´o ser positiva?.

Es aqu´ı cuando el doctor puede realizar una Red Bayesiana simple para responder a dicha pregunta y dar un diagn´ostico.

La Red Bayesiana G = (V, A) tiene las siguientes caracter´ısticas:

El conjunto V tiene como elementos a los nodos R y C, que representan a las va- riables “Radiograf´ıa” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:

Variable Valor Cuando la variable toma el valor R r1 Radiograf´ıa positiva

r2 Ragiograf´ıa negativa C c1 C´ancer pulmonar presente

c2 C´ancer pulmonar ausente

(22)

Adem´as se tienen, mediante observaci´on de datos estad´ısticos, las probabilida- des:

• Prueba positiva dado que se tiene c´ancer pulmonar: P (r1 | c1) = 0.6

• Prueba positiva dado que no se tiene c´ancer pulmonar: P (r1 | c2) = 0.02

• Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001

Por lo que, debido a que las variables cumplen con la propiedad de Markov, la Red Bayesiana que representa este problema se muestra en la figura 2.3.

Figura 2.3: Red Bayesiana del ejemplo Radiograf´ıa-C´ancer Pulmonar

La informaci´on cuantitativa de ´esta viene dada por la probabilidad a priori de los v´ertices que no tienen padres (P (c1)) y la probabilidad condicional (verosimilitud ) de los v´ertices con padres (P (r1 | C)).

Conociendo dichas probabilidades se obtienen las siguientes tablas de probabili- dades:

C c1 c2

P(C) 0.001 0.999

C c1 c2

P(R = r1 | C) 0.6 0.02 P(R = r2 | C) 0.4 0.98

Cuadro 2.1: Probabilidades del ejemplo de diagn´ostico mediante pruebas diagn´osticas

(23)

CAP´ITULO 2 18

y se pueden calcular:

La probabilidad a priori de que cualquier persona obtenga una radiograf´ıa de torax positiva

P(r1) = P (r1 | c1)P (c1) + P (r1 | c2)P (c2)

= (0.6)(0.001) + (0.02)(0.999)

= 0.02058

La probabilidad a posteriori deseada, es decir, la probabilidad de que una per- sona tenga c´ancer pulmonar dado que su prueba result´o ser positiva

P(c1 | r1) = P(c1, r1) P(r1) Y como se trata de una Red Bayesiana

P(c1, r1) = P (c1)P (r1 | c1) entonces

P(c1 | r1) = P(c1)P (r1 | c1)

P(r1) = (0.001)(0.6)

0.02058 = 0.02915452

Se puede concluir entonces que solo el 2.91 % de las personas que obtienen un resul- tado positivo en esta prueba tienen c´ancer pulmonar, por lo que Dar´ıo no tiene que preocuparse a´un, ya que la prueba no es confiable y debe realizarse alguna otra que s´ı lo sea para determinar si en realidad tiene c´ancer pulmonar o no.

2.2.3. Ejemplo de diagn´ ostico m´ edico

M´onica est´a preocupada por que ha tenido una tos muy fuerte (cr´onica) desde hace varios d´ıas, por lo que va con su doctor.

El doctor le dice que dicho s´ıntoma es caracter´ıstico de dos enfermedades: Bron- quitis y c´ancer pulmonar.

El 54 % de las personas que tiene c´ancer pulmonar presentan dicho s´ıntoma y el 10 % de las personas que tienen bronquitis tambi´en presentan ese s´ıntoma.

(24)

¿Cu´al enfermedad es m´as probable que tenga M´onica?

Para realizar un diagn´ostico que implique decidir cual enfermedad es m´as probable que tenga un paciente, entre varias enfermedades, se utilizar´a la f´ormula de la secci´on 2.2.1 junto con la inferencia mediante la Red Bayesiana G = (V, A) con las siguientes caracter´ısticas:

El conjunto V tiene como elementos a los nodos T ,B y C, que representan a las variables “Tos”, “Bronquitis” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:

Variable Valor Cuando la variable toma el valor T t1 El paciente presenta tos cr´onica

t2 El paciente no presenta tos cr´onica C c1 C´ancer pulmonar presente

c2 C´ancer pulmonar ausente

B b1 Bronquitis presente

b2 Bronquitis ausente

Adem´as se obtienen, mediante observaci´on de datos estad´ısticos, las probabili- dades:

• El paciente presenta tos cr´onica cuando tiene bronquitis y c´ancer pulmo- nar: P (t1 | b1, c1) = 0.75

• El paciente presenta tos cr´onica cuando tiene bronquitis y no tiene c´ancer pulmonar: P (t1 | b1, c2) = 0.1

• El paciente presenta tos cr´onica cuando no tiene bronquitis y tiene c´ancer pulmonar: P (t1 | b2, c1) = 0.5

• El paciente presenta tos cr´onica cuando no tiene bronquitis ni c´ancer pul- monar: P (t1 | b2, c2) = 0.05

• Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001

• Probabilidad de padecer bronquitis: P (b1) = 0.09

Como puede verse las variables cumplen con la propiedad de Markov.

Conociendo estas probabilidades se obtienen las siguientes tablas:

(25)

CAP´ITULO 2 20

B b1 b2

P(B) 0.09 0.91

C c1 c2

P(C) 0.001 0.999

B b1 b2

C c1 c2 c1 c2

P(T = t1 | B, C) 0.75 0.1 0.5 0.05 P(T = t2 | B, C) 0.25 0.9 0.5 0.95

Cuadro 2.2: Probabilidades del ejemplo de diagn´ostico m´edico La Red Bayesiana que representa este problema se muestra en la figura 2.4.

Figura 2.4: Red Bayesiana del ejemplo de diagn´ostico m´edico

Al tener la distribuci´on de probabilidades se sabe que, al tratarse de una Red Bayesiana, la probabilidad conjunta de todas la variables en V es expresada como:

P(B, C, T ) = P (B)P (C)P (T | B, C)

(26)

as´ı que se calcular´a lo siguiente:

La probabilidad a priori de que cualquier persona presente el s´ıntoma de tos cr´onica

P(t1) = X

B,C

P(B, C, t1) =X

B,C

P(B)P (C)P (t1| B, C)

= X

C

[P (b1)P (C)P (t1 | b1, C) + P (b2)P (C)P (t1 | b2, C)]

= P (b1)P (c1)P (t1 | b1, c1) + P (b2)P (c1)P (t1 | b2, c1) +P (b1)P (c2)P (t1 | b1, c2) + P (b2)P (c2)P (t1 | b2, c2)

= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5) +(0.09)(0.999)(0.1) + (0.91)(0.999)(0.05)

= 0.0000675 + 0.000455 + 0.008991 + 0.0454545

= 0.054968

Ahora se calculan las probabilidades a posteriori deseadas, es decir la probabi- lidad de padecer, ya sea bronquitis o c´ancer pulmonar dado que se tiene como s´ıntoma a la tos cr´onica.

Para el c´ancer pulmonar se tiene que:

P(c1 | t1) = P(c1, t1) P(t1) debido a que se trata de una Red Bayesiana

P(c1, t1) = X

B

P(B, c1, t1) =X

B

P(B)P (c1)P (t1 | B, c1)

= P (b1)P (c1)P (t1 | b1, c1) + P (b2)P (c1)P (t1 | b2, c1)

= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5)

= 0.0000675 + 0.000455

= 0.0005225 entonces

P(c1 | t1) = P(c1, t1)

P(t1) = 0.0005225

0.054968 = 0.00950553

(27)

CAP´ITULO 2 22

Para la bronquitis se tiene que:

P(b1 | t1) = P(b1, t1) P(t1) debido a que se trata de una Red Bayesiana

P(b1, t1) = X

C

P(b1, C, t1) =X

C

P(b1)P (C)P (t1 | b1, C)

= P (b1)P (c1)P (t1 | b1, c1) + P (b1)P (c2)P (t1 | b1, c2)

= (0.09)(0.001)(0.75) + (0.09)(0.999)(0.1)

= 0.0000675 + 0.008991

= 0.0090585 entonces

P(b1 | t1) = P(b1, t1)

P(t1) = 0.0090585

0.054968 = 0.1647959

Se puede concluir entonces que es m´as probable que M´onica tenga bronquitis dado que la probabilidad a posteriori de la bronquitis es mayor que la del c´ancer pulmonar, al observarse el s´ıntoma de la tos cr´onica.

Este resultado no es concluyente ya que s´olo se est´a observando un s´ıntoma en´ com´un de las enfermedades.

En el siguiente cap´ıtulo se dar´a un ejemplo m´as completo del diagn´otico entre c´ancer pulmonar y bronquitis, bas´andose en historial cl´ınico, s´ıntomas y pruebas.

(28)

Inferencia Bayesiana por medio de

´

arboles de uni´ on

En la vida cotidiana la realizaci´on del diagn´ostico de una enfermedad no se basa solamente en un s´ıntoma, o en la conclusi´on que arroja una prueba diagn´ostica, como en los ejemplos de “Diagn´ostico mediante pruebas cl´ınicas” y “Diagn´ostico m´edico”, sino que es el resultado de observar toda esta evidencia, es decir todos los s´ıntomas del paciente y las relaciones que estos tienen con las posibles enfermedades, adem´as de considerar el “historial cl´ınico del paciente” [11].

Al considerar lo anterior, se puede deducir que las gr´aficas, y en consecuencia las Redes Bayesianas, que modelan dichos diagn´osticos tendr´an un mayor grado de complejidad en cuanto al desarrollo de la inferencia. Para atacar esta complejidad se utilizar´an los ´arboles de uni´on [1].

3.1. Estructuras gr´ aficas de inter´ es

En esta secci´on se presentar´an algunas estructuras gr´aficas que se obtienen tras manipular una Red Bayesiana, ya que en algunas ocasiones se buscan las probabi- lidades condicionales dado un conjunto de varibles que no se relacionan de manera directa, por lo que no es posible realizar de forma directa ciertos c´alculos.

Despu´es de modificar la Red Bayesiana, se obtiene una estructura m´as simple que mantiene algunas propiedades de la gr´afica original, pero que facilitan la tarea de obtener las probabilidades deseadas. A esta modificaci´on t´ecnica se le llama “´arbol de uni´on”.

23

(29)

CAP´ITULO 3 24

3.1.1. Gr´ afica moral

A continuaci´on se dar´a el concepto de gr´afica moral, la cual permitir´a ver de manera gr´afica las dependencias entre los padres de un v´ertice.

Definici´on 3.1.1 (Gr´afica moral). Sea G = (V, A) una DAG. Se define la gr´afica moral asociada a G, y se denota como M, a la gr´afica que se obtiene tras a˜nadir una arista entre cada par de v´ertices con alg´un hijo en com´un y remover la direccionalidad.

3.1.2. Gr´ afica triangular

Para definir lo que es una gr´afica triangular primero se deben de introducir los conceptos de “bucle” y “cuerda de un bucle”.

Definici´on 3.1.2 (Bucle). En una gr´afica no dirigida G = (V, A) se define un bucle como un camino cerrado, es decir una sucesi´on de v´ertices conectados tales que el v´ertice inicial coincide con el final.

Por ejemplo al observar la figura 3.1, en la gr´afica no dirigida existen dos bucles dados por los v´ertices {B, D, E} y {A, C, G, F }.

B A C

D E

F G

Figura 3.1: Ejemplo de bucle

Definici´on 3.1.3 (Cuerda del bucle). Si en una gr´afica no dirigida hay un bucle, a la arista que une dos v´ertices y que no pertenece al bucle se le denomina cuerda del bucle.

Estos conceptos son fundamentales pues con ellos se podr´a obtener una gr´afica triangular, la cual es de gran importancia para construir los ´arboles de uni´on.

Definici´on 3.1.4 (Gr´afica triangular). Se le llama gr´afica triangular, denotada co- mo T, a una gr´afica no dirigida G = (V, A) en la que todos los bucles de longitud mayor o igual que cuatro contienen al menos una cuerda.

(30)

En la figura 3.2 se pueden apreciar dos gr´aficas triangulares obtenidas a partir de la gr´afica 3.1.

B A C

D E

F G

(a)

B A C

D E

F G

(b)

Figura 3.2: Ejemplos de gr´aficas triangulares

El proceso de a˜nadir cuerdas que dividan a los bucles no es trivial ya que se debe mantener en lo posible la estructura original de la gr´afica, buscando que la triangu- laci´on contenga el m´ınimo n´umero de cuerdas, obteniendo as´ı menos tri´angulos en la gr´afica, lo que ser´a de ayuda para la construcci´on del ´arbol de uni´on. Sin embargo puede demostrarse que el problema de encontrar una triangulaci´on eficiente es NP- completo [10].

En la pr´actica los algoritmos utilizados para obtener una gr´afica triangular son heur´ısticos, por lo que se elige la triangulaci´on que parece m´as razonable, pero que podr´ıa no ser ´optima [1].

En este trabajo se utilizaron paqueterias de R, como se ver´a en la secci´on 3.5.4, para obtener las gr´aficas morales y triangulares de inter´es.

3.2. Arboles de uni´ ´ on

Los ´arboles de uni´on agrupan en cada uno de sus v´ertices un conjunto de v´ertices que forman un bucle de longitud menor o igual que tres, reduci´endose as´ı la estructura inicial de la gr´afica y facilitando la realizaci´on de c´alculos locales, como se presen- tar´a en el ejemplo 3.4.1. Para ello se dar´an las definiciones de “clique” y “´arbol de uni´on”.

Definici´on 3.2.1 (Clique). Un clique es el m´aximo subconjunto C de v´ertices en el que cada elemento es adyacente a todos los dem´as.

(31)

CAP´ITULO 3 26

Observaci´on 3.1. La gr´afica triangular es de ayuda para encontrar los cliques de la gr´afica.

Definici´on 3.2.2 (Propiedad del ´arbol de uni´on). Se dice que se cumple la propiedad del ´arbol de uni´on, si para cada par C1 y C2 de cliques con intesecci´on C1,2, todos los cliques en el camino entre C1 y C2 contienen a C1,2.

Se define al ´arbol de uni´on de la siguiente manera :

Definici´on 3.2.3 ( ´Arbol de uni´on). Un ´arbol de uni´on JT de la gr´afica G es una gr´afica con las siguientes propiedades:

Cada v´ertice de JT corresponde a un clique de la gr´afica triangular T de G.

Los v´ertices de JT cumplir´an con la propiedad de ´arboles de uni´on.

Cada arista de JT contiene a las variables en la intersecci´on de los cliques adyacentes. A estas aristas se les llamar´a separadores S.

3.3. Inferencia en los ´ arboles de uni´ on

El principal objetivo de una Red Bayesiana es realizar inferencias probabil´ısticas.

V´ease [6]. A trav´es de los ´arboles de uni´on se realiza la inferencia al representar la distribuci´on de probabilidad conjunta entre los v´ertices que conforman a un clique.

Para ello es necesario definir primero las funciones potenciales de JT.

Definici´on 3.3.1 (Funciones potenciales ψC y φS de un ´arbol de uni´on). La funci´on potencial de cada clique ψC y cada separador φS es aquella que utiliza las probabilida- des de la Red Bayesiana inicial para obtener la probabilidad conjunta de las variables del clique, al multiplicar las probabilidades condicionales de las variables de C (o S) y sus padres.

A continuaci´on se presenta un algoritmo para obtener las funciones potenciales de un ´arbol de uni´on.

Algoritmo

Para inicializar las funciones potenciales se seguir´an los siguientes pasos:

1. Igualese todas las funciones potenciales de cada clique y cada separador a la unidad.

2. Para cada variable Xi, seleccione un v´ertice en el ´arbol de uni´on (es decir, clique) que contenga a la variable y sus padres (pa(Xi)) en el DAG original.

3. Multipl´ıquese la funci´on potencial de dicho clique por P (Xi | pa(Xi)).

(32)

La distribuci´on de probabilidad conjunta puede ser expresada ahora en t´erminos de funciones potenciales ψC o φS, definidas en cada clique y cada separador del ´arbol de uni´on, respectivamente.

Esta distribuci´on conjunta es dada por:

P(X) = Q

c∈Cψc(Xc) Q

s∈Sφs(Xs) donde X = X1, X2, ..., Xn.

La idea es transformar una representaci´on de las distribuciones conjuntas a otras donde para cada clique C la funci´on potencial d´e la distribuci´on marginal de las variables en C, es decir:

ψC(XCi) = P (XCi) lo que se aplicar´a tambi´en a los separadores.

Esto se ver´a m´as claro en el ejemplo “Bronquitis-C´ancer pulmunar” de la seccion´ 3.4.1. Ahora se explicar´a como funciona la inferencia Bayesiana en los ´arboles de uni´on, para despu´es aplicarla en un ejemplo de diagn´ostico m´edico donde se involu- cren s´ıntomas, pruebas e historial cl´ınico.

3.3.1. Consistencia local de los ´ arboles de uni´ on

La consistencia local se logra mediante el intercambio de informaci´on entre los cliques vecinos.

Definici´on 3.3.2 (Consistencia local). Se dice que un ´arbol de uni´on es localmente consistente si para cualesquiera dos cliques vecinos U y W con intersecci´on S se

cumple X

U\S

ψU = X

W\S

ψW

Actualizaci´on de la funci´on potencial

Sup´ongase que se tienen dos cliques U y W que tienen una intersecci´on no vac´ıa S, como en la figura 3.3.

(33)

CAP´ITULO 3 28

Figura 3.3: ´Arbol de uni´on

Los cliques U y W tienen las funciones potenciales ψU y ψW, respectivamente, y S tiene una funci´on potencial φS que se inicializa con valor 1.

La distribuci´on de probabilidad conjunta P (X) para todas las variables en V de la Red Bayesiana es la siguiente:

P(X1, X2, ..., Xn) = ψU · ψW

φS .

La idea detr´as de la actualizaci´on es modificar las funciones potenciales de tal manera que la funci´on potencial resultante de la marginalizaci´on del separador S desde cualquiera de los cliques, U o W , d´e el mismo valor φS = P (S), es decir

X

U\S

ψU = φS = X

W\S

ψW.

Consid´erese una situaci´on en la que se tiene nueva evidencia que cambia ψU por ψU, esto debido a que se fija una de las variables en U a un estado particular. Con la finalidad de mantener la consistencia se cambiar´an φS y ψW porP

U\SψU y ψW·φφSS, respectivamente, para satisfacer

X

U\S

ψU = φS = X

W\S

ψW.

Observaci´on 3.2. Al definir φS y ψW de esta manera se cumple con la consistencia

local X

W\S

ψW = X

W\S

ψW ·φS φS = φS

φS ·X

W\S

ψW = φS

φS · φS = φS =X

U\S

ψU.

A continuaci´on se estudiar´an las diferentes fases en las que se realiza la propaga- ci´on de la informaci´on en un ´arbol de uni´on.

(34)

Fases de propagaci´on

Al seleccionar un clique del ´arbol de uni´on, se pueden realizar dos tipos de fases de propagaci´on de la informaci´on a trav´es del ´arbol:

1. Fase de recopilaci´on o recolecci´on: Cuando el flujo de la informaci´on llega de los dem´as cliques al clique elegido.

2. Fase de distribuci´on: Cuando el flujo de la informaci´on va del clique elegido a los dem´as cliques.

En la figura 3.4a se puede observar la fase de recolecci´on de los cliques C1 = {A, B}

y C3 = {C, R} al clique C2 = {B, C}, mientras que en la figura 3.4b se aprecia la fase de distribuci´on del clique C2 = {B, C} a los dem´as cliques.

(a) Fase de recolecci´on (b) Fase de distribuci´on

Figura 3.4

En algunos casos, al obtener las probabilidades deseadas s´olo se necesita la uti- lizaci´on de una de las dos fases; todo depender´a del tipo de problema que se desee resolver.

(35)

CAP´ITULO 3 30

Algoritmo para la construcci´on del ´arbol de uni´on

En [9] se encuentra el siguiente algoritmo para la construcci´on del ´arbol de uni´on de una Red Bayesiana

Algoritmo

1. Moralizar: Crear la gr´afica moral M de la Red Bayesiana G como se ilustra en la secci´on 3.1.

2. Triangular: Obtener la gr´afica triangular T de la gr´afica moral M del punto 1 como se muestra en la secci´on 3.1.

3. Cliques: Identificar los cliques de la gr´afica triangular.

4. ´Arbol de uni´on: Crear una gr´afica JT en la que cada clique sea un v´ertice, y los cliques adyacentes est´en unidos mediante arcos no dirigidos.

5. Reparametrizar: Utilizar los par´ametros de las distribuciones de G para calcular las probabilidades de los cliques del ´arbol de uni´on.

Ejemplo

Sea G la Red Bayesiana de la figura 3.5a, al moralizarla obtenemos a M, que ser´a la misma que la gr´afica triangular T, debido a que no hay bucles, representada en la figura 3.5b.

(a) Red Bayesiana (b) Gr´afica Moral y triangular

Figura 3.5

Al identificar los cliques de M se construye el ´arbol de uni´on JT de la figura 3.6.

Figura 3.6: ´Arbol conjunto JT

(36)

Las funciones potenciales ψAB, ψBC y φB se definen como:

ψAB = P (A) · P (B | A) φB= 1

ψBC = P (C | B)

Para mantener la consistencia local, se actualizan las funciones potenciales mediante el flujo de informaci´on entre los cliques vecinos. Primero se actualiza ψBC basandose en ψAB.

ψAB = P (A, B) φB =X

a

P(a, B) = P (B)

ψBC = φB

φB · ψBC = P(B)

1 · P (C | B) = P (B, C)

Las potenciales de los cliques se han convertido en probabilidades marginales.

Introduciendo evidencia

Ahora consid´erese el caso en el que se tiene evidencia. Sup´ongase que todos los v´ertices son binarios en la Red Bayesiana de la figura 3.5a y se tiene la evidencia (A = a1). Entonces al realizar la actualizaci´on AB → BC se llega a que:

ψAB = P (A = a1, B) φB =X

a

P(A = a1, B) = P (A = a1, B)

ψBC = φB

φB · ψBC = P(A = a1, B)

1 · P (C | B) = P (A = a1, B, C)

Se puede ver que se han obtenido las marginales como antes, y la evidencia est´a presente en todos los t´erminos.

Las potenciales son marginales sin normalizar. Al normalizarlas se obtienen las condicionales P (B | A = a1) y P (B, C | A = a1).

En la siguiente secci´on se presentar´a una aplicaci´on de las Redes Bayesianas en el diagn´ostico m´edico utilizando ´arboles de uni´on para realizar la inferencia bayesiana.

(37)

CAP´ITULO 3 32

3.4. Ejemplo de inferencia bayesiana mediante el

´

arbol de uni´ on

Cuando se quiere determinar la presencia o ausencia de una enfermedad en una persona, se toman en cuenta los resultados de las pruebas de dicha enfermedad, adem´as de considerarse tambi´en los s´ıntomas que presenta el paciente y los ante- cedente m´edicos (historial cl´ınico) que tenga [10]. En esta situaci´on es claro que se pueden emplear las Redes Bayesianas para realizar una inferencia probabil´ıstica.

3.4.1. Ejemplo Bronquitis-C´ ancer Pulmonar

Problema: Sup´ongase que una persona tiene antecedentes de tabaquismo, los cuales tienen una influencia directa en la salud del paciente, ya que el paciente se vuelve propenso a padecer bronquitis o c´ancer pulmonar. A su vez, la presencia o ausencia de cada una de estas enfermedades tiene una influencia directa con el s´ınto- ma de tos cr´onica. Asimismo, la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el hecho de que una radiograf´ıa de torax resulte positiva o ne- gativa.

En esta situaci´on se realizar´a una inferencia probabil´ıstica que implique el uso de caracter´ısticas que no est´en relacionadas de forma directa, por ejemplo obtener las probabilidades condicionales de padecer ya sea bronquitis o c´ancer pulmonar cuando el paciente presenta antecedentes de tabaquismo, t´os cr´onica y una radiograf´ıa de torax positiva, por lo que las probabilidades condicionales no se pueden actualizar utilizando una sencilla aplicaci´on del Teorema de Bayes ni una Red Bayesiana senci- lla, as´ı que se usar´an los conceptos abordados en la secci´on anterior.

El problema presenta ciertas caracter´ısticas o estados que se quieren determinar, pero que no se pueden calcular con certeza, por lo que s´olo se determina “que tan probable” es que dicha caracter´ıstica particular se encuentre en un estado particular.

Para ello se representan las caracter´ısticas mediante variables aleatorias y se desa- rrollan las relaciones probabil´ısticas entre las variables. En el problema se identifican las variables aleatorias como: “Antecedentes de tabaquismo” (A), “Bronquitis” (B),

“C´ancer pulmonar” (C), “Tos cr´onica” (T ) y “Radiograf´ıa” (R), con sus respecti- vos conjuntos de valores mutuamente exclusivos y exhaustivos, representados en el siguiente cuadro:

(38)

Variable Valor La variable toma el valor A a1 Hay antecedentes de tabaquismo

a2 No hay antecedentes de tabaquismo

B b1 Bronquitis presente

b2 Bronquitis ausente C c1 C´ancer pulmonar presente

c2 C´ancer pulmonar ausente

T t1 Tos cr´onica presente

t2 Tos cr´oncia ausente

R r1 Radiograf´ıa positiva

r2 Radiograf´ıa negativa

Ahora se deben identificar las influencia directas entre las variables, por ejemplo A→ B debido a que los antecedentes de tabaquismo tienen influencia directa con la presencia o ausencia de bronquitis, del mismo modo C → R debido a que la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el resultado de una radiograf´ıa de torax. No existe un arco entre A y R ya que el presentar antecedentes de tabaquismo no tiene una implicaci´on directa con los resultados de la radiograf´ıa, s´olo la tiene a trav´es de su influencia en la presencia de c´ancer pulmonar.

Al obtener todas estas influencias se obtendr´a la representaci´on cualitativa de la Red Bayesiana. Despu´es se obtendr´a la parte cuantitativa al “juzgar” las pro- babilidades que tienen los valores de las variables aleatorias que son accesibles, es decir, determinar las probabilidades apriori (P (A)) y las verosimilitudes (P (B | A), P(C | A), P (T | B, C) y P (R | C)) mediante el an´alisis y estudio de datos es- tad´ısticos, la experiencia de los doctores, o ambos, obteni´endose as´ı las siguientes probabilidades:

P(ai) = 0.2

P(b1 | a1) = 0.25 P(b1 | a2) = 0.05 P(c1 | a1) = 0.003 P(c1 | a2) = 0.00005

P(t1 | b1, c1) = 0.75 P (t1 | b1, c2) = 0.1 P(t1 | b2, c1) = 0.5 P(t1 | b2, c2) = 0.05 P(r1 | c1) = 0.6 P(r1 | c2) = 0.02

(Estas probabilidades fueron obtenidas de [10]).

(39)

CAP´ITULO 3 34

El resultado ser´a la Red Bayesiana para el problema representada en la figura 3.7.

Figura 3.7: Red Bayesiana G del ejemplo Bronquitis-C´ancer pulmonar

Inferencia mediante el ´arbol de uni´on de G El problema que queremos resolver es el siguiente:

¿Qu´e enfermedad es m´as probable que tenga un paciente, bronquitis (b1) o c´ancer pulmonar (c1), si presenta antecedentes de tabaquismo (a1), t´os cr´onica (t1) y una radiograf´ıa de t´orax positiva (r1)?

Para dar respuesta a esta pregunta, es claro que se deben de obtener las siguientes probabilidades condicionales

P(B = b1 | A = a1, T = t1, R= r1) P(C = c1 | A = a1, T = t1, R= r1)

(40)

las cuales se calcular´an utilizando el ´arbol de uni´on de la gr´afica G de la figura 3.7 al realizar los pasos descritos en el algoritmo 3.3.1:

1. Se realiza la gr´afica Moral M de la Red Bayesiana G , ilustrada en la figura 3.8.

Figura 3.8: Gr´afica moral M de la Red Bayesiana G

2. Se realiza la gr´afica triangular T de M, que, en este caso, es la misma gr´afica de la figura 3.8, ya que no hay bucles con longitud mayor o igual que cuatro.

3. Se identifican los elementos de los bucles de longitud menor o igual que tres, los cuales ser´an los v´ertices del ´arbol de uni´on (cliques).

En este caso los cliques ser´an los sunconjuntos de V : {A, B, C}, {B, C, T } y {C, R}.

4. Se construye el ´arbol de uni´on JT, fij´andose en que se cumpla la propiedad del

´arbol de uni´on: en este caso, como son tres v´ertices en el ´arbol de uni´on existen tres intersecciones entre estos:

{A, B, C} ∩ {B, C, T } = {B, C}, {A, B, C} ∩ {C, R} = {C} y {B, C, T } ∩ {C, R} = {C}

Por lo que el orden en que deben de estar ordenados los cliques es:

C1 = {A, B, C}, C2 = {B, C, T } y C3 = {C, R}.

Ya que de otro modo no se cumple la propiedad mencionada.

Los separadores (S) del ´arbol de uni´on ser´an las intersecciones entre los cliques vecinos, es decir:

S1 = C1,2 = {B, C} y S2 = C2,3 = {C}.

Referencias

Documento similar

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

Como asunto menor, puede recomendarse que los órganos de participación social autonómicos se utilicen como un excelente cam- po de experiencias para innovar en materia de cauces

Tabla 3.47: Caso de uso 15 - Definir un nuevo gr´ afico en el sistema.. Dise˜ no e implementaci´ on de una aplicaci´ on web para el an´ alisis centralizado de logs de seguridad. Caso

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

IS P-ESCUDER CROFT P•FRAGA IRIBARNE P-LLORENS TORRES P-PENA SUAREZ P-TEJADA LORENZO 74 P-VERSTRYNGE

AL NUMERO DE PRESENCIAS SE LE DEBE APíADTR LA DEL EXCMO..

11 PROYECTO DE LEY DELEGACION GOBIERNO APLICACION DERECHO

13 PROYECTO DE LEY DELEGACION GOBIERNO Alp ICACION DERECHO