UNIVERSIDAD VERACRUZANA
FACULTAD DE MATEM ´ ATICAS
Redes Bayesianas y su uso en el Diagn´ ostico m´ edico
T E S I S
que para aprobar la Experiencia Educativa Experiencia Recepcional
Correspondiente al Plan de Estudios de la Licenciatura en Matem´ aticas
P R E S E N T A:
Adriana Laura L´ opez Lobato
DIRECTORES DE TESIS:
Dr. Francisco Sergio Salem Silva Dra. Juana Elisa Escalante Vega
Junio del a˜no 2014 Xalapa, Ver. M´exico
Introducci´on IV
1. Preliminares 1
1.1. Conceptos de Teor´ıa de Gr´aficas . . . 1
1.1.1. Definiciones . . . 1
1.1.2. Estructura de una gr´afica . . . 2
1.1.3. Gr´aficas dirigidas . . . 3
1.1.4. Gr´aficas ac´ıclicas dirigidas (DAG) . . . 4
1.1.5. Separaci´on gr´afica en una DAG . . . 4
1.1.6. Manta de Markov . . . 6
1.2. Conceptos de Teor´ıa de Probabilidad . . . 7
1.2.1. La probabilidad como una estructura de razonamiento . . . . 7
1.2.2. Principios b´asicos . . . 7
1.2.3. Probabilidad condicional e Independencia . . . 8
1.2.4. Teorema de Bayes . . . 9
1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta 9 1.3. Modelos gr´aficos probabil´ısticos . . . 10
2. Redes Bayesianas 12 2.1. Definici´on formal y propiedades . . . 13
2.1.1. Condici´on de Markov . . . 13
2.1.2. Razonamiento Bayesiano . . . 14
2.2. Redes Bayesianas en el diagn´ostico m´edico . . . 15
2.2.1. Diagn´ostico m´edico . . . 15
2.2.2. Ejemplo de diagn´ostico mediante pruebas cl´ınicas . . . 16
2.2.3. Ejemplo de diagn´ostico m´edico . . . 18
3. Inferencia Bayesiana por medio de ´arboles de uni´on 23 3.1. Estructuras gr´aficas de inter´es . . . 23
ii
3.1.1. Gr´afica moral . . . 24
3.1.2. Gr´afica triangular . . . 24
3.2. ´Arboles de uni´on . . . 25
3.3. Inferencia en los ´arboles de uni´on . . . 26
3.3.1. Consistencia local de los ´arboles de uni´on . . . 27
3.4. Ejemplo de inferencia bayesiana mediante el ´arbol de uni´on . . . 32
3.4.1. Ejemplo Bronquitis-C´ancer Pulmonar . . . 32
3.5. Uso del paquete gRain para realizar Inferencia Bayesiana . . . 40
3.5.1. C´odigo para “Diagn´ostico mediante pruebas cl´ınicas” . . . 42
3.5.2. C´odigo para “Diagn´ostico m´edico” . . . 43
3.5.3. C´odigo para “Bronquitis - C´ancer Pulmonar” . . . 44
3.5.4. C´odigo para obtener gr´aficas morales, triangulares y ´arboles de uni´on . . . 46
Conclusiones 48
Bibliograf´ıa 50
El diagn´ostico m´edico es un ejemplo de toma de decisiones, ya que se requiere tener en cuenta varios aspectos como el historial cl´ınico, la exploraci´on f´ısica (o s´ınto- mas del paciente) y exploraciones complementarias (es decir pruebas diagn´osticas o cl´ınicas) para determinar qu´e enfermedad padece una persona [10].
Las decisiones m´edicas son dif´ıciles de tomar y el resultado del proceso de decisi´on tiene implicaciones de largo alcance sobre el bienestar o incluso la propia vida de los pacientes.
En la actualidad la medicina utiliza innumerables adelantos que involucran el uso intensivo de alta tecnolog´ıa como el diagn´ostico por im´agenes, avances quir´urgicos como la laparoscopia, rob´otica y farmac´euticos [7].
Existen herramientas que tienen el potencial de hacer una diferencia en la medi- cina. Especialmente los m´etodos que aprovechan los datos disponibles, la experiencia cl´ınica y que al mismo tiempo tienen como base fundamentos s´olidos [2].
Una de estas herramientas son las Redes Bayesianas, que son especialmente ade- cuadas para el modelado de conocimiento incierto, ya que son capaces de describir de manera concisa un problema modelado a trav´es de un conjunto de variables re- lacionadas entre s´ı, adem´as de que se puede actualizar la informaci´on que se tiene acerca de las variables del problema, cuando se conoce el valor que toma alguna de ellas para casos concretos [6].
En el campo de la Medicina hay una gran cantidad de datos que se pueden uti- lizar para diagnosticar un paciente [8]. El objetivo de este trabajo es mostrar c´omo se realizan dichos diagn´osticos mediante el uso de Redes Bayesianas como modelos gr´aficos probabil´ısticos que involucren el historial del paciente, los s´ıntomas y las pruebas diagn´osticas para la toma de decisiones.
iv
La organizaci´on del trabajo es la siguiente:
Cap´ıtulo 1: Revisi´on de los conceptos sobre Teor´ıa de Gr´aficas y Teor´ıa de la Probabilidad que son necesarios para comprender y utilizar las Redes Bayesia- nas.
Cap´ıtulo 2: Discusi´on de las definiciones y propiedades esenciales de las Redes Bayesianas y algunos elementos del protocolo del diagn´ostico. En este cap´ıtulo se dar´an dos ejemplos de las representaciones m´as intuitivas del diagn´ostico m´edico: las pruebas cl´ınicas y el diagn´ostico entre dos enfermedades con un mismo s´ıntoma.
Cap´ıtulo 3: Explicaci´on de un modelo de Inferencia Bayesiana mediante ´arboles de uni´on que son una extensi´on de las Redes de Bayes, ya que se basan en la estructura de las mismas y las relaciones de dependencia entre las variables observadas para facilitar la realizaci´on de los c´alculos deseados. Los ´arboles de uni´on utilizan una estructura gr´afica-probabil´ıstica secundaria, que ser´a descrita en este cap´ıtulo.
Se dar´a soluci´on a un ejemplo de diagn´ostico en el que intervienen historial m´edico, s´ıntomas y pruebas cl´ınicas, adem´as se incluye un apartado que explica la Inferencia Bayesiana en el software libre R, donde se muestran los c´odigos y las soluciones computacionales de los ejemplos vistos en este trabajo.
Preliminares
Para poder utilizar las Redes Bayesiana en problemas concretos, se requiere del conocimiento de campos como la Teor´ıa de la Probabilidad y la Teor´ıa de Gr´aficas.
En este cap´ıtulo se dar´a una peque˜na introducci´on a la teor´ıa y propiedades b´asicas de las gr´aficas, as´ı como la terminolog´ıa y bases de Probabilidad, que son fundamentales para la descripci´on del modelo de estudio de este trabajo.
1.1. Conceptos de Teor´ıa de Gr´ aficas
En esta secci´on se definen los conceptos b´asicos de una gr´afica, as´ı como algunas propiedades de las mismas, con la finalidad de apoyar algunos resultados e inferencias posteriores.
1.1.1. Definiciones
Definici´on 1.1.1 (Gr´afica). Una gr´afica es un objeto matem´atico definido como un par G = (V, A) , donde V = {V1, V2, ..., Vn} es un conjunto finito y no vac´ıo y A un conjunto finito, que puede ser vac´ıo. A los elementos de V se les llamar´a v´ertices o nodos, a los elementos de A aristas o arcos, descritos como a = (u, v) que conectan a un par de nodos u, v ∈ V .
Definici´on 1.1.2 (V´ertices adyacentes). Decimos que los v´ertices u y v en V de la gr´afica G = (V, A) son adyacentes si est´an conectados mediante una arista a = (u, v) en A.
Dependiendo de la relaci´on de orden que existe entre los nodos de una gr´afica, se puede hablar de dos tipos de arcos: dirigidos (de u a v si el arco (u, v) es un par ordenado) y no dirigidos (si el arco (u, v) no es ordenado), se representan u → v y
1
CAP´ITULO 1 2
u− v, respectivamente.
Esta clasificaci´on de los arcos como dirigidos o no dirigidos induce una clasificaci´on de las gr´aficas:
Definici´on 1.1.3 (Gr´aficas dirigidas, no dirigidas o mixtas). Una gr´afica que tiene todas sus aristas dirigidas se define como gr´afica dirigida, si todas las aristas de la misma son no dirigidas, se denominar´a gr´afica no dirigida y cuando tiene aristas dirigidas y no dirigidas, se dice que la gr´afica es mixta.
C A
D
B E
(a) Gr´afica dirigida
D B
E C
A
(b) Gr´afica no dirigida (c) Gr´afica mixta
Figura 1.1: Tipos de gr´aficas
En la figura 1.1 aparece una gr´afica dirigida, una no dirigida y una mixta. En la gr´afica dirigida 1.1a se puede observar un orden entre los v´ertices, mientras que no existe orden aparente entre los v´ertices de los otros dos tipos de gr´aficas. Es por esta raz´on que s´olo se utilizar´a la teor´ıa perteneciente a las gr´aficas dirigidas para el estudio de las Redes Bayesianas.
1.1.2. Estructura de una gr´ afica
La estructura de una gr´afica es la configuraci´on en que se encuentran las aristas de la misma. Al estudiarla se pueden encontrar propiedades interesantes y de suma importancia, como los caminos o trayectorias.
Definici´on 1.1.4 (Camino). Sea G = (V, A) una gr´afica. Se dice que una sucesi´on de aristas w = a1, a2, ..., an es un camino en G si w ⊆ A y si ai = (vi−1, vi), entonces vi es adyacente a vi+1.
Observaci´on 1.1. Un camino tambi´en puede ser expresado en t´erminos de sus v´erti- ces, por ejemplo w = a1, a2, ..., an es expresado como w = v0 − v1 − ... − vn si ai = (vi−1, vi) para i = 1, ..., n.
Si se busca un camino entre dos nodos v1, vnse tendr´a una sucesi´on (v1, v2, ..., vn) donde las aristas que conectan a los v´ertices son asumidos como ´unicos, por lo que el camino pasa por cada arista s´olo una vez.
Definici´on 1.1.5 (Ciclo). Se dice que un camino w = v0− v1− ... − vn es un ciclo si el v´ertice inicial del camino coincide con el v´ertice final del mismo, es decir, vn= v0.
1.1.3. Gr´ aficas dirigidas
En las gr´aficas dirigidas existen agrupaciones y relaciones entre los v´ertices que definen conjuntos espec´ıficos como los que a continuaci´on se muestran.
Definici´on 1.1.6 (Ancestro,descendiente). Un ancestro del v´ertice vi es cualquier v´ertice que tiene un camino hasta vi. Un descendiente de vi es cualquier v´ertice al que se puede ir desde vi.
A los conjuntos de ancestros y descendientes de vi se le denotar´a como an(vi) y de(vi), respectivamente.
Definici´on 1.1.7 (Padres, hijos, familia). Si el camino entre los v´ertices vi y vj
est´a compuesto por solamente una arista (vi → vj) se dice que vi es padre de vj, y se denota por pa(vj) = vi, y vj es hijo de vi. Se llamar´a familia del nodo vi, f a(vi), al conjunto conformado por el nodo vi y sus padres pa(vi), es decir f a(vi) = vi∪ pa(vi).
B A
C D
E F G H I
Figura 1.2: Gr´afica dirigida
Por ejemplo, en la gr´afica dirigida de la figura 1.2 se tiene que:
an(F ) = {A, C}
de(F ) = {G, H, I}
pa(I) = {E, G}
Los hijos de B son los v´ertices D y E
f a(I) = {I, E, G}
CAP´ITULO 1 4
Observaci´on 1.2. En una gr´afica dirigida G = (V, A) se puede definir al conjunto de v´ertices que no son ancestros de un v´ertice vi como nas(vi) = V − (as(vi) ∪ vi) y al conjunto de los no descencientes de vi como nde(vi) = V − (de(vi) ∪ vi).
1.1.4. Gr´ aficas ac´ıclicas dirigidas (DAG)
Definici´on 1.1.8 (Gr´afica ac´ıclica dirigida). Se dice que una gr´afica dirigida G = (V, A) es ac´ıclica cuando no contiene ning´un ciclo.
En la figura 1.3 se muestra una gr´afica ac´ıclida dirigida. Las gr´aficas con esta estructura son b´asicas para poder especificar un problema con incertidumbre en el cual se relacionen las variables de manera causal [5].
B A
C
D E
Figura 1.3: Gr´afica ac´ıclica dirigida (DAG)
1.1.5. Separaci´ on gr´ afica en una DAG
En las gr´aficas ac´ıclicas dirigidas (DAG) es fundamental analizar los tipos de relaciones y conexiones que aparecen entre sus v´ertices.
1. Conexi´on en serie: Es cuando un v´ertice es padre de otro que a su vez es padre de un tercero. En la gr´afica dirigida 1.4a se puede ver dicha conexi´on.
2. Conexi´on divergente: Es cuando un v´ertice es padre de un conjunto de v´ertices no conectados entre s´ı. Vease la gr´afica 1.4b.
3. Conexi´on convergente: Es cuando un conjunto de v´ertices no conectados entre s´ı son padres de un v´ertice espec´ıfico. En la gr´afica 1.4c se presenta una conexi´on divergente.
B A
C
(a) Conexi´on en serie
B
A
C
(b) Conexi´on divergente
C
A B
(c) Conexi´on convergente
Figura 1.4: Conexiones entre los v´ertices de una DAG
La separaci´on gr´afica en una DAG, llamada d-separaci´on, es de suma importancia ya que es la que provee un camino conveniente para representar la dependencia e independencia entre las variables y as´ı poder encontrar las relaciones de probabilidad que se presentan entre las variables de la gr´afica, convergiendo en la condici´on de Markov para Redes Bayesianas, que se presentar´a en la secci´on 2.1.1 [15].
Definici´on 1.1.9 (d-separaci´on). Sean X,Y y Z tres conjuntos disjuntos de v´ertices de una DAG G = (V, A) . Se dice que Z d-separa X e Y , y se denota como X⊥GY|Z, si para cualquier camino entre un v´ertice de X y un v´ertice de Y existe un v´ertice v que satisface una de las siguientes dos condiciones:
v tiene aristas convergentes, es decir, existen dos arcos apuntando a v, y ni v o sus descendientes est´an en Z.
v se encuentra en Z y no tiene aristas convergentes.
En la figura 1.5 se muestra un DAG G = (V, A) , donde se pueden ver algunas relaciones de independencia condicionada entre las variables. As´ı se tiene que:
Z
X Y
V W
Figura 1.5: DAG G con relaciones de independencia condicionada
CAP´ITULO 1 6
X⊥GY | ∅: X y Y aparecen en una conexi´on convergente y el ´unico camino entre X y Y es X − Z − Y y ni Z ni sus descencientes est´an en ∅.
V⊥GW | Z: V y W aparecen en una conexi´on divergente donde el ´unico camino entre V y W es V − Z − W , siendo Z el padre de V y W en la conexi´on de la DAG.
(X ∪ Y )⊥G(V ∪ W ) | Z: X⊥GV | Z, X⊥GW | Z, Y ⊥GV | Z y Y ⊥GW | Z.
En los cuatro casos la conexi´on es en serie y en todos los casos Z es el ´unico v´ertice que aparece en el camino entre X y V , X y W , Y y V y Y y W , siendo v´ertice intermedio para cualquiera de los caminos mostrados.
1.1.6. Manta de Markov
Definici´on 1.1.10 (Manta de Markov). La manta de Markov de un v´ertice v es el conjunto conformado por los padres de v, los hijos de v y los v´ertices que comparten un hijo con v.
D C
A F
B E
Figura 1.6: DAG G
La manta de Markov ayuda a encontrar d-separaciones de una DAG ya que es el conjunto m´ınimo de v´ertices que d-separa al nodo V de todos los dem´as nodos de la red [19], por ejemplo consid´erese la DAG de la figura 1.6. La manta de Markov del v´ertice A es el conjunto S = {B, C, D, F }, entonces A⊥GE | S.
1.2. Conceptos de Teor´ıa de Probabilidad
En esta secci´on se dar´an, de manera resumida, los conceptos pertenecientes a la Teor´ıa de la probabilidad que, con los de Teor´ıa de Gr´aficas, permitir´an tener una idea clara de lo que es una Red Bayesiana y c´omo interpretarlas.
1.2.1. La probabilidad como una estructura de razonamiento
El t´ermino probable es el grado de creencia que tiene el investigador de que cierto hecho ocurra. Si no se sabe si se ha producido el hecho s´olo se le puede asignar un grado de certeza a la ocurrencia del mismo [15].
Para no hablar vagamente sobre las creencia fuertes o d´ebiles de que un hecho ocurra se asignan valores num´ericos a dichos grados de creencia mediane reglas bien definidas.
Estas reglas son las llamadas “Leyes de la probabilidad”. Al comprenderlas ser´an utilizadas para predecir las consecuencias l´ogicas de proposiciones y dar´an respuesta a preguntas como:
¿Cu´ales son las consecuencias respecto al grado de creencia de A si asumimos que el grado de creencia de B es alto o bajo?, ¿C´omo cambia el grado de creencia de A si es m´as bajo el grado de creencia de B?. Se pretende seguir la premisa:
“Realmente la probabilidad no se trata s´olo de n´umeros, es sobre la estructura del razonamiento”.
Glenn Shafer Despu´es de comprender estos conceptos se podr´an realizar inferencias l´ogicas en el tema que nos compete: el diagn´ostico m´edico.
1.2.2. Principios b´ asicos
La probabilidad comienza con un experimento aleatorio [3]:
Definici´on 1.2.1 (Experimento aleatorio). Un experimento aleatorio es cualquier actividad, proceso o experimento en el cual el resultado es incierto.
Dado un experimento aleatorio se tiene su espacio muestral definido como:
Definici´on 1.2.2 (Espacio muestral (Ω)). El espacio muestral es el conjunto de posibles resultados del experimento aleatorio.
En los conceptos de probabilidad que se dar´an a continuaci´on se utilizar´a un espacio discreto y finito, as´ı que en el caso de un espacio muestral discreto y finito se denota como evento a:
CAP´ITULO 1 8
Definici´on 1.2.3 (Evento). Cualquier subconjunto del espacio muestral Ω.
Desde una forma puramente matem´atica, una probabilidad es un n´umero entre 0 y 1 que se le asigna a un evento mediante una funci´on de probabilidad.
Definici´on 1.2.4 (Funci´on de probabilidad). Dado un experimento aleatorio con un espacio muestral discreto, una funci´on de probabilidad P es una funci´on en Ω con las siguientes propiedades:
i) 0 ≤ P (ω) ≤ 1, para todo ω ∈ Ω ii) P
ω∈ΩP(ω) = 1
iii) Para todos los eventos A ⊆ Ω, P (A) =P
ω∈AP(ω)
Definici´on 1.2.5 (Espacio de probabilidad). Un espacio de probabilidad consta de dos elementos (Ω, P ) donde Ω es el espacio muestral y P es una funci´on de probabi- lidad.
1.2.3. Probabilidad condicional e Independencia
Si A es un evento de inter´es, cuya probabilidad es P (A), y se agrega la informa- ci´on adicional de que un evento B ha ocurrido, ¿Cu´al es la nueva opini´on sobre la posibilidad de que ocurra A?
Definici´on 1.2.6 (Probabilidad condicional). Para los eventos A y B, tal que P(B) 6= 0, la probabilidad de A dado B es:
P(A | B) = P(A, B) P(B) Observaci´on 1.3. P (A, B) = P (A ∩ B)
Definici´on 1.2.7 (Independencia). Dos eventos A y B son independientes si se cumple que
P(A, B) = P (A)P (B).
Cuando esto sucede escribimos IP(A, B).
Observaci´on 1.4. Equivalentemente, A y B son independientes si P (A | B) = P (A) con P (A) 6= 0 y P (B) 6= 0.
Los eventos que no son independientes se dice que son dependientes.
TEOREMA 1.2.1 (Regla de la multiplicaci´on). Sup´ongase que B1, B2, ..., Bn son eventos en el mismo espacio de probabilidad (Ω, P ), entonces
P(B1, B2, ..., Bn) = P (B1)P (B2 | B1)P (B3 | B1, B2)...P (Bn| B1, B2, ..., Bn−1) Suponiendo que P (B1, B2, ..., Bi−1) > 0 para 0 ≤ i ≤ n
Definici´on 1.2.8 (Partici´on). Se dice que B1, B2, ..., Bn forman una partici´on de Ω si Bi∩ Bj = ∅ si i 6= j y ∪ni=1Bi = Ω.
Los eventos que conforman a una partici´on son llamados mutuamente exclusivos y exhaustivos.
TEOREMA1.2.2 (Ley de probabilidad total). Si A es cualquier evento y B1, B2, ..., Bn es una partici´on del espacio muestral Ω, entonces
P(A) = Xn
i=1
P(A | Bi)P (Bi) .
1.2.4. Teorema de Bayes
Se utiliza el Teorema de Bayes cuando no se puede determinar la probabilidad condicional de inter´es directamente, debido a que en algunas aplicaciones el espacio de probabilidad no se desarrolla en el orden adecuado a nuestros intereses [4].
TEOREMA 1.2.3 (Teorema de Bayes). Si A es cualquier evento con probabilidad P(A) > 0 y B1, B2, ..., Bn es una partici´on tal que P (Bi) 6= 0 ∀i (1 ≤ i ≤ n), entonces
P(Bj | A) = P(A | Bj)P (Bj)
P(A) = P(A | Bj)P (Bj) Pn
i=1P(A | Bi)P (Bi) .
1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta
Definici´on 1.2.9 (Variable aleatoria). Dado un espacio de probabilidad (Ω, P ) una variable aleatoria es una funci´on f : Ω → R la cual asigna a cada elemento de Ω un valor num´erico.
CAP´ITULO 1 10
Al conjunto de valores o estados que la variable aleatoria X puede asumir se le llama espacio de X. Para una variable aleatoria X se utiliza X = x para denotar al conjunto de todos los elementos e ∈ Ω en los que X toma el valor de x.
Una variable aleatoria induce una funci´on de probabilidad PX(x) = P (X = x) la cual es llamada distribuci´on de probabilidad de la variable aleatoria X.
Definici´on 1.2.10 (Distribuci´on de probabilidad conjunta). Dadas dos variables aleatorias X y Y , definidas en el mismo espacio muestral Ω, se define la distribuci´on de probabilidad conjunta de X y Y como:
P(x, y) = P (X = x, Y = y)
Observaci´on 1.5. Dada una distribuci´on de probabilidad conjunta de X y Y se puede calcular la distribuci´on de probabilidad marginal de X
P(x) = P (X = x) =X
y
P(X = x, Y = y)
1.3. Modelos gr´ aficos probabil´ısticos
Hasta este momento se han introducido definiciones b´asicas de Teor´ıa de Gr´aficas y Teor´ıa de Probabilidad. En esta secci´on se busca describir lo que es un modelo gr´afico probabil´ıstico, que ser´a de ayuda para describir y elaborar Redes Bayesianas en el cap´ıtulo 2.
En un modelo gr´afico probabil´ıstico intervienen dos componentes importantes re- lativas a la informaci´on de la que se dispone: informaci´on cualitativa e informaci´on cuantitativa [11]. La informaci´on cualitativa del modelo contiene informaci´on aso- ciada a las relaciones de dependencia entre los v´ertices de la gr´afica que representa al problema, apoy´andose en la Teor´ıa de Gr´aficas. La informaci´on cuantitativa es la informaci´on relativa a la distribuci´on de probabilidad de las variables del problema.
Dichas distribuciones pueden ser estimadas a partir de un conjunto de datos o me- diante la informaci´on que los expertos tienen acerca del problema de estudio.
En consecuencia, contando con la informaci´on cualitativa y cuantitativa del pro- blema se puede definir el modelo asociado al mismo, esto representa un nexo entre la Teor´ıa de Gr´aficas y la Teor´ıa de la Probabilidad:
Definici´on 1.3.1 (Modelo gr´afico probabil´ıstico). Un modelo gr´afico probabil´ıstico es un par (G, P ) donde G es la gr´afica que representa la informaci´on cualitativa del
problema, siendo los v´ertices las variables del modelo y las aristas las relaciones de dependencia entre dichas variables; y P es el conjunto de distribuciones, que pue- den ser condicionadas, mediante las cuales se obtiene la distribuci´on de probabilidad conjunta del problema.
Observaci´on 1.6. En este trabajo los modelos utilizar´an variables discretas.
Los modelos gr´afico probabil´ısticos juegan un papel importante en el dise˜no y an´alisis de sistemas de aprendizaje y de actualizaci´on de la informaci´on, lo que ha llamado la atenci´on en un amplio espectro de disciplinas como la Gen´etica, Ling¨u´ısti- ca, Epidemiolog´ıa, Psicolog´ıa, Ciencia forense, Ecolog´ıa, Biolog´ıa, Medicina, entre otras [14]. Para construir uno de ´estos modelos se debe de:
a) Definir el problema a resolver: por ejemplo el problema del diagn´ostico m´edico es un ejemplo cl´asico ya que normalmente se plantea la pregunta ¿cu´al es la enfermedad m´as probable que tenga un paciente dado que presenta una serie de s´ıntomas? La definici´on del problema es un paso crucial en el desarrollo del modelo, ya que un mal planteamiento inicial tendr´a consecuencias fatales.
b) Seleccionar las variables: aquellas que sean relevantes para la definici´on del problema. Esta tarea debe ser realizada por expertos en el problema a resolver, por ejemplo, las variables relevantes para el problema de diagn´ostico son las enfermedades y sus correspondientes s´ıntomas.
c) Obtenci´on de informaci´on relevante: adquirir y analizar los datos que sean relevantes para la definici´on del modelo, ya sean cualitativos (gr´afica) o cuantitativos (probabilidades). Normalmente son obtenidos de un experto en el tema o una base de datos.
d) Construir el modelo gr´afico-probabil´ıstico: ya que se conocen las va- riables relevantes y las relaciones entre ellas, el siguiente paso consiste en definir el modelo gr´afica y probabil´ısticamente. En este paso se utilizan las gr´aficas descritas en este cap´ıtulo ya que son herramientas muy potentes para describir de forma intuitiva las relaciones de dependencia e independencia existentes en el conjunto de variables a tratar [2].
Uno de los principales modelos gr´afico probabil´ısticos son las Redes Bayesia- nas [12], que se distinguen por el hecho de que sus gr´aficas son DAG’s por lo que sus aristas son dirigidas y las relaciones entre los v´ertices se desarrollan de manera causal.
Cap´ıtulo 2
Redes Bayesianas
El reverendo Thomas Bayes (1702-1761) desarroll´o el Teorema que lleva su nom- bre, que aparece en la publicaci´on Essay Towards Solving a Problem in the Doctrine of Chances (1763), en el siglo XVIII [16]. Desde ese momento el teorema ha tenido un gran impacto en la inferencia estad´ıstica debido a que capacita a quien lo usa a inferir la probabilidad de una causa cuando el efecto de la misma es observado [14].
El t´ermino “Red Bayesiana” es establecido por el inform´atico y fil´osofo Judea Pearl en 1985, al extender el Teorema de Bayes a modelos gr´aficos de las relaciones probabil´ısticas entre muchas variables causalmente relacionadas [17].
(a) Thomas Bayes (1702-1761) (b) Judea Pearl (1936)
Figura 2.1
Las Redes Bayesianas han tenido un gran impacto en la inferencia estad´ıstica.
Existen innumerables aplicaciones en muchas ramas de la ciencia, como se puede ver en [5], [9], [10], [11], [12] y [14].
12
En este cap´ıtulo se introducir´a la definici´on de Red Bayesiana y algunas aplica- ciones en el campo de la Medicina.
2.1. Definici´ on formal y propiedades
2.1.1. Condici´ on de Markov
Definici´on 2.1.1 (Condici´on de Markov). Sup´ongase que se tiene una distribuci´on de probabilidad conjunta P de las variables aleatorias en alg´un conjunto V y una DAG G = (V, A) . Se dice que G = (V, A) satisface la condici´on de Markov si para cada variable X ∈ V , {X} es condicionalmente independiente del conjunto de todos sus no descendientes dado el conjunto de todos sus padres, es decir:
IP({X}, nde(X) | pa(X))
Definici´on 2.1.2 (Red Bayesiana). Si (G, P ) satisface la condici´on de Markov, se dice que (G, P ) es una Red Bayesiana.
Cuando (G, P ) satisface la condici´on de Markov, se dice que G y P satisfacen la condici´on de Markov entre ellos [10].
Figura 2.2: Una DAG G que ilustra la condici´on de Markov
Por ejemplo, consid´erese el DAG G en la figura 2.2. Si (G, P ) satisface la condici´on de Markov, con alguna distribuci´on de probabilidad P de X, Y, Z, W y U, se tendr´an las siguientes independencias condicionales:
CAP´ITULO 2 14 V´ertice Padres No descendientes Independencia condicional
X ∅ ∅ Ninguna
Y X X, Z, U IP(Y, {Z, U} | X)
Z X X, Y IP(Z, Y | X)
W Y, Z X, Y, Z, U IP(W, {X, U} | {Y, Z}) U Z X, Y, Z, W IP(U, {X, Y, W } | Z)
Observaci´on 2.1. N´otese que pa(X) ⊆ nde(X), entonces podemos definir la condi- ci´on de Markov diciendo que X debe ser condicionalmente independiente de nde(X)−
pa(X) dado pa(X).
Una Red Bayesiana (G, P ) por definici´on es una DAG G y una distribuci´on de probabilidad P que satisfacen la condici´on de Markov [10]. Entonces ¿Por qu´e en la figura 2.2 se muestra una Red Bayesiana como una DAG y un conjunto de distribu- ciones de probabilidad condicional? La raz´on es que (G, P ) satisface la condici´on de Markov si y s´olo si P es igual al producto de sus distribuciones condicionales en G.
Espec´ıficamente se tiene el siguiente teorema:
TEOREMA 2.1.1. (G, P ) satisface la condici´on de Markov (y por lo tanto es una Red Bayesiana) si y s´olo si P es igual al producto de sus distribuciones condicionales, de todos los v´ertices dados sus padres en G, siempre que existan estas distribuciones condicionales.
Observaci´on 2.2. Es decir la gr´afica G es una Red Bayesiana, representando a las variables V1, V2, ..., Vn si y s´olo si
P(V1, V2, ..., Vn) = Yn j=1
P(Vj|pa(Vj))
Del teorema anterior se puede deducir la siguiente proposici´on:
Proposici´on 2.1. Cualquier distribuci´on de probabilidad conjunta puede ser repre- sentada mediante una Red Bayesiana.
La proposici´on claramente muestra el poder del modelaje con las Redes Bayesia- nas. Cualquier modelo probabil´ıstico puede ser representado como una Red Bayesia- na.
2.1.2. Razonamiento Bayesiano
Definici´on 2.1.3 (Abducci´on). La abducci´on es el proceso de formar una hip´otesis explicativa.
La abducci´on es la ´unica operaci´on l´ogica que introduce alguna idea nueva, ya que, la inducci´on solo determina un valor, prueba que algo debe ser, y la deducci´on desarrolla las consecuencias necesarias de una hip´otesis, puede extraer una predicci´on que puede comprobarse mediante la inducci´on [13].
Definici´on 2.1.4 (Razonamiento abductivo). El razonamiento abductivo es un tipo de razonamiento en el que, a partir de la descripci´on de un hecho o fen´omeno, se ofrece o se llega a una hip´otesis, la cual explica las posibles razones o motivos del hecho mediante las premisas obtenidas.
Desde un punto de vista probabil´ıstico-estad´ıstico, se tiene la siguiente definici´on:
Definici´on 2.1.5 (Inferencia Bayesiana o Razonamiento Bayesiano). Es un tipo de inferencia estad´ıstica en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hip´otesis pueda ser cierta.
El nombre “Bayesiana” proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia.
La Inferencia Bayesiana se presentar´a en la siguiente secci´on mediante dos ejem- plos de Redes Bayesianas en el diagn´ostico m´edico, un campo en el que, impl´ıcita- mente, se utiliza este tipo de razonamiento, ya que un buen diagn´ostico observa los s´ıntomas del paciente y determina la enfermedad que m´as probablemente tenga.
2.2. Redes Bayesianas en el diagn´ ostico m´ edico
La naturaleza cualitativa y cuantitativa de las Redes Bayesianas permiten vi- sualizar f´acilmente las relaciones probabil´ıstica entre las variables, as´ı como realizar inferencias como predicci´on, diagn´ostico y toma de decisiones. Es por estas razones que en el campo de la Medicina y Ciencias de la Salud, donde hay una gran canti- dad de datos estad´ısticos y probabil´ısticos, se ha recurrido a ellas para el an´alisis y procesamiento de los datos [9].
En los siguientes apartados se tratar´a el concepto de diagn´ostico m´edico y se desarrollar´an varios ejemplos de Redes Bayesianas en el campo de la Medicina.
2.2.1. Diagn´ ostico m´ edico
El diagn´ostico m´edico es un proceso en el que se realiza un razonamiento abductivo que involucra la construcci´on de la hip´otesis de una enfermedad dado un conjunto de
CAP´ITULO 2 16
s´ıntomas observados en el paciente.
Formalmente, esto es expresado como:
D= m´ax
i P(Ei | S)
donde P (Ei | S) es la probabilidad de la enfermedad Ei dada la evidencia S que representa el conjunto de los s´ıntomas, historial m´edico y resultados de las pruebas diagn´osticas que presente el paciente.
Algunas de las aplicaciones o sistemas de Redes Bayesianas para el diagn´ostico m´edico que se han propuesto desde hace m´as de una d´ecada son: CONVINCE, NESTOR, MUNIN, ALARM, PATHFINDER IV, CPCS MODEL Y DIAVAL [11].
En la siguiente secci´on se presentar´an algunos ejemplos de las aplicaciones m´as intuitivas de las Redes Bayesianas: las pruebas cl´ınicas y el diagn´ostico m´edico.
2.2.2. Ejemplo de diagn´ ostico mediante pruebas cl´ınicas
En una empresa les piden a sus trabajadores que se realicen radiograf´ıas de torax de manera regular, debido a la exposici´on que tienen a materiales que podr´ıan afec- tar su salud. Dar´ıo observa en un cartel del hospital que el 60 % de las personas que tienen c´ancer pulmonar tienen un resultado positivo en la prueba que est´a a punto de realizarse.
Despu´es de unos d´ıas va con el m´edico y ´este le dice que obtuvo un resultado positivo en su radiograf´ıa. Dario empieza a preocuparse. Despu´es de pensarlo un momento se da cuenta que el dato estad´ıstico que conoce es la probabilidad de tener una prueba positiva dado que se tiene c´ancer pulmonar y a ´el le interesa saber lo contrario
¿Cu´al es la probabilidad de tener c´ancer pulmonar dado que la prueba result´o ser positiva?.
Es aqu´ı cuando el doctor puede realizar una Red Bayesiana simple para responder a dicha pregunta y dar un diagn´ostico.
La Red Bayesiana G = (V, A) tiene las siguientes caracter´ısticas:
El conjunto V tiene como elementos a los nodos R y C, que representan a las va- riables “Radiograf´ıa” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:
Variable Valor Cuando la variable toma el valor R r1 Radiograf´ıa positiva
r2 Ragiograf´ıa negativa C c1 C´ancer pulmonar presente
c2 C´ancer pulmonar ausente
Adem´as se tienen, mediante observaci´on de datos estad´ısticos, las probabilida- des:
• Prueba positiva dado que se tiene c´ancer pulmonar: P (r1 | c1) = 0.6
• Prueba positiva dado que no se tiene c´ancer pulmonar: P (r1 | c2) = 0.02
• Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001
Por lo que, debido a que las variables cumplen con la propiedad de Markov, la Red Bayesiana que representa este problema se muestra en la figura 2.3.
Figura 2.3: Red Bayesiana del ejemplo Radiograf´ıa-C´ancer Pulmonar
La informaci´on cuantitativa de ´esta viene dada por la probabilidad a priori de los v´ertices que no tienen padres (P (c1)) y la probabilidad condicional (verosimilitud ) de los v´ertices con padres (P (r1 | C)).
Conociendo dichas probabilidades se obtienen las siguientes tablas de probabili- dades:
C c1 c2
P(C) 0.001 0.999
C c1 c2
P(R = r1 | C) 0.6 0.02 P(R = r2 | C) 0.4 0.98
Cuadro 2.1: Probabilidades del ejemplo de diagn´ostico mediante pruebas diagn´osticas
CAP´ITULO 2 18
y se pueden calcular:
La probabilidad a priori de que cualquier persona obtenga una radiograf´ıa de torax positiva
P(r1) = P (r1 | c1)P (c1) + P (r1 | c2)P (c2)
= (0.6)(0.001) + (0.02)(0.999)
= 0.02058
La probabilidad a posteriori deseada, es decir, la probabilidad de que una per- sona tenga c´ancer pulmonar dado que su prueba result´o ser positiva
P(c1 | r1) = P(c1, r1) P(r1) Y como se trata de una Red Bayesiana
P(c1, r1) = P (c1)P (r1 | c1) entonces
P(c1 | r1) = P(c1)P (r1 | c1)
P(r1) = (0.001)(0.6)
0.02058 = 0.02915452
Se puede concluir entonces que solo el 2.91 % de las personas que obtienen un resul- tado positivo en esta prueba tienen c´ancer pulmonar, por lo que Dar´ıo no tiene que preocuparse a´un, ya que la prueba no es confiable y debe realizarse alguna otra que s´ı lo sea para determinar si en realidad tiene c´ancer pulmonar o no.
2.2.3. Ejemplo de diagn´ ostico m´ edico
M´onica est´a preocupada por que ha tenido una tos muy fuerte (cr´onica) desde hace varios d´ıas, por lo que va con su doctor.
El doctor le dice que dicho s´ıntoma es caracter´ıstico de dos enfermedades: Bron- quitis y c´ancer pulmonar.
El 54 % de las personas que tiene c´ancer pulmonar presentan dicho s´ıntoma y el 10 % de las personas que tienen bronquitis tambi´en presentan ese s´ıntoma.
¿Cu´al enfermedad es m´as probable que tenga M´onica?
Para realizar un diagn´ostico que implique decidir cual enfermedad es m´as probable que tenga un paciente, entre varias enfermedades, se utilizar´a la f´ormula de la secci´on 2.2.1 junto con la inferencia mediante la Red Bayesiana G = (V, A) con las siguientes caracter´ısticas:
El conjunto V tiene como elementos a los nodos T ,B y C, que representan a las variables “Tos”, “Bronquitis” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:
Variable Valor Cuando la variable toma el valor T t1 El paciente presenta tos cr´onica
t2 El paciente no presenta tos cr´onica C c1 C´ancer pulmonar presente
c2 C´ancer pulmonar ausente
B b1 Bronquitis presente
b2 Bronquitis ausente
Adem´as se obtienen, mediante observaci´on de datos estad´ısticos, las probabili- dades:
• El paciente presenta tos cr´onica cuando tiene bronquitis y c´ancer pulmo- nar: P (t1 | b1, c1) = 0.75
• El paciente presenta tos cr´onica cuando tiene bronquitis y no tiene c´ancer pulmonar: P (t1 | b1, c2) = 0.1
• El paciente presenta tos cr´onica cuando no tiene bronquitis y tiene c´ancer pulmonar: P (t1 | b2, c1) = 0.5
• El paciente presenta tos cr´onica cuando no tiene bronquitis ni c´ancer pul- monar: P (t1 | b2, c2) = 0.05
• Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001
• Probabilidad de padecer bronquitis: P (b1) = 0.09
Como puede verse las variables cumplen con la propiedad de Markov.
Conociendo estas probabilidades se obtienen las siguientes tablas:
CAP´ITULO 2 20
B b1 b2
P(B) 0.09 0.91
C c1 c2
P(C) 0.001 0.999
B b1 b2
C c1 c2 c1 c2
P(T = t1 | B, C) 0.75 0.1 0.5 0.05 P(T = t2 | B, C) 0.25 0.9 0.5 0.95
Cuadro 2.2: Probabilidades del ejemplo de diagn´ostico m´edico La Red Bayesiana que representa este problema se muestra en la figura 2.4.
Figura 2.4: Red Bayesiana del ejemplo de diagn´ostico m´edico
Al tener la distribuci´on de probabilidades se sabe que, al tratarse de una Red Bayesiana, la probabilidad conjunta de todas la variables en V es expresada como:
P(B, C, T ) = P (B)P (C)P (T | B, C)
as´ı que se calcular´a lo siguiente:
La probabilidad a priori de que cualquier persona presente el s´ıntoma de tos cr´onica
P(t1) = X
B,C
P(B, C, t1) =X
B,C
P(B)P (C)P (t1| B, C)
= X
C
[P (b1)P (C)P (t1 | b1, C) + P (b2)P (C)P (t1 | b2, C)]
= P (b1)P (c1)P (t1 | b1, c1) + P (b2)P (c1)P (t1 | b2, c1) +P (b1)P (c2)P (t1 | b1, c2) + P (b2)P (c2)P (t1 | b2, c2)
= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5) +(0.09)(0.999)(0.1) + (0.91)(0.999)(0.05)
= 0.0000675 + 0.000455 + 0.008991 + 0.0454545
= 0.054968
Ahora se calculan las probabilidades a posteriori deseadas, es decir la probabi- lidad de padecer, ya sea bronquitis o c´ancer pulmonar dado que se tiene como s´ıntoma a la tos cr´onica.
Para el c´ancer pulmonar se tiene que:
P(c1 | t1) = P(c1, t1) P(t1) debido a que se trata de una Red Bayesiana
P(c1, t1) = X
B
P(B, c1, t1) =X
B
P(B)P (c1)P (t1 | B, c1)
= P (b1)P (c1)P (t1 | b1, c1) + P (b2)P (c1)P (t1 | b2, c1)
= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5)
= 0.0000675 + 0.000455
= 0.0005225 entonces
P(c1 | t1) = P(c1, t1)
P(t1) = 0.0005225
0.054968 = 0.00950553
CAP´ITULO 2 22
Para la bronquitis se tiene que:
P(b1 | t1) = P(b1, t1) P(t1) debido a que se trata de una Red Bayesiana
P(b1, t1) = X
C
P(b1, C, t1) =X
C
P(b1)P (C)P (t1 | b1, C)
= P (b1)P (c1)P (t1 | b1, c1) + P (b1)P (c2)P (t1 | b1, c2)
= (0.09)(0.001)(0.75) + (0.09)(0.999)(0.1)
= 0.0000675 + 0.008991
= 0.0090585 entonces
P(b1 | t1) = P(b1, t1)
P(t1) = 0.0090585
0.054968 = 0.1647959
Se puede concluir entonces que es m´as probable que M´onica tenga bronquitis dado que la probabilidad a posteriori de la bronquitis es mayor que la del c´ancer pulmonar, al observarse el s´ıntoma de la tos cr´onica.
Este resultado no es concluyente ya que s´olo se est´a observando un s´ıntoma en´ com´un de las enfermedades.
En el siguiente cap´ıtulo se dar´a un ejemplo m´as completo del diagn´otico entre c´ancer pulmonar y bronquitis, bas´andose en historial cl´ınico, s´ıntomas y pruebas.
Inferencia Bayesiana por medio de
´
arboles de uni´ on
En la vida cotidiana la realizaci´on del diagn´ostico de una enfermedad no se basa solamente en un s´ıntoma, o en la conclusi´on que arroja una prueba diagn´ostica, como en los ejemplos de “Diagn´ostico mediante pruebas cl´ınicas” y “Diagn´ostico m´edico”, sino que es el resultado de observar toda esta evidencia, es decir todos los s´ıntomas del paciente y las relaciones que estos tienen con las posibles enfermedades, adem´as de considerar el “historial cl´ınico del paciente” [11].
Al considerar lo anterior, se puede deducir que las gr´aficas, y en consecuencia las Redes Bayesianas, que modelan dichos diagn´osticos tendr´an un mayor grado de complejidad en cuanto al desarrollo de la inferencia. Para atacar esta complejidad se utilizar´an los ´arboles de uni´on [1].
3.1. Estructuras gr´ aficas de inter´ es
En esta secci´on se presentar´an algunas estructuras gr´aficas que se obtienen tras manipular una Red Bayesiana, ya que en algunas ocasiones se buscan las probabi- lidades condicionales dado un conjunto de varibles que no se relacionan de manera directa, por lo que no es posible realizar de forma directa ciertos c´alculos.
Despu´es de modificar la Red Bayesiana, se obtiene una estructura m´as simple que mantiene algunas propiedades de la gr´afica original, pero que facilitan la tarea de obtener las probabilidades deseadas. A esta modificaci´on t´ecnica se le llama “´arbol de uni´on”.
23
CAP´ITULO 3 24
3.1.1. Gr´ afica moral
A continuaci´on se dar´a el concepto de gr´afica moral, la cual permitir´a ver de manera gr´afica las dependencias entre los padres de un v´ertice.
Definici´on 3.1.1 (Gr´afica moral). Sea G = (V, A) una DAG. Se define la gr´afica moral asociada a G, y se denota como M, a la gr´afica que se obtiene tras a˜nadir una arista entre cada par de v´ertices con alg´un hijo en com´un y remover la direccionalidad.
3.1.2. Gr´ afica triangular
Para definir lo que es una gr´afica triangular primero se deben de introducir los conceptos de “bucle” y “cuerda de un bucle”.
Definici´on 3.1.2 (Bucle). En una gr´afica no dirigida G = (V, A) se define un bucle como un camino cerrado, es decir una sucesi´on de v´ertices conectados tales que el v´ertice inicial coincide con el final.
Por ejemplo al observar la figura 3.1, en la gr´afica no dirigida existen dos bucles dados por los v´ertices {B, D, E} y {A, C, G, F }.
B A C
D E
F G
Figura 3.1: Ejemplo de bucle
Definici´on 3.1.3 (Cuerda del bucle). Si en una gr´afica no dirigida hay un bucle, a la arista que une dos v´ertices y que no pertenece al bucle se le denomina cuerda del bucle.
Estos conceptos son fundamentales pues con ellos se podr´a obtener una gr´afica triangular, la cual es de gran importancia para construir los ´arboles de uni´on.
Definici´on 3.1.4 (Gr´afica triangular). Se le llama gr´afica triangular, denotada co- mo T, a una gr´afica no dirigida G = (V, A) en la que todos los bucles de longitud mayor o igual que cuatro contienen al menos una cuerda.
En la figura 3.2 se pueden apreciar dos gr´aficas triangulares obtenidas a partir de la gr´afica 3.1.
B A C
D E
F G
(a)
B A C
D E
F G
(b)
Figura 3.2: Ejemplos de gr´aficas triangulares
El proceso de a˜nadir cuerdas que dividan a los bucles no es trivial ya que se debe mantener en lo posible la estructura original de la gr´afica, buscando que la triangu- laci´on contenga el m´ınimo n´umero de cuerdas, obteniendo as´ı menos tri´angulos en la gr´afica, lo que ser´a de ayuda para la construcci´on del ´arbol de uni´on. Sin embargo puede demostrarse que el problema de encontrar una triangulaci´on eficiente es NP- completo [10].
En la pr´actica los algoritmos utilizados para obtener una gr´afica triangular son heur´ısticos, por lo que se elige la triangulaci´on que parece m´as razonable, pero que podr´ıa no ser ´optima [1].
En este trabajo se utilizaron paqueterias de R, como se ver´a en la secci´on 3.5.4, para obtener las gr´aficas morales y triangulares de inter´es.
3.2. Arboles de uni´ ´ on
Los ´arboles de uni´on agrupan en cada uno de sus v´ertices un conjunto de v´ertices que forman un bucle de longitud menor o igual que tres, reduci´endose as´ı la estructura inicial de la gr´afica y facilitando la realizaci´on de c´alculos locales, como se presen- tar´a en el ejemplo 3.4.1. Para ello se dar´an las definiciones de “clique” y “´arbol de uni´on”.
Definici´on 3.2.1 (Clique). Un clique es el m´aximo subconjunto C de v´ertices en el que cada elemento es adyacente a todos los dem´as.
CAP´ITULO 3 26
Observaci´on 3.1. La gr´afica triangular es de ayuda para encontrar los cliques de la gr´afica.
Definici´on 3.2.2 (Propiedad del ´arbol de uni´on). Se dice que se cumple la propiedad del ´arbol de uni´on, si para cada par C1 y C2 de cliques con intesecci´on C1,2, todos los cliques en el camino entre C1 y C2 contienen a C1,2.
Se define al ´arbol de uni´on de la siguiente manera :
Definici´on 3.2.3 ( ´Arbol de uni´on). Un ´arbol de uni´on JT de la gr´afica G es una gr´afica con las siguientes propiedades:
Cada v´ertice de JT corresponde a un clique de la gr´afica triangular T de G.
Los v´ertices de JT cumplir´an con la propiedad de ´arboles de uni´on.
Cada arista de JT contiene a las variables en la intersecci´on de los cliques adyacentes. A estas aristas se les llamar´a separadores S.
3.3. Inferencia en los ´ arboles de uni´ on
El principal objetivo de una Red Bayesiana es realizar inferencias probabil´ısticas.
V´ease [6]. A trav´es de los ´arboles de uni´on se realiza la inferencia al representar la distribuci´on de probabilidad conjunta entre los v´ertices que conforman a un clique.
Para ello es necesario definir primero las funciones potenciales de JT.
Definici´on 3.3.1 (Funciones potenciales ψC y φS de un ´arbol de uni´on). La funci´on potencial de cada clique ψC y cada separador φS es aquella que utiliza las probabilida- des de la Red Bayesiana inicial para obtener la probabilidad conjunta de las variables del clique, al multiplicar las probabilidades condicionales de las variables de C (o S) y sus padres.
A continuaci´on se presenta un algoritmo para obtener las funciones potenciales de un ´arbol de uni´on.
Algoritmo
Para inicializar las funciones potenciales se seguir´an los siguientes pasos:
1. Igualese todas las funciones potenciales de cada clique y cada separador a la unidad.
2. Para cada variable Xi, seleccione un v´ertice en el ´arbol de uni´on (es decir, clique) que contenga a la variable y sus padres (pa(Xi)) en el DAG original.
3. Multipl´ıquese la funci´on potencial de dicho clique por P (Xi | pa(Xi)).
La distribuci´on de probabilidad conjunta puede ser expresada ahora en t´erminos de funciones potenciales ψC o φS, definidas en cada clique y cada separador del ´arbol de uni´on, respectivamente.
Esta distribuci´on conjunta es dada por:
P(X) = Q
c∈Cψc(Xc) Q
s∈Sφs(Xs) donde X = X1, X2, ..., Xn.
La idea es transformar una representaci´on de las distribuciones conjuntas a otras donde para cada clique C la funci´on potencial d´e la distribuci´on marginal de las variables en C, es decir:
ψC(XCi) = P (XCi) lo que se aplicar´a tambi´en a los separadores.
Esto se ver´a m´as claro en el ejemplo “Bronquitis-C´ancer pulmunar” de la seccion´ 3.4.1. Ahora se explicar´a como funciona la inferencia Bayesiana en los ´arboles de uni´on, para despu´es aplicarla en un ejemplo de diagn´ostico m´edico donde se involu- cren s´ıntomas, pruebas e historial cl´ınico.
3.3.1. Consistencia local de los ´ arboles de uni´ on
La consistencia local se logra mediante el intercambio de informaci´on entre los cliques vecinos.
Definici´on 3.3.2 (Consistencia local). Se dice que un ´arbol de uni´on es localmente consistente si para cualesquiera dos cliques vecinos U y W con intersecci´on S se
cumple X
U\S
ψU = X
W\S
ψW
Actualizaci´on de la funci´on potencial
Sup´ongase que se tienen dos cliques U y W que tienen una intersecci´on no vac´ıa S, como en la figura 3.3.
CAP´ITULO 3 28
Figura 3.3: ´Arbol de uni´on
Los cliques U y W tienen las funciones potenciales ψU y ψW, respectivamente, y S tiene una funci´on potencial φS que se inicializa con valor 1.
La distribuci´on de probabilidad conjunta P (X) para todas las variables en V de la Red Bayesiana es la siguiente:
P(X1, X2, ..., Xn) = ψU · ψW
φS .
La idea detr´as de la actualizaci´on es modificar las funciones potenciales de tal manera que la funci´on potencial resultante de la marginalizaci´on del separador S desde cualquiera de los cliques, U o W , d´e el mismo valor φS = P (S), es decir
X
U\S
ψU = φS = X
W\S
ψW.
Consid´erese una situaci´on en la que se tiene nueva evidencia que cambia ψU por ψU∗, esto debido a que se fija una de las variables en U a un estado particular. Con la finalidad de mantener la consistencia se cambiar´an φS y ψW porP
U\SψU y ψW·φφSS∗, respectivamente, para satisfacer
X
U\S
ψU∗ = φ∗S = X
W\S
ψ∗W.
Observaci´on 3.2. Al definir φ∗S y ψW∗ de esta manera se cumple con la consistencia
local X
W\S
ψW∗ = X
W\S
ψW ·φ∗S φS = φ∗S
φS ·X
W\S
ψW = φ∗S
φS · φS = φ∗S =X
U\S
ψU∗.
A continuaci´on se estudiar´an las diferentes fases en las que se realiza la propaga- ci´on de la informaci´on en un ´arbol de uni´on.
Fases de propagaci´on
Al seleccionar un clique del ´arbol de uni´on, se pueden realizar dos tipos de fases de propagaci´on de la informaci´on a trav´es del ´arbol:
1. Fase de recopilaci´on o recolecci´on: Cuando el flujo de la informaci´on llega de los dem´as cliques al clique elegido.
2. Fase de distribuci´on: Cuando el flujo de la informaci´on va del clique elegido a los dem´as cliques.
En la figura 3.4a se puede observar la fase de recolecci´on de los cliques C1 = {A, B}
y C3 = {C, R} al clique C2 = {B, C}, mientras que en la figura 3.4b se aprecia la fase de distribuci´on del clique C2 = {B, C} a los dem´as cliques.
(a) Fase de recolecci´on (b) Fase de distribuci´on
Figura 3.4
En algunos casos, al obtener las probabilidades deseadas s´olo se necesita la uti- lizaci´on de una de las dos fases; todo depender´a del tipo de problema que se desee resolver.
CAP´ITULO 3 30
Algoritmo para la construcci´on del ´arbol de uni´on
En [9] se encuentra el siguiente algoritmo para la construcci´on del ´arbol de uni´on de una Red Bayesiana
Algoritmo
1. Moralizar: Crear la gr´afica moral M de la Red Bayesiana G como se ilustra en la secci´on 3.1.
2. Triangular: Obtener la gr´afica triangular T de la gr´afica moral M del punto 1 como se muestra en la secci´on 3.1.
3. Cliques: Identificar los cliques de la gr´afica triangular.
4. ´Arbol de uni´on: Crear una gr´afica JT en la que cada clique sea un v´ertice, y los cliques adyacentes est´en unidos mediante arcos no dirigidos.
5. Reparametrizar: Utilizar los par´ametros de las distribuciones de G para calcular las probabilidades de los cliques del ´arbol de uni´on.
Ejemplo
Sea G la Red Bayesiana de la figura 3.5a, al moralizarla obtenemos a M, que ser´a la misma que la gr´afica triangular T, debido a que no hay bucles, representada en la figura 3.5b.
(a) Red Bayesiana (b) Gr´afica Moral y triangular
Figura 3.5
Al identificar los cliques de M se construye el ´arbol de uni´on JT de la figura 3.6.
Figura 3.6: ´Arbol conjunto JT
Las funciones potenciales ψAB, ψBC y φB se definen como:
ψAB = P (A) · P (B | A) φB= 1
ψBC = P (C | B)
Para mantener la consistencia local, se actualizan las funciones potenciales mediante el flujo de informaci´on entre los cliques vecinos. Primero se actualiza ψBC basandose en ψAB.
ψAB = P (A, B) φ∗B =X
a
P(a, B) = P (B)
ψBC∗ = φ∗B
φB · ψBC = P(B)
1 · P (C | B) = P (B, C)
Las potenciales de los cliques se han convertido en probabilidades marginales.
Introduciendo evidencia
Ahora consid´erese el caso en el que se tiene evidencia. Sup´ongase que todos los v´ertices son binarios en la Red Bayesiana de la figura 3.5a y se tiene la evidencia (A = a1). Entonces al realizar la actualizaci´on AB → BC se llega a que:
ψAB∗ = P (A = a1, B) φ∗B =X
a
P(A = a1, B) = P (A = a1, B)
ψBC∗ = φ∗B
φB · ψBC = P(A = a1, B)
1 · P (C | B) = P (A = a1, B, C)
Se puede ver que se han obtenido las marginales como antes, y la evidencia est´a presente en todos los t´erminos.
Las potenciales son marginales sin normalizar. Al normalizarlas se obtienen las condicionales P (B | A = a1) y P (B, C | A = a1).
En la siguiente secci´on se presentar´a una aplicaci´on de las Redes Bayesianas en el diagn´ostico m´edico utilizando ´arboles de uni´on para realizar la inferencia bayesiana.
CAP´ITULO 3 32
3.4. Ejemplo de inferencia bayesiana mediante el
´
arbol de uni´ on
Cuando se quiere determinar la presencia o ausencia de una enfermedad en una persona, se toman en cuenta los resultados de las pruebas de dicha enfermedad, adem´as de considerarse tambi´en los s´ıntomas que presenta el paciente y los ante- cedente m´edicos (historial cl´ınico) que tenga [10]. En esta situaci´on es claro que se pueden emplear las Redes Bayesianas para realizar una inferencia probabil´ıstica.
3.4.1. Ejemplo Bronquitis-C´ ancer Pulmonar
Problema: Sup´ongase que una persona tiene antecedentes de tabaquismo, los cuales tienen una influencia directa en la salud del paciente, ya que el paciente se vuelve propenso a padecer bronquitis o c´ancer pulmonar. A su vez, la presencia o ausencia de cada una de estas enfermedades tiene una influencia directa con el s´ınto- ma de tos cr´onica. Asimismo, la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el hecho de que una radiograf´ıa de torax resulte positiva o ne- gativa.
En esta situaci´on se realizar´a una inferencia probabil´ıstica que implique el uso de caracter´ısticas que no est´en relacionadas de forma directa, por ejemplo obtener las probabilidades condicionales de padecer ya sea bronquitis o c´ancer pulmonar cuando el paciente presenta antecedentes de tabaquismo, t´os cr´onica y una radiograf´ıa de torax positiva, por lo que las probabilidades condicionales no se pueden actualizar utilizando una sencilla aplicaci´on del Teorema de Bayes ni una Red Bayesiana senci- lla, as´ı que se usar´an los conceptos abordados en la secci´on anterior.
El problema presenta ciertas caracter´ısticas o estados que se quieren determinar, pero que no se pueden calcular con certeza, por lo que s´olo se determina “que tan probable” es que dicha caracter´ıstica particular se encuentre en un estado particular.
Para ello se representan las caracter´ısticas mediante variables aleatorias y se desa- rrollan las relaciones probabil´ısticas entre las variables. En el problema se identifican las variables aleatorias como: “Antecedentes de tabaquismo” (A), “Bronquitis” (B),
“C´ancer pulmonar” (C), “Tos cr´onica” (T ) y “Radiograf´ıa” (R), con sus respecti- vos conjuntos de valores mutuamente exclusivos y exhaustivos, representados en el siguiente cuadro:
Variable Valor La variable toma el valor A a1 Hay antecedentes de tabaquismo
a2 No hay antecedentes de tabaquismo
B b1 Bronquitis presente
b2 Bronquitis ausente C c1 C´ancer pulmonar presente
c2 C´ancer pulmonar ausente
T t1 Tos cr´onica presente
t2 Tos cr´oncia ausente
R r1 Radiograf´ıa positiva
r2 Radiograf´ıa negativa
Ahora se deben identificar las influencia directas entre las variables, por ejemplo A→ B debido a que los antecedentes de tabaquismo tienen influencia directa con la presencia o ausencia de bronquitis, del mismo modo C → R debido a que la presencia o ausencia de c´ancer pulmonar tiene una influencia directa con el resultado de una radiograf´ıa de torax. No existe un arco entre A y R ya que el presentar antecedentes de tabaquismo no tiene una implicaci´on directa con los resultados de la radiograf´ıa, s´olo la tiene a trav´es de su influencia en la presencia de c´ancer pulmonar.
Al obtener todas estas influencias se obtendr´a la representaci´on cualitativa de la Red Bayesiana. Despu´es se obtendr´a la parte cuantitativa al “juzgar” las pro- babilidades que tienen los valores de las variables aleatorias que son accesibles, es decir, determinar las probabilidades apriori (P (A)) y las verosimilitudes (P (B | A), P(C | A), P (T | B, C) y P (R | C)) mediante el an´alisis y estudio de datos es- tad´ısticos, la experiencia de los doctores, o ambos, obteni´endose as´ı las siguientes probabilidades:
P(ai) = 0.2
P(b1 | a1) = 0.25 P(b1 | a2) = 0.05 P(c1 | a1) = 0.003 P(c1 | a2) = 0.00005
P(t1 | b1, c1) = 0.75 P (t1 | b1, c2) = 0.1 P(t1 | b2, c1) = 0.5 P(t1 | b2, c2) = 0.05 P(r1 | c1) = 0.6 P(r1 | c2) = 0.02
(Estas probabilidades fueron obtenidas de [10]).
CAP´ITULO 3 34
El resultado ser´a la Red Bayesiana para el problema representada en la figura 3.7.
Figura 3.7: Red Bayesiana G del ejemplo Bronquitis-C´ancer pulmonar
Inferencia mediante el ´arbol de uni´on de G El problema que queremos resolver es el siguiente:
¿Qu´e enfermedad es m´as probable que tenga un paciente, bronquitis (b1) o c´ancer pulmonar (c1), si presenta antecedentes de tabaquismo (a1), t´os cr´onica (t1) y una radiograf´ıa de t´orax positiva (r1)?
Para dar respuesta a esta pregunta, es claro que se deben de obtener las siguientes probabilidades condicionales
P(B = b1 | A = a1, T = t1, R= r1) P(C = c1 | A = a1, T = t1, R= r1)
las cuales se calcular´an utilizando el ´arbol de uni´on de la gr´afica G de la figura 3.7 al realizar los pasos descritos en el algoritmo 3.3.1:
1. Se realiza la gr´afica Moral M de la Red Bayesiana G , ilustrada en la figura 3.8.
Figura 3.8: Gr´afica moral M de la Red Bayesiana G
2. Se realiza la gr´afica triangular T de M, que, en este caso, es la misma gr´afica de la figura 3.8, ya que no hay bucles con longitud mayor o igual que cuatro.
3. Se identifican los elementos de los bucles de longitud menor o igual que tres, los cuales ser´an los v´ertices del ´arbol de uni´on (cliques).
En este caso los cliques ser´an los sunconjuntos de V : {A, B, C}, {B, C, T } y {C, R}.
4. Se construye el ´arbol de uni´on JT, fij´andose en que se cumpla la propiedad del
´arbol de uni´on: en este caso, como son tres v´ertices en el ´arbol de uni´on existen tres intersecciones entre estos:
{A, B, C} ∩ {B, C, T } = {B, C}, {A, B, C} ∩ {C, R} = {C} y {B, C, T } ∩ {C, R} = {C}
Por lo que el orden en que deben de estar ordenados los cliques es:
C1 = {A, B, C}, C2 = {B, C, T } y C3 = {C, R}.
Ya que de otro modo no se cumple la propiedad mencionada.
Los separadores (S) del ´arbol de uni´on ser´an las intersecciones entre los cliques vecinos, es decir:
S1 = C1,2 = {B, C} y S2 = C2,3 = {C}.