Redes Bayesianas y su uso en el

(1)

UNIVERSIDAD VERACRUZANA

FACULTAD DE MATEM ´ ATICAS

Redes Bayesianas y su uso en el Diagn´ ostico m´ edico

T E S I S

que para aprobar la Experiencia Educativa Experiencia Recepcional

Correspondiente al Plan de Estudios de la Licenciatura en Matem´ aticas

P R E S E N T A:

Adriana Laura L´ opez Lobato

DIRECTORES DE TESIS:

Dr. Francisco Sergio Salem Silva Dra. Juana Elisa Escalante Vega

Junio del a˜no 2014 Xalapa, Ver. M´exico

(2)

Introducci´on ^IV

1. Preliminares 1

1.1. Conceptos de Teor´ıa de Gr´aficas . . . 1

1.1.1. Definiciones . . . 1

1.1.2. Estructura de una gr´afica . . . 2

1.1.3. Gr´aficas dirigidas . . . 3

1.1.4. Gr´aficas ac´ıclicas dirigidas (DAG) . . . 4

1.1.5. Separaci´on gr´afica en una DAG . . . 4

1.1.6. Manta de Markov . . . 6

1.2. Conceptos de Teor´ıa de Probabilidad . . . 7

1.2.1. La probabilidad como una estructura de razonamiento . . . . 7

1.2.2. Principios b´asicos . . . 7

1.2.3. Probabilidad condicional e Independencia . . . 8

1.2.4. Teorema de Bayes . . . 9

1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta 9 1.3. Modelos gr´aficos probabil´ısticos . . . 10

2. Redes Bayesianas 12 2.1. Definici´on formal y propiedades . . . 13

2.1.1. Condici´on de Markov . . . 13

2.1.2. Razonamiento Bayesiano . . . 14

2.2. Redes Bayesianas en el diagn´ostico m´edico . . . 15

2.2.1. Diagn´ostico m´edico . . . 15

2.2.2. Ejemplo de diagn´ostico mediante pruebas cl´ınicas . . . 16

2.2.3. Ejemplo de diagn´ostico m´edico . . . 18

3. Inferencia Bayesiana por medio de árboles de unión 23 3.1. Estructuras gráficas de interés . . . 23

ii

(3)

3.1.1. Gr´afica moral . . . 24

3.1.2. Gr´afica triangular . . . 24

3.2. ´Arboles de uni´on . . . 25

3.3. Inferencia en los ´arboles de uni´on . . . 26

3.3.1. Consistencia local de los ´arboles de uni´on . . . 27

3.4. Ejemplo de inferencia bayesiana mediante el ´arbol de uni´on . . . 32

3.4.1. Ejemplo Bronquitis-C´ancer Pulmonar . . . 32

3.5. Uso del paquete gRain para realizar Inferencia Bayesiana . . . 40

3.5.1. C´odigo para “Diagn´ostico mediante pruebas cl´ınicas” . . . 42

3.5.2. Código para “Diagnóstico médico” . . . 43

3.5.3. C´odigo para “Bronquitis - C´ancer Pulmonar” . . . 44

3.5.4. Código para obtener gráficas morales, triangulares y árboles de unión . . . 46

Conclusiones 48

Bibliograf´ıa 50

(4)

El diagnóstico médico es un ejemplo de toma de decisiones, ya que se requiere tener en cuenta varios aspectos como el historial cl´ınico, la exploración f´ısica (o s´ınto- mas del paciente) y exploraciones complementarias (es decir pruebas diagnósticas o cl´ınicas) para determinar qué enfermedad padece una persona [10].

Las decisiones m´edicas son dif´ıciles de tomar y el resultado del proceso de decisi´on tiene implicaciones de largo alcance sobre el bienestar o incluso la propia vida de los pacientes.

En la actualidad la medicina utiliza innumerables adelantos que involucran el uso intensivo de alta tecnolog´ıa como el diagnóstico por imágenes, avances quirúrgicos como la laparoscopia, robótica y farmacéuticos [7].

Existen herramientas que tienen el potencial de hacer una diferencia en la medicina. Especialmente los m´etodos que aprovechan los datos disponibles, la experiencia cl´ınica y que al mismo tiempo tienen como base fundamentos s´olidos [2].

Una de estas herramientas son las Redes Bayesianas, que son especialmente ade- cuadas para el modelado de conocimiento incierto, ya que son capaces de describir de manera concisa un problema modelado a través de un conjunto de variables relacionadas entre s´ı, además de que se puede actualizar la información que se tiene acerca de las variables del problema, cuando se conoce el valor que toma alguna de ellas para casos concretos [6].

En el campo de la Medicina hay una gran cantidad de datos que se pueden utilizar para diagnosticar un paciente [8]. El objetivo de este trabajo es mostrar cómo se realizan dichos diagnósticos mediante el uso de Redes Bayesianas como modelos gráficos probabil´ısticos que involucren el historial del paciente, los s´ıntomas y las pruebas diagnósticas para la toma de decisiones.

iv

(5)

La organizaci´on del trabajo es la siguiente:

Cap´ıtulo 1: Revisi´on de los conceptos sobre Teor´ıa de Gr´aficas y Teor´ıa de la Probabilidad que son necesarios para comprender y utilizar las Redes Bayesia- nas.

Cap´ıtulo 2: Discusión de las definiciones y propiedades esenciales de las Redes Bayesianas y algunos elementos del protocolo del diagnóstico. En este cap´ıtulo se darán dos ejemplos de las representaciones más intuitivas del diagnóstico médico: las pruebas cl´ınicas y el diagnóstico entre dos enfermedades con un mismo s´ıntoma.

Cap´ıtulo 3: Explicación de un modelo de Inferencia Bayesiana mediante árboles de unión que son una extensión de las Redes de Bayes, ya que se basan en la estructura de las mismas y las relaciones de dependencia entre las variables observadas para facilitar la realización de los cálculos deseados. Los árboles de unión utilizan una estructura gráfica-probabil´ıstica secundaria, que será descrita en este cap´ıtulo.

Se dará solución a un ejemplo de diagnóstico en el que intervienen historial médico, s´ıntomas y pruebas cl´ınicas, además se incluye un apartado que explica la Inferencia Bayesiana en el software libre R, donde se muestran los códigos y las soluciones computacionales de los ejemplos vistos en este trabajo.

(6)

Preliminares

Para poder utilizar las Redes Bayesiana en problemas concretos, se requiere del conocimiento de campos como la Teor´ıa de la Probabilidad y la Teor´ıa de Gr´aficas.

En este cap´ıtulo se dará una pequeña introducción a la teor´ıa y propiedades básicas de las gráficas, as´ı como la terminolog´ıa y bases de Probabilidad, que son fundamentales para la descripción del modelo de estudio de este trabajo.

1.1. Conceptos de Teor´ıa de Gr´ aficas

En esta sección se definen los conceptos básicos de una gráfica, as´ı como algunas propiedades de las mismas, con la finalidad de apoyar algunos resultados e inferencias posteriores.

1.1.1. Definiciones

Definición 1.1.1 (Gráfica). Una gráfica es un objeto matemático definido como un par G = (V, A) , donde V = {V1, V₂, ..., V_n} es un conjunto finito y no vac´ıo y A un conjunto finito, que puede ser vac´ıo. A los elementos de V se les llamará vértices o nodos, a los elementos de A aristas o arcos, descritos como a = (u, v) que conectan a un par de nodos u, v ∈ V .

Definición 1.1.2 (Vértices adyacentes). Decimos que los vértices u y v en V de la gráfica G = (V, A) son adyacentes si están conectados mediante una arista a = (u, v) en A.

Dependiendo de la relaci´on de orden que existe entre los nodos de una gr´afica, se puede hablar de dos tipos de arcos: dirigidos (de u a v si el arco (u, v) es un par ordenado) y no dirigidos (si el arco (u, v) no es ordenado), se representan u → v y

1

(7)

CAP´ITULO 1 2

u− v, respectivamente.

Esta clasificación de los arcos como dirigidos o no dirigidos induce una clasificación de las gráficas:

Definición 1.1.3 (Gráficas dirigidas, no dirigidas o mixtas). Una gráfica que tiene todas sus aristas dirigidas se define como gráfica dirigida, si todas las aristas de la misma son no dirigidas, se denominará gráfica no dirigida y cuando tiene aristas dirigidas y no dirigidas, se dice que la gráfica es mixta.

C A

D

B E

(a) Gr´afica dirigida

D B

E C

A

(b) Gr´afica no dirigida (c) Gr´afica mixta

Figura 1.1: Tipos de gr´aficas

En la figura 1.1 aparece una gráfica dirigida, una no dirigida y una mixta. En la gráfica dirigida 1.1a se puede observar un orden entre los vértices, mientras que no existe orden aparente entre los vértices de los otros dos tipos de gráficas. Es por esta razón que sólo se utilizará la teor´ıa perteneciente a las gráficas dirigidas para el estudio de las Redes Bayesianas.

1.1.2. Estructura de una gr´ afica

La estructura de una gr´afica es la configuraci´on en que se encuentran las aristas de la misma. Al estudiarla se pueden encontrar propiedades interesantes y de suma importancia, como los caminos o trayectorias.

Definición 1.1.4 (Camino). Sea G = (V, A) una gráfica. Se dice que una sucesión de aristas w = a1, a₂, ..., a_n es un camino en G si w ⊆ A y si ai = (vi−1, v_i), entonces v_i es adyacente a v_i+1.

Observaci´on 1.1. Un camino también puede ser expresado en términos de sus vérti- ces, por ejemplo w = a1, a₂, ..., a_n es expresado como w = v0 − v₁ − ... − vn si a_i = (vi−1, v_i) para i = 1, ..., n.

(8)

Si se busca un camino entre dos nodos v1, v_nse tendrá una sucesión (v1, v₂, ..., v_n) donde las aristas que conectan a los vértices son asumidos como ´unicos, por lo que el camino pasa por cada arista sólo una vez.

Definición 1.1.5 (Ciclo). Se dice que un camino w = v₀− v₁− ... − vn es un ciclo si el vértice inicial del camino coincide con el vértice final del mismo, es decir, vn= v0.

1.1.3. Gr´ aficas dirigidas

En las gráficas dirigidas existen agrupaciones y relaciones entre los vértices que definen conjuntos espec´ıficos como los que a continuación se muestran.

Definición 1.1.6 (Ancestro,descendiente). Un ancestro del vértice vi es cualquier vértice que tiene un camino hasta vi. Un descendiente de vi es cualquier vértice al que se puede ir desde vi.

A los conjuntos de ancestros y descendientes de vi se le denotar´a como an(vi) y de(vi), respectivamente.

Definici´on 1.1.7 (Padres, hijos, familia). Si el camino entre los v´ertices vi y vj

est´a compuesto por solamente una arista (vi → vj) se dice que vi es padre de vj, y se denota por pa(vj) = vi, y vj es hijo de vi. Se llamar´a familia del nodo vi, f a(vi), al conjunto conformado por el nodo vi y sus padres pa(vi), es decir f a(vi) = vi∪ pa(vi).

B A

C D

E F G H I

Figura 1.2: Gr´afica dirigida

Por ejemplo, en la gr´afica dirigida de la figura 1.2 se tiene que:

an(F ) = {A, C}

de(F ) = {G, H, I}

pa(I) = {E, G}

Los hijos de B son los v´ertices D y E

f a(I) = {I, E, G}

(9)

CAP´ITULO 1 4

Observaci´on 1.2. En una gráfica dirigida G = (V, A) se puede definir al conjunto de vértices que no son ancestros de un vértice vi como nas(vi) = V − (as(vi) ∪ vi) y al conjunto de los no descencientes de vi como nde(vi) = V − (de(vi) ∪ vi).

1.1.4. Gr´ aficas ac´ıclicas dirigidas (DAG)

Definición 1.1.8 (Gráfica ac´ıclica dirigida). Se dice que una gráfica dirigida G = (V, A) es ac´ıclica cuando no contiene ningún ciclo.

En la figura 1.3 se muestra una gráfica ac´ıclida dirigida. Las gráficas con esta estructura son básicas para poder especificar un problema con incertidumbre en el cual se relacionen las variables de manera causal [5].

B A

C

D E

Figura 1.3: Gr´afica ac´ıclica dirigida (DAG)

1.1.5. Separaci´ on gr´ afica en una DAG

En las gr´aficas ac´ıclicas dirigidas (DAG) es fundamental analizar los tipos de relaciones y conexiones que aparecen entre sus v´ertices.

1. Conexión en serie: Es cuando un vértice es padre de otro que a su vez es padre de un tercero. En la gráfica dirigida 1.4a se puede ver dicha conexión.

2. Conexión divergente: Es cuando un vértice es padre de un conjunto de vértices no conectados entre s´ı. Vease la gráfica 1.4b.

3. Conexión convergente: Es cuando un conjunto de vértices no conectados entre s´ı son padres de un vértice espec´ıfico. En la gráfica 1.4c se presenta una conexión divergente.

(10)

B A

C

(a) Conexi´on en serie

B

A

C

(b) Conexi´on divergente

C

A B

(c) Conexi´on convergente

Figura 1.4: Conexiones entre los v´ertices de una DAG

La separación gráfica en una DAG, llamada d-separación, es de suma importancia ya que es la que provee un camino conveniente para representar la dependencia e independencia entre las variables y as´ı poder encontrar las relaciones de probabilidad que se presentan entre las variables de la gráfica, convergiendo en la condición de Markov para Redes Bayesianas, que se presentará en la sección 2.1.1 [15].

Definición 1.1.9 (d-separación). Sean X,Y y Z tres conjuntos disjuntos de vértices de una DAG G = (V, A) . Se dice que Z d-separa X e Y , y se denota como X⊥GY|Z, si para cualquier camino entre un vértice de X y un vértice de Y existe un vértice v que satisface una de las siguientes dos condiciones:

v tiene aristas convergentes, es decir, existen dos arcos apuntando a v, y ni v o sus descendientes est´an en Z.

v se encuentra en Z y no tiene aristas convergentes.

En la figura 1.5 se muestra un DAG G = (V, A) , donde se pueden ver algunas relaciones de independencia condicionada entre las variables. As´ı se tiene que:

Z

X Y

V W

Figura 1.5: DAG G con relaciones de independencia condicionada

(11)

CAP´ITULO 1 6

X⊥GY | ∅: X y Y aparecen en una conexión convergente y el único camino entre X y Y es X − Z − Y y ni Z ni sus descencientes están en ∅.

V⊥GW | Z: V y W aparecen en una conexión divergente donde el único camino entre V y W es V − Z − W , siendo Z el padre de V y W en la conexión de la DAG.

En los cuatro casos la conexión es en serie y en todos los casos Z es el único vértice que aparece en el camino entre X y V , X y W , Y y V y Y y W , siendo vértice intermedio para cualquiera de los caminos mostrados.

1.1.6. Manta de Markov

Definición 1.1.10 (Manta de Markov). La manta de Markov de un vértice v es el conjunto conformado por los padres de v, los hijos de v y los vértices que comparten un hijo con v.

D C

A F

B E

Figura 1.6: DAG G

La manta de Markov ayuda a encontrar d-separaciones de una DAG ya que es el conjunto m´ınimo de vértices que d-separa al nodo V de todos los demás nodos de la red [19], por ejemplo considérese la DAG de la figura 1.6. La manta de Markov del vértice A es el conjunto S = {B, C, D, F }, entonces A⊥GE | S.

(12)

1.2. Conceptos de Teor´ıa de Probabilidad

En esta sección se darán, de manera resumida, los conceptos pertenecientes a la Teor´ıa de la probabilidad que, con los de Teor´ıa de Gráficas, permitirán tener una idea clara de lo que es una Red Bayesiana y cómo interpretarlas.

1.2.1. La probabilidad como una estructura de razonamiento

El t´ermino probable es el grado de creencia que tiene el investigador de que cierto hecho ocurra. Si no se sabe si se ha producido el hecho s´olo se le puede asignar un grado de certeza a la ocurrencia del mismo [15].

Para no hablar vagamente sobre las creencia fuertes o d´ebiles de que un hecho ocurra se asignan valores num´ericos a dichos grados de creencia mediane reglas bien definidas.

Estas reglas son las llamadas “Leyes de la probabilidad”. Al comprenderlas serán utilizadas para predecir las consecuencias lógicas de proposiciones y darán respuesta a preguntas como:

¿Cuáles son las consecuencias respecto al grado de creencia de A si asumimos que el grado de creencia de B es alto o bajo?, ¿Cómo cambia el grado de creencia de A si es más bajo el grado de creencia de B?. Se pretende seguir la premisa:

“Realmente la probabilidad no se trata s´olo de n´umeros, es sobre la estructura del razonamiento”.

Glenn Shafer Después de comprender estos conceptos se podrán realizar inferencias lógicas en el tema que nos compete: el diagnóstico médico.

1.2.2. Principios b´ asicos

La probabilidad comienza con un experimento aleatorio [3]:

Definici´on 1.2.1 (Experimento aleatorio). Un experimento aleatorio es cualquier actividad, proceso o experimento en el cual el resultado es incierto.

Dado un experimento aleatorio se tiene su espacio muestral definido como:

Definici´on 1.2.2 (Espacio muestral (Ω)). El espacio muestral es el conjunto de posibles resultados del experimento aleatorio.

En los conceptos de probabilidad que se darán a continuación se utilizará un espacio discreto y finito, as´ı que en el caso de un espacio muestral discreto y finito se denota como evento a:

(13)

CAP´ITULO 1 8

Definici´on 1.2.3 (Evento). Cualquier subconjunto del espacio muestral Ω.

Desde una forma puramente matemática, una probabilidad es un número entre 0 y 1 que se le asigna a un evento mediante una función de probabilidad.

Definición 1.2.4 (Función de probabilidad). Dado un experimento aleatorio con un espacio muestral discreto, una función de probabilidad P es una función en Ω con las siguientes propiedades:

i) 0 ≤ P (ω) ≤ 1, para todo ω ∈ Ω ii) P

ω∈ΩP(ω) = 1

iii) Para todos los eventos A ⊆ Ω, P (A) =P

ω∈AP(ω)

Definici´on 1.2.5 (Espacio de probabilidad). Un espacio de probabilidad consta de dos elementos (Ω, P ) donde Ω es el espacio muestral y P es una funci´on de probabi- lidad.

1.2.3. Probabilidad condicional e Independencia

Si A es un evento de interés, cuya probabilidad es P (A), y se agrega la informa- ción adicional de que un evento B ha ocurrido, ¿Cuál es la nueva opinión sobre la posibilidad de que ocurra A?

Definici´on 1.2.6 (Probabilidad condicional). Para los eventos A y B, tal que P(B) 6= 0, la probabilidad de A dado B es:

P(A | B) = P(A, B) P(B) Observaci´on 1.3. P (A, B) = P (A ∩ B)

Definici´on 1.2.7 (Independencia). Dos eventos A y B son independientes si se cumple que

P(A, B) = P (A)P (B).

Cuando esto sucede escribimos IP(A, B).

Observaci´on 1.4. Equivalentemente, A y B son independientes si P (A | B) = P (A) con P (A) 6= 0 y P (B) 6= 0.

Los eventos que no son independientes se dice que son dependientes.

(14)

TEOREMA 1.2.1 (Regla de la multiplicaci´on). Sup´ongase que B1, B₂, ..., B_n son eventos en el mismo espacio de probabilidad (Ω, P ), entonces

P(B1, B₂, ..., B_n) = P (B1)P (B2 | B₁)P (B3 | B₁, B₂)...P (Bn| B₁, B₂, ..., B_n−1) Suponiendo que P (B1, B₂, ..., B_i−1) > 0 para 0 ≤ i ≤ n

Definición 1.2.8 (Partición). Se dice que B1, B₂, ..., B_n forman una partición de Ω si Bi∩ Bj = ∅ si i 6= j y ∪ⁿ_i=1B_i = Ω.

Los eventos que conforman a una partici´on son llamados mutuamente exclusivos y exhaustivos.

TEOREMA1.2.2 (Ley de probabilidad total). Si A es cualquier evento y B₁, B₂, ..., B_n es una partici´on del espacio muestral Ω, entonces

P(A) = Xn

i=1

P(A | Bi)P (Bi) .

1.2.4. Teorema de Bayes

Se utiliza el Teorema de Bayes cuando no se puede determinar la probabilidad condicional de inter´es directamente, debido a que en algunas aplicaciones el espacio de probabilidad no se desarrolla en el orden adecuado a nuestros intereses [4].

TEOREMA 1.2.3 (Teorema de Bayes). Si A es cualquier evento con probabilidad P(A) > 0 y B1, B₂, ..., B_n es una partici´on tal que P (Bi) 6= 0 ∀i (1 ≤ i ≤ n), entonces

P(Bj | A) = P(A | Bj)P (Bj)

P(A) = P(A | Bj)P (Bj) Pn

i=1P(A | Bi)P (Bi) .

1.2.5. Variables aleatorias y distribuciones de probabilidad conjunta

Definición 1.2.9 (Variable aleatoria). Dado un espacio de probabilidad (Ω, P ) una variable aleatoria es una función f : Ω → R la cual asigna a cada elemento de Ω un valor numérico.

(15)

CAP´ITULO 1 10

Al conjunto de valores o estados que la variable aleatoria X puede asumir se le llama espacio de X. Para una variable aleatoria X se utiliza X = x para denotar al conjunto de todos los elementos e ∈ Ω en los que X toma el valor de x.

Una variable aleatoria induce una funci´on de probabilidad PX(x) = P (X = x) la cual es llamada distribuci´on de probabilidad de la variable aleatoria X.

Definición 1.2.10 (Distribución de probabilidad conjunta). Dadas dos variables aleatorias X y Y , definidas en el mismo espacio muestral Ω, se define la distribución de probabilidad conjunta de X y Y como:

P(x, y) = P (X = x, Y = y)

Observaci´on 1.5. Dada una distribuci´on de probabilidad conjunta de X y Y se puede calcular la distribuci´on de probabilidad marginal de X

P(x) = P (X = x) =X

y

P(X = x, Y = y)

1.3. Modelos gr´ aficos probabil´ısticos

Hasta este momento se han introducido definiciones básicas de Teor´ıa de Gráficas y Teor´ıa de Probabilidad. En esta sección se busca describir lo que es un modelo gráfico probabil´ıstico, que será de ayuda para describir y elaborar Redes Bayesianas en el cap´ıtulo 2.

En un modelo gráfico probabil´ıstico intervienen dos componentes importantes re- lativas a la información de la que se dispone: información cualitativa e información cuantitativa [11]. La información cualitativa del modelo contiene información asociada a las relaciones de dependencia entre los vértices de la gráfica que representa al problema, apoyándose en la Teor´ıa de Gráficas. La información cuantitativa es la información relativa a la distribución de probabilidad de las variables del problema.

Dichas distribuciones pueden ser estimadas a partir de un conjunto de datos o mediante la informaci´on que los expertos tienen acerca del problema de estudio.

En consecuencia, contando con la informaci´on cualitativa y cuantitativa del problema se puede definir el modelo asociado al mismo, esto representa un nexo entre la Teor´ıa de Gr´aficas y la Teor´ıa de la Probabilidad:

Definición 1.3.1 (Modelo gráfico probabil´ıstico). Un modelo gráfico probabil´ıstico es un par (G, P ) donde G es la gráfica que representa la información cualitativa del

(16)

problema, siendo los v´ertices las variables del modelo y las aristas las relaciones de dependencia entre dichas variables; y P es el conjunto de distribuciones, que pue- den ser condicionadas, mediante las cuales se obtiene la distribuci´on de probabilidad conjunta del problema.

Observaci´on 1.6. En este trabajo los modelos utilizar´an variables discretas.

Los modelos gráfico probabil´ısticos juegan un papel importante en el diseño y análisis de sistemas de aprendizaje y de actualización de la información, lo que ha llamado la atención en un amplio espectro de disciplinas como la Genética, Lingü´ısti- ca, Epidemiolog´ıa, Psicolog´ıa, Ciencia forense, Ecolog´ıa, Biolog´ıa, Medicina, entre otras [14]. Para construir uno de éstos modelos se debe de:

a) Definir el problema a resolver: por ejemplo el problema del diagnóstico médico es un ejemplo clásico ya que normalmente se plantea la pregunta ¿cuál es la enfermedad más probable que tenga un paciente dado que presenta una serie de s´ıntomas? La definición del problema es un paso crucial en el desarrollo del modelo, ya que un mal planteamiento inicial tendrá consecuencias fatales.

b) Seleccionar las variables: aquellas que sean relevantes para la definici´on del problema. Esta tarea debe ser realizada por expertos en el problema a resolver, por ejemplo, las variables relevantes para el problema de diagn´ostico son las enfermedades y sus correspondientes s´ıntomas.

c) Obtención de información relevante: adquirir y analizar los datos que sean relevantes para la definición del modelo, ya sean cualitativos (gráfica) o cuantitativos (probabilidades). Normalmente son obtenidos de un experto en el tema o una base de datos.

d) Construir el modelo gráfico-probabil´ıstico: ya que se conocen las variables relevantes y las relaciones entre ellas, el siguiente paso consiste en definir el modelo gráfica y probabil´ısticamente. En este paso se utilizan las gráficas descritas en este cap´ıtulo ya que son herramientas muy potentes para describir de forma intuitiva las relaciones de dependencia e independencia existentes en el conjunto de variables a tratar [2].

Uno de los principales modelos gráfico probabil´ısticos son las Redes Bayesia- nas [12], que se distinguen por el hecho de que sus gráficas son DAG’s por lo que sus aristas son dirigidas y las relaciones entre los vértices se desarrollan de manera causal.

(17)

Cap´ıtulo 2

Redes Bayesianas

El reverendo Thomas Bayes (1702-1761) desarroll´o el Teorema que lleva su nom- bre, que aparece en la publicaci´on Essay Towards Solving a Problem in the Doctrine of Chances (1763), en el siglo XVIII [16]. Desde ese momento el teorema ha tenido un gran impacto en la inferencia estad´ıstica debido a que capacita a quien lo usa a inferir la probabilidad de una causa cuando el efecto de la misma es observado [14].

El término “Red Bayesiana” es establecido por el informático y filósofo Judea Pearl en 1985, al extender el Teorema de Bayes a modelos gráficos de las relaciones probabil´ısticas entre muchas variables causalmente relacionadas [17].

(a) Thomas Bayes (1702-1761) (b) Judea Pearl (1936)

Figura 2.1

Las Redes Bayesianas han tenido un gran impacto en la inferencia estad´ıstica.

Existen innumerables aplicaciones en muchas ramas de la ciencia, como se puede ver en [5], [9], [10], [11], [12] y [14].

12

(18)

En este cap´ıtulo se introducir´a la definici´on de Red Bayesiana y algunas aplicaciones en el campo de la Medicina.

2.1. Definici´ on formal y propiedades

2.1.1. Condici´ on de Markov

Definición 2.1.1 (Condición de Markov). Supóngase que se tiene una distribución de probabilidad conjunta P de las variables aleatorias en algún conjunto V y una DAG G = (V, A) . Se dice que G = (V, A) satisface la condición de Markov si para cada variable X ∈ V , {X} es condicionalmente independiente del conjunto de todos sus no descendientes dado el conjunto de todos sus padres, es decir:

I_P({X}, nde(X) | pa(X))

Definici´on 2.1.2 (Red Bayesiana). Si (G, P ) satisface la condici´on de Markov, se dice que (G, P ) es una Red Bayesiana.

Cuando (G, P ) satisface la condici´on de Markov, se dice que G y P satisfacen la condici´on de Markov entre ellos [10].

Figura 2.2: Una DAG G que ilustra la condici´on de Markov

Por ejemplo, considérese el DAG G en la figura 2.2. Si (G, P ) satisface la condición de Markov, con alguna distribución de probabilidad P de X, Y, Z, W y U, se tendrán las siguientes independencias condicionales:

(19)

CAP´ITULO 2 14 V´ertice Padres No descendientes Independencia condicional

X ∅ ∅ Ninguna

Y X X, Z, U I_P(Y, {Z, U} | X)

Z X X, Y I_P(Z, Y | X)

W Y, Z X, Y, Z, U I_P(W, {X, U} | {Y, Z}) U Z X, Y, Z, W I_P(U, {X, Y, W } | Z)

Observaci´on 2.1. N´otese que pa(X) ⊆ nde(X), entonces podemos definir la condi- ci´on de Markov diciendo que X debe ser condicionalmente independiente de nde(X)−

pa(X) dado pa(X).

Una Red Bayesiana (G, P ) por definición es una DAG G y una distribución de probabilidad P que satisfacen la condición de Markov [10]. Entonces ¿Por qué en la figura 2.2 se muestra una Red Bayesiana como una DAG y un conjunto de distribuciones de probabilidad condicional? La razón es que (G, P ) satisface la condición de Markov si y sólo si P es igual al producto de sus distribuciones condicionales en G.

Espec´ıficamente se tiene el siguiente teorema:

TEOREMA 2.1.1. (G, P ) satisface la condición de Markov (y por lo tanto es una Red Bayesiana) si y sólo si P es igual al producto de sus distribuciones condicionales, de todos los vértices dados sus padres en G, siempre que existan estas distribuciones condicionales.

Observaci´on 2.2. Es decir la gr´afica G es una Red Bayesiana, representando a las variables V1, V₂, ..., V_n si y s´olo si

P(V1, V₂, ..., V_n) = Yn j=1

P(Vj|pa(Vj))

Del teorema anterior se puede deducir la siguiente proposici´on:

Proposici´on 2.1. Cualquier distribuci´on de probabilidad conjunta puede ser repre- sentada mediante una Red Bayesiana.

La proposici´on claramente muestra el poder del modelaje con las Redes Bayesia- nas. Cualquier modelo probabil´ıstico puede ser representado como una Red Bayesia- na.

2.1.2. Razonamiento Bayesiano

Definición 2.1.3 (Abducción). La abducción es el proceso de formar una hipótesis explicativa.

(20)

La abducción es la única operación lógica que introduce alguna idea nueva, ya que, la inducción solo determina un valor, prueba que algo debe ser, y la deducción desarrolla las consecuencias necesarias de una hipótesis, puede extraer una predicción que puede comprobarse mediante la inducción [13].

Definición 2.1.4 (Razonamiento abductivo). El razonamiento abductivo es un tipo de razonamiento en el que, a partir de la descripción de un hecho o fenómeno, se ofrece o se llega a una hipótesis, la cual explica las posibles razones o motivos del hecho mediante las premisas obtenidas.

Desde un punto de vista probabil´ıstico-estad´ıstico, se tiene la siguiente definici´on:

Definici´on 2.1.5 (Inferencia Bayesiana o Razonamiento Bayesiano). Es un tipo de inferencia estad´ıstica en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hip´otesis pueda ser cierta.

El nombre “Bayesiana” proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia.

La Inferencia Bayesiana se presentará en la siguiente sección mediante dos ejemplos de Redes Bayesianas en el diagnóstico médico, un campo en el que, impl´ıcita- mente, se utiliza este tipo de razonamiento, ya que un buen diagnóstico observa los s´ıntomas del paciente y determina la enfermedad que más probablemente tenga.

2.2. Redes Bayesianas en el diagn´ ostico m´ edico

La naturaleza cualitativa y cuantitativa de las Redes Bayesianas permiten vi- sualizar fácilmente las relaciones probabil´ıstica entre las variables, as´ı como realizar inferencias como predicción, diagnóstico y toma de decisiones. Es por estas razones que en el campo de la Medicina y Ciencias de la Salud, donde hay una gran cantidad de datos estad´ısticos y probabil´ısticos, se ha recurrido a ellas para el análisis y procesamiento de los datos [9].

En los siguientes apartados se tratará el concepto de diagnóstico médico y se desarrollarán varios ejemplos de Redes Bayesianas en el campo de la Medicina.

2.2.1. Diagn´ ostico m´ edico

El diagnóstico médico es un proceso en el que se realiza un razonamiento abductivo que involucra la construcción de la hipótesis de una enfermedad dado un conjunto de

(21)

CAP´ITULO 2 16

s´ıntomas observados en el paciente.

Formalmente, esto es expresado como:

D= m´ax

i P(Ei | S)

donde P (Ei | S) es la probabilidad de la enfermedad Ei dada la evidencia S que representa el conjunto de los s´ıntomas, historial m´edico y resultados de las pruebas diagn´osticas que presente el paciente.

Algunas de las aplicaciones o sistemas de Redes Bayesianas para el diagnóstico médico que se han propuesto desde hace más de una década son: CONVINCE, NESTOR, MUNIN, ALARM, PATHFINDER IV, CPCS MODEL Y DIAVAL [11].

En la siguiente sección se presentarán algunos ejemplos de las aplicaciones más intuitivas de las Redes Bayesianas: las pruebas cl´ınicas y el diagnóstico médico.

2.2.2. Ejemplo de diagn´ ostico mediante pruebas cl´ınicas

En una empresa les piden a sus trabajadores que se realicen radiograf´ıas de torax de manera regular, debido a la exposición que tienen a materiales que podr´ıan afec- tar su salud. Dar´ıo observa en un cartel del hospital que el 60 % de las personas que tienen cáncer pulmonar tienen un resultado positivo en la prueba que está a punto de realizarse.

Después de unos d´ıas va con el médico y éste le dice que obtuvo un resultado positivo en su radiograf´ıa. Dario empieza a preocuparse. Después de pensarlo un momento se da cuenta que el dato estad´ıstico que conoce es la probabilidad de tener una prueba positiva dado que se tiene cáncer pulmonar y a él le interesa saber lo contrario

¿Cuál es la probabilidad de tener cáncer pulmonar dado que la prueba resultó ser positiva?.

Es aqu´ı cuando el doctor puede realizar una Red Bayesiana simple para responder a dicha pregunta y dar un diagn´ostico.

La Red Bayesiana G = (V, A) tiene las siguientes caracter´ısticas:

El conjunto V tiene como elementos a los nodos R y C, que representan a las variables “Radiograf´ıa” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:

Variable Valor Cuando la variable toma el valor R r₁ Radiograf´ıa positiva

r₂ Ragiograf´ıa negativa C c₁ C´ancer pulmonar presente

c₂ C´ancer pulmonar ausente

(22)

Adem´as se tienen, mediante observaci´on de datos estad´ısticos, las probabilidades:

• Prueba positiva dado que se tiene c´ancer pulmonar: P (r₁ | c₁) = 0.6

• Prueba positiva dado que no se tiene c´ancer pulmonar: P (r₁ | c₂) = 0.02

• Probabilidad de tener c´ancer pulmonar: P (c1) = 0.001

Por lo que, debido a que las variables cumplen con la propiedad de Markov, la Red Bayesiana que representa este problema se muestra en la figura 2.3.

Figura 2.3: Red Bayesiana del ejemplo Radiograf´ıa-C´ancer Pulmonar

La información cuantitativa de ésta viene dada por la probabilidad a priori de los vértices que no tienen padres (P (c1)) y la probabilidad condicional (verosimilitud ) de los vértices con padres (P (r1 | C)).

Conociendo dichas probabilidades se obtienen las siguientes tablas de probabilidades:

C c₁ c₂

P(C) 0.001 0.999

C c₁ c₂

P(R = r1 | C) 0.6 0.02 P(R = r2 | C) 0.4 0.98

Cuadro 2.1: Probabilidades del ejemplo de diagn´ostico mediante pruebas diagn´osticas

(23)

CAP´ITULO 2 18

y se pueden calcular:

La probabilidad a priori de que cualquier persona obtenga una radiograf´ıa de torax positiva

P(r1) = P (r1 | c₁)P (c1) + P (r1 | c₂)P (c2)

= (0.6)(0.001) + (0.02)(0.999)

= 0.02058

La probabilidad a posteriori deseada, es decir, la probabilidad de que una per- sona tenga c´ancer pulmonar dado que su prueba result´o ser positiva

P(c1 | r1) = P(c1, r₁) P(r1) Y como se trata de una Red Bayesiana

P(c1, r₁) = P (c1)P (r1 | c1) entonces

P(c1 | r₁) = P(c₁)P (r₁ | c₁)

P(r1) = (0.001)(0.6)

0.02058 = 0.02915452

Se puede concluir entonces que solo el 2.91 % de las personas que obtienen un resultado positivo en esta prueba tienen cáncer pulmonar, por lo que Dar´ıo no tiene que preocuparse aún, ya que la prueba no es confiable y debe realizarse alguna otra que s´ı lo sea para determinar si en realidad tiene cáncer pulmonar o no.

2.2.3. Ejemplo de diagn´ ostico m´ edico

Mónica está preocupada por que ha tenido una tos muy fuerte (crónica) desde hace varios d´ıas, por lo que va con su doctor.

El doctor le dice que dicho s´ıntoma es caracter´ıstico de dos enfermedades: Bron- quitis y c´ancer pulmonar.

El 54 % de las personas que tiene c´ancer pulmonar presentan dicho s´ıntoma y el 10 % de las personas que tienen bronquitis tambi´en presentan ese s´ıntoma.

(24)

¿Cuál enfermedad es más probable que tenga Mónica?

Para realizar un diagnóstico que implique decidir cual enfermedad es más probable que tenga un paciente, entre varias enfermedades, se utilizará la fórmula de la sección 2.2.1 junto con la inferencia mediante la Red Bayesiana G = (V, A) con las siguientes caracter´ısticas:

El conjunto V tiene como elementos a los nodos T ,B y C, que representan a las variables “Tos”, “Bronquitis” y “C´ancer Pulmonar”, respectivamente, con los siguientes valores:

Variable Valor Cuando la variable toma el valor T t₁ El paciente presenta tos cr´onica

t₂ El paciente no presenta tos cr´onica C c₁ C´ancer pulmonar presente

B b₁ Bronquitis presente

b₂ Bronquitis ausente

Adem´as se obtienen, mediante observaci´on de datos estad´ısticos, las probabilidades:

• El paciente presenta tos cr´onica cuando tiene bronquitis y c´ancer pulmonar: P (t1 | b1, c₁) = 0.75

• El paciente presenta tos cr´onica cuando tiene bronquitis y no tiene c´ancer pulmonar: P (t1 | b₁, c₂) = 0.1

• El paciente presenta tos cr´onica cuando no tiene bronquitis y tiene c´ancer pulmonar: P (t1 | b₂, c₁) = 0.5

• El paciente presenta tos cr´onica cuando no tiene bronquitis ni c´ancer pulmonar: P (t₁ | b₂, c₂) = 0.05

• Probabilidad de tener c´ancer pulmonar: P (c₁) = 0.001

• Probabilidad de padecer bronquitis: P (b₁) = 0.09

Como puede verse las variables cumplen con la propiedad de Markov.

Conociendo estas probabilidades se obtienen las siguientes tablas:

(25)

CAP´ITULO 2 20

B b₁ b₂

P(B) 0.09 0.91

C c₁ c₂

P(C) 0.001 0.999

B b₁ b₂

C c₁ c₂ c₁ c₂

P(T = t1 | B, C) 0.75 0.1 0.5 0.05 P(T = t2 | B, C) 0.25 0.9 0.5 0.95

Cuadro 2.2: Probabilidades del ejemplo de diagn´ostico m´edico La Red Bayesiana que representa este problema se muestra en la figura 2.4.

Figura 2.4: Red Bayesiana del ejemplo de diagn´ostico m´edico

Al tener la distribuci´on de probabilidades se sabe que, al tratarse de una Red Bayesiana, la probabilidad conjunta de todas la variables en V es expresada como:

P(B, C, T ) = P (B)P (C)P (T | B, C)

(26)

as´ı que se calcular´a lo siguiente:

La probabilidad a priori de que cualquier persona presente el s´ıntoma de tos cr´onica

P(t1) = X

B,C

P(B, C, t1) =X

B,C

P(B)P (C)P (t1| B, C)

= X

C

[P (b1)P (C)P (t1 | b1, C) + P (b2)P (C)P (t1 | b2, C)]

= P (b₁)P (c₁)P (t₁ | b₁, c₁) + P (b₂)P (c₁)P (t₁ | b₂, c₁) +P (b1)P (c2)P (t1 | b₁, c₂) + P (b2)P (c2)P (t1 | b₂, c₂)

= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5) +(0.09)(0.999)(0.1) + (0.91)(0.999)(0.05)

= 0.0000675 + 0.000455 + 0.008991 + 0.0454545

= 0.054968

Ahora se calculan las probabilidades a posteriori deseadas, es decir la probabi- lidad de padecer, ya sea bronquitis o c´ancer pulmonar dado que se tiene como s´ıntoma a la tos cr´onica.

Para el c´ancer pulmonar se tiene que:

P(c1 | t1) = P(c1, t₁) P(t1) debido a que se trata de una Red Bayesiana

P(c1, t₁) = X

B

P(B, c1, t₁) =X

B

P(B)P (c1)P (t1 | B, c1)

= P (b1)P (c1)P (t1 | b₁, c₁) + P (b2)P (c1)P (t1 | b₂, c₁)

= (0.09)(0.001)(0.75) + (0.91)(0.001)(0.5)

= 0.0000675 + 0.000455

= 0.0005225 entonces

P(c1 | t₁) = P(c1, t₁)

P(t1) = 0.0005225

0.054968 = 0.00950553

(27)

CAP´ITULO 2 22

Para la bronquitis se tiene que:

P(b1 | t₁) = P(b1, t₁) P(t1) debido a que se trata de una Red Bayesiana

P(b1, t₁) = X

C

P(b1, C, t₁) =X

C

P(b1)P (C)P (t1 | b1, C)

= P (b1)P (c1)P (t1 | b₁, c₁) + P (b1)P (c2)P (t1 | b₁, c₂)

= (0.09)(0.001)(0.75) + (0.09)(0.999)(0.1)

= 0.0000675 + 0.008991

= 0.0090585 entonces

P(b1 | t₁) = P(b1, t₁)

P(t1) = 0.0090585

0.054968 = 0.1647959

Se puede concluir entonces que es más probable que Mónica tenga bronquitis dado que la probabilidad a posteriori de la bronquitis es mayor que la del cáncer pulmonar, al observarse el s´ıntoma de la tos crónica.

Este resultado no es concluyente ya que sólo se está observando un s´ıntoma en´ común de las enfermedades.

En el siguiente cap´ıtulo se dará un ejemplo más completo del diagnótico entre cáncer pulmonar y bronquitis, basándose en historial cl´ınico, s´ıntomas y pruebas.

(28)

Inferencia Bayesiana por medio de

´

arboles de uni´ on

En la vida cotidiana la realización del diagnóstico de una enfermedad no se basa solamente en un s´ıntoma, o en la conclusión que arroja una prueba diagnóstica, como en los ejemplos de “Diagnóstico mediante pruebas cl´ınicas” y “Diagnóstico médico”, sino que es el resultado de observar toda esta evidencia, es decir todos los s´ıntomas del paciente y las relaciones que estos tienen con las posibles enfermedades, además de considerar el “historial cl´ınico del paciente” [11].

Al considerar lo anterior, se puede deducir que las gráficas, y en consecuencia las Redes Bayesianas, que modelan dichos diagnósticos tendrán un mayor grado de complejidad en cuanto al desarrollo de la inferencia. Para atacar esta complejidad se utilizarán los árboles de unión [1].

3.1. Estructuras gr´ aficas de inter´ es

En esta sección se presentarán algunas estructuras gráficas que se obtienen tras manipular una Red Bayesiana, ya que en algunas ocasiones se buscan las probabilidades condicionales dado un conjunto de varibles que no se relacionan de manera directa, por lo que no es posible realizar de forma directa ciertos cálculos.

Después de modificar la Red Bayesiana, se obtiene una estructura más simple que mantiene algunas propiedades de la gráfica original, pero que facilitan la tarea de obtener las probabilidades deseadas. A esta modificación técnica se le llama “árbol de unión”.

23

(29)

CAP´ITULO 3 24

3.1.1. Gr´ afica moral

A continuación se dará el concepto de gráfica moral, la cual permitirá ver de manera gráfica las dependencias entre los padres de un vértice.

Definición 3.1.1 (Gráfica moral). Sea G = (V, A) una DAG. Se define la gráfica moral asociada a G, y se denota como M, a la gráfica que se obtiene tras añadir una arista entre cada par de vértices con algún hijo en común y remover la direccionalidad.

3.1.2. Gr´ afica triangular

Para definir lo que es una gr´afica triangular primero se deben de introducir los conceptos de “bucle” y “cuerda de un bucle”.

Definición 3.1.2 (Bucle). En una gráfica no dirigida G = (V, A) se define un bucle como un camino cerrado, es decir una sucesión de vértices conectados tales que el vértice inicial coincide con el final.

Por ejemplo al observar la figura 3.1, en la gr´afica no dirigida existen dos bucles dados por los v´ertices {B, D, E} y {A, C, G, F }.

B A C

D E

F G

Figura 3.1: Ejemplo de bucle

Definición 3.1.3 (Cuerda del bucle). Si en una gráfica no dirigida hay un bucle, a la arista que une dos vértices y que no pertenece al bucle se le denomina cuerda del bucle.

Estos conceptos son fundamentales pues con ellos se podrá obtener una gráfica triangular, la cual es de gran importancia para construir los árboles de unión.

Definición 3.1.4 (Gráfica triangular). Se le llama gráfica triangular, denotada co- mo T, a una gráfica no dirigida G = (V, A) en la que todos los bucles de longitud mayor o igual que cuatro contienen al menos una cuerda.

(30)

En la figura 3.2 se pueden apreciar dos gr´aficas triangulares obtenidas a partir de la gr´afica 3.1.

B A C

D E

F G

(a)

B A C

D E

F G

(b)

Figura 3.2: Ejemplos de gr´aficas triangulares

El proceso de añadir cuerdas que dividan a los bucles no es trivial ya que se debe mantener en lo posible la estructura original de la gráfica, buscando que la triangu- lación contenga el m´ınimo número de cuerdas, obteniendo as´ı menos triángulos en la gráfica, lo que será de ayuda para la construcción del árbol de unión. Sin embargo puede demostrarse que el problema de encontrar una triangulación eficiente es NP- completo [10].

En la práctica los algoritmos utilizados para obtener una gráfica triangular son heur´ısticos, por lo que se elige la triangulación que parece más razonable, pero que podr´ıa no ser óptima [1].

En este trabajo se utilizaron paqueterias de R, como se verá en la sección 3.5.4, para obtener las gráficas morales y triangulares de interés.

3.2. Arboles de uni´ ´ on

Los árboles de unión agrupan en cada uno de sus vértices un conjunto de vértices que forman un bucle de longitud menor o igual que tres, reduciéndose as´ı la estructura inicial de la gráfica y facilitando la realización de cálculos locales, como se presen- tará en el ejemplo 3.4.1. Para ello se darán las definiciones de “clique” y “árbol de unión”.

Definición 3.2.1 (Clique). Un clique es el máximo subconjunto C de vértices en el que cada elemento es adyacente a todos los demás.

(31)

CAP´ITULO 3 26

Observaci´on 3.1. La gr´afica triangular es de ayuda para encontrar los cliques de la gr´afica.

Definición 3.2.2 (Propiedad del árbol de unión). Se dice que se cumple la propiedad del árbol de unión, si para cada par C₁ y C₂ de cliques con intesección C_1,2, todos los cliques en el camino entre C1 y C2 contienen a C1,2.

Se define al ´arbol de uni´on de la siguiente manera :

Definición 3.2.3 ( ´Arbol de unión). Un árbol de unión JT de la gráfica G es una gráfica con las siguientes propiedades:

Cada v´ertice de JT corresponde a un clique de la gr´afica triangular T de G.

Los vértices de JT cumplirán con la propiedad de árboles de unión.

Cada arista de JT contiene a las variables en la intersecci´on de los cliques adyacentes. A estas aristas se les llamar´a separadores S.

3.3. Inferencia en los ´ arboles de uni´ on

El principal objetivo de una Red Bayesiana es realizar inferencias probabil´ısticas.

Véase [6]. A través de los árboles de unión se realiza la inferencia al representar la distribución de probabilidad conjunta entre los vértices que conforman a un clique.

Para ello es necesario definir primero las funciones potenciales de JT.

Definición 3.3.1 (Funciones potenciales ψC y φS de un árbol de unión). La función potencial de cada clique ψC y cada separador φS es aquella que utiliza las probabilida- des de la Red Bayesiana inicial para obtener la probabilidad conjunta de las variables del clique, al multiplicar las probabilidades condicionales de las variables de C (o S) y sus padres.

A continuación se presenta un algoritmo para obtener las funciones potenciales de un árbol de unión.

Algoritmo

Para inicializar las funciones potenciales se seguir´an los siguientes pasos:

1. Igualese todas las funciones potenciales de cada clique y cada separador a la unidad.

2. Para cada variable Xi, seleccione un vértice en el árbol de unión (es decir, clique) que contenga a la variable y sus padres (pa(Xi)) en el DAG original.

3. Multipl´ıquese la funci´on potencial de dicho clique por P (Xi | pa(Xi)).

(32)

La distribución de probabilidad conjunta puede ser expresada ahora en términos de funciones potenciales ψC o φS, definidas en cada clique y cada separador del árbol de unión, respectivamente.

Esta distribuci´on conjunta es dada por:

P(X) = Q

c∈Cψ_c(Xc) Q

s∈Sφ_s(Xs) donde X = X1, X₂, ..., X_n.

La idea es transformar una representación de las distribuciones conjuntas a otras donde para cada clique C la función potencial dé la distribución marginal de las variables en C, es decir:

ψ_C(XCi) = P (XCi) lo que se aplicar´a tambi´en a los separadores.

Esto se verá más claro en el ejemplo “Bronquitis-Cáncer pulmunar” de la seccion´ 3.4.1. Ahora se explicará como funciona la inferencia Bayesiana en los árboles de unión, para después aplicarla en un ejemplo de diagnóstico médico donde se involucren s´ıntomas, pruebas e historial cl´ınico.

3.3.1. Consistencia local de los ´ arboles de uni´ on

La consistencia local se logra mediante el intercambio de informaci´on entre los cliques vecinos.

Definición 3.3.2 (Consistencia local). Se dice que un árbol de unión es localmente consistente si para cualesquiera dos cliques vecinos U y W con intersección S se

cumple X

U\S

ψ_U = X

W\S

ψ_W

Actualizaci´on de la funci´on potencial

Sup´ongase que se tienen dos cliques U y W que tienen una intersecci´on no vac´ıa S, como en la figura 3.3.

(33)

CAP´ITULO 3 28

Figura 3.3: ´Arbol de uni´on

Los cliques U y W tienen las funciones potenciales ψU y ψW, respectivamente, y S tiene una funci´on potencial φS que se inicializa con valor 1.

La distribuci´on de probabilidad conjunta P (X) para todas las variables en V de la Red Bayesiana es la siguiente:

P(X1, X₂, ..., X_n) = ψ_U · ψW

φ_S .

La idea detrás de la actualización es modificar las funciones potenciales de tal manera que la función potencial resultante de la marginalización del separador S desde cualquiera de los cliques, U o W , dé el mismo valor φS = P (S), es decir

X

U\S

ψ_U = φS = X

W\S

ψ_W.

Considérese una situación en la que se tiene nueva evidencia que cambia ψU por ψ_U^∗, esto debido a que se fija una de las variables en U a un estado particular. Con la finalidad de mantener la consistencia se cambiarán φS y ψW porP

U\Sψ_U y ψW·^φ_φ^S_S^∗, respectivamente, para satisfacer

X

U\S

ψ_U^∗ = φ^∗_S = X

W\S

ψ^∗_W.

Observaci´on 3.2. Al definir φ^∗_S y ψ_W^∗ de esta manera se cumple con la consistencia

local X

W\S

ψ_W^∗ = X

W\S

ψ_W ·φ^∗_S φ_S = φ^∗_S

φ_S ·X

W\S

ψ_W = φ^∗_S

φ_S · φS = φ^∗_S =X

U\S

ψ_U^∗.

A continuación se estudiarán las diferentes fases en las que se realiza la propaga- ción de la información en un árbol de unión.

(34)

Fases de propagaci´on

Al seleccionar un clique del árbol de unión, se pueden realizar dos tipos de fases de propagación de la información a través del árbol:

1. Fase de recopilación o recolección: Cuando el flujo de la información llega de los demás cliques al clique elegido.

2. Fase de distribución: Cuando el flujo de la información va del clique elegido a los demás cliques.

En la figura 3.4a se puede observar la fase de recolecci´on de los cliques C1 = {A, B}

y C3 = {C, R} al clique C2 = {B, C}, mientras que en la figura 3.4b se aprecia la fase de distribuci´on del clique C2 = {B, C} a los dem´as cliques.

(a) Fase de recolecci´on (b) Fase de distribuci´on

Figura 3.4

En algunos casos, al obtener las probabilidades deseadas sólo se necesita la uti- lización de una de las dos fases; todo dependerá del tipo de problema que se desee resolver.

(35)

CAP´ITULO 3 30

Algoritmo para la construcción del árbol de unión

En [9] se encuentra el siguiente algoritmo para la construcción del árbol de unión de una Red Bayesiana

Algoritmo

1. Moralizar: Crear la gr´afica moral M de la Red Bayesiana G como se ilustra en la secci´on 3.1.

2. Triangular: Obtener la gráfica triangular T de la gráfica moral M del punto 1 como se muestra en la sección 3.1.

3. Cliques: Identificar los cliques de la gr´afica triangular.

4. Árbol de unión: Crear una gráfica JT en la que cada clique sea un vértice, y los cliques adyacentes estén unidos mediante arcos no dirigidos.

5. Reparametrizar: Utilizar los parámetros de las distribuciones de G para calcular las probabilidades de los cliques del árbol de unión.

Ejemplo

Sea G la Red Bayesiana de la figura 3.5a, al moralizarla obtenemos a M, que ser´a la misma que la gr´afica triangular T, debido a que no hay bucles, representada en la figura 3.5b.

(a) Red Bayesiana (b) Gr´afica Moral y triangular

Figura 3.5

Al identificar los cliques de M se construye el ´arbol de uni´on JT de la figura 3.6.

Figura 3.6: ´Arbol conjunto JT

(36)

Las funciones potenciales ψAB, ψBC y φB se definen como:

ψ_AB = P (A) · P (B | A) φ_B= 1

ψ_BC = P (C | B)

Para mantener la consistencia local, se actualizan las funciones potenciales mediante el flujo de informaci´on entre los cliques vecinos. Primero se actualiza ψBC basandose en ψAB.

ψ_AB = P (A, B) φ^∗_B =X

a

P(a, B) = P (B)

ψ_BC^∗ = φ^∗_B

φ_B · ψBC = P(B)

1 · P (C | B) = P (B, C)

Las potenciales de los cliques se han convertido en probabilidades marginales.

Introduciendo evidencia

Ahora considérese el caso en el que se tiene evidencia. Supóngase que todos los vértices son binarios en la Red Bayesiana de la figura 3.5a y se tiene la evidencia (A = a1). Entonces al realizar la actualización AB → BC se llega a que:

ψ_AB^∗ = P (A = a1, B) φ^∗_B =X

a

P(A = a1, B) = P (A = a1, B)

ψ_BC^∗ = φ^∗_B

φ_B · ψBC = P(A = a1, B)

1 · P (C | B) = P (A = a1, B, C)

Se puede ver que se han obtenido las marginales como antes, y la evidencia est´a presente en todos los t´erminos.

Las potenciales son marginales sin normalizar. Al normalizarlas se obtienen las condicionales P (B | A = a1) y P (B, C | A = a1).

En la siguiente sección se presentará una aplicación de las Redes Bayesianas en el diagnóstico médico utilizando árboles de unión para realizar la inferencia bayesiana.

(37)

CAP´ITULO 3 32

3.4. Ejemplo de inferencia bayesiana mediante el

´

arbol de uni´ on

Cuando se quiere determinar la presencia o ausencia de una enfermedad en una persona, se toman en cuenta los resultados de las pruebas de dicha enfermedad, además de considerarse también los s´ıntomas que presenta el paciente y los ante- cedente médicos (historial cl´ınico) que tenga [10]. En esta situación es claro que se pueden emplear las Redes Bayesianas para realizar una inferencia probabil´ıstica.

3.4.1. Ejemplo Bronquitis-C´ ancer Pulmonar

Problema: Supóngase que una persona tiene antecedentes de tabaquismo, los cuales tienen una influencia directa en la salud del paciente, ya que el paciente se vuelve propenso a padecer bronquitis o cáncer pulmonar. A su vez, la presencia o ausencia de cada una de estas enfermedades tiene una influencia directa con el s´ınto- ma de tos crónica. Asimismo, la presencia o ausencia de cáncer pulmonar tiene una influencia directa con el hecho de que una radiograf´ıa de torax resulte positiva o negativa.

En esta situación se realizará una inferencia probabil´ıstica que implique el uso de caracter´ısticas que no estén relacionadas de forma directa, por ejemplo obtener las probabilidades condicionales de padecer ya sea bronquitis o cáncer pulmonar cuando el paciente presenta antecedentes de tabaquismo, tós crónica y una radiograf´ıa de torax positiva, por lo que las probabilidades condicionales no se pueden actualizar utilizando una sencilla aplicación del Teorema de Bayes ni una Red Bayesiana sencilla, as´ı que se usarán los conceptos abordados en la sección anterior.

El problema presenta ciertas caracter´ısticas o estados que se quieren determinar, pero que no se pueden calcular con certeza, por lo que s´olo se determina “que tan probable” es que dicha caracter´ıstica particular se encuentre en un estado particular.

Para ello se representan las caracter´ısticas mediante variables aleatorias y se desarrollan las relaciones probabil´ısticas entre las variables. En el problema se identifican las variables aleatorias como: “Antecedentes de tabaquismo” (A), “Bronquitis” (B),

“C´ancer pulmonar” (C), “Tos cr´onica” (T ) y “Radiograf´ıa” (R), con sus respecti- vos conjuntos de valores mutuamente exclusivos y exhaustivos, representados en el siguiente cuadro:

(38)

Variable Valor La variable toma el valor A a₁ Hay antecedentes de tabaquismo

a₂ No hay antecedentes de tabaquismo

B b₁ Bronquitis presente

b₂ Bronquitis ausente C c₁ C´ancer pulmonar presente

T t₁ Tos cr´onica presente

t₂ Tos cr´oncia ausente

R r₁ Radiograf´ıa positiva

r₂ Radiograf´ıa negativa

Ahora se deben identificar las influencia directas entre las variables, por ejemplo A→ B debido a que los antecedentes de tabaquismo tienen influencia directa con la presencia o ausencia de bronquitis, del mismo modo C → R debido a que la presencia o ausencia de cáncer pulmonar tiene una influencia directa con el resultado de una radiograf´ıa de torax. No existe un arco entre A y R ya que el presentar antecedentes de tabaquismo no tiene una implicación directa con los resultados de la radiograf´ıa, sólo la tiene a través de su influencia en la presencia de cáncer pulmonar.

Al obtener todas estas influencias se obtendrá la representación cualitativa de la Red Bayesiana. Después se obtendrá la parte cuantitativa al “juzgar” las probabilidades que tienen los valores de las variables aleatorias que son accesibles, es decir, determinar las probabilidades apriori (P (A)) y las verosimilitudes (P (B | A), P(C | A), P (T | B, C) y P (R | C)) mediante el análisis y estudio de datos estad´ısticos, la experiencia de los doctores, o ambos, obteniéndose as´ı las siguientes probabilidades:

P(ai) = 0.2

P(b1 | a₁) = 0.25 P(b1 | a₂) = 0.05 P(c1 | a1) = 0.003 P(c1 | a2) = 0.00005

P(t1 | b₁, c₁) = 0.75 P (t1 | b₁, c₂) = 0.1 P(t1 | b₂, c₁) = 0.5 P(t1 | b₂, c₂) = 0.05 P(r1 | c₁) = 0.6 P(r1 | c₂) = 0.02

(Estas probabilidades fueron obtenidas de [10]).

(39)

CAP´ITULO 3 34

El resultado ser´a la Red Bayesiana para el problema representada en la figura 3.7.

Figura 3.7: Red Bayesiana G del ejemplo Bronquitis-C´ancer pulmonar

Inferencia mediante el ´arbol de uni´on de G El problema que queremos resolver es el siguiente:

¿Qué enfermedad es más probable que tenga un paciente, bronquitis (b₁) o cáncer pulmonar (c1), si presenta antecedentes de tabaquismo (a1), tós crónica (t1) y una radiograf´ıa de tórax positiva (r1)?

Para dar respuesta a esta pregunta, es claro que se deben de obtener las siguientes probabilidades condicionales

P(B = b₁ | A = a₁, T = t₁, R= r₁) P(C = c1 | A = a₁, T = t1, R= r1)

(40)

las cuales se calcularán utilizando el árbol de unión de la gráfica G de la figura 3.7 al realizar los pasos descritos en el algoritmo 3.3.1:

1. Se realiza la gr´afica Moral M de la Red Bayesiana G , ilustrada en la figura 3.8.

Figura 3.8: Gr´afica moral M de la Red Bayesiana G

2. Se realiza la gr´afica triangular T de M, que, en este caso, es la misma gr´afica de la figura 3.8, ya que no hay bucles con longitud mayor o igual que cuatro.

3. Se identifican los elementos de los bucles de longitud menor o igual que tres, los cuales serán los vértices del árbol de unión (cliques).

En este caso los cliques ser´an los sunconjuntos de V : {A, B, C}, {B, C, T } y {C, R}.

4. Se construye el árbol de unión JT, fijándose en que se cumpla la propiedad del

árbol de unión: en este caso, como son tres vértices en el árbol de unión existen tres intersecciones entre estos:

{A, B, C} ∩ {B, C, T } = {B, C}, {A, B, C} ∩ {C, R} = {C} y {B, C, T } ∩ {C, R} = {C}

Por lo que el orden en que deben de estar ordenados los cliques es:

C₁ = {A, B, C}, C2 = {B, C, T } y C3 = {C, R}.

Ya que de otro modo no se cumple la propiedad mencionada.

Los separadores (S) del árbol de unión serán las intersecciones entre los cliques vecinos, es decir:

S₁ = C1,2 = {B, C} y S2 = C2,3 = {C}.