5. Resultados 46
5.1.1. Reglas de asociaci´ on entre especies de ´ arboles presentes en M´ exico 49
De los datos que se levantan en el INFyS, un candidato ideal para llevar a cabo un ejercicio de miner´ıa de reglas de asociaci´on son las identificaciones taxon´omicas de los ´arboles muestreados. Primero, para llevar a cabo un ejercicio de esta naturaleza se requiere una base de datos de transacciones. Basta con recordar el modelo de la canasta de compras para entender que una transacci´on es simplemente una estructura unificadora de variables, originalmente variables indicadoras de presencia/ausencia de productos en un momento de compra por parte de un consumidor. El concepto de transacci´on sirve para determinar qu´e ocurri´o en un cierto evento y por tanto qu´e constituye un registro en una base de datos de transacciones. Para poder ejecutar un ejercicio de miner´ıa de reglas de asociaci´on de especies de ´arboles utilizando los datos del INFyS, basta con definir los conglomerados como transacciones. Por dise˜no, un conglomerado es una estructura unificadora de los datos que ah´ı se toman. Naturalmente las especies de los ´arboles encontrados en los conglomerados son candidatos id´oneos para ser codificados en vectores de variables binarias. Esto es completamente an´alogo a los vectores de presencias/ausencias de productos asociados a un momento de compra. Tras una depuraci´on del INFyS 2004-2007 se mantienen 18,586 conglomerados en la tabla de datos de trabajo. Se registraron un total 1,466,854 ´arboles, que abarcan un total de 3178 especies diferentes. Por tanto, esta base de datos de transacciones tiene 18,586 registros y cada registro es un vector de 3,178 variables binarias.
Tabla 5.1: Estad´ısticos b´asicos de las transacciones del INFyS (cantidad de especies encontradas)
Media Mediana Desviaci´on est´andar M´ınimo M´aximo
8.96 6 8.66 1 57
Para llevar a cabo el ejercicio de miner´ıa se fij´o un umbral de soporte de 0.01, esto quiere decir que para que una regla sea frecuente deber´a de suceder en al menos 185 transacciones. Se debe notar que al fijar este umbral y por c´omo funciona el algoritmo a priori se descartan en la primera pasada, todos las especies que aparezcan en menos de 185 transacciones. En general estos m´etodos se pensaron para la b´usqueda de patrones que s´olo incluyan variables (productos, especies, etc) que aparezcan en grandes canti- dades en los datos analizados. Se pueden utilizar para deliberadamente buscar patrones m´as chiquitos como se mostrar´a en el siguiente cap´ıtulo, pero hay otras t´ecnicas m´as apropiadas para minar patrones que tomen en cuenta variables con poca presencia pero de gran inter´es. Ver por ejemplo (Huang et al., 2006, p. 240-256).
Figura 5.2:Primeras 35 reglas de asociaci´on entre especies de ´arboles, ordenadas por su soporte.
Se generaron reglas de tama˜no dos, esto es, con s´olo una especie en el antecedente y s´olo una especie en el consecuente. Se filtraron las reglas para mantener s´olo aquellas que tuvieran al menos una confianza de 0.6. Luego de esto se obtienen 473 reglas de asociaci´on entre especies de ´arboles distintas, las primeras 35 reglas con mayor soporte se presentan en la figura 5.2.
5.1.2. Visualizaci´ on e interpretaci´ on de reglas de asociaci´ on entre especies de ´ arboles
Una vez generado y filtrado el conjunto de reglas de asociaci´on resultantes del ejer- cicio de miner´ıa de datos anteior, se deben de interpretar los resultados. Por un lado, la intenci´on de estas t´ecnicas es reducir en la medida de lo posible el esfuerzo hu- mano invertido en encontrar patrones interesantes en datos. Por otro lado, es sustentar conocimiento experto e incluso, con cautela, generar nuevo conocimiento sustentado primordialmente en evidencia. En el ejercicio anterior se eligieron filtros bastante es- trictos para no generar una cantidad exorbitante de reglas de asociaci´on.
Tambi´en s´olo se generaron reglas de tama˜no 2 para que las reglas fuesen f´acilmente interpretables,especie 1 implicaespecie 2. A´un as´ı, analizar 473 reglas para determinar cu´ales son interesantes no es una tarea trivial. Una posible aproximaci´on es la visuali- zaci´on de las reglas para su posterior interpretaci´on. Existen m´ultiples propuestas para visualizar conjuntos frecuentes de art´ıculos y reglas de asociaci´on, una popular es in- ducir un grafo a partir de los resultados de un ejercicio de miner´ıa de datos. Esto es, considerer las implicaciones en las reglas de asociaci´on como v´ertices y los conjuntos antecedentes y consecuentes como nodos (Hipp et al., 1994, p. 6). Se pueden agregar pesos a las aritstas, por ejemplo cualquiera de las medidas descritas en 4.2.2 y visualizar esto como el ancho de las l´ıneas o con ciertas rampas de colores. Los nodos tambi´en pueden ser coloreados de distintas maneras, por ejemplo con base en variables de agru- pamiento; en nuestro caso g´enero, familia, clase, etc. Niveles taxon´omicos m´as generales que las especies. Los grafos son una manera muy clara de representar m´ultiples reglas y sus medidas simult´aneamente siempre y cuando no se generan a partir de demasiados conjuntos frecuentes de art´ıculos o reglas de asociaci´on; si este es el caso, los grafos resultantes pueden estar demasiado saturados de nodos y/o aristas como para poderse interpretar.
Se gener´o un grafo dirigido a partir de las 473 reglas de asociaci´on entre especies de ´arboles descubiertas en el ejercio de miner´ıa de datos sobre el INFyS 2004-2007.
Estas reglas abarcan ´unicamente 105 especies distintas de ´arboles. Se asign´o un color
Figura 5.3:Un subgrafo de asociaciones entre (13) especies de ´arboles.
a cada uno de estos 105 nodos basado en su g´enero y a los v´ertices se les aplic´o un tono distinto de rojo dependiendo del nivel de confianza de la regla de asociaci´on que representa. Por ejemplo, el mayor grado de confianza se dio en la relaci´on de la especie Neomillspaughia emarginata con la especie Bursera simaruba (0.97). Adicionalmente, se calcul´o el grado de salida (es decir, cu´antas aristas salen de un determinado nodo) para entender qu´e especies son las m´as influyentes. Se asign´o un tama˜no a los nodos proporcional a este grado. De las 105 especies s´olo cuatro aparecen con un nivel nulo de influencia, Bursera simaruba, Arbutus xalapensis, Juniperus deppeana y Lysiloma divaricatum. Dos especies,Gymnanthes lucida yBunchosia swartziana, tienen el mayor nivel de influencia con aristas hacia otras 12 especies de ´arboles. Estas relaciones se presentan en el subgrafo visualizado en la figura 5.3. De manera an´aloga al grado de salida de los nodos de especies de ´arboles, se calcul´o el nivel de grado de entrada de cada uno. Con base en esto se observ´o que 78 especies no son “influidas” por ninguna otra, pero estas 78 s´ı ejercen influencia en por lo menos alguna otra especie. La especie sobre la cual se ejerce m´as influencia esBursera simaruba con una entrada de 84 aristas
seguida por Vitex gaumeri, con 63.
Se gener´o otra visualizaci´on del grafo de conexiones entre especies con base en el algoritmo de Yifan Hu. Este algoritmo ´unicamente acomoda los nodos y aristas de una manera que facilite su intepretaci´on, es una combinaci´on de un modelo dirigido por fuerzas y una t´ecnica de engrosamiento de grafo (un algoritmo multinivel). Es- te algoritmo tiende a facilitar la identificaci´on de grupos con conexiones similares (Hu, 2005, p. 37-70). Utilizando esta visualizaci´on se distinguieron claramente cuatro grupos.
S´olo se mostrar´a y analizar´a el segundo grupo m´as chico. Este peque˜no cluster consta de ´unicamente cuatro especies, Bursera microphylla, Pachycereus pringlei, Fouquieria diguetii y Stenocereus gummosus (ver figura 5.4). Cabe notar que en este cluster las cuatro especies pertenecen a g´eneros distintos aunque Stenocereus y Pachycereus son de la familia Cactaceae. Es importante mencionar que el concepto de ´arbol se refiere m´as a la forma y estructura de una planta no a sus propiedades bot´anicas y por tanto algunas cact´aceas son consideradas ´arboles y otras no. En el INFyS se muestrean tanto algunas cact´aceas como algunos arbustos.
Los conglomerados del INFyS efectivamente son, por dise˜no de muestreo, unidades unificadoras de datos. Pero tambi´en son unidades de un muestreo espacial y abarcan y representan porciones de terreno del territorio nacional. De aqu´ı que las relaciones encontradas son primeramente de un car´acter espacial: dadas unidades espaciales fijas, qu´e especies conviven en mayor o menor medida. Este tipo de relaciones se engloban en el concepto denominado co-ocurrencia espacial y su utilidad fue insinuada en el ejemplo del virus del Nilo al final de la secci´on 4.1. La representaci´on de las relaciones entre 4 especies de ´arboles visualizada en la figura 5.4 se obtuvieron de las reglas de asociaci´on minadas a partir de los datos que se representan en el mapa 5.5. Se confirma que justamente las relaciones encontradas se refieren a la cuantificaci´on del grado de co-ocurrencia espacial de las especies con base en las t´ecnicas de miner´ıa de datos propuestas.
Figura 5.4:Un subgrafo de asociaciones entre (4) especies de ´arboles.
Como conclusi´on final a este ejercicio se debe hacer hincapi´e que en un ejercicio de miner´ıa de datos espacial, nunca se debe de olvidar que los procesos estudiados se dan en un espacio espec´ıfico. En este ejercicio se encontr´o que existe un alto grado de co-ocurrencia espacial entre las especies Bursera microphylla, Pachycereus pringlei, Fouquieria diguetii y Stenocereus gummosus, pero esto no se da de manera uniforme a lo largo del pa´ıs, la convivencia simult´anea de las 4 especies se da principalmente en la pen´ınsula de Baja California.
´ITULO5.RESULTADOS55
Figura 5.5: Conglomerados INFyS con presencia deBursera microphylla,Pachycereus pringlei,Fouquieria diguetii yStenocereus gummosus.