Centro P´ ublico de Investigaci´ on CONACYT

El Capítulo 3 cuenta la historia y describe la importancia de recopilar datos sobre biodiversidad en México. El Capítulo 4 presenta los métodos de minería de datos explorados en esta investigación: aprender reglas de asociación.

Datos de biodiversidad mexicana

Por ejemplo, se pueden generar datos detallados sobre la estructura forestal a partir de datos obtenidos mediante medición por láser (LIDAR). La API es limitada y las descargas de gran parte de la base de datos se realizan bajo demanda.

Comunidades ecol´ ogicas y co-ocurrencia espacial de especies

Se requiere una base de datos de transacciones para realizar la extracción de conjuntos de cláusulas frecuentes o reglas de asociación. Son una interpolación de datos in situ (adquiridos por INFyS) a partir de datos de series temporales de la misión espacial MODIS2, superficies climatológicas previas y un modelo digital de elevación (DEM).

Metodolog´ıas 23

Miner´ıa de reglas de asociaci´ on

Conjuntos frecuentes de art´ıculos
Reglas de asociaci´ on
El algoritmo a priori

Por un lado, están los bienes (originalmente esto se definía pensando en los bienes a la venta en una tienda). Para caracterizar un conjunto de datos, es útil buscar conjuntos frecuentes de artículos y presentarlos como reglas si-entonces; estas son las llamadas reglas de asociación. La búsqueda de conjuntos frecuentes de elementos y reglas de asociación en una gran base de datos de transacciones solo es posible considerando dos conceptos.

Si un conjunto C de elementos es frecuente, entonces cualquier subconjunto de C también lo es. Cada conjunto frecuente de elementos (conjunto con soporte por encima del límite de soporte) se puede convertir en una regla de asociación. Las reglas de asociación simplemente heredan el soporte de los frecuentes conjuntos de objetos que las generan.

Ya se ha insinuado, pero es importante señalarlo, en términos de grupos de artículos frecuentes y reglas de asociación; el apoyo es la piedra angular. La relación entre grupos de elementos frecuentes y reglas de asociación puede parecer simple, ya que surgen exactamente del mismo proceso.

Construcci´ on de transacciones espaciales

Este procedimiento es realmente sencillo cuando se realiza sobre la base de un bastidor convencional con celdas de un tamaño predeterminado. La elección de las ventanas es independiente del ejercicio minero en sí; Después de construir las transacciones, se puede realizar un ejercicio típico de minería de datos. Esto representa el 75% de los vecindarios de avistamientos de Dipodomys ordii que contienen avistamientos de Dipodomys merriami, ver Figura 4.4.

Debido al tamaño de las bases de datos, para realizar los cálculos lo más rápido posible, se utilizarán grillas regulares para construir transacciones espaciales sobre observaciones georreferenciadas de seres vivos, como las que se encuentran en el SNIB. Imponer una partición artificial para inducir transacciones tiende a dar como resultado un recuento insuficiente de instancias cercanas a los límites de los elementos de la partición (por ejemplo, celdas), así como un recuento excesivo de ellas cuando se distribuyen grupos de instancias. - buidas en conglomerados espaciales (Shekhar y Huang), 2001, p. 237). Este fenómeno está estrechamente relacionado con el tamaño de las unidades de separación y fue documentado por primera vez en (Gehlke y Biehl, 1934, pp. 450-451).

Si el tamaño de la celda tiende a 0, todas las transacciones estarán vacías. Por el contrario, si el tamaño de la celda tiende al infinito, todas las observaciones pertenecerán a la misma transacción (Sierra y Stephens, 2012, p. 450-451).

Miner´ıa de reglas de asociaci´ on en datos de tipo mixto

Cuantizaci´ on

Este proceso de representar un conjunto de valores grande, posiblemente infinito, con un conjunto más pequeño se llama cuantificación. Por si esto fuera poco, la cuantificación permite no sólo el almacenamiento de señales analógicas, sino desde mediados del siglo pasado, su transmisión con ayuda de la tecnología. La cuantificación del tamaño de la señal de voz es una innovación bastante reciente.

En consecuencia, la cuantificación ha recibido mucha atención desde diversas perspectivas (Dongju y Jian, 2009; Chmielewski y Grzymala-Busse, 1996; Fayyad e Irani, 1993). La cuantificación escalar se basa en determinar límites en el rango de una variable para obtener un conjunto de intervalos en ese rango que mantengan una buena coherencia de clase. La fotografía de Dipodomys ordii presentada en la Figura 6.2 tiene 3 canales de color, por lo tanto una cuantificación escalar uniforme sólo se puede realizar en cada uno de los canales por separado.

Para dar otro ejemplo de cuantificación escalar general, es posible que deseemos tener una cuantificación uniforme en la cantidad de datos por intervalo, y no en su rango; Por lo tanto, se pueden utilizar percentiles (por ejemplo, P10, P20,..., P90) para encontrar los puntos de corte. La cuantificación escalar genera un rango de valores que permite asignar un rango grande de valores a un rango mucho más pequeño, conservando al mismo tiempo la mayor cantidad de información posible de los datos originales.

Miner´ıa de reglas de asociaci´ on para aprendizaje supervisado

Los datos recopilados bajo el INFyS presentado en el Capítulo 2 se utilizaron para realizar un ejercicio de minería de datos. Para realizar un ejercicio de minería de reglas para asociaciones de especies de árboles utilizando datos INFyS, es suficiente definir los clusters como transacciones. Una vez generado y filtrado el conjunto de reglas de asociación resultantes del ejercicio de minería de datos anterior, se deben interpretar los resultados.

Se creó un gráfico dirigido a partir de 473 reglas de asociación entre especies de árboles descubiertas en un ejercicio de minería de datos en INFyS 2004-2007. La representación de las relaciones entre las 4 especies de árboles que se muestran en la Figura 5.4 se obtuvo a partir de las reglas de asociación obtenidas de los datos presentados en el Mapa 5.5. Se confirma que las relaciones encontradas con precisión se relacionan con la cuantificación del grado de coexistencia espacial de especies con base en las técnicas de minería de datos propuestas.

Como se indicó, se requiere una base de datos de datos para realizar un ejercicio de minería de datos. A partir de la tabla de entrenamiento, se generó una colección de clasificadores basados en reglas de asociación.

Resultados 46

Reglas de asociaci´ on entre especies de ´ arboles presentes en M´ exico 49

A partir de los datos recopilados en el INFyS, un candidato ideal para realizar un ejercicio de minería de reglas de asociación son las identificaciones taxonómicas de los árboles muestreados. Se generaron reglas de tamaño dos, es decir, con una sola especie en el antecedente y una sola especie en el consecuente. Posteriormente se obtienen 473 reglas de asociación entre diferentes especies de árboles, las primeras 35 reglas con mayor soporte se presentan en la figura 5.2.

En el ejercicio anterior se eligieron filtros bastante estrictos para no generar un número exorbitante de reglas de asociación. Además, solo se generaron reglas de tamaño 2 para que las reglas fueran fácilmente interpretables, el tipo 1 implica el tipo 2. Hay varias propuestas para visualizar conjuntos frecuentes de elementos y reglas de asociación. Una opción popular es generar un gráfico a partir de los resultados de un archivo de datos. ejercicio minero.

Es decir, considerar las implicaciones en las reglas de asociación como vértices y los conjuntos anteriores y siguientes como nodos (Hipp et al., 1994, p. 6). Los gráficos son una forma muy clara de representar múltiples reglas y sus objetivos simultáneamente, siempre y cuando no se generen a partir de demasiados conjuntos frecuentes de estatutos o reglas de asociación; Si este es el caso, los gráficos resultantes pueden estar demasiado saturados con nodos y/o aristas para ser interpretados.

Miner´ıa de datos del SNIB

Conjuntos frecuentes de especies con avistamientos de rata can-
Visualizaci´ on e interpretaci´ on de relaciones de co-ocurrencia de

Conjuntos de especies comunes con avistamientos de la rata canguro Dipodomys spectabilis la rata canguro Dipodomys spectabilis. La especie de rata canguro Dipodomys spectabilis fue estudiada extrayendo grupos de especies comunes donde se encontraba. Se extrajeron grupos de hasta 3 tamaños para encontrar grupos de especies comunes que se encontraran juntos.

Se utilizó la coocurrencia para estudiar las relaciones entre estas especies cuando se encontró un par de especies en el mismo grupo frecuente. En base a esto, se identificaron 284 relaciones únicas entre pares de 36 especies anteriores. Visualización e interpretación de las relaciones de coocurrencia de Dipodomys spectabilis con otras especies.

Esta vez las conexiones no fueron dirigidas y los vértices no representan ningún peso, sino simplemente una relación de coocurrencia espacial significativa (basada en el umbral de soporte elegido, 0,006). Para leer e interpretar la red, se utilizó nuevamente el algoritmo proporcional de Yifan Hu y se experimentaron dos tipos de diferenciación de colores: primero por género (ver Figura 5.8) y luego por orden (ver Figura 5.9).

Miner´ıa de conjuntos frecuentes para an´ alisis exploratorio de h´ abitats de

La distribución de Panthera onca abarca varios ecosistemas, pero es bien sabido que está más presente en la ecozona Neotropical3. Aunque el análisis exploratorio presentado no arroja conclusiones verdaderamente nuevas, demuestra que el flujo de trabajo propuesto facilita la integración de datos de múltiples fuentes en el mismo ejercicio de minería de datos. Este tema se llama oficialmente minería de reglas de asociación cuantitativa y existen propuestas más avanzadas que simplemente cuantificar las variables de entrada.

Ampliar esto va más allá de la intención de esta tesis, pero el trabajo futuro queda por estudiar qué se puede lograr con las técnicas de minería de reglas de asociación cuantitativa más innovadoras. Lo descrito en el apartado anterior se utilizará para abordar el clásico problema de modelar la distribución de una especie en función de su presencia georreferenciada. Una posible solución a esto es generar datos de pseudoausencia específicos.

El objetivo de esta tesis fue crear un marco que permitiera el uso de técnicas clásicas de minería de datos en un contexto espacial. Esto nos permitió generar un mapa de distribución de alta calidad para la rata canguro, Dipodomys spectabilis, utilizando observaciones de especies concurrentes como variables predictivas.