Análisis Multiresolución
ii
1. Introducción 1
2. Estudio del Problema de Investigación 3
2.1. Planteamiento del Problema . . . 3
3. Formulación del Problema 5 4. Sistematización del Problema 7 4.1. Objetivos de la Investigación . . . 7
4.2. Objetivo General . . . 7
4.3. Objetivos Específicos . . . 7
5. Justificación de la Investigación 9 6. Hipótesis de la Investigación 11 7. Marco Referencial 13 7.1. Marco Teórico . . . 13
7.1.1. Modelo pseudomatemático para el diseño de bases de datos relacionales . . . 13
7.1.2. Inteligencia de Negocios: . . . 14
7.1.3. Bodega de datos: . . . 15
7.2. Marco Conceptual . . . 15
8. Aspectos Metodológicos 19 8.1. Tipo de estudio . . . 19
8.2. Método de investigación . . . 19
8.3. Fuentes y técnicas para la recolección de información . . . 19
9. Desarrollo y Resultados 21 9.1. Diseño . . . 21
9.2. Base de Datos Árboles . . . 21
iv ÍNDICE GENERAL 9.3. Bodega de Datos . . . 25
Introducción
Una problemática fundamental para el desarrollo forestal en el territo- rio Colombiano es la carencia de conocimiento, dado principalmente en la caracterización oportuna de una especie de madera para poder llegar a la identificación, clasificación y distribución de manera acertada.
Utilizando el estudio de la segmentación de imágenes de microestructura anatómica mediante el análisis multiresolución [1], en el cual, se construye un modelo a partir de datos recolectados en una imagen tratada digitalmente, se puede realizar una lectura para clasificar el tipo de madera en estudio a partir de un determinado corte. En este documento se diseñará un prototipo de sistema de información para procesar los datos generados por el análisis multiresolución.
En la primera parte se realizará una breve introducción teórica de la made- ra y el análisis multiresolución como método de clasificación de la madera.
La segunda parte del documento corresponde al diseño de la base de da- tos el cual incluye su contexto, modelo notacional de conjuntos, diagrama relacional y diagrama entidad relación.
2 CAPÍTULO 1. INTRODUCCIÓN
Estudio del Problema de Investigación
2.1. Planteamiento del Problema
Las estadísticas acerca de los exportadores de madera y productos deri- vados a nivel mundial establecen que Colombia y los demás países latinoa- mericanos no lideran este mercado. Los principales proveedores son: China, Alemania, Canadá, Estados Unidos y Polonia que representan el 43 % de las exportaciones mundiales [1] (2015). Uno de los principales problemas que enfrenta el ámbito Colombiano es la caracterización oportuna de la madera que se requiere, ya que solo personas expertas con amplios conocimientos en la anatomía microscópica típica de una muestra de madera pueden llegar a hacer una caracterización para su identificación. Este proceso puede ser arduo, requerir demasiado tiempo y brindar un nivel de error no aceptable.
En caso de no optimizar el proceso de clasificación de la madera debido a la problemática ya descrita, Colombia seguirá rezagada en términos de producción y exportación.
Mediante el análisis multiresolución se optimiza la segmentación de micro- estructuras anatómicas para la identificación y clasificación del leño [2], sin embargo, no existe un sistema de información que almacene, procese y en- tregue información critica, extraída de las imágenes, que enriquezca la expe- riencia en el uso del software y que permita establecer relaciones no triviales entre las características extraídas.
4 CAPÍTULO 2. ESTUDIO DEL PROBLEMA DE INVESTIGACIÓN
Formulación del Problema
¿De qué manera puede el análisis multiresolución influir en la mejora de las exportaciones de madera en Colombia teniendo en cuenta su explotación racional en términos ambientales?
6 CAPÍTULO 3. FORMULACIÓN DEL PROBLEMA
Sistematización del Problema
• ¿Cuál es el diseño adecuado de la base de datos de acuerdo con la información a procesar extraída del análisis multiresolución?
• ¿Cual arquitectura de inteligencia de negocios apoya la resolución de estadísticas de clasificaciones de madera?
4.1. Objetivos de la Investigación 4.2. Objetivo General
Diseñar un prototipo de modulo de software que complemente los servi- cios de aplicaciones existentes para retroalimentar, a través de la inteligencia de negocios, la clasificación de la madera como resultado del análisis multi- resolución.
4.3. Objetivos Específicos
• Diseñar y construir el modelo de persistencia que almacenará la información generada por el análisis multiresolución.
• Diseñar el módulo de software que procesará y retroalimentará la información almacenada a través de modelos de inteligencia de nego- cios básicos.
• Diseñar el software que sea necesario, para visualizar la información generada por el análisis multiresolución a través de reportes.
8 CAPÍTULO 4. SISTEMATIZACIÓN DEL PROBLEMA
Justificación de la Investigación
Este proyecto busca herramientas de la ingeniería de software para ro- bustecer el sistema de segmentación de estructuras en imágenes de la mi- croanatomía de la madera, clave en la caracterización de un leño, ya que Colombia es una potencia en producción a gran escala de maderas y el bajo conocimiento de las características del sin número de maderas autóctonas frena el proceso de industrialización responsable de la producción maderera.
10 CAPÍTULO 5. JUSTIFICACIÓN DE LA INVESTIGACIÓN
Hipótesis de la Investigación
El empleo del análisis multiresolución agiliza la lectura de las variables presentes en los cortes de madera, y el procesamiento de los datos recolec- tados, mediante el prototipo a diseñar, agiliza la clasificación de la madera y por lo tanto, da posibilidad de aumentar las exportaciones de madera en el territorio Colombiano.
La segmentación de microestructuras en imágenes de microanatomía de la madera, es un proceso dispendioso que, no sólo requiere tiempo, sino tam- bién del personal capacitado y de un laboratorio especializado en maderas.
Este proyecto entonces, es un paso encaminado hacia la automatización de la segmentación de microestructuras en el leño, fundamentales para reali- zar la caracterización y posterior identificación de los árboles de los cuales proviene dicha madera.
12 CAPÍTULO 6. HIPÓTESIS DE LA INVESTIGACIÓN
Marco Referencial
7.1. Marco Teórico
7.1.1. Modelo pseudomatemático para el diseño de bases de datos relacionales
Es un modelo para el diseño de bases de datos que se fundamenta en dos preguntas básicas para la abstracción del sistema a modelar: ¿qué se quiere controlar? y ¿para quién se quiere controlar?. A partir de estas preguntas se emplean los axiomas de Armstrong [3] que permiten resolver las dependen- cias funcionales entre las clases a partir de sus formas normales.
El modelamiento de una base de datos no solo debe ser funcional, tam- bién debe corresponder a una estética y parte de esa estética es derivada de la concepción de los objetos de la base de datos, por lo tanto dentro del modelamiento pseudomatemático para el diseño de bases de datos relacio- nales se contempla así mismo el modelamiento notacional de conjuntos, el modelo relacional y el modelo entidad-relación, permitiendo así un alto nivel de abstracción tanto de la base de datos como de sus objetos, permitiendo establecer nuevas relaciones entre la información
En la Figura 1 se representan los conceptos necesarios para definir un con- texto. Se puede representar la misión como la narrativa que responde a las dos preguntas anteriormente descritas:
Misión: Controlar las características de las imágenes de árboles.
Entidades: Son las clases que nos representan los objetos de la misión en la cual posteriormente se derivan las tablas del diseño de la base de datos (Clientes, Facturas, Artículos).
Relación Inversa: Son las relaciones que nos definen las dependencias fun- cionales entre las entidades, las cuales pueden ser dependencia funcional exclusiva o dependencia funcional no exclusiva.
14 CAPÍTULO 7. MARCO REFERENCIAL A partir del contexto se pueden determinar niveles de diseño (Formas Nor- males) de acuerdo con las siguientes reglas:
Contexto + Autodeterminación. (1FN)
Identificación de: PK, FKD (Foreign Key por defecto), Dependencia funcio- nal (Exclusiva, no Exclusiva) (2FN).
La resolución de la dependencia funcional; en el caso de DFE el diseño llega a 3FN, en el caso de la DFNE el diseño puede alcanzar a 4FN-5FN.
• Primera Forma Normal Una tabla se encuentra en primera for- ma normal cuando:
Los atributos de la tabla son atómicos, es decir, no tienen posibilidad de ser más divididos; por ejemplo, el nombre de una persona solo se puede separar en nombres y apellidos.
La tabla tiene definido un campo que permite identificar de forma única e inequívoca todo el registro; este campo se conoce como llave primaria.
• Segunda Forma Normal Un diseño se encuentra en su segunda forma normal cuando:
Los atributos de la tabla que no son clave principal tienen correspon- dencia única con la clave principal, por ejemplo, el nombre de una persona tiene correspondencia única con su cédula.
• Tercera Forma Normal Un diseño se encuentra en su tercera forma normal cuando:
Los atributos no clave deben ser completamente dependientes de la clave principal; para el cumplimiento de esta forma normal se crean las tablas que relacionan clientes con facturas y facturas con productos.
• Cuarta Forma Normal Un diseño se encuentra en su cuarta for- ma normal cuando:
Los atributos que pueden tener multivalores se separan en dos o más relaciones independientes; el ejemplo se aplica para el caso de muchos productos en una factura y un producto en varias facturas.
7.1.2. Inteligencia de Negocios:
Se entiende por Inteligencia de Negocios al conjunto de metodologías, prácticas y capacidades enfocadas a la creación y administración de informa- ción que permite tomar mejores decisiones a los usuarios de una organización [4]. Por tanto la Inteligencia de negocios no es propiamente una tecnología sino una metodología que sugiere el uso de totalizadores y cuantificadores, basados en el agrupamiento de los atributos que definen las jerarquías o dimensiones, a partir de las cuales es posible generar nuevos escenarios de análisis.
Una bodega de datos, comúnmente conocida por sus siglas en inglés como DWH (DataWareHouse), es un repositorio que proporciona una visión global e integrada de los datos de una organización. La bodega de datos debe tener las siguientes características: Orientada a un tema, integrada, desnormalizada, variable en el tiempo y no volátil.
Elementos de una bodega de datos:
Los elementos de una Bodega de datos son:
• Tabla de hechos. Es la representación de los proceso de negocio de la organización.
• Dimensiones. Es la representación de una vista para un cierto proceso de negocio.
Dimensión tipo 0 o estática. Es una dimensión cuya información no cambia ni se reescribe.
Dimensión tipo 1 o de cambios rápidos. No se almacenan datos históricos, la información esta cambiando constantemente.
Dimensión tipo 2 o de cambios lentos. Se almacenan datos his- tóricos, la información esta cambiando periódicamente y se con- serva cada uno de estos cambios.
• Métricas Son los indicadores de un proceso de negocio.
7.2. Marco Conceptual
• Transformada wavelet bidimensional discreta: Es una extensión de la transformada wavelet unidimensional discreta, dónde analiza las se- ñales direccionalmente por filas y columnas. El resultado de este análi- sis son cuatro matrices de coeficientes: matriz de coeficientes de aproxi- mación y matrices de detalles horizontales, verticales y diagonales. El modelo matemático para obtener estas matrices computacionalmente se aplica a través de filtros digitales pasa alto y pasa bajo, los coefi- cientes de estos filtros se obtienen a partir del muestreo de la función de escala φ(x) y la wavelet madre ψ(x) respectivamente.
• Análisis Multiresolución: Es una teoría matemática que demuestra la
16 CAPÍTULO 7. MARCO REFERENCIAL La transformada wavelet, descompone una imagen en cuatro matrices de coeficientes de menor tamaño, genera un subespacio de la imagen original, una de estas matrices es la matriz de coeficientes de apro- ximación la cual es una replica suavizada de la imagen original. La transformación sucesiva de las matrices de coeficientes de aproxima- ción genera subespacios anidados, contenidos en el espacio de la imagen original. La posibilidad de analizar una imagen en diferentes subespa- cios anidados es a lo que se le denomina análisis multiresolución.
• Latifoliadas: Planifolio o latifolio o de hoja ancha, hace referencia a los árboles o arbustos considerados frondosos por sus hojas anchas y planas, nativas de las zonas tropicales. En contraste, a las coníferas que poseen hojas estrechas, pudiendo ser aciculares o escamadas. Estas son plantas superiores del reino vegetal, con sus semillas dentro de un ovario, la conducción de los líquidos se realiza a través de vasos.
Además, son árboles de copa globosa, de dimensiones variables, con hojas de lámina amplia, expandida, que pueden ser caducas o perennes.
• Microestructura anatómica de la madera: A nivel microscópico en el corte transversal de la muestras se pueden apreciar tres elementos estructurales:
Poros en el corte transversal son elementos de gran tamaño y de for- ma oval, en general son los vasos que conducen savia y nutrientes a lo largo de la madera de una forma paralela al eje principal del tronco del árbol. Figura 1.
(a) (b) (c)
Figura 7.1: Imágenes de muestra de poros: (a) Espécimen con poros en serie única (uniseriados) y solitarios, de doble pared celular. (b) Espécimen con poros en racimo y solitarios de tamaños diferentes, de doble pared celular.
(c) Espécimen con poros solitarios de diferentes tamaños y pared celular única.
Radios son una agrupación de células que atraviesan el corte, estos almacenan y conducen nutrientes de manera transversal y dan rigidez a la madera.Figura 2.
(a) (b) (c)
Figura 7.2: Muestra de radios: (a) Espécimen con células radiales con ten- dencia oval. (b) Espécimen con células radiales alargadas y compactas. (c) Espécimen con células radiales alargadas y dispersas.
Parénquima es el tejido más abundante presente en las imágenes; se caracteriza por estar conformado por pequeñas células que, en la mayoría de casos, son de tamaño mucho menor a las células que conforman los radios y los poros. Figura 3.
(a) (b) (c)
Figura 7.3: Diferentes formas de parénquima: (a) Espécimen con células de parénquima poligonales. (b) Espécimen con células de parénquima ovales.
(c) Espécimen con células de parénquima difusas.
• Bases de Datos Relacionales: Son aquellas bases de datos en las cua- les los datos se almacenan en relaciones y una relación se puede repre- sentar por medio de una tabla. Toda relación tiene un nombre y consta de un conjunto de filas y columnas. Las columnas se corresponden con los atributos de la relación o propiedades de la misma, por su parte las filas se llaman también tuplas y cada tupla contiene una serie de valores para cada uno de los atributos de la relación.
18 CAPÍTULO 7. MARCO REFERENCIAL que desplegarán y cómo lo llevarán a cabo. En medio de cualquier negociación existirán cuatro enfoques básicos, que son: pierdo-gana, pierdo-pierde, gano-pierde y gano-gana.
• Datos: Un dato es una representación simbólica de un atributo o varia- ble cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios, los datos representan la información que el pro- gramador manipula en la construcción de una solución.
• Procedimiento: Un procedimiento es un conjunto de acciones u ope- raciones que tienen que realizarse de la misma forma, para obtener siempre el mismo resultado bajo las mismas circunstancias.
• Aplicaciones: En general, una aplicación es un programa compilado, escrito en cualquier lenguaje de programación, que permite a un usua- rio utilizar una computadora con un fin específico. Las aplicaciones son parte del software de una computadora, y suelen ejecutarse sobre el sistema operativo.
Aspectos Metodológicos
8.1. Tipo de estudio
Se infiere como tipo de estudio el descriptivo, ya que el estudio de la segmen- tación de imágenes de microestructura anatómica de la madera mediante el análisis multiresolución es un tema novedoso en el cual no se encuentra teoría relacionada.
8.2. Método de investigación
Inducción.
8.3. Fuentes y técnicas para la recolección de in- formación
Artículos, revistas.
20 CAPÍTULO 8. ASPECTOS METODOLÓGICOS
Desarrollo y Resultados
9.1. Diseño
El prototipo lo conforman los siguientes componentes (Figura 9.1):
• Web Api El web api contendrá operaciones POST para almacenar las lecturas que se realicen desde las interfaces de software ya existentes.
• Base de Datos de Arboles La base de datos de arboles contendrá el diseño relacional de nuestro contexto de negocio.
• ETL1 Realizará las operaciones de consolidado de información para ali- mentar la tabla de dimensiones.
• Base de datos Dimensiones La base de datos de dimensiones conten- drá una o mas tablas de dimensiones para consolidado previo.
• ETL2 Realizará las operaciones de consolidado para alimentar la tabla de hechos
• Base de datos Hechos La base de datos de hechos contendrá una o mas tablas de hechos.
• Web Reportes Contendrá los diferentes reportes de inteligencia de ne- gocios a partir del consolidado de la tabla hechos.
9.2. Base de Datos Árboles
Esta base de datos almacena la información de salida del programa de segmentación de microestructuras en la madera, basada en la definición del contexto del sistema y a partir de la resolución de las dependencias funcio-
22 CAPÍTULO 9. DESARROLLO Y RESULTADOS
Figura 9.1: Diseño del software.
Figura 9.2: Diagrama de contexto 9.2.1. Modelo Notacional de Conjuntos
Arbol {IdArbol (PK),EspecieArbol (FKD), TipoArbol (FKD),Edad,FecRegistro}
EspeciesArbol {EspecieArbol (PKE), NomEspecieArbol}
TiposArbol {TipoArbol (PKE), NomTipoArbol}
Imagenes {IdImagen (PK), TipoImagen (FKD), TipoWavelet (FKD), Fe- chaCaptura, IdArbol (FKP)}
TiposImagen {TipoImagen (PKE), NomTipoImagen}
TiposWavelet {TipoWavelet (PKE), NomTipoWavelet}
Imagenes_Caracteristicas {IdImagen+IdCaracterística (PKE), Valor}
Caracteristicas {IdCaracterística (PK), NomCaracteristica}
Modelo relacional de la base de datos para el control de las características de las imágenes de los árboles (Figura 9.3).
Figura 9.3: Modelo relacional de la base de datos
Inventario de Datos
• IMAGENES_CARACTERISTICAS Debido a la dependencia fun- cional no exclusiva entre la clase Imágenes y Caracteristicas del dia- grama de contexto, para resolver la dependencia funcional es necesaria la elaboración de esta entidad con una llave multiatributo, compuesta por la llave primaria de la clase Imágenes y la llave primaria de la clase Características.
IdImagen+IdCaracteristica Llave primaria multiatributo emergen- te de la resolución de la dependencia funcional entre las clases.
Valor Cuantificación de la característica a medida.
• IMAGENES Entidad que representa las imágenes de entrada y la trans- formación aplicada para la obtención de las medidas.
IdImagen Llave primaria, identificador único de la imagen.
TipoImagen Llave foránea por defecto, identificador del tipo de ima- gen.
24 CAPÍTULO 9. DESARROLLO Y RESULTADOS IdArbol Llave foránea de proceso, Identificador del Árbol
• CARACTERISTICAS Entidad que representa las características me- dibles dentro de cada imagen.
IdCaracteristica Llave primaria, identificador único de la caracte- rística.
NomCaracteristica Nombre de la característica.
• TIPOSIMAGEN Entidad que representa los tipos de imagen posible.
TipoImagen Llave primaria emergente, identificador único de la ca- racterística.
NomTipoImagen Nombre del tipo de imagen.
• TIPOSWAVELET Entidad que representa los tipos de wavelet apli- cados a la imagen durante la segmentación para la extracción de ca- racterísticas.
TipoWavelet Llave primaria emergente, identificador único de la wa- velet.
NomTipoWavelet Nombre de la wavelet.
• ARBOL Entidad que representa los árboles.
IdArbol Llave primaria, identificador único del árbol.
EspecieArbol Llave foránea por defecto, identificador único de la especie del árbol.
TipoArbol Llave foránea por defecto, identificador del tipo de árbol.
Edad Edad del árbol.
FecRegistro Fecha de registro del árbol.
• ESPECIESARBOL Entidad que representa las especies de lo árboles.
EspecieArbol Llave primaria emergente, identificador único de la especie.
NomEspecieArbol Nombre de la especie.
• TIPOSARBOL Entidad que representa los tipos de árbol.
TipoArbol Llave primaria emergente, identificador único del tipo de árbol.
NomTipoArbol Nombre del tipo de árbol.
En la bodega de datos se realiza la agrupación de los datos con respecto a: las imágenes, los tipos de imagen, las especies, los árboles, el tiempo y todas las mediciones extraídas durante la segmentación (Figura 9.4).
Figura 9.4: Modelo relacional de la bodega de datos
Inventario de Datos
• TBL_FACT_METRICAS_ARBOL Entidad en la que se almace- na, de manera desnormalizada, todas las mediciones efectuadas a tra-
26 CAPÍTULO 9. DESARROLLO Y RESULTADOS IdTipoImagen Llave subrogada de la dimensión de tipos de imáge-
nes, identificador único del tipo de imagen.
IdEspecie Llave subrogada de la dimensión de especies, identificador único de la especie.
IdArbol Llave subrogada de la dimensión de árboles, identificador único del árbol.
IdFechaCaptura Llave subrogada de la dimensión de tiempo, iden- tificador único de la fecha de captura.
IdcaracterIstica Llave subrogada de la dimensión de características, identificador único de la característica.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
• TBL_DIM_IMAGENES_T1 Dimensión de cambios rápidos en la que se almacena la información de las imágenes.
IdImagen Llave subrogada de la dimensión de imágenes, identifica- dor único de la imagen.
NomImagen Llave primaria de la dimensión de imágenes, nombre de la imagen.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
• TBL_DIM_TIPOS_IMAGENES_T0 Dimensión estática en la que se almacenan los tipos de imágenes.
IdTipoImagen Llave subrogada de la dimensión de tipos de imáge- nes, identificador único del tipo de imagen.
NomTipoImagen Llave primaria de la dimensión de tipos imágenes, nombre del tipo de imagen.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
• TBL_DIM_ESPECIES_T0 Dimensión estática en la que se alma- cenan las especies de árboles.
IdEspecie Llave subrogada de la dimensión de especies, identificador único de la especie.
NomEspecie Llave primaria de la dimensión de especies, nombre de la especie del árbol.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
IdArbol Llave subrogada de la dimensión de árboles, identificador único del árbol.
NomArbol Llave primaria de la dimensión de árboles, nombre del árbol.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
• TBL_DIM_TIEMPO_T0 Dimensión estática en la que se almace- nan las fechas y sus homologaciones.
IdFecha Llave subrogada de la dimensión de tiempo, identificador único de la fecha.
FechaCompleta Llave primaria de la dimensión de tiempo, fecha completa en formato AAAAMMDD.
Año Año al que se asocia la FechaCompleta.
Mes Mes al que se asocia la FechaCompleta.
Dia Día al que se asocia la FechaCompleta.
FechaCargaDWH Campo de auditoría, fecha en que se carga el re- gistro en la bodega de datos.
• TBL_DIM_CARACTERISTICAS_T2 Dimensión de cambios len- tos en la que se almacenan las características medibles en las imágenes.
IdCaracteristica Llave subrogada de la dimensión de características, identificador único de la característica.
NomCaracterística Llave primaria de la dimensión de característi- cas, Nombre de la característica.
UnidadCaracterística Unidad en la que se mide la característica.
BanderaVigencia Campo de auditoría, bandera que resume la vi- gencia del registro. 0 = Vigente, 1 = NO vigente.
FechaIniVigencia Campo de auditoría, fecha que indica el momento en que inicia la vigencia del registro.
28 CAPÍTULO 9. DESARROLLO Y RESULTADOS
Referencias
[1] FAO. 2016. El Estado de los bosques del mundo 2016. Los bosques y la agricultura: desafíos y oportunidades en relación con el uso de la tierra Roma,2016, 2016.
[2] Hernández Garzón Diego Mauricio, Cabrera Romero Miguel Andrés,
“Estudio de la segmentación de imágenes de microestructura anatómica de la madera mediante el análisis multiresolución”, 2017.
[3] Londono John, “Modelo seudomatemático para el diseño de las bases de datos relacionales”, 2011.
[4] Condesa Caralt Jordi, Curto Díaz Josep, “Introducción al Business In- telligence”, Editorial UOC, 2010.