RED NEURONAL CELULAR PARA EL RECUENTO DE OBJETOS EN IMÁGENES AÉREAS

(1)

RED NEURONAL CELULAR PARA EL RECUENTO DE OBJETOS

EN IMÁGENES AÉREAS

Juan Álvaro Fernández Muñoz

Escuela de Ingenierías Industriales. Universidad de Extremadura. Avda. de Elvas s/n. 06071 Badajoz. e-mail: [email protected]

Miguel Ángel Jaramillo Morán

Enrique Martínez de Salazar Martínez

Víctor Manuel Preciado Díaz

Resumen

Se presenta en este trabajo una red neuronal para realizar el reconocimiento y recuento de plantas en la imagen aérea de una explotación agrícola. Estas tareas constituyen problemas complejos, ya que los árboles son objetos que presentan cierta dificultad para ser diferenciados con claridad del suelo, pudiendo estar a menudo unidos unos con otros. Sin embargo, en regiones donde los árboles están lo suficientemente separado el trabajo se simplifica notablemente. Para poder realizar la identificación de cada árbol y su posterior recuento, se presenta una Red Neuronal Celular capaz de reducir la imagen de cada uno de ellos, una vez separada de la del terreno, a un único punto, reduciéndose así el recuento de árboles al de los puntos que los representan .

Palabras Clave: Redes Neuronales Celulares. Procesamiento morfológico. Identificación de objetos.

1 INTRODUCCIÓN

La Comunidad Económica Europea tiene establecidas una serie de ayudas agrícolas que se han convertido en una importante fuente de ingresos para los agricultores comunitarios. Para realizar una gestión eficiente de los fondos destinados a este fin se han habilitado una serie de acciones políticas que

tienden a racionalizar y controlar de una manera eficiente su distribución. Uno de los proyectos que actualmente está desarrollándose es la generación o actualización de bases de datos que recojan la información concerniente a los recurso de sus miembros, lo que precisa de la recogida de una gran cantidad de datos referente al número de explotaciones agrícolas, su producción o el número de unidades arbóreas que las componen, información que debe ser manejada de la forma más eficiente posible para poder obtener de ellas los datos necesarios que permitan realizar un reparto lo más justo posible de los fondos agrícolas [1]. De entre ellas destacan las explotaciones oleícolas y vitivinícolas.

Una de las actividades relacionadas con este proyecto ha dado comienzo recientemente. Se trata, concretamente, de la incorporación de datos fotográficos de las distintas explotaciones al Registro Oleícola Español (ROE). La principal utilidad que se busca dar a esta información es la realización de un recuento de los árboles presentes en cada explotación sin tener que acudir a cada una de ellas para llevarlo a cabo. Así, mediante el fotografiado aéreo de las zonas de producción se puede acometer la construcción de una base de datos con imágenes de todas las explotaciones incluidas en el ROE, junto con el recuento de los árboles presentes en cada una de ellas. Se consigue de esta forma disponer de un registro fiable de datos que facilite un recuento más rápido de los elementos que forman cada una de las explotaciones registradas y dificulte la posible comisión de fraudes. Sin embargo como este recuento debe hacerse de forma manual representa un

(2)

trabajo enormemente tedioso para el personal encargado de realizarlo, lo que hace que su ejecución no sea todo le eficiente que pudiera serlo si se llevara a cabo de forma automatizada mediante el procesado apropiado de las imágenes. Para poder realizar este recuento se propone una estructura neuronal capaz de segmentar eficientemente a cada árbol de su entorno y realizar un posterior recuento automático de los mismos.

El trabajo se organiza como sigue. En al Sección 2 se presenta la metodología general para el reconocimiento de los árboles. En la Sección 3 se describe brevemente el modelo neuronal utilizado y se desarrolla una estructura multicapa que será la encargada de ejecutar el procesamiento deseado. Posteriormente se propondrá un ejemplo práctico de aplicación donde se compruebe la efectividad de la estructura desarrollada.

2 METODOLOGÍA

Siempre que se utiliza algún programa de tratamiento de imágenes para el estudio de fotografías del terreno la forma de trabajo es la misma: adquisición de la información, definición de la parcela de terreno a estudiar y procesado de la información.

Las imágenes de áreas de cultivo se pueden obtener de diversas fuentes, aunque la más barata es la proporcionadas por aviones. La principal ventaja de este medio, aparte de su economía, radica en la facilidad de acceder a cualquier porción de terreno así como poder obtener una cobertura total del mismo. Sin embargo, carece de homogeneidad de escalas ya que en las distintas tomas realizadas las altitudes a las que se obtienen las fotografías son diferentes. Este problema, que si bien no es importante para la realización de tareas de recuento, si lo es si lo que se busca es el cálculo de áreas o perímetros [8]. Otra fuente de información la constituye la ortofotografía, que consigue corregir este problema de la homogeneidad de escalas, aunque su elevado costo y su escasa disponibilidad la hacen poco utilizable, al menos a gran escala. Las imágenes por satélites presentan también esta homogeneidad y permiten abarcar todo el territorio a estudiar, aunque su elevado costo dificulta su utilización. Sin embargo la paulatina disminución de los mismos junto con el aumento de la resolución de las imágenes que proporcionan las convierten en una importante opción a medio plazo.

Una vez que la información ha sido obtenida esta debe ser presentada en un soporte adecuado para su procesamiento. Los formatos más habituales para almacenar imágenes son TIFF, BMP o JPEG [6]. A partir de las imágenes representadas en cualquiera de

los formatos anteriores, u otros disponibles en el mercado, es sumamente sencilla la aplicación de técnicas de mejora de calidad de la imagen mediante la aplicación de programas de tratamiento. Los más utilizados en el campo que nos ocupa son “SCION Image”, basado en el “NIH Image” utilizado en los ordenadores “Macintosh”, e “Idrisi” ambos para ser ejecutados bajo el sistema operativo “Windows”. Del análisis de esos programas se puede deducir un método de actuación común a todos ellos y que por tanto será el seguido aproximadamente en el presente trabajo. Se pueden definir cuatro etapas:

• Filtrado de las imágenes. La imagen original es sometida a una mejora de contrastes que delimite los perfiles de los árboles seguida de una identificación de los mismos mediante su segmentación a través de su identificación basada en el análisis de histogramas.

• Binarización de la imagen. A partir de la imagen segmentada se obtiene una imagen binaria mediante una técnica que asocia el valor blanco a los tonos más claros y el negro a los más oscuros. De esta forma se puede identificar a los árboles con más claridad al presentar estos, por regla general, una tonalidad más oscura que la del terreno.

• Ajuste de la imagen. En esta etapa se le aplica a la imagen obtenida técnicas de procesamiento morfológico que eliminan ruidos o deformidades de los árboles facilitando así su posterior identificación como tales.

• Análisis de píxeles. La etapa final elimina puntos que hayan podido aparecer como resultados de los procesos anteriores pero que no representan árboles. Para ello se utilizarán técnicas estadísticas de determinen el grado de representatividad de cada posible árbol con respecto a la imagen original.

La aplicación de estos cuatro tratamientos define una estrategia de procesado bastante eficiente por lo que será la que se seguirá, a grandes rasgos, en este trabajo, utilizando para ello redes neuronales.

3 DESCRIPCIÓN DE LA RED

3.1 RED NEURONAL CELULAR

La estructura que se utilizará como elemento de procesamiento es la conocida como Red Neuronal Celular [2], [3] que fue originariamente diseñada para conseguir una fácil implementación VLSI [5] y aplicada al procesamiento de imágenes

(3)

aprovechando su estructura de conexionado local que define una máscara de convolución. Así, se han desarrollado gran cantidad de trabajos que han permitido definir a este tipo de redes neuronales como estructuras de procesamiento de imágenes, independientemente de su facilidad para ser implementadas en tecnología VLSI.. Las ecuaciones que describen el modelo son:

I u l k j i B t y l k j i A t z R dt t dz C j i N l k C kl j i N l k C kl ij x ij r r + + + − =

∑

∈ ∈ ) , ( ) , ( ) , ( ) , ( ) , ; , ( ) ( ) , ; , ( ) ( 1 ) ( (1)

{

}

{

C k l max k i l j r

}

j i Nr(, )= ( , ) − , − ≤ (2)

donde C representa un condensador de entrada, el mismo para todas las celdas, Rx una resistencia de entrada, e I una corriente de polarización, también igual para todas las celdas, que actúa como un umbral para la actividad neuronal. zij(t) describe la actividad celular mientras que yij(t) representa la salida de la red y u una entrada constante a la misma. B(i,j;k,l) y A(i,j;k,l) definen, respectivamente, las conexiones de cada neurona con las entradas y con las neuronas localizadas en un entorno definido por N_r( ji, ). La función de salida neuronal puede adoptar varias formas, de las cuales las más habituales son la lineal a tramos, la sigmoide y el escalón.

Como el modelo será simulado en ordenador es conveniente proporcionar una forma discreta de la ecuación dinámica de la neurona. Esta es de la forma:

    + +   + − + = +

∑

∈ ∈ I u l k j i B t y l k j i A t z R C h t z t z j i N l k C kl j i N l k C kl ij x ij ij r r(, ) ( ,) (, ) ) , ( ) , ; , ( ) ( ) , ; , ( ) ( 1 ) ( ) 1 ( (3) donde h representa una constante de tiempo.

Aunque hay trabajos que dotan a las Redes Neuronales Celulares de la capacidad de realizar procesamientos morfológicos sobre imágenes [9][10], el problema de reducir un determinado objeto a un punto no ha sido nunca abordado. Así, mientras que se han definido filtros de aplicación general que permiten la realización de operaciones propias del procesamiento morfológico tales como la “erosión” y la “expansión”, estos deberán actuar en una única iteración disminuyendo o expandiendo a

los objetos sobre los que actúa, pero no podrán hacerlo de forma autónoma determinando cuando detenerse, lo que impide la reducción a un solo punto de un objeto concreto ya que al no haber una regla de control que determine cuando detener la acción del filtro, este único punto sería irremisiblemente eliminado. La estructura que se propone en el presente trabajo soluciona este problema al diseñar una red multicapa capaz detener su acción cuando un objeto ha sido reducido a un único punto.

3.2 ALGORITMO DE PROCESADO

La red que se presenta implementa un algoritmo desarrollado en [7]. En él se proponen una serie de actuaciones conducentes a la extracción de un único punto para representar a un objeto diferenciado del resto de la imagen. El paso de este algoritmo a una estructura neuronal requerirá de la adecuada definición de cada uno de los pasos que ejecuta a través de sucesivas capas de neuronas en las que la forma de las máscaras de conexionado y los valores de los parámetros de control de la función de salida neuronal determinan la función de cada capa. Por lo tanto será necesario describir en primer lugar el funcionamiento de dicho algoritmo.

Una vez seleccionada la zona de la imagen con la que trabajar, el algoritmo se inicia con un filtrado inicial para al eliminación del ruido que puede ser llevado a cabo mediante la aplicación de cualquier técnica de filtrado pasabajos. Esta primera acción debe ir seguida de una binarización de la imagen que permita separa claramente a cada árbol (un tono de gris más oscuro) del fondo de la imagen (gris más claro que el de los árboles). Esta acción va seguida de una inversión de la imagen para asociar el valor blanco (1 en la imagen) a los árboles y el negro (0 en la imagen) al fondo para obtener un procesado más simple que asocie el valor activo (1) al objeto procesado.

Una vez aislados los árboles como tales del fondo se procederá a un procesado morfológico de los objetos que los representan, que consistirá en la erosión de los mismos hasta reducirlos a un único pixel. Representa esto el principal logro de la red propuesta ya que en ella, a diferencia de las redes que realizan procesamientos de este tipo, la parada del procesado la decide la misma red, sin necesidad de intervención del usuario. Una vez obtenidos estos puntos que representan a cada árbol su recuento es inmediato. El procesado propuesto debe realizarse de tal forma que un pixel sea eliminado como perteneciente a un árbol en función de los valores de los ocho que le rodean. Será necesario, por tanto, establecer las condiciones bajo las cuales esta eliminación debe

(4)

realizarse. Para ello, deberán cumplir dos condiciones básicas simultáneas:

1. El número total de transiciones 0-1 (con el valor 1 asignado al blanco) tomadas en el sentido horario debe ser igual a 1.

2. El número total de píxeles negros en el entorno debe ser mayor de tres.

Con esta dos condiciones se evita la eliminación de puntos de cruce o unión de regiones y la formación de cuñas en el contorno del objeto. Permiten, además, el mantenimiento de los huecos. El resultado es que en cada iteración son eliminados varios píxeles pero se mantiene la conectividad del objeto en cuestión. La condición de parada puede comprobarse fácilmente analizando dos caso concretos:

• Cuando aparece un punto blanco aislado (punto que representaría al árbol en cuestión) este no debería eliminarse, como en realidad ocurre al no cumplirse la primera condición.

• Cuando aparezcan tres píxeles en una misma fila columna o diagonal, el píxel interior presenta dos transiciones, mientras que los extremos sólo una. En este caso éstos últimos son eliminados y el primero mantenido.

Además habrá que considerar otros dos casos especiales que requerirán de un tratamiento diferenciado:

• Si sólo hubiera dos píxeles conectados, por la aplicación de las dos regala anteriores ambos serán eliminados, cuando debería mantenerse uno de ellos.

• Si hubiera cuatro puntos unidos formando un cuadro, las dos reglas anteriores eliminarían a todos, cuando en realidad debe mantenerse al menos uno.

Teniendo en cuenta los dos casos especiales apuntados todas las posible situaciones que hacen que el algoritmo conduzca a la reducción de un objeto a un único píxel son consideradas, por lo que la unión de las dos condiciones de eliminación junto con los dos casos particulares últimos definen al algoritmo convenientemente. Es importante hacer notar como la condición de parada de todo el proceso ha sido incluida para cuando se tiene un solo punto aislado, de tal forma que el algoritmo sólo decide cuando ha finalizado todo el proceso.

3.3 ESTRUCTURA DE LA RED.

La valoración de las condiciones anteriormente apuntadas deberá ser llevada a cabo ahora mediante sucesivas capas que, en conjunto, ejecutarán las condiciones del algoritmo y tratarán los casos especiales. En ninguna de ellas será necesario incluir realimentación, por lo que Ai =0.

El primer paso apuntado es la definición de un filtro pasabajos. La primera capa tendrá entonces la forma:

          = 9 / 1 9 / 1 9 / 1 9 / 1 9 / 1 9 / 1 9 / 1 9 / 1 9 / 1 1 B , A1=0, I1=0, y1(x)=u(x+0,5), U input= (4)

En esta capa la salida neuronal será una función escalón unitario (u(x-t), umbral t) con umbral 0.5 y la entrada U la imagen a procesar. El valor del umbral puede ser modificado dependiendo de la intensidad de la imagen para garantizar una segmentación eficaz de los árboles.

La segunda capa implementará la condición de eliminación por número de píxeles (condición 2.-) y será de la forma:           − − − − − − − − = 1 1 1 1 0 1 1 1 1 2 B , I2 =5, y2(x)=u(x−0,5), 1 y input = (5)

La otra condición de eliminación, existencia de una sóla transición 0-1, debe ser valorada tanto para filas como para columnas, por lo que habrá que definirla mediante dos capas distintas:

          − = 0 0 0 1 1 0 0 0 0 3 B , I3=0, y3(x)=abs(x), input=y1 (6) T B B4= 3 , I4 =0, y4(x)=abs(x),input= y1 (7)

Las salidas de ambas capas calculan el valor absoluto en la forma presentada en [4]. El siguiente par de capas calcula las transiciones producidas:

          = 0 1 1 0 0 0 0 1 1 5 B , I5=0, y5(x)=x, input=y3 (8) T B B 2 5 1 6= , 2 5 1 6 y I = , y6(x)=sel(x,1), input=y4 (9)

(5)

A partir del valor absoluto de las transiciones horizontales proporcionado por (6), (8) calcula su número, mientras que (9) proporciona la suma de éstas más las verticales (7). Por tanto, la salida de la capa (9) proporciona el número total de transiciones producidas en el entorno de un píxel dado. Sin embargo, solo se necesitan aquellos puntos activos con un número de transiciones igual a la unidad, por lo que es necesario definir una función de salida de la forma: sel(x,t) = u[x-(t-1/2)]–u[x-(t+1/2)], con t=1 para este caso.

La etapa final del cálculo determina que los puntos a eliminar serán aquellos que cumplan las dos condiciones antes señaladas (y ya calculadas) y que además estén activos:

          = 0 0 0 0 1 0 0 0 0 7 B , I7= y2+y6, y7(x)=u(x−2,5), 1 y input= . (10)

La salida de esta capa será substraída de la salida de la primera para obtener la correspondiente erosión. Sin embargo, quedan aún por definir las correspondientes excepciones señaladas en la sección anterior. Para calcular las líneas de 2 píxeles es necesario determinar cuáles de ellos tienen 7 ceros en su entorno y ,además, uno de sus vecinos cumple también esta condición. La primera exigencia se resuelve con una capa de la forma:

2 8 B

B = ,I8=2, y8(x)=sel(x,1), input=y1 (11) A continuación hay que incluir otra capa que determina si hay dos píxeles procedentes de (11) que se encuentren conectados:

2 9 B

B = , I₉=2, y₉(x)=sel(x,1), input=y₈ (12)

Finalmente, un píxel que no debe ser eliminado se selecciona a partir de (11) y (12):           − − − − = 1 1 1 1 2 1 1 1 1 10 B , I10=0, y10(x)=u(x−2,5), 1 y input= (13)

La segunda excepción comentada es aquella en la aparece un cuadrado de 2x2 puntos activos. Estos puntos son seleccionados suponiendo que el número de ceros que rodea a cada punto es de 5:

2 11 B

B =

,

I11 =4

,

y11(x)=sel(x,1)

,

input=y1 (14)

añadiendo una capa adicional para determinar la forma del cuadrado:

          = 1 1 0 1 1 0 0 0 0 12 B ,I12=0, y12(x)=u(x−3,5), input=y11 (15) Determinando así la selección de los puntos que, formando una estructura cuadrada, no deben ser eliminados.

Todos los píxeles que deben ser eliminados en la n-ésima iteración serán restados de y1:

[ ]

1 1

[ ]

( 7

[ ]

10

[ ]

12

[ ]

) 1n y n y n y n y n

y + = − − − (16)

4 RESULTADOS

En la Figura 1 se presenta un ejemplo de aplicación. En él se parte de una imagen aérea de tierra cultivada. De ella se ha seleccionado una porción que va a ser tratada para determinar el número de árboles presentes. Puede verse el resultado de la binarización que permite identificar a cada árbol (conjunto de puntos negros unidos) separado del fondo (puntos blancos). Esta selección, que es contraria la utilizada en la definición de la imagen para ser procesada por la red, se ha elegido para obtener una representación final más clara y cercana a la imagen original. Puede apreciarse como ha sido eliminado también el ruido y cada árbol aparece representado de forma nítida aunque irregular. Por último puede apreciarse como cada uno de ellos ha quedado reducido a un único punto, de tal manera que resulta sumamente sencillo contar el número de árboles presentes en la imagen sin más que contar el número de puntos negros obtenidos. Para ello no es necesario recurrir a una estructura neuronal, bastaría con un sencillo algoritmo que realizara esta operación.

5 CONCLUSIONES

Se ha diseñado una estructura neuronal capaz de filtrar una imagen en escala de grises obteniendo otra binarizada donde aparecen árboles como objetos independientes. Esta imagen ha sido sometida a un proceso de erosión que reduce cada objeto a un solo punto. Radica aquí la novedad del procedimiento desarrollado ya que es la misma red la que detecta cuando se ha obtenido ese único punto. Otras estructuras neuronales capaces de realizar un procesado morfológico muy eficiente carecen de esta capacidad, por lo que la condición de parada debe ser determina directamente por el usuario de la red. Conviene hacer notar también que

(6)

aunque se ha utilizado un número elevado de capas para realizar todo el procesado la dimensión del sistema no es excesivamente grande ya que para una imagen final como la utilizada en la Figura 1.- de 200x300 píxeles el número total de conexiones definido es de (200x300)x9x12= 6.480.000, mientras que una sóla red del mismo tamaño y con un conexionado total entre neuronas y entradas (situación bastante común cuando se trabaja con redes neruonales) requeriría de (200x300)x(200x300)=360.000.000 de conexiones.

Referencias

[1] Baratech, F.J.: La Informática y la Agricultura. IRYDA-Mapa, Madrid (1993). [2] Chua, L.O., Yang, L.: Cellular Neural

Networks: Theory, IEEE Trans. Circ. Syst., (1988), 35(10), 1257-1272.

[3] Chua, L.O., Yang, L.: Cellular Neural Networks: Applications, IEEE Trans. Circ. Syst., (1988), 35(10), 1273-1290.

[4] Dogaru, R., Crounse, K.R., Chua, L.O.: An Extended Class of Synaptic Operators with Applications for Efficient VLSI Implementation of Cellular Neural Networks, IEEE Trans. Circ. Syst., (1988), 45(7), 745-755.

[5] Harrer, H., Nossek, J.A., Stelzl, R.: An Analog Implementation of Discrete-Time Cellular Neural Networks, IEEE Trans. Neural Networks, (1992), 3(3), 466-476. [6] Jain, A.K.: Fundamentals of Digital Image

Processing. Prentice-Hall, New York (1989). [7] Martínez de Salazar, E., Fernández, J.A.,

Jaramillo, M.A., Morillo, J., Rodríguez, M.C.: Análisis de Plantaciones Arbóreas con Programas de Tratamiento de Imagen. Actas XXI J. Automática, Sevilla (2000).

[8] Rogers, D.F., Adams, J.A.: Mathematical Elements for Computer Graphics, McGraw-Hill, New York (1976).

[9] Roska, T., Kék, L., Nemes, L., Zarándy, A., Szolgay, P.: Cadetwin-99, CNN Software Library v. 7.3, (1999), Budapest (Hungary). [10] Ter Brugge, M.H., Nijhuis, J.A.G.,

Spaanenburg, L.: Transformational DT-CNN Design from Morphological Specifications, IEEE Trans. Circ. Syst.-I: Fund. Theory

Appl., (1998), 45(9), 879-888. Figura 1. Imagen aérea de una explotación agrícola con plantaciones arbóreas, junto con los resultados de

su umbralización y el final que asocia un punto a cada árbol.