Teoría del forraje para la toma óptima de decisiones en labores de vigilancia

60 

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)Teorı́a del forraje para la toma óptima de decisiones en labores de vigilancia. Una Tesis Presentada a La Facultad Académica por. José Luis Ramı́rez Bohórquez. Cumpliendo parcialmente con los Requisitos para la obtención del Tı́tulo de Ingeniero Electrónico. Departamento de Ingenierı́a Eléctrica y Electrónica Universidad de los Andes Junio 2008.

(2) Teorı́a del forraje para la toma óptima de decisiones en labores de vigilancia. Aprobado por:. Nicanor Quijano, Asesor. Carlos Francisco Rodrı́guez, Co-Asesor. Fecha:.

(3) A mi papá, José Luis Ramı́rez Ceballos, Aunque ausente, siempre he contado con su ejemplo y apoyo.. III.

(4) “ Though few realized it as yet, the fall of religion had been paralleled by a decline in science. There were plenty of technologists, but few original workers extending the frontiers of human knowledge. Curiosity remained, and the leisure to indulge in it, but the heart had been taken out of fundamental scientific research. It seemed futile to spend a lifetime searching for secrets that the Overlords had probably uncovered ages before.” Arthur C. Clarke. IV.

(5) AGRADECIMIENTOS. Quiero agradecer especialmente a mis asesores, Carlos Francisco Rodrı́guez y Nicanor Quijano, pues sin su ayuda, guı́a, motivación y paciencia, este proyecto jamás se hubiese completado. Ası́ mismo, me gustarı́a agradecer al profesor Fernando de la Rosa y al grupo IMAGINE, quienes se mostraron dispuestos a colaborar en cada etapa del desarrollo.. Pero ante todo, y especialmente, quiero agradece a mi madre, Marı́a América Bohórquez Chavarro, y a mi hermano, Pablo Andrés Ramı́rez Bohórquez, quienes siempre me apoyaron sin importar cuán descabelladas fuesen mis iniciativas.. V.

(6) Índice general DEDICATORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. III. DEDICATORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IV. AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. V. LISTADO DE TABLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII LISTADO DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. IX. RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. X. I.. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. VIGILANCIA Y PATRULLAJE . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.1. Robots en labores de vigilancia . . . . . . . . . . . . . . . . . . . . . . .. 6. III. TEORÍA DEL FORRAJE . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 3.1. Modelo de la presa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. II.. 3.1.1. La regla del cero o uno . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.2.. Algoritmo de dieta optima . . . . . . . . . . . . . . . . . . . . . 11. 3.2. Aplicación en la ingenierı́a . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3. Calculo dinámico de los parámetros del modelo . . . . . . . . . . . . . . 15 3.3.1. Totalidad del tiempo . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3.2. Ventana móvil . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3.3. Promedio de estimadores . . . . . . . . . . . . . . . . . . . . . . 19 IV. IMPLEMENTACIÓN DEL SISTEMA DE TOMA DE DECISIONES . . . 20 4.1. Ambiente de simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2. Múltiples tareas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.2.1. Tasa de aparición de elementos anómalos constante . . . . . . . . 23 4.2.2.. Tasa de aparición de elementos anómalos variable . . . . . . . . 30. VI.

(7) 4.3. Elemento creciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.4. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 V.. CONCLUSIONES Y TRABAJO FUTURO . . . . . . . . . . . . . . . . . . 44 5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. VII.

(8) Índice de cuadros Cuadro 1. Analogı́a entre agente autónomo y depredador biológico . . . . . . . . . 14 Cuadro 2. Ganancia para tareas en varias estrategias . . . . . . . . . . . . . . . . . 26 Cuadro 3. Ganancia para tareas en varias estrategias . . . . . . . . . . . . . . . . . 30 Cuadro 4. Ganancia para tareas en varias estrategias . . . . . . . . . . . . . . . . . 32 Cuadro 5. Puntos y tasa de ganancia en varias estrategias . . . . . . . . . . . . . . 36 Cuadro 6. Puntos y tasa de ganancia de recompensa en crecimiento medio . . . . . 40 Cuadro 7. Puntos y tasa de ganancia de recompensa en crecimiento lento . . . . . . 40. VIII.

(9) Índice de figuras Figura 1.. Relación entre rentabilidad y tasa de ganancia de energı́a . . . . . . . . . 13. Figura 2.. Diagrama de flujo del algoritmo de patrullaje y toma de decisión. . . . . 21. Figura 3.. Rentabilidad y tasa de ganancia inicial en múltiples presas . . . . . . . . 23. Figura 4.. Estimado de la tasa de encuentro usando la totalidad del tiempo . . . . . 24. Figura 5.. Estimado de la tasa de encuentro usando una ventana móvil . . . . . . . 24. Figura 6.. Cambio en la dieta tras primera simulación . . . . . . . . . . . . . . . . 25. Figura 7.. Estimado de la tasa de encuentro usando la totalidad del tiempo . . . . . 27. Figura 8.. Estimado de la tasa de encuentro usando una ventana móvil . . . . . . . 28. Figura 9.. Cambio en la dieta tras primera simulación . . . . . . . . . . . . . . . . 29. Figura 10. Estimado de la tasa de encuentro usando la totalidad del tiempo . . . . . 29 Figura 11. Estimado de la tasa de encuentro usando una ventana móvil . . . . . . . 31 Figura 12. Cambio en la dieta tras primera simulación . . . . . . . . . . . . . . . . 31 Figura 13. Evolución de la tasa de encuentro usando totalidad de eventos . . . . . . 33 Figura 14. Evolución de la tasa de encuentro usando ventana móvil . . . . . . . . . 33 Figura 15. Cambios en la dieta óptima si se usa totalidad de tiempo para la estimación 35 Figura 16. Cambios en la dieta óptima si se usa ventana móvil para la estimación . . 35 Figura 17. Posible crecimiento de elementos anómalos . . . . . . . . . . . . . . . . 38 Figura 18. Comportamiento de la dieta en la presa creciente . . . . . . . . . . . . . 39. IX.

(10) RESUMEN. Las labores asociadas a un trabajo de vigilancia son el monitoreo de un espacio fı́sico, la detección e identificación de posibles situaciones o elementos riesgosos y la toma de decisiones adecuadas para corregir dichos casos. Sin embargo, en un ambiente se detectan diferentes tipos de elementos anómalos, muchos de los cuales no generan peligro y corregirlos representa un gasto de recursos que pueden ser empleados en el procesamiento de tareas prioritarias. Por tanto, se requiere un sistema de toma de decisiones que de manera óptima indique que tarea es adecuado realizar y cual ignorar. En la naturaleza, organismos biológicos en búsqueda de alimento, se enfrentan a retos similares, encontrar nutrientes y decidir cuáles de éstos consumir, para lograr maximizar el consumo de energı́a. Se pueden usar observaciones al comportamiento animal para desarrollar dicho sistema de toma de decisiones. La teorı́a del forraje óptimo propone una serie de modelos de comportamiento para un depredador en búsqueda de alimento. Si se asocia un agente diseñado para efectuar labores de vigilancia con un depredador biológico, se pueden usar dichos modelos como base para desarrollar una toma de decisiones. En este trabajo se muestra una analogı́a entre un agente autónomo y un predador biológico, ası́ como la implementación del un sistema de toma de decisiones basado en el modelo de la presa, uno de los modelos clásicos de la teorı́a del forraje. Se incluye, además, un cálculo dinámico de determinados parámetros de modelo de comportamiento, que permite al agente adaptar su selección a la oferta del terreno, logrando una estrategia óptima y flexible. Se combina la estrategia de patrullaje desarrollada en [10] con la toma de decisiones, y se muestra su eficiencia en una serie de diferentes ambientes simulados, obteniendo una. X.

(11) serie de resultados que son analizados y comentados en el documento.. XI.

(12) Teorı́a del forraje para la toma óptima de decisiones en labores de vigilancia. Una Tesis Presentada a La Facultad Académica por. José Luis Ramı́rez Bohórquez. Cumpliendo parcialmente con los Requisitos para la obtención del Tı́tulo de Ingeniero Electrónico. Departamento de Ingenierı́a Eléctrica y Electrónica Universidad de los Andes Junio 2008.

(13) Capı́tulo I. INTRODUCCIÓN Las labores de patrullaje e inspección son un campo ideal para el uso de robots. Son tareas monótonas y tediosas que sin embargo deben desarrollarse de manera confiable. Las máquinas pueden diseñarse para desarrollar dichas tareas rutinarias, sin que se vea afectada su eficiencia o productividad, además, una vez diseñado un sistema efectivo, éste puede replicarse con éxito en muy poco tiempo y a costo muy bajo. Otras ventajas pueden ser asociadas a usar al uso de dichos dispositivos. Es posible construirlos para explorar zonas donde resulta imposible o demasiado costoso para enviar a un ser humano, incluso trabajar en medio ambientes peligrosos, sin comprometer ası́ la vida o integridad de un operario. Además, sensores y equipo especializado puede ser incluidos en la máquina, para que ésta obtenga mejores mediciones o detecte algún tipo especial de elemento. Es necesario generar un comportamiento adecuado en los agentes autónomos para desarrollar dichas tareas de una manera óptima, y que mejor modelo que la naturaleza para ser tomada como fuente de inspiración. La Biomimética (Biomimicry por su nombre en inglés) es una ciencia que estudia las mejores ideas surgidas en la naturaleza y las usa como base para desarrollar procesos y productos [3]. Lo seres vivos, a través de millones de años de evolución, hemos generado comportamientos que nos permiten interactuar de manera óptima con el entorno, por lo que podemos implementar dichos roles en los agentes robóticos, consiguiendo un sistema autónomo, inteligente y óptimo.. 2.

(14) 1.1.. Motivación. La electrónica revolucionó la industria moderna, permitiendo el desarrollo de sensores muy precisos y pequeños, elevando de manera impresionante la capacidad de procesamiento y actuadores confiables a precios cada vez más accesibles, dándonos un control bastante elevado de los procesos, permitiendo niveles de automatización nunca antes vistos. El ser humano ha recopilado gran cantidad de conocimiento y usando éste para desarrollar procesos y herramientas que le permitan un mejor control de su ambiente, mejorando con cada nueva creación su propio nivel vida y los niveles de confort del espacio que habita. La robótica es un claro ejemplo de dicho trabajo, pues es un campo que pone a la disposición del ser humano máquinas precisas, inteligentes y confiables, para desarrollar labores que facilitan el trabajo y la vida de los seres humanos. Es por eso que este campo ha generado tanto interés y mostrado un desarrollado acelerado en los últimos años, permitiendo que máquinas remplacen a operarios humanos en labores tediosas, peligrosas o que requieran un alto grado de entrenamiento y precisión. La vigilancia e Inspección son campos naturales para el desarrollo en robótica. Son labores crı́ticas tanto en la vida cotidiana como en la industria, se requieren realizarlas rutinariamente y de manera altamente confiable, pero pueden resultar complicadas y hasta peligrosas.. 1.2.. Objetivos. Se pretende en este trabajo, desarrollar un sistema de toma de decisiones sobre procesamientos de elementos anómalos basado en el comportamiento animal, complementario a la estrategia de monitoreo y patrullaje presentada en [10], tal que un agente autónomo desarrolle una labor de vigilancia en forma óptima. En [10] se introdujo una estrategia de monitoreo que podı́a ser programado en robots relativamente simples basado en el interés del terreno, dicho interés era proporcional al tiempo que llevaba sin patrullarse cierto punto o si en dicha área habı́an sido encontrados o.

(15) no elementos peligrosos con anterioridad. Para lograr el objetivo de encontrar un sistema de toma de decisiones, y ası́ cumplir el objetivo central de este proyecto, es necesario estudiar y comprender los modelos propuestos para entender los roles, actitudes y decisiones de los seres biológicos. Se propone una analogı́a entre un depredador biológico y un agente autónomo. Por lo que se presenta la teorı́a del forraje, que describe las decisiones que toman los depredadores para maximizar su tasa de consumo de nutrientes, como un buen punto de partida para desarrollar un comportamiento para el patrullero. Se exploran los modelos clásicos de dicha teorı́a, seleccionando el modelo de la presa para describir que acciones debe o no tomar el patrullero. Con el fin de lograr una implementación adecuada del sistema de toma de decisiones, se necesita adaptar cada uno de los parámetros del modelo al ambiente donde se desplaza el agente autónomo, encontrando similitudes entre los parámetros crı́ticos requeridos en una labor de vigilancia y los usados por un cazador en su búsqueda por nutrientes Una vez identificados éstos, se pretende generar y simular algoritmos que describan eficazmente el comportamiento. Por último, se busca encontrar una serie de escenarios donde puedan ser usados de manera práctica todos los algoritmos desarrollados..

(16) Capı́tulo II. VIGILANCIA Y PATRULLAJE Una descripción general de las labores de un sistema completo de Inspección o Vigilancia incluirı́a: Monitorizar de forma completa un escenario, ser capaces de diagnosticar potenciales situaciones de riesgo y actuar de forma eficiente para evitar dichas situaciones. Se define en este trabajo como tarea de patrullaje o vigilancia a la búsqueda, detección y procesamiento de patrones, agentes, anomalı́as o elementos ajenos a un entorno conocido que puedan resultar peligrosos. No se limita a labores de seguridad de personas o cuidado de valores y lugares en un sentido estricto, aunque, se incluye en la definición, mas se amplı́a ésta para abarcar otras tareas y necesidades que pueden resultar de gran relevancia, llevando los modelos propuestos a un nicho de aplicación mayor. Por ejemplo: sistemas autómatas capaces de inspeccionar una estructura buscando posibles fallas, tales como grietas, corrosión, agentes hostiles, entre otros; sistemas cuya función sea recorrer espacios conocidos detectando elementos faltantes o anomalı́as de terreno; sistemas que buscan elementos que no pertenezcan al espacio patrullado; sistemas de rescate en caso de emergencia, capaces de localizar personas o elementos desaparecidos; o sistemas especializados en buscar y rastrear ciertos dispositivos que sea declarado como de interés o peligrosos. Sin embargo, es de esperarse que en un ambiente complejo se presenten diferentes tipos de elementos anómalos, algunos de los cuales representan un alto nivel de peligro y se tomarı́a acciones pertinentes ni bien son detectados; mientras otros, cuyo nivel de riesgo pueda ser tolerado, deberı́an ser ignorados, pues el procesamiento de los mismos generarı́a un gasto de tiempo y recursos que serı́a preferible enfocar a elementos más riesgosos. Por tanto, es crı́tico desarrollar un sistema de toma de decisiones que nos permita seleccionar. 5.

(17) de manera óptima qué elementos procesar para reducir al mı́nimo el nivel de riesgo del ambiente.. 2.1.. Robots en labores de vigilancia. Se han encontrado múltiples trabajos donde de manera exitosa son implementados sistemas de vigilancia usando agentes robóticos [15], [16], [17], [18], [19], [20], [21], la mayorı́a de estos incluyen el desarrollo de hardware, sistemas de posicionamiento, interacciones entre individuos y una descripción del comportamiento implementado sobre los vigilantes para que estos tomen ciertas decisiones y se comporten como un sistema semiautónomo. Los robots de patrullaje deben ser capaces de planear un posible camino sobre el terreno, detectar elementos potencialmente peligrosos y tomar decisiones de qué hacer con estos, además de informar a una central de vigilancia sobre sus actividades. Se denominan semiautónomos pues aunque el agente tiene la capacidad de toma de decisiones, aún requiere reportar a la central o puede ser controlado por un operario humano. El trabajo expuesto en [16], [21], describe cómo implementar dichos sistemas usando múltiples agentes, y cómo desarrollar un sistema de comunicaciones entre estos. Este trabajo está enfocado más al desarrollo de un comportamiento genérico usando algoritmos bio-inspirados que puede ser implementado en vehı́culos autónomos muy simples y cuentan con sensores que pueden detectar ciertos elementos y anomalı́as en el terreno. No se desarrolla un comportamiento enfocado en una arquitectura especı́fica, menos aún se escribirá un hardware necesario para que funcione el modelo de comportamiento desarrollado. Sin embargo, para un cumplimiento aceptable de la labor, se debe garantizar unas capacidades motoras mı́nimas, sensores capaces de identificar correctamente elemento del terreno, y, dado los cálculos que debe desarrollar, una capacidad de procesamiento aceptable..

(18) Capı́tulo III. TEORÍA DEL FORRAJE La Ecologı́a del comportamiento (Behavioral Ecology por su nombre en Inglés) es el estudio desde el punto de vista Biológico y Evolutivo del comportamiento Animal [2], y estudia el desarrollo de todos aquellos roles que toma un individuo para adaptase e interactuar con su entorno. La Teoria del Forraje pertenece a esta categorı́a, e intenta generar modelos que expliquen que comportamientos siguen dichos individuos al momento de explotar recursos alimenticios del ambiente. La teorı́a del forraje óptimo (Optimal foraging theory por su nombre en Inglés) busca explicar la adaptación del comportamiento de un depredador a los problemas y restricción de su ambiente con tal de maximizar la cantidad de nutrientes que éste consume en cierto lapso de tiempo. La idea detrás de toda esta formulación, es que un animal, sea capaz de desarrollar estrategia óptima de búsqueda y consumo de energı́a, mejorando sus posibilidades de tener éxito reproductivo, ligando directamente la selección de una dieta adecuada con la teorı́a de la supervivencia del más apto propuesta por Darwin. Al resultar este problema de tal relevancia con la Biologı́a, se hizo inminente la necesidad de plantear una serie de modelos para explicar los hábitos alimenticios de animales, y ası́, comprender las decisiones tomadas por éstos. Supongamos, un depredador en un medio ambiente bien delimitado y conocido. Cuyo ambiente está compuesto por diferentes áreas de caza, cada una con un tipo de habitat diferente (bosque, pradera, pantano, rivera, etc.), que contiene diferente tipos y cantidades distintas de presas, ası́ mismo, el tipo de habitad afecta la habilidad del depredador de encontrar y procesar dicho tipo de presa. De acuerdo a la explicado, dicho depredador querrá maximizar la cantidad de nutrientes consumidos, minimizando el tiempo y esfuerzo. 7.

(19) empleado para alimentarse. Por tanto, ciertos interrogantes surgen al momento de desarrollar un modelo que optimice el consumo, ¿Qué tipo de presas deberı́a consumir? ¿Por qué no explotar todas las oportunidades encontradas? ¿Qué hace que un depredador consuma un tipo particular de presa en ciertas situaciones, pero la ignore totalmente en un ambiente distinto? ¿Cuándo es adecuado cambiar de área de caza a una menos explotada? La teorı́a clásica del forraje propone dos modelos diferentes [1], el Modelo del parche (Patch Model en Inglés) y el Modelo de la presa (Prey Model), ambos modelos asumen que se encuentran presas o zonas de alimentación de manera secuencial, uno tras otro, a cada encuentro sigue una decisión. Es decir, un depredador alimentándose se mantiene dentro de un ciclo de búsqueda, encuentro y decisión. ElnModelo del parche, donde en un ambiente compuesto por diferentes áreas de alimentación, la decisión a tomar es cuando resulta conveniente cambiar de zona a una menos explotada; y el Modelo de la presa donde la decisión a tomar es qué tipo de presas consumir y qué tipo de presas ignorar. Se denomina como búsqueda el tiempo y las acciones que se realizan entre encuentros, la búsqueda puede ser pasiva, donde el depredador espera hasta que aparezca una posible presa, o activa, donde éste patrulla constantemente el terreno en búsqueda de alimentos. Dicha estrategia depende de los sentidos y habilidades de cada depredador. Aunque los modelos hacen algunas asunciones que resultan no del todo realistas, como una información completa sobre las presas y el terreno, son una excelente primera aproximación para describir cómo se comporta un agente tratando de maximizar la recompensa [7]. Una estimación dinámica de algunos de los parámetros de los modelos puede ser incluida para lograr una implementación adecuada sin requerir información completa. Otros inconvenientes se presentan al implementar el modelo en agentes autónomos, pues es necesario suponer que éste tiene vida infinita no requiriendo mantenimiento o recarga energı́a, sin embargo, si se tiene una fuente de poder que le suministre energı́a por un tiempo suficientemente largo como para que realice búsqueda, decisión y cálculo de parámetros, se podrá implementar el modelo sin mayores problemas..

(20) 3.1.. Modelo de la presa. Supongamos un depredador en un medio ambiente con restricciones y lı́mites bien conocidos, habitado por diferentes clases de presas, cada una con una recompensa nutricional y una dificultad de caza. El depredador buscará presas y deberá tomar una decisión de si atacarla y consumirla, o por el contrario, ignórala y continuar con su búsqueda. Ası́ que se presenta la siguiente situación ¿Qué tipo de presas se debe consumir? ¿Por qué no consumir todo posible alimento encontrado? ¿O serı́a mejor especializarse en un sólo tipo de presa? Analizando ambos casos, un depredador con una dieta muy especializada, consumirá solo algunas de las especies de presa que se encuentran en su medio ambiente, gastando la mayorı́a de su tiempo y esfuerzo buscándola, mientras aquel con una muy generalizada, consumirá la gran mayorı́a de las presas, incluyendo aquellas que resultan de muy poco valor nutritivo. Ya que se busca una dieta óptima, se debe encontrar algún modelo que explique qué presas incluir en su dieta para maximizar la tasa de energı́a ganada. Las presas se encuentran dispersas por la zona de alimentación, el depredador las halla de manera secuencial y no le toma tiempo identificar de qué tipo de presa es. Es usual suponer que el proceso de encuentro de presas se asemeja a un proceso de Poisson [1], [5]. Todas las presas se pueden agrupar en n tipos diferentes de presas, cada tipo tiene asociado un valor nutricional, un tiempo necesario para ser procesada y consumida, un tiempo esperado de encuentro y una probabilidad de ser consumida. Cada una de dichas variables se representara como: vi es el valor nutricional de presa tipo i. λi es la tasa de encuentro del a presa tipo i, o el inverso del tiempo esperado de encuentro. ei es el tiempo que toma procesar cada presas clase i. pi es la probabilidad de una vez encontrada dicha presa, consumirla, ésta variable tiene un valor entre 0 y 1..

(21) El depredador tiene total conocimiento sobre la presa y el terreno, patrulla buscando en el terreno el alimento y una vez encontrada una presa, usa toda esta información para decidir si se consume o no. Si decide atacar, le tomará un tiempo procesar dicha presa. Se asume que las tareas de búsqueda y consumo son mutuamente excluyentes, es decir, un animal no puede continuar la búsqueda si está comiendo, o comer si está buscando. Ahora, para el depredador puede resultar mejor ignorar la presa encontrada, pues, resulta mejor para su dieta esperar por la promesa de alimentos con una mayor rentabilidad. Se conoce como it Principio de la oportunidad perdida, pues la ganancia obtenida por consumir dichos nutrientes resulta menor que perder la oportunidad y atacar presas de mayor rentabilidad. Ahora, para realizar un modelo de rentabilidad alimenticia, se usa J como la tasa promedio de energı́a consumida, es decir, la cantidad de calorı́as recolectadas sobre el tiempo necesario para encontrarlas y procesarlas, ésta puede ser formulada matemáticamente como: J=. ∑ pi λi vi 1 + ∑ pi λi ei. Podemos reorganizar la ecuación en función de un pi determinado como: J=. ki + pi λi vi ci + pi λi ei. Donde ki representa todos los términos del numerador que no incluyen pi , mientras ci agrupa los del denominador, ambos términos son constantes con respecto a pi , por tanto, para observar como varı́a J con respecto a pi , derivamos esta y obtenemos: ci λi vi − ki λi ei ∂J = ∂ pi (ci + pi λi ei )2 Es evidente al derivar la función que el signo de esta expresión es independiente del valor de pi . Por tanto, obsérvese que si ci λi vi − ki λi vi , numerador de la ecuación, es mayor que cero, se requiere un pi lo más alto posible para maximizar J, mientras que si dicho numerador es negativo, la selección de dicho parámetro debe ser lo menor posible..

(22) 3.1.1.. La regla del cero o uno. Dado que se debe seleccionar una probabilidad de consumo de cada tipo de presa, y ésta viene representada para el tipo de presa i como pi y toma valores entre cero y uno, para máximizar la tasa de consumo de energı́a, J, se requiere la que selección de dicho término sea pi = 0 o pi = 1 dependiendo del signo de ci vi − ki ei . Este principio de la selección de dieta óptima es conocido como la it regla del cero o uno (zero-one rule por su nombre en Inglés), e involucra que para cada tipo de presa i diferente que es encontrada, esta será siempre atacada o siempre ignorada. Por tanto, la estrategia que maximiza la tasa de energı́a viene dada por: Sea pi = 0 sı́ ci λi vi − ki λi ei < 0 Sea pi = 1 sı́ ci λi vi − ki λi ei > 0 Ahora, se define el término rentabilidad de la presa i, πi , como la energı́a que ésta aporta sobre el tiempo que toma para procesarla, es decir: πi = vi /ei Podemos simplificar y reescribir dicha expresión como: Sea pi = 0 sı́ πi < ci /ki Sea pi = 1 sı́ πi > ci /ki Es decir, consuma la presa si la rentabilidad de ésta es mayor que esperar y procesar otras presas, conclusión que va de acuerdo con el Principio de la oportunidad perdida, mencionado anteriormente. 3.1.2.. Algoritmo de dieta optima. Teniendo pleno conocimiento de las presas, se pueden organizar éstas de acuerdo a sus caracterı́sticas, sin que esto resulte de esfuerzo alguno para el depredador. En general, el algoritmo propuesto en la teorı́a clásica del forraje [1] sigue los siguientes pasos: Organice los posibles tipos de alimentos de mayor a menor según su rentabilidad.

(23) (πi = vi /ei ), es decir, π1 > π2 > · · · > πn . Incluya los alimentos de menor rango (mayor rentabilidad), hasta que la tasa de energı́a consumida supere la rentabilidad de un ı́tem especı́fico: ∑ki=1 λi vi > πk+1 1 + ∑ki=1 λi ei Por tanto, toda clase de presa superior a k +1 no debe ser consumida, pues su rentabilidad es tan baja que resulta mejor esperar presas mayores. Realice búsqueda, encuentro y decisión de consumo, cuando encuentre un presa, procésela si su tipo es inferior a k, e ignórela siempre si es mayor a ésta. Para ilustrar el anterior principio, nombremos como J(k) como la tasa de energı́a promedio de consumir sólo alimentos organizados por rentabilidad hasta la posición k, es decir : ∑ki=1 λi vi J(k) = 1 + ∑ki=1 λi ei Ahora, si se supone la existencia de diferentes clases de presas, todas con igual tiempo de manejo y tiempos esperado entre encuentro, un valor energético entre uno y cien (vi = 100 − i), en la figura 1 se nota como la tasa de consumo de energı́a crece inicialmente al incluir más presas, siendo óptima donde ésta se encuentra con la rentabilidad de la presa i, si se incluye presas de menor rentabilidad se tiene una tasa menor. Si se incrementa la ganancia de energı́a de los alimentos más rentables, sin cambiar otros parámetros, el punto óptimo de dieta tenderá a correrse hacia la izquierda, especializando la dieta, restringiendo el consumo solo a los alimentos de mayor ganancia energética, mientras, si se aumenta el tiempo estimado de encuentro de dichas presas, el depredador se verá obligado a incluir en su dieta artı́culos de menor rentabilidad, pues, ya no le es óptimo esperar por solo aquellos de mayor valor nutricional. De acá surge otro principio del modelo de la presa, la Independencia entre la Inclusión y la tasa de encuentro, donde la decisión de incluir o no un tipo especifico de presa depende de su propia rentabilidad (πi ) y no de la tasa de encuentro de la misma (λi ). Sin.

(24) Figura 1: Ejemplo hipotético de la relación entre rentabilidad de cada presa, representada por πi , y la tasa de ganancia de energı́a (J(k)) si se consumen las presas hasta k. Todas las presas tiene iguales tiempos de manejo y encuentro esperado y la ganancia decrece de forma lineal, La dieta crece hasta llegar a un óptimo, y luego decrece al incluir presas con una rentabilidad baja.. embargo, la inclusión de presas con una rentabilidad media es sensible y se ve afectada por los parámetros de ganancia y tasa de encuentro de presas de mayor aporte energético.. 3.2.. Aplicación en la ingenierı́a. Como se ha venido comentando la teorı́a fue originalmente creada para explicar y modelar la conducta de los animales, con una aplicación directa sobre la biologı́a y la antropologı́a. Pero, ası́ como es exitosa en dichos campos, por qué no utilizarla para comprender o desarrollar comportamientos en otros campos, y en particular en la ingenierı́a? Se pueden entonces proponer sistemas análogos a sistemas biológicos, donde se implementen los mencionados como una posible alternativa de solución. Una interesante analogı́a es establecida [5] cuando se compara a un depredador biológico con un ‘agente autónomo’ (un robot, vehı́culo autónomo, modulo de software, por dar algunos posibles ejemplos), dicho agente se encuentra en un medio conocido donde busca y desarrolla diferentes tipos de actividades que aparecen en forma secuencial, cada tarea tiene relacionado unos puntos de recompensa de acuerdo a la prioridad de la misma, ası́ mismo, un costo relacionado al tiempo y dificultad que implique realizarla. Es, por tanto, objetivo del agente maximizar la.

(25) recompensa minimizando el costo requerido para lograr la labor. Si relacionamos el agente con un depredador biológico, las diferentes tareas con diferentes presas y el ambiente de acción del agente con el habitad del depredador, podremos aplicar los diferentes modelos planteados en la teorı́a del forraje a resolución de problemas de ingenierı́a. Cuadro 1: Analogı́a entre el modelo biológico y la implementación en un agente autónomo en busca de tareas, donde se relacionan además cada uno de los parámetros necesarios. En la tabla 1 se resume dicha comparación entre el agente autónomo y el predador biológico, relacionando cada uno de los parámetros del modelo. Se han encontrado algunos ejemplos muy relevantes de trabajos que han, de manera exitosa aplicado la teorı́a del forraje a resolución de problemas ingenieriles. En [6], los autores utilizan los modelos clásicos y diseñan un sistema de decisión de tareas en un vehı́culo autónomo diseñado con propósitos militares, para decidir qué acción o serie acciones ejecutar una vez encontrado un posible objetivo en el terreno. En [9], se utiliza como alternativa de solución para determinar la velocidad óptima de un vehı́culo autónomo para lograr, con un consumo mı́nimo de energı́a, alcanzar el mayor número de tareas posibles. Con éxito se utilizó el modelo de la presa en [8] para alcanzar un control de temperatura en.

(26) múltiples zonas. Ası́ mismo, basado en los modelos en la teorı́a del forraje óptimo se desarrollo la teorı́a del forraje de información [7], donde se propone un modelo para comprender como los usuarios buscan información en la red, y ası́, mejorar el diseño de páginas Web, buscadores u otras interfaces que el internauta use para este propósito. Es interesante observar el gran número de similitudes que existen entre un agente autónomo realizando tareas de inspección y vigilancia, como las descritas anteriormente en este trabajo y la de un depredador biológico buscando alimento. Ambos están confinados a un espacio fı́sico bien definido y que conocen bien e implementan estrategias de acuerdo a su arquitectura fı́sica. En el caso de un robot autónomo patrullando, éste cuenta con cierto sistema mecánico que permite su movimiento e interacción con el ambiente y algunos sensores que recolectan información del medio. Debe monitorear, diagnosticar y responder a situaciones peligrosas. El agente biológico usa sus sentidos para detectar presas en su habitad, y desarrolla un sistema de decisiones de que presas atacar o no. Al establecer una analogı́a entre los elementos riesgosos y las presas buscadas por el agente autónomo y el depredador biológico, podemos concluir que el vigilante es un consumidor de anomalı́as. Por lo que usamos el conocimiento que se tiene sobre el comportamiento animal para desarrollar un sistema de toma de decisiones, es decir, basarse en los modelos propuestos en la teorı́a del forraje para generar un comportamiento en el Robot que maximice su rendimiento.. 3.3.. Calculo dinámico de los parámetros del modelo. Los modelos de la teorı́a del forraje proveen una buena primera aproximación, realizan algunos asunciones que pueden llegar a ser muy poco realistas. Primero se considera un agente con una vida infinita, optimizado a muy largo plazo la recompensa por las tareas con las que se encuentra, es preciso recordar que todo vehı́culo consume su energı́a y necesita ser reabastecido o reparado con cierta frecuencia. También, como fue mencionado anteriormente, el agente requiere tener información completa sobre las tareas y el terreno.

(27) para poder tomar decisiones sobre cual de ellas procesar. La información pude ser estimada o asumida, pero se puede caer en errores que lo alejen de la dieta óptima. Los valores de la recompensa, vi , y el tiempo de manejo, ei , pueden ser asignados de acuerdo a lo riesgoso o prioritario que resulte de procesar cierto tipo de elemento y un estimado del tiempo que tardarı́a el agente en promedio para culminar con éxito todas las tareas que implica el procesamiento. Pero resulta muy difı́cil estimar un valor adecuado para la tasa de encuentro de lass tareas, λi , siendo la adecuada selección de éstas una de las principales complicaciones de la implementación adecuada del modelo. A pesar de que si se puede determinar con una buena precisión la tasa de aparición de elementos anómalos, ésta no corresponde necesariamente a la tasa de encuentro de éstos. Aunque, el elemento aparezca en el terreno puede ser detectado mucho tiempo después por el agente, pues los sensores de éste no tienen la capacidad de observar la totalidad del terreno, incluso, puede darse el caso que el elemento no sea detectado a tiempo, y se convierta en otro tipo de anomalı́a. Ahora, si el elemento no se encuentra dentro de la dieta óptima calcula por el agente, éste será ignorado, y es posible que el patrullero lo detecte varias veces en su labor de monitoreo. Es factible saber a priori con cuál frecuencia el agente debe enfrentar cada uno de los diferentes tipos de tareas. Es decir, no es realista asumir un λi fijo, sin embargo, aun se puede implementar el modelo usando una estimación dinámica de la tasa de encuentro [5], [9]. Esto implica que el agente tiene la capacidad de calcular y actualizar la tasa de encuentro de cada una de los tipos de tareas mientras realiza labores de patrullaje, siendo necesario luego de cada actualización correr de nuevo el algoritmo de dieta óptima, estableciendo de manera constante, cuales de tareas incluir o no es su ’dieta’. De igual manera, se puede adaptar más fácilmente el agente a cambios en las condiciones del espacio fı́sico, generando un sistema más flexible. Inicialmente, en el agente se programará una tasa de encuentro para cada una de las clases de tareas, tasa con la que generara su primera dieta óptima, y empezará el patrullaje..

(28) A medida que transcurre la búsqueda, éste encuentra diferentes tipos de elementos, puede calcular un estimado de la tasa de encuentro y generar una nueva dieta óptima de acuerdo a la oferta que exista en el terreno. Es necesario disponer de un agente que tenga la capacidad de recordar cuantas veces se ha encontrado con una tarea clase i, nenci , en cierta fracción de tiempo que lleva recorriendo el espacio, ∆t. Se encontrará un estimador de la tasa de encuentro como en número de encuentros sobre la ventana de tiempo, entre mayor sea dicha ventana, se tendrá un tamaño de muestra mayor, por tanto, una mejor estimación para el parámetro. Sin embargo, una muestra mayor involucra un mayor consumo de memoria, además de un tiempo de reacción mucho menor a la detección de cambios en la oferta de tareas. Aunque el tiempo total de caza incluye el perı́odo de búsqueda y el perı́odo de consumo, suponiendo éstos como mutuamente excluyentes, hay que recordar que la tasa de encuentro, λi , depende solamente de la búsqueda, por lo que la ventana de tiempo que se use para muestrear los encuentros debe corresponder únicamente a éstos periodos, evitando incluir el tiempo requerido para el procesamiento. 3.3.1.. Tiempo acumulado. Inicialmente el agente en un tiempo inicial, t = 0, no tiene información alguna de la tasa de encuentro, sin embargo, luego de de encontrar una tarea, se puede actualizar la tasa de encuentro de ese tipo de elemento. Después de cada hallazgo se calcula un estimado de la tasa de encuentro como el número de encuentros totales que se han presentado sobre el tiempo transcurrido, λi (t) = nenci (t)/t Cuando el tiempo tiende a infinito, los valores de la tasa de encuentro tenderán a estabilizarse alrededor de una constante. Sin embargo, se presentan varios problemas en dicho planteamiento, entre más tiempo transcurra, mayor memoria se requerirá para registrar la.

(29) información, si no se presentan encuentros de un tipo particular de tarea, ésta no actualizará el parámetro, además, si cambia la oferta de un tipo particular de tarea, se encuentra la tasa promedio de encuentro en todo el tiempo transcurrido, no siendo lo suficientemente flexible como para generar una dieta óptima acorde con las prioridades actuales del terreno. Para actualizar la tasa de encuentro se realizará un cálculo de la misma cada determinado tiempo, encontrando un buen estimador aun sin presentarse encuentros. Sin embargo, el pasado del sistema seguirá pesando, haciéndolo inadecuado para escenarios donde se presenta una oferta cambiante de elementos anómalos. 3.3.2.. Ventana móvil. Resulta más natural pensar en una ventana que resuma los eventos ocurridos en una fracción de tiempo anterior, de ancho bien definido y que se desplace en el tiempo a medida que este avanza. En este caso, tendrı́amos una muestra de población de un tamaño bien definido que recoge los datos más actualizados. Dado que el tamaño del tiempo usado para la muestra está bien definido, se definirá desde el inicio el tamaño de memoria requerido para llevar un registro de los encuentros. Entre mayor sea la muestra, una mejor estimación de la tasa de encuentro se puede realizar, sin embargo, una cantidad de memoria superior será requerida. Para este caso, la tasa de encuentro puede ser calculada como: λi (t) = nenci (t)/∆t Donde nenci (t) son los encuentros del elemento clase i ocurridos durante la ventana de tiempo de ancho ∆t, inmediatamente anterior a al instante t. En una ventana de éste tipo estamos encontramos un estimado de la tasa de encuentro, presentándose siempre un error asociado a esta estimación. Sin embargo, permite adaptarse a cambios de la oferta del terreno, pues no se tienen en cuenta datos desactualizados..

(30) 3.3.3.. Promedio de estimadores. Una ventana móvil permite una estrategia mucho más flexible y adaptable, sin embargo, requiere de una memoria significativamente grande para generar la cola de memoria que registra los encuentros. Se puede usar una ventana mucho más corta sacrificando precisión en el estimador. Es posible tomar una ventana de un ancho fijo menor y calcular un estimador de la tasa de encuentro, como se calculó la de la ventana móvil, λ̂i (t) = nenci /∆t realizar esta operación de nuevo k número de veces, encontrando igual número diferente de estimadores, guardando en un cola de memoria cada estimador, y luego promediar éstos para calcular una tasa de encuentro más cercana a la real. Inicialmente toda la cola estarı́a llena con el valor inicial de λi , valores que irı́an saliendo de la memoria a medida que otros estimadores van siendo calculados. En este caso se expresarı́a como: λi (t) =. ∑kj=1 a j λ̂i (t − j ∗ ∆t) ∑kj=1 a j. donde ai representa el peso cada estimador en la cola de memoria. Se podrı́a asignar igual peso a todos los estimadores usados, sin embargo, dar más pesos a los encontrados más recientemente otorgando mayor relevancia a la información actualizada y permitiendo adaptación más rápida a los cambios..

(31) Capı́tulo IV. IMPLEMENTACIÓN DEL SISTEMA DE TOMA DE DECISIONES En los capı́tulos anteriores se introdujeron las herramientas necesarias para generar un sistema óptimo de toma de decisiones usando como base el modelo de la presa, uno de los modelos clásicos planteados en la teorı́a del forraje [1]. En [10], se desarrollo un sistema de patrullaje basado en el interés del terreno, como complemento a éste se desarrollo el sistema de toma de decisiones. Un diagrama de flujo donde se presentan la combinación de ambos algoritmos es ilustrado en la figura 2. El código fue escrito en MATLAB, aprovechando la facilidad de trabajar en este lenguaje y las funciones, librerı́as y herramientas que incluye este programa. A continuación se presentan algunos ejemplos simulados, los resultados obtenidos y un completo análisis de éstos, por último se presentan algunas conclusiones, observaciones relevantes y posibles trabajos que serian interesantes en una realización futura.. 4.1.. Ambiente de simulación. Para simular el sistema de toma de decisiones se usaron condiciones idénticas a las presentadas en [10] para el algoritmo de patrullaje. El terreno bidimensional sin obstáculos está representado por una matriz de 15 ∗ 15, donde cada punto del terreno crece en interés de manera uniforme. Los elementos anómalos aparecen con mayor probabilidad en ciertas secciones del terreno. El agente tiene la capacidad de recordar en que sectores aparecen con una mayor probabilidad dichos elementos y presta una mayor atención a dichas zonas. Desde el inicio, se define para cada uno de los posibles elementos que puedan aparecer,. 20.

(32) Figura 2: Diagrama de flujo donde se combinan el algoritmo de patrullaje por zonas de interés, descrito en [10], y el sistema de toma de decisión, planteado en este documento..

(33) un tiempo de manejo, ei , un valor de retorno de recompensa por ser procesados correctamente, vi , y una tasa de encuentro inicial, λi . Sin embargo, el agente irá actualizando parámetro de forma dinámica y calculando la dieta óptima luego de cada actualización.. 4.2.. Múltiples tareas. Se consideró un modelo donde se pueden encontrar diferentes tipos de elementos anómalos, cada uno representa diferentes niveles de peligro, requiere cierto tiempo para ser procesado y tiene tasa de aparición diferente. El agente debe tener conocimiento previo de todas las clases diferentes de anomalı́as a las que se puede enfrentar y las acciones a realizar para corregirlas. El valor de recompensa por procesar correctamente cierto tipo de elemento es asignado por el programador, de acuerdo al grado de riesgo o la prioridad que represente éste. Los objetos aparecen de manera aleatoria en el terreno y son encontrados de forma secuencial, ası́ mismo, si no son consumidos después de algún tiempo, pueden desaparecer. El agente debe ser capaz de detectar, identificar y procesar todos los elementos anómalos del terreno. Para este modelaje, existirán espacios vacios, donde no se encuentran elementos anómalos, sin embargo, dos o más objetos no podrán compartir el mismo espacio fı́sico. Inicialmente, el agente conoce el terreno y a qué tipo de tareas se va a enfrentar, actualizando constantemente su conocimiento sobre la tasa de encuentro y las áreas donde se presentan con más frecuencia las anomalı́as. En este caso, se ilustrará para cinco diferentes tipos de elementos, todos con igual tiempo de manejo, ei = 100t, una tasa esperada de encuentro inicial igual, λi = 0,025 ob jetos/t y con una ganancia descrita como v = [100 80 60 40 20]. Con dichas condiciones, se espera una dieta óptima inicial que sólo incluye las dos presas de mayor rentabilidad, como es ilustrado en la figura 3, donde se observa que la mayor tasa de ganancia se encuentra cuando se incluye la cantidad de presas en la dieta..

(34) Figura 3: Relación entre rentabilidad de cada presa, representada por πi , y la tasa de ganancia de energı́a (J(k)), para el caso de múltiples presas. La dieta tiene su punto óptimo cuando son incluı́das las dos primeras clases de elemento anómalo.. 4.2.1.. Tasa de aparición de elementos anómalos constante. Las simulaciones se realizan en un ambiente donde la oferta de elementos anómalos permanece constante a través del tiempo, es decir, la tasa de encuentro de ninguna anomalı́a se ve alterada al avanzar el tiempo. Sin embargo, inicialmente, ni el programador ni el agente tienen conocimiento de dichas tasa de encuentro, por lo que éstas serán calculadas de manera dinámica. Se realizan cincuenta mil (50000) ciclos del algoritmo de búsqueda para cada simulación diferente, la idea inicial de este procedimiento es observar los cambios de la tasa de encuentro para cada uno de los tipos de elementos y cómo afecta ésto la dieta óptima del agente. En las figuras 4 y 5, se ilustra el cambio de la tasa de encuentro, λi , para cada una de las clases de tareas a medida que avanza el tiempo usando dos estrategias diferentes. Para la figura 4 se utiliza la totalidad de los eventos que se han presentado para el cálculo de la tasa de encuentro, tal como se mencionó en la sección 3.3.1, mientras que en la figura 5 se ilustra dicho cambio, pero usando la estrategia introducida en la sección 3.3.3, una ventana móvil..

(35) Figura 4: Evolución de la tasa de encuentro usando la totalidad del tiempo para estimarla, se advierte cómo cambia desde el valor inicialmente dado hasta estabilizarse en un valor calculado, entre mayor es el tiempo, más estable es dicho valor.. Figura 5: Evolución de la tasa de encuentro usando una ventana móvil de tiempo en la estimación, se observa cómo parte desde un valor inicialmente dado hasta acercarse a un valor adecuado, entre mayor es la ventana, más preciso el estimador..

(36) Figura 6: Relación entre rentabilidad de cada presa, representada por πi , y la tasa de ganancia de energı́a (J(k)) si se consumen las presas hasta k luego de correr la simulación y actualizar de manera dinámica la tasa de encuentro. La dieta cambia su punto óptimo a cuando son incluidas las tres primeras clases de anomalı́a.. Cuando se utiliza la totalidad el tiempo transcurrido converge inicialmente más rápido, pues la ventana de tiempo usada para la muestra es pequeña, sin embargo, a medida que transcurre el tiempo, se hace ésta más grande, haciendo a su vez los estimadores de λi más estables y precisos. Es importante notar cómo la tasa de encuentro, λi , varı́a desde el valor asumido inicialmente y se estabiliza a medida que el tiempo avanza a un valor determinado para cada una de las tareas. El cambio en la tasa de encuentro trae como consecuencia la necesidad de calcular cuáles elementos incluir en la dieta óptima, dando como resultado una dieta que incluye las tres primeras clases de tareas, una clase más que la dieta original. Dicho resultado puede verse representado en la figura 6, donde el óptimo de la tasa de retorno de recompensa se ha desplazado hasta incluir el tercer elemento. Para mostrar que la estrategia de patrullaje y toma de decisiones es óptima, se comparara con algunas otras estrategias posibles. Se desarrollo y corrió una estrategia que usa la teorı́a del forraje para la toma de decisiones, pero que recorre el terreno en zigzag, sin la capacidad de decidir qué zona resulta de mayor interés o aprender en que sectores aparecen más elementos anómalos, por otro lado, se implementó una estrategia de recorrido idéntica.

(37) a la descrita en este trabajo, pero sin usar dieta óptima para la toma de decisiones, por tanto, el agente se programa inicialmente para que procese solo ciertas tareas. Para cada uno de se corrió 100 veces el algoritmo, realizando para cada una de estas 50000 iteraciones, y los resultados son representados en la tabla 2. Cuadro 2: Ganancia de recompensa y tasa de retorno de recompensa para varias estrategias de patrullaje. Se compara una dieta calculada de forma dinámica con diferentes dietas fijas.. Es evidente que la estrategia de patrullaje basada en el interés, desarrollada en [10], tiene un comportamiento mejor que una estrategia más tradicional como realizar simplemente recorridos en zigzag alrededor del terreno, pues la capacidad de aprender le permite patrullar con mayor frecuencia aquellos sectores donde aparecen mayor cantidad de tareas. También, se ve en el cuadro que la mayor tasa de recompensa no es encontrada obtenida con la dieta calculada de manera dinámica, por el contrario, se obtiene con la dieta fija que incluye desde el inicio los tres elementos que mayor valor de rentabilidad tienen. Sin embargo, es importante observar que el valor de recompensa obtenido usando esta estrategia y el valor usando un cálculo dinámico de λi son bastante cercanos, la diferencia se debe a que en un inicio el agente empieza su patrullaje con una dieta que no es la óptima para la oferta del terreno, solo cuando el tiempo trascurre y actualiza la tasa de encuentro llega a la.

(38) Figura 7: Evolución de la tasa de encuentro usando la totalidad del tiempo para estimarla, al igual que el ejemplo anterior, se llega a un valor estable luego de algún tiempo.. dieta que le permite recibir el máximo de tasa de recompensa, pues la dieta final obtenida en con un cálculo dinámico de los parámetros es la dieta con la que se obtuvo una mayor ganancia. Ilustrado el desarrollo para un tipo particular de dieta, se ratifica el correcto funcionamiento en diferentes escenarios, se realizarán simulaciones en otras condiciones de la oferta para observar el comportamiento del sistema de toma de decisiones. Se incluyen dos casos adicionales, donde se cambian la ofertas del terreno para observar cuan adaptable es el algoritmo desarrollado. Se tienen la mismas condiciones de terreno y de valores inı́ciales para los elementos anómalos, y ası́, comparar todos los casos presentados. En este caso se incrementa significativamente la aparición de elementos de alto riesgo, aquellos por cuyo procesamiento se obtiene una mayor cantidad de energı́a. Luego de cincuenta mil (50000) ciclos del algoritmo de búsqueda se obtienen una evolución de la tasa de encuentro como la ilustrada en las figuras 7 y 8, la primera se utiliza la totalidad del tiempo en el cálculo, mientras que la segunda usa la estrategia de una ventana móvil. Se observa cómo se elevó la tasa de encuentro de la primera clase de tareas, dicho cambio trae consigo un cambio de dieta, en este caso, la dieta óptima está compuesta solo por el procesamiento de los elementos más rentables. Una tasa de aparición tan alta de un.

(39) Figura 8: Evolución del estimador de la tasa de encuentro usando una ventana móvil de tiempo en el cálculo.. elemento que genera tal nivel de interés, obliga al agente a concentrarse en el procesamiento de éste, ignorando todos los demás que no representan tal nivel de peligro. Este cambio en el punto óptimo de la dieta puede ser visto en la figura 9, donde se advierte que el máximo de la tasa de retorno de recompensa se presenta cuando se consume solo las anomalı́as de mayor rentabilidad. Comparará con estrategias que usan dietas fijas y utilizando un procedimiento idéntico al del ejemplo anterior, para cada uno de se corrió 100 veces el algoritmo y los resultados son representados en la tabla 3. Al igual que en el caso anterior, la dieta óptima obtenida del cálculo dinámico resulta obtener una recompensa similar a la dieta fija que mayor cantidad de recompensa obtiene. En este caso, la que procesa solo las tareas más significativas. Para el último caso, se reduce la tasa de aparición de los elementos más riesgosos a un número muy pequeño, para permitir la inclusión en la dieta de elementos rentabilidad. Luego de cincuenta mil (50000) ciclos del algoritmo de búsqueda se obtienen una evolución de la tasa de encuentro como la ilustrada en las figuras 10 y 11, la primera se utiliza la totalidad del tiempo en el cálculo, mientras que la segunda usa la estrategia de una ventana móvil..

(40) Figura 9: Relación entre rentabilidad de cada presa, representada por πi , y la tasa de ganancia de energı́a (J(k)) si se consumen las presas hasta k luego de correr la simulación y actualizar de manera dinámica la tasa de encuentro. La dieta cambia su punto óptimo cuando son incluidas solo las tareas más rentables.. Figura 10: Evolución de la tasa de encuentro usando la totalidad del tiempo para estimarla, al igual que el ejemplo anterior, se llega a un valor estable luego de algún tiempo..

(41) Cuadro 3: Ganancia de recompensa y tasa de retorno de recompensa para varias estrategias de patrullaje. Se compara una dieta calculada de forma dinámica con diferentes dietas fijas.. El cambio en la tasa de encuentro de las anomalı́as de mayor rentabilidad trae asociado un cambio de la dieta óptima, ésta incluirá los cuatro elementos más riesgosos. Este cambio en el punto óptimo de la dieta puede ser observado en la figura 12, donde se observa que el máximo de la tasa de retorno de recompensa se presenta cuando se consume solo las anomalı́as de mayor rentabilidad. Comparando con estrategias que usan dietas fijas. Los resultados son representados en la tabla 4. Al igual que en el caso anterior, la dieta óptima obtenida del cálculo dinámico resulta obtener una recompensa similar a la dieta fija que mayor cantidad de recompensa obtiene. En este caso en que solo ignora la tarea de menor rentabilidad. 4.2.2.. Tasa de aparición de elementos anómalos variable. Se observó el comportamiento del modelo para sistemas donde no se presentan cambios en la oferta al avanzar el tiempo. Sin embargo, no siempre se puede esperar que sea constante la tasa de aparición de anomalı́as en un medio patrullado, pueden presentarse comúnmente situaciones donde al avanzar el tiempo, la aparición de una clase de elemento.

(42) Figura 11: Evolución del estimador de la tasa de encuentro usando una ventana móvil de tiempo en el cálculo.. Figura 12: Relación entre rentabilidad de cada presa, representada por πi , y la tasa de ganancia de energı́a (J(k)) si se consumen las presas hasta k luego de correr la simulación y actualizar de manera dinámica la tasa de encuentro. La dieta cambia su punto óptimo cuando son incluidas solo la tareas más rentables..

(43) Cuadro 4: Ganancia de recompensa y tasa de retorno de recompensa para varias estrategias de patrullaje. Se compara una dieta calculada de forma dinámica con diferentes dietas fijas.. cambie. Por ejemplo, cuando hablamos de seguridad de lugares públicos, hay momentos del dı́a donde el tráfico es elevado, horas pico, donde la posibilidad de que se presenten situaciones riesgo se elevan. En esta situación, el agente deberı́a ser capaz de adaptar su comportamiento para continuar de manera óptima su labor. El caso más crı́tico se presenta cuando cambia la tasa de encuentro de las tareas con una prioridad alta. Si ésta aumenta, el agente se concentrará en procesar las anomalı́as más riesgosas, ignorando aquellas que representan un peligro mayor, mas si ésta cae, se incluirán en la dieta las tareas de menor rentabilidad. Ésto para estar de acuerdo con el principio de Independencia entre la Inclusión y la tasa de encuentro. Para ilustrar dicho comportamiento, se simula un ambiente donde existen cambios en las tasas de aparición a medida que avanza el tiempo. Básicamente los tres casos que fueron planteados por separado en el apartado anterior, aparecen en diferentes tiempos para comprobar la evolución de la tasa de encuentro. Puesto que los cambios más dramáticos de dieta se presentan cuando hay variaciones en la tasa de encuentro de las tareas de mayor rentabilidad, en las figuras 13 y 14 se ilustran los cambios sufridos por los valores estimados de la tasa de encuentro de los dos elementos que.

(44) Figura 13: Representación de la evolución de la tasa de encuentro de las dos clases de mayor rentabilidad usando la totalidad del tiempo.. Figura 14: Representación de la evolución de la tasa de encuentro de las dos clases de mayor rentabilidad usando la una ventana móvil.. mayor recompensa retornan. Para la figura 13 se utiliza la totalidad de eventos transcurridos para determinar la tasa de encuentro, mientras en la figura 14 se emplea una ventana móvil para estimarla. Se notan ası́, significativas diferencias en el uso de ambas estrategias. Mientras que una ventana móvil se adapta a los cambios de dieta, cuando se usa la totalidad de eventos ocurridos, los estimadores no convergen a valores adecuados para la tasa de encuentro, pues, como se ha tomado la totalidad del tiempo transcurrido, aún pesan los eventos ocurridos en el pasado, tanto ası́ que no se puede actualizar la tasa de encuentro acorde con la oferta.

(45) actual del terreno. Con la actualización de los parámetros del modelo, se actualiza también la dieta óptima. Las figuras 15 y 16 representan los cambios que sufren las relaciones la tasas de retorno de recompensa, J, y como el punto óptimo varı́a, representado los resultados de usar la totalidad del tiempo o un ventana móvil respectivamente. Puesto que existen diferencias significativas entre las estimaciones que se hicieron de la tasa de encuentro en ambas estrategias, λi , también, se encuentran diferencias en los puntos óptimos para cada intervalo. La gráfica de tasa de retorno de recompensa cuando han transcurrido veinte mil (20000) ciclos, t = 20000, es muy similar para ambos, siendo la dieta idéntica, incluyendo las tres anomalı́as más rentables, sin embargo, cuando el tiempo es transcurrido es igual a los cincuenta mil (50000) ciclos, existen diferencias entre ambas dietas, la obtenida con el usando la totalidad de eventos para calcular la tasa de encuentro incluye los dos tipos de elementos más rentables, mientras que la ventana dinámica incluye solamente la de mayor prioridad. Existe otra diferencia cuando el tiempo se hace mayor, luego de ochenta mil (80000) ciclos, la dieta obtenida con usando la totalidad del tiempo incluye los tres elementos de mayor prioridad, mientras la surgida por el otro método sólo ignora los elementos de más baja rentabilidad. Para la formulación de este caso, se mencionó el cambio de la cambiar la oferta, representando en diferentes tiempos las ofertas de los tres ejemplos presentados en la sección anterior. Cuando se usó una ventana móvil para el cálculo dinámico de la tasa de encuentro, se logró converger a valores adecuados de ésta, también, las dietas óptimas corresponden en cada caso con los ejemplos presentados en la sección anterior. Para comparar la adaptabilidad del agente a cambios en la tasa de encuentro, se simulará el modelo implementando el cálculo dinámico por ambas estrategias con unos de dieta fija, realizando en cada uno de los casos cien (100) simulaciones, cada una a cien mil (100000) ciclos, presentándose todos los cambios de dieta. El resultado promedio de los puntos obtenidos como recompensa en las simulaciones es consignado en la tabla 5, en ésta.

(46) Figura 15: Representación de la relación entre rentabilidad y tasa de recompensa para los diferentes tiempos, intervalos donde se han presentado cambios significativos de la oferta. Corresponden a las dietas actualizadas para cada tiempo usando para el cálculo del estimador de la tasa de encuentro la totalidad de los eventos.. Figura 16: Representación de la relación entre rentabilidad y tasa de recompensa para los diferentes tiempos, intervalos donde se han presentado cambios significativos de la oferta. Corresponden a las dietas actualizadas para cada tiempo utilizando para el cálculo del estimador de la tasa de encuentro una ventana móvil del tiempo..

(47) se hace evidente que la estrategia capaz de adaptar su dieta a las condiciones cambiantes del entorno recolecta mayores puntos que aquellas donde al dieta es fija. Ası́ mismo, se advierte que al usar una ventana móvil se obtienen mejores resultados que los obtenidos utilizando la totalidad del tiempo, pues,se logra encontrar un estimado de la tasa de encuentro mucho más actualizado. Cuadro 5: Puntos de recompensa y tasa de retorno de recompensa obtenido por un agente que patrulla el terreno donde la oferta de los diferentes elementos anómalos es cambiante con el tiempo.. 4.3.. Elemento creciente. En un ambiente simulado similar en tamaño al de la presa múltiple y con condiciones similares de locomoción en el agente, se pretende trabajar con una presa de comportamiento más complejo. Supongamos la existencia de una clase especial de elemento que aparece, pero en vez de, permanecer estático, crece con el tiempo. Aquı́ se requiere adaptar el modelo de la presa para tomar decisiones sobre dicho tipo de elementos. Estos elementos no son ajenos a la naturaleza o a la ingenierı́a. Por ejemplo, en un ambiente biológico, un fruto o en nuestro caso de estudio, un vehı́culo destinado la inspección de grietas, oxido o polvo, entre.

(48) otros ejemplos imaginables. Cuando éstas están muy pequeñas, no vale la pena corregirlas, pues el procesamiento acarrea un costo innecesario, más deben ser corregidas antes de que crezcan tanto que constituyan consecuencias no deseables. Ası́ pues, es labor del agente decidir cuál es el momento adecuado para tratar el mencionado caso. Ahora, el objetivo principal será mantener el entorno libre de anomalı́as, sin embargo, tratar secciones que presenten un nivel tolerable, representará unos recursos que puede enfocarse en lugares con niveles más altos. Para modelar la presa, el elemento anómalo, se supondrá que éste aparece de manera aleatoria, y crece a una tasa predecible, y su comportamiento que se describe como: presa(t + δt) = (a ∗ presa(t))b + rand al igual que para el ejemplo de múltiples presas, se discretiza el tiempo. En esta ecuación a y b son constantes que determinan el comportamiento de crecimiento de la presa, mientras rand es una variable aleatoria, relacionada con la aparición del elemento extraño. Si b es mayor a igual a uno, la presa tendrá un crecimiento exponencial asintótico, mientras si es menor, tenderá a estabilizarse alrededor de algún punto, éste comportamiento es ilustrado con parámetros distintos en la figura 17, donde se ilustran elementos que aparecen en cierto momento, crecen y se estabilizan alrededor del mismo punto pero con tasas de aparición y crecimiento distintos. Existe un punto óptimo para procesar las anomalı́as, si se espera hasta que éstas crezcan, se deberá aguardar demasiado tiempo para que éstas lleguen a su punto máximo, mientras que si se consumen todas, se gastaran recursos y tiempo en corregir algunas que representan peligro. Puesto que el modelo requiere presas bien definidas en cuanto a su valor de recompensa y el tiempo que se tarda en manipular la presa, no serı́a adecuado decir que una presa en crecimiento representa solo un tipo particular. Por lo que se dirá que entre más crece el elemento, irá evolucionando para convertirse en un tipo diferente de presa de mayor rentabilidad..

(49) Figura 17: Dos posibles ejemplos del crecimiento de un elemento anómalo, para este caso ambas gráficas tiene una ası́ntota en 100, sin embargo, presentan tasas de aparición y velocidades de crecimiento diferentes. A la izquierda, una presa con aparición poco frecuente y una tasa de crecimiento media; A la derecha, una con aparición más rápida, pero un crecimiento más lento. Se definirá, para desarrollar el modelo, que el tamaño máximo de presa que puede ser encontrado en el ambiente es presam ax = 100, y se propondrán, por tanto, la existencia de 100 tipos diferentes de presa, n = 100, cada uno correspondiente a redondear el tamaño de elemento anómalo, y se establecerá la recompensa de procesar cierto elemento como proporcional a su tamaño, por tanto vi = 101 − i . Es decir, si se encuentra un elemento de tamaño 100, éste corresponderá a una presa clase 1, mientras uno tamaño 1, corresponderá a una presa clase 100. Sin embargo, en este modelaje, se supondrá que toma el mismo tiempo tratar un elemento anómalo sin importar su tamaño, para las simulaciones se usó un ei = 10t. Ası́ también se supuso una tasa de encuentro inicial de λi = 0,02, obteniendo una relación de rentabilidad y dieta óptima como la ilustrada en la figura 1. Si bien el agente puede identificar claramente el tamaño de cada elemento con sus sensores, ni éste ni el operador, conocen el comportamiento de dichas anomalı́as de antemano, por tanto sólo es posible, como se mencionó anteriormente, programar y calcular los.

(50) Figura 18: Relación entre la rentabilidad y la tasa de retorno de recompensa luego de 50000 ciclos. Arriba crecimiento medio, incluye todos los elementos cuyo tamaño sean mayor a 30 en la dieta óptima; Abajo crecimiento lento, incluye sólo los elementos de tamaño mayor a 20 en la dieta. parámetros del modelo. Practicada una estrategia de patrullaje y decisión, como ha sido descrita en [10] y éste trabajo, y al igual que en el ejemplo anterior, se realiza un cálculo dinámico de la tasa de encuentro, sólo se utilizó la estrategia de ventana móvil descrita en la sección 3.3.3. Se realizaron pruebas similares con presas con comportamientos diferentes, una de crecimiento muy lento y otra con un crecimiento medio, similar a los ilustrados en la figura 17. Para cada caso se simularon cincuenta mil (50000) ciclos del algoritmo de búsqueda y decisión. Al pasar el tiempo evolucionan las tasas de encuentro y cambia la dieta óptima, en el ambiente donde existen presas de crecimiento más rápido, la dieta incluye presas cuyo tamaño sea mayor a 30, mientras en el de crecimiento lento, sólo aquellas que sean superiores en tamaño a 20. Dicha evolución de la dieta puede evidenciarse en la figura 18, que ilustra las relación entre rentabilidad de las elementos anómalos y la tasa de retorno de recompensa, teniendo éstas sus puntos óptimos en los valores mencionados anteriormente..

(51) De manera similar como se comparó para varias presas, se usan otros posibles modelos de decisión para observar el comportamiento del modelo propio. Para una presa de crecimiento medio, se obtuvieron los datos representados en la tabla 6 para el elemento de crecimiento a velocidad media y en la tabla 7 las de la presa de velocidad lenta. Cuadro 6: Puntos y tasa de ganancia de recompensa en elemento anómalo de aparición poco frecuente y tasa de crecimiento media.. Cuadro 7: Puntos y tasa de ganancia de recompensa en elemento anómalo de aparición frecuente y tasa de crecimiento lenta.. En las tablas 6 se nota que la recompensa obtenida por el agente usando un cálculo dinámico de la dieta es similar a la obtenida por un agente cuya dieta fija incluye solo.

(52) elementos de tamaño mayor a 35, la dieta óptima al final de tiempo de simulación, t = 5000 para un agente en bajo estas condiciones de terreno y con un elemento cuya tasa de crecimiento es media, como a los que corresponden estos resultados, incluye elementos de valor de recompensa un poco superior a 30. De igual manera, en la tabla 7, que contiene los resultados para una anomalı́a de crecimiento lento, los resultados de una dieta calculada de manera dinámica, que al final de la simulación sólo incluı́a objetos mayores a 20, es similar al obtenido con una dieta que solo ignora los elementos de tamaño menor a 20. Es evidente, en estas tablas, que no se está escogiendo la estrategia que retorna mayor cantidad de puntos de recompensa, pues si se observa aquellos que en su estrategia de decisión parten de un punto arbitrario para la selección de que presa alimentarse y eligen esperar solo por presas altas, tiene una mejor tasa de retorno que las usadas en los modelos de forraje. Esto dado a que en los mencionados casos el agente espera a que la presa alcance un valor óptimo para su consumo, cercano a aquel donde la concavidad en la gráfica de crecimiento de la presa cambia. Sin embargo, esto no representa un mal funcionamiento del modelo, por el contrario, es conforme con la independencia de la Inclusión de la tasa de Encuentro presentado como resultado del modelo de la presa. Dado que el elemento crece y es procesado antes de alcanzar un gran tamaño, las clases de presa de mayor rentabilidad no son encontradas con facilidad, por lo que su tasa de encuentro se hace más baja, incluyendo en la dieta presas de menor rentabilidad. Al incluir elementos de menor tamaño, se estarı́an procesando estos sin permitir que éste crezca, iniciando un cı́rculo vicioso que no permite que las presas lleguen a su tamaño óptimo de consumo. Es más evidente este resultado en elementos de crecimiento lento, pues presas de mayor tamaño tardan más en llegar, forzando al consumo de elementos de aún menor dimensión. El agente sin previo conocimiento del comportamiento del elemento anómalo toma decisiones basado en el modelo. Aunque no resulte óptimo el comportamiento, el objetivo se cumple a cabalidad, pues, se mantiene libre el espacio de anomalı́as. Al alimentarse de.

(53) presas de un tamaño inferior al óptimo, indica que la labor de patrullaje se está realizando con demasiada frecuencia, no permitiendo que la presa alcance un mayor tamaño, esto se hace más crı́tico cuando el crecimiento de la presa es más lento. Bien se puede por disminuir la frecuencia de patrullaje sobre cada punto, ya sea con un dispositivo de locomoción más lenta, o trabajando sobre un mayor superficie de patrullaje.. 4.4.. Comentarios. En esta sección se mostró el ambiente desarrollado para implementar el sistema de toma de decisiones usando el modelo de la presa. Este sistema fue montado sobre el sistema de patrullaje basado en el interés desarrollado en [10] y se realizaron una serie de pruebas bajo diferentes condiciones. Se implementó el cálculo dinámico de la tasa de encuentro, parámetro del modelo de la presa, que es lo que permite adaptar la dieta a la oferta del terreno. Se usaron y compararon dos estrategias de cálculo distintas, la totalidad de eventos, descrita en la sección ??, y una ventana móvil usando un promedio de estimadores, introducida en la sección 3.3.3. Se mostró que cuando la tasa de aparición de las diferentes clases de elementos anómalos no varı́a, el utilizar la totalidad de eventos ocurridos en la estimación permite una convergencia inicial más rápida, además entre más tiempo trascurra, mejor y más estable será dicho estimador. Sin embargo, en un escenario donde la oferta es cambiante en el tiempo, la estrategia de la ventana móvil de eventos es mucho más conveniente, pues al hacer uso solo de la información más actualizada, permite reconocer dichos cambios y adaptar la dieta a una óptima, sin que eventos pasados afecten la capacidad de calcular tasa de encuentro, como pasa al usar la totalidad del tiempo. Dos clases de anomalı́as fueron modeladas, en la primera, diferentes tipos de elementos riesgos aparecı́an de manera aleatoria en el terreno, estos elementos eran identificados y se procesaban o ignoraban de acuerdo a la recompensa que pudiese ser obtenida. Después se introdujo el concepto de anomalı́a creciente, donde un elemento tiene la capacidad de.

(54) aumentar su tamaño, por tanto el riesgo que representa para el sistema y la recompensa para el agente, a medida que el tiempo avanza. En este caso, el elemento se trata como si fuese una colección de diferentes tipos de presas, y va evolucionando hacia clases de presa más rentables a medida que crece. Cuando se tienen diferentes tipos de elementos, cada uno con caracterı́sticas bien definidas, con caracterı́sticas mutuamente excluyentes entre sı́, y se usa la estrategia de decisión desarrollada basándonos en el modelo de la presa y cálculo dinámico de la tasa de encuentro, logra adaptarse a la dieta óptima para la cantidad de elementos que aparezcan. Al correr el algoritmo para elementos con la capacidad de crecer, no se obtuvo la dieta óptima en ninguno de los casos. El agente consume las presas antes de que estas logren alcanzar un gran tamaño, puesto que no se llegan a presas de un tamaño grande, la tasa de encuentro de las presas de mayor rentabilidad, que corresponden a elementos de gran dimensión, se ve mermada, incluyendo en la dieta presas de cada vez menor valor, convirtiéndose en un circulo vicioso. Dicho comportamiento está de acuerdo con los planteamientos del modelo de la presa, y no implica que el sistema este trabajando de forma inadecuada, por el contrario, el objetivo inicial, que era mantener el espacio libre de elementos anómalos es cumplido a cabalidad..

Figure

Actualización...

Referencias

Actualización...