PROYECTO FIN DE CARRERA. Presentado a LA UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Y ELECTRÓNICA

(1)

PROYECTO FIN DE CARRERA Presentado a

LA UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIER´IA

DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Y ELECTR ÓNICA

Para obtener el t´ıtulo de INGENIERO ELECTR ´ONICO

por

Cristhian Camilo S´anchez Fino

SIMULACI ´ON DE UN CONTROLADOR DE ALTO NIVEL EN MATLAB

PARA EL CONTROL DE POSICI ´ON DE UN DRONE DE 4 H ´ELICES A PARTIR DE CADENAS DE MARKOV

Sustentado el d´ıa 27 de mayo frente al jurado:

Composici´on del jurado:

− Asesor : Luis Felipe Giraldo, Profesor Asistente /Universidad de Los Andes

− Jurado: Mauricio Jos´e Junca Pel´aez, Profesor Asociado / Universidad de Los Andes

(2)

Contenido

1 Introducci´on 2

2 Objetivos 2

2.1 Objetivo general . . . 2

2.2 Objetivos espec´ıficos . . . 2

2.3 Alcances y productos finales . . . 3

3 Descripción de la problemática y justificación del trabajo 3 4 Marco teórico e histórico 4 4.1 Procesos de decisión de Markov . . . 4

4.1.1 Epocas de decisi´´ on . . . 4

4.1.2 Conjunto de estados y acciones . . . 4

4.1.3 Recompensas y probabilidades de transici´on . . . 5

4.1.4 Reglas de decisi´on markovianas . . . 5

4.1.5 Pol´ıticas markovianas . . . 6

4.1.6 Procesos estoc´asticos inducidos . . . 6

4.1.7 Definici´on . . . 7

4.1.8 Modelos . . . 7

4.1.9 Algoritmos . . . 8

4.2 Control PID . . . 9

4.3 Marco hist´orico . . . 10

5 Definición y especificación del trabajo 10 5.1 Definición . . . 10

5.2 Especificaciones . . . 11

6 Metodolog´ıa 11 6.1 Plan de trabajo . . . 12

6.2 B´usqueda de informaci´on . . . 12

6.3 Alternativas de desarrollo . . . 12

7 Trabajo realizado 13 7.1 Modelo del drone . . . 13

7.1.1 Arquitectura del modelo . . . 14

7.1.2 Par´ametros de simulaci´on . . . 15

7.2 Modelo del controlador . . . 17

7.2.1 Definici´on de estados y acciones . . . 17

7.2.2 Definici´on de matriz de probabilidad de transici´on . . . 18

7.2.3 Definici´on de funciones de recompensa . . . 18

7.2.4 Definici´on de pol´ıtica de control . . . 18

7.3 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito . . 19

7.3.1 Descripci´on . . . 19

7.3.2 Funci´on de recompensa . . . 19

7.4 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito . 19 7.4.1 Descripci´on . . . 19

7.4.2 Funci´on de recompensa . . . 20

7.5 Caso de estudio: Planeaci´on de ruta evitando obst´aculos con MDP de horizonte infinito . . . 20

7.5.1 Descripci´on . . . 20

7.5.2 Funciones de recompensa . . . 20

8 Resultados y an´alisis de resultados 20 8.1 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito . . 20

8.1.1 An´alisis de sensibilidad ante la matriz de perturbaciones . . . 22

(3)

Contenido 1

8.1.2 Análisis de sensibilidad ante el tipo de perturbación . . . 23 8.2 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito . 24 8.2.1 Análisis de sensibilidad ante la matriz de perturbaciones . . . 25 8.2.2 Análisis de sensibilidad ante el tipo de perturbación . . . 26 8.2.3 Análisis de sensibilidad ante el camino . . . 27 8.3 Caso de estudio: Planeación de ruta evitando obstáculos con MDP de hori-

zonte infinito . . . 29 8.3.1 Análisis de sensibilidad ante la matriz de probabilidad . . . 29 8.3.2 Análisis de sensibilidad ante el tipo de perturbación . . . 31

9 Discusi´on 31

10 Conclusiones 32

10.1 Conclusiones . . . 32 10.2 Trabajo futuro . . . 33

11 Agradecimientos 33

Bibliograf´ıa 34

(4)

1 Introducci´ on

El presente documento resume el trabajo realizado para el proyecto de grado. Inicialmente, se introduce el concepto cadenas de Markov, el cual consiste en una herramienta matemáti- ca para el modelamiento de la toma de decisiones secuenciales. Considerando el problema de control de vuelo de un drone de 4 hélices, se motiva la utilización de esta herramienta para el diseño de un controlador de alto nivel que controle la posición X-Y de un drone. El controlador propuesto depende del modelo de cadena de Markov utilizado. Se proponen dos modelos, el modelo de horizonte finito y el modelo de horizonte infinito.

Para probar el controlador propuesto, se plantean dos escenarios. En el primero, se quiere seguir una trayectoria dada. En el segundo, se quiere llegar a un destino, evitando obst´aculos.

Para lograr el objetivo en cada escenario, se definen funciones de recompensa adecuadas.

Posterior a la definici´on de las recompensas, se simula el comportamiento del controlador en cada escenario. As´ı mismo, se plantean escenarios de prueba en los que se analizan la sensibilidad del controlador ante las matrices de probabilidad y el tipo de viento considerado.

Finalmente, se comparan los resultados de los an´alisis de sensibilidad y se propone el trabajo futuro.

2 Objetivos

2.1. Objetivo general

Desarrollar y simular un controlador jer´arquico de dos niveles, cuya estrategia de alto nivel sea basada en los Procesos de Decisi´on de Markov(MDPs), con ayuda del software MATLAB.

2.2. Objetivos espec´ıficos

Comprender los modelos de los MDPs en el marco de control del vuelo de un drone.

Estudiar el funcionamiento de la metodolog´ıa propuesta en diferentes casos.

(5)

Implementar una plataforma de simulaci´on basada en MATLAB.

2.3. Alcances y productos finales

El presente proyecto se desarrolla en la plataforma MATLAB, por lo cual se entregan los archivos de código utilizados para el desarrollo del mismo, debidamente comentados y expli- cados. Adicionalmente, se entregará el resultado de las simulaciones del comportamiento de dron en distintos escenarios de interés.

3 Descripci´ on de la problem´ atica y justificaci´ on del trabajo

En la actualidad, el desarrollo de tecnolog´ıas de comunicación inalámbrica y procesamiento de imágenes ha permitido el desarrollo de dispositivos electrónicos controlados a largas dis- tancias. Dentro de esta categor´ıa, se ha popularizado el uso de Veh´ıculos aéreos no tripulados (UAV por sus siglas en inglés) para el desarrollo de distintas actividades, que anteriormente se consideraban riesgosas o de alta dificultad.

A partir de esto, se ha desarrollado un interés por el desarrollo de técnicas de control que permitan la manipulación de UAV, de tal manera que estos operen de manera autónoma sin poner en riesgo la integridad f´ısica del dispositivo. En el caso de los drones de 4 hélices, dada la dificultad de las dinámicas f´ısicas que comprenden su movimiento, se han desarrollado modelos dinámicos para el desarrollo de estrategias que permitan el control de su vuelo. Sin embargo, estos modelos representan aproximaciones que están sujetas a eventos, de naturaleza estocástica, que pueden ocurrir en el medio en el cuál el dron se desplaza. En este contexto, resulta relevante el entendimiento de técnicas de diseño de controladores que muestren un buen desempeño a eventos aleatorios.

Teniendo en cuenta lo anterior, se encuentra en la literatura mucha información referente a modelamiento de las dinámicas de un dron de 4 hélices, al igual que modelos para el despla- zamiento del mismo. Sin embargo, es poca la literatura que se encuentra en la que se realice un modelamiento del problema desde una perspectiva robusta a los eventos aleatorios. Es aqui, en donde resulta relevante la utilización de técnicas de modelamiento que permitan la inclusión de eventos aleatorios que permitan garantizar un mejor desempeño de los dispositivos ante condiciones inciertas.

(6)

4 4 Marco te´orico e hist´orico

El presente proyecto busca, a partir de fundamentos matemáticos, la realización de un controlador jerárquico para un dron de 4 hélices, que permita un buen desempeño al momento de desplazarse en un ambiente con condiciones inciertas, de naturaleza aleatoria. Esto último resulta relevante en aquellos contextos en los que sea necesario el control del vuelo de UAV bajo condiciones aleatorias. Un ejemplo de esto, es el área de la agricultura, en donde se hace la utilización de drones para la irrigación de cultivos. Otro contexto en el que resulta relevante el control de vuelo de UAV, es en los servicios de domicilios urbano que hacen uso de los UAV para sus funcionamiento.

4 Marco te´ orico e hist´ orico

4.1. Procesos de decisi´ on de Markov

Los expuesto en esta sección corresponde a las definiciones expuestas en [3]. Los procesos de decisión de Markov modelan la toma de decisiones secuenciales de un agente bajo condiciones inciertas. Estos se componen de cinco elementos: épocas de decisión, estados, acciones, probabilidades de transición y recompensas. Cada elemento se describe a continuación, para luego dar una definición formal de un proceso de decisión de Markov

4.1.1. Epocas de decisi´ ´ on

Definición 4.1. Las épocas de decisión son los tiempos en los cuáles ocurre la toma de decisiones. Sea T el conjunto de épocas de decisión. Este conjunto puede ser discreto o un continuo, al igual que un conjunto finito o infinito.

Definición 4.2. Los per´ıodos o etapas son el tiempo que transcurre entre épocas de deci- sión en problemas de tiempo discreto.

Definici´on 4.3. Si |T | = N < ∞ se denomina un problema de horizonte finito. En caso contrario, se denomina un problema de horizonte infinito.

Observación 4.1. Por convención, en problemas de horizonte finito, no se toman decisiones en la época de decisión N , sino que dicha época se incluye únicamente para evaluar el estado final del sistema.

4.1.2. Conjunto de estados y acciones

Definición 4.4. Sea s_t el estado ocupado por el sistema en la época de decisión t ∈ T . Sea S^t= S

t∈T

{st} el conjunto de todos los estados posibles en el tiempo t. Se define S = S

t∈TS^t el

(7)

4.1 Procesos de decisi´on de Markov 5

conjunto de posibles estados del sistema.

Definici´on 4.5. Sea A^s el conjunto de acciones disponibles para el agente al estar en el estado s. Sea A := S

s∈SA^s el conjunto de acciones disponibles para el agente.

Observaci´on 4.2. En este caso, se asume que S, As no var´ıan con t ∈ T . Para el desarrollo de este trabajo se asume que S y As son conjuntos discretos y finitos.

Definición 4.6. Una acción a es escogida aleatoriamente si existe una distribución de probabilidad q(·) ∈ P(A)¹ tal que la probabilidad de escoger la acción a está dada por q(a).

Observación 4.3. Las acciones pueden tomarse de manera aleatoria o determin´ıstica. En este caso, una acción determin´ıstica corresponde a una distribución de probabilidad degene- rada. Es decir, la probabilidad de tomar una acción determin´ıstica es igual a 1.

4.1.3. Recompensas y probabilidades de transici´ on

Definición 4.7. Una función de recompensa es una función r_t : S × As → R tal que r(s, a) representa la recompensa recibida por el agente al estar en el estado s en el tiempo t y tomar la acción a. En algunas ocasiones, la función de recompensa puede ser definida como rt : S × A^s× S → R en donde r^t(s, a, j) representa la recompensa obtenida por estar en el estado s en el tiempo t, tomar la acción a y llegar al estado j.

Definición 4.8. Una probabilidad de transición es una distribución de probabilidad p_t(·, s, a) ∈ P(S) tal que pt(j, s, a) = p_t(j|s, a) representa la probabilidad de llegar al estado j dado que se está en el estado s en el tiempo t y se toma la acción a.

Observaci´on 4.4. Dado que en el MDPs de horizonte finito no se toma una decisi´on en la

´

ultima época, la recompensa para t = N está dada por una función r_t : S → R donde rN(s) representa la recompensa recibida dado que el estado final del sistema es s.

4.1.4. Reglas de decisi´ on markovianas

Definición 4.9. Una regla de decisión markoviana determin´ıstica es una aplicación d_t: S → A en donde, ∀s ∈ S dt(s) ∈ As. Se entiende que d_t(s) es la acción tomada dado que se está en el estado s en el tiempo t. Sea D^MD_t el conjunto de todas las pol´ıticas markovianas determin´ısticas en el tiempo t y D^MD = S

t∈T

D_t^MD el conjunto de todas las pol´ıticas markovianas determin´ısticas del MDP.

Definición 4.10. Una regla de decisión markoviana aleatoria es una aplicación d_t : S → P(A), se tiene que ∀s ∈ S dt(s) = q(·) ∈ P(As). Es decir, la regla determina un distribución

1P(X) es la colecci´on de distribuciones de probabilidad sobre subconjuntos borelianos de X

(8)

de probabilidad sobre el conjunto de acciones As dado que se está en el estado s en el tiempo t. La distribución de probabilidad definida está dada por q_d_t_(s)(·). Sea D^MA_t el conjunto de todas las pol´ıticas markovianas aleatorias en el tiempo t D^MA = S

t∈T

D_t^MD el conjunto de todas las pol´ıticas markovianas aleatorias del MDP.

4.1.5. Pol´ıticas markovianas

Definici´on 4.11. La tupla π = (d₁, d₂, . . . , d_{N −1}) es una pol´ıtica markoviana, si para todo t dt ∈ D^MA_t o dt ∈ ∪D^MD_t . Es decir, en el tiempo t se utiliza la regla de decisi´on dt. Sea Π^K= D^K₁ × · · · × D^K_{N −1} el conjunto de pol´ıticas del tipo K, donde K es M A si son pol´ıticas markovianas aleatorias o M D si son pol´ıticas markovianas determin´ısticas.

Definición 4.12. Una pol´ıtica estacionaria es aquella pol´ıtica π tal que para ∀i d_i = d para algún d ∈ D^K, donde K se define como en la definición 4.11

4.1.6. Procesos estoc´ asticos inducidos

Para construir un modelo de probabilidad, se considera el siguiente conjunto para el caso de horizonte finito

Ω = {S × A}^{N −1}× S,

en el caso de un modelo de horizonte infinito, considere Ω = {S × A}^∞. Sea B(Ω) el conjunto de conjuntos borelianos sobre Ω. Un elemento ω ∈ Ω es de la forma

ω = (s₁, a₁, s₂, a₂, . . . , a_{N −1}, s_N), para el caso de horizonte finito y

ω = (s₁, a₁, s₂, a₂, . . . ).

en el caso de horizonte infinito. Note que ω describe los estados ocupados por el sistema y las acciones tomadas en cada una de las épocas de decisión y recibe el nombre de camino de muestreo. Para toda época de decisión t se definen las variables aleatorias X_t : Ω → S, Yt: Ω → A respectivamente por

X_t(ω) = s_t y Y_t(ω) = a_t.

As´ı mismo, se define la historia del proceso Z_t para la ´epoca decisi´on t por Z₁(ω) = s₁ y Z_t(ω) = (s₁, a₁, . . . , s_t).

Sea h_t = (s₁, a₁, . . . , s_t−1, a_t−1, s_t) la historia hasta el tiempo t. Sea P₁(·) la distribuci´on de probabilidad que denota la distribuci´on inicial de los estados del sistema (i.e el sistema comienza en el estado s con probabilidad P₁(s)). Una pol´ıtica markoviana π = (d₁, d₂, . . . d_{N −1}),

(9)

4.1 Procesos de decisi´on de Markov 7

con N ≤ ∞ induce una medida de probabilidad P^π en el espacio medible (Ω, B(Ω)) de la siguiente manera

P^π{X₁ = s} = P₁(s),

P^π{Y_t= a|Z_t= h_t} = P^π{Y_t = a|X_t= s_t}q_d_t_(s_t₎(a), P^π{X_t+1= s|Z_t = (h_t−1, a_t−1, s_t), Y_t= a_t} = p_t(s|s_t, a_t).

Luego, la probabilidad de un camino de muestreo ω = (s1, a1, s2, . . . , sN) est´a dado por P^π(s₁, a₁, s₂, . . . , s_N) = P₁(s₁)q_d₁_(s₁₎(a₁)p₁(s₂|s₁, a₁) · · · p(s_N|s_{N −1}, a_{N −1}).

A partir de esto, las probabilidades condicionales se calculan de la siguiente manera:

P^π(a_t, s_t+1, . . . , s_N|s₁, a₁, . . . , s_t) = P^π(s1, a1, . . . , sN) P^π(s₁, a₁, . . . , s_t)

dado que la cantidad del denominador no es cero. En caso contrario, la probabilidad es cero. La cantidad del denominador se calcula sumando las probabilidades P^π(s₁, a₁, . . . s_N) sobre todos los caminos de muestreo tales que las primeras 2t − 1 componentes son iguales a s1, a1, . . . , st.

4.1.7. Definici´ on

Definici´on 4.13. La tupla {T, S, A, pt(·|s, a), r_t(s, a)} es un proceso de decisi´on de Mar- kov (MDP).

4.1.8. Modelos

En este trabajo, se consideran MDPs de horizonte finito e infinito. Para cada uno de ellos se tienen las siguientes definiciones relevantes

Modelo de horizonte infinito Para el desarrollo de este proyecto, se utilizar´a el modelo de criterio de recompensa total descontada. Dada una pol´ıtica markoviana aleatoria, esta se define

v^π_λ(s) = E^π ( _∞

X

t=1

λ^t−1r(X_t, Y_t) )

,

donde s es el estado inicial del sistema y λ ∈ [0, 1) es un factor de descuento. Se define v_λ^∗(s) = sup

π∈Π^MA

v_λ^π(s)

Los valores ´optimos v^∗ : S → R del MDP son soluci´on de las siguientes ecuaciones v(s) = sup

a∈As

(

r(s, a) +X

j∈S

λp(j|s, a)v(j) )

(10)

La pol´ıtica π se llama ´optima si

v^∗(s) = v^π_λ(s) = v^∗_λ(s).

Modelo de horizonte finito Para el desarrollo de este proyecto, se utilizar´a el modelo de criterio de recompensa total. Dada una pol´ıtica markoviana aleatoria, esta se define como

v_N^π(s) = E^π (_{N −1}

X

t=1

rt(Xt, Yt) + rN(XN) )

, donde s es el estado inicial del sistema. Se define

v_N^∗(s) = sup

π∈Π^{M D}

v_N^π(s).

Los valores ´optimos u^∗_t : S → R son soluciones de las ecuaciones

u_t(s_t) = sup

a∈A_st

(

r_t(s_t, a) +X

j∈S

p_t(j|s_t, a)u_t+1(j) )

y u_N(s_N) = r_N(s_N). La pol´ıtica π es ´optima si

v_N^∗(s) = v^π_N(s) = u^∗_N(s).

4.1.9. Algoritmos

Algoritmo de iteración de valor de Gauss - Seidel A continuación se presenta el algoritmo de iteración de valor de Gauss- Seidel

1. Especifique v⁰(s) para todo s ∈ S, ε > 0 y sea n = 0 (v⁰ es una funci´on de valor v⁰ : S → R acotada con la norma del supremo).

2. Sea j = 1 y vaya a 3.

3. Calcule vⁿ⁺¹(s_j) por

vⁿ⁺¹(s_j) = m´ax

a∈A_sj

(

r(s_j+ a) + λ

"

X

i<j

p(s_i|s_j, a)vⁿ⁺¹(s_i) +X

i≥j

p(s_i|s_j, a)vⁿ(s_i)

#) ,

4. Si j=N, vaya a 5. Si no, incremente j en 1 y vaya a 3.

5. Si

||vⁿ⁺¹− vⁿ|| < ε(1 − λ) 2λ ,

vaya al paso 6. En caso contrario, incremente n en 1 y vaya a 2.

(11)

4.2 Control PID 9

6. Para cada s ∈ S, escoja

d^ε(s) ∈ arg max

a∈As

(

r(s, a) +X

j∈S

λp(j|s, a)vⁿ⁺¹(j) )

y pare.

Este algoritmo que garantiza que el esquema vⁿ converge a los valores ´optimos v_λ^∗ y que la pol´ıtica construida es estacionaria y va a ser muy cercana a la ´optima tomando un valor de ε muy cercano a 0.

Algoritmo de inducción hacia atrás A continuación se presenta el algoritmo de inducción hacia atrás

1. Sea t = N y

u^∗_N(sN) = rN(sN) ∀sN ∈ S, 2. Substituya t por t − 1 y compute u^∗_t(s_t) para todo s_t∈ S por

u^∗_t(s_t) = m´ax

a∈A_st

(

r_t(s, a) +X

j∈S

p_t(j|s_t, a)u^∗_t+1(j) )

. (4-1)

Sea

A^∗st,t = arg max

a∈Ast

(

r_t(s_t, a) +X

j∈S

p_t(j|s_t, a)u^∗_t+1(j) )

. (4-2)

3. Si t = 1, pare. En caso contrario, retorne al paso 2.

Este algoritmo garantiza que la pol´ıtica π definida por dt(s) ∈ A^∗st,t es ´optima, es markoviana y es determin´ıstica.

4.2. Control PID

Uno de los controladores más utilizados en la industria es el controlador PID [5]. La función de transferencia de este controlador está dado por

G_c(s) = K_p+ K_I

s + K_D · s.

En el dominio del tiempo, la ecuaci´on para el controlador est´a dado por u(t) = Kpe(t) + KI

Z

e(t)dt + KD

de(t) dt ,

en donde e(t) es la funci´on de error. Es decir e(t) = x(t) − r(t) donde r(t) es la referencia deseada a seguir.

(12)

El controlador consta de una parte proporcional, determinada por la constante K_p, que determina que el control es proporcional al error. Es decir, mientras más grande sea el error, mayor es la acción de control. Si la constante de proporcionalidad aumenta, aumenta el tiempo de respuesta. Sin embargo, puede llevar a la inestabilidad del sistema. Adicionalmente, el controlador consta de la parte integral, que consta de la integral del error. Esta acción garantiza que el error en estado estable es cero. Sin embargo, al agregar al sistema un polo en cero, puede llevar a la inestabilidad del mismo. Finalmente, el controlador consta de una parte derivativa, que es proporcional al cambio del error. Mientras más cambie el error, mayor va a hacer la acción derivativa. Esta acción ayuda a amortiguar el sistema, logrando que haya un menor sobre pico en el error.

4.3. Marco hist´ orico

La utilización de modelos que consideran incertidumbre enmarcados en un contexto de control de UAVs ha sido muy poca. En [1] hacen la utilización de Cadenas de Markov parcial- mente observables para el modelamiento de un sistema de vigilancia, compuesto por varios UAVs, que rastrea múltiples objetivos. En dicho modelo, se consideran los factores de cali- bración de sensores, posición del objeto a seguir e influencia del ambiente sobre los UAVs, como un factor de origen de incertidumbre.

Paralelamente, la utilización de cadenas de Markov en un contexto general de control se puede evidenciar en [6], en la que se hace uso de las cadenas de Markov para modelar el funcionamiento de un sistema de control en red, en particular, la pérdida de paquetes de información al momento de la transmisión de información. As´ı mismo, en [4] se observa la utilización de cadenas de Markov, con parámetros ocultos (Hidden Markov chains) para el modelamiento de la situación de seguimiento a un veh´ıculo, en el contexto de la utilización de técnicas de control predictivo para el control de un veh´ıculo, según ciertas especificaciones.

5 Definici´ on y especificaci´ on del trabajo

5.1. Definici´ on

El presente documento pretende explorar la posibilidad de utilizar la teor´ıa de los procesos de decisi´on de Markov dentro de un contexto de control en el que existen fuentes de incertidumbre. En particular, se busca explorar la realizaci´on de una estructura de control

(13)

jerárquica, que en alto nivel, determine la manera en la que el drone deba moverse de tal manera que se logre el comportamiento deseado, teniendo en cuenta al viento como una fuente de incertidumbre y de naturaleza aleatoria. Este problema es principal interés en aquellos contextos en los que se quiere que el drone siga ciertas trayectorias. Un ejemplo de esto es en la agricultura, en donde se puede desear que un drone de irrigación pase por determinadas zonas que necesitan mayores niveles de humedad. Otro ejemplo puede ser la utilización de drones en servicios de entregas de mercanc´ıa a domicilio, en el que se quiere controlar el movimiento del drone acorde a rutas de entrega.

5.2. Especificaciones

En este trabajo, se determinan tres casos de estudio en los cuales se utiliza un controlador a partir de las cadenas de Markov. En cualquiera de los tres casos, se busca que el drone llegue a determinado destino, según lo determine el usuario del simulador. En algunos casos, se quiere que el drone siga una trayectoria determinada, y en el último caso, se quiere que este determine una ruta con tal de evitar unos obstáculos determinados por el usuario. Se considera que, cuando el drone pasa efectivamente por donde el camino lo determine, hay un adecuado funcionamiento del controlador. Una forma efectiva de medir el funcionamiento, en los casos en los que se quiere seguir una trayectoria, es utilizando el indicador definido por

I_Seg = N´umero de cuadros visitados exitosamente N´umero de cuadros deseados para visitar .

En el caso en el que se quiere evitar obst´aculos, se considera el siguiente indicador

I_Esq =

(1 si el drone evita los obst´aculos, 0 en caso contrario.

La tabla 5-1muestra los valores para de los indicadores para los cuales se considera que la acci´on de control es efectiva

Indicador Valor cr´ıtico

I_Seg 75 %

IEsq 10

Tabla 5-1: Valores de criterio de indicadores

(14)

6 Metodolog´ıa

6.1. Plan de trabajo

El plan de trabajo utilizado para el desarrollo del proyecto fue:

Determinaci´on de modelos de MDPs a utilizar.

Lectura de informaci´on referente a teor´ıa b´asica de MDPs.

Documentaci´on sobre modelo del drone de 4 h´elices y perturbaciones modeladas.

Definici´on de casos de estudio.

Análisis de caso de estudio: definición de funciones de recompensa, estados y acciones Determinación de matrices de probabilidad de manera frecuencial.

Definición de algoritmos a utilizar: Sustitución hacia atrás y algoritmo de iteración de valor.

Implementaci´on de casos de estudio.

An´alisis de sensibilidad ante matrices de probabilidad y tipo de perturbaci´on.

6.2. B´ usqueda de informaci´ on

La principal fuente de información para el desarrollo del proyecto fue [3]. Esta fuente fue utilizada para contextualizar la teor´ıa de los procesos de decisión de Markov, comprender sus fundamentos y resultados teóricos al igual que los algoritmos utilizados para la resolución de problemas de procesos de decisión de Markov. A partir de los conocimientos adquiridos, se realizó la aplicación de los conceptos de MDPs en el contexto de interés del proyecto. En conjunto con el profesor Mauricio Junca se determinaron las caracter´ısticas de los casos de estudio al igual que los algoritmos a utilizar en la implementación. En conjunto con el profesor Luis Felipe Giraldo, se validaron los resultados obtenidos y se establecieron metodolog´ıas de comparación de los resultados, para facilitar la comprensión del modelo propuesto.

6.3. Alternativas de desarrollo

Para el desarrollo del proyecto se contaba con dos modelos del drone. Uno de ellos, consta de un drone con dos controladores PID: uno que controla la posici´on X-Y y el otro que

(15)

13

controla los ángulos de orientación. El segundo drone sólo cuenta con un controlador PID que controla los ángulos de orientación. Inicialmente, se quer´ıa implementar los algoritmos para el drone que únicamente controla los ángulos de orientación. Para esto, usando el drone que tiene dos controladores, se caracterizaron los ángulos necesarios para realizar cada una de las acciones. Sin embargo, en todos los casos de estudio se evidenció que, debido a que el drone únicamente segu´ıa una referencia de los ángulos de orientación y no los correg´ıa según la posición X-Y del drone, el modelo era altamente sensible a las perturbaciones, encontrándose una gran dificultad para garantizar el funcionamiento deseado. A partir de esto, se decidió implementar el modelo propuesto con el drone que tiene dos controladores.

De esta manera, el controlador se encarga de hacer los ajustes necesarios en los ´angulos con el fin de lograr los objetivos de control.

7 Trabajo realizado

7.1. Modelo del drone

Para el desarrollo de las simulaciones, se hace uso de un drone de 4 hélices. Se considera que el marco móvil del drone está en posición de X. Está configuración es ilustrada en la figura 7-1. Note la definición de los ángulos θ, ϕ, ψ.

Para interés del trabajo, se considera que el control a realizar sólo se hará sobre la posición

Figura 7-1: Configuraci´on en X

X-Y del drone. La referencia del controlador de altura se mantiene fija en 3 metros. Las perturbaciones consideradas dentro del modelo consisten en fuerzas aplicadas al drone, con respecto al marco de referencia inercial y se consideran que son perturbaciones resultantes de la acci´on del viento sobre el cuerpo del drone. Para poder considerar un modelo de toma

(16)

14 7 Trabajo realizado

de decisiones secuencial, se determina el tiempo t_p segundos equivalente al tiempo que pasa entre etapas de decisión. Después de t_p segundos se determina la posición del drone y se toma una acción según lo deseado.

7.1.1. Arquitectura del modelo

La figura 7-2 muestra la arquitectura del controlador.

Figura 7-2: Estructura general del sistema de control

El controlador de alto nivel, al cabo de t_p segundos utiliza la posici´on actual del drone para definir la referencia que deben seguir los controladores PID para lograr el objetivo deseado.

La figura 7-3 muestra el modelo de simulink del simulador del drone utilizado [2].

El simulador est´a compuesto por los siguientes bloques:

Figura 7-3: Modelo de simulink del simulador

(17)

7.1 Modelo del drone 15

1. Controlador de posición: Este bloque se encarga de controlar la posición X-Y del drone según una referencia dada. Consta dos controladors PID que son utilizados para determinar los ángulos ϕ, θ de referencia. Las constantes del controlador están dadas por Ki = 0,9, Kd= 0,25, Ki = 0,095 que fueron determinados a partir de sintonización manual. Los controladores tienen una saturación para los ángulos de ±12 grados.

2. Controlador de orientación: Este bloque se encarga de controlar la orientación del drone. Utiliza 4 controladores PID para controlar los ángulos θ, ϕ, ψ y la altura Z de referencia. La tabla 7-1 muestra los valores de los controladores.

Variable a controlar K_p K_i K_d

ϕ 2 1.1 1.2

θ 2 1.1 1.2

ψ 4 0.5 3.5

z 2 1.1 3.3

Tabla 7-1: Tabla de controles

3. Bloque de controles: Este bloque se encarga de hacer la relación entre los comando de corrección de ángulos y la altura, para determinar las velocidades a la que deben girar los motores para obtener el efecto deseado.

4. Bloque de dinámicas Es el bloque encargado de simular las dinámicas de los motores y de simular el sistema dinámico del drone con las perturbaciones consideradas.

7.1.2. Par´ ametros de simulaci´ on

Para simular el drone, se consideran los siguientes par´ametros f´ısicos del drone ( (M)=Motor, (C)= Control electr´onico de velocidad, (Ce)= Cuerpo central, (B)=Brazos).

Par´ametro Valor Unidad Par´ametro Valor Unidad

Masa (M) 73 grms Distancia a centro (C) 8.26 cm

Distancia a centro (M) 22.23 cm Masa (Ce) 431 grms

Altura sobre el brazo (M) 3.18 cm Radio (Ce) 5.64 cm

Radio (M) 1.4 cm Altura (Ce) 4.29 cm

Masa (C) 30 grms Masa (B) 45 grms

Ancho (C) 2.54 cm Radio (B) 3.25 cm

Largo (C) 5.71 cm Largo (B) 18.57 cm

Tabla 7-2: Par´ametros f´ısicos del drone

(18)

En el caso de las perturbaciones, se asume que la fuerza que imprime el viento sobre viento se distribuye con una distribución normal con media µ = 0 y varianza σ² = 0,04. Para determinar el valor máximo y m´ınimo de la perturbación, se hizo uso de la escala de Beaufort.

La tabla 7-3 muestra la escala de Beaufort.

Velocidad del viento (km/h) Denominaci´on

0-1 Calma

2-5 Ventolina

6-11 Brisa d´ebil

12-19 Brisa ligera

20-28 Brisa moderada

29-38 Brisa fresca

39-49 Brisa fuerte

50-61 Viento fuerte

62-74 Viento duro

75-88 Temporal fuerte

89-102 Temporal duro

103-117 Temporal muy duro

+118 Temporal huracanado

Tabla 7-3: Escala de Beaufort

Utilizando la escala se decide que se van a simular vientos de máximo 40 km/h. La relación entre velocidad y fuerza aplicada del viento está dada por la ecuación:

F = ρ · C_d· V²· A 2

donde V es la velocidad del viento en metros por segundo, A el área perpendicular sobre la que actúa el viento en metros cuadrados, C_d el coeficiente de arrastre y ρ la densidad del viento que es de 1.22 Kg/m³. Asumiendo que las perturbaciones dadas se dan sobre centro de masa del drone, que la parte central del mismo se aproxima a una forma cil´ındrica (determinada por los parámetros dados en la tabla 7-2) y que el viento interactúa únicamente con la mitad del área del cilindro, se obtiene que las fuerzas de las perturbaciones se encuentran dentro

±0,22 Newtons de fuerza. As´ı mismo, se considera que durante el tiempo que transcurre entre toma de decisiones, el viento es constante. Sin embargo, de un per´ıodo a otro cambia.

(19)

7.2 Modelo del controlador 17

7.2. Modelo del controlador

7.2.1. Definici´ on de estados y acciones

Para definir la cadena de Markov, es necesario definir el conjunto de estados S y el conjunto de acciones Aspara todo s ∈ S. Para lograr esto, el semiplano positivo X-Y es dividido en una grilla. La longitud del lado de los cuadrados que componen la grilla se fija en 0.1 metros. El centro de cada cuadrado se localiza en los múltiplos de 0.1 en ambas coordenadas (i.e 0, 0.1, 0.2, etc). Considerando una partición de n columnas y m filas, cada uno de los cuadrados de la grilla son un estado. El estado número 1 es el cuadrado centrado en el origen. Los estados son enumerados horizontalmente en orden ascendente. Una vez se llega a la n-ésima columna, la numeración continua en la fila inmediatamente superior.

Dentro del conjunto S, se definen los siguientes subconjuntos

S^ld = {S1}, Srd= {Sn}, Slu = {S(m−1)·n+1}, Sru = {Smn} Su = {S(m−1)·n+j|j = 2, . . . , n − 1}

Sl = {Sj·n+1|j = 2, . . . , m − 2}

S^d = {Sj|j = 2, . . . , n − 1}

Sr = {Sj·n|j = 2, . . . , m − 1}

Sbor = (Su∪ Sl∪ Sd∪ Sr) Sesq = (Sld∪ Sld∪ Sld∪ Sld) Sin = S \ (Sesq∪ Sbor)

(7-1)

donde Sⁱ es el i-´esimo estado.

La siguiente convención es utilizada para las acciones. En este contexto se entiende que la acción “adelante”significa que el drone debe ir un cuadrado arriba en la grilla. Las acciones disponibles en cada estado son definidas en la tabla 7-4 para cada s en el conjunto de estados. La Figura 7-4 ilustra la numeración del conjunto de estados S para el caso n = 4 y m = 3 junto con una identificación de los subconjuntos definidos en (7-1).

1 2 3 4

5 6 7 8

9 10 11 12 Sesq

Sin

Sl

S^r Sd

Su

Figura 7-4: Ejemplo de numeraci´on y de subconjuntos

(20)

Conjunto de estados A^s

Sld {1, 2, 5, 9}

Srd {1, 3, 7, 9}

Slu {2, 4, 6, 9}

Sru {3, 4, 8, 9}

S^u {2, 3, 4, 6, 8, 9}

Sl {1, 2, 4, 5, 6, 9}

S^d {1, 2, 3, 5, 7, 9}

Sr {1, 3, 4, 7, 8, 9}

Sin {1, 2, 3, 4, 5, 6, 7, 8, 9}

Tabla 7-4: Acciones seg´un estado

7.2.2. Definici´ on de matriz de probabilidad de transici´ on

Para definir las matriz de probabilidad de transici´on, se hace uso de un enfoque frecuencial.

Para esto, se define el tiempo t_p como el tiempo entre la toma de decisiones del drone. Luego, se define el número de experimentos ne a realizar. Por cada experimento el drone se ubica en el origen y se le indica que tome cada acción por separado. También, por cada experimento se tiene valores diferentes para las perturbaciones. Al cabo de t_psegundos se observa la posición final del drone. De esta manera, se obtiene una estimación de la probabilidad de que el drone logre llegar a la posición deseada después de t_p segundos. Se asume que las probabilidades son homogéneas, por lo que se tiene la misma matriz de probabilidad de transición en todo los estados. Considerando que en los estados de los bordes y las esquinas de la grilla se tiene que bajo ciertas acciones se sale de esta, se aplica una normalización de las probabilidades para garantizar que estas sumen 1. Para aquellos estados para los cuales no está disponible la acción que determina la matriz, la fila correspondiente es de ceros.

7.2.3. Definici´ on de funciones de recompensa

La funci´on de recompensas a utilizar es especificada en los casos de estudio expuestos en las secciones 7.3, 7.4, 7.5.

7.2.4. Definici´ on de pol´ıtica de control

La pol´ıtica de control es la resultante de la implementación de los algoritmos de inducción hacia atrás presentado y de iteración de valor, presentados en la sección 4.1.9.

(21)

7.3 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito 19

7.3. Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito

7.3.1. Descripci´ on

En este caso se quiere que el drone siga el camino determinado por el usuario. Sea Sdes ⊂ S el conjunto de estados que forman el camino deseado. Sea M = |Sdes|. Sea NM := {j ∈ N|j ≤ M } y sea k : NM → Sdes una función tal que k(j) es el estado que se quiere que ocupe el drone en la época de decisión j. De esta manera, bajo esta consideración se define un MDP de horizonte finito con M − 1 épocas de decisión.

7.3.2. Funci´ on de recompensa

Para lograr el objetivo de que el drone siga la trayectoria esperada, se define la siguiente funci´on de recompensa para t = 1, . . . , M :

r_t(s, a) =

(1000 si k(t) = s,

0 en caso contrario.

Note que bajo esta definici´on, la recompensa depende ´unicamente del estado y no de las acciones.

7.4. Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito

7.4.1. Descripci´ on

En este caso se quiere que el drone siga el camino determinado por el usuario sin importar cuántas decisiones toma el agente. Se considera que para todos los estados, las acciones 5,6,7 y 8 están deshabilitadas y un factor de descuento de λ = 0,7. Sea Sdes ⊂ S el conjunto de estados que forman el camino deseado. Sea M = |Sdes|. Sea NM := {j ∈ N|j ≤ M} y sea k : N^M → S^des una numeración de los estados del camino deseado, de tal manera que k(1) es el primer estado que el drone deber´ıa visitar y k(2) el segundo. A partir de esto, defina la función ˆk : S → NM ∪ {M + 1} de la siguiente forma

k(s) =ˆ

(k⁻¹(s) si s ∈ S^des

M + 1 en caso contrario.

(22)

7.4.2. Funci´ on de recompensa

Se define la siguiente funci´on de recompensa

r(s, a) =

(10¹⁰^k^ˆ si ˆk ∈ N^M,

0 en caso contrario.

7.5. Caso de estudio: Planeaci´ on de ruta evitando obst´ aculos con MDP de horizonte infinito

7.5.1. Descripci´ on

En este caso, se quiere que el drone llegue al destino final evitando los obst´aculos definidos por el usuario. Sea Sdes el estado de llegada y sea Sobs ⊂ S el conjunto de estados que conforman los obst´aculos a evitar.

7.5.2. Funciones de recompensa

Se define la siguiente funci´on de recompensa¹:

r(s, a) = 100 · (1Sdes(s) −1Sobs(s)).

8 Resultados y an´ alisis de resultados

8.1. Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito

Para el desarrollo de las simulaciones, se considera que el drone se encuentra en el origen a tres metros de altura y que el tiempo entre ´epocas de decisi´on es de 1,2 segundos. Se consideran dos escenarios de prueba. En uno de ellos, el camino escogido comienza en la

11X(x) = 1 si x ∈ X y 0 en caso contrario.

(23)

posici´on inicial del drone. En el otro escenario, el camino no comienza en la posici´on inicial del drone. Las figuras 8-1 y 8-2 muestran los resultados obtenidos.

(a) Posici´on del drone (b) Perturbaciones

Figura 8-1: Resultados camino con misma posici´on inicial

Figura 8-2: Resultados camino con posici´on inicial diferente

Se observa que en ambos casos, a pesar de las perturbaciones, el drone es capaz de seguir la trayectoria dada. Note que en la figura 8-2.a se observa que el drone es capaz de identificar la imposibilidad de estar en el estado 3 al comienzo del MPD, por lo que toma acciones con

(24)

22 8 Resultados y an´alisis de resultados

el fin de poder estar lo más pronto posible en la posición indicada. De aqu´ı, que opta por tomar la acción 5 en vez de la acción 2.

8.1.1. An´ alisis de sensibilidad ante la matriz de perturbaciones

Para entender la sensibilidad de la pol´ıtica de control frente a la matriz de probabilidades de transici´on, se simularon otras 4 matrices de transici´on. Para el mismo camino de los 2 escenarios presentados anteriormente, se simulan las pol´ıticas obtenidas. La figura 8-3 muestra los resultados obtenidos.

(a) Camino con posici´on inicial igual (b) Camino con posici´on inicial diferente

Figura 8-3: Resultados a diferente matrices

En los resultados se observa que las l´ıneas que presentan un comportamiento diferente son los resultados de la matriz 1 y 2. En el caso de de la figura 8-3.a se observa que la diferencia entre el la l´ınea roja y la negra ocurre en el estado 13. All´ı, el agente toma la decisión de ir en diagonal, cuando debe ir hacia arriba. Posterior a un análisis, se determina que la probabilidad de llegar al estado 18, desde el estado 13, usando la acción 1 es menor para la matriz utilizada para la simulación de la l´ınea negra. As´ı mismo, se destaca que la probabilidad de llegar al estado 18 desde el estado 13 tomando la acción 5 es mayor en la matriz de la l´ınea negra que para la matriz de la l´ınea roja. El agente, siendo consiente de estas diferencias en probabilidad, y que en dos épocas de decisión debe estar en el estado 19, opta por tomar la decisión 5 en vez de la decisión 1, que es la ideal. Paralelamente, en el caso de la l´ınea azul, se observa que la diferencia con respecto a la l´ınea roja ocurre en el estado 1. La matriz utilizada para la l´ınea azul evidencia que existe una menor probabilidad de llegar al estado 2 desde el estado 1 tomando la acción 2 con respecto a la matriz de la l´ınea roja. As´ı mismo, existe una mayor probabilidad de llegar al estado 2 desde el estado 1 tomando la acción 5

(25)

con respecto a la matriz de la l´ınea roja. El agente, siendo consiente que debe estar en el estado 3 en dos épocas de decisión posterior, opta por tomar la acción 5 para llegar al estado 3.

Por otro lado, para el caso de los resultados mostrados en la figura 8-3.b se observa que tanto la l´ınea negra como la azul difieren de la roja en el estado 13. En dicho estado, la acción ideal a tomar es la acción 7. Sin tanto para el caso de la l´ınea azul como de la l´ınea negra, la probabilidad de llegar a los estados 17 y 18 desde desde el estado 13 con la acción 7 es menor con respecto a las probabilidades de la l´ınea roja. En ambos casos, la acción 5 garantiza una mayor probabilidad de llegar al estado 18 con respecto a la acción 1. Esto es relevante, teniendo en cuenta que en el siguiente momento del tiempo el estado deseado es el estado 23. As´ı mismo, se observa que existe una diferencia entre la l´ınea azul y la l´ınea negra en el estado 19. Esto se debe a que en el estado 19, para la l´ınea negra es menos probable con respecto a la l´ınea azul el llegar al estado 24 tomando las acciones 7 y 2 consecutivamente, que tomar la acción 1 y luego quedarse quieto. Lo anterior, ya que las acciones 7 y 2 son menos probables de ser efectivas para la l´ınea negra con respecto a la l´ınea azul.

8.1.2. An´ alisis de sensibilidad ante el tipo de perturbaci´ on

Para entender la sensibilidad de la pol´ıtica de control frente al tipo de viento utilizado, se hizo un cambio en la distribución de la intensidad de las perturbaciones. En este caso, se considera una distribución Beta con parámetros α = 2, β = 5. Considerando los mismos caminos para ambos escenarios la figura 8-4 muestra los resultados obtenidos.

Figura 8-4: Resultados con distintos tipo de viento

(26)

Note que al considerar una distribución Beta, se está asumiendo que el vector de fuerza del viento solo toma componentes positivas en X-Y, por lo tanto, habrá una tendencia del drone de irse en la aquellas direcciones (i.e hacia la derecha y hacia arriba). A pesar de esto, la pol´ıtica no cambia, por lo que se obtienen caminos que siguen las trayectorias dadas. Sin embargo, no que los resultados de los experimentos con la nueva distribución (negro, azul, azul claro) están desfasados ligeramente hacia arriba y hacia a la derecha con respecto a la l´ınea roja, lo que evidencia el efecto del cambio en la distribución de la fuerza del viento.

8.2. Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito

Considerando el tiempo entre decisiones de t_p = 1 segundo y considerando el mismo escenario de la secci´on 8.1 se obtuvieron los resultados mostrados en las figuras 8-5 y 8-6.

Figura 8-5: Resultados camino con misma posici´on inicial

(27)

8.2 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito 25

Figura 8-6: Resultados camino con posici´on inicial diferente

En la figura 8-5.a se observa que, al tener un conjunto de acciones más reducidos, el drone requiere más acciones para poder seguir el camino deseado. Sin embargo, se observa un buen funcionamiento. As´ı mismo, en la figura 8-6.a se observa que el drone evita uno de los estados deseados. Esto se debe a que, al tener que tomar más decisiones, el drone reduce el valor esperado de la recompensa, por lo que el drone va a tender a tomar la menor cantidad de decisiones con el fin de no reducir su valor esperado. En este caso, para llegar al estado 23 desde el estado 13 se requieren de m´ınimo dos acciones. Al tomar el camino deseado debe tomar necesariamente 4 acciones,reduciendo as´ı el valor esperado.

8.2.1. An´ alisis de sensibilidad ante la matriz de perturbaciones

Siguiendo la metodolog´ıa de prueba de la secci´on 8.1, la figura 8-7 muestra los resultados obtenidos.

(28)

Figura 8-7: Resultados a diferente matrices

En este caso en particular, se observa que la la única l´ınea que presenta un comportamiento diferente es la l´ınea negra. Note que para los estados 13, 18,19 y 20 las acciones óptimas son las mismas. Entonces, el factor más determinante es la diferencia en el valor esperado. Para la l´ınea negra hay mayor certeza de la efectividad de la acción 4 con respecto a la l´ınea roja.

Luego, en el estado 20 hay un mayor valor esperado para la l´ınea negra. Sin embargo, dado que para la l´ınea roja hay mayor certeza de la efectividad de las acciones 1 y 2 con respecto a la l´ınea negra, hay un mayor valor esperado para la l´ınea roja en los estados 13, 18 y 19.

Luego, las acciones para pasar del estado 7 al 13 dependen de los valores esperados en los estados 8 y 12. Las tablas 8-1 y 8-2 muestras los valores esperados para dichos estados seg´un la l´ınea.

Estado Acci´on Valor esperado acci´on

8 1 7.5942

12 2 7.6752

Tabla 8-1: Valores esperados l´ınea roja

Estado Acci´on Valor esperado acci´on

8 1 7.0046

12 2 6.9105

Tabla 8-2: Valores esperados l´ınea negra Según esto, se observa que el valor esperado es mayor en el estado 12 que en el estado 8 para la l´ınea roja, y viceversa para la l´ınea negra. Luego, para la l´ınea roja es óptima la acción 1 en el estado 7 y para la l´ınea negra es óptima la acción 2 para el mismo estado.

8.2.2. An´ alisis de sensibilidad ante el tipo de perturbaci´ on

Al cambiar el tipo de perturbaci´on como descrito en la secci´on 8.1, se obtienen los resultados mostrados en la figura 8-8. Se observa que las pol´ıticas de control obtenidas son invariantes

(29)

8.2 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte infinito 27

Figura 8-8: Resultados con distintos tipo de viento

bajo el tipo de perturbación. As´ı mismo, se observa que las posiciones del drone están desfa- sadas en las direcciones positivas de los ejes X e Y, lo que es acorde al tipo de perturbación considerada.

8.2.3. An´ alisis de sensibilidad ante el camino

En este caso, se considera una prueba extra de sensibilidad. Considerando el camino deseado en la figura 8-6.a, se agrega como estado deseado el estado 15 y se considera la misma matriz de probabilidad. La figura 8-9 muestra el resultado obtenido.

(30)

Figura 8-9: Nuevo camino deseado

En este caso, se observa que la primer diferencia en la toma de decisiones ocurre en el estado 13. La tabla 8-3 muestra los valores esperados aproximados para los estados 13 y 14 seg´un cada acci´on.

Camino Estado Acci´on 1 Acci´on 2

Original 13 8.1477 7.7136

Modificado 13 9.3751 12.8863

Original 14 8.1775 8.1775

Modificado 14 10.9413 16.5978 Tabla 8-3: Comparaci´on valores esperados

En este caso, al agregar el estado 15, se observa que hay un cambio sustancial en el valor esperado del estado 14. Esto causa que la acción 2 sea ahora más deseable en el estado 13, al tener un valor mayor esperado con respecto a la acción 1.

(31)

8.3 Caso de estudio: Planeaci´on de ruta evitando obst´aculos con MDP de horizonte

infinito 29

8.3. Caso de estudio: Planeaci´ on de ruta evitando obst´ aculos con MDP de horizonte infinito

Considerando el tiempo entre decisiones de t_p = 1 segundo y considerando el mismo escenario de la secci´on 8.1 se obtuvieron los resultados mostrados en la figura 8-10.

Figura 8-10: Resultados de simulaci´on

A partir de los resultados se observa que el drone cumple satisfactoriamente el objetivo de llegar a la posici´on final esquivando los obst´aculos.

8.3.1. An´ alisis de sensibilidad ante la matriz de probabilidad

Realizando las simulaciones ante distintas matrices de probabilidad, se obtuvieron los resultados mostrados en la figura 8-3.

(32)

Figura 8-11: Resultados a diferentes matrices de probabilidad

Se observa que la ´unica l´ınea que presenta un comportamiento diferente es la l´ınea negra.

En este caso, analizando las matrices de probabilidad de la l´ınea roja y la l´ınea negra, se observa que hay 0.14 más certeza de efectividad para la l´ınea negra al utilizar la acción 4. As´ı mismo, se observa que hay 0.02 más de certeza de efectividad para la l´ınea roja al utilizar la acción 3. Por esta razón el valor esperado es mayor en el estado 24 para la l´ınea negra que para la l´ınea roja en el estado 20. También, para la l´ınea roja, hay 0.12 y 0.08 más de certeza de efectividad para las acciones 2 y 1, respectivamente. De esta manera, se espera que el valor esperado en el estado 1 sea mayor para la l´ınea roja si toma la acción 2 en vez de la acción 1 y que el valor esperado sea mayor para la l´ınea negra si toma la acción 1 en vez de la acción 2 en el mismo estado. Las tablas 8-4 y 8-5 muestran el cálculo de los valores esperados según cada acción en el estado 1.

Acci´on Valor esperado acci´on

1 14.6097

22 15.1530

1 9.8091

22 9.2011

Tabla 8-5: Valores esperados l´ınea negra

(33)

Es destacable que los valores esperados son m´as altos para la l´ınea roja, lo que concuerda con las diferencias en las probabilidades de las acciones involucrada en ambos caminos.

8.3.2. An´ alisis de sensibilidad ante el tipo de perturbaci´ on

Se realiz´o la comparaci´on con las perturbaciones mencionadas en 8.1. La figura 8-12 muestra los resultados obtenidos.

Figura 8-12: Resultados a diferentes tipo de viento

Se observa que la ´unica l´ınea que muestra un comportamiento diferente es la l´ınea negra.

Para esta l´ınea, las acciones 1 y 2 tienen probabilidad 1 de efectividad. Esto es debido a que el viento se dirige principalmente en las direcciones positivas de ambos ejes. Luego, para comparada con la l´ınea roja, se espera un mayor valor esperado para el estado 1 al usar la acción 1, ya que el camino que dicha acción determina utiliza más veces las acciones 1 y 2 que el camino que toma la l´ınea roja. As´ı mismo, para la l´ınea negra, la acción 4 tiene 0.07 más de certeza que la acción 3. Por esto, se tiene que el valor esperado en el estado 20 es menor que el valor esperado en el estado 24. Las tablas 8-6 y 8-7 muestran el cálculo de los valores esperados para las acciones 1 y 2 en el estado 1, para ambas l´ıneas.

(34)

1 14.6097

22 15.1530

1 25.8024

22 23.0443

Tabla 8-7: Valores esperados l´ınea negra

9 Discusi´ on

En este trabajo se plantea la utilización de cadenas de Markov para el diseño de un controlador de alto nivel que controle la posición X-Y de un drone de 4 hélices. Inicialmente, hubo demoras en el entendimiento de los conceptos de la teor´ıa de las cadenas de Markov y en la contextualización de los mismos para el caso de control. Posteriormente, se definieron los escenarios de interés y se analizó la metodolog´ıa de implementación.

En un principio, se quer´ıa utilizar un modelo de un drone con un controlador PID que controla los ángulos de orientación del drone. Gran parte del tiempo del desarrollo del proyecto se invirtió en la implementación de los algoritmos a este modelo. Sin embargo, al tenerse que el drone sólo segu´ıa una referencia estática de unos ángulos de orientación, y que la referencia era ajena a la posición del drone, el modelo era altamente sensible a las perturbaciones. Una vez que se implementó un controlador PID para la posición X-Y, el modelo mejoró considerablemente.

A partir de los resultados obtenidos, se considera que los objetivos del proyecto se cumplen.

Esto, ya que se logró identificar escenarios de prueba para el controlador propuesto y se verificó su efectividad. As´ı mismo, es relevante el desarrollo de criterios comparativos que faciliten el análisis de los resultados. Teóricamente, ser´ıa posible definir valores cr´ıticos de las matrices de probabilidad para los cuales una pol´ıtica cambia con respecto a la otra.

10 Conclusiones

10.1. Conclusiones

En el presente trabajo se utilizó los procesos de decisión de Markov para el desarrollo de un controlador de alto nivel que controla la posición X-Y de un drone de 4 hélices. A partir de los resultados, se observa que en todos los casos el funcionamiento del controlador está sujeto a las estimaciones de las matrices de probabilidad. Según la estructura de las mismas,

(35)

los caminos determinados por el controlador pueden ser diferentes y por ende, no cumplir los criterios de funcionamiento según el escenario. A partir de esto, se plantea como trabajo futuro la implementación de algoritmos de cadenas de Markov robustas, en los que se realiza el cálculo de las pol´ıticas de control considerando incertidumbre en las matrices de probabilidad.

Paralelamente, en el escenario de querer seguir un camino de referencia, el modelo de horizonte finito resulta ser más acertado que el modelo de horizonte infinito al seguir el camino de referencia. Esto se debe a que la función de recompensa en el caso de horizonte finito lograr modelar mejor el fenómeno de seguir la referencia dada.

También, se comprueba el adecuado funcionamiento del controlador en el escenario de pla- neación de trayectorias para evitar obstáculos.

A partir de lo anterior, se considera que los procesos de decisión de Markov resultan ser una herramienta útil para el desarrollo de un controlador a alto nivel y que a partir de una adecuada definición de las funciones de recompensa, el funcionamiento del controlador var´ıa.

10.2. Trabajo futuro

A partir de los resultados obtenidos, se proponen las siguientes actividades para un trabajo futuro:

Debido a la sensibilidad del controlador a la estimación de las probabilidades de transición se propone la utilización de algoritmos de cadenas de Markov robustas para mejorar el funcionamiento del controlador bajo la incertidumbre de las probabilidades a utilizar.

Considerando el caso del seguimiento de una trayectoria, es posible mejorar el controlador con un modelo de horizonte infinito que considere funciones de recompensa que cambien de valor una vez se alcanza un estado.

Para considerar un mayor dinamismo de las pruebas, se considera relevante la implementaci´on de modelos din´amicos para la fuerza del viento.

En el caso de horizonte infinito, debido a la dependencia del modelo con respecto al par´ametro λ, se hace necesario pruebas de sensibilidad con respecto a ´este.

(36)

34 11 Agradecimientos

11 Agradecimientos

Agradezco profundamente a los profesores Luis felipe Giraldo, profesor asistente del departamento de Ingenier´ıa Eléctrica y Electrónica de la Universidad de los Andes, por su colaboración en la estructuración de los protocolos de prueba del trabajo, al igual que la asesor´ıas para el desarrollo del mismo. As´ı mismo, agradezco al profesor Mauricio Junca, profesor asociado del departamento de Matemáticas de la Universidad de los Andes, por su asesor´ıa en la resolución de problemas que se presentaron en la implementación de los algoritmos.

(37)

Bibliograf´ıa

[1] Capitan, J. ; Merino, L. ; Ollero, A.: Decentralized cooperation of multiple UAS for multi-target surveillance under uncertainties. En: 2014 International Conference on Unmanned Aircraft Systems (ICUAS), 2014, p. 1196–1202

[2] D.Hartman, K.Landis, M.Mehrer, S.Moreno, J. Kim: Quadcopter Dynamic Modeling and Simulation (Quad-Sim). Disponible en https://github.com/dch33/

Quad-Sim. 2014. – Version 1.0

[3] Puterman, Martin L.: Markov decision processes: discrete stochastic dynamic program- ming. 1. Wiley-Interscience, 1994 (Wiley Series in Probability and Statistics). – ISBN 0471619779,9780471619772

[4] Qu, T. ; Yu, S. ; Shi, Z. ; Chen, H.: Modeling driver’s car-following behavior based on hidden Markov model and model predictive control: A cyber-physical system approach.

En: 2017 11th Asian Control Conference (ASCC), 2017, p. 114–119

[5] Richard C. Dorf, Robert H. B.: Modern control systems. 11. Prentice Hall, 2007. – ISBN 0132270285,9780132270281

[6] Sun, D. ; Wang, X. ; Wang, L. ; Zhang, S. ; Wang, W.: Research on quantized feedback control for networked control system with Markov characteristics. En: 2017 36th Chinese Control Conference (CCC), 2017. – ISSN 1934–1768, p. 3140–3146