Caracterización de usuarios primarios para la implementación de un modelo predictor para la toma de decisiones en redes inalámbricas de radio cognitiva
Estudiante Juan Carlos Ordoñez
Director
PhD (c). Danilo Alfonso López Sarmiento, MSc
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA
PROYECTO CURRICULAR INGENIERÍA DE SISTEMAS BOGOTÁ, D.C.
Caracterización de usuarios primarios para la implementación de un modelo predictor para la toma de decisiones en redes inalámbricas de radio cognitiva
Juan Carlos Ordoñez
Propuesta de trabajo de grado para optar al título de Ingeniero de Sistemas
Director
PhD (c). Danilo Alfonso López Sarmiento, MSc
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA
PROYECTO CURRICULAR INGENIERÍA DE SISTEMAS BOGOTÁ, D.C.
I.
Índice de abreviaturas
ANFIS: Adaptative neuro-based fuzzy inference system
ANN: Artificial Neuronal network – Red neuronal artificial.
ARIMA: Autoregresive integrated moving average – Modelo autorregresivo integrado de media móvil
BS: Base Station - Estación base.
CR: Cognitive Radio – Radio cognitiva
CRNs: Cognitive Radio networks - Red radio cognitive.
CUS: Channel usage state – Estado de uso del canal.
DG: Descent Gradient – Gradiente descendiente
DSA: Dynamic Spectrum Access- Acceso al espectro dinámico.
DSS: Dynamic Spectrum sharing- Espectro compartido dinámico.
EM: Expectation Maximixation – Maximización Expectativa
FAHP: Fuzzy analytic hierarchy process – Proceso analítico jerárquico difuso
FRBS: Fuzzy Rule Based System – Sistema basado en reglas difusas.
FS: Frequency Spectrum – espectro de frecuencia
HF: High Frequency – Alta frecuencia.
HMM: Hidden model Markov – Modelo oculto de Markov.
IA: Inteligencia artificial.
K-NN: K-nearest neighbors – K-vecinos más cercanos.
MA: Media Móvil.
OSA: Oportunisty Spectrum Acces - Acceso al Espectro oportunista.
PPPM: Partial periodic pattern mining.
PC: Computador personal.
PU: Primary User – Usuario Primario.
QoS: Quality of Service – Calidad de Servicio.
RB: Red Bayesiana
RF: Radio Frequency – Radio Frecuencia.
RL: Reinforcement learning - Aprendizaje por refuerzo.
RUP: Rational Unifiqued Process.
SINR: Signal interference plus noise ratio – Interferencia de la señal más ruido.
SU: Secundary User – Usuario Secundario.
SVM: Support vector machine – Maquinas de vectores de soporte
TAN: Tree Augmented Network – Red de árbol aumentada.
THF: Terahertz frequency – Muy alta frecuencia.
Contenido
I. Índice de abreviaturas ... 3
II. Lista de figuras... 7
III. Lista de Tablas ... 9
IV. Lista de Ecuaciones ... 10
1 Capítulo. Introducción ... 1
1.1 La Radio Cognitiva ... 1
1.2 La Inteligencia Artificial en la CR ... 2
1.3 Toma de decisiones en la CR y su relación con la IA ... 3
1.4 Alcance y Objetivos ... 4
Planteamiento del problema ... 4
Objetivos ... 4
Justificación ... 4
1.5 Resumen del Capítulo 1 ... 5
2 Capítulo Propiedades del PU ... 7
2.1 Aspectos Generales del PU ... 7
2.2 Modelamiento de Trafico PU ... 7
2.3 Representación del comportamiento del PU en función del tiempo ... 8
3 Capítulo. Estado del arte ... 9
3.1 Metodologías de representación de la actividad del PU ... 9
3.2 Modelos implementados como predictores de la actividad de los PUs ... 10
3.3 Metodologías escogidas para la caracterización del PU. ... 12
3.4 Técnicas y métodos de Inteligencia Artificial (IA) en la CR ... 12
3.4.1 Aprendizaje No supervisado... 12
3.4.2 Aprendizaje Semi-supervisado ... 14
3.4.3 Clasificadores y otros métodos ... 15
3.5 Resumen ... 16
3.6 Conceptos fundamentales relacionados con Redes Bayesianas. ... 17
3.6.1 Redes bayesianas ... 17
3.6.2 Aprendizaje de la Red Bayesiana ... 18
3.6.3 Software para el desarrollo de Redes Bayesianas... 20
4 Capítulo. Análisis y Diseño del prototipo de algoritmo ... 21
4.1 Elección de la metodología de trabajo. ... 21
4.2 Etapa Inicio: Presentación del problema. ... 21
4.2.1 Introducción. ... 21
4.2.2 Descripción detallada del problema. ... 22
4.2.4 Alcance del algoritmo. ... 22
4.2.5 Descripción de la solución propuesta. ... 23
4.2.6 Descripción de la información a tratar. ... 23
4.2.7 Recursos software ... 24
4.3 Elaboración: Estudio del problema y propuesta de una solución software. ... 24
4.3.1 Análisis y Diseño ... 24
4.3.2 Descripción de la funcionalidad de la solución ... 24
4.3.3 Documentación y diagramas de casos de uso. ... 25
4.3.4 Tabla y Diagrama del caso de uso del prototipo del algoritmo ... 30
4.3.5 Diagramas de interacción ... 31
4.3.6 Diseño de la Base de datos ... 32
5 Capítulo. Estructura de la red cognitiva y escenarios de prueba. ... 36
5.1 Estructura de red para pruebas ... 36
5.2 Escenarios y captura de datos en la BS ... 36
5.2.1 Escenario “Caso 1 canal_wifi”. Interpretación de los datos capturados. ... 37
5.2.2 Escenario “Caso 2 canal_GSM”. Interpretación de los datos capturados... 39
6 Capítulo. Implementación de la aplicación Red Bayesiana para la caracterización del PU. ... 41
6.1 Modelo de trabajo de la RB para realizar predicción y modelamiento del PU ... 41
6.2 Archivo de casos ... 42
6.3 Criterios de diseño de la Red Bayesiana (Componente Probabilístico) ... 42
6.3.1 Criterios para el escenario “caso 1 canal_WIFI”. ... 43
6.3.2 Criterios para el escenario “caso 2 canal_GSM” ... 48
6.4 Aprendizaje de la RB para la caracterización del PU (Actividades del componente Bayesiano). ... 51
6.4.1 Escenario “Caso 1 canal_WIFI” desde el punto de vista del canal. ... 51
6.4.2 Escenario “Caso 2 canal_GSM” desde el punto de vista del PU ... 53
6.5 Criterios para elegir la estructura RB que caracterizará al PU. ... 54
6.5.1 Compilación optimizada (Compile optimized) ... 54
6.5.2 Most probable explanation MPE ... 57
6.5.3 Análisis de sensibilidad (Sensitivy to findings) ... 66
6.6 Evaluación de la RB para la predicción de actividades PU. ... 68
6.6.1 Escenario “Caso 1 canal_WIFI” ... 69
6.6.2 Escenario “Caso 2 canal_GSM” ... 70
7.1 Análisis de resultados que modelan la actividad del PU ... 72
7.1.1 Análisis y resultado del método Optimización en la compilación ... 72
7.1.2 Análisis y resultado del método “Most probable explanation”. ... 72
7.1.3 Análisis y resultado del método de sensibilidad ... 74
7.2 Análisis de resultados que predicen de la actividad del PU. ... 77
7.2.1 Predicción para el Escenario “caso 1 canal_WIFI” ... 77
7.2.2 Predicción para el Escenario “caso 2 canal_GSM” ... 79
7.3 Caracterización del usuario Primario en función del tiempo (Componente de Caracterización). ... 82
7.3.1 Implementación de la RB para el modelamiento de actividad del PU. ... 82
7.3.2 Implementación de la RB para la predicción de actividad del PU. ... 84
7.4 Comparación de resultados frente a propuestas existentes. ... 85
Conclusiones ... 87
Trabajos futuros ... 87
Referencias Bibliográficas y electrónicas. ... 89
Anexo 1. Técnicas de aprendizaje de la Red Bayesiana. ... 93
Técnica Tree Augmented Network (TAN) ... 93
Técnica Expetaction-Maximization (EM) ... 94
Técnica Gradient Descent (DG) ... 95
Anexo 2. Ejemplo del método, Most probable explanation (MPE) ... 96
II.
Lista de figuras
Figura 1 Diagrama de procesos del prototipo de algoritmo [Fuente: El autor]. ... 6
Figura 2 Tipos del comportamiento PU [Fuente: El autor] ... 7
Figura 3 Red bayesiana "ChaestClinic" ejemplo [71]. ... 15
Figura 4 Diagrama de componentes que refleja el sistema de Radio Cognitiva. [Fuente: el autor] 21 Figura 5 Caso de uso Procesamiento de Datos [Fuente: el autor] ... 25
Figura 6 Caso de uso Caracterización Usuario Primario [Fuente: el autor] ... 28
Figura 7 Diagrama de uso del prototipo de algoritmo. [Fuente: El autor] ... 30
Figura 8 Diagrama de secuencia componentes Sensado-Probabilístico-Algoritmo [Fuente: el autor] ... 31
Figura 9 Diagrama de secuencia Componentes Bayesiano-Caracterización [Fuente: El autor] ... 32
Figura 10 Diagrama Entidad-Relación del prototipo de algoritmo. [Fuente: El autor] ... 32
Figura 11 Topología de red centralizada [https://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/viewFile/1028/105 3] ... 36
Figura 12 Grafica de consumo de red de un PU [Fuente: El autor]. ... 37
Figura 13 Ampliación del intervalo 0 a 1 segundos del comportamiento del PU [Fuente: El autor].37 Figura 14 Intervalo Predicción Caso 1 [Fuente: El autor]. ... 38
Figura 15 Grafica de la captura de Potencia [Fuente: El autor]. ... 39
Figura 16 Intervalo predicción caso 2 [Fuente: El autor]. ... 40
Figura 17 Ejemplo de un Archivo de casos[Fuente: El autor].. ... 42
Figura 18 Nodo que representa el requerimiento de espectro [Fuente: El autor]. ... 43
Figura 19 Nodo que representa la potencia[Fuente: El autor]. ... 43
Figura 20 Nodo que representa la amplitud[Fuente: El autor]. ... 43
Figura 21 Nodo que representa la perdida de trayectoria[Fuente: El autor]. ... 43
Figura 22 Nodo que representa la disponibilidad de la banda de espectro [Fuente: El autor]. ... 44
Figura 23 Nodo que representa el error de sensado[Fuente: El autor]. ... 44
Figura 24 Nodo que representa la frecuencia[Fuente: El autor]. ... 44
Figura 25 Nodo que representa la tendencia del estado IDLE[Fuente: El autor]... 44
Figura 26 Nodo Clase que representa el estado de actividad del PU[Fuente: El autor]. ... 45
Figura 27 Red bayesiana diseñada por el experto caso 1[Fuente: El autor]. ... 47
Figura 28 Nodo que representa el retraso en el canal [Fuente: El autor]. ... 48
Figura 29 Nodo que representa el ancho de banda del canal[Fuente: El autor]. ... 48
Figura 30 Nodo que representa la relación señal a ruido en el canal[Fuente: El autor]... 48
Figura 31 Nodo que representa la disponibilidad del canal Wifi[ Fuente: El autor]. ... 48
Figura 32 Nodo que representa el estado de la potencia[Fuente: El autor]... 49
Figura 33 Nodo que representa el modelamiento del PU[Fuente: El autor]. ... 49
Figura 34 Nodo que representa la predicción del estado del PU[Fuente: El autor]. ... 49
Figura 35 Red bayesiana diseñada por el experto Escenario “caso 2”[Fuente: El autor]. ... 50
Figura 36 Estructura RB entrenada con la técnica TAN para el escenario “caso1“[Fuente: El autor]. ... 51
Figura 38 Estructura RB entrenada con la técnica DG para el caso1[Fuente: El autor]. ... 52
Figura 39 Estructura RB entrenada con la técnica TAN para el caso2[Fuente: El autor].. ... 53
Figura 40 Estructura RB entrenada con la técnica EM para el caso2[Fuente: El autor]. ... 53
Figura 41 Estructura RB entrenada con la técnica DG para el caso2[Fuente: El autor]. ... 54
Figura 42 Consumo memoria con la técnica TAN para el caso1[Fuente: El autor]. ... 55
Figura 43 Complejidad TAN representado en cliques y sepsets para el caso1[Fuente: El autor]. .... 55
Figura 44 Consumo memoria con la técnica EM para el caso1[Fuente: El autor]. ... 55
Figura 45 complejidad EM representado en cliques y sepsets caso1 [Fuente: El autor]. ... 56
Figura 46 Consumo memoria con la técnica DG para el caso1 [Fuente: El autor]. ... 56
Figura 47 complejidad DG representado en cliques y sepsets para el caso 1[Fuente: El autor]. ... 56
Figura 48 complejidad TAN representado en cliques y sepsets para el caso2[Fuente: El autor]. .... 57
Figura 49 complejidad EM representado en cliques y sepsets para el caso2 [Fuente: El autor]. ... 57
Figura 50 complejidad DG representado en cliques y sepsets para el caso2[Fuente: El autor]. ... 57
Figura 51 RB TAN bajo la influencia del método MPE caso1 [Fuente: El autor]. ... 58
Figura 52 RB EM bajo la influencia del método MPE caso1 [Fuente: El autor]... 60
Figura 53 RB DG bajo la influencia del método MPE [Fuente: El autor]. ... 61
Figura 54 RB TAN bajo la influencia del método MPE caso2 [Fuente: el autor]. ... 63
Figura 55 RB EM bajo la influencia del método MPE caso2 [Fuente: El autor]... 64
Figura 56 RB DG bajo la influencia del método MPE caso2 [Fuente: el autor]. ... 65
Figura 57 Método de sensibilidad en el nodo "Estado" bajo la técnica TAN caso1 [Fuente: El autor]. ... 66
Figura 58 Método de sensibilidad en el nodo "Estado" bajo la técnica EM caso1[Fuente: El autor]. ... 67
Figura 59 Método de sensibilidad en el nodo "Estado" bajo la técnica DG caso1[Fuente: El autor]. ... 67
Figura 60 Método de sensibilidad en el nodo "Estado" bajo la técnica TAN caso2[Fuente: El autor]. ... 67
Figura 61 Método de sensibilidad en el nodo "Estado" bajo la técnica EM caso2[Fuente: El autor]. ... 68
Figura 62 Método de sensibilidad en el nodo "Estado" bajo la técnica DG caso2[Fuente: El autor]. ... 68
Figura 63 Reporte de calibración a la RB TAN caso1[Fuente: El autor]. ... 69
Figura 64 Reporte de calibración a la RB EM caso1[Fuente: El autor]. ... 69
Figura 65 Reporte de calibración a la RB DG caso1[Fuente: El autor]. ... 70
Figura 66 Reporte de calibración a la RB TAN caso2[Fuente: El autor]. ... 70
Figura 67 Reporte de calibración a la RB EM caso2[Fuente: El autor]. ... 70
Figura 68 Reporte de calibración a la RB DG caso2[Fuente: El autor]. ... 71
Figura 69 Grafica Comparativa entre el escenario sensado y el modelado de la RB para el escenario “caso 1” [Fuente: El autor]. ... 82
Figura 70 Grafica amplificada del modelamiento RB Vs Modelo sensado [Fuente: El autor].. ... 83
Figura 72 Grafica amplificada del modelamiento RB Vs Modelo sensado[Fuente: El autor]. ... 84
Figura 73 Grafica de comparación del modelo sensado vs las predicciones de la RB caso1[Fuente: El autor]. ... 84
Figura 74 Grafica de comparación del modelo sensado vs las predicciones de la RB caso2[Fuente: El autor]. ... 85
Figura 75 Diagrama de flujo de la técnica TAN [Fuente: El autor].. ... 93
Figura 76 Diagrama de flujo de la técnica EM [Fuente: El autor]. ... 94
Figura 77 Diagrama de flujo de la técnica DG [Fuente: El autor]. ... 95
Figura 78 Estado natural del nodo "potencia" [Fuente: El autor]. ... 96
Figura 79 Estado natural del nodo "Perdi Trayectoria" [Fuente: El autor]. ... 96
Figura 80 creencias alteradas del nodo "potencia"[Fuente: El autor]. ... 96
Figura 81 creencias alteradas del nodo "Perdi Trayectoria"[Fuente: El autor]. ... 96
Figura 82 Nodos bajo la influencia del método MPE[Fuente: El autor]. ... 97
III.
Lista de Tablas
Tabla 1 Resumen de aprendizajes IA. ... 16Tabla 2 Combinación de Aprendizajes según los datos y la estructura. ... 20
Tabla 3 Sub Caso de uso Recibir Datos. [Fuente: El autor] ... 26
Tabla 4 Sub Caso de uso identificar Variables. [Fuente: El autor] ... 27
Tabla 5 Sub Caso de uso Generar probabilidades. [Fuente: El autor] ... 27
Tabla 6 Sub Caso de uso Enviar Información. [Fuente: El autor] ... 28
Tabla 7 Sub Caso de uso Solicitar Actividad. [Fuente: El autor] ... 29
Tabla 8 Sub Caso de uso Recibir Datos. [Fuente: El autor] ... 29
Tabla 9 Sub Caso de uso Graficar Actividad. [Fuente: El autor] ... 30
Tabla 10 Caso de uso Prototipo de Algoritmo. [Fuente: El autor] ... 31
Tabla 11 Tabla BD del objeto que representa los valores enviados por el componente de Sensado. [Fuente: el autor] ... 33
Tabla 12 Tabla BD del objeto que representa los valores de predicción. [Fuente: el autor] ... 34
Tabla 13 Tabla BD del objeto que representa los valores de modelado. [Fuente: el autor] ... 34
Tabla 14 Tabla BD del objeto que representa las probabilidades de las variables. [Fuente: el autor] ... 34
Tabla 15 Tabla BD del objeto que representa la variable Estado. [Fuente: el auto] ... 35
Tabla 16 Tabla BD del objeto que representa la variable Clase. [Fuente: el auto] ... 35
Tabla 17 Tabla BD del objeto que representa la variable Predictora. [Fuente: el auto] ... 35
Tabla 18 Estadísticas discriminadas de los datos capturados ... 38
Tabla 19 Pre-procesamiento del histórico delPU caso 2. ... 40
Tabla 20 Estadística de tendencia de los estados del PU ... 46
Tabla 21 Impacto de las muestras con el método MPE y la técnica TAN caso1. ... 58
Tabla 22 Nodos organizados por impacto de mayor a menor en la técnica TAN caso1. ... 59
Tabla 23 impacto de las muestras con el método MPE y la técnica EM caso1. ... 60
Tabla 25 impacto de las muestras con el método MPE y la técnica DG caso1. ... 62
Tabla 26 nodos organizados por impacto de mayor a menor en la técnica DG. ... 62
Tabla 27 impacto de las muestras con el método MPE y la técnica DG caso2. ... 63
Tabla 28 nodos organizados por impacto de mayor a menor en la técnica DG caso2. ... 64
Tabla 29 impacto de las muestras con el método MPE y la técnica DG caso2. ... 64
Tabla 30 nodos organizados por impacto de mayor a menor en la técnica DG caso2. ... 65
Tabla 31 impacto de las muestras con el método MPE y la técnica DG. ... 65
Tabla 32 nodos organizados por impacto de mayor a menor en la técnica DG caso2. ... 66
Tabla 33 relación entre los porcentajes de Información Mutua, caso1. ... 74
Tabla 34 relación de las varianzas de las creencias por cada nodo, caso1. ... 75
Tabla 35 relación entre los porcentajes de Información Mutua, caso2. ... 76
Tabla 36 relación de las varianzas de las creencias por cada nodo, caso2. ... 76
Tabla 37 relación de los datos finales de la matriz de confusión de cada técnica caso1. ... 77
Tabla 38 relación de la tasa de error de cada técnica, caso1. ... 77
Tabla 39 relación del Scoring Results de cada técnica caso1. ... 77
Tabla 40 resumen de resultados de la calibración en la técnica TAN caso1. ... 78
Tabla 41 resumen de resultados de la calibración en la técnica EM caso1. ... 78
Tabla 42 resumen de resultados de la calibración en la técnica DG caso1... 78
Tabla 43 resumen de resultados de eventos de confianza en la técnica TAN caso1. ... 79
Tabla 44 resumen de resultados de eventos de confianza en la técnica EM caso1. ... 79
Tabla 45 resumen de resultados de eventos de confianza en la técnica DG caso1. ... 79
Tabla 46 relación de los datos finales de la matriz de confusión de cada técnica caso2. ... 79
Tabla 47 relación de la tasa de error de cada técnica, caso2. ... 80
Tabla 48 relación del Scoring Results de cada técnica caso2. ... 80
Tabla 49 resumen de resultados de la calibración en la técnica TAN caso2. ... 80
Tabla 50 resumen de resultados de la calibración en la técnica EM caso2. ... 80
Tabla 51 resumen de resultados de la calibración en la técnica DG caso2... 81
Tabla 52 resumen de resultados de eventos de confianza en la técnica TAN caso2. ... 81
Tabla 53 resumen de resultados de eventos de confianza en la técnica EM caso2. ... 81
Tabla 54 resumen de resultados de eventos de confianza en la técnica DG caso2. ... 81
IV.
Lista de Ecuaciones
Ecuación 1 Información Mutua. ... 41Ecuación 2 Porcentaje de actividad del PU ... 45
Ecuación 3 Porcentaje de inactividad del PU ... 45
Ecuación 4 Porcentaje de amplitud alta ... 46
Ecuación 5 Porcentaje de amplitud baja ... 46
Ecuación 6 Porcentaje de estado Bussy PU. ... 49
1
1
Capítulo. Introducción
1.1
La Radio Cognitiva
Actualmente las redes inalámbricas y el espectro electromagnético están reguladas mediante una política de asignación de espectro fija. El espectro de radiofrecuencia (FS)1 es un recurso escaso donde cada vez es más difícil encontrar bandas de espectro libres para transmisión y para el despliegue de nuevos sistemas, especialmente en bandas por debajo de los 3 GHz, particularmente valiosas para los sistemas inalámbricos debido a sus favorables características de propagación [1], por lo cual la escasez y la ineficiente utilización del espectro de frecuencia en las bandas espectrales llevan a investigadores de diferentes ramas a buscar nuevas soluciones tecnológicas a este problema [2].
Hasta el momento la Radio Cognitiva (CR) es la tecnología que proporciona una solución [1], permitiendo administrar de manera más eficiente los recursos existentes para que estos puedan ser aprovechados de manera oportunista por usuarios cognitivos.
La CR propone hacer uso de los espacios libres hallados en las bandas de frecuencia en lapsos de tiempo, donde el usuario licenciado (PU)2 no está transmitiendo y el usuario no licenciado (SU)3 obtiene una oportunidad para la transferencia de datos. Este dinamismo permite el aprovechamiento del recurso espectral en su totalidad ocupando las bandas licenciadas que proveen espacios de transmisión a los SU, quienes deberán abandonar el canal inmediatamente se presente un PU, ya que estos usuarios tiene el derecho por ser licenciados en la banda. Así, la actual ineficaz asignación de espectro será mitigada por la tecnología CR dando la oportunidad a la inclusión de nuevas aplicaciones, tecnologías inalámbricas y dispositivos móviles para transmisión de datos.
Los crecientes servicios en comunicaciones inalámbricas y la heterogeneidad de las redes responden a una diversidad de tecnologías como lo son los dispositivos móviles, tablets, portátiles, teléfonos inteligentes (GSM), etc. En este sentido el servicio que provee los estándares inalámbricos, requiere la eficiencia de utilización del espectro inalámbrico para evitar la insuficiencia de ancho de banda disponible para la transmisión de voz, datos y video-llamadas [3].
La conexión inalámbrica se ve opacada comparada con la capacidad de transmisión de las redes cableadas debido a la mejor administración de recursos (ancho de banda); en este escenario los conceptos de la CR son vistos como una solución que les cederá a los usuarios móviles anchos de banda, usando arquitecturas inalámbricas heterogéneas. Pero ésta interacción entre arquitecturas impone retos importantes, que van desde la estimación de bandas temporalmente sin uso, hasta protocolos de enrutamiento y asignación de recursos de red [4].
1 Frecuency Spectrum
2 La CR está destinada a diferentes frecuencias de transmisión que van desde la banda VLF4 hasta la banda THF5 por lo que es adaptable en cualquier rango de frecuencia, su aplicabilidad esta soportada en cuatro fases: Detección de espectro, Decisión de espectro, Compartición de Espectro y Movilidad de Espectro. Cada una de ellas cumple una tarea específica proporcionando funcionalidad desde el inicio de la transmisión hasta calidad de servicio a los usuarios CR de acuerdo a la disponibilidad. En el estado del arte hay una variedad de definiciones de radio cognitiva dentro de la que se destaca [5], que la define como:
“Un sistema de comunicación inalámbrico inteligente que es consciente de su entorno, y usa metodologías de entendimiento por construcción para aprender de su entorno y adaptar sus funciones internas a variaciones estadísticas en el entrante RF para tomar los
correspondientes cambios en ciertos parámetros de operación en tiempo real con dos objetivos primarios en mente: Alta confiabilidad en la comunicación donde sea y se
necesite; eficiente utilización del espectro de radio”6
De acuerdo a la definición se presentan dos características que deben tener los dispositivos CR [1]:
● Capacidad cognitiva: Condición necesaria para capturar la información de su entorno de radiofrecuencia; identifica las partes del espectro que no estén siendo utilizadas.
● Auto-reconfiguración: Tecnología necesaria para que el nodo cognitivo pueda variar de manera dinámica distintos parámetros relacionados con la transmisión o recepción (frecuencia, potencia, modulación, etc.), de acuerdo con su entorno.
Concluyendo, un dispositivo o nodo CR interactúa con su entorno y modifica sus parámetros funcionales (auto-reconfiguración) con capacidad cognitiva, para satisfacer la calidad de servicio (QoS) requerida por los usuarios cognitivos. En este sentido, la capacidad cognitiva de una forma inteligente e intuitiva [6] es necesaria para la identificación de los huecos espectrales los cuales están inmersos en el comportamiento del PU. Estos espacios de espectro que por la ausencia de transmisión de los PU no son utilizados, son la clave que le permite a la CR ser tenida en cuenta como la solución más apropiada, ya que provee la oportunidad a los SU de transferir datos de manera oportunista.
1.2
La Inteligencia Artificial en la CR
La Inteligencia Artificial (IA) hace más inteligentes las funcionalidades de la CR, éste aporte representaría el conocimiento viéndose reflejado en escenarios de aplicación, soportando y razonando automatizadamente las necesidades del usuario. Así, las funciones de la CR pueden activamente manipular sus dispositivos para adaptar el
4 Very Low frecuency; Frecuencia muy baja utilizada en radio-ayuda, señales de tiempo, comunicación submarina, etc.
3 conocimiento adquirido y tener agentes consientes e inteligentes,(por otro lado, lo que la radio “antigua” con protocolos fijos no hace [6]).
Desde el punto de vista de la CR varios documentos de investigación [6, 7, 8, 9, 10], refuerzan la intención de combinar la radio cognitiva con la IA, para aplicar sus métodos y técnicas en diferentes áreas de conocimiento y trabajos como lo son, procesamiento de señales requeridas para redes DSA (Dynamic Spectrum Acces), técnicas para mejorar la utilización del espectro DSS (Dynamic Spectrum sharing), técnicas de sensado de espectro, predicción, etc.
Recientes estudios [7,8, 9, 12, 13,14], han implementado algoritmos de aprendizaje (Machine learning)7 en algunas de las funcionalidades de la CR, proveyéndolas de herramientas que le permitirán cumplir sus objetivos. Asimismo en la fase decisión de espectro, la actividad de aprendizaje tendrá total o parcial conocimiento de las acciones de los usuarios en la red [7], donde se requiere conocer las actividades del PU con el fin de aprovechar los huecos espectrales. En esta fase se aplican algoritmos de aprendizaje para estimar acciones o comportamientos de otros nodos antes de seleccionar su propia acción [15]. La CR encuentra sustento en la IA, para interactuar en su entorno sin tener conocimiento previo de este y auto-reconfigurándose para atender los requerimientos del usuario en la banda de espectro.
Hay tres parámetros que debe tener la CR [7] para cumplir el requisito de ser cognitiva, estos son: Percepción, aprendizaje y razonamiento. La percepción es alcanzada mediante el sensado del espectro el cual permite a la CR identificar actividades en su entorno y recolectar muestras; posterior a un entrenamiento las actividades y muestras se utilizarán para el aprendizaje del algoritmo (técnica/método IA) con el fin de dar un sentido a la información; así el razonamiento utiliza el conocimiento adquirido y el aprendizaje, para que los agentes de la CR modifiquen sus parámetros, buscando con ello aprovechar de una manera óptima los recursos de espectro existentes.
1.3
Toma de decisiones en la CR y su relación con la IA
El presente trabajo se enfoca en la fase de decisión de espectro, una de las funciones más importantes de la CR (que tiene la habilidad de seleccionar la mejor banda de espectro disponible, satisfaciendo los requerimientos de calidad de servicio (QoS) de los SU sin causar daño e interferencia a los PU) y que no ha sido adecuadamente explorada [16].
La fase de “Decisión de espectro” se compone de tres funciones claves que son: Caracterización de espectro, que identifica las condiciones del entorno y las actividades del usuario licenciado; Selección de espectro, se encarga de hallar la banda de espectro más adecuada que cumpla con los requisitos de calidad para los usuarios cognitivos; y la reconfiguración, que permite reconfigurar los parámetros de transmisión [16].
4 Las funciones mencionadas, se basan en el histórico de datos del comportamiento del PU en una banda de espectro, suministrando información al algoritmo que realizará las predicciones de los futuros estados de tráfico en el canal [16] y modelará al PU. Este algoritmo, mediante un conocimiento aprendido del entorno y una reconfiguración de parámetros, identificará el estado del PU (Idle/Busy) en un instante de tiempo futuro. En este sentido la investigación realizada se relaciona con la caracterización de los usuarios primarios en la fase de toma de decisión que en conjunto, con una técnica de inteligencia artificial, tienen la capacidad de modelar y predecir el tráfico del PU.
1.4
Alcance y Objetivos
Planteamiento del problema
La toma de decisiones es una de las fase que compone la radio cognitiva cuya finalidad es la selección de la banda más óptima para que los SU transmitan de manera oportunista; el éxito de la selección de canales radica en que tan acertado es la estimación de uso del canal por parte de los SUs. Sí el nivel de predicción es alto, la etapa de decisión espectral será optima; si el nivel de estimación no es tan bueno la cantidad de colisiones entre los PUs y SUs puede hacer que el sistema no sea eficiente y quizás esa mejora u optimización que se está buscando llegue a ser ineficiente. En tal sentido, la pregunta de investigación que se plantea resolver es: ¿Cómo mediante la utilización de una técnica inteligente se puede mejorar la estimación del comportamiento futuro del PU en redes inalámbricas de radio cognitiva?
A partir de la revisión del estado del arte, las Redes Bayesianas poseen la capacidad de modelar y predecir el comportamiento de series temporales, razón que justifica proponer esta metodología para la caracterización de PUs.
Objetivos
Objetivo General
Diseñar un prototipo de algoritmo que permita predecir el uso de bandas espectrales por parte de los usuarios primarios en redes de radio cognitiva inalámbricas.
Objetivos Específicos
Consolidar un estado del arte existente en la caracterización de usuarios primarios mediante la comparación de las técnicas más relevantes.
5 al acceder a la red, con el fin de compartir el espectro evitando colisiones entre los usuarios; Para tener esta capacidad de “identificación” es necesario el desarrollo de un algoritmo predictor que caracterice a los usuarios primarios, lo cual es un objetivo de este proyecto de grado.
En la caracterización de espectro, es necesario predecir y modelar las actividades de los PU (licenciados), con el fin de tener información de su comportamiento en el momento de transmitir; de esta forma poder anticipar el uso del canal, su rendimiento y capacidad para compartirlo a los SUs., dentro del estado del arte existen varias propuestas para realizar esta importante tarea dentro de la fase de toma de decisiones en CR., sin embargo la preocupación principal radica en que el nivel de desacierto, cantidad de colisiones entre el PU y SUs, sigue siendo muy alto.
En este sentido el presente proyecto tiene plena validez y busca proponer una alternativa de caracterización de PU usando una técnica inteligente para generar el modelo caracterizador [17].
1.5
Resumen del Capítulo 1
La radio cognitiva tiene la capacidad de proveer a las comunicaciones de radiofrecuencia una alternativa en la administración y distribución de sus frecuencias, lo cual resulta en la mejora de la prestación de servicios a los usuarios finales. El servicio más destacado que provee la CR es la prestación de manera oportunista de las bandas licenciadas a usuarios no licenciados, mediante la utilización de huecos espectrales, lo que resulta en un uso más adecuado del espectro, y mayor disponibilidad de ancho de banda. Ésta mejora, se da mediante la incorporación de inteligencia artificial como una propiedad de la CR que provee aprendizaje y razonamiento a los agentes cognitivos encargados de interactuar con el entorno para el cumplimiento de actividades de una forma dinámica.
En este sentido, la “Decisión de espectro” es la encargada de hacer el modelado y la predicción(caracterización) del comportamiento futuro del estado del PU, para la selección de los mejores canales y la transmisión de datos de los SUs; por lo tanto, el presente trabajo de investigación propone caracterizar el comportamiento del PU haciendo uso de las redes Bayesianas (RB) como técnica de IA y además las RB dinámicas, con la finalidad de asociar la predicción con el tiempo. Lo anterior dará lugar a la caracterización en dos escenarios: 1) Caso 1 Canal_Wifi: aquí se trabajará la información recolectada en una red inalámbrica WIFI enfocada desde el punto de vista del canal incluyendo sus variables inherentes; 2) Caso 2 Canal_GSM: este caso se trabajará desde el punto de vista del PU, es decir, que se caracterizará a partir de la presencia o ausencia de actividad del PU, a partir de la información recolectada en un sistema GSM.
Se asume que las observaciones utilizadas en cada escenario para el análisis y desarrollo del documento provienen de la fase de “Sensado de espectro”, el cual se asume como conocido y que funciona correctamente.
6 sensado. En el bloque 2, la “Funcionalidad de toma de decisiones”; a partir de las muestras re-procesadas se obtienen las variables que influyen en el comportamiento del PU, y además se identifican sus probabilidades; a continuación lo recibe la técnica de inteligencia artificial, y esta información será evaluada para la toma de decisión a partir de los resultados alcanzados; finalmente se obtiene la estructura con la cual se caracterizará al PU. Cabe destacar que los diagramas de flujo de este documento fueron desarrollados con el software BizAgi Proccess Modeler8 y StarUML9. Aquí se resume las etapas que incluyó el desarrollo del proyecto, siendo estudio que pretende aportar ideas para mejorar la fase de toma de decisiones en CR.
Figura 1Diagrama de procesos del prototipo de algoritmo [Fuente: El autor].
7
2
Capítulo Propiedades del PU
2.1
Aspectos Generales del PU
Las funcionalidades de la radio cognitiva dependen del comportamiento y las actividades de los usuarios licenciados [39], de manera que los SU deben identificar los huecos de espectro para aprovechar las oportunidades de transmisión con el fin de maximizar el uso de la banda, de ahí que la CR podrá utilizar ésta sin afectar la transmisión del PU. Así, la precisa predicción o modelamiento de actividades del PU conlleva a un eficiente uso de espectro para los usuarios cognitivos [24].
Para recrear el modelamiento de actividades es necesaria la recolección de muestras de comportamiento del PU, con el fin de ubicar tendencias en intervalos de tiempo presentadas en la ráfaga de transmisión. Estas muestras son etiquetadas con los estados “Busy e Idle”, “0 y 1” que interpretan la actividad del PU.
Conociendo la permanencia en un estado del PU y sus cambios en el tiempo en una banda de espectro se puede determinar el grado en el cual un SU puede permitirse utilizar el canal. Si la tendencia de uso del PU es significativamente alta, se considera un espectro difícil de acceder por el SU, en caso contrario donde la tendencia de uso del PU es baja, se detecta un alto grado de oportunidad para que se puedan realizar transmisiones [40].
2.2
Modelamiento de Trafico PU
El tráfico generado por el usuario primario en el canal (figura 2) debe ser caracterizado para hallar su actuación y así descubrir la forma más eficiente de utilizar el espectro, en consecuencia para el escenario “caso 2 canal_GSM” y basados en [16], se considera desde el punto de vista del usuario primario, que lo único que modela la actividad del PU es la presencia de este mismo en el canal. Por otro lado, desde el punto de vista del canal “caso 1 canal_WIFI”, la actividad del PU puede modelarse con varias propiedades inherentes al canal, logrando describirlo.
Figura 2 Tipos del comportamiento PU [Fuente: El autor]
8
2.3
Representación del comportamiento del PU en función del tiempo
La caracterización del PU inicia con la descripción de la actividad de transmisión asumiendo un comportamiento a base del tiempo y los espacios de transmisión; en este sentido la ocupación del canal por el PU puede seguir un comportamiento probabilístico o estadístico.
9
3
Capítulo. Estado del arte
3.1
Metodologías de representación de la actividad del PU
La actividad del PU se destaca por tener picos y valles, como en la figura 2, que determinan el comportamiento y los estados BUSY e IDLE en la ráfaga de transmisión, por consiguiente se presentan modelos estadísticos y probabilísticos que intentan describir con la mayor asertividad la actuación del PU en el espectro, en un tiempo presente y realizar una predicción de su comportamiento en el tiempo futuro, de manera que el efecto funcional que proveen estos modelos son probabilidades de ocupación o no ocupación, que permite predecir tendencias y patrones de comportamiento para finalmente estimar los estados futuros, que le significan a la CR mayor rendimiento, mejor uso del canal y una eficiente transmisión de datos para usuarios heterogéneos.
Inicialmente para caracterizar al PU se utilizan una secuencia de cálculos con el fin de concebir un valor o estado que proporcione información de la ausencia o aparición en el canal del PU. A continuación se mencionan algunos de los trabajos más significantes. Uno de las metodologías predictivas más utilizados para realizar la estimación de los estados del PU son los Modelos de Markov (MM) [18, 19, 20, 21], que con diversos sub-modelos estiman su posible futuro estado mediante el cálculo de probabilidades. Uno de estos sub-modelos son las cadenas de Markov de dos estados [18, 20], otro es el de tres estados [22], pudiéndose combinar con tiempos discretos [18] o continuos [23]. La desventaja de este método es que no hay una precisión al analizar la ráfaga de espectro, ya que se escapan a los cálculos de los picos en tiempos relativamente pequeños, y así la predicción tiene un porcentaje de desacierto alto, como se evidencia en [24]. Dentro de los Modelos de Markov, encontramos el Modelo Oculto Markov (HMM)10 [19, 21] que se destaca por su alta capacidad predictiva y modelaje de sistemas que no son posible verlos, es decir sistemas que presentan solamente sus datos de entrada y salida sin explicar el proceso intermedio; esta es una excelente herramienta para el apoyo de la CR en busca del comportamiento del PU.
Otro método de caracterización, es la teoría de colas [25], que basa su técnica en la reducción de las tasas de tiempo de servicio de llegada y salida, para la atención de los “Servidores” (canales) a los usuarios (PU, SU) que puedan hacer uso de él. Estas tasas pueden ser estimadas en función de la aparición de los usuarios en un determinado tiempo. Por el contrario, no se logra un óptimo desempeño ya que requiere de un gran número de ejecuciones en tiempo computacional para encontrar soluciones. Adicional el modelo no provee una solución al problema [26, 27].
Otro paradigma usado son las series de tiempo tipo ARIMA11 [43], que se enfoca en analizar una serie de observaciones en intervalos de tiempos, obteniendo información como lo son las tendencias, comportamientos en ciertos periodos, etc., con el fin de pronosticar cambios en un punto futuro [28]. En este mismo campo, se encuentran los
10 Hidden Markov Model
10 modelos lineales de auto-correlación, utilizados para la confirmación de funciones AR12 y MA13. Ahora bien, la complejidad computacional que requieren los cálculos son incrementales consecuentes a la cantidad de información utilizada.
Los modelos ON-OFF describen los periodos de tiempos de utilización del canal por el PU, donde ON implica que el canal está ocupado y OFF el caso contrario. Este modelo es comúnmente utilizado por Markov que busca hallar la probabilidad de aparición del siguiente estado, con diferencias en los modelos matemáticos para el caculo de probabilidades y las distribuciones aplicadas [29, 30, 31, 32].
Las Redes Bayesianas [33, 34], son una representación gráfica de nodos interconectados entre sí a-cíclicamente. Los nodos pueden representar un conjunto de variables aleatorias que pueden ser cantidades observables o hipótesis, las cuales son representadas por una función de probabilidad. Las aristas representan dependencias condicionales entre los nodos así pudiéndose tener un padre y un hijo, lo que concluye en una topología o estructura de red. Este modelo permite realizar una inferencia estimando la probabilidad a posteriori de las variables no conocidas. Dentro de sus posibles aplicaciones se encuentran la clasificación, predicción y diagnóstico.
Las Redes Neuronales [38] son redes computacionales inspiradas en modelos biológicos, organizados en niveles jerárquicos y compuesto por un número de elementos simples de procesos muy interconectados. Este modelo es aplicado al reconocimiento de voz, de escritura y clasificador. Además tiene una complejidad computacional dependiendo del problema tratado, en el mismo sentido esta red debe ser entrenada para obtener resultados adecuados.
Existen otros modelos que describen el comportamiento del PU haciendo uso de otras metodologías como lo son, Bloque [35], Minería de Datos (PPPM)14 [36], Modelos lineales/ No lineales [37], modelos con métodos de codificación y Lógica Difusa [24, 22].
3.2
Modelos implementados como predictores de la actividad de los PUs
A continuación se relaciona el estado del arte soportado en paradigmas de predicción para estimar el comportamiento de los PU. Tres características importantes halladas en el estado del arte son, el modelamiento de la actividad del PU, la predicción de un estado (Busy-Idle) y la estimación del espacio de tiempo que permanece el PU en el canal, estos modelos son de uso continuo en las redes de telecomunicaciones [41].
En [19], se desarrolla un modelo predictor de estados basado en el Modelo Markov Oculto (HMM) diseñado para predecir la actividad del canal, considerando el trafico como una distribución exponencial. Se proponen dos métodos AP-I y AP-II que al final se comparan y evidencian el porcentaje de acierto que tiene cada uno respecto a la actuación que tienen en el sistema.
12 Auto Regresiva
13 Media Móvil
11 En [21] también basado en HMM, se desarrolló un modelo predictor el cual plantea generar 3 sub-modelos que alimentaran a un modelo general, aplicando a cada uno HMM, adicional se aplica el algoritmo de Baum-Welch para la manipulación de las muestras y agruparlas en los sub-modelos. Implementa el algoritmo Forward-Backward para alcanzar una probabilidad máxima en cada sub-modelo los cuales entrarán a ser parte de la matriz B15 del modelo superior. Ofrece un semi-diagrama de flujo que permite entender el trabajo. Los anteriores artículos utilizan un histórico de muestras y no contemplan características como los son el bloqueo entre usuarios, el desvanecimiento, y el sombreado, que puedan afectar la transmisión del PU.
En [22] se desarrolla un modelo que se basa en los efectos del error en el sensado, competencia de recursos entre los SUs, y la probabilidad de colisión entre PU y SU. Se obtienen los resultados y mediante la combinación de estos, se establecen variables que representan el estado del PU en un intervalo de tiempo. El histórico de los símbolos son utilizados por el algoritmo “Lz78-Update”; el cual codifica la cadena de símbolos y la almacena en un árbol, posteriormente al decodificar calcula los promedios de aparición de los símbolos en las ramas del árbol, para después emplear los datos en un algoritmo de lógica difusa y crear la matriz “Fuzzy Comparison”, al final del proceso se realiza una unificación de los valores independientes de los símbolos, con el fin de estimar el tiempo de aparición del PU en el canal.
En [36], se utiliza un modelo de predicción basado en “patrón de minería”; este funciona a partir de una cadena de muestras del histórico creando sub-patrones que se almacenan en un árbol, finalizando realiza las estimaciones del tiempo y el estado de ocupación del espectro. Para la Poda del árbol utiliza el algoritmo Extension-Backward generando reglas que rigen el tamaño del árbol y podan los patrones que se hallan como sub-patrones de otros más grandes y estos últimos son los encargados de la predicción.
En [37], se exponen tres algoritmos de baja complejidad utilizados en conjunto, desarrollados a partir de modelos matemáticos lineales los cuales son: la auto-correlación, encargada de encontrar patrones repetitivos dentro de una señal, haciendo más predecible el comportamiento del PU. La correlación, busca la relación entre las muestras del histórico, detectan los cambios en el comportamiento del PU (fluctuaciones) evitando pasar por alto los picos que puedan presentarse en el tráfico. Finalmente el uso de la regresión lineal, estima/predice los valores de la variable (Y), a partir de la variable independiente (X), determinando los posibles estados que pueda tener el PU en un tiempo futuro.
En [42], se propone un algoritmo para predecir la tasa de llegadas del PU en un intervalo de tiempo en un sistema CR, además calcula el tiempo de mantenimiento necesario para que un SU pueda realizar una transmisión. Lo anterior lo logra caracterizando 3 casos donde puede generar inconvenientes al PU. Este modelo asegura que el PU no tendrá bloqueo por la aparición del SU.
12
3.3
Metodologías escogidas para la caracterización del PU.
De acuerdo al estado del arte estudiado, se contemplan tres artículos de representación de la actividad de usuarios primarios para la elección de uno, al cual se le extraerá la idea principal y será base en el desarrollo del algoritmo del presente proyecto de grado.
En [21] se presenta un modelo de actividad en la banda HF que realiza predicciones a corto plazo de la permanencia de tiempo de un PU en la banda con el fin de evitar colisiones en las transmisiones. Este es basado en el Modelo de Markov Oculto (HMM) el cual es un proceso estocástico útil para el modelamiento de procesos ocultos mediante el uso de un histórico del canal del PU.
En [34] exponen un framework que utiliza modelos gráficos para interactuar con la correlación que hay entre la frecuencia, espacio y demás características de una señal y que puedan afectar esta. Se destaca la propuesta por el uso de una Red Bayesiana que permite tomar decisiones a partir de una distribución de probabilidad del conjunto de variables que intervienen en la prestación del servicio a los usuarios CR. Aunque el artículo tiene un enfoque desde el punto de vista del usuario secundario y utiliza un diagrama de influencia, la idea general es aplicable al PU usando el concepto y modelo general de Red Bayesiana.
En [38] se utiliza una red neuronal para predecir la ocupación de un canal a partir del uso de un perceptrón multicapa (MLP). La intención del artículo es el diseño de un predictor de estatus de canal, motivados por la dificultad de obtener las estadísticas de uso de un canal por el PU y evitar al SU un sensado continuo lo que se refleja en un consumo de energía alto.
3.4
Técnicas y métodos de Inteligencia Artificial (IA) en la CR
La CR encuentra soporte en los algoritmos de aprendizaje de IA, con el fin de interactuar en un entorno sin tener un conocimiento previo de este y auto-programarse para atender los requerimientos del usuario cognitivo; dado lo anterior se exponen algunas técnicas y métodos de IA que implican algoritmos de aprendizaje categorizados en supervisado y no supervisado, con el fin de escoger uno para adecuarlo al algoritmo predictor:
3.4.1
Aprendizaje No supervisado
En este hallaremos un conocimiento a posteriori16, y en el cual el modelo estudiado se ajusta a las observaciones tomadas. Este modelo de aprendizaje incluye varios modelos, dentro de los que se destacan:
3.4.1.1
Aprendizaje por refuerzo RL
El aprendizaje por refuerzo (RL) permite a un agente modificar su comportamiento interactuando en entornos desconocidos [7]. Este aprendizaje es utilizado en varios artículos: En [8] se presenta un algoritmo basado en aprendizaje de diferencia temporal que actualiza el valor de cada estado antes de una iteración; En [11] presentan un
13 algoritmo de programación lineal que es iterativo, basado en el principio de Bellman, estimando un estado en función del valor asignado a una función en un estado previo; En [12] se utiliza un algoritmo que se fundamenta en el problema del “multi-armed bandit” para mejorar el rendimiento del SU en entornos dinámicos.
3.4.1.2
Aprendizaje no paramétrico
Esta técnica aprende de las observaciones obtenidas del entorno que no se ajustan a una distribución conocida, con el fin de modelar y manipular la información recolectada para satisfacer los requerimientos mientras continuamente aprende de la experiencia [7]. Este umbral se establece basado en el examen “Neyman Pearson” de acuerdo al parámetro de operación seleccionado para ser comparado. Como ejemplo encontramos el nivel de energía mínimo para la aparición de un PU, si este umbral es superado se ejecutan unas serie de actividades como denegación de servicio, reconfiguración de parámetros, bloqueo temporal en la comunicación del SU, o en caso contrario le daría vía libre para transmitir.
3.4.1.4
Aprendizaje Supervisado
El aprendizaje supervisado es una técnica con conocimiento a priori17 utilizada para deducir una función a partir de datos de entrenamiento y que actúa en ambientes conocidos. Estas técnicas por lo general son implementadas para solucionar problemas específicos para las que son diseñadas [9]; A continuación se referencian los artículos de aprendizaje supervisado más conocidos:
3.4.1.5
Red Neuronal Artificial (ANN)
Las redes neuronales artificiales (ANN), son muy utilizadas debido a su fácil implementación, aprendizaje adaptativo y es fácil su inserción dentro de las tecnologías existentes [13].
Las ANN son un método de resolver problemas de forma individual o combinadas con otros métodos, para tareas de clasificación, identificación, diagnostico, optimización o predicción en las que el balance datos/conocimiento se inclina hacia los datos y donde puede haber la necesidad de aprendizaje en tiempo de ejecución y se tenga cierta tolerancia a fallos. La propiedad más importante de las ANN es su capacidad de aprender a partir de un conjunto de patrones de entrenamientos, es decir, es capaz de encontrar un modelo que se ajusta a los datos.
14 En CR, las ANN son utilizadas para la configuración de varios parámetros de operación como en [45] que propone un (MFNN)18 una técnica que provee un modelo de caja negra del rendimiento como función de las medidas recolectadas por la CR. En [46] se propone un motor cognitivo basado en ANN que aprende como es afectado el rendimiento de los canales, a partir de las medidas y el status de la red.
3.4.1.6 Máquinas de Vectores de Soporte (SVM)
La SVM19 es muy utilizada por las tareas de aprendizaje de maquina como los son los patrones de reconocimiento y objetos de clasificación. En la CR esta técnica es utilizada comúnmente para la clasificación del rendimiento de señales. Como ejemplo en [14] se basados en la información existente, así el árbol representa la dependencia lógica entre la decisión a tomar y los atributos considerados .En consecuencia, se utiliza como un modelo de predicción con el fin de categorizar una serie de condiciones para la solución de un problema.
La CR en el aprendizaje inductivo busca con los arboles de decisión modelar mediante el histórico de un conjunto de variables, estructuras que le permitan tomar decisiones a sus funcionalidades según el entorno, y de esta forma poder coordinar la asignación de recursos espectrales o cambios de canal. Varios ejemplos de árboles de decisión son implementados en [18,49, 50] y en [22] lo utilizan como un clasificador de eventos que simulan la aparición de PU en un canal.
3.4.1.8 K-nearest neighbors (K-NN)
Es un método de clasificación no paramétrico donde su objetivo es encontrar un modelo que prediga la clase a la que pertenecerá cada registro. Dada una colección de registros cada una de estas contiene un conjunto de variables con una adicional que es la clase denominada [67], en consecuencia este método de predicción y clasificación pretende obtener una serie de categorías donde se clasificarán las muestras entrantes para su tratamiento posterior. En la CR el método de K-nearest neighbors, permite la estimación de parámetros con el fin de clasificar una posible actividad de señales principales.
15 convierte en un aprendizaje sostenible computacionalmente [10], de esta forma el aprendizaje evoluciona de una forma más rápida, etiquetando los datos desconocidos a partir de los datos etiquetados.
3.4.3
Clasificadores y otros métodos
Los tipos de clasificadores y predictores mencionados seguidamente, trabajan para asignar un elemento entrante no etiquetado en una categoría conocida, estos algoritmos pueden ordenar o disponer por clases elementos entrantes a partir de cierta información o característica de estos.
3.4.3.1 Redes Bayesianas
Las redes bayesianas, figura 3, son modelos probabilísticos que mediante un grafo dirigido a-cíclico representan nodos y relaciones de dependencia, con el fin de aplicarse a la decisión, clasificación, predicción y diagnóstico. Donde los nodos representan variables aleatorias y las aristas representan relaciones de dependencia probabilística. Cada nodo tiene asociada una distribución de probabilidad que toma como entrada un conjunto de variables del(os) nodo(s) padre y presenta su probabilidad final [51,52].
El modelo puede estimar la probabilidad posteriori de las variables no conocidas a base de las conocidas, lo que resulta ser útil para la toma de decisiones y predicción.
Figura 3Red bayesiana "ChaestClinic" ejemplo [71].
3.4.3.2 Modelo ANFIS
Es una red adaptativa que corresponde a una estructura de varias capas compuestas de un conjunto de nodos conectados a través de enlaces, donde cada nodo es una unidad de procesamiento que desempeña una función sobre la señal recibida para generar otra de salida [53, 54].ANFIS20consiste en predecir el valor de la serie en el tiempo 𝑥 = 𝑡 + 𝑃desde el punto 𝑥 = 𝑡, a partir de las entradas que resultan del mapeo de puntos en la serie en un espacio de tiempo ∆, empleando una red neuronal construida con una arquitectura determinada arbitrariamente. Las capacidades adaptativas de las redes ANFIS a partir de ejemplos de entrenamiento la hacen aplicable en áreas como: control adaptativo, procesamiento, filtrado de señales y series de tiempo, clasificación de datos y extracción de características [55].
20
16
3.4.3.3 FAHP (Fuzzy Analytic Hierarchy Process)
El proceso jerárquico analítico (AHP), fue diseñado para apoyar la toma de decisiones compleja considerando variables cuantitativas y cualitativas [57]. Los problemas de decisión se plantean mezclando los datos exactos y difusos, es decir el proceso permite determinar niveles de importancia a los atributos que se incorporan en el análisis de toma de decisiones multicriterio, y la lógica difusa ayuda a convertir las valoraciones lingüísticas en valoraciones numéricas [56].En [69] se basan en FAHP para la selección dinámica de canales de frecuencia en CR, el cual parte de la identificación de variables que participan en el proceso de movilidad espectral, que está comprendida en la fase de toma de decisiones. En [70] se utiliza este proceso para la funcionalidad de toma de decisiones en CR, además se tienen en cuenta los requerimientos de servicio de Clase para varias aplicaciones en redes inalámbricas, ofreciendo bajos costos computacionales y la adaptabilidad a cualquier tipo de requerimiento.
3.5
Resumen
La tabla 1, presenta una comparación entre los dos aprendizajes, derivado del estado del arte revisado. Los métodos que utilizan este aprendizaje
son: De clasificación, diagnóstico, optimización, predicción.
Las salidas del aprendizaje representan el grado de familiaridad o similitud entre la información que le están presentando.
El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo.
El proceso de aprendizaje se da a partir de las observaciones que no se ajustan a una distribución conocida.
Para realizar alguna actividad, tuvo que haber sido entrenado a partir de datos anteriormente presentados.
Adaptación dinámica mientras continuamente aprende de la experiencia en tiempo real.
Se requiere conocer la información para realizar una predicción.
No se requiere tener la información para realizar una predicción, si ya tiene la experiencia.
Aprendizaje muy costoso computacionalmente.
17 Finalizando esta sección, la siguiente presenta una revisión de las bases que soportan la técnica IA tratada en este documento.
3.6
Conceptos fundamentales relacionados con Redes Bayesianas.
La técnica red Bayesiana (RB) que se encuentra en inteligencia artificial, hace uso de la probabilidad clásica y del teorema de Bayes, siendo éstas sus fundamentos que la hacen propicia para trabajar con la incertidumbre. La importancia de la RB radica en hacer factible la inferencia de eventos con probabilidades mediante las tablas de probabilidad conjunta (TPC) [58], es decir, la técnica genera los porcentajes que estiman la probabilidad de ocurrencia de un evento. Así el teorema de Bayes permite a la RB pasar de la probabilidad a priori de un evento P (Evento) ya conocido, a la probabilidad posteriori de presentarse otro evento P (evento | evidencia).De esta forma la RB simula el comportamiento del PU probabilísticamente y contiene la información suficiente para proveer una solución a la problemática de la caracterización de los PUs.
3.6.1
Redes bayesianas
En una Red bBayesiana, la información entrante (evidencia/hallazgos) mediante un nodo (Variable Predictora) observada se propaga por la red y actualiza las creencias (Variables Estado) de las variables no observadas (Variable Clase), llamándose a este proceso Inferencia [58, 61, 86]. A partir de esta capacidad, la RB presenta varias estructuras que permiten realizar una predicción, un modelamiento o una toma de decisión.
Las RB están basadas en la teoría de probabilidad y la teoría de grafos [63, 86], para ello se considera necesario aclarar algunos conceptos para el entendimiento de su desarrollo:
Aprendizaje: entrenamiento de la RB, a partir de los datos que reflejan el comportamiento de las variables.
Variable Estado: variable que representa las probabilidades de las Variables Predictora y Clase.
Variable Predictora: variable que tiene uno o varios estados y estos son relacionados con las probabilidades dependientes de sus ancestros.
Variable Clase: variable objetivo de la cual se pretende tener un diagnóstico (nodo consulta), predicción o toma de decisión.
Probabilidad:
o Marginal: se refiere a que no hay probabilidades influyendo sobre la probabilidad actual que tiene el nodo.
o Conjunta: se refiere a que se presente dos o más eventos simultáneamente o en sucesión.
o A posteriori: probabilidad que se presente un evento ya habiéndose dado un anterior.
18
Inferencia: razonamiento lógico que se genera a partir de la relación de los nodos mediante su tabla de probabilidad conjunta (TPC).
Información Mutua: relación que hay entre dos variables, reconociendo que tanta correlación existe entre estas.
Grafo o Red: conjunto finito de nodos y enlaces.
Nodo: representación de una variable.
Enlace: línea que comunica dos nodos y que representa una dependencia probabilística entre ellos.
Padre: nodo del cual parte un enlace dirigido a otro nodo.
Hijo: nodo al cual llega uno o varios enlaces de sus ancestros.
Hallazgos/evidencias: son los valores presentados a un nodo, que representan un evento con probabilidad determinada.
Caso: hallazgos u observaciones de cómo debería comportarse la RB, según un histórico del modelo representado.
Clique: es un conjunto de nodos, en el cual cada nodo está conectado a todos los otros nodos, y no hay algún otro nodo en la red que esté conectado a todos los nodos del conjunto.
Creencias: son los estados de un Nodo y tienen una probabilidad asociada.
3.6.2
Aprendizaje de la Red Bayesiana
Una RB es un grafo dirigido a-cíclico que representa la mejor dependencia e independencia entre los nodos 𝑋𝑖, en otras palabras, cada nodo tiene una probabilidad de distribución condicional donde 𝑃(𝑋𝑖|𝑃𝑎𝑑𝑟𝑒𝑠(𝑋𝑖)) mide el efecto de los padres de ese nodo. La complejidad de hallar la mejor estructura para la RB se basa en los datos comunes entre las variables ya que a partir de estos se generan las probabilidades que describen la relación de estas y la falta de éstos complica el inicio de la construcción de la RB; dos formas para abordar la construcción son, mediante la intervención de un experto o el aprendizaje automático.
La intervención de un experto en el diseño de una RB es esencial debido al aporte de su experiencia en el sistema que se está desarrollando, ya que provee la información probabilística y estructural; pero la complejidad probabilística demandada para la construcción de un sistema con N-nodos, incrementa con la variabilidad de los datos, lo que concluye en posibles errores involuntarios y posiblemente un mal funcionamiento de la red.
El aprendizaje automático emplea técnicas que permiten deducir la estructura de la red, o en cambio deducir las dependencias (distribución de probabilidad) relacionadas con la estructura de la red, pero esto se da teniendo como base datos iniciales con los cuales se construirá la RB, otros aspectos importantes relacionados con el aprendizaje automático de Redes Bayesianas, son los siguientes [59, 86]:
Aprendizaje de la estructura.
Aprendizaje de los parámetros
19
Determinación de valores faltantes
Descubrimiento de variables ocultas.
El aprendizaje de estructura es la capacidad del experto o la técnica, de construir la RB respecto a sus enlaces de dependencia resultando en la formación del grafico a-cíclico dirigido (DAG) y relacionando sus probabilidades marginales y condicionales. El aprendizaje Bayesiano es la unión de dos formas tradicionales; la intervención de un experto y el aprendizaje automático [59].
El aprendizaje paramétrico, se da teniendo la topología ya creada para calcular las probabilidades condicionales respecto a la información a priori. Estos parámetros pueden ser elaborados por el experto, lo cual sería un trabajo intenso y con posibles errores si la red es lo suficientemente grande, lo que no ocurriría aplicando una técnica de aprendizaje paramétrica. Este aprendizaje es dividido en dos métodos:
Técnicas basados en búsqueda: La estructura se determina probabilísticamente usando dos enfoques: selección del modelo, que consiste en elegir el modelo más “Bueno” entre los otros generados; Selección del modelo promedio elige un modelo que tiene un numero manejable de enlaces.
Técnicas basadas en restricción: Dadas las dependencias condicionales en una distribución de probabilidad hay que encontrar el DAG que contenga todas y solamente estas dependencias [60]. Estas son más rápidos en redes pequeñas.
La propagación de las probabilidades o inferencia, se refiere a la actualización de unas variables a partir de la información de otra (entrenamiento). En el caso que sean dos variables se aplica la regla de Bayes, pero habiendo más variables es necesario el uso de alguna técnica; como en [62] que exhibe tres métodos para realizar la inferencia: top-Down, Bottom-up, Explaning Away; además se encuentran, BayesN, Naves Bayes, TAN, Gradient (DG/AG), Maximiun Espectative (ME).
Determinar los valores faltantes, son aquellas secuencias que no están dentro de los datos iniciales y que bajo una inferencia lógica probabilística son calculados y se fijan como supuestos.
20
Tabla 2Combinación de Aprendizajes según los datos y la estructura.
La tabla anterior expresa cuatro situaciones en las que se puede estar al iniciar una construcción de la RB; Un estado con “Datos completos y Estructura conocida”, este es el mejor de los estados, ya que solo sería necesaria la propagación de los datos. Sí es el caso de “Datos incompletos y Estructura conocida” es necesario utilizar una técnica de aprendizaje paramétrico; sí es el caso de “Datos completos sin estructura conocida” se utiliza una técnica de aprendizaje estructural; el caso más robusto por su falta de información es “Datos incompletos y sin Estructura conocida”, al cual se le debe trabajar con una técnica mixta que incluya aprendizaje estructural y paramétrico.
Además, el aprendizaje es visto también como una técnica clasificadora, las cuales son funciones que clasifican casos/eventos a partir de un conjunto de características en una clase específica [64, 65]. Dentro de las técnicas de clasificación las más utilizadas son Naive-Bayes, TAN, Bayes2, bayes5, Bayes9, BayesN, [59, 65, 66].
En resumen, para la construcción de una Red Bayesiana, se debe contemplar la estructura y los parámetros para el diseño, en caso de faltar tal información es necesario identificar una técnica de aprendizaje que permitirá hallar el modelo más adecuado según la información que se tenga. Posterior a la construcción, es necesario utilizar una técnica de propagación con el fin de entrenar la red de acuerdo a la finalidad de ésta.
3.6.3
Software para el desarrollo de Redes Bayesianas
Actualmente en el mercado existen varios software que permiten trabajar con Redes Bayesianas, aportando facilidad y agilidad en la construcción de ellas. Habiéndose revisado varios como “Elvira, B-Course, Netica, RB-Microsoft, etc.”, se hace la elección de uno que permitirá exponer y certificar el correcto funcionamiento de la RB, siendo el resultado de este documento. En este sentido, se trabajará con el aplicativo Netica ya que este provee más documentación acerca de las técnicas y métodos que se utilizarán para apoyar el desarrollo de la RB.
Estructura conocida Estrucutra Desconocida
Datos Completos
Estimación
Parametrica
Aprendizaje
estructural
Datos Incompletos
Aprendizaje
21
4
Capítulo. Análisis y Diseño del prototipo de algoritmo
4.1
Elección de la metodología de trabajo.
La metodología utilizada en el análisis y diseño del algoritmo es RUP (Rational Unified Process) [68], la cual incluye una etapa de Inicio, de Elaboración, Construcción y Transición. La notación grafica utilizada es UML, el cual es un lenguaje de modelado de sistemas capaz de describir la arquitectura del sistema.
4.2
Etapa Inicio: Presentación del problema.
4.2.1
Introducción.
De la figura 4 en el componente de Toma de Decisiones, se requiere un algoritmo capaz de modelar y predecir la actividad del PU con Inteligencia artificial, a partir de los datos entregados por el componente de detección de espectro.