XXI Workshop de Investigadores en Ciencias de la Computación

(1)

25 y 26 de abril de 2019 – San Juan – Argentina

LIBRO DE ACTAS

Facultad de Ciencias Exactas, Físicas y Naturales

Universidad Nacional de San Juan

(2)

XXI Workshop de Investigadores en Ciencias de la Computación -WICC 2019: libro de actas / Compilado por Nelson Rodríguez, María Murazzo, Manuel Ortega, María I. Lund. - 1a ed . - San Juan: Editorial UNSJ, 2019.

CD-ROM, PDF

Archivo Digital: descarga y online ISBN 978-987-3984-85-3

1. Informática. 2. Informática Educativa. 3. Innovación Tecnológica. I. Rodríguez, Nelson, comp. CDD 005 - 1118 páginas

(3)

Universidad Nacional de San Juan (UNSJ)

Rector

Oscar Nasisi

Decano de FCEFyN Rodolfo Bloch

Autoridades Red de Universidades con Carreras de Informática

(Red UNCI)

Coordinador Titular Pesado Patricia (UNLP) Coordinador Alterno Estayno Marcelo (UNLZ)

Coordinadores de Área WICC 2019

Agentes y Sistemas Inteligentes

Marcelo Falappa (UNS) Marcelo Errecalde (UNSL) Daniel Pandolfi (UNPA)

Arquitectura, Redes y Sistemas Operativos Luis Marrone (UNLP)

Daniel Arias Figueroa (UNSa) Orlando Micolini (UNC)

Computación Gráfica, Imágenes y Visualización Martın Larrea (UNS)

Marıa J. Abasolo (UNLP-UNCPBA) Roberto Guerrero (UNSL)

Ingeniería de Software Pablo Fillottrani (UNSur) Pablo Thomas (UNLP)

Fernanda Carmona (UNdeC)

Procesamiento Distribuido y Paralelo Marcelo Naiouf (UNLP)

Fabiana Piccoli (UNSL) Javier Balladini (UNCOMA)

(4)

Innovación en Sistemas de Software Marcelo Estayno (UNLZ)

Guillermo Feierherd (UNTDF) Osvaldo Spositto (UNLaM) Gladys Dapozo (UNNE)

Tecnología Informática aplicada en Educación Zulma Cataldi (UBA-UTN)

Alejandra Zangara(UNLP) Mónica Tugnarelli (UNER) Gustavo Gil (UNSa)

Procesamiento de señales y Sistemas de Tiempo Real Oscar Brıa (INVAP)

Fernando Tinetti (UNLP) Nelson Rodríguez (UNSJ)

Bases de Datos y Minería de Datos Laura Lanzarini (UNLP)

Claudia Deco (UNR) Norma Herrera (UNSL)

Innovación en Educación Informática Claudia Russo (UNNOBA)

Elena Durán (UNSE)

Lucía Malbernat (UCAECE) Seguridad Informática Paula Venosa (UNLP) Javier Echaiz (UNS)

Antonio Castro Lechtaller (IESE) Jurado de Tesis de Doctorado Marcela Printista (UNSL) Laura de Giusti (UNLP) Silvia Castro (UNS)

Alejandra Cechich (UNCOMA) Horacio Kuna (UNaM)

(5)

Comité Académico

UBA – Cs. Exactas Garbervetsky, Diego UBA–Ingeniería Echeverría, Adriana UN La Plata Pesado, Patricia UN Sur Rueda, Sonia UN San Luis Píccoli, Fabiana UNCPBA Aciti, Claudio UN Comahue Grosso, Guillermo UN La Matanza Spósitto, Osvaldo UN La Pampa Alfonso, Hugo UN Lomas de Zamora Estayno, Marcelo UN Tierra del Fuego Feierherd, Guillermo UN Salta Gil, Gustavo UN Patagonia Austral Lasso, Marta UN San Juan Rodríguez, Nelson UADER Noriega, Jorge UN Patagonia SJB Buckle, Carlos UN Entre Ríos Tugnarelli, Mónica UN Nordeste Dapozo, Gladys UN Rosario Zanarini, Dante UN Misiones Kuna, Horacio UNNOBA Russo, Claudia UN Chilecito Carmona, Fernanda UN Lanús Azcurra, Diego UN Santiago del Estero Duran, Elena Esc. Sup. Ejercito Arroyo Arzubi, Alejandro UN Litoral Loyarte, Horacio UN Rio IV Arroyo, Marcelo UN Córdoba Fridlender, Daniel UN Rio Negro Vivas, Luis UN Hurlingham Medrano Gustavo UN Villa María Prato, Laura UN Lujan Panessi, Walter UN Catamarca Poliche María Valeria UN La Rioja Martínez, Marcelo UN Tres de Febrero Oliveros, Alejandro UN Tucumán Luccioni, Griselda M. UNAJ Morales, Martın UN Chaco Austral Zachman Patricia UN del Oeste Foti, Antonio UN de Cuyo García Garino, Carlos UN de Mar del Plata Ríos, Carlos U Morón Padovani Hugo UAI De Vincenzi, Marcelo U Belgrano Guerci, Alberto U Kennedy Panizzi, Marisa U Adventista del Plata Bournissen Juan UCAECE Finocchieto, Jorge U Palermo Álvarez Adriana UCA Rosario Grieco, Sebastián U Salvador Zanitti, Marcelo U Aconcagua Giménez, Rosa U Gastón Dachary Ruidías, Hector Javier UCEMA Guglianone, Ariadna U Austral Cosentino, Juan Pablo U Atlántida Argentina Rathmann, Liliana UCA La Plata Bertone, Rodolfo ITBA Mon, Alicia U Champagnat Pinciroli, Fernando UN Jujuy Herrera Cognetta, Analía

Comité Organizador FCEFyN UNSJ Evangelina Sanz

Manuel Ortega Nelson Rodríguez María Inés Lund

Coordinadores Locales

Laura Gutiérrez María Murazzo Laura Aballay Marita Masanet Marcelo Moreno Jorge Mercado Silvina Migani Maria Romagnano Myriam Herrera Elisa Oliva Flavia Millan Cristina Vera Cintia Ferrarini Liliana Gonzalez Alejandra Orellana Susana Chavez Hector Lepez Alejandra Malberti

(6)

Agentes y

(7)

Aplicación de algoritmos de optimización multiobjetivo

a la mezcla de distintas fuentes de minerales en el largo plazo

Oscar Daniel Chuk, Marina E. Romero, Carlos Gustavo Rodríguez Medina, Luis V. Gutiérrez, Enrique A. Núñez, Juan P. Gil

Instituto de Investigaciones Mineras. Facultad de Ingeniería. Universidad Nacional de San Juan

Av. Libertador Gral. San Martin 1109 oeste. San Juan. 0264-4211700 (int. 389)

[email protected]

RESUMEN

Se presentan en este trabajo estrategias basadas en optimización multiobjetivo y supervisión pre-dictiva destinadas a lograr una mezcla óptima de las distintas fuentes de mineral que ingresan a una planta de tratamiento, para las minas Cerro Vanguardia (Santa Cruz) y Casposo (Calingasta, San Juan). El planteo tiene una concepción Mul-tiobjetivo, debido a las diversas variables que in-fluyen en este caso de problemas y una concep-ción predictiva debido a que se desea modelar el comportamiento de las variables a lo largo del tiempo.

Este algoritmo se plantea con la suficiente flexi-bilidad como para ser adaptados fácilmente a otras situaciones semejantes.

Palabras clave: Optimización multiobjetivo, Mezcla óptima de minerales, Programación de Mina, Supervisión predictiva.

CONTEXTO

Este trabajo tuvo su origen en el diseño por el Instituto de Investigaciones Mineras IIM de un algoritmo óptimo de mezcla de minerales para la empresa Cerro Vanguardia. El mismo tenía ca-racterísticas estáticas, ya que resolvía el pro-blema para una situación determinada. Este al-goritmo original se ha visto mejorado con un nuevo desarrollo para la mina Casposo (Troy

Resources Limited), en el que se contempla en forma óptima y dinámica no sólo la situación ac-tual de producción sino todas las posibles etapas del proceso y vida útil de la mina hacia futuro, contemplando incluso hasta el cierre del empren-dimiento.

Este desarrollo se lleva a cabo en el marco de la Convocatoria 2018-2019 de Proyectos de Inves-tigación y Desarrollo Social PDTS de la U.N.S.J. con el título “Programación de mina de largo plazo mediante optimización multiobjetivo pre-dictiva”, y cuenta con el aval del Ministerio de Minería de la Provincia de San Juan en calidad de entidad patrocinante.

1. INTRODUCCIÓN

Desde que Lerchs y Grossman (1965) publicaron su método de explotación óptima de una cantera a cielo abierto basado en programación diná-mica, ha existido un creciente interés en la indus-tria minera por los métodos que permiten maxi-mizar o minimaxi-mizar un objetivo técnico o econó-mico. El tratamiento de este problema, conocido como “mine planning” ha ido evolucionando al ritmo del desarrollo de las técnicas computacio-nales de optimización en los últimos 50 años. Al respecto, si bien algunos autores como Gershon (1987) sostienen que los métodos de optimiza-ción matemática no deben dejar de lado la heu-rística tradicional usada por los planificadores de mina, la mayoría de las soluciones recurren a la

(8)

Programación Lineal Mixta Entera (Mixed Inte-ger Linear Programming MILP, Askari-Nasab et al., 2010), usando habitualmente el paquete co-mercial de cálculo CPLEX de IBM. Otras apro-ximaciones han usado la técnica de “branch and cut” (Caccetta and Hill, 2003), algoritmos gené-ticos (Ataei and Osanloo, 2003) y soluciones de-rivadas del control automático tales como el con-trol predictivo (Goodwin et al., 2006).

El presente artículo se orienta a un problema re-lacionado con el previamente expuesto, pero de posterior desarrollo en la academia, la mezcla óptima de diversas fuentes de mineral en la pro-ducción minera. Esto involucra la mezcla de dis-tintas menas, como por ejemplo diferentes sec-tores de una mina de cielo abierto, vetas de mi-nas subterráneas y pilas de acopio, diversas plan-tas de tratamiento y distintos productos. Si bien las formulaciones más simples del problema de mezcla óptima están basadas en programación li-neal (Chanda and Dagdelen, 1995), el proceso de optimización involucra la toma de decisión del destino completo de lotes de mineral, lo que a su vez implica el uso de variables enteras mezcla-das con otras reales, en funciones de evaluación no lineales. Se trata entonces de un Algoritmo de Programación no lineal Mixto (Mixed Integer Nonlinear Program MINLP, Blom et al., 2016). 1.1 La planificación de mezcla de fuentes de

mineral como un problema multiobjetivo El caso particular de la planificación de produc-ción en las industrias extractivas involucra un número elevado de variables: los caudales de mi-neral por veta, las leyes de las especies a extraer, la vida útil de la mina, las capacidades de la/las planta/s de tratamiento, sus recuperaciones, los valores en el mercado de los minerales, los cos-tos de extracción y tratamiento, los coscos-tos ener-géticos, laborales, etc.

Al mismo tiempo, existen restricciones impues-tas por factores técnicos y económicos que com-pletan el problema de optimización. Los objeti-vos prioritarios de optimización suelen ser la maximización del Valor Actual Neto VAN (Net Present Value NPV, Asad and Topal, 2011) o

una política de ley de corte (Nesis, 2017). Pero tampoco son los únicos. Es habitual que el mismo se complemente con una consigna de producción en un determinado período y otros objetivos posibles como el agotamiento de los recursos al momento del cierre proyectado de la mina. Se tiene así un problema que contempla más de un objetivo. La resolución de un pro-blema en el cual dos o más objetivos compiten entre sí, considerando restricciones técnico – económicas, es por definición un problema de optimización multiobjetivo.

Algunos autores como Everett (2010) resuelven esta versión multiobjetivo del problema de mez-cla optimizando los objetivos iterativamente. Otros incluyen algunos objetivos como la estabi-lidad de los taludes en las restricciones del pro-blema (Galić et al., 2009). Pero es difícil encon-trar en la literatura abordajes estrictamente mul-tiobjetivo del problema.

2. LINEAS DE INVESTIGACIÓN Y DESARROLLO

2.1 Formulación del problema

En un planteo típico del problema, se propone la optimización de la mezcla de 10 fuentes de mi-neral en una operación minera metalífera de oro y plata hasta el agotamiento de las reservas, y se ha estimado que esto puede ocurrir a los Nc me-ses. El esquema mina-plantas a optimizar se pre-senta en la Figura 1.

Cada fuente de mineral tiene una previsión de re-servas estimadas [tn], y está caracterizada por una ley de oro Cu [gr/tn] y de plata Cg [gr/tn], pu-diendo variar ambas a lo largo de los Nc meses. Los caudales Qi [tn/mes] provistos por las fuen-tes de mineral pueden ser derivados a distintas plantas según una variable entera di ∈{1, 2, 3}. Si di = 1 el destino es una planta de Molienda, si di = 2 se deriva a una pila de Stock de Largo Plazo SLP intermedia, y si di = 3 se destina a una planta de Lixiviación en valle HL. La pila SLP aporta a las plantas de Molienda y HL caudales QSLPm y QSLPh respectivamente. Las plantas de Molienda y HL tienen capacidades de

(9)

trata-miento Qscmb y Qschb [tn/mes], con recuperacio-nes para oro y plata Rmu y Rmg, Rhu y Rhg, respec-tivamente. Los datos económicos son las cotiza-ciones del oro CotAu, de la plata CotAg, y los costos de procesamiento de Molienda PCm y HL PCh.

2.2 Optimización multiobjetivo

El problema de optimización multiobjetivo se define como (Donoso y Fabregat, 2007): Encon-trar el vector/es de n variables de decisión

x* = x₁* x₂* … x_n* T (1) que satisfaga las m restricciones de desigualdad

gi (x) > 0parai = 1, 2, …, m (2) las t restricciones de igualdad

hi (x) = 0 parai = 1, 2, …, t (3) y optimice (maximice o minimice) el vector de

q funciones de evaluación

f (x) =

[ f1(x) f2(x) … fq(x)]

(4) Cuando hay varias funciones de evaluación fj(x) las mismas compiten entre sí, por lo cual no es posible encontrar un óptimo sino que el resul-tado es un grupo de soluciones óptimas denomi-nado Conjunto de Pareto (Coello Coello, 2002). 2.3 Carácter predictivo de la optimización El hecho de considerar el desarrollo futuro del emprendimiento en las funciones de

optimiza-ción f (x), a lo largo de los Nc de vida útil, im-plica el diseño de las mismas con un carácter pre-dictivo, lo cual se logra echando a andar el mo-delo matemático del proceso hacia adelante en el tiempo. Se toman en cuenta las predicciones de leyes minerales, costos, valores de mercado, etc., tal como se muestra en la Figura 2.

El vector x de variables de decisión es x = [Q1(1) Q2(1)… Q10(1) QSLPm(1) QSLPh(1) …

Q1(Nc) Q2(Nc)… Q10(Nc) QSLPm(Nc) QSLPh(Nc)… … d1(1) d2(1)… d10(1) …

d1(Nc) d2(Nc)… d10(Nc) ] (5)

El algoritmo de cálculo multiobjetivo entrega un Conjunto Óptimo de Pareto donde cada indivi-duo del mismo es una trayectoria óptima posible de la forma (5), graficados en la parte superior de la Fig. 2 (Por simplicidad se grafican sólo los caudales Qi, no los destinos di). En una segunda fase del proceso de optimización, se debe elegir alguna de estas trayectorias para aplicarla efecti-vamente al proceso, por un método que suele ser la menor norma euclídea al vector ideal (Chuk, 2012).

3. RESULTADOS OBTENIDOS Y ESPERADOS

El problema ha sido resuelto usando un algo-ritmo de optimización de colonias de hormigas (Schlueter y Munetomo, 2017).

Fuentes de mineral

Figura 1. Esquema del conjunto mina – plantas

[Q10, Cu10, Cg10] d = 2

Q

SLPm d = 3 [Q1, Cu1, Cg1]

Q

SLPh SLP Mezcla Completa Molienda Rmu y Rmg HL Rhu y Rhg d = 1 1 2 3 4 5 6 7 8 9 10

(10)

Fig. 2 Evolución futura de variables En un ejemplo de aplicación concreto se consi-dera un horizonte de Nc = 24 meses, leyes cre-cientes en orden con las fuentes de mineral, pero con una fuerte caída en las previsiones de las mismas en el mes 8 y un incremento en la coti-zación del oro del 13% en el mes 16. La planta de Molienda tiene una capacidad de Qscmb = 50000 tn/mes y HL de Qscmh =100000 tn/mes, y se le impone a la pila SLP que no descienda de 20000 tn hasta el mes 20, cuando se inicia el cie-rre de mina. La evolución en el tiempo se pre-senta en la Figura 3. El vector de 10 destinos op-timizados es [3 2 2 3 3 2 1 1 1 1] para los meses 1 a 7, [3 3 2 2 2 2 3 3 2 2] para los meses 8 a 15 y [3 2 3 3 1 1 2 2 3 2] para los meses 16 a 24. Las soluciones optimizadas obtenidas presentan un aumento del VAN de entre el 5% y 10% res-pecto de la solución calculada por un programa-dor de mina entrenado. Se observa un uso má-ximo y constante de ambas plantas, se respeta el volumen mínimo de la pila minVolSLP y se ase-gura el agotamiento de las reservas al fin del em-prendimiento.

4. FORMACIÓN DE RECURSOS HUMANOS

La Ing. Marina E. Romero lleva adelante sus te-sis de doctorado en Ingeniería de Procesamiento de Minerales en la temática, con el título “Plani-ficación de mina de largo plazo basada en opti-mización multiobjetivo y supervisión predic-tiva”.

5. BIBLIOGRAFIA

Asad, M.W.A. and Topal, E. (2011) ‘Net present value maximization model for optimum cut-off grade policy of open pit mining operations’,J. S. Afr. Inst. Min. Metall, 111 (11), 741-750. Askari-Nasab, H., Awuah-Offei, K. and H.

Eiv-azy (2010) ‘Large-scale open pit production scheduling using Mixed Integer Linear Pro-gramming’, International Journal of Mining and Mineral Engineering, 2 (3), 185-214. Ataei, M., and Osanloo, M. (2003) ‘Using a

combination of genetic algorithm and the grid search method to determine optimum cutoff grades of multiple metal deposits’, Interna-tional Journal of Surface Mining, Reclamation and Environment, 18 (1), 60–78.

Blom, M.L., Pearce, A.R. and Stuckey, P.J. (2016) ‘A Decomposition-Based Algorithm for the Scheduling of Open-Pit Networks Over Multiple Time Periods’. Management Science. http://dx.doi.org/10.1287/mnsc.2015.2284 Caccetta, L., and Hill, S. P. (2003) ‘An

applica-tion of branch and cut to open pit mine sched-uling’. Journal of Global Optimization, 27 (2– 3), 349–365.

Chanda, E.K.C. and K. Dagdelen (1995) ‘Opti-mal blending of mine production using goal programming and interactive graphics sys-tems’. International Journal of Surface Mining, Reclamation and Environment, 9 (4), 203-208.

(11)

Figura 3: Variables de decisión y salidas optimizadas Chuk, O.D. (2012) Supervisión predictiva con

optimización multiobjetivo. Editorial EFU. Coello Coello, C.A., Van Veldhuizen, D.A. and

Lamont, G.B. (2002) Evolutionary Algorithms for Solving Multi-Objective Problems. Kluwer Academic Publishers. New York.

Donoso, Y. and Fabregat, R. (2007) Multi-Ob-jective Optimization in Computer Networks Using Metaheuristics. Auerbach Publications, Boca Ratón.

Everett, J.E. (2010) ‘Simulation Modeling of an Iron Ore Operation to Enable Informed Plan-ning’. Interdisciplinary Journal of Information, Knowledge, and Management, 5, 101-114. Galić, I., Jakonvić, B., Mrakovčić, I., (2009)‘An

another way for open pit mine design optimi-zation – Floating slopes method’, Rudarsko-geološko-naftni zbornik, 21, 103-111.

Gershon, M. (1987) ‘Heuristic approaches for mine planning and production scheduling’, In-ternational Journal of Mining and Geological Engineering, 5 (1), 1-13.

Goodwin, G.C., Serona, M.M., and Menabdeb, M. (2006) ‘Receding horizon control applied to optimal mine planning’. Automatica, 42 (8), 1337 – 1342.

Lerchs, H. and Grossman, I. F. (1965) ‘Optimum design of open-pit mines’, The Canadian min-ing and metallurgical bulletin, 58 (633), pp. 47-54.

Nesis, V.N. (2017) ‘Cutoff evaluation practice in short-term gold mine planning’. Gornyi Zhur-nal, 4, 43-48.

Schlueter, M. and M. Munetomo, (2017) ‘MIDACO parallelization scalability on 200 MINLP benchmarks’. Journal of Artificial In-telligence and Soft Computing, 7 (3), 171-181.

(12)

Aplicación de Metaheurísticas para la Resolución

de Problemas de Optimización Dinámica

Juan José Barbero, Martín Tamagusku, Natalia Stark, Hugo Alfonso1_,

Carlos Bermudez, Gabriela Minetti1, Carolina Salto1 Laboratorio de Investigación en Sistemas Inteligentes (LISI) Facultad de Ingeniería - Universidad Nacional de La Pampa

Calle 110 Esq. 9 (6360) General Pico - La Pampa - Rep. Argentina Te. / Fax: (02302) 422780/422372, Int. 6302

e-mail:1_{{minettig, saltoc, [email protected]}}

Resumen Este proyecto de investigación se en-foca en la resolución de problemas de optimización a gran escala utilizando nuevas técnicas meta-heurísticas, así como también su hibridación con las ya existentes. Actualmente estamos abocados al estudio del problema de diseño de redes de dis-tribución de agua, problema al que se enfrentan las ciudades modernas con restricciones cambiantes. Este problema lo abordamos mediante el uso de metaheurísticas como Simulated Annealing y Cuckoo Search con resultados muy prometedores. Además, hemos empezado a investigar algorit-mos eficientes que puedan dar respuesta en tiempo real a diversos tipos de problemas que a su vez van cambiando dinámicamente sus restricciones. Concretamente estamos introduciendonos en el uso de los algoritmos conocidos con el nombre de “Evolución Diferencial", los cuales son flexibles para adaptar el proceso de búsqueda frente a cambios de restricciones en la función objetivo conforme avance el tiempo. Estos cambios, muchas veces provocan que soluciones factibles dejen de serlo. Una alternativa frecuentemente usada, frente a estas situaciones, es la de aplicar un mecanismo de reparación a tales soluciones del problema.

Palabras claves: Metaheurísticas, Optimización, Diseño de Red de Distribución de Agua, Simulated Annealing, Evolución Diferencial.

Contexto

Estas líneas de investigación se desarrollan en el marco de un proyecto de investigación, llevado a cabo en el Laboratorio de Investigación de Sis-temas Inteligentes (LISI) de la Facultad de Inge-niería de la Universidad Nacional de La Pampa, acreditado por dicha facultad y dirigido por la Dra. Minetti. Cabe destacar que desde hace varios años, los integrantes de estos proyectos mantienen una importante vinculación con investigadores de la Universidad Nacional de San Luis (Argentina) y de la Universidad de Málaga (España), con quienes se realizan publicaciones conjuntas.

Uno de los principales frentes de trabajo en el ámbito de las Ciencias de la Computación ha sido tradicionalmente el diseño de algoritmos cada vez más eficientes para la solución de problemas, tanto de optimización como de búsqueda. En este dominio, el objetivo consiste en obtener algoritmos nuevos que den solución al problema y que nece-siten un esfuerzo computacional más pequeño que los algoritmos existentes, así como caracterizar su comportamiento para las clases de problemas que demanda la comunidad científica e industrial en general.

La investigación de algoritmos tanto exactos como heurísticos para resolver problemas de op-timización tiene una vigencia inusualmente im-portante en estos días, ya que nos enfrentamos a nuevos problemas de ingeniería al mismo tiempo que contamos con nuevos recursos computaciones tales como nuevos tipos de máquinas, redes y entornos como Internet.

(13)

Actualmente nos enfrentamos a problemas de alta complejidad en el que intervienen varias vari-ables con un conjunto de restricciones definidas sobre ellas, muchas veces contrapuestas, que deben ser consideradas para evaluar la factibilidad de la solución aportada, las cuales en muchos casos cambian dinámicamente [1]. En este sentido, las líneas de investigación de este proyecto se en-cargan de proponer, adaptar y analizar distintas metaheurísticas con el propósito de resolver eficaz y eficientemente diferentes problemas.

En una de las líneas se investiga la optimización del diseño de redes de distribución de agua, que es un campo de investigación muy activo desde hace algunas décadas. Estas redes están compuestas por reservorios y tuberías que tratan de brindarles a los usuarios un flujo constante de agua con una determinada presión. El problema de optimizar es-tas redes consiste en encontrar el diámetro óptimo de cada tubería seleccionándola de un conjunto limitado de caños disponibles comercialmente, con el objetivo de reducir el costo. En esta línea de investigación se están utilizando técnicas meta-heurísticas basadas en trayectoria y en población. En particular se están adaptando y probando dife-rentes algoritmos comoSimulated Annealing(SA), Cuckoo Search (CS), entre otros.

Otra línea de investigación se relaciona al uso de la Optimización Evolutiva en Espacios Dinámi-cos [2], para lo cual se utiliza un tipo de algoritmo heurístico que se conoce con el nombre de “Evolu-ción Diferencial" e inicialmente se experimenta con un problema que cambia sus restricciones en forma dinámica [3] y es complejo de resolver por el landscape que presenta, debiendo sortear zonas de soluciones no factibles. Particularmente se fijó como hipótesis de trabajo diseñar un mecanismo de reparación de soluciones no factibles para reem-plazarla por otras [4] localizadas en un contexto de vecindario delimitado por un distancia mínima.

Desarrollo

En esta sección se describen las dos líneas de investigación mencionadas en la introducción.

Optimización del diseño de redes de distribución de agua (Water Distribution Network Design Optimization WDND)

Se requiere un método de solución eficaz que sea confiable y fácil de usar para la optimización de las WDND, que proporcionan un servicio esencial en todas las comunidades. La optimización no solo aborda los costos de capital y operativos junto con el rendimiento y la confiabilidad hidráulica, sino también la gestión competente de la energía. En consecuencia, las metaheurísticas brindan, una vez más, una alternativa de solución eficiente. Por este motivo, en esta línea de investigación se analizan y diseña dos variantes metaheurísticas que resuelven este problema, SA y CS.

Dada las características propias de este tipo de redes, una vez que SA o CS arman una determinada solución, la prueban y evalúan por medio del simulador EPANET 2.0 [5]. Este simulador, además, resuelve todas las ecuaciones hidráulicas de forma externa. Los problemas que se utilizan para efectuar los experimentos son de período simple y multi período, en donde el patrón de demanda varía con el tiempo.

Optimización de Problemas con Restricciones Dinámicas

Un Problema de Optimización con Restricciones Dinámicas (DCOP - Dynamic Constrained Opti-mization Problem) puede ser visto como un prob-lema donde el espacio de búsqueda y la región de soluciones factibles cambia a lo largo del tiempo [6] [7]. Se han definido 4 variantes de DCOPs en función de si la función objetivo y las restricciones se mantienen estáticas o dinámi-cas a lo largo del tiempo [2]. Este problema lo hemos abordado con Algoritmos Evolutivos Diferenciales, ellos son identificados con la sigla DE, proveniente de su denominación anglosajona Differential Evolution (DE) [8]. Se trata de un algoritmo de búsqueda estocástica que opera con una población de soluciones denominadas vectores. La población está representada como: xi,G, i= 1. . . N P, donde xi,G representa el vector i en la generación G, y N P es el tamaño de la población de soluciones con las que realiza la evolución usando operadores específicos de mu-tación y crossover.

(14)

Una variante propuesta por Mezura Montes et al [9] para mejorar el algoritmo original introduce un mecanismo de reparación de soluciones no factibles usando un método de reparación basado sobre el operador de mutación diferencial que chequea su factibilidad y en caso de no serlo, se vuelve a aplicar el mencionado mecanismo mien-tras no supere una cantidadLimite_Reparaciono bien sea factible. El vector obtenido luego de ese proceso de reparación, sea o no factible, pasará a ser el vector obtenido para la próxima generación. El método de reparación sólo evalúa la factibilidad del vector en función de si cumple las restric-ciones, no por su calidad con lo cual se mantiene la diversidad genética.

A partir de ello estamos trabajando en la puesta a punto de una variante del método de reparación que consiste en buscar en el vecindario, circun-dante a la solución no factible, una solución factible para reemplazarla. La idea central del método es hacer prevalecer la localización del vector mutante generado y centrar la búsqueda de una solución vecina próxima a ella. La proximidad se fija con un parámetro δ que indica el desplaza-miento en cada uno de las dimensiones, estimando sea el método de reparación menos disruptivo en el proceso de búsqueda.

Resultados Obtenidos

A continuación se detallan los resultados obtenidos para la primera línea de investigación mencionada, ya que el desarrollo de las variantes del mecanismo de reparación para el Problema de Optimización con Restricciones Dinámicas se encuentra en la fase de recolección de resultados. Para resolver el problema WDND experimen-tamos con dos metaheurísticas, SA y CS, con respecto al CS fue desestimado, luego de efectuar diversos experimentos, ya que obtuvimos resulta-dos de pobre calidad, sobre todo con el tiempo de resolución del algoritmo, este motivo está justifi-cado por ser poblacional y la cantidad de evalua-ciones contra los restantes algoritmos comparados es muy superior. Por otra parte adaptamos un algoritmo SA al cual le incorporamos diversos mecanismos para intensificar la búsqueda local por cada paso. Denominamos nuestra propuesta Hybrid

Simulated Annealing(HSA) y consiste en tomar en cada iteración, una solución factible y aplicarle el método de búsqueda local MP-GRASP [10] que reemplazará a la solución inicial en función de un método de selección voraz. Luego se genera otra solución a partir de la inicial aplicando un operador de mutación para obtener una solución vecina y poder explorar otras áreas del espacio de búsqueda, esta solución puede ser aceptada en función de una probabilidad de Boltzmann, que depende de la temperatura actual. De esta forma con temperaturas altas se favorece la exploración, en contraste con una temperatura baja en donde se hace una búsqueda intensiva en alguna región prometedora. La temperatura se actualiza con el método de enfriado proporcional [11], aplicada luego de un número de iteraciones determinadas por la longitud de la cadena de Markov. Nuestros resultados fueron comparados con los resultados obtenidos en [10] y pudimos mejorar los resul-tados en un 60 % de las instancias, además de obtener una convergencia mucho más rápida hacia las mejores soluciones.

En la actualidad se están probando diferen-tes variandiferen-tes para mejorar los resultados de este problema, sobre todo centrándonos en el aspecto dinámico, ya que es más representativo de las necesidades reales del campo de aplicación de estas redes. Una metaheurística como la evolución diferencial [12] reúne estas características y nos encontramos en la actualidad recabando informa-ción para determinar la factibilidad de aplicar esta técnica.

Formación de Recursos Humanos

Cada año se incorporan al proyecto alumnos avanzados en la carrera Ingeniería en Sistemas, quienes trabajan en temas relacionados a la res-olución de problemas de optimización usando téc-nicas inteligentes, con el objeto de guiarlos en el desarrollo de sus tesinas de grado y, también, de formar futuros investigadores científicos. Por otra parte, los docentes-investigadores que integran el proyecto realizan diversos cursos de posgrado relacionados con la temática del proyecto, con el objetivo de sumar los créditos necesarios para cursar carreras de posgrado.

(15)

REFERENCES

[1] “Immune generalized differential evolution for dynamic multi-objective environments: An empirical study,” Knowledge-Based Systems, vol. 142, pp. 192 – 219, 2018.

[2] M.-Y. Ameca-Alducin, E. Mezura-Montes, and N. Cruz-Ramírez, “Dynamic differential evolution with combined variants and a repair method to solve dynamic constrained optimization problems: an empirical study,”Soft Computing, vol. 22, no. 2, pp. 541–570, Jan 2018. [Online]. Available: https://doi.org/10.1007/s00500-016-2353-1

[3] K. Deb, Multi-Objective Optimization Using Evolutionary Algorithms, ser. Wiley Interscience Series in Systems and Optimization. Wiley, 2001. [Online]. Available: https://books.google.com.ar/books?id=OSTn4GSy2uQC [4] M. Gen and R. Cheng, Genetic Algorithms

and Engineering Design, ser. A Wiley Inter-science publication. Wiley, 1997. [Online]. Available: https://books.google.com.ar/books?id=MCHCaJAHFJAC [5] Users Manual, 2000.

[6] T. T. Nguyen and X. Yao, “Continuous dynamic constrained optimization—the challenges,”IEEE Transactions on Evolu-tionary Computation, vol. 16, no. 6, pp. 769–786, Dec 2012. [7] E. Juárez-Castillo, N. Pérez-Castro, and E. Mezura-Montes, “An improved centroid-based boundary constraint-handling method in differential evolution for constrained optimization,” International Journal of Pattern Recognition and Artificial Intelligence, vol. 31, no. 11, p. 1759023, 2017. [Online]. Available: https://doi.org/10.1142/S0218001417590236 [8] K. Price, R. Storn, and J. Lampinen,Differential Evolution:

A Practical Approach to Global Optimization.

[9] E. Mezura-Montes, M. E. Miranda-Varela, and R. del Carmen Gómez-Ramón, “Differential evolution in constrained numer-ical optimization: An empirnumer-ical study,”Inf. Sci., vol. 180, pp. 4223–4262, 2010.

[10] A. De Corte and K. Sörensen, “An iterated local search algorithm for water distribution network design optimization,” Network, vol. 67, no. 3, pp. 187–198, May 2016.

[11] S. Kirkpatrick, C. G. Jr, and M. Vecchi, “Optimization by simulated annealing,”Science, no. 220, pp. 671–680, 1983. [12] P. K. Storn, R., “Differential evolution—a simple and efficient

adaptive scheme for global optimization over continuous space,”Technical Report TR-95-012, 1995.

(16)

Aplicación de minería de datos en la extracción de perfiles de deserción estudiantil sobre ingresantes de la UTN FRLP

ISTVAN, Romina; LASAGNA, Valeria

Universidad Tecnológica Nacional, Facultad Regional La Plata Laboratorio de Ingeniería en Sistemas de Información, LINES Av. 60 s/n° esquina 124, CP 1900, La Plata, Buenos Aires, Argentina.

[email protected]; [email protected]

RESUMEN

El presente proyecto plantea como objetivo la identificación de los diferentes factores que influyen en la deserción estudiantil, con el fin de caracterizar y extraer los perfiles de los estudiantes desertores. Se espera así, generar un conjunto de indicadores de detección temprana de problemáticas del aprendizaje y dificultades en el trayecto inicial de formación académica. Para tal fin, la investigación explora la capacidad de la técnica Minería de Datos como una alternativa útil para encontrar información derivada a partir de la detección de patrones de atributos individuales, tomando como caso de estudio a los ingresantes y aspirantes a las carreras brindadas por la Universidad Tecnológica Nacional Facultad Regional La Plata.

Palabras clave: Deserción Estudiantil, Deserción Universitaria, Minería de Datos Educacional, Indicadores de Deserción, Indicadores de Riesgo de Deserción.

CONTEXTO

En Argentina, el fenómeno de la deserción estudiantil universitaria cobra especial interés en las carreras de Ingeniería. La evolución de la industria y una creciente vinculación entre empresas y universidades, hacen que estas carreras sean esenciales para consolidar el desarrollo industrial, económico y científico del país (PEFI, 2012). Con el fin de aumentar los

egresados en estos campos, las carreras de Ingeniería se encuentran enmarcadas dentro del Plan Estratégico de Formación de Ingenieros 2012-2016.

El plan tiene tres ejes principales, el primero de ellos se centra en los Proyectos de Mejoramiento de Indicadores Académicos, y reúne distintas estrategias con las que intenta incrementar la cantidad de graduados en ingeniería en un 50% en 2016 y en un 100% en 2021, con relación al año 2009. En concordancia con este plan y para atender a las demandas sociales y propias de la institución, la UTN-FRLP se encuentra actualmente trabajando en el Proyecto de Investigación y Desarrollo (PID): “Estudio Sistemático de Deserción Estudiantil Universitaria (ESDEU)”, el cual tiene como objetivo final el desarrollo e implementación un sistema de gestión tutorial, con el fin de elevar la tasa de graduación en cada una de las especialidades que brinda (Del Giorgio & Istvan, 2016); dentro del cual nace la línea de investigación presentada en este trabajo.

El proyecto ESDEU se encuentra homologado y financiado por la Universidad Tecnológica

Nacional, UTN con el código

TEINNLP0003786.

1. INTRODUCCIÓN

Con el fin de poder definir los perfiles de los alumnos desertantes, la UTN FRLP utiliza los datos registrados en la base de datos académica,

(17)

perteneciente al sistema SysAcad provisto por Rectorado UTN, la cual dispone de un número importante de atributos personales y académicos; que actualmente se complementan principalmente con los datos almacenados en una fuente de datos externa, que contiene los registros de las Encuestas PEFI llevadas a cabo en el período 2013/2017. Estas encuestas, respondían al pedido de la Secretaría de Políticas Universitarias, enmarcadas dentro del Plan Estratégico de Formación de Ingenieros (PEFI, 2012) y se completaban a través de una plataforma web, de forma obligatoria por los mismos estudiantes. Recogían información complementaria, registrándose datos personales, laborales, familiares y económicos, como ser: Horas de Trabajo, Relación del Trabajo con la Carrera, Situación Económica de los Padres, Nivel de Instrucción de los Padres y Becas, entre otros.

De forma conjunta los datos académicos propios de la regional y las encuestas PEFI, conforman una base de atributos relevantes cuya disponibilidad constituye un importante activo en la institución, en la medida en que son transformados en información de interés, utilizando técnicas y métodos para definir el perfil de los estudiantes.

Para enriquecer la investigación se utilizan como métodos e instrumentos de apoyo las encuestas antes mencionadas y la técnica de Minería de Datos, cuyo fin es trabajar en la detección de relaciones entre variables de manera automática y patrones de comportamiento que indican las posibles causas de deserción estudiantil.

2. LÍNEAS DE INVESTIGACIÓN y DESARROLLO

La Minería de Datos formalmente reúne un conjunto de técnicas capaces de modelizar y resumir la información, facilitando su comprensión y ayudando a la toma de decisiones. Surge como un campo de la Estadística y las Ciencias de la Computación

dando respuesta al intento de descubrir patrones en conjuntos inmanejables de datos.

Esta técnica, basada en la extracción de conocimiento, está principalmente relacionada con el proceso de descubrimiento conocido como “Descubrimiento de Conocimiento en Bases de Datos” (KDD, por sus siglas en inglés), el cual se refiere al proceso no-trivial de descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en repositorios de información (Baldino & Lanzarini, 2016).

Las etapas correspondientes al proceso KDD que sigue son: selección de datos, preparación, limpieza, integración y transformación de datos, minería de datos (obtención de reglas de clasificación), interpretación y evaluación (confrontación y validación de modelos) (Istvan & Chong Arias, 2016).

En el caso puntual del fenómeno de deserción estudiantil, caracterizar a los estudiantes de una institución académica aporta información no trivial y de utilidad para la gestión, posibilitando el establecimiento de políticas tendientes a mejorar el desempeño académico de los alumnos; lo cual, redunda directamente en la reducción de la deserción universitaria (Lanzarini, 2015) promoviendo asimismo aportes sustanciales en el área de Tecnología Aplicada a la Educación.

3. RESULTADOS OBTENIDOS / ESPERADOS

Hasta el momento se han obtenidos perfiles para el grupo de estudiantes ingresantes a la institución en el período 2013/2015 (Istvan, 2016; Falco, 2017) y confrontados los mismos con el modelo de indicadores resultante para los alumnos en el período de ingreso 2016/2017 (Istvan & Lasagna, 2018).

Se ha logrado elaborar un estudio de las variables socioeconómicas y académicas que caracterizan a los ingresantes de la UTN Facultad Regional La Plata. Se puede afirmar

(18)

como conclusión, que los modelos convergen hacia los siguientes niveles de incidencia de los indicadores:

Entre los factores de incidencia alta se destaca: el Nivel de Instrucción de la Madre, la Situación Económica Familiar, el Aspecto Laboral y la Relación del Trabajo con la Especialidad.

Como factores de incidencia media se observa el Nivel de Instrucción del Padre y la Cantidad de Familiares a Cargo.

En menor medida, como factor de incidencia baja se presenta la Distancia a la Institución. Se plantea como trabajo futuro, ampliar los casos de estudio incorporando a los alumnos ingresantes en el período 2018/2019.

El equipo de desarrollo del proyecto trabaja desde el año 2014 en diversas áreas relacionadas con la deserción y caracterización de los estudiantes de la institución.

Actualmente forman parte del equipo un Director, un Coordinador, un Docente Investigador del Laboratorio de Ingeniería en Sistemas de Información (LINES), un Docente del Departamento de Ingeniería en Sistemas de Información (DISI) de la Universidad Tecnológica Nacional Facultad Regional La Plata, un investigador de apoyo, un tesista de postgrado, un graduado y dos alumnos becarios de investigación.

Cuenta con un plan de tesis de Maestría en Tecnología Informática Aplicada en Educación en curso y dos desarrollos de Prácticas Supervisadas (PS) de los estudiantes, necesarias para la obtención del título de grado de la carrera de Ingeniería en Sistemas de Información.

5. BIBLIOGRAFÍA

[1] Baldino, Guillermo; Lanzarini, Laura; Charnelli, María Emilia (2016); “Análisis del avance académico de alumnos universitarios. Un estudio comparativo entre la UTN-FRLP y la UNLP”; XI Congreso de Tecnología en Educación y Educación en Tecnología; ISBN: 978-987-3977-30-5; p. 589-596.

[2] Del Giorgio Paula; Ressel Ismain; Tutores: Istvan Romina, Falco Mariana, Chong Arias Carlos (2016); “Herramienta para la detección temprana de deserción estudiantil para la UTN FRLP - Diseño preliminar”, CONAIISI 4to Congreso Nacional de Ingeniería Informática, 17 y 18 de noviembre de 2016, UCASAL Universidad Católica de Salta.

[3] Falco Mariana, Istvan Romina, Antonini Sergio (2016); “Deserción Universitaria: Validación de Patrones Relacionales en los Alumnos de Primer Año”, CONAIISI 4to Congreso Nacional de Ingeniería Informática, 17 y 18 de noviembre de 2016, UCASAL Universidad Católica de Salta.

[4] Himmel Erika (2002); “Modelos de Análisis de la Deserción Estudiantil en la Educación Superior”; Revista Calidad de la Educación, Chile, 2002.

[5] Istvan Romina; Chong Arias Carlos; Antonini Sergio (2016); “Sistemas de indicadores de riesgo de deserción para la UTN-FRLP. Análisis sobre alumnos ingresantes en los años 2013/2015”, CYTAL 2016 – 7° Jornadas de Ciencia y Tecnología, 12 al 14 de octubre de 2016, UTN FRVM.

[6] Istvan Romina; Lasagna Valeria (2018); “Detección Temprana de Deserción Estudiantil para Aspirantes e Ingresantes de la UTN FRLP”, CYTAL 2018 – 8° Jornadas de Ciencia y Tecnología, 12 al 14 de septiembre de 2018, UTN FRVM.

(19)

[7] Lanzarini L, Charnelli E, Baldino G., Díaz J. (2015); “Selección de atributos representativos del avance académico de los alumnos universitarios usando técnicas de visualización. Un caso de estudio”; Revista TE&ET; no. 15. ISSN: 1850-9959. p. 42-50. 2015.

[8] PEFI Plan Estratégico de Formación de Ingenieros 2012/2016; Secretaría de Políticas Universitarias, Ministerio de Educación, Presidencia de la Nación Argentina; http://pefi.siu.edu.ar/, 2012. Accedido en abril de 2018.

[9] Tinto V. (2010). From theory to action: Exploring the institutional conditions for student retention. (J.C. Smart (ed.), Ed.) (Springer N). Higher education: Handbook of theory and research. doi: 10.1007/978-94-007-2950-6.

(20)

Aplicación de una arquitectura de red neuronal para el monitoreo de carga por métodos no invasivos (NILM) utilizando ciclos de activación de artefactos eléctricos en

el entrenamiento

Diego Cocconi*, Rebeca Yuan*, Micaela Mulassano*, Diego Ferreyra* Departamento de Ingeniería en Sistemas de Información / Electromecánica Universidad Tecnológica Nacional (UTN), Facultad Regional San Francisco

San Francisco (2400), Córdoba, Argentina

*{dcocconi, ryuan, mmulassano, dferreyra}@sanfrancisco.utn.edu.ar

Resumen

Con el objetivo de lograr identificar artefactos eléctricos utilizando redes neuronales a partir de una medida total de consumo de energía (técnica conocida como NILM, del inglés Non-Intrusive

Load Monitoring), en el presente trabajo se

plantea la evaluación de dos tipos de redes neuronales capaces de realizar tal tarea, contando como ejemplos de entrenamiento válidos para el aprendizaje con ciclos de activación de diferentes artefactos que ya fueron identificados por un algoritmo de detención desarrollado en trabajos anteriores.

Palabras Claves: NILM – consumo de

energía – ciclos de activación – aprendizaje automático – redes neuronales

CONTEXTO

El presente trabajo forma parte del proyecto de investigación I+D UTN CCUTNSF0004881 “Monitoreo

domiciliario utilizando redes neuronales a partir de una medición de energía totalizada (NILM)”. El mismo está

homologado como proyecto de investigación y desarrollo por la Secretaría de Ciencia, Tecnología y Posgrado de la Universidad Tecnológica Nacional (UTN). En el marco de dicho proyecto se propone implementar NILM mediante

aprendizaje automático (del inglés

machine learning) para el análisis del

consumo de energía en los hogares argentinos, a través de la utilización de redes neuronales artificiales.

1. INTRODUCCIÓN

Para identificar el consumo eléctrico de los diferentes artefactos en una vivienda existen dos formas de realizar la medición: [1-2]: (1) mediante la utilización de medidores independientes para cada artefacto y/o algún equipo central que recolecte la información; (2) la aplicación de Non-Intrusive Load Monitoring (NILM) [3] o Non-Intrusive (Appliance) Load Monitoring (NIALM o

NALM) [3-4], que podría traducirse como “monitoreo de carga no invasivo” o “monitoreo de carga por métodos no

invasivos”. NILM es una técnica computacional que, a partir de una medición total de consumo de energía, logra identificar los artefactos eléctricos individuales que se encuentran consumiendo la misma [5]; medir cada artefacto conlleva a un método más exacto que NILM en términos de resultados obtenidos, pero las desventajas como costos elevados, múltiples configuraciones de sensores y complejidad en la instalación favorecen el uso del NILM [6]. Un enfoque comúnmente utilizado para implementar NILM involucra las siguientes etapas: (1)

(21)

patrones; e (3) inferencia o aprendizaje automático [6].

El proyecto que se describe en este trabajo pretende abarcar las tres etapas. Para la primera parte, se está trabajando en una fase de prueba para la adquisición de datos y poder obtener muestras de diversos consumos en nuestra Facultad. La segunda etapa, que consiste en la extracción de patrones, ya ha sido implementada y ha producido los resultados esperados, descritos en un trabajo previo: [7]. La misma ha implicado identificar los datos de muestras de diversos artefactos individuales (que podrían ser ondas de voltaje y corriente, o potencia, como se observa en la Figura 1, la cual muestra las ondas de potencia instantánea de dos artefactos comunes: un lavarropas en la parte superior y una pava eléctrica en la parte inferior), con el objetivo de extraer métricas de potencia (potencia reactiva, potencia activa, potencia media, etc.), así como eventos de transición de estados (estados “encendido/apagado” u “ON/OFF”). Esta etapa tiene un impacto directo en siguiente fase de aprendizaje, pues permite obtener ejemplos de calidad para el entrenamiento de la técnica de aprendizaje automático. Si el conjunto de ejemplos no contiene buenos datos o datos de calidad, el aprendizaje posterior se verá afectado. Ante la falta de datos de muestreo locales, se ha decidido utilizar como punto de partida los datos proporcionados por el repositorio UK-DALE (su parte de baja frecuencia, con datos muestreados cada 6 segundos). El objetivo fue encontrar un algoritmo capaz de identificar los ciclos de activación (períodos durante los cuales los artefactos se encuentran consumiendo energía) de los distintos artefactos eléctricos medidos en forma individual, sin considerar ruidos, perturbaciones y señales de anomalía. Por

1_{http://jack-kelly.com/data/}

ejemplo, en la Figura 2 se puede apreciar un ciclo de activación de un lavarropas, en medio de dos grupos de interferencias, que deben ignorarse (en t1, entre t2 y t3, y en t8 y t9); los retornos a cero también constituyen situaciones que deben ignorarse, pues pueden confundirse con el final de un ciclo de activación y el comienzo de otro nuevo (t5 y t6). La Figura 3 muestra señales reales de este tipo de anomalías.

Figura 1: Consumo de dos artefactos eléctricos a través del tiempo, en baja frecuencia (6 segundos),

usando datos de origen del repositorio UK-DALE1_{. (a) Lavarropas. (b) Pava eléctrica.}

Figura 2: Onda de consumo de ejemplo, mostrando posibles perturbaciones [7]. Para la correcta extracción de los ciclos de activación de los artefactos, el grupo de investigación desarrolló un algoritmo de detección, el cual fue implementado y validado con los datos del repositorio

(22)

seleccionado, donde se parte de lecturas de potencia y tiempo de los artefactos (considerando baja frecuencia), y determina en tres pasos si una medición dada contiene (1) el inicio de un ciclo, (2) el final del mismo y (3) valores acordes entre inicio y fin. Es mediante la interacción de estas tres acciones que el algoritmo permite extraer el ciclo de activación completo de un artefacto.

Figura 3: Aspectos a tener en cuenta durante la

detección de ciclos de activación (datos del repositorio UK-DALE). (a) Perturbaciones (heladera). (b) Retornos a cero (lavavajillas).

Diseñado el algoritmo, se procedió a la implementación y prueba del mismo. Para ello, primeramente, se cargaron los valores del repositorio UK-DALE en una base de datos MySQL, debido a que los datos originales se encontraban en archivos de texto plano. Una vez transferidos a la base de datos, los valores pueden buscarse con mayor facilidad, para estudiar las mediciones de un día determinado, por ejemplo. Mediante una aplicación Java, la cual implementa el algoritmo, es posible: (1) seleccionar un período para obtener la medición (por ahora, es posible seleccionar períodos equivalentes a un día completo, por lo que la granularidad es de un día); (2) especificar el artefacto a

evaluar para encontrar los ciclos de activación; y (3) configurar los parámetros del algoritmo. Una vez especificada esta información, es posible graficar la medición y los ciclos de activación detectados, para determinar visualmente si dichos ciclos de activación son correctos. Los ciclos identificados brindan información acerca de los mismos: (1) su potencia media; (2) su potencia máxima; y (3) su duración [7]. La Figura 4 muestra dicho gráfico, con tres ciclos detectados para el caso de un lavarropas.

Figura 4: Vista del gráfico que muestra los resultados del algoritmo.

Mediante esta introducción se ha descripto el trabajo realizado en el transcurso del primer año del proyecto de investigación, se pretende ahora comenzar la última etapa del proyecto, que consiste en desarrollar la fase de aprendizaje automático mediante la evaluación y selección de una arquitectura apropiada de red neuronal y la integración de lo implementado en las tres fases.

2. LÍNEAS DE INVESTIGACIÓN Y DESARROLLO

Siguiendo la línea de investigación correspondiente a lo expuesto en este trabajo, se llevarán a cabo actividades relacionadas con las siguientes áreas temáticas:

 Ingeniería de software.

(23)

 Agentes y sistemas inteligentes.

3. RESULTADOS ESPERADOS

Tal como quedó expuesto, se lograron identificar los ciclos de activación de varios artefactos eléctricos y depurar la base de datos de muestras con el objetivo de contar con ejemplos consistentes para el entrenamiento de las herramientas de aprendizaje automático. La aplicación de aprendizaje automático busca el detectar el funcionamiento de cada artefacto eléctrico, con el objetivo a futuro de detección de distintas anomalías, como excesos injustificados de consumo o mal uso del artefacto.

Al contar con datos depurados, el tipo de aprendizaje que se pretende realizar será del tipo supervisado; esto significa que los datos deben encontrarse etiquetados. Se analizarán distintas estructuras de redes neuronales para el aprendizaje, pero se hará foco en: (1) redes

recurrentes y (2) redes autoencoder. Las

redes recurrentes trabajan con datos secuenciales (fundamental para los tipos de datos que se manejan) [8] y constituyen redes de retro-propagación (o del inglés,

backpropagation). Esta retro-propagación

le permite a la red generar y detectar patrones variantes en el tiempo. Dentro de las redes recurrentes, se analizará la red

Elman, que trabaja con dos funciones de

activación (tansigmosoidal en sus capas ocultas y una función lineal en su salida), lo que permite aproximar cualquier función (considerando el comportamiento discontinuo del funcionamiento de los artefactos) con cierta exactitud en base a la cantidad de neuronas en su capa oculta. Por otro lado, y buscando un tipo de aprendizaje relacionado con imágenes, se analizarán redes autoencoder, que pertenecen al conjunto de redes convolucionales, diseñadas para descubrir

características de imágenes [9], por medio

de operaciones no lineales. En este tipo de estructura la comunicación es hacia delante, pero no todas las neuronas de una capa oculta reciben la información de todas las neuronas de la capa anterior, lo que conduce a reducir el número de capas y de operaciones entre neuronas.

Con el estudio, implementación y comparación de estas dos estructuras, se buscará determinar cuál es la óptima para dar solución al problema.

El grupo de esta línea de investigación está conformado por docentes y alumnos de las carreras de Ingeniería en Sistemas de Información, Electrónica y Electromecánica. De los docentes involucrados en el proyecto, uno de ellos se encuentra realizando su carrera de Doctorado en Ingeniería, con mención en Sistemas de Información (en la UTN Facultad Regional Santa Fe), otro ha finalizado recientemente su Doctorado en Ciencias de la Ingeniería, con mención Ingeniería Eléctrica (en la Universidad Nacional de Río Cuarto) y dos se encuentran desarrollando sus tesis para las Maestrías en Ingeniería de Software y Calidad de Software (en la UTN Facultad Regional San Francisco), quienes a su vez dictan la cátedra Inteligencia Artificial (Ingeniería en Sistemas de Información) en la UTN Facultad Regional San Francisco.

Se prevé la capacitación y formación de recursos humanos, a través de cursos de actualización y posgrado en el área de estudio; la transferencia de conocimiento y resultados; y la posibilidad de brindar charlas informativas del desarrollo e implementación del proyecto a distintos sectores de la industria interesados y cátedras afines a la investigación.

(24)

5.BIBLIOGRAFÍA

[1] Dong, M., Meira, P. C., Xu, W. y Freitas, W. (2012). “An event window based load monitoring technique for smart meters”. IEEE transactions on smart grid, 3(2), 787-796.

[2] Ridi, A., Gisler, C. y Hennebert, J. (2014, Agosto). “A survey on intrusive load monitoring for appliance recognition”. Pattern Recognition (ICPR),

2014 22nd International Conference on

(pp. 3702-3707). IEEE.

[3] Bernard, T. y Marx, M. (2016, Mayo). “Unsupervised learning algorithm using multiple electrical low and high frequency features for the task of load disaggregation”. Proceedings of the 3rd

International Workshop on NILM,

Vancouver, BC, Canada (pp. 14-15). [4] Hart, G. W. (1992). “Nonintrusive appliance load monitoring”. Proceedings

of the IEEE, 80(12), 1870-1891.

[5] Kelly, J. y Knottenbelt, W. (2015, Noviembre). “Neural nilm: Deep neural networks applied to energy disaggregation”. Proceedings of the 2nd

ACM International Conference on Embedded Systems for Energy-Efficient Built Environments (pp. 55-64). ACM.

[6] Zoha, A., Gluhak, A., Imran, M. A. y Rajasegarar, S. (2012). “Non-intrusive load monitoring approaches for disaggregated energy sensing: A survey”.

Sensors, 12(12), 16838-16866.

[7] Cocconi, D., Yuan, R., Mulassano, M., Ferrero, N., Beltramone, M. y Biasco A. (2018). “Diseño de un algoritmo para la detección eficaz de ciclos de activación en la aplicación de monitoreo de carga por métodos no invasivos (NILM)” 6to

Congreso Nacional de Ingeniería en Informática / Sistemas de Información, Universidad CAECE. Mar del Plata,

Buenos Aires, Argentina.

[8] Contreras, W., Arichávala, M., y Jeréz, C. (2018). "Determinación de la presión máxima de compresión de un motor de encendido provocado basado en una red neuronal artificial recurrente". Ingenius. [9] Pusiol, P. D. (2014). "Redes Convolucionales en Compresión de Escenas". FAMAF- UNC, Córdoba.

(25)

Aprendizaje automático y análisis de autoría. Investigaciones con textos periodísticos argentinos

Mercado V1_{., Villagra A.}1_{, Errecalde M.}1,2 1_{Laboratorio de Tecnologías Emergentes (LabTEm)}

Instituto de Tecnología Aplicada (ITA) - Unidad Académica Caleta Olivia Universidad Nacional de la Patagonia Austral

2_{Laboratorio de Investigación y Desarrollo en Inteligencia Computacional (LIDIC)} Departamento de Informática - Universidad Nacional de San Luis

{vmercado, avillagra}@uaco.unpa.edu.ar, [email protected] RESUMEN

El análisis de autoría (AA) es un área de investigación que ha ganado interés creciente en los últimos años principalmente por sus potenciales (y actuales) aplicaciones en problemas de seguridad nacional e inteligencia, lingüística forense, análisis de mercados e identificación de rasgos de personalidad, entre otros. El AA se enfoca en la clasificación automática de textos basándose fundamentalmente en las elecciones estilísticas de los autores de los documentos, e incluye distintas tareas de análisis como, por ejemplo: a) la atribución de autoría, b) la verificación

de autor, c) la detección de plagios, d) la determinación del perfil del autor y e) la detección de inconsistencias estilísticas.

En este contexto, la línea de trabajo correspondiente a este trabajo de tesis de postgrado se propone el abordaje de dos tareas de AA, como lo son la identificación del sesgo

político y la atribución de autoría en

documentos periodísticos argentinos. Estas tareas de AA, serán complementadas con enfoques no-supervisados de aprendizaje automático como son el agrupamiento de

textos (clustering) y la modelización de tópicos.

Palabras clave: Análisis Automático de

Textos. Análisis de autoría. Determinación del perfil del autor. Identificación del sesgo político. Atribución de autoría. Análisis automático de documentos periodísticos.

CONTEXTO

Esta línea de trabajo se lleva a cabo en el Laboratorio de Tecnologías Emergentes (LabTEm), Instituto de Tecnología Aplicada (ITA) de la Unidad Académica Caleta Olivia de la Universidad Nacional de la Patagonia Austral, en el marco del Proyecto de Investigación 29/225 “Soluciones inteligentes para el desarrollo urbano sostenible” y particularmente en el marco del trabajo de tesis en la Maestría de Informática y Sistemas (MIS) de la Ing. Viviana Mercado.

1. INTRODUCCION

A partir de la disponibilidad de volúmenes inmensos de información en la Web, se reconoce cada día más el rol del

Aprendizaje Automático y la Extracción de Conocimiento a partir de los Datos como

herramientas fundamentales para hacer un uso adecuado y ventajoso de esta información. Esta tendencia crece día a día y se plantean nuevos escenarios relevantes como es el caso de Big Data, donde el contexto donde deben ser aplicados estos métodos es sumamente desafiante. En particular, un escenario que recibe creciente atención es el del Análisis

(automático) de Textos (AAT, text analytics) o aprendizaje automático con textos (machine

learning from text), lo cual resulta razonable si consideramos que gran parte de la información disponible en repositorios digitales, archivos de empresas y

(26)

organizaciones y la Web en general es de tipo textual.

El AAT surge de la interacción de 3 áreas principales: el Procesamiento del Lenguaje Natural, la Recuperación de la Información y el Aprendizaje Automático. El AAT incluye diversas tareas como el análisis de sentimiento/minería de opiniones, la extracción de información, la generación de resúmenes y el análisis de autoría (AA). El AA a su vez, comprende otras tareas más específicas como la determinación del perfil

del autor (DPA) y la atribución de autoría

(ATA). DPA es el área que identifica patrones compartidos por un grupo de gente y que aborda problemas de clasificación de acuerdo a la edad y género [Peersman et al., 2011, Schler et al., 2006, Argamon et al., 2009], nacionalidad, personalidad [Celli et al., 2014, Mairesse et al., 2007], orientación política [Abooraig et al.,2014, Conover et al.,2011, Malouf & Mullen, 2007], tendencias suicidas o depresivas, rasgos de personalidad, perfiles

de consumo y adicciones, de acosadores sexuales, etc. La DPA, es un tema muy

importante de investigación principalmente por sus potenciales (y actuales) aplicaciones en problemas de seguridad nacional e inteligencia, lingüística forense, análisis de mercados e identificación de rasgos de personalidad, entre otros. La ATA, por su parte, consiste en la atribución de un texto de autoría desconocida a uno de un conjunto de autores potenciales. Desde el punto de vista científico, esta tarea plantea varios desafíos interesantes ya que, a diferencia del análisis basado en los temas o tópicos de los textos, aquí se debe capturar información representativa de los estilos de escritura de los autores.

En este contexto, y como parte de un proyecto de tesis de postgrado, se ha propuesto el abordaje de dos tareas de AA, una de ATA y otra de DPA como lo son la atribución de

autoría y la identificación del sesgo político en documentos periodísticos argentinos. Estas

tareas de AA, serán complementadas con enfoques no-supervisados de aprendizaje automático como son el agrupamiento de

textos (clustering) y la modelización de

tópicos.

El resto de este artículo describe estas líneas de trabajo en la Sección 2 y los resultados esperados/obtenidos en la Sección 3.

2. LINEAS DE INVESTIGACION y DESARROLLO

En esta sección se describen las 3 líneas de investigación que se llevan a cabo como parte de esta tesis de postgrado, y que identificaremos de ahora en más como 1)

atribución de autoría en documentos periodísticos, 2) identificación del sesgo político en documentos periodísticos y 3) Análisis no supervisado de documentos periodísticos.

2.1. Atribución de autoría en documentos

periodísticos

La atribución de autoría (ATA) es una de las tareas principales dentro del análisis de

autoría (AA) [Stamatatos, 2009]. El AA se

enfoca en la clasificación automática de textos basándose fundamentalmente en las elecciones estilísticas de los autores de los documentos, e incluye distintas tareas de análisis como, por ejemplo: a) la atribución de autoría, b) la

verificación de autor, c) la detección de plagios, d) la determinación del perfil del autor y e) la detección de inconsistencias estilísticas. Los enfoques predominantes en

esta área están basados en el aprendizaje automático/de máquina supervisado. En pocas palabras, estos enfoques derivan, a partir de un conjunto de datos etiquetados (conjunto de entrenamiento) y un proceso inductivo de aprendizaje/entrenamiento, un clasificador que puede generalizar sus predicciones a otros datos no observados previamente. La representación clásica de los textos/documentos en estos casos, incluye tanto atributos basados en el contenido (palabras) como en el estilo de escritura de los autores.

Para el caso particular de llevar a cabo una tarea de ATA con documentos

(27)

periodísticos, el primer paso es la construcción de un “corpus” (colección de documentos) con los documentos de distintos periodistas. En nuestro caso, el foco fue en la recopilación de documentos de periodistas de reconocida adhesión a las políticas del gobierno Nacional en Argentina, en el período finalizado el 10 de Diciembre de 2015 y de documentos de periodistas que clara y abiertamente eran opositores a dichas políticas. Estos documentos, están originados en la información textual que dichos periodistas han hecho disponible en redes sociales, blogs, artículos en periódicos on-line, libros de investigación periodística, etc.

Así, la primera tarea fue identificar fuentes de información donde obtener textos periodísticos de Argentina, con una clara orientación política (oficialista vs opositor), como así también de los autores de los mismos. Posteriormente se procedió a recopilar toda esta información, compatibilizando los distintos formatos de los documentos (html, pdf, etc.) y generando un corpus con los textos “planos” de los mismos.

Para la ATA en documentos periodísticos analizaremos las particularidades que surgen para la identificación automática de autores, en aquellos contextos en donde los mismos tienen igual o diferente orientación política. En estos casos, se analizará cuáles son las “features” (estilográficas o de contenido) que son más relevantes para discriminar los distintos autores que pertenecen al mismo (o diferente) espectro político.

Como hipótesis de trabajo, se plantea que cuando la atribución de autoría se realice sobre la totalidad de los periodistas, tanto las características de contenido (palabras) como estilográficas serán relevantes. Sin embargo, cuando la atribución se restrinja a periodistas de la misma orientación política, el uso común de ciertas palabras y expresiones hará que los aspectos estilográficos tomen mayor relevancia para la identificación de los mismos.

2.2. Identificación del sesgo político en

documentos periodísticos

La identificación del sesgo político (ISP) en un texto o documento es una forma de

determinación del perfil del autor (DPA), otra

de las tareas principales del análisis de autoría (AA). La ISP, al igual que otras tareas de DPA como la detección de personas depresivas o con diversos rasgos de personalidad, pedófilos y suicidas es una tarea desafiante dentro del análisis automático de textos ya que involucra, en general, el uso de representaciones de los textos que capturen aspectos de contenido y estilográficos de sus autores.

En este contexto, un área particular dentro de la ISP es la que se orienta al estudio de la orientación política en textos escritos por periodistas, y que referiremos de ahora en más como textos periodísticos (TP). Como ya se explicó previamente, consideraremos como textos periodísticos a aquella información que un periodista publica en diversos medios como puede ser un blog personal, un artículo escrito en un medio masivo como un diario o bien el contenido expresado en un libro de su autoría.

La ISP ha sido realizada con textos generados por usuarios comunes de medios sociales como Twitter [Cohen & Ruths, 2013], aunque más recientemente se ha realizado con los documentos producidos por periodistas [Lazaridou & Krestel, 2016]. Sin embargo, estos textos han sido escritos mayoritariamente en inglés o en otros idiomas, no existiendo, de acuerdo a nuestro conocimiento, estudios sobre ISP de documentos periodísticos en español.

En este trabajo realizaremos una primera aproximación a la ISP en textos periodísticos en español, en particular, de textos generados por periodistas argentinos como ya fue explicado en la sección previa. La tarea en este caso, será agrupar todos los documentos de periodistas “oficialistas” por un lado y “opositores” por el otro y convertir el problema de clasificación en uno de clasificación binaria (“oficialista” vs “opositores”).