Un asistente inteligente para derivar escenarios de atributos de calidad en arquitecturas de software

(1)

Tesis de Grado

Universidad Nacional del Centro de la

Provincia de Buenos Aires

Un Asistente Inteligente para derivar Escenarios de

Atributos de Calidad en Arquitecturas de Software

Kevin Ruau

Director: Dr. Alejandro Rago

Co-Directora: Dra. Claudia Marcos

(2)

´

_Indice

1. Introducci´on 7

1.1. Problem´atica de los Escenarios de Calidad . . . 8

1.2. ScenariosTool . . . 10

1.3. Esquema General . . . 13

2. Conceptos Te´oricos Relacionados 15 2.1. Arquitecturas de Software . . . 15

2.1.1. Estructura de M´odulos . . . 16

2.1.2. Estructura de Componentes y Conectores . . . 16

2.1.3. Estructura de Alocaci´on . . . 17

2.1.4. Ejemplo de Arquitectura de Software . . . 17

2.2. Atributos de Calidad . . . 19

2.2.1. Performance . . . 21

2.2.2. Disponibilidad . . . 21

2.2.3. Modificabilidad . . . 21

2.2.4. Seguridad . . . 22

2.2.5. Usabilidad . . . 22

2.2.6. Testeabilidad . . . 22

2.3. Escenarios de Atributos de Calidad . . . 23

2.4. M´etodos de Desarrollo y Evaluaci´on de Arquitecturas de Soft-ware . . . 25

2.4.1. Attribute Driven Design . . . 25

2.4.2. Architecture Trade-off Analysis Method . . . 26

2.4.3. Quality Attribute Workshop . . . 27

2.5. Inteligencia Artificial . . . 28

2.5.1. Machine Learning . . . 29

2.5.2. Natural Language Processsing . . . 30

2.5.3. Redes Neuronales . . . 30

(3)

3. Trabajos Relacionados 34

3.1. Aprendizaje Supervisado . . . 34

3.1.1. El Dise˜no de Arquitecturas de Software . . . 34

3.1.2. Identificaci´on y Clasificaci´on de Requerimientos No Fun-cionales . . . 36

3.2. Aprendizaje No Supervisado . . . 38

3.2.1. Duplicaci´on de Funcionalidad: ReqAligner . . . 39

3.2.2. Definici´on de Requerimientos No Funcionales . . . 40

3.3. Conclusiones . . . 42

4. Derivaci´on de Escenarios de Atributos de Calidad con Sce-nariosTool 43 4.1. ScenariosTool . . . 44

4.2. Aprendizaje: Preprocesamiento y Generaci´on del Modelo . . . 47

4.2.1. Preprocesamiento . . . 48

4.2.2. Generador del Modelo con las Caracter´ısticas de las Palabras . . . 51

4.3. Razonamiento Arquitect´onico . . . 55

4.3.1. Recomendaci´on de Partes de Escenarios de QA . . . . 56

4.4. Resumen . . . 61

5. An´alisis de Resultados 62 5.1. Procedimiento Experimental . . . 62

5.2. Configuraci´on de la Herramienta . . . 64

5.3. M´etricas . . . 65

5.4. Escenarios de Atributos de Calidad Individuales . . . 67

5.5. Escenarios del Mismo Atributo de Calidad en Conjunto . . . . 69

5.6. Escenarios de Atributos de Calidad en Conjunto . . . 72

5.7. Discusi´on de Resultados . . . 75

(4)

6.2. Limitaciones . . . 78 6.3. Trabajos Futuros . . . 79

7. Bibliograf´ıa 81

(5)

´

_{Indice de Figuras}

1.1. Enfoque simplificado . . . 12

2.1. Estructura de M´odulos . . . 16

2.2. Estructura de Componentes y Conectores . . . 17

2.3. Estructura de Alocaci´on . . . 18

2.4. Soluci´on de KeyWord in Context con arquitectura Pipes and Filters . . . 19

2.5. Partes de un escenario de atributo de calidad . . . 23

2.6. Variantes gen´ericas de un escenario de disponibilidad . . . 24

2.7. Escenario de disponibilidad . . . 25

2.8. Pasos de ADD . . . 27

2.9. Ejemplo de ´arbol de utilidad . . . 28

2.10. Pasos de QAW . . . 29

2.11. Modelo de Continuous Bag of Words . . . 32

2.12. Modelo de Skip-Gram . . . 33

3.1. Enfoque basado en CBR . . . 35

3.2. Acercamiento semi-supervisado para la clasificaci´on de reque-rimientos no funcionales . . . 37

3.3. Acercamiento supervisado para la clasificaci´on de requerimien-tos no funcionales . . . 38

3.4. Esquema de la herramienta ReqAligner para la especificaci´on de casos de uso . . . 40

3.5. Esquema de funcionamiento . . . 41

4.1. Esquema de funcionamiento . . . 46

4.2. Interfaz gr´afica de la herramienta . . . 47

4.3. Componente de Preprocesamiento . . . 49

4.4. Red neuronal de word2vec . . . 53

4.5. Ejemplo sobre recomendaci´on por analog´ıa . . . 58

4.6. Ejemplo del segundo resultado de la Figura 4.7 . . . 59

(6)

(7)

´

_{Indice de Tablas}

1. Comparaci´on entre procedimientos experimentales . . . 64

2. Escenarios preexistentes de Disponibilidad . . . 84

3. Escenarios preexistentes de Modificabilidad . . . 85

4. Escenarios preexistentes de Performance . . . 85

5. Escenarios preexistentes de Seguridad . . . 86

6. Escenarios preexistentes de Testeabilidad . . . 87

7. Escenarios preexistentes de Usabilidad . . . 87

(8)

1. Introducci´

on

Durante el diseño de un sistema de software, los arquitectos son respon-sables de tomar decisiones claves del desarrollo y plasmarlas en documentos arquitectónicos, con el objetivo de que las mismas sean tenidas en cuenta cuando se materialice el sistema. Un aspecto relevante de estas decisiones es que responden a determinados atributos de calidad del sistema, esenciales para que el producto desarrollado satisfaga las necesidades del cliente. Los atributos de calidad, como pueden ser Performance, Disponibilidad, Modifi-cabilidad, Seguridad, Usabilidad, etc., son requerimientos no funcionales que referencian caracter´ısticas de calidad o restricciones de un sistema [5]. En el caso de los atributos de calidad, los mismos son analizados y especifica-dos por un arquitecto con el fin de elegir una arquitectura de software que los satisfaga correctamente. La correcta identificación y consideración de los atributos de calidad en el diseño de un sistema se relacionan directamente con el éxito o fracaso del mismo. Si los atributos de calidad de un sistema no son considerados durante su diseño, es posible que el producto desarrollado no logre satisfacer adecuadamente las necesidades de los stakeholders. Por ejemplo, si las restricciones deSeguridad de un sistema bancario no se consi-deran en profundidad, el mismo podr´ıa sufrir ataques y generar pérdidas de dinero.

(9)

1.1. Problem´

atica de los Escenarios de Calidad

Si bien los escenarios de calidad proveen un mecanismo para la especi-ficación de requerimientos no funcionales, los mismos no son utilizados de manera frecuente [7]. Esto se debe principalmente a la dificultad que se pre-senta para especificarlos, ya que para ello se necesita que el arquitecto posea amplia experiencia y conocimiento en cada atributo de calidad particular. Por lo general, este tipo de información de los atributos de calidad suele documentarse de forma parcial y entremezclada con las especificaciones fun-cionales del sistema [7]. Si esto ocurre, puede haber consecuencias negativas durante la construcción del sistema y su posterior mantenimiento. Por ejem-plo, supóngase que un equipo de assessment arquitectónico quisiera evaluar el diseño de un sistema para encontrar cuellos de botella en la Performance. Sin embargo, si los arquitectos han definido los atributos de calidad de Per-formance de forma vaga y ambigua, es posible que los tiempos de respuesta esperados no estén expl´ıcitamente definidos en la documentación, dificul-tando el análisis de la arquitectura en tiempo de ejecución. Por otro lado, supóngase que se requiere agregar nueva funcionalidad al sistema. En este caso, puede que cierta información con respecto a cuán rápida o segura debe ser la misma no sea tenida en cuenta. Si esto sucede, la nueva funcionali-dad puede no resultar útil para el usuario ya que se realiza de forma muy lenta, o es vulnerable a ataques indeseados. Además, en el caso de conocer las caracter´ısticas de Performance y Seguridad deseadas por el cliente, es posible encontrar tradeoffs arquitectónicos que no se aprecian fácilmente y que pueden ser analizados tempranamente mediante el uso de escenarios de atributos de calidad [18].

(10)

guia-dos por atributos de calidad en arquitecturas SOA, utilizando una técnica que recupera soluciones que hayan sido útiles para problemas similares al que se intenta resolver. Estas soluciones abarcan distintos documentos de di-seño de arquitecturas de software que deben ser clasificados detalladamente por expertos para cumplir criterios de búsqueda. En [11] y [14] se intenta resolver la problemática de identificación y clasificación de requerimientos no funcionales con dos propuestas diferentes. Por un lado, en [11] es nece-saria la intervención de expertos que realicen un preprocesamiento manual de un subconjunto de los datos para que los mismos sirvan posteriormente para clasificar datos nuevos. A partir de estas clasificaciones se confecciona un clasificador de requerimientos no funcionales. Además, en [11] es nece-sario obtener un feedback sobre resultados brindados por la propuesta para mejorar su rendimiento. Por otro lado, en [14] es necesaria la intervención de expertos para clasificar la totalidad de los datos, lo que requiere un gran tiempo de preprocesamiento para la utilización del enfoque. En [28] se pro-pone una alternativa para poder resolver otro problema de la etapa de diseño de un sistema, relativo a la duplicación de funcionalidad en la especificación de los requerimientos. Par lograr esto, se una analog´ıa entre requerimientos de un sistema y cadenas de ADN para identificar patrones repetidos. En esta propuesta no es necesaria la intervención rigurosa de expertos, por lo que presenta una ventaja con respecto a las propuestas mencionadas anterior-mente. Sin embargo, la misma no se centra en la especificación de atributos de calidad. Por último, en [15] se aborda la especificación de atributos de calidad, donde es necesaria la intervención de un experto que defina detalla-damente caracter´ısticas de diferentes atributos de calidad para poder especi-ficarlos. Esta propuesta requiere contar con expertos con mucha experiencia y conocimiento sobre diversos atributos de calidad, y no es flexible ante la incorporación de nuevos atributos de calidad.

(11)

suelen aplicar enfoques supervisados que requieren información etiquetada manualmente, la cual raramente está disponible de antemano. Además, la información utilizada por los algoritmos tradicionales necesita ser preproce-sada cuidadosamente para que los mismos produzcan resultados aceptables. Sin embargo, mediante los avances recientes en materia de Inteligencia Ar-tificial y Machine Learning, es posible superar estas limitaciones y construir herramientas capaces de asistir el trabajo de un arquitecto de software du-rante la etapa de especificación de los escenarios de calidad. Particularmente, es viable efectuar el procesamiento de una gran cantidad de información sin que la misma sea adaptada y clasificada por expertos para que los algoritmos tengan un desempeño aceptable. Una de las nuevas tecnolog´ıas que permite realizar esto es word2vec [2]. Dicha tecnolog´ıa permite procesar una gran cantidad de texto de tal forma de obtener una representación vectorial de las palabras que lo componen. De esta forma, se puede reducir el tiempo de diseño de un sistema mediante la asistencia a arquitectos que no tengan experiencia suficiente o arquitectos experimentados que quieran verificar las decisiones que tomaron previamente.

1.2. ScenariosTool

(12)

caso, no se especifica en cuánto tiempo se debe recuperar de la falla interna producida. Un aspecto interesante del enfoque es que se utilizan escenarios de referencia para direccionar la búsqueda de las partes incompletas de los escenarios. Dichos escenarios de referencia se encuentran con todas sus partes especificadas detalladamente y son brindados por un experto una única vez. El enfoque presentado se divide en dos etapas (Figura 1.1). La prime-ra etapa de Aprendizaje tiene como objetivo aprender relaciones entre las diversas partes de los escenarios de atributos de calidad. El experto es el en-cargado de seleccionar diversos textos relativos a la Ingenier´ıa de Software, que conforman la entrada de esta primera etapa del enfoque. Como salida, se produce unasset denominadomodelo, el cual contiene las relaciones entre las partes de los escenarios de calidad. Por ejemplo, la palabra internal es la fuente de un escenario y está relacionada con la palabra recover que re-presenta la respuesta de un escenario. La segunda etapa de Razonamiento

tiene como objetivo identificar las partes ausentes en un escenario median-te el análisis de las palabras almacenadas en el modelo y la exploración de analog´ıas con escenarios de referencias (que contienen las partes faltantes). Como entrada de esta etapa, un arquitecto ingresa un escenario parcial so-bre el cual quiere obtener sugerencias de partes faltantes. Como salida, se producen sugerencias sobre partes faltantes del escenario parcial ingresado. Por ejemplo, supóngase que un arquitecto cuenta con un escenario de Dispo-nibilidad que tiene como fuente el concepto internal y del cual no conoce la respuesta. En este caso, a partir de un escenario de referencia y la utilización del modelo se podr´ıa inferir la respuesta que el arquitecto necesita. Para rea-lizar esto, se establece una relación entre la fuente del escenario parcial del arquitecto (internal) y la fuente del escenario de referencia. Dicha relación debe ser análoga para la parte respuesta de los escenarios. Esta relación entre las partes respuesta de los escenarios es trasladada al modelo para obtener la parte respuesta faltante. Finalmente, las sugerencias obtenidas son brindadas al arquitecto.

(13)

Sce-Figura 1.1: Enfoque simplificado

nariosTool. Dicha herramienta fue implementada en Java, y cuenta con una interfaz gráfica que facilita su utilización. A partir de la interfaz gráfica, el experto puede generar un modelo mediante la selección de una fuente de conocimiento y cargar escenarios de referencia. Por otro lado, un arquitecto que utiliza la herramienta puede ingresar un escenario parcial para obtener sugerencias sobre partes faltantes del mismo. Dichas sugerencias se presen-tan en forma de lista, junto a la posibilidad de examinar los escenarios de referencia que se encuentran cargados.

(14)

utilizaci´on de los escenarios de referencia completos del mismo atributo de ca-lidad utilizados en conjunto, los resultados fueron muy buenos, permitiendo que la herramienta arroje sugerencias correctas con unaconfianza de 49.3 %. Por ´ultimo, con respecto a los escenarios de referencia completos de cualquier atributo de calidad utilizados en conjunto, los resultados obtenidos no fueron satisfactorios, obteniendo una confianza de 23.8 %.

El trabajo realizado presenta diferentes contribuciones al campo de la Ingenier´ıa de Software e Inteligencia Artificial. Primero, se desarrolló una herramienta que permite asistir a un arquitecto durante la especificación de escenarios de atributos de calidad de un sistema. Segundo, se usó la tecnolog´ıa

word2vec en un dominio nuevo, obteniendo buenos resultados para identi-ficar relaciones entre las partes de escenarios de calidad. Otra contribución es la extensión de la analog´ıa realizada entre las representaciones vectoriales de las palabras a múltiples vectores, aprovechando la estructura de 6 partes de los escenarios. A partir de dicha extensión es posible alcanzar resultados más precisos y útiles para el arquitecto de software que utiliza la asistencia de la herramienta.

1.3. Esquema General

El esquema general de este trabajo se organiza de la siguiente manera. En elCap´ıtulo 2se presentan conceptos teóricos relativos a arquitecturas de software y atributos de calidad. Además, se realiza una descripción de diferentes técnicas de Inteligencia Artificial utilizadas en este trabajo.

En elCap´ıtulo 3se describen diversos enfoques propuestos para resolver el problema de la especificación de escenarios de atributos de calidad. Estos enfoques se dividen en dos grupos según utilicen técnicas de aprendizaje supervisado o no supervisado.

(15)

En el Cap´ıtulo 5 se presentan los resultados de la evaluaci´on realizada a ScenariosTool. Primero, se describen las preguntas de investigaci´on junto a los procedimientos experimentales realizados. Luego, se analizan y comparan los resultados obtenidos.

(16)

2. Conceptos Te´

oricos Relacionados

En este cap´ıtulo se presentan los conceptos principales que se utilizan a lo largo del desarrollo de este informe. Inicialmente, se hará énfasis en los conceptos de Arquitectura de Software, Atributos de Calidad, Esce-narios de Calidad. Luego, se introducirán Métodos de Desarrollo y Evaluación de Arquitecturas de Software. Finalmente, se explicarán distin-tos concepdistin-tos relativos a laInteligencia Artificial, debido a que los mismos suelen aplicarse para automatizar el proceso de definición de una Arquitec-tura de Software.

2.1. Arquitecturas de Software

En el desarrollo de sistemas de software, una Arquitectura es el conjunto de estructuras de software necesarias para razonar sobre un sistema, com-prendiendo elementos de software, sus relaciones y propiedades de los mismos [1][7]. Durante la construcción de la arquitectura, se deben tomar decisiones de diseño y plasmarlas en documentos arquitectónicos, como puede ser el Software Architecture Document, que contendrá información relevante sobre el funcionamiento y la arquitectura del sistema. Dichos documentos son cons-truidos con el objetivo de que las decisiones de diseño sean tenidas en cuenta cuando se materialice el sistema.

(17)

2.1.1. Estructura de M´odulos

Un sistema puede ser particionado en unidades de implementación, deno-minadas módulos. Para dividir las tareas durante el desarrollo, las responsa-bilidades funcionales son asignadas a módulos espec´ıficos. Esto permite, por ejemplo, la posibilidad de que un módulo sea desarrollado por un equipo de trabajo y otro módulo diferente sea desarrollado por otro equipo distinto. Las estructuras de módulos son estáticas, debido a que se focalizan en cómo se divide la funcionalidad del sistema [1]. En la Figura 2.1 se puede ver una estructura de módulos de una arquitectura Cliente-Servidor. En este caso, el tanto el Cliente como el Servidor son módulos del sistema.

Figura 2.1: Estructura de M´odulos

2.1.2. Estructura de Componentes y Conectores

(18)

se comunica con dos Clientes, permitiendo el intercambio de información. Cuando un Cliente necesita comunicarse con el Servidor, hace una petición al mismo, el cual generará una respuesta que es enviada al Cliente que la solicitó. El Servidor provee servicios a través de sus interfaces, y los Clientes utilizan las mismas para enviar peticiones al servidor.

Figura 2.2: Estructura de Componentes y Conectores

2.1.3. Estructura de Alocaci´on

La estructura de alocación describe la relación entre las estructuras del sistema y los ambientes de organización, desarrollo, instalación y ejecución en los que se encuentra. Por ejemplo, los componentes del sistema son uti-lizados en un cierto hardware para poder funcionar, y esta situación puede ser descrita mediante una estructura de alocación [1]. La Figura 2.3 muestra dos componentes, el Cliente y el Servidor, que son alojados en dos compu-tadoras f´ısicas, Computadora del Cliente y Computadora del Servidor, que se comunican a través de Internet.

2.1.4. Ejemplo de Arquitectura de Software

Para poder comprender mejor las diferentes estructuras, se describirá una posible solución al problema que analizó Parnas en [16]. El problema con-sist´ıa del siguiente enunciado:

(19)

ve-Figura 2.3: Estructura de Alocaci´on

ces, quitando la primera palabra y añadiéndola al final de la l´ınea. El sistema de KWIC tiene como salida un listado, ordenado alfabéticamente, de todos los posi-bles desplazamientos circulares de todas las l´ıneas.”

Una posible solución al problema se presenta en el diagrama de com-ponentes y conectores de la Figura 2.4, donde se observa que mediante la utilización de distintos filtros y comunicación entre ellos es posible ir modifi-cando los datos de entrada hasta llegar a la solución final. La arquitectura de software utilizada para resolver el problema es comúnmente conocida como

(20)

Puntualmente, los filtros realizan las siguientes transformaciones. Una serie de “Datos de entrada” serán entregados al filtro “Entrada”, que será el encargado de iniciar el proceso de transformación de los datos. El filtro “Desplazamiento Circular” permite, como su nombre lo indica, mover las oraciones entregadas por el filtro “Entrada” en forma circular, de tal forma que puedan ser ordenadas alfabéticamente por el filtro “Ordenador”. Por ´

ultimo, el filtro “Salida” prepara las sentencias ordenadas para que puedan ser almacenadas en un medio f´ısico como “Datos de salida”. Los componentes encargados de realizar el pasaje de los datos entre los filtros son las tuber´ıas.

Figura 2.4: Soluci´on de KeyWord in Context con arquitectura Pipes and Filters

2.2. Atributos de Calidad

Los Atributos de Calidad (QA, Quality Attributes) hacen referencia a ciertos requerimientos no funcionales que el sistema debe satisfacer, adem´as de cumplir con los requerimientos funcionales [5]. Estos atributos de calidad pueden ser performance, disponibilidad, usabilidad, seguridad, entre otros.

(21)

importancia durante la etapa de diseño, debido a que ésta impactará directa o indirectamente sobre los atributos de calidad del sistema. Si las partes interesadas establecen distintas condiciones sobre atributos de calidad del sistema que se quiere construir, la arquitectura deberá ser elegida en función de la satisfacibilidad de dichas condiciones [7].

Los atributos de calidad pueden clasificarse en dos grupos [1]:

Observables en tiempo de ejecuci´on. Se puede apreciar su comporta-miento mientras que el sistema est´a corriendo, por ejemplo, performan-ce, disponibilidad, seguridad, entre otros.

No observablesen tiempo de ejecuci´on. Se puede apreciar su compor-tamiento mientras se desarrolla y evoluciona el sistema, por ejemplo, modificabilidad, escalabilidad, entre otros.

Los atributos de calidad son independientes de la funcionalidad que un sistema tiene que realizar. Sin embargo, los mismos tienen un impacto en la forma en que se satisface dicha funcionalidad [1]. Por ejemplo, en un sis-tema bancario se deben poder realizar transferencias de una cuenta de un cliente del banco a otra cuenta. Si las partes interesadas en la utilización o comercialización del sistema indican que las transferencias bancarias deben ser procesadas por el sistema en un determinado lapso de tiempo, la funcio-nalidad no sufre variaciones, pero s´ı la forma en la que debe ser implementada para poder satisfacer las restricciones impuestas. En este caso, el atributo de calidadperformance debe ser considerado en el diseño de la arquitectura del sistema, de tal forma que la operación de realizar una transferencia sea hecha en un determinado lapso de tiempo máximo.

(22)

2.2.1. Performance

Este atributo de calidad se refiere a la capacidad de realizar tareas cum-pliendo determinadas restricciones, como pueden ser velocidad, tiempo, entre otros. [9]. Sin embargo, esta definición es bastante general para ser utilizada en el ámbito de la Ingenier´ıa de Software. Por esta razón, en dicho ámbito se suele utilizar la definición de [18], donde se dice que la performance se refiere a larespuesta del sistema, ya sea en tiempo requerido para responder ante un determinado evento, o al número de eventos procesados en un determinado intervalo de tiempo.

2.2.2. Disponibilidad

Este atributo de calidad se refiere a la capacidad de un sistema de estar listo para ser utilizado [17]. Por lo general, está relacionado con las fallas que pueden ocurrir en un sistema (en tiempo de ejecución) y sus consecuencias. Una falla ocurre cuando los servicios provistos por un sistema no operan de acuerdo a su especificación. Dicha falla suele ser visible para los usuarios del sistema, o incluso para otros sistemas. Una vez que ocurre una falla, es importante intentar reparar el sistema para que pueda volver a estar dispo-nible para su uso. Por ejemplo, se puede necesitar que un sistema bancario esté funcionando las 24 horas del d´ıa, y en el caso que ocurra alguna falla y el sistema deje de funcionar, el restablecimiento del mismo ocurra en un determinado lapso máximo de tiempo.

2.2.3. Modificabilidad

(23)

bancario se quiere agregar la posibilidad de ofrecer descuentos a los clientes si se opera con tarjetas de débito, se deberá analizar qué partes del sistema son afectadas por la modificación, quién hará el cambio, cuánto esfuerzo costará dicho cambio, entre otros.

2.2.4. Seguridad

Este atributo de calidad se refiere a la protección de los datos del sistema contra su modificación, revelación o destrucción, además de la protección del sistema en s´ı mismo [17], para que no se altere su funcionalidad. En otras palabras, se relaciona con la habilidad del sistema de resistir intentos no au-torizados de uso o modificación de comportamiento, proveyendo al mismo tiempo servicio a usuarios leg´ıtimos. Por lo general, este atributo de cali-dad suele especializarse utilizando conceptos de confidencialicali-dad, integricali-dad, auditor´ıa, entre otros.

2.2.5. Usabilidad

Este atributo de calidad se refiere a la facilidad con la que un usuario pue-de aprenpue-der a utilizar e interpretar los resultados producidos por un sistema [17]. Para este atributo de calidad, se suelen considerar diversos aspectos de la interacción humano-computadora, tales como: aprendizaje del sistema, utilización eficiente del sistema, minimización del impacto de errores, adapta-ción del sistema a las necesidades del usuario, confianza y satisfacción, entre otros.

2.2.6. Testeabilidad

(24)

2.3. Escenarios de Atributos de Calidad

Para poder entender y comunicar los atributos de calidad, es necesario contar con un mecanismo que permita realizar una descripción detallada de los mismos. Para realizar dicha especificación, se utilizan los escenarios de atributos de calidad, los cuales permiten describir de manera formal los requerimientos no funcionales que deberá satisfacer el sistema [6]. Cada esce-nario está relacionado con un atributo de calidad en particular, por ejemplo, existen escenarios de calidad para performance, disponibilidad, usabilidad, entre otros. Los escenarios constan de seis partes bien definidas (Figura 2.5):

Est´ımulo: evento que afecta al sistema.

Fuente: la entidad que genera est´ımulo.

Ambiente: la condici´on bajo la cual ocurre el est´ımulo.

Artefacto: el artefacto del sistema que se ve estimulado.

Respuesta: la actividad que resulta del est´ımulo.

Medida de la Respuesta: la medida de la respuesta por la cual el sistema ser´a evaluado.

(25)

Los escenarios son importantes ya que permiten especificar los atributos de calidad a cada sistema en particular. Por ejemplo, si se quiere crear un escenario de calidad de disponibilidad concreto, cada una de las seis partes del escenario podr´ıa contener una de las posibles opciones mostradas en la Figura 2.6. Una vez decididas las partes correspondientes, es posible generar un escenario de calidad concreto para un requerimiento no funcional “Under normal operation, an internal fault causes the running process to crash. The system should recover from the failure in less than 1 minute”, como se ob-serva en la Figura 2.7.

Figura 2.6: Variantes gen´ericas de un escenario de disponibilidad

(26)

funcionales que deben ser analizados nuevamente para verificar la satisfaci-bilidad de los mismos.

Figura 2.7: Escenario de disponibilidad

2.4. M´

etodos de Desarrollo y Evaluaci´

on de

Arquitec-turas de Software

Existen varios métodos en la Ingenier´ıa de Software que utilizan el con-cepto de atributo de calidad y hacen uso de los escenarios para construir software con mejores cualidades. A continuación, se presentarán los métodos más utilizados. En primer lugar, se verá el método ADD, que utiliza esce-narios para diseñar una arquitectura. Luego, se verá el método ATAM que realiza una evaluación de la arquitectura, teniendo en cuenta los atributos de calidad que deber´ıa satisfacer. Por último, se verá el método QAW, que es utilizado en complemento con ATAM para determinar los atributos de calidad en etapas tempranas del diseño del sistema.

2.4.1. Attribute Driven Design

(27)

atributos de calidad [6]. Este método sigue un proceso de descomposición re-cursiva donde, en cada etapa de la descomposición, tácticas y patrones arqui-tectónicos son elegidos para satisfacer un conjunto de escenarios de atributos de calidad [6]. En la Figura 2.8 se pueden observar los diferentes datos de en-trada (Requerimientos funcionales, Restricciones de diseño y Requerimientos de atributos de calidad) que utiliza el método para poder generar la salida (documento que contiene el Diseño de la arquitectura de software). El m´ eto-do consta de 8 pasos, eto-donde primeramente se confirma que haya la cantidad suficiente de información sobre requerimientos para poder empezar a aplicar el método. Seguido a esto, se iteran seis pasos hasta que sea necesario finalizar el proceso. Los seis pasos que se iteran son: 2) Elegir un elemento del siste-ma a descomponer, 3) Identificar los conductores arquitectónicos candidatos, 4) Elegir un concepto de diseño que satisfaga los conductores arquitect´ oni-cos, 5) Instanciar los elementos arquitectónicos y asignar responsabilidades, 6) Definir interfaces para los elementos instanciados y 7) Verificar y refinar requerimientos y hacerlos restricciones para los elementos instanciados.

2.4.2. Architecture Trade-off Analysis Method

(28)

Figura 2.8: Pasos de ADD

2.4.3. Quality Attribute Workshop

(29)

Figura 2.9: Ejemplo de ´arbol de utilidad

existencia de una arquitectura de software. En la Figura 2.10 se puede obser-var los diferentes pasos que realiza el método QAW para lograr su objetivo. En primer lugar, se hace una presentación del funcionamiento del método QAW y una breve introducción, luego se presentan los objetivos de negocio y el plan arquitectónico. Lo siguiente es la identificación de los conductores arquitectónicos, seguido del brainstorming, consolidación, priorización y re-finamiento de escenarios. Estos 8 pasos se repiten la cantidad de veces que se considere necesaria con diversas partes interesadas en el sistema.

2.5. Inteligencia Artificial

El proceso de identificación, definición y especificación de QA y escena-rios de atributos de calidad es una tarea ardua y compleja. Por esta razón, se utilizan técnicas de Inteligencia Artificial para asistir en las etapas del diseño de un sistema de software. Para resolver la problemática planteada, la Inteli-gencia Artificial provee diversas técnicas que aportan algoritmos capaces de automatizar el proceso de diseño de un sistema.

(30)

Figura 2.10: Pasos de QAW

inteligentes [4], donde un agente inteligente es un sistema que percibe su entorno y es capaz de actuar sobre él, de tal modo que pueda cumplir con ciertos objetivos [20]. Existen diversas ramas de investigación dentro del cam-po de la Inteligencia Artificial. Estas ramas cam-poseen diferentes caracter´ısticas y utilizan conceptos comunes que podr´ıan ser utilizados en la definición y es-pecificación de la arquitectura de un sistema de software, por ejemplo, “Ma-chine Learning”, “Natural Language Processing”, “Redes Neuronales” y “Re-presentaciones de palabras” (particularmente “Continuous Bag of Words” y “Skip-Gram”), que serán presentadas a continuación.

2.5.1. Machine Learning

(31)

patrones en grandes volúmenes de datos. El funcionamiento de las diferentes técnicas consiste en crear programas capaces de generalizar comportamien-tos a partir de una información no estructurada suministrada en forma de ejemplos. Además, las técnicas de ML han sido de gran importancia en áreas tales como la bioinformática, la recuperación de información en la Web, la inteligencia de negocios y el desarrollo de veh´ıculos autónomos [22].

2.5.2. Natural Language Processsing

El Procesamiento de Lenguaje Natural o Procesamiento de Texto (Natu-ral Language Processing, NLP) es uno de los campos de investigación más recientes dentro de la Inteligencia Artificial. El NLP se puede definir como la habilidad de una computadora para leer y manipular un documento de texto con el fin de obtener resultados útiles [4]. El NLP puede ser visto desde tres perspectivas diferentes, a saber:

Nivel de palabra: donde se puede determinar el origen morfol´ogico de una palabra, su estructura, etc.

Nivel de sentencia: se basa en el orden de una palabra dentro de una sentencia, su gram´atica, su significado en conjunto, etc.

Nivel global: se puede observar a una palabra en un contexto general, considerando el dominio y contexto general en el cual es utilizada. Esto se debe a que una palabra puede variar significativamente seg´un el contexto en donde se encuentra.

Dependiendo del tipo de an´alisis que se quiere realizar, se deber´an tener en cuenta las distintas caracter´ısticas de los mismos.

2.5.3. Redes Neuronales

(32)

información con la que trabajen (ya sean imágenes, sonido, texto o series de tiempo), por lo que se deberá hacer una transformación de los datos de entrada a una representación numérica.

Las redes neuronales est´an formadas por neuronas y conexiones entre las ellas. Las neuronas son la unidad funcional de la red neuronal, las mismas reciben datos de entrada, los modifican seg´un diferentes criterios, y producen datos de salida. las conexiones entre las neuronas permiten que los datos fluyan desde un punto de entrada a uno de salida dentro de la red neuronal. Normalmente, las redes neuronales son especificadas considerando tres caracter´ısticas principales:

Arquitectura: indica las variables involucradas en la red neuronal y la topolog´ıa que forman.

Regla de actividad: las reglas locales de cada neurona que definen c´omo cambia la actividad neuronal en respuesta a diversos est´ımulos.

Regla de aprendizaje: especifican c´omo la importancia o influencia de cada neurona var´ıa en el tiempo

.

Las redes neuronales son muy utilizadas en la identificación de caracte-res en imágenes, debido a su facilidad para reconocer patrones. Por ejemplo, se utilizan en el ámbito de la identificación de patentes de automóviles que viajan por las rutas, de tal forma de automatizar el proceso de control de velocidad. Se captura una imagen de la patente del automóvil, junto a la velocidad con la que se encuentra viajando, y mediante una aplicación que utiliza redes neuronales se identifican los caracteres que forman la paten-te, permitiendo que se pueda realizar una infracción al automovilista si la velocidad es mayor a la permitida.

2.5.4. Representaciones de Palabras

(33)

palabras a una representación que sea entendible por los algoritmos de In-teligencia Artificial. Existen dos técnicas de representación de palabras que resultan de interés para el área de Arquitecturas de Software, denominadas “Continuous Bag of Words” y “Skip-Gram”. Ambas técnicas permiten, a partir de un texto, generar una representación vectorial del mismo.

El modeloContinuous Bag of Words(CBOW) es un método que se utiliza en el procesamiento de texto para representar documentos ignorando el or-den de las palabras [2]. Cada documento contendrá un conjunto de palabras que conforman una estructura desordenada denominada bolsa. Las princi-pales ventajas de utilizar este modelo es su facilidad de uso y su eficiencia computacional. En este modelo, es posible predecir una palabra mediante el conocimiento del contexto en el que se encuentra, como se muestra en la Fi-gura 2.11, donde se cuenta con una entrada de múltiples palabras. A partir de las palabras de entrada se genera una proyección, sumando sus valores provenientes del vector de palabras, y produciendo un valor de salida que representará a una palabra en particular.

Figura 2.11: Modelo de Continuous Bag of Words

(34)

palabra, predecir cuál será el contexto que rodea a la misma, como se mues-tra en la Figura 2.12, donde se cuenta con una sola palabra de enmues-trada. A partir de la proyección del valor numérico de la representación de la palabra de entrada, es posible obtener un vector de salida con los valores que estarán asociados a las palabras que forman el contexto de la palabra de entrada.

Figura 2.12: Modelo de Skip-Gram

(35)

3. Trabajos Relacionados

El diseño de un sistema de software es una tarea compleja de realizar, para la cual es necesario contar con experiencia y conocimiento [6]. Es por esta razón que existen diversos trabajos que proponen mecanismos para au-tomatizar el proceso de especificación y definición de la arquitectura de un sistema, de tal forma de disminuir la complejidad que conlleva dicha etapa. En este cap´ıtulo se presentan una serie de trabajos que proponen distin-tas alternativas de automatización. El cap´ıtulo se dividirá en dos secciones principales, a saber: Aprendizaje supervisado y Aprendizaje no supervisado. Cada una de estas secciones contendrá ejemplos de trabajos relacionados, problemáticas y soluciones propuestas.

3.1. Aprendizaje Supervisado

El aprendizaje supervisado es una técnica de Inteligencia Artificial que permite generar una fuente de información a partir de datos de entrada pre-viamente clasificados [22]. De esta forma, si se tiene un dato no clasificado, se puede estimar una clasificación mediante la fuente de información gene-rada previamente. A continuación, se presentarán una serie de trabajos que utilizan aprendizaje supervisado para resolver diferentes problemáticas.

3.1.1. El Dise˜no de Arquitecturas de Software

En [13] se aborda la problemática que tienen ciertas organizaciones con respecto a tener el control interno de las aplicaciones que utilizan, e imple-mentarlas de tal forma que se satisfagan ciertos atributos de calidad. Ellos consideran que la implementación de unaArquitectura Orientada a Servicios (SOA) teniendo en cuenta atributos de calidad (por ejemplo, performance, interoperabilidad, seguridad, entre otros.) requiere que los diseñadores explo-ren soluciones alternativas; esto resulta una tarea que consume mucho tiempo y es propensa a errores, incluso para diseñadores expertos.

(36)

Learning, conocida comoCase Base Reasoning (CBR). Esta técnica permite obtener una solución a un problema, mediante la búsqueda de problemas si-milares dentro de una base de conocimiento formada por problemas previos y sus respectivas soluciones. La mayor´ıa de los diseñadores utilizan experien-cias pasadas para reutilizar soluciones que resuelvan el problema del diseño de una arquitectura hacia su implementación; por eso, CBR naturalmente se ajusta en este proceso de diseño basado en la utilización del conocimiento de la organización [13].

En este enfoque, un caso Ci se define como una 2-upla<Pi, Si>, donde

Pi est´a compuesto por propiedades de un conector arquitect´onico, atributos

de calidad y escenarios de calidad para ese conector. Mientras que Si es la

materialización de ese conector en términos de diseños orientados a objetos.

Figura 3.1: Enfoque basado en CBR

(37)

SOA en términos de atributos de calidad, escenarios de calidad y conectores arquitectónicos. Con la descripción del problema, se procede a recuperar de la base de casos aquellos casos que hayan sido útiles para resolver problemas similares [13]. Una vez que se encuentra la solución más adecuada al problema planteado, se puede evaluar si la misma fue correcta, permitiendo agregar el problema resuelto en la base de casos para que pueda ser usado en el futuro.

3.1.2. Identificaci´on y Clasificaci´on de Requerimientos No

Fun-cionales

En [11] y [14] se plantea la problemática de realizar la captura de requeri-mientos de un sistema. Dicha tarea ocurre en una etapa temprana del diseño de un sistema, y no es sencilla de llevar a cabo, principalmente debido a que las partes interesadas en el sistema pueden no tener una visión clara de lo que el sistema debe realizar, ni cómo debe hacerlo. La captura de requerimien-tos funcionales resulta ser más evidente durante el proceso de elicitación del sistema; esto no ocurre as´ı para el caso de los requerimientos no funcionales. Para resolver esta problemática, existen dos propuestas. La primera utiliza técnicas de aprendizaje semi-supervisado [11], y la segunda de aprendizaje supervisado [14].

(38)

clasifica-dos. Opcionalmente, los requerimientos clasificados con la mayor confianza, o aquellos que hayan recibido un buen feedback por parte de los analistas, pueden ser utilizados como requerimientos categorizados para repetir el pro-ceso de aprendizaje [11].

Figura 3.2: Acercamiento semi-supervisado para la clasificaci´on de requeri-mientos no funcionales

(39)

Figura 3.3: Acercamiento supervisado para la clasificaci´on de requerimientos no funcionales

3.2. Aprendizaje No Supervisado

(40)

3.2.1. Duplicaci´on de Funcionalidad: ReqAligner

En [28] se propone una alternativa para poder resolver el problema de la duplicación de funcionalidad en la especificación de los requerimientos de un sistema. Esta alternativa llamada ReqAligner ayuda a los analistas en la búsqueda de funcionalidad duplicada en especificaciones textuales de requerimientos, mediante técnicas avanzadas de procesamiento de texto.

En la Figura 3.4, se puede observar el esquema de funcionamiento de la herramienta ReqAligner, que consta de cinco pasos, a saber:

1. Procesamientodel Lenguaje Natural b´asico sobre las especificaciones de requerimientos.

2. Análisissemántico de las especificaciones. 3. Generación de secuencias de especificaciones.

4. Alineamiento de las secuencias de especificaciones.

5. Recomendaciones sobre las relaciones entre especificaciones.

(41)

Figura 3.4: Esquema de la herramienta ReqAligner para la especificaci´on de casos de uso

3.2.2. Definici´on de Requerimientos No Funcionales

En [15] se propone una alternativa para asistir a los analistas en el diseño de sistemas de software, más puntualmente en la especificación de requeri-mientos no funcionales. Se identifican dos problemas relativos a la definición de requerimientos no funcionales, a saber:

1. Las definiciones no son precisas, y por ende no son entendibles ni aplicables.

2. Las definiciones no proveen ayuda o soporte en su aplicaci´on a un contexto organizacional dado.

(42)

Figura 3.5: Esquema de funcionamiento

posible adaptar el atributo de calidad performance a un contexto organiza-cional espec´ıfico, produciendo especificaciones textuales de los requerimientos no funcionales de un sistema (Figura 3.5).

El esquema de funcionamiento de la propuesta consta de cuatro partes distintas, a saber:

1. Identificaci´on de elementos de contenido relevante.

2. Definici´on precisa de los elementos de contenido relevante. 3. Adaptaci´on a un contexto organizacional.

4. Proveer una forma de especificar los requerimientos en sentencias.

(43)

3.3. Conclusiones

(44)

4. Derivaci´

on de Escenarios de Atributos de

Calidad con ScenariosTool

La especificación de escenarios de atributos de calidad es una tarea dif´ıcil de realizar. Esto se debe, principalmente, a que el arquitecto debe poseer una amplia experiencia y conocimiento en el diseño de sistemas de software. Además, los arquitectos pueden estar especializados en solo algunos atribu-tos de calidad espec´ıficos. En la práctica, la información sobre atributos de calidad de la mayor´ıa de los proyectos de software suele documentarse de for-ma parcial y entremezclada con las especificaciones funcionales del sistefor-ma [7]. Para resolver el problema de la especificación de escenarios de atribu-tos de calidad, distinatribu-tos autores han planteado diferentes propuestas como asistentes inteligentes y recomendadores [15]. Estas propuestas utilizan en su mayor´ıa técnicas de aprendizaje supervisado, que requieren una gran canti-dad de instancias para su implementación. Además, las mismas ofrecen poca flexibilidad frente a cambios, ya que requieren procesos de re-entrenamiento y procesamiento manual de datos, entre otros.

En este contexto, el enfoque que se presenta en este cap´ıtulo permite ayudar a los arquitectos en la definición de escenarios de atributos de cali-dad durante el diseño de un sistema. El objetivo principal de este enfoque es aprovechar de técnicas de Inteligencia Artificial para poder asistir de forma semi-automática a un arquitecto que no cuenta con la experiencia o conoci-miento suficiente para especificar escenarios de atributos de calidad. Además, el enfoque también permite guiar a arquitectos experimentados que quieren verificar decisiones tomadas. La hipótesis de trabajo es que es posible que una computadora adquiera conocimiento sobre conceptos de arquitecturas de software. A partir de este aprendizaje y en base a ejemplos de escenarios completos, se puede inferir información de otros escenarios incompletos los cuales no han sido precargados con anterioridad.

(45)

de arquitecturas de software, papers cient´ıficos, gu´ıas de diseño, entre otros. Estos documentos son utilizados para conformar la fuente de conocimiento del enfoque, la cual es generada una sola vez y utilizada reiteradas veces pos-teriormente. A diferencia de las técnicas de aprendizaje supervisado, en este enfoque no se realiza una clasificación de los documentos que conforman la fuente de conocimiento. Además, se requiere una colección de escenarios de atributos de calidad completos comoassets. Dichos escenarios se encuentran especificados completamente y son brindados al enfoque por un experto. Los mismos son utilizados como referencia para obtener información de escena-rios especificados parcialmente. Ante la consulta de un arquitecto respecto a un escenario de atributos de calidad incompleto, el enfoque produce suge-rencias a partir de un razonamiento mediante analog´ıa entre los escenarios completos de referencia y la información aprendida por la computadora. Este razonamiento mediante analog´ıa establece relaciones entre partes especifica-das de escenarios de atributos de calidad de tal forma que sea posible inferir partes faltantes. Las sugerencias brindadas pueden ser utilizadas por el ar-quitecto para completar de forma apropiada los escenarios del sistema que está desarrollando.

A continuación, se presentará el enfoque desarrollado en este trabajo. Inicialmente se introduce el funcionamiento general del mismo, mediante un gráfico explicativo. Posteriormente, se detallan los componentes que forman el enfoque y la relación entre los mismos.

4.1. ScenariosTool

(46)

fuente de conocimiento (1.Preprocesamiento) y se genera unmodelo como salida (2.Generador del modelo). En esta etapa es necesaria la interven-ción de un experto, cuya tarea es seleccionar información útil para conformar la fuente de conocimiento. Una vez que el enfoque genera el modelo, el mismo puede ser utilizado reiteradas veces en la etapa posterior por el arquitecto. El modelo está compuesto por todas las palabras que componen la fuente de conocimiento, junto a una representación vectorial de cada palabra. Esta representación vectorial describe a cada palabra en términos de su contexto y cantidad de apariciones de la misma en la fuente de información [2]. Dicha representación resulta útil para poder realizar operaciones algebraicas entre palabras, ya que las mismas son representadas mediante vectores numéricos. La segunda etapa, denominada Razonamiento, es la encargada de utilizar el modelo de tal forma que se puedan extraer datos relativos a información faltante o incompleta de escenarios de atributos de calidad. En esta etapa se utilizan el modelo generado previamente y un conjunto de escenarios de atri-butos de calidad de referencia comoassets, brindados al enfoque una sola vez por un experto. Como entrada para esta etapa, el arquitecto ingresa un esce-nario incompleto. Como salida, el componente3.Recomendacióncompleta la información faltante del escenario ingresado. En la etapa de Razonamien-to, se realiza un razonamiento mediante analog´ıa entre la información de las partes de los escenarios de referencia y el escenario parcial ingresado por el arquitecto. Las partes involucradas en la analog´ıa pueden ser trasladadas al modelo generado previamente y obtener as´ı información faltante.

(47)

la t´actica para satisfacer modificabilidad. El mismo razonamiento puede ser utilizado para inferir partes de escenarios de atributos de calidad. Por ejem-plo, si se sabe que un Est´ımulo se relaciona con una Medida de Respuesta de una cierta manera, dado otro Estimulo se puede inferir una Medida de Respuesta que se relacione de la misma manera.

Figura 4.1: Esquema de funcionamiento

(48)

de referencia.

Figura 4.2: Interfaz gr´afica de la herramienta

4.2. Aprendizaje: Preprocesamiento y Generaci´

on del

Modelo

(49)

repa-ración cuando ocurren fallas en los mismos. A partir del preprocesamiento y la transformación vectorial, es posible registrar la correlación entre las fa-llas de un sistema y el tiempo como una medida de respuesta al est´ımulo, principalmente por las reiteradas apariciones en conjunto de estas dos partes. Para poder generar el modelo, resulta necesario definir dos componen-tes, que serán los encargados de transformar una fuente de información de entrada en el modelo descrito anteriormente. Estos componentes son deno-minadosPreprocesamiento y Transformación a representación vectorial, que se detallan a continuación.

4.2.1. Preprocesamiento

El componente de preprocesamiento es el encargado de procesar los docu-mentos de arquitectura de software (papers cient´ıficos, libros, entre otros), de tal forma que se elimine la información que no es relevante para el análisis y de preparar la información relevante al formato adecuado para ser procesada. Este preprocesamiento de los documentos es importante ya que en los mismos existen palabras, como pueden ser conectores del lenguaje, art´ıculos, preposi-ciones, etc., las cuales deben ser excluidas ya que no aportan información de importancia e incluso pueden llegar a disminuir la eficacia de los algoritmos de inferencia aplicados a los documentos [5]. Asimismo, debido a que la in-formación de los documentos puede estar almacenada en diversos formatos, los documentos se deben transformar a una representación apropiada para la manipulación de su información.

(50)

Figura 4.3: Componente de Preprocesamiento

distintos “valores” que pueden tener las partes de los escenarios, o bien men-cionar ejemplos de sistemas reales, enseñar la especificación de escenarios, entre otros. A partir de alguna de estas caracter´ısticas, los textos son útiles para ser utilizados por ScenariosTool.

Internamente, el preprocesamiento se encarga de manipular los datos de entrada, de tal forma que la salida producida no contenga caracteres o pa-labras inválidas. Las técnicas utilizadas en esta herramienta son eliminación de caracteres y modificación de caracteres:

Modificación de Caracteres En cuanto a la modificación de caracteres, se aplica un filtro que permite transformar todas las letras de la entrada en letras minúsculas. Este filtro es aplicado debido a la necesidad de mantener una relación de igualdad entre las diferentes formas de escribir una misma palabra. Por ejemplo, en la oración: “1. The User wants to modify the UI, it should not take more than 2 days.”, la palabra User (mayúscula) tiene el mismo significado que la palabra user (minúsculas) en el contexto de este trabajo. Si no se aplicase este filtro, las palabras podr´ıan no ser considera-das como equivalentes en etapas posteriores del análisis y la derivación de escenarios, produciendo equivocaciones al realizar las recomendaciones a los arquitectos.

(51)

“1) There are several known tactics to satisfy Performance. For instance, the usage of a cache memory is always considered a good option. 2) In the same way, if a system has to achieve a high level of Modifiability,

using an intermediary would be a wise decision! ”

Inicialmente, se transforman todos los caracteres en las palabras del frag-mento a min´usculas, por lo que el mismo se convertir´ıa en:

“1) there are several known tactics to satisfy performance. for instance, the usage of a cache memory is always considered a good option.

2) in the same way, if a system has to achieve a high level of modifiability, using an intermediary would be a wise decision! ”

Como resultado, las palabrasThere,Performance,For,In y Modifiability fueron cambiadas athere,performance,for,in ymodifiability, respectivamen-te.

Eliminación de caracteres En cuanto a la eliminación de caracteres, exis-ten diferentes filtros que son aplicados por el preprocesador. En una primera instancia, se eliminan de la entrada todas las palabras denominadas Stop Words. Estas palabras son de uso frecuente en la escritura (como pueden ser art´ıculos, conectores, preposiciones, entre otros), que no agregan ningún va-lor adicional al contexto donde se encuentran las demás palabras. Ejemplos de Stop Words en Inglés son: “a”, “of”, “the”, etc. Por otro lado, también se utilizaron filtros que eliminan caracteres que no aportan información al objetivo de la herramienta, como pueden ser números, signos de exclamación y puntuación, y cualquier caracter que no sea ASCII.

Continuando con el ejemplo, se eliminan las palabras Stop Words. En el fragmento, el resultado ser´ıa:

“1) known tactics satisfy performance. , usage cache memory considered option.

(52)

Por ´ultimo, se eliminan los caracteres inv´alidos (“1”, “)”,“.”, “,”, “2”,“!”), reduciendo el texto original del fragmento a las siguientes dos oraciones:

“known tactics satisfy performance usage cache memory considered option” “system has achieve high level modifiability using intermediary wise

decision”

4.2.2. Generador del Modelo con las Caracter´ısticas de las

Pala-bras

La segunda parte de la primera etapa, denominada Generador del Mode-lo, está encargada de la construcción de una representación vectorial de las palabras que conforman el texto preprocesado. Para la implementación de este componente, se utiliza un framework externo, denominado word2vec

[2]. El mismo fue desarrollado porGoogle, y su principal función es el análisis de texto para obtener una representación vectorial de las palabras que lo con-forman según su contexto y cantidad de apariciones. El modelo producido por word2vec resulta de gran utilidad para este trabajo ya que la repre-sentación vectorial de las palabras permite establecer relaciones de distancia entre las mismas.

El framework word2vec está conformado por una red neuronal de 3 capas (capa de entrada, capa oculta, capa de salida), especializadas en el procesamiento de texto. Word2vec recibe como entrada un documento de texto, y produce como resultado una lista de palabras, donde cada palabra tiene asociado un vector numérico que la representa. A cada componente numérica del vector que representa una palabra en el modelo se la denomina caracter´ıstica. Una caracter´ıstica resume información sobre la aparición de la palabra en diversos contextos en relación con otras palabras, junto con la cantidad de apariciones de la palabra en la fuente de conocimiento.

Por fines pr´acticos y para comprender en detalle la generaci´on de las caracter´ısticas de las palabras, se considera como texto de entrada para

(53)

intermediary”. La cantidad de palabras del texto preprocesado se denomina

N, en el caso del ejemplo N = 4. El framework word2vec crea N vectores unitarios de N dimensiones, denominados V0..N−1. Cada vector unitario se

utiliza para representar a una palabra. Además, cada palabra está asociada a una de las N dimensiones de los vectores unitarios, según su orden de apa-rición en el texto preprocesado. Dichos vectores unitarios están compuestos de todos ceros menos en la dimensión asociada a la palabra que representan, donde su valor es 1. Por ejemplo, la palabra performance está asociada a la dimensión 0 por ser la primera en el texto preprocesado, por ende su vector unitario es V0 = [1,0,0,0]. Del mismo modo, la palabra modifiability está

asociada a la dimensi´on 2 por ser la tercera en el texto preprocesado, por ende su vector unitario es V2 = [0,0,1,0].

Cada vector unitario es asociado a una neurona que conforma la capa de entrada. En la capa oculta se encontrar´an dos matrices, denominadas W I

de tamaño N ×C y W O de tamaño C ×N, donde C indica el número de caracter´ısticas (C = 100 es el valor por defecto sugerido por los desarrolla-dores del framework). Finalmente, la capa de salida está conformada por un vector de salida, que tiene asociada una palabra a cada neurona que compone la capa (Figura 4.4), indicando la probabilidad de que la palabra asociada a la neurona de salida aparezca en el contexto de la palabra de entrada. El framework word2vec busca realizar una optimización de los valores de la matriz W I y W O de tal forma que se aprendan relaciones entre palabras. Para que se aprenda una relación entre dos palabras, el vector unitario de la primera de ellas es el vector de entrada. La red neuronal calcula el vector de salida y el mismo es sustra´ıdo al vector unitario que representa la segunda palabra con el fin de calcular el error. Una vez obtenido el error, el mismo es propagado hacia la red neuronal de tal forma que se actualizan los valores de las matrices W I y W O. Este procedimiento se repite para cada par de palabras que están relacionadas. Una palabra está relacionada con otra si la segunda aparece en el contexto de la primera de ellas.

(54)

ume-Figura 4.4: Red neuronal de word2vec

ros reales entre -1 y 1. Estos valores son elegidos al azar ya que los mismos var´ıan a trav´es de las diferentes relaciones entre palabras que se aprenden, siendo ajustados constantemente hasta terminar el proceso de aprendizaje. Continuando con el ejemplo, se supone el siguiente contenido inicial para las matrices, considerando C = 3:

W I =

     

−0,094491 0,443977 0,313917

−0,490796 −0,229903 0,065460 0,072921 0,172246 −0,357751 0,104514 0,463000 0,079367

     

W O=



  

0,023074 0,479901 0,432148 0,375480

−0,368008 −0,424778 −0,257104 −0,148817 0,422434 0,364503 0,467865 −0,020302



  

Sup´ongase que en el ejemplo solo se quiere aprende la relaci´on entre las palabras modifiability eintermediary. En este caso, se consideran los vectores

V2 = [0,0,1,0] y V3 = [0,0,0,1], correspondientes a las palabras

(55)

vector V3 sirve para calcular el error del resultado, indicando que la palabra

intermediary est´a en el contexto de la palabra modifiability. La red neuronal toma el vector V2 y lo multiplica por la matriz W I, y como resultado se

ob-tiene el vector W I[2] = [0,072921; 0,172246;−0,357751]. Posteriormente, el resultado obtenido es multiplicado por la matriz W O, obteniendo el vector

V O = [−0,212832;−0,168573;−0,180152; 0,009010], que representa la capa de salida de la red neuronal. Para transformar el vector V O en un vector de probabilidades se utiliza la funci´on softmax, de tal forma que la suma de todos los valores de las neuronas de la capa de salida sumen 1. Una vez obtenidas las probabilidades, se calcula el error con respecto al vector V3

(valor esperado como resultado), y a partir de dicho error los valores de las matrices W I y W O son actualizados para disminuirlo. Luego de realizar el proceso de aprendizaje, el contenido de W I es una buena aproximaci´on que contiene la informaci´on de las relaciones entre las palabras. Para el ejemplo, el resultado es el siguiente:

W I =

     

−0,127484 0,106689 0,022012

−0,152681 0,112004 0,061398 0,164218 0,097453 0,110850

−0,105762 0,043238 −0,085115

     

El modelo es constituido por la lista de palabras y sus respectivos vectores de caracter´ısticas, que corresponden a las filas de la matriz W I. A partir de estos vectores, es posible cuantificar la relación existente entre las palabras. Esta relación puede ser medida por la similitud de sus caracter´ısticas. Dicha similitud puede ser calculada como un valor decimal de 0 a 1 (1 más lejano, 0 más cercano), conocido como distancia del coseno. De esta forma, la dis-tancia entre dos palabras se reduce a una simple operación matemática entre vectores. Continuando con el ejemplo, se obtienen los siguientes resultados de distancia:

distancia(“modif iability00,“perf ormance00) = 0,833

distancia(“modif iability00,“cache00) = 0,782

(56)

Como las primeras dos palabras no fueron brindadas a la red neuronal para formar el contexto de la palabramodifiability, su distancia a la misma es mayor, lo que implica una menor similitud. Como el contexto demodifiability fue formado por la palabraintermediary, la distancia entre las mismas es baja (es decir, son similares y se encuentran “espacialmente cerca”).

El procedimiento mostrado anteriormente muestra el funcionamiento b´ asi-co del algoritmo pero el mismo es implementado asi-con leves mejoras enword2vec, principalmente para soportar una gran cantidad de palabras de entrada y considerar un contexto más grande para cada palabra mediante la aplicación de las técnicas Continuous Bag of Words y Skip-Gram [2]. Continuous Bag of Words realiza una modificación en la capa de entrada, la cual produce una entrada para la capa oculta conformada por un vector conteniendo el pro-medio de todos los vectores de palabras que conforman el contexto. Por otro lado, Skip-Gram realiza una modificación en la capa de salida, generando tantos vectores de salida como palabras haya en el contexto. Por cada vector de salida, se calcula la función softmax, y se realiza un promedio entre los errores obtenidos, que será propagado hacia la red neuronal. En Scenarios-Tool, word2vec fue configurado con un C = 100, N = 7675, el algoritmo utilizado fue Skip-Gram.

4.3. Razonamiento Arquitect´

onico

(57)

4.3.1. Recomendaci´on de Partes de Escenarios de QA

A partir del modelo generado en la etapa de Aprendizaje, el componente que conforma esta etapa es capaz de recomendar información de escenarios de atributos de calidad haciendo un razonamiento por analog´ıa. La entrada del componente de recomendación es un escenario con información faltante ingresado por el arquitecto como consulta. Además, el modelo generado en la etapa anterior y un conjunto de escenarios preexistentes con información completa (definidos y provistos una única vez por un experto) son utilizados como assets. Por otra parte, la salida del componente son las posibles partes de escenarios que pueden complementar la documentación del sistema que el arquitecto quiere diseñar en un atributo de calidad particular.

(58)

principales. Dichas dimensiones principales que no son filtradas son divididas en dos grupos y combinadas para conformar solamente dos dimensiones. En la Figura 4.5 se pueden observar las tres palabras ubicadas en un espacio bidimensional. Se observa que contando con las representaciones vectoriales de las palabras “internal”, “recover” y “external” es posible, mediante ope-raciones vectoriales, encontrar espacialmente el lugar o la vecindad donde deber´ıa encontrarse la parte que se quiere inferir. A este lugar espacial se lo denomina vector resultado. De esta forma, si al vector que representa la palabra “internal” se le sustrae el vector que representa la palabra “exter-nal”, y al resultado se le suma el vector que representa la palabra “recover”, entonces se obtiene el vector resultado. Los vectores positivos en la ecuación son denominadosfactores positivos, mientras que los negativos se denominan factores negativos. La ecuación tendrá la siguiente forma:

VectorResultado = vector(“internal”) - vector(“external”) + vector(“recover”)

El vector resultado deberá ser comparado con las palabras que conformen el modelo para encontrar aquellas más cercanas. Dichas palabras formarán una vecindad de conceptos posibles (ilustrado con un c´ırculo en la Figura 4.5), los cuales serán retornados al arquitecto como recomendación para completar el escenario ingresado. En este caso, la palabra “detect” debe encontrarse en la vecindad de conceptos, producto del aprendizaje de libros de arquitectura y diseño de software.

(59)

Figura 4.5: Ejemplo sobre recomendaci´on por analog´ıa

consideración de más partes de escenarios en el cálculo del vector resultado implica un mejor resultado, ya que la vecindad obtenida se hace más pequeña y se focaliza en las partes buscadas.

(60)

punteadas entre las palabras que hacen referencia a una misma parte de los escenarios de calidad para facilitar la comprensión. La ecuación correspon-diente a dicho resultado del ejemplo deber´ıa considerar como valores positivos a las partes con información del escenario incompleto más la información del escenario preexistente correspondiente a la parte faltante, a saber: “recover”, “internal”, “fault” y “system”. Mientras que los factores negativos deber´ıan ser el contexto del escenario preexistente, a saber: “external”, “crash” y “sys-tem”. Una peculiaridad es que ambos escenarios contienen la palabra system para la parte Artifact, la cual es identificada con color verde. La ecuación quedar´ıa formada de la siguiente forma:

VectorResultado = vector(“recover”) vector(“external”) vector(“crash”) -vector(“system”)+ vector(“internal”) + vector(“fault”) + vector(“system”)

Figura 4.6: Ejemplo del segundo resultado de la Figura 4.7

(61)

En este caso, como la cantidad de partes consideradas de los escenarios para realizar el razonamiento mediante analog´ıa es mayor, se cuenta con más vec-tores involucrados en la operación algebraica, reduciendo as´ı el tamaño de la vecindad de palabras en torno al vector resultado. Esto produce mejores resultados, como se puede observar en las vecindades encontradas. Por un lado, el ejemplo extendido infiere como palabras más cercanas al vector re-sultado a detection y recovery, que pueden ser utilizadas como la Respuesta del escenario. Por otro lado, al usar menos información, no todas las palabras más cercanas al vector resultado pueden ser utilizadas como laRespuesta del escenario, por ejemplotactic. De esta forma, se observa en los resultados ob-tenidos en la versión extendida que considera más información en el cálculo del resultado es más precisa.

(62)

4.4. Resumen

En este cap´ıtulo se presentó el enfoque propuesto junto con la herramien-ta que lo materializa. Para ilustrar su funcionamiento, herramien-también se describió el desarrollo de la interfaz gráfica que permite que los arquitectos puedan utilizar la herramienta de forma simple. El objetivo principal de este enfoque es asistir a un arquitecto que no cuenta con la experiencia o conocimiento suficiente para realizar la especificación completa de los escenarios de atri-butos de calidad de un sistema durante la etapa de diseño del mismo. Este objetivo se logra mediante el aprovechamiento de técnicas de Inteligencia Ar-tificial, que asisten al arquitecto de forma semi-automática. El enfoque está dividido en dos etapas. La primera etapa, denominada Aprendizaje, es la en-cargada de aprender relaciones entre las diferentes partes de los escenarios de atributos de calidad a partir de documentos y literatura de arquitecturas de sistemas de software. El aprendizaje es realizado con el frameworkword2vec

(63)

5. An´

alisis de Resultados

En este cap´ıtulo se presenta una evaluación de la herramienta Scena-riosTool, simulando la asistencia a un arquitecto al especificar escenarios de atributos de calidad. Para determinar el desempeño de la herramienta, la misma fue evaluada a partir de un conjunto de escenarios de atributos de calidad obtenidos de diversas fuentes bibliográficas y sistemas reales. El objetivo principal de la evaluación fue, a partir del razonamiento median-te analog´ıa realizado con escenarios de atributos de calidad de referencia, determinar si era posible inferir correctamente las partes de un escenario parcial. La hipótesis experimental es que la herramienta es capaz de sugerir información faltante de escenarios de atributos de calidad, permitiendo al ar-quitecto que la utiliza elegir el resultado que más se ajuste al sistema que está desarrollando. Para poner a prueba la hipótesis planteada, como as´ı también guiar el análisis de los resultados, se plantearon las siguientes preguntas de investigación:

PI#1 : ¿Sirve un ´unico escenario de atributo de calidad de referencia para inferir partes de otro escenario del mismo atributo?

PI#2 : ¿Sirve un conjunto de escenarios de atributos de calidad de referencia para inferir partes de otro escenario del mismo atributo?

PI#3 : ¿Sirve un conjunto de escenarios de cualquier atributo de calidad para inferir partes de otro escenario?