Identificación automática de argumentos en sistemas de discusión online

(1)

Universidad Nacional del Centro de la Provincia

de Buenos Aires

Facultad de Ciencias Exactas

Tesis de grado

Identificación automática de argumentos en

sistemas de discusión online.

Alumnos: García Nicolás, Palavecino Damián.

Director: Monteserin Ariel.

(2)

2

Agradecimientos

A mis padres por el esfuerzo y apoyo a lo largo del camino recorrido.

A mis hermanos, cuñadas y sobrinos por estar siempre presentes y apoyarme durante toda la carrera.

A mis tíos y primos por su apoyo incondicional.

A Carla y Uriel por acompañarme y brindarme su apoyo en el tramo final de la carrera. A Damián por la paciencia y aguante en estos años compartidos.

A mis amigos por acompañarme en cada momento vivido.

Y un agradecimiento a nuestro director Dr. Ariel Monteserín por su ayuda y dedicación en la realización del trabajo final.

Nicolás García.

Quiero dedicar este trabajo a todos los familiares y amigos que me han acompañado en este largo proceso que ha llegado a su fin.

A mi hermana Victoria, que sin su apoyo y aliento esto no habría sido posible. A Nicolás, por el soporte y el empuje durante estos años.

A todos ellos, muchas gracias.

(3)

3

Índice General

Resumen ... 6

1. Introducción ... 7

1.1. Introducción a la problemática ... 7

1.2. Motivación... 8

1.3. Solución propuesta ... 9

2. Marco Teórico ... 11

2.1. Argumentos: definición y tipos ... 11

2.2. KDD : Proceso de Extracción de conocimiento ... 13

2.3. Minería de datos ... 15

2.4. Minería de Texto ... 16

2.5. Aprendizaje automático ... 16

2.6. Clasificación ... 18

2.6.2. Máquinas de Vectores de Soporte (SVM) ... 21

2.6.3. K-Vecinos Más Cercanos (KNN) ... 22

2.6.4. Árboles de Decisión ID3 y C4.5 ... 22

2.7. Procesamiento de lenguaje natural (PLN) ... 23

2.8. Framework de procesamiento de lenguaje natural: Freeling ... 25

2.9. Framework de aprendizaje automático: Weka ... 29

2.10. Resumen ... 32

3. Trabajos Relacionados ... 34

3.1. Detección de argumentos en textos legales. ... 34

3.2. Identificación de argumentos de editoriales chinas. ... 38

3.2.1. Comparación de frecuencia de palabras ... 40

3.2.2. Palabras argumentativas conocidas ... 40

3.2.3. Método combinado ... 41

3.2.4. Resultados ... 41

3.3. Resumen ... 42

4. Enfoque propuesto ... 45

4.1. Selección de datos ... 45

4.2. Pre-procesamiento y Transformación ... 47

4.2.1. Tratamiento preliminar del dataset ... 47

(4)

4

4.2.3. Generación de archivo de entrenamiento. ... 52

4.3. Data mining ... 53

4.3.1. Enfoque basado en longitud de etiquetas. ... 54

4.3.2. Enfoque basado en conectores argumentativos ... 56

4.4. Implementación ... 60

4.5. Resumen ... 64

5. Pruebas realizadas ... 66

5.1. Dataset inicial sin etiquetar ... 67

5.2. Enfoque basado en longitud de etiquetas ... 69

5.3. Enfoque basado en conectores argumentativos ... 73

5.4. Resumen ... 77

6. Conclusiones... 79

6.1. Limitaciones... 80

6.2. Trabajos futuros ... 81

(5)

5

Índice de figuras

Figura 1. Proceso de Análisis. ... 10

Figura 2. Etapas de Proceso KDD ... 14

Figura 3. Matriz de Confusión. ... 19

Figura 4. Esquema de los Vectores de Soporte. ... 21

Figura 5. Diagrama UML de clases de datos. ... 27

Figura 6. Estructura de Archivo ARFF. ... 31

Figura 7. Clasificación de párrafos realizado por AMT. ... 39

Figura 8. Resultados de la tres variantes propuestas por Chow. ... 41

Figura 9. Ejemplo de opinión entre argumentos candidatos. ... 46

Figura 10. Ejemplo de argumento candidato con conclusión implícita. ... 46

Figura 11. Ejemplo de clasificación mediante recursos visuales. ... 47

Figura 12. Pipeline de procesamiento de lenguaje natural. ... 49

Figura 13. Archivo de configuración de módulo morfosintáctico ... 51

Figura 14. Fragmento de archivo de entrenamiento de Weka. ... 53

Figura 15. Ejemplo de etiquetas. ... 55

Figura 16. Lista de indicadores de conclusión. ... 56

Figura 17. Lista de indicadores de premisa. ... 57

Figura 18. Fragmento de archivo configuración del módulo morfo para conectores sin etiquetar. . 57

Figura 19. Fragmento de archivo de entrenamiento para conectores sin etiquetar. ... 58

Figura 20. Fragmento de archivo de configuración del módulo morfo para etiqueta unificada. ... 59

Figura 21.Fragmento de archivo de entrenamiento para etiqueta unificada. ... 59

Figura 22. Fragmento de archivo de configuración del morfo para etiqueta diferenciada. ... 60

Figura 23. Fragmento de archivo de entrenamiento para etiqueta diferenciada. ... 60

Figura 24. Herramienta resultante. ... 61

Figura 25 Interfaz presentado al usuario para corregir errores ortográficos ... 62

Figura 26 Diagrama de secuencia de entrenamiento de modelo ... 63

Figura 27. Matriz de confusión para dataset sin etiquetar. ... 68

Figura 28. Resultados para dataset sin etiquetar. ... 68

Figura 29. Matriz de confusión para etiqueta completa. ... 69

Figura 30. Resultados para dataset con etiqueta completa. ... 70

Figura 31. Matriz de confusión para longitud de etiqueta n=3. ... 70

Figura 32. Resultados para dataset con longitud de etiqueta n=3. ... 71

Figura 33. Matriz de confusión para longitud de etiqueta n=2. ... 71

Figura 34. Resultados para dataset con longitud de etiqueta n=2. ... 72

Figura 35. Matriz de confusión para conectores argumentativos sin etiquetar. ... 73

Figura 36. Resultados para dataset con conectores argumentativos sin etiquetar. ... 74

Figura 37. Matriz de confusión para conectores argumentativos con etiqueta diferenciada. ... 74

Figura 38. Resultados para dataset con conectores argumentativos con etiqueta diferenciada. ... 75

Figura 39. Matriz de confusión para conectores argumentativos con etiqueta unificada. ... 75

(6)

6

Resumen

La detección automática de argumentos en procesos de discusión online puede ser aplicada para diversas finalidades: brinda la posibilidad de analizar y comparar las capacidades argumentativas de distintos grupos de trabajo permitiendo detectar fallas, entrenar agentes inteligentes que imiten las capacidades argumentativas de los usuarios, determinar preferencias individuales o colectivas sobre una temática en particular, entre otros. A partir de esto surge la necesidad de brindar un mecanismo que permita discriminar argumentos expresados en lenguaje natural por los usuarios dentro de un contexto de debates o discusiones online.

Este trabajo tiene como objetivo el desarrollo de un enfoque que permita maximizar la detección automática de argumentos entre un conjunto de argumentos candidatos. Para ello se planteó la realización de un proceso de extracción de conocimiento (KDD), implementando cada una de las etapas que la componen. La informalidad de los argumentos expresados en lenguajes natural, mucho más evidente en los sistemas de discusión online, suscitó la necesidad de la búsqueda y combinación de diversos preprocesamientos y transformaciones que se adecuen a la problemática planteada y optimicen los resultados a obtener.

(7)

7

Capítulo 1

1. Introducción

1.1. Introducción a la problemática

Los avances de las telecomunicaciones y el incremento de la accesibilidad a Internet han fomentado el auge de la comunicación mediada por computadora (CMC, computer-mediated comunication). Este fenómeno ha dado lugar a un interesante paradigma de trabajo colaborativo: el trabajo colaborativo soportado por computadoras (CSCW, computer supported collaborative work). En este contexto, CSCW ha mostrado ser capaz de incrementar la interacción entre usuarios y facilitar el pensamiento crítico en grupos de discusión online. Por tal motivo, CSCW ha sido utilizado como soporte de argumentación colaborativa, originando así, argumentación colaborativa soportada por computadoras (CSCA, computer supported collaborative argumentation). CSCA permite a los usuarios argumentar y debatir para resolver conflictos y comunicarse con otros usuarios en sistemas de trabajo colaborativo. Particularmente, en sistemas CSCW, la construcción, selección y evaluación de argumentos es más difícil que en la argumentación persona a persona, dado que existen factores que complejizan dichos procesos. Por estas razones, es necesario brindar asistencia a dichos usuarios.

(8)

8

1.2. Motivación

Contar con la posibilidad de identificar automáticamente argumentos en procesos de argumentación online abre un gran abanico de aplicaciones. Por ejemplo, es posible analizar y comparar el volumen de argumentación de distintos grupos de trabajo, detectar fallas en las habilidades argumentativas de los usuarios, o utilizar dichos argumentos para entrenar agentes inteligentes que imiten las capacidades argumentativas de los usuarios, entre otras.

Para poder identificar argumentos automáticamente se debe, en primer lugar, analizar cuál es el formato que dichos argumentos poseen. Tradicionalmente un argumento es definido como un conjunto de premisas al cual sigue una conclusión (Palau & Moens, 2009). Por ejemplo:

“En la primavera hace calor y los pájaros anidan. Como estamos en abril, entonces las aves están anidando.”

El indicador de conclusión “entonces” nos muestra que lo que viene después del mismo es la conclusión y lo anterior son las premisas. Sin embargo, cuando hablamos de argumentos expresados en lenguaje natural y especialmente en sistemas de discusión online, mayormente informales, este formato puede verse desdibujado.

(9)

9

Un nuevo desafío que se presenta al momento de identificar argumentos es la independencia contextual del tópico de la discusión, es decir, que la solución presentada no esté supeditada a una única temática.

Finalmente, al tratarse de sistemas de discusiones online, los cuales son mayormente informales, la redacción puede convertirse en un gran inconveniente en este tipo de reconocimiento. Entre ellos podemos mencionar la presencia de emoticones, los errores de tipo ortográfico, mala utilización de símbolos, abreviaturas inexistentes, entre otros.

1.3. Solución propuesta

Como resultado de esta tesis se espera obtener una herramienta que permita identificar argumentos, expresados en lenguaje natural, durante discusiones online en las

que un usuario participe.

El primer desafío consiste en analizar cuáles son los formatos de argumentos que se pueden hallar. Luego, una vez identificados los posibles formatos de argumentos, se recolectará una base de datos que contenga una cantidad suficiente de cada uno de los tipos determinados. Los mismos serán analizados y etiquetados, utilizándolos para entrenar un clasificador que facilite su identificación.

Como solución a los problemas ocasionados por los errores derivados de la informalidad de los archivos de entrada y la dependencia de contexto del tema de discusión, la herramienta desarrollada contará con dos módulos de pre-procesamiento, los cuales tendrán como tarea fundamental optimizar los archivos de entrada.

El primero de los módulos mencionados constará de un corrector ortográfico con el cual el usuario podrá editar los argumentos de entrada, mejorando puntuación y errores ortográficos.

(10)

10

palabra o frase dentro de las sentencias (verbo, sustantivo, adverbio, etc.). Para ello, primero se fragmentará la misma en n-gramas, las cuales serán utilizadas para determinar el comienzo y final de las oraciones (Padró, 2011) (Stanilovsky & Padró, 2012).

Como se mencionó en el apartado anterior, será necesaria la implementación de un clasificador cuya función sea determinar cuáles sentencias son argumentos y cuáles no. Para esto serán analizados distintos algoritmos, entre los que se encuentran Support Vector Machines (SVM), Naives Bayes, árboles de decisión y k-vecinos más cercanos (KNN). Si bien SVM es un algoritmo que se adapta muy bien al reconocimiento de argumentos (Moschitti & Bejan, 2004), se realizará una comparación entre los resultados obtenidos por cada uno de estos clasificadores, eligiendo así el algoritmo que proporcione la mayor precisión.

El proceso de análisis se ilustra en el siguiente diagrama de contexto.

(11)

11

Capítulo 2

2. Marco Teórico

En este capítulo se describen los conceptos teóricos básicos de los diferentes temas que se abordaron en esta tesis, los cuales conforman la base para el entendimiento y desarrollo del trabajo realizado.

En primera instancia se explica el concepto de argumento y los diferentes tipos que se pueden encontrar en textos argumentativos. A continuación, se define el Proceso de extracción de conocimiento (KDD) y se introducen los conceptos de minería de datos y minería de texto y su relación con el aprendizaje automático, haciendo énfasis en el término clasificación y los diferentes algoritmos utilizados para este fin. También se explica el concepto de procesamiento de lenguaje natural (PLN) y las etapas que lo componen. Por último se describen los frameworks Freeling y Weka utilizados para PLN y Clasificación respectivamente.

2.1. Argumentos: definición y tipos

Un argumento se puede definir como una serie de aseveraciones, sea dentro de una oración o dentro de un grupo de oraciones, que individualmente o en su conjunto dicen “apoyar”, “demostrar” o “dar prueba de ” otra aseveración. La aseveración que resulta apoyada, demostrada o probada se denomina conclusión. Hay una sola conclusión para cada argumento, pero puede haber una serie de aseveraciones de apoyo denominadas premisas. (Capaldi, 2000)

(12)

12

representa un gran inconveniente al momento de elegir el método más óptimo para clasificar un argumento candidato.

Con el fin de identificar argumentos, se debe tener en cuenta los siguientes puntos:

 No identificar premisas y conclusiones por su contenido.

 No identificar premisas y conclusiones por su posición o ubicación dentro de

un párrafo. Por diversas razones premisas y conclusiones pueden aparecer en cualquier lado.

 La aparición de las siguientes locuciones al comienzo de una proposición

podrían indicar la presencia de una conclusión: por lo tanto, por ende, así que, de ahí que, en consecuencia, se deriva, por consiguiente, como resultado, luego, entonces, llegamos a la conclusión.

 La aparición de las siguientes locuciones al comienzo de una proposición

podrían indicar la presencia de una premisa: puesto que, ya que, como, en tanto que, dado que, por cuanto, viendo que, a partir de, porque, y, sea como fuere, pero, en efecto.

 En determinados contextos las premisas o conclusiones pueden estar

implícitas.

Teniendo en cuenta la “base” utilizada para respaldar lo que se asevera o lo que se intenta persuadir, los argumentos se pueden clasificar de la siguiente manera:

 Argumentos basados en datos: Se presenta información irrebatible, datos

estadísticos o demostrables, así como también informaciones que se presumen como ciertas o válidas. Sin embargo, no necesariamente la inferencia argumentos-conclusión será cierta, a pesar de que lo sean los datos que la sustentan.

 Argumentos basados en valores: Se apela al sentido emotivo o afectivo del

(13)

13

 Argumentos basados en descripciones: Es una forma de acumular varias

argumentaciones en una. Si se trata de persuadir sobre la importancia de algo en virtud de muchas causas, lo más lógico será describir ese fenómeno, añadiendo detalles que terminen por concluir en la ventaja o desventaja de su aplicación.

 Argumentos basados en comparaciones: Como las personas suelen verse tan

reflejadas en lo que le ocurre a los demás, suelen tener mucho efecto este tipo de argumentos. Se presume que como otro estaba en la misma situación, tomó cierto camino y tuvo ciertos resultados, cuando uno esté en esa situación tomando el mismo camino tendrá los mismos resultados.

 Argumentos por generalización: En algún punto similar a las comparaciones,

pero con algo más de validez científica: si muchos casos iguales en una variable cumplen con cierta condición, probablemente otros con la misma también la cumplen.

 Falacias: En todos los casos anteriores se ha mencionado la posibilidad de

que un argumento parezca cierto, pero no lo sea. Estos casos de engaños han tenido distintas divisiones respecto a donde esté el engaño (afirmación de consecuentes, generalizaciones demasiado amplias, por autoridad, número de adeptos o antigüedad, entre otros tantos), pero comparten la cuestión de una falsa conexión entre las premisas y la conclusión.

2.2. KDD: Proceso de Extracción de conocimiento

(14)

14

calidad que puede usarse para construir conclusiones basadas en relaciones o modelos dentro de los datos. La siguiente figura ilustra las etapas del proceso KDD:

Como muestra la figura 2, las etapas del proceso KDD se dividen en 5 fases:

1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.

2. Pre-procesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.

3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan

(15)

15

operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.

4. Minería de datos. Es la fase de búsqueda de un modelo, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.

5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.

Además de las fases descritas, frecuentemente se incluye una fase previa de análisis

de las necesidades de la organización y definición del problema, en la que se establecen los objetivos del KDD. También es usual incluir una etapa final, donde los resultados obtenidos se integran al negocio para la realización de acciones comerciales.

2.3. Minería de datos

Es importante diferenciar minería de datos y KDD aunque muchas investigaciones los dan como sinónimos. Esto se debe a que muchas veces no todas las etapas del KDD son necesarias y no es posible identificar claramente la etapa de minería de datos.

Por lo tanto, la minería de datos puede ser definida como una etapa particular dentro del proceso de KDD, donde se aplican algoritmos o técnicas específicas para la extracción de patrones en grandes volúmenes de datos. Para llevar a cabo su análisis, utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

(16)

16

2.4. Minería de Texto

Partiendo de la definición de Minería de Datos explicada en el apartado anterior, podemos extender la misma idea a la Minería de Textos, en donde los datos procesados serán documentos de texto plano, en lugar de datos contenidos en bases de datos (Jeria, 2007).

La minería de textos es una de las ramas de la lingüística computacional que trata de obtener información y conocimiento a partir de un conjunto de datos que en principio no tienen una estructura determinada.

Esta se define como el proceso de descubrimiento de patrones interesantes y nuevos conocimientos en una colección de textos, es decir, es el proceso encargado del descubrimiento de conocimiento que no existía explícitamente en ningún texto de la

colección, pero que surgen de relacionar el contenido de varios de ellos. Este proceso consiste de dos etapas principales: una etapa de pre-procesamiento y una etapa de descubrimiento. En la primera etapa, los textos se transforman a algún tipo de representación estructurada o semi-estructurada que facilite su posterior análisis, mientras que en la segunda etapa las representaciones intermedias se analizan con el objetivo de descubrir en ellas algunos patrones interesantes o nuevos conocimientos.

2.5. Aprendizaje automático

Como se mencionó anteriormente, tanto la minería de datos como la minería de textos utilizan en su análisis los métodos del aprendizaje automático. El Aprendizaje Automático (AA) es la rama de la Inteligencia Artificial que tiene como objetivo desarrollar técnicas que permitan a las computadoras aprender (Jeria, 2007). De forma más concreta, se trata de crear algoritmos capaces de generalizar comportamientos y reconocer patrones a partir de una información suministrada en forma de ejemplos. Es un proceso

(17)

17

generalización un enunciado general a partir de enunciados que describen casos particulares.

En muchas ocasiones el aprendizaje automático se solapa con la Minería de Datos, ya que las dos disciplinas están enfocadas en el análisis de datos. Sin embargo, el aprendizaje automático se centra más en el estudio de la complejidad computacional de los problemas desde el punto de vista práctico, no únicamente teórico.

A un nivel muy básico, podríamos decir que una de las tareas del AA es intentar extraer conocimiento sobre algunas propiedades no observadas de un objeto basándose en las propiedades que sí han sido observadas, en pocas palabras, predecir comportamiento futuro a partir de lo que ha ocurrido en el pasado.

Hay un gran número de problemáticas que caen dentro de lo que

llamamos aprendizaje automático. La principal diferencia entre ellos radica en el tipo de objetos que intentan predecir. Algunas clases habituales son regresión, clasificación, ranking, etc.

El aprendizaje automático puede clasificarse en Aprendizaje supervisado o no supervisado (Dubiau, 2013), dependiendo del tipo de salida que se produzca y de cómo se aborde el tratamiento de los ejemplos.

 Aprendizaje supervisado: se genera una función que establece una

correspondencia entre las entradas y las salidas deseadas del sistema, donde la base de conocimientos está formada por ejemplos etiquetados a priori. Es decir, ejemplos de los que sabemos su clasificación correcta.

 Aprendizaje no supervisado: donde el proceso de modelado se lleva a cabo

(18)

18

categoría de ejemplos desconocidos. Puntualmente, se utilizaron algoritmos de clasificación.

2.6. Clasificación

La clasificación de textos puede definirse como la tarea de aproximar una función de asignación de categoría desconocida F: DxC->{0,1}, donde D es el conjunto de documentos y C es el conjunto de categorías pre-definidas (Valero, 2005). El valor de F(d,c) es 1 si el documento d pertenece a la categoría c de otra manera el valor es 0. La función de aproximación M: DxC->{0,1} se conoce como clasificador o modelo, y el objetivo es construir un clasificador que produzca resultados tan cercanos como sea posible a la función de asignación de categoría (Sebastiani, 2002) (Feldman & Data., 2007). Cuando un clasificador se construye mediante aprendizaje de máquina un proceso inductivo examina las características de un conjunto de documentos de entrenamiento clasificados por expertos, y a partir de estas características, el proceso inductivo infiere las condiciones que deberían cumplir los documentos nuevos o no examinados para ser clasificados bajo una u otra categoría. En tanto que, la comparación de las decisiones de clasificación de los expertos (sobre un conjunto de prueba) con las categorías reconocidas automáticamente permite evaluar la efectividad de los clasificadores automáticos. Cuatro cuestiones deben abordarse cuando se usa aprendizaje de máquina para construir un clasificador automático.

 Decidir las categorías usadas para catalogar las instancias.

 Obtener un conjunto de entrenamiento para cada categoría.

 Decidir qué características representan a las instancias.

 Seleccionar el algoritmo de clasificación a usar.

(19)

19

Una alternativa para verificar o medir la efectividad del clasificador es la matriz de confusión. Una matriz de confusión nos permite visualizar mediante una tabla de contingencia la distribución de errores cometidos por un clasificador. Esta matriz de confusión para el caso de dos clases tiene la siguiente apariencia:

SI NO

SI VP FN

NO FP VN

Figura 3. Matriz de Confusión.

Dónde:

 VP (Verdaderos positivos): instancias correctamente reconocidas por el sistema.

 FN (Falsos negativos): instancias que son positivas y que el sistema dice que no lo

son.

 FP (Falsos positivos): instancias que son negativas pero el sistema dice que no lo es.

 VN (Verdaderos negativos): instancias que son negativas y correctamente

reconocidas como tales.

Suponiendo que N es el número del conjunto de datos de entrenamiento, entonces:

El número de instancias clasificadas correctamente es la suma de la diagonal de la matriz y el resto están clasificadas de forma incorrecta.

Otra manera de validar la eficacia de un clasificador es basarnos en la tasa de error y la tasa de acierto. Estas tasas se calculan de la siguiente manera:

 Tasa de error = FP+FN/N

 Tasa de acierto = VP+VN/N

(20)

20

2.6.1. Naive Bayes

Naive Bayes es uno de los modelos probabilistas más simples y más usados en clasificación de texto porque produce resultados tan buenos como otros modelos más sofisticados (Anguiano-Hernández, 2009). Se basa en la aplicación de la Regla de Bayes para predecir la probabilidad condicional de que un documento pertenezca a una clase

( | )a partir de laprobabilidad de los documentos dada la clase ( | ) y la

probabilidad a prioride la clase en el conjunto de entrenamiento ( ).

( | ) ( ) ( | ) ( )

Dado que la probabilidad de cada documento ( ) no aporta informaciónpara la

clasificación, el término suele omitirse. La probabilidad de un documento dada la clase suele asumirse como la probabilidad conjunta de los términos que aparecen en dichos documentos dada la clase y se calculan como:

( | ) ∏ ( | ) | |

Adicionalmente, el modelo Naive Bayes Multinomial considera la frecuencia de aparición de cada término en los documentos en vez de una ocurrencia binaria:

( | ) ∏ ( | ) | |

El término ( | )se calcula a partir del número de apariciones de cada término en una clase pero para evitar el problema de las probabilidades 0se usa la estimación de Laplace:

(21)

21

Donde ( | ) es el número de ocurrencias de en , | | es el tamaño del vocabulario y ( ) es el conteo total de palabras en . De este modo, laclasificación se hace buscando el argumento que maximiza la función:

( ) ( ) ∏ ( | )

| |

2.6.2. Máquinas de Vectores de Soporte (SVM)

Las Máquinas de Vectores de Soporte (Scholkopf, Smola, Mtiller, Burges, & Vapnik, 1998) intentan separar los ejemplos, basándose en su categoría, en el espacio de n dimensiones siendo n el número total de atributos o características, mediante hiperplanos de la forma w + b, tal que

x w + b ≥ +1 → categoría = sí

x w + b ≥ -1 → categoría = no

siendo x el ejemplo representado como un vector de n componentes. Aquí, w es el vector de soporte perpendicular al hiperplano, y corresponde a los ejemplos que se sitúan más allá o en los límites de la categoría a la que pertenecen como se puede ver en la Figura 4.

(22)

22

Los vectores de soporte definen también, mediante su módulo, un margen unitario entre el hiperplano y los ejemplos positivos y negativos más cercanos (esa es la razón de los umbrales +1 y -1). Para cada categoría el algoritmo trata de encontrar w maximizando el margen. Para clasificar un ejemplo nuevo simplemente se aplica la expresión anterior. Esta simple implementación del método es la que se emplea en los experimentos, aunque existe un gran abanico de variaciones mucho más sofisticadas.

2.6.3. K-Vecinos Más Cercanos (KNN)

KNN es un algoritmo basado en memoria (Teknomo, 2004), con la idea subyacente de que las experiencias pasadas pueden ayudar a resolver las presentes mediante analogía. Considera a cada ejemplo como un vector de n componentes, siendo nuevamente n el número de atributos o características. No necesita una etapa de aprendizaje. Para inferir la clase de un ejemplo desconocido hasta el momento, el algoritmo compara ese ejemplo con todos los ejemplos de entrenamiento o memoria calculando la distancia entre ellos. A continuación, la clase mayoritaria de entre los K ejemplos más similares al de entrada es la categoría inferida para el mismo. La medida de distancia empleada es la distancia Euclídea entre dos vectores. Sin embargo, existen más posibilidades recogidas en la literatura.

2.6.4. Árboles de Decisión ID3 y C4.5

El modelo producido por este algoritmo es un árbol (Quinlan, 1993), donde cada nodo corresponde a un atributo y cada arco del nodo corresponde a un posible valor del atributo nodo.

(23)

23

menor es el seleccionado para formar el siguiente nodo. El proceso continua hasta que no hay más atributos que seleccionar o bien hasta que el número de ejemplos agrupados bajo un nodo es menor que un umbral. En este último caso, se forma un nodo hoja correspondiente a la categoría mayoritaria de los nodos agrupados bajo ese nodo.

Para clasificar sólo hay que seguir el árbol de arriba abajo y la hoja final es la categoría inferida. Los caminos desde la raíz hasta los nodos hoja se pueden ver como reglas, donde el antecedente está formado por la intersección de los pares atributo-valor de los caminos.

C4.5 es una ampliación de ID3 que permite el uso de atributos numéricos continuos, tiene en cuenta los valores ausentes y realiza un proceso de poda inteligente del árbol para reducir su tamaño y permitir así tratar con un gran número de ejemplos. El árbol J48

usado en los experimentos de este trabajo es una implementación de C4.5.

2.7. Procesamiento de lenguaje natural (PLN)

Una de las ramas más importantes de la Inteligencia Artificial es aquella orientada a facilitar la comunicación hombre-computadora por medio del lenguaje humano, o lenguaje natural. El Procesamiento del Lenguaje Natural (PLN) es la disciplina encargada de producir sistemas informáticos que posibiliten dicha comunicación. Las aplicaciones de PLN necesitan estudiar el lenguaje natural en profundidad y para esto utilizan distintos tipos de análisis. El estudio del lenguaje natural se estructura normalmente en los siguientes niveles:

 Análisis Morfológico: la morfología es la rama de la lingüística que se preocupa por

la descripción de la estructura de las palabras y el proceso de formación de las mismas. La idea general es que los morfemas individuales pueden ser combinados para formar palabras.

 Sintáctico: la sintaxis, o construcción de oraciones, es el nivel más bajo en el cual el

(24)

24

estructura de las oraciones por parte de la computadora es llevado a cabo por un algoritmo llamado parsing.

 Semántico: la semántica, o significado, es el nivel en el cual el lenguaje hace

contacto con el mundo real. Se trata de la primera tarea del componente interpretativo, la cual consiste en asignar un significado a cada una de las oraciones analizadas independientemente del contexto. La semántica oracional es una parte imprescindible de cualquier sistema, ya que sin ella no podríamos asignar significado a las estructuras analizadas.

 Pragmático: se refiere al uso del lenguaje en el contexto. En general la pragmática

incluye aspectos del conocimiento conceptual del mundo que van más allá de las

condiciones reales literales de cada oración. Este conocimiento lo tienen en cuenta los hablantes cuando se comunican mediante una lengua. Les sirve para comprender mucha información sobreentendida pero no expresada explícitamente en las oraciones. Mientras la sintaxis y semántica estudia las oraciones, la pragmática estudia “las acciones del discurso” y las situaciones en las cuales el lenguaje es usado.

Muchos de estos análisis se utilizan encadenados. Por ejemplo, para realizar el análisis semántico se necesitan los resultados del análisis sintáctico y a su vez el análisis sintáctico utiliza los resultados del análisis morfológico. Además, es posible que se necesiten recursos como diccionarios, gramáticas, etc.

(25)

25

un conjunto de etiquetas que representan las diversas categorías lingüísticas o extra-lingüísticas.

Las anotaciones pueden tener atributos, por ejemplo, un análisis que busca todos los nombres propios de personas en un texto (María, Pedro, etc.), podría etiquetar o anotar cada nombre y además, a cada anotación agregarle un atributo que diga si el nombre es femenino o masculino. El hecho que las anotaciones tengan atributos permite representar otros tipos de análisis más complejos ya que una anotación puede tener a otras anotaciones como atributos.

2.8. Framework de procesamiento de lenguaje natural:

Freeling

FreeLing es una librería de código abierto para el procesamiento multilingüe, que

proporciona una amplia gama de funcionalidades de análisis para varios idiomas (Padró, 2011) (Stanilovsky & Padró, 2012).

El proyecto FreeLing se inició desde el centro TALP de la UPC para avanzar hacia la disponibilidad general de recursos y herramientas básicos de Procesamiento del Lenguaje Natural (PLN). Esta disponibilidad debería posibilitar avances más rápidos en proyectos de investigación y costes más reducidos en el desarrollo de aplicaciones industriales de PLN.

El proyecto se estructura como una librería que puede ser llamada desde cualquier aplicación de usuario que requiera servicios de análisis del lenguaje. El software se distribuye como código abierto bajo una licencia GNU General Public License y bajo licencia dual a empresas que deseen incluirlo en sus productos comerciales.

La naturaleza de código abierto del proyecto ha hecho también posible, junto con su arquitectura modular, incorporar el código de otros proyectos similares, como el módulo de desambiguación del sentido de las palabras. La versión actual soporta (a diferentes niveles de completitud) las siguientes lenguas: asturiano, catalán, español, galés, gallego, inglés, italiano, portugués, y ruso.

(26)

26

La arquitectura de la librería se basa en un enfoque de dos capas cliente-servidor: una capa básica de servicios de análisis lingüístico (morfológico, morfosintáctico, sintáctico, etc.) y una capa de aplicación que, actuando como cliente, realiza las peticiones deseadas a los analizadores y usa su respuesta según la finalidad de la aplicación. La arquitectura interna de la librería se estructura en dos tipos de objetos:

 Clases de almacenamiento de datos lingüísticos: Las clases básicas de la librería

tienen la finalidad de contener los datos lingüísticos (palabras, etiquetas morfológicas, frases, árboles sintácticos, párrafos, etc.) resultado de los análisis

realizados. Cualquier aplicación cliente debe usar estas clases para poder proporcionar a los módulos de análisis los datos en el formato oportuno, y para poder recuperar el resultado de los analizadores. Las clases de datos lingüísticos en la versión actual son las siguientes:

 Analysis: Una tupla <lema, etiqueta, probabilidad, lista de

sentidos>.

 Word: Forma de una palabra, con una lista de posibles objetos

analysis.

 Sentence: Una lista de objetos word marcada como una frase

completa. Puede contener también un árbol de constituyentes o de dependencias.

 Paragraph: Una lista de objetos Sentence marcada como un

párrafo independiente.

 Document: Una lista de objetos paragraph que forman un

documento completo. Puede contener también información sobre la correferencia entre las menciones a entidades del documento.

(27)

27

 Clases de procesamiento: Aparte de las clases para contener datos lingüísticos

descriptos anteriormente, la librería proporciona también clases para transformarlos, usualmente enriqueciéndolos con información adicional. Las clases de procesamiento son las siguientes:

(28)

28

 Lang_ident: Identificador de idioma. Recibe texto plano y

devuelve una lista de pares <idioma,probabilidad>.

 Tokenizer: Recibe texto plano y devuelve una lista de objetos

word.

 Splitter: Recibe una lista de objetos word y devuelve una lista de

objetos sentence.

 Morfo: Recibe una lista de objetos sentence y analiza

morfológicamente cada word de cada sentence de la lista. Esta clase es un meta-analizador que simplemente aplica una cascada de analizadores especializados (detección de números, fechas, locuciones y multi-palabras, etc.), cada uno de los cuales

es a su vez una clase de procesamiento que puede ser llamada independientemente si fuese necesario.

 Tagger: Recibe una lista de objetos sentence y desambigua la

categoría morfosintáctica de cada palabra en las frases de la lista. Si el análisis seleccionado incorpora información de retokenización, la palabra puede separarse en varias. FreeLing ofrece dos taggers con una precisión de aproximadamente 98 %: Uno basado en modelos ocultos de Markov, y otro basado en relaxation labelling que permite la combinación de información estadística con reglas manuales.

 NEclassifier: Recibe una lista de objetos sentence y clasifica

cada word etiquetada como nombre propio que aparezca en las frases dadas.

 Sense annotator: Recibe una lista de sentence y añade

(29)

29

 Word sense disambiguator: Recibe una lista de objetos

sentence y ordena por relevancia en el contexto los posibles sentidos de cada palabra.

 Chunkparser: Recibe una lista de sentence y enriquece cada una

con un árbol de análisis.Este módulo consiste en un chart parser.

 Dependencyparser: Recibe una lista de sentence analizadas

sintácticamente y las enriquece con un árbol de dependencias. Este módulo usa un conjunto de reglas escritas manualmente que operan en tres etapas: primero completan el árbol sintáctico superficial construido por el chart parser, a

continuación transforman el árbol de constituyentes a dependencias, y finalmente etiquetan la función de cada dependencia.

 Coreferencesolver: Recibe un documento formado por objetos

sentence analizados sintácticamente y lo enriquece con información de correferencia.

2.9. Framework de aprendizaje automático: Weka

(30)

30

Nativamente Weka trabaja con un formato denominado arff, acrónimo de Attribute-Relation File Format. Este formato está compuesto por una estructura claramente diferenciada en tres partes:

1. Cabecera. Se define el nombre de la relación. Su formato es el siguiente: relation <nombre-de-la-relacion>

Donde <nombre-de-la-relacion> es de tipo String. Si dicho nombre contiene algún espacio será necesario expresarlo entrecomillado.

2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán nuestro archivo junto a su tipo. La sintaxis es la siguiente:

@attribute <nombre-del-atributo>

Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos:

a) NUMERIC Expresa números reales . b) INTEGER Expresa números enteros.

c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entrecomillada. La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidades de tiempo:

 dd Día.

 MM Mes.  yyyy Año.  HH Horas.  mm Minutos.  ss Segundos.

d) STRING Expresa cadenas de texto.

(31)

31

de caracteres) que puede tomar el atributo. Por ejemplo, si tenemos un atributo que indica el tiempo podría definirse:

@attribute tiempo {soleado,lluvioso,nublado}

3. Sección de datos. Declaramos los datos que componen la relación separando entre comas los atributos y con saltos de línea las relaciones:

@data 4,3.2

En el caso de que algún dato sea desconocido se expresará con un símbolo de cerrar interrogación (“?"). Es posible añadir comentarios con el símbolo “%”, que indicará que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios

pueden situarse en cualquier lugar del fichero. Un ejemplo de un archivo arff puede observarse en la figura 6.

% Archivo de prueba para Weka.

@relation prueba

@attribute nombre STRING

@attribute ojo_izquierdo {Bien,Mal}

@attribute dimension NUMERIC

@attribute fecha_analisis DATE "dd-MM-yyyy

HH:mm"

@data

Antonio,Bien,38.43,"12-04-2003 12:23"

’Maria Jose’,?,34.53,"14-05-2003 13:45"

Juan,Bien,43,"01-01-2004 08:04" 13

Maria,?,?,"03-04-2003 11:03"

(32)

32

2.10. Resumen

En este capítulo se explicaron los conceptos básicos necesarios para el entendimiento del presente trabajo.

Un argumento es un conjunto de aseveraciones seguidas de una conclusión, que tiene como objetivo demostrar o apoyar una idea.El mismo no posee orden ni estructura, donde se pueden entrelazar premisas y conclusiones, y aun así lograr su cometido. Además, dependiendo del contexto, una misma aseveración pueden ser premisas en un argumento y conclusión en otra.

KDD es un proceso no trivial que tiene como objetivo extraer conocimiento e información útil de un repositorio de datos, la cual puede ser utilizada para construir conclusiones basadas en relaciones y modelos dentro de los mismos.

La Minería de datos es una etapa dentro de KDD donde se aplican algoritmos y técnicas específicas con el objetivo de extraer patrones en grandes volúmenes de datos. La información a analizar es de tipo estructurada, principalmente en base de datos relacionales.

La minería de texto comparte el mismo objetivo que el de la minería de datos. La diferencia entre ambos radica en el tipo de información que analizan. En este caso, los datos de entrada son textos planos que no poseen una estructura definida.

Ambas minerías utilizan en sus análisis los métodos del aprendizaje automático (AA), rama de la inteligencia artificial que buscar crear algoritmos capaces de reconocer patrones y generalizar comportamiento a partir de información con casos particulares. En pocas palabras se intenta predecir comportamiento futuro basándose en lo ocurrido en el pasado.

Teniendo en cuenta el tipo de información que se intenta descubrir en este trabajo,

(33)

33

Entre los algoritmos provistos por el AA se encuentran los algoritmos de clasificación, los cuales buscar determinar una función que permita definir la clase a la cual pertenece una instancia en particular. Algunos de los algoritmos de clasificación más conocidos son Naives Bayes, máquinas de vectores de soporte (SVM), k-vecinos más cercanos, entre otros. Weka es un conjunto de librerías Java para extracción de conocimiento que implementa un gran número de los algoritmos de aprendizaje automático, entre los que se encuentran los de clasificaciones explicadas en el reciente apartado.

El procesamiento de lenguajes natural (PLN) es la disciplina encargada de producir sistemas informáticos que faciliten la comunicación hombre-computadora por medio de lenguaje humano. Está compuesto por varias etapas, que se ejecutan de forma

encadenada. Entre ellas se pueden mencionar el análisis morfológico, sintáctico, pragmáticos, entre otros. Freeling es una herramienta de PLN open source que implementa un conjunto de funcionalidades con el objetivo de brindar soporte a los análisis mencionados anteriormente.

(34)

34

Capítulo 3

3. Trabajos Relacionados

En este capítulo se presentan algunas investigaciones enfocadas en la detección de argumentos para distintos tipos de textos. Dichos trabajos fueron utilizados como punto de partida para la realización de la presente tesis, brindando un panorama del estado del arte, las limitaciones encontradas y algunas de las herramientas y técnicas habitualmente utilizadas para este fin.

3.1. Detección de argumentos en textos legales.

La argumentación juega un papel importante en diversas áreas. Muchos profesionales como científicos, abogados, periodistas o gerentes, implícita o explícitamente manejan argumentos sistemáticamente. Estos consumen gran cantidad de tiempo y esfuerzo interpretando grandes volúmenes de datos, ya sea para detectar argumentos, validar o refutar alguna idea, entre otros.

Los textos argumentativos suelen aparecer muy frecuentemente en el ámbito legal. Debido a esto Mochales Palau y Moens (Moens, Boiy, Palau, & Reed, 2007) centraron su trabajo en este tipo de textos, brindando una herramienta a los abogados que facilite el procesamiento de dichos textos.

Por un lado, se enfocaron en clasificar si un determinado texto era o no un

(35)

35

En los primeros trabajos de Mochales Palau y Moens relacionados a esta temática enfocaron sus esfuerzos en la detección automática de argumentos en textos legales a un nivel de sentencias, determinando cuáles de ellas son argumentativas y cuáles no. Cada sentencia fue representada como un vector de características, entre las que se pueden mencionar:

 Unigramas: Cada palabra dentro de una sentencia. Se consideraron dos

variantes, las cuales se diferencian en el tratamiento que realizan sobre los signos de puntuación.

 Bigramas: Pares de palabras sucesivas dentro de cada oración.

 Trigramas: Tercetos de palabra sucesivas dentro de cada sentencia.

 Adverbios: Los adverbios son detectados por medio del POS (part of speech)

tagger. Estos pueden dar indicios de información argumentativa.

 Verbos: Se realizó un tratamiento similar al ítem anterior. Solo los verbos

principales fueron considerados (a excepción del “to be”, “to do” y “to have”).

 Auxiliares modales: Característica binaria que indica la presencia de un

modal auxiliar. Este indica un nivel de necesidad. Por ejemplo:

o must/need to/have to = obligación, requerimiento sin alternativa

o should/ought to/had better = recomendacion

o can/could = condicional

o may/might = con opción o alternativa

o will/shall = intención

o would = condicional.

Estos verbos podrían indicar la presencia de un argumento, y al igual que en las dos características anteriores, su presencia es detectada por medio del POS Tagger.

 Tuplas de palabras: Todas las posibles combinaciones de pares de palabras.

(36)

36

anteriormente. Como desventaja se debe mencionar que el vector resultante crece en gran medida.

 Estadísticas del texto: Se consideraron los siguientes detalles:

o longitud de sentencia

o Longitud de palabra promedio

o Cantidad de signos de puntuación

 Puntuación: Tuvieron en cuenta las secuencias de signos de puntuación.

 Palabras claves: Consideraron 286 secuencias de palabra o palabras

obtenidas a partir de una lista de términos indicativos de argumentos. Por ejemplo “but”, ”consequently”, and ”because of”.

 Árbol de características: Se analizaron las profundidades de los árboles

obtenidos de cada sentencia.

Teniendo en cuenta estas características se entrenaron dos clasificadores, Naives Bayes Multinomial y Modelo de Máxima Entropía, usando como dataset el Corpus Araucaria obteniendo como mejor resultado una efectividad de 73,75% utilizando Naives Bayes Multinomial como clasificador y la siguiente combinación de características: tuplas de palabras, verbos y longitud de sentencias.

En trabajos posteriores Mochales Palau y Moens, focalizaron su investigación en la detección de premisas y conclusiones en sentencias argumentativas. Clasificaron cada una de las sentencias en argumentativas o no utilizando un algoritmo de máxima entropía. Una vez determinadas cuáles son argumentativas, aplicaron como segundo clasificador SVM (Support Vector Machine) para identificar premisas y conclusiones. En este análisis se tuvieron en cuenta características más específicas a las consideradas en trabajos anteriores, entre las que se pueden mencionar:

 Ubicación absoluta: Posición de la sentencia con respecto al documento.

 Longitud de sentencia: Atributo binario que indica si la longitud de la

(37)

37

 Tiempo verbal: Se analizó el tiempo verbal de la oración principal de la

sentencia.

 Historia: La categoría más probable, tanto de las sentencias previas como

posteriores.

 Información del primer clasificador: resultados del clasificador basado en el

algoritmo de máxima entropía.

 Patrones retóricos: Tipo de patrón retórico de la sentencia actual, previa y

posterior. Se tuvieron en cuenta 5 tipos (apoyo, contraposición, conclusión,

otros o ninguno).

 Referencia a un artículo: Atributo binario que indica una referencia a un

artículo o ley, detectada por el POS Tagger.

 Artículo: Atributo binario que indica la presencia de la definición de un

artículo o ley. Como en al caso anterior, esta información fue detectada por medio del POS Tagger.

 Patrones argumentativos: Tipo de patrón argumentativo detectado en la

sentencia.

 Tipo de actor: El sujeto de la sentencia puede ser el demandante, el

demandado, el juzgado u otro.

 Tipo de verbo principal: Tipo argumentativo del verbo principal de la

sentencia. Se distinguen 4 tipos: premisa, conclusión, decisión final o ninguno.

Para entrenar el clasificador utilizaron como dataset ECHR (European Court of human Rights) obteniendo como mejor resultado una precisión de 77,49% en la detección de conclusiones y un 70,19% en la detección de premisas utilizando la siguiente combinación de características: ubicación absoluta, longitud de sentencia y tiempo verbal de la oración principal de la sentencia.

(38)

38

gramaticalmente el texto de entrada. Con este enfoque se obtuvo una precisión de alrededor del 60%.

3.2. Identificación de argumentos de editoriales chinas.

La identificación de argumentos ofrece una amplia variedad de aplicaciones prácticas. Si los textos argumentativos pueden ser identificados de forma precisa, entonces los argumentos principales de un conjunto extenso de datos pueden ser extraídos. Por ejemplo, la detección de argumentos podría aislar argumentos referentes a temáticas tales como la ley de migraciones estadounidense o resumir textos de investigación.

Marisa Chow (Chow, 2016) se encontró con varias investigaciones realizadas en el campo de la minería de argumentos, pero ninguno enfocado en el idioma chino mandarín. Chow desarrolló y presentó varios métodos para la detección de argumentos

orientados a corpus compuestos por textos de editoriales chinas, asumiendo que estos son textos ideales, a pesar de que una única editorial pueden contener tanto textos argumentativos como no. (Chow, 2016)

En su trabajo se encontró con diversos desafíos. Dado un contexto, algunas opiniones o ideas pueden no estar expresadas a un nivel de palabras, quedando de forma implícita. También los métodos por los cuales intentan expresan sus ideas pueden variar enormemente de una editorial a otra. Por ejemplo, unas pueden presentar la conclusión seguida de las premisas que lo justifican y otras pueden no presentar esas conclusiones hasta el final del párrafo. Dado que un argumento puede tener una longitud difícil de delimitar y ser extensa en demasía, se definió como longitud máxima 200 caracteres (aproximadamente entre 3 y 5 sentencias).

(39)

39

descartados. Esto se debió en gran medida a la imposibilidad de dividir razonablemente dicho párrafo en sentencias.

Para etiquetar los 719 párrafos que componen el corpus de editoriales utilizó empleados de Amazon Mechanical Turk. Para cada párrafo, al empleado se le cuestionó si el autor del texto expresaba un argumento o no. Como respuesta, brindó una clasificación entre 3 opciones posibles: “si es un argumento”, “no es un argumento”, “no estoy seguro”.

La tarea consistió en presentarles un párrafo a 3 trabajadores distintos, donde cada uno realizó su categorización. En las categorizaciones realizada por estas personas, solo en el 26% de los párrafos hubo consenso. El resto de los párrafos resultantes contenían al menos 2 respuestas distintas. Teniendo en cuenta que los párrafos etiquetados con 3

respuestas distintas no brindaban información relevante, estos no fueron tomados en cuenta. Con este pre-procesado, el dataset final quedó compuesto por 622 párrafos. En la figura tanto se muestra la distribución obtenida del proceso de clasificación

En primera medida se puntuaron los párrafos por diversos métodos que se explicaran a continuación. Con esto buscó identificar el mejor umbral para cada uno de ellos, con el objetivo de clasificar entre textos argumentativos o no.

(40)

40

3.2.1. Comparación de frecuencia de palabras

Este método de evaluación se basó en el proceso presentado por Kim y Hovy en su paper “identifying opinion-bearing words” (Kim & Hovy, 2005). En un principio se construyó una lista de pares palabra-score, los cuales fueron utilizados posteriormente para evaluar los textos de las editoriales. Se basó en la idea de que las palabras que aparecen más frecuentemente en textos de editoriales que en textos de otros ámbitos pueden ser palabras que soportan argumentos. Por cada palabra se calcula un score basado en la siguiente fórmula:

Una vez obtenido la puntuación individual por palabra, se puntúa cada párrafo teniendo en cuenta las palabras que lo componen a este. Si un párrafo P contiene n palabras de opiniones con sus correspondientes frecuencias f1, f2… fn y scores asignados

s1, s2….sn, entonces el score correspondiente a un párrafo se calcula mediante la siguiente ecuación:

Con esta información, se determinó que el mejor umbral de puntuación es de 40.0.

3.2.2. Palabras argumentativas conocidas

El segundo método implica la creación de una lista de palabras argumentativas que aparecen en el corpus de Editoriales y puntuar los párrafos basándose en la cantidad de ocurrencias de las mismas.

Para esto, Chow seleccionó manualmente las frases argumentativas más frecuentes, obteniendo una lista de palabras con su frecuencia asociada.

(41)

41

palabras argumentativas podría indicar que el párrafo también lo era. Finalmente, llegó a la conclusión de que la mejor lista estaba compuesta por 15 palabras y el umbral era de 1, es decir, que si al menos contenía una palabra de la lista era etiquetada como positiva.

3.2.3. Método combinado

Este método consiste en la combinación de los dos anteriores. Al igual que en el 2 método, se puntuó cada párrafo basándose en una lista de palabras argumentativas. Sin embargo, en lugar de generar manualmente dicha lista, esta fue creada a partir de las palabras con más alta puntuación obtenidas a partir del primer método. Este método se basó en la idea de que las palabras con más alta puntuación son aquellas que soportan un argumento, dado que estas aparecen más frecuentemente en los textos de editoriales por

sobre los de reportajes.

De igual manera que el método 2, se puntuó el párrafo a través de las ocurrencias de estas palabras, determinando que el mejor umbral era 1.

3.2.4. Resultados

Finalmente, el mejor resultado se obtuvo con el método de comparación de frecuencia de palabras con un 84% de eficacia y un F1 de 0.91. La tabla completa de resultados se muestra en la figura 8.

(42)

42

3.3. Resumen

Muchos avances en la detección de argumentos se han obtenido a partir de las investigaciones de Mochales Palau y Moens. El gran número de argumentos contenidos en textos del ámbito legal condujo su enfoque a la detección en este tipo de textos.

En el primer trabajo descripto en el presente capitulo, su enfoque se centró en determinar si el texto analizado contenía sentencias argumentativas. Para ello presentaron varias técnicas de pre procesado y transformaciones enfocadas en características tales como: unigramas, bigramas, trigramas, adverbios, verbos, tuplas de palabras, Estadísticas del texto, palabras claves, entre otras. Utilizando los algoritmos de clasificación Naive Bayes y Modelo de Máxima entropía, generaron modelos a partir de la selección y combinación de las características antes descriptas. Luego de las pruebas realizadas llegaron a la conclusión de que la combinación que brindaba una mayor efectividad a la hora de la detección estaba conformada por Naives Bayes Multinomial como clasificador y tuplas de palabras, verbos y longitud de sentencias como características a analizar, obteniendo un 73,75% de efectividad.

Posteriormente Mochales y Moens agregaron una tarea más al proceso de clasificación: la distinción entre premisas y conclusiones dentro de una sentencia argumentativa. El trabajo consistió en primer lugar en clasificar las sentencias en argumentativas o no argumentativa utilizando un algoritmo de máxima entropía como clasificador. Si la clasificación resultase positiva, por medio de un clasificador SVM se buscó identificar premisas y conclusiones. Para este análisis se tuvieron en cuenta características más específicas que las utilizadas en trabajos anteriores tales como: ubicación absoluta, longitud de sentencia, tiempo verbal, historia, información del primer clasificador, tipo de actor, tipo de verbo, entre otros. Con esta técnica se obtuvo como

(43)

43

Basándose en la limitación que se presenta al momento de determinar los límites de cada argumento como así también la relación entre cada uno de ellos, presentaron una alternativa basada en una gramática libre de contexto. Con esta variante obtuvieron una precisión del 60% aproximadamente.

Otro de los trabajos propuestos es el orientado a la identificación de argumentos en editoriales chinas realizado por Marisa Chow, quien asumió que estos textos son una fuente rica de textos argumentativos. Chow presentó en este trabajo algunas limitaciones o consideraciones especiales las cuales fueron utilizadas en el pre procesamiento como por ejemplo la cantidad máxima de símbolos de un párrafo. El enfoque se basó en la puntuación de cada párrafo y en la búsqueda de un umbral que indicara que un cierto párrafo es argumentativo o no. Para ello Chow presentó tres variantes:

 Comparación de frecuencia de palabra: se determinó una puntuación para cada

palabra basándose en la cantidad de apariciones en textos argumentativos con respecto a la ocurrencia en los que no lo son. Finalmente se puntúa cada párrafo como la suma del producto de las frecuencias de estas palabras en el párrafo a analizar y la puntuación obtenida anteriormente. El umbral obtenido con esta técnica es de 40.

 Palabras argumentativas conocidas: generó una lista de palabras

argumentativas y las puntuó basándose en la cantidad de ocurrencias. Luego puntuó los párrafos otorgándole un punto por cada ocurrencia de estas frases, llegando a la conclusión de que la lista optima estaba compuesta por 15 palabras y el umbral era de 1.

 Método combinado: consiste en la combinación de los dos métodos anteriores

donde la lista de frases argumentativas se obtuvo de forma automática a partir las palabras con mayor puntuación obtenidas a partir del primer método. Al igual que en el segundo método, determino que el mejor umbral era de 1.

(44)

44

(45)

45

Capítulo 4

4. Enfoque propuesto

Este capítulo se estructura detallando cada una de las etapas del proceso KDD aplicado a la problemática planteada. Inicialmente se define cual es la fuente de datos y se explican algunos pre-procesamientos y transformaciones que se debieron aplicar previos a la generación del modelo. Luego se detallan cada uno de los modelos generados a partir de los distintos enfoques y consideraciones particulares, con el objetivo de encontrar el modelo más adecuado a este contexto.

4.1. Selección de datos

La herramienta debe ser capaz de identificar argumentos en foros de discusión o chat online. En este ámbito predomina el lenguaje informal, con una estructura lingüística poco clara y abreviaciones conocidas en ese contexto, pero no tan claras al momento de analizarlas automáticamente. Con el objetivo de que el “ruido” generado por estas variantes influya significativamente en el modelo generado, se decidió utilizar argumentos más estructurados, o al menos, más formales. Un modelo de detección bien construido será la base necesaria para la obtención de resultados satisfactorios.

(46)

46

Se analizaron un total de 264 argumentos candidatos donde se identificaron ciertas características:

 Algunos de los argumentos candidatos eran meras opiniones. En la opinión no

hay evidencia plena, por lo que intervienen factores no estrictamente cognoscitivos como es la influencia del "querer" o el "deseo". Puntualmente, definían una preferencia por un algoritmo u otro, sin presentar justificaciones que lo avalen. Por ejemplo, en la figura 9 afirma que las reglas de asociación son mejores que los de clasificación en un determinado contexto, pero no

presenta ningún hecho o evidencia que lo soporte.

 Al igual que en un foro de discusión y chat online, algunos argumentos

candidatos tenían alguno de sus componentes de forma implícita. Esta característica se dio frecuentemente con las conclusiones, donde se asumió que se conocía cuál era la idea que se deseaba transmitir y se omitió en el párrafo elaborado. En la figura 10 se muestra un ejemplo donde queda evidenciada esta característica.

Figura 9. Ejemplo de opinión entre argumentos candidatos.

(47)

47

Se observa en el ejemplo propuesto que el autor del argumento candidato resalta una ventaja de una alternativa por sobre la otra dando a entender su preferencia pero sin especificarla.

También utilizaron detalles visuales para clasificar si el argumento es favorable o no.

En la figura 11 se pueden ver que la conclusión, a favor o en contra, se encuentra de forma explícita al inicio del apartado. Mediante colores, el autor indica cual es la clasificación otorgada la cual será utilizada para incorporar informar implícita en cada uno de los argumentos candidatos definidos posteriormente. Esto genera grandes inconveniente en la detección automática de argumentos, por lo que se debió solventar de alguna manera.

4.2. Pre-procesamiento y Transformación

4.2.1. Tratamiento preliminar del dataset

A partir de los informes elaborados por los alumnos, se obtuvieron los argumentos candidatos. Se generó un archivo de texto plano con cada uno de ellos, para luego ser analizados y procesados individualmente. Se tuvieron en cuenta algunos detalles o consideraciones especiales, las cuales se detallan a continuación:

(48)

48

 Con el objetivo de facilitar la delimitación de los argumentos, se consideró que

cada argumento debe estar contenido en un único párrafo. En caso de que un argumento candidato contenga un salto de línea, este fue eliminado.

 Se analizaron cada uno de los argumentos candidatos con el objetivo de

identificar cuáles eran útiles para la construcción del modelo. Para esto se debió analizar cada uno de ellos y clasificar cuáles eran, a nuestro criterio, un argumento bien definido. De este proceso se determinó que de los 264 posibles argumentos, sólo 101 fueron identificados como positivos. Para que el dataset sea balanceado, de los clasificados como negativos se tomaron igual cantidad de sentencias, quedando como dataset resultante uno conformado por 202 entradas.

 Se detectó que algunos de los argumentos adolecían de algún faltante, ya sea

premisa o conclusión. Si bien esta condición no le impide ser un argumento, no es útil al momento de generar un modelo. Como mencionó (Capaldi, 2000), es recomendable realizar una normalización, incluyendo la información faltante de forma explícita.

En el ejemplo anterior se puede observar el faltante de una conclusión. Teniendo en cuenta el contexto, se incorporó el elemento faltante, quedando de la siguiente manera:

 Con el objetivo de reducir el ruido que pudiera generar la presencia de