3. Trabajos Relacionados
3.2. Identificación de argumentos de editoriales chinas
3.2.3. Método combinado
Este método consiste en la combinación de los dos anteriores. Al igual que en el 2 método, se puntuó cada párrafo basándose en una lista de palabras argumentativas. Sin embargo, en lugar de generar manualmente dicha lista, esta fue creada a partir de las palabras con más alta puntuación obtenidas a partir del primer método. Este método se basó en la idea de que las palabras con más alta puntuación son aquellas que soportan un argumento, dado que estas aparecen más frecuentemente en los textos de editoriales por sobre los de reportajes.
De igual manera que el método 2, se puntuó el párrafo a través de las ocurrencias de estas palabras, determinando que el mejor umbral era 1.
3.2.4.
Resultados
Finalmente, el mejor resultado se obtuvo con el método de comparación de frecuencia de palabras con un 84% de eficacia y un F1 de 0.91. La tabla completa de resultados se muestra en la figura 8.
42
3.3.
Resumen
Muchos avances en la detección de argumentos se han obtenido a partir de las investigaciones de Mochales Palau y Moens. El gran número de argumentos contenidos en textos del ámbito legal condujo su enfoque a la detección en este tipo de textos.
En el primer trabajo descripto en el presente capitulo, su enfoque se centró en determinar si el texto analizado contenía sentencias argumentativas. Para ello presentaron varias técnicas de pre procesado y transformaciones enfocadas en características tales como: unigramas, bigramas, trigramas, adverbios, verbos, tuplas de palabras, Estadísticas del texto, palabras claves, entre otras. Utilizando los algoritmos de clasificación Naive Bayes y Modelo de Máxima entropía, generaron modelos a partir de la selección y combinación de las características antes descriptas. Luego de las pruebas realizadas llegaron a la conclusión de que la combinación que brindaba una mayor efectividad a la hora de la detección estaba conformada por Naives Bayes Multinomial como clasificador y tuplas de palabras, verbos y longitud de sentencias como características a analizar, obteniendo un 73,75% de efectividad.
Posteriormente Mochales y Moens agregaron una tarea más al proceso de clasificación: la distinción entre premisas y conclusiones dentro de una sentencia argumentativa. El trabajo consistió en primer lugar en clasificar las sentencias en argumentativas o no argumentativa utilizando un algoritmo de máxima entropía como clasificador. Si la clasificación resultase positiva, por medio de un clasificador SVM se buscó identificar premisas y conclusiones. Para este análisis se tuvieron en cuenta características más específicas que las utilizadas en trabajos anteriores tales como: ubicación absoluta, longitud de sentencia, tiempo verbal, historia, información del primer clasificador, tipo de actor, tipo de verbo, entre otros. Con esta técnica se obtuvo como mejor resultado precisión de 77,49% en la detección de conclusiónes y un 70,19% en la detección de premisas utilizando las características ubicación absoluta, longitud de sentencia y tiempo verbal de la oración principal de la sentencia.
43
Basándose en la limitación que se presenta al momento de determinar los límites de cada argumento como así también la relación entre cada uno de ellos, presentaron una alternativa basada en una gramática libre de contexto. Con esta variante obtuvieron una precisión del 60% aproximadamente.
Otro de los trabajos propuestos es el orientado a la identificación de argumentos en editoriales chinas realizado por Marisa Chow, quien asumió que estos textos son una fuente rica de textos argumentativos. Chow presentó en este trabajo algunas limitaciones o consideraciones especiales las cuales fueron utilizadas en el pre procesamiento como por ejemplo la cantidad máxima de símbolos de un párrafo. El enfoque se basó en la puntuación de cada párrafo y en la búsqueda de un umbral que indicara que un cierto párrafo es argumentativo o no. Para ello Chow presentó tres variantes:
Comparación de frecuencia de palabra: se determinó una puntuación para cada palabra basándose en la cantidad de apariciones en textos argumentativos con respecto a la ocurrencia en los que no lo son. Finalmente se puntúa cada párrafo como la suma del producto de las frecuencias de estas palabras en el párrafo a analizar y la puntuación obtenida anteriormente. El umbral obtenido con esta técnica es de 40.
Palabras argumentativas conocidas: generó una lista de palabras argumentativas y las puntuó basándose en la cantidad de ocurrencias. Luego puntuó los párrafos otorgándole un punto por cada ocurrencia de estas frases, llegando a la conclusión de que la lista optima estaba compuesta por 15 palabras y el umbral era de 1.
Método combinado: consiste en la combinación de los dos métodos anteriores donde la lista de frases argumentativas se obtuvo de forma automática a partir las palabras con mayor puntuación obtenidas a partir del primer método. Al igual que en el segundo método, determino que el mejor umbral era de 1.
Chow llegó a conclusión que el mejor resultado se obtuvo a partir de la primera variante con un 84% de eficacia.
44
Como se puede observar ninguno de los trabajos anteriores está orientado a la detección de argumentos expresados en la lengua española.
45
Capítulo 4
4.
Enfoque propuesto
Este capítulo se estructura detallando cada una de las etapas del proceso KDD aplicado a la problemática planteada. Inicialmente se define cual es la fuente de datos y se explican algunos pre-procesamientos y transformaciones que se debieron aplicar previos a la generación del modelo. Luego se detallan cada uno de los modelos generados a partir de los distintos enfoques y consideraciones particulares, con el objetivo de encontrar el modelo más adecuado a este contexto.
4.1.
Selección de datos
La herramienta debe ser capaz de identificar argumentos en foros de discusión o chat online. En este ámbito predomina el lenguaje informal, con una estructura lingüística poco clara y abreviaciones conocidas en ese contexto, pero no tan claras al momento de analizarlas automáticamente. Con el objetivo de que el “ruido” generado por estas variantes influya significativamente en el modelo generado, se decidió utilizar argumentos más estructurados, o al menos, más formales. Un modelo de detección bien construido será la base necesaria para la obtención de resultados satisfactorios.
Teniendo en cuenta las características ideales del dataset de entrenamiento mencionado anteriormente, se utilizaron como datos de entrada argumentos elaborados por alumnos de la cursada 2016 de la materia Inteligencia Artificial de la Universidad Nacional del Centro de la provincia de Buenos Aires (UNICEN). El práctico tenía como temática los algoritmos de clasificación y reglas de asociación. El mismo consistía en que los alumnos, en grupos de no más de 3 integrantes, brinden individualmente 10 argumentos a favor o en contra de algunas de las técnicas aplicadas a la resolución de un problema puntual.
46
Se analizaron un total de 264 argumentos candidatos donde se identificaron ciertas características:
Algunos de los argumentos candidatos eran meras opiniones. En la opinión no hay evidencia plena, por lo que intervienen factores no estrictamente cognoscitivos como es la influencia del "querer" o el "deseo". Puntualmente, definían una preferencia por un algoritmo u otro, sin presentar justificaciones que lo avalen. Por ejemplo, en la figura 9 afirma que las reglas de asociación son mejores que los de clasificación en un determinado contexto, pero no presenta ningún hecho o evidencia que lo soporte.
Al igual que en un foro de discusión y chat online, algunos argumentos candidatos tenían alguno de sus componentes de forma implícita. Esta característica se dio frecuentemente con las conclusiones, donde se asumió que se conocía cuál era la idea que se deseaba transmitir y se omitió en el párrafo elaborado. En la figura 10 se muestra un ejemplo donde queda evidenciada esta característica.
Figura 9. Ejemplo de opinión entre argumentos candidatos.
47
Se observa en el ejemplo propuesto que el autor del argumento candidato resalta una ventaja de una alternativa por sobre la otra dando a entender su preferencia pero sin especificarla.
También utilizaron detalles visuales para clasificar si el argumento es favorable o no.
En la figura 11 se pueden ver que la conclusión, a favor o en contra, se encuentra de forma explícita al inicio del apartado. Mediante colores, el autor indica cual es la clasificación otorgada la cual será utilizada para incorporar informar implícita en cada uno de los argumentos candidatos definidos posteriormente. Esto genera grandes inconveniente en la detección automática de argumentos, por lo que se debió solventar de alguna manera.