2 6 El Análisis Estadístico de Textos
Capítulo 3 Propuesta Metodológica
3.6 Etapa 3 Procesamiento
3.6.1 Análisis de Textos
3.6.1.1 Vocabulario empleado en el Análisis de Textos
En el argot de los programas de análisis de textos se utilizan los siguientes términos que es preciso conocer (Lancia, 2004):
Corpus: colección de uno o más textos seleccionados para el análisis. Por ejemplo un solo texto o documento que trate cualquier tema, un conjunto de respuestas a una pregunta abierta de un cuestionario, transcripciones de grupos de enfoque, etc. En este caso el corpus estará formado por el conjunto de comentarios de clientes.
Subconjunto: partes que componen un corpus, por ejemplo: uno o más capítulos de un libro o un subconjunto de comentarios que poseen alguna característica en común.
Lema: resultado del proceso de lematización. En la lematización los verbos del texto se pasan al infinitivo, los sustantivos en singular y los adjetivos al masculino singular. Un lema equivale a la entrada del diccionario.
Contextos elementales: segmentos de texto que corresponden aproximadamente a los enunciados. Para el caso de esta metodología este equivale a aproximadamente un comentario del cliente.
Unidades lexicales: palabras individuales, la cuales pueden ser utilizadas tal y como aparecen en el texto original, en forma de lemmas (por ejemplo trabajar en lugar trabajo) o en sus formas semánticas (bronquitis por enfermedad)
Ocurrencias: son las cantidades que resultan del cómputo de cuántas veces cada elemento lingüístico (palabra o lema) se repite dentro del corpus o de un subconjunto de él.
Co-ocurrencias: cantidades que resultan del cómputo del número de veces que dos o más elementos lingüísticos (palabras o lemas) “cohabitan”, es decir están presentes contemporáneamente en los mismos contextos elementales.
Palabras clave: palabras del corpus pertenecientes a aquellas categorías gramaticales con mayor significado: sustantivos, verbos y adjetivos. Es decir, aquellas palabras que en el texto marcan la diferencia.
Variable: son etiquetas utilizadas para identificar y clasificar diferentes partes del corpus. En el procesamiento de verbalizaciones, estos pueden ser etiquetados mediante el empleo de información demográfica, como el sexo del cliente, la ocupación, la frecuencia de compra, etc.
Modalidades: son los diferentes valores que una variable puede adoptar. Por ejemplo, la variable sexo sólo tiene dos modalidades: masculino o femenino.
Matriz de ocurrencias: matriz rectangular cuyas filas están representadas por contextos elementales y sus columnas por palabras (unidades lexicales). Sus celdas contienen unos y ceros, para indicar la presencia o ausencia de una palabra en un determinado contexto elemental.
Matriz de co-ocurrencias: matriz cuadrada en la cual tanto las filas como las columnas están formadas por las mismas unidades lexicales. Cada celda de la matriz contiene el numero de contextos elementales en las cuales una palabra A co-oncurre con una B.
3.6.1.2 T-Lab: Instrumentos para el Análisis de Textos
T-Lab fue el software utilizado en esta investigación, por tal motivo explicaremos el funcionamiento y aplicación de los programas de Análisis de Texto tomado éste como punto de referencia. En el mercado existen otros programas con funciones muy similares, los cuales en su mayoría han sido diseñados para ser empleados por investigadores con un conocimiento muy avanzado en el área del Análisis Estadístico de Textos, nivel que esta fuera del alcance de esta investigación.
Una de las características más distintivas de T-lab es que ha sido planificado para ser utilizado fácilmente por profesionistas, estudiantes e investigadores, en áreas de aplicación que van desde la educación hasta el análisis de mercado, desde el periodismo hasta la psicología, desde la política hasta los grupos de discusión (Lancia, 2004). Es importante denotar que T- Lab no ha sido utilizado en el área de calidad, según se observa en los casos de aplicación presentados en su página de Internet (tlab, 2005).
En forma general, T-Lab es un conjunto de herramientas para el análisis de información textual: herramientas de exploración, análisis y apoyo para la interpretación (Lancia, 2001). Bajo la perspectiva de su diseñador, Franco Lancia (2002), es una especie de instrumento de
observación, al asemejarlo con un microscopio o un telescopio, ya que pone al descubierto la composición y estructura, en palabras, de la información textual, de la misma manera que lo hacen el microscopio con la los seres de la naturaleza o el telescopio con el universo. Pertenece a una familia de software diseñado para producir mapas que representan gráficamente el contenido de un texto. Las teorías en las que está basado su funcionamiento corresponden a dos disciplinas profundamente estudiadas: la lingüística y la estadística (Lancia, 2002).
Las herramientas de T-Lab permiten tres tipos de aplicaciones (Lancia, 2004):
Mapeo de textos, para explorar gráficamente las relaciones entre temas y palabras clave;
Mina de textos, para buscar y extraer información significativa y clasificada;
Análisis de contenido, para realizar investigaciones con plantillas construidas por el usuario.
En el procesamiento de las verbalizaciones, las dos primeras resultan de suma importancia. El mapeo nos permite hacer una exploración grafica del contenido de los comentarios, con el objetivo de determinar cuáles son los temas generales dominantes, así como identificar algunos más específicos. La función mina de textos, permite extraer de manera selectiva, aquellos comentarios cuyo contenido es de interés. A continuación se explicaran con mayor profundidad las herramientas de exploración y extracción de información.