3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES

(1)

3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES

El análisis de correspondencias simples es un procedimiento estadístico multivariado apropiado para la lectura y síntesis de la información contenida en una tabla de contingencia. Una tabla léxica agregada es una tabla de contingencia en donde las filas son las formas gráficas y las columnas los textos. Con las respuestas a preguntas abiertas se pueden definir textos artificiales utilizando las particiones de las respuestas originadas en preguntas cerradas.

3.1. Tabla de contingencia

Los elementos del análisis de correspondencias se ilustran a continuación utilizando una tabla léxica agregada pequeña (tabla 3.1), construida a partir de las respuestas a la pregunta abierta: “En su opinión porque le ha ido bien con el café?”., de una encuesta a fincas cafeteras. Los textos se han conformado con la variable: tipología del productor, con las modalidades:

1. Empresarios tecnificados modernos. Em.Te.Mo.

2. Tecnificados modernos: Te.Mo.

3. Campesinos tecnificados modernos: Ca.Te.Mo.

4. Campesinos tradicionales: Ca.Tr.

(2)

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal

ADMINISTRACION 26 14 22 11 73

ADMINISTRADOR 17 6 5 4 32

AGRICULTOR 1 4 6 15 26

CULTIVO 5 8 14 6 33

LABORES 12 10 6 14 42

MANEJO 15 15 20 20 70

PERSONA 5 8 10 18 41

PROPIETARIO 4 14 10 6 34

Marginal 85 79 93 94 351

**Tabla 3.1: Tabla de contingencia formas*textos**

Las ocho palabras son utilizadas en 351 respuestas. Cada celda representa el número de utilizaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la palabra agricultor fue utilizada cuatro veces por el grupo de cafeteros tecnificados modernos. La última columna es la marginal de las palabras, es decir el número de veces que es utilizada cada palabra por todos los cafeteros encuestados. La última fila es la marginal que representa el número de veces que cada grupo de cafeteros utilizaron las ocho palabras.

3.2. Tablas de perfiles fila y columna

La lectura más interesante de la información contenida en una tabla de contingencia es la comparación entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las columnas están influenciadas por el peso relativo de sus marginales. La comparación se facilita obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de cada una de las columnas. Para obtener la distribución condicional de una fila, se dividen todas las celdas de esa fila por el valor total de la fila. De manera análoga se obtienen las condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de perfiles columna.

La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribución marginal, es decir

la frecuencia relativa con que fueron utilizadas las ocho palabras en conjunto por los cuatro

(3)

grupos de cafeteros. En la figura 3.1 aparece la misma información en forma de histograma de barras.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr.

ADMINISTRACION 35.6 19.2 30.1 15.1 100 ADMINISTRADOR 53.1 18.8 15.6 12.5 100 AGRICULTOR 3.8 15.4 23.1 57.7 100 CULTIVO 15.2 24.2 42.4 18.2 100 LABORES 28.6 23.8 14.3 33.3 100 MANEJO 21.4 21.4 28.6 28.6 100 PERSONA 12.2 19.5 24.4 43.9 100 PROPIETARIO 11.8 41.2 29.4 17.6 100 Marginal 24.2 22.5 26.5 26.8 100

Tabla 3.2: Tabla de perfiles fila

PERFILES FILA

0% 20% 40% 60% 80% 100%

ADMINIST RACION ADMINIST RADOR AGRICULT OR CULT IVO LABORES MANEJO PERSONA PROPIET ARIO Marginal

PALABRAS

PO RC ENTAJE

Ca.T r.

Ca.T e.Mo.

T e.Mo.

Em.T e.Mo.

Figura 3.1: Perfiles fila

Cada perfil fila representa la distribución de frecuencias con que cada palabra es utilizada

por los cuatro grupos de agricultores. Por ejemplo la palabra propietario fue utilizada con

(4)

mayor frecuencia por los cafeteros técnificados modernos (41.2%) y con menor frecuencia por los cafeteros empresarios tecnificados modernos (4.7%). La distribución marginal es la distribución de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de agricultores. Se observa una frecuencia de uso muy similar.

Una primera lectura de esta información es la comparación con el perfil marginal. Se observa, por ejemplo, que la palabra manejo tiene un perfil muy parecido al marginal. La palabra agricultor es mucho más usada por los cafeteros campesinos tradicionales (57.7%), en comparación con el conjunto global de las palabras (26.8% por campesinos tradicionales). Otra lectura es la comparación de los perfiles entre palabras. Se observa, por ejemplo, que los perfiles de agricultor y administrador son bien diferentes. El hecho de que dos palabras tengan perfiles similares significa que son usadas con frecuencias similares por los cuatro grupos de agricultores. Las palabras persona y agricultor tienen distribuciones algo parecidas, los campesinos tradicionales las utilizan con mayor frecuencia (19.1% y 16%) y los empresarios tecnificados modernos con menor frecuencia (5.9% y 1.2%). En términos generales se están comparando las frecuencias de utilización de las palabras en los diferentes textos.

La tabla 3.3 es la tabla de perfiles columna y la figura 3.2 contiene los respectivos histogramas, junto con el perfil marginal. Se tiene una distribución de frecuencias de las ocho palabras para cada uno de los cuatro grupos de agricultores y la distribución marginal, que es la distribución de frecuencias de utilización de las ocho palabras por todos los cafeteros encuestados. La distribución para el caficultor tecnificado moderno se observa más parecida a la distribución marginal. Los perfiles de los cafeteros empresario tecnificado moderno y campesino tradicional parecen ser los más diferentes. En general la comparación de perfiles columna en una tabla léxica agregada permite describir las diferencias y semejanzas entre los textos respecto a las palabras utilizadas.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal

ADMINISTRACION 30.6 17.7 23.7 11.7 20.8

(5)

ADMINISTRADOR 20.0 7.6 5.4 4.3 9.1 AGRICULTOR 1.2 5.1 6.5 16.0 7.4 CULTIVO 5.9 10.1 15.1 6.4 9.4 LABORES 14.1 12.7 6.5 14.9 12.0

MANEJO 17.6 19.0 21.5 21.3 19.9 PERSONA 5.9 10.1 10.8 19.1 11.7 PROPIETARIO 4.7 17.7 10.8 6.4 9.7

100.0 100.0 100.0 100.0 100.0

Tabla 3.3: Tabla de perfiles columna

PERFILES COLUMNA

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal

TIPO DE CAFICULTO R

PORCENTAJE

PROPIET ARIO PERSONA MANEJO LABORES CULT IVO AGRICULT OR ADMINIST RADOR ADMINIST RACION

Figura 3.2: Perfiles columna

En el análisis de correspondencias simples (ACS) se busca una representación más

adecuada para analizar simultáneamente los perfiles fila y columna obtenidos a partir de

una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamaño es muy

difícil obtener una síntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se

parte de la representación de los perfiles línea en un espacio multidimensional, donde las

columnas son los ejes y simétricamente de otra nube de perfiles columna, donde las líneas

son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia ji-

cuadrado entre distribuciones. Podemos hacer lecturas fáciles para representaciones

(6)

geométricas en dos dimensiones, pero es imposible leer más de tres dimensiones, entonces es necesario hacer proyecciones sobre planos, buscando que se conserven lo mejor posible el conjunto de las distancias originales. Este es el principio de funcionamiento de todos los métodos factoriales. La lectura en proyección es desde luego aproximada pero se tendrá lo más relevante de la información de la tabla de contingencia. Se requiere de índices para complementar los gráficos y evitar lecturas erróneas, por ejemplo, un punto mal representado en la proyección puede aparecer cercano a otro cuando en realidad no lo está.

3.3. Representación geométrica de los perfiles

A partir de la tabla de contingencia se obtiene la tabla de frecuencias relativas dividiendo cada celda por el total de la tabla. Esta tabla representa la distribución de frecuencias conjunta de las palabras y los textos, en el caso de la tabla léxica agregada. Para el ejemplo esta tabla es la 3.4, que se obtiene dividiendo cada celda de la tabla 3.1 por 351. El valor 7.4 de la celda (1,1) significa que el 7.4% de las formas gráficas corresponden a la palabra administración y pertenecen al texto de los cafeteros empresarios técnicos modernos. La última fila (columna) es la distribución marginal.

Em.Te.Mo. Te.Mo. Ca.Te.Mo. Ca.Tr. Marginal ADMINISTRACION 7.4 4.0 6.3 3.1 20.8 ADMINISTRADOR 4.8 1.7 1.4 1.1 9.1

AGRICULTOR 0.3 1.1 1.7 4.3 7.4 CULTIVO 1.4 2.3 4.0 1.7 9.4 LABORES 3.4 2.8 1.7 4.0 12.0

MANEJO 4.3 4.3 5.7 5.7 19.9 PERSONA 1.4 2.3 2.8 5.1 11.7 PROPIETARIO 1.1 4.0 2.8 1.7 9.7

Marginal 24.2 22.5 26.5 26.8 100.0

Tabla 3.4: Tabla de frecuencias relativas

Una notación generalizada de una tabla de frecuencias relativas es la siguiente:

(7)

F

f f f

f

f f f

f

f f

f f f f f f

f f

j p

ij

n nj np

i

n

i ij

j p

i n

ij j

p

i j

j p

i n

j ij

i n

=





 





 

→ =

→ = = =

↓

=

= = = =

=

∑

∑ ∑ ∑ ∑

∑

11 1 1

1

1 1 1 1

1

1 1

. . .

.

. . . . . . . . .

. . . . . .

. . . . . . .

donde n es el número de filas y p el número de columnas; i y j son los índices para las filas y las columnas, respectivamente; fi. y f.j son las marginales fila y columna, respectivamente. Las tablas de perfiles también se pueden obtener de la tabla de frecuencias de la misma forma que de la tabla de contingencia.

3.3.1 Nube de perfiles fila

En el espacio R

^p

se representan los n perfiles fila, dotados del peso p

i

= f

i

.

f

^ij

j p i n con peso p f

i

i i

. , = , ... , , ... .

 



 

 = =

1 2 1 2

3.3.2. Nube de perfiles columna

En el espacio R

ⁿ

cada punto representa un perfil columna y esta dotado de un peso igual a la

marginal la respectiva columna.

(8)

f

^ij

i n j p con peso p f

j

j j

. , = , ... , , ...

 





 



 = =

1 2 1 2

_$

3.3.3. La distancia ji-cuadrado entre perfiles

La distancia ji-cuadrado entre dos perfiles línea i e i’ viene dada por:

d i i

f f f

f

j

f

ij

i ij

j i p 2

2

1

( , ) 1

. . .

′ =  −

  

 

= ′

∑ (3.1)

Para el caso de dos líneas, esta distancia, es la suma de la diferencia de cada una de las respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias marginales de las columnas respectivas (ver figura 3.3).

j

i perfil i

i’

perfil i’

pesos de columnas f

.j

Figura 3.3: Significado de la distancia ji-cuadrado Con este peso las diferencias se amplifican cuando se deben a columnas de baja frecuencia, es decir tiende a destacar los casos raros. De manera simétrica, la distancia entre perfiles columna es:

d j j

f f f

f

i

f

ij

j ij

i j n 2

2

1

( , ) 1

. . .

′ =  −

  

 

= ′

∑ (3.2)

(9)

La distancia ji-cuadrado se puede escribir como una distancia euclidiana convencional, lo cual se ha ilustrado en el ejemplo:

d i i f

f f

f f f

ij

i j

ij

i j

j p 2

2

1

( , )

. . . .

′ =  −



 





 

= ′

∑ (3.3)

3.3.4. La equivalencia distribucional de la distancia ji-cuadrado

Si &

w

_i

y &

w

_l

son dos perfiles idénticos, entonces están representados por el mismo punto en R

^p.

Si se reemplazan los dos puntos por un punto común de peso la suma de los pesos (f

i.

+ f

l.

), entonces las distancias de los demás puntos, tanto en R

^p

como en R

ⁿ

permanecen inalteradas. Igual resultado se obtiene para dos perfiles idénticos en R

^n.

. En Crivisqui [1993] hay una descripción bastante pedagógica de esta propiedad. Con la distancia ji- cuadrado los resultados son robustos respecto a la arbitrariedad en la determinación del número de categorías filas y categorías columna, en un análisis. Otra implicación práctica de la equivalencia distribucional es la de poder agregar filas o columnas de perfiles similares sin perturbar demasiado la distancia entre puntos.

3.3.5. Centro de gravedad de la nube de perfiles fila (en R

^p

)

Si se consideran los puntos y sus pesos como un sistema de masas en el espacio, se

encuentra un punto en torno al cual las masas están en el equilibrio, que es precisamente el

centro de gravedad. La fuerza necesaria aplicada en el centro de gravedad para mantener

suspendido el sistema de masas es lo que se denomina la inercia y es una medida de la

dispersión de la nube de puntos. La inercia se puede calcular respecto a cualquier otro

punto, pero tal inercia es superior a la inercia respecto al centro de gravedad. Si se tiene un

sistema de ejes ortogonales, entonces la inercia de la nube respecto al centro de gravedad se

(10)

puede descomponer como la suma de las inercias a lo largo de cada uno de los ejes. Es por las razones anteriores que los calculos se hacen respecto al centro de gravedad.

Sea la matriz X, de termino general:

x f

f f

i j

ij

i j

=

$ $

(3.4)

Las filas de esta matriz son los vectores, w

_i

que se representan en R

^p

:

&

$ $ $ $

′ = 



 





 

w f

f f

f f f

i

i i

ip

i p

1

(3.5)

Sea &

g el vector de p componentes, centro de gravedad de la nube de perfiles fila, la componente j es:

g p f

f f f

j i

i n

ij

i i

n i

ij

i j

= 

j

  

  = 



 





  =

= =

∑ ∑

1 . 1

.

. .

.

(3.6)

es decir que ^g ^& ^{′ =} [ ^f

^.¹

^f

^.^j

^f

^.^p

] (3.7)

La distancia del centro de gravedad al origen de coordenadas es:

( )

d g f

_j

j p

2 2

1

0 1

( , ) & &

=

$

=

∑

=

(3.8)

Restando el centro de gravedad a todos los vectores se obtiene una matriz de perfiles

centrados, ^Y ⁼ ( ) ^y

^ij

^{, donde:}

(11)

y f

f f f f f f

f f

ij

i j

j

ij i j

i j

= − = −

$ $ $

$ $

(3.9)

En general para un perfil i el término de la ecuación (3.9) es la j-ésima componente del vector asociado centrado, W

ci

.

3.3.6. Inercia de la nube de puntos

La inercia de la nube de puntos respecto al centro de gravedad es:

( )

I p w f f f f

f f

f f f

f f k

i ci

i n

i

ij i j

i j

j p

i

n ij i j

i j

j p

i

= =  −

n



 





  =

− =

= = = = =

∑

²

∑ ∑ ∑ ∑

1 1 1

2 2

1 1

2

$ $ $

$ $

χ (3.10)

donde χ

²

es la estadística ji-cuadrado, de la prueba de independencia, calculada para la tabla de contingencia K y k es el número total de individuos en la tabla. Crivisqui (1993) ilustra el hecho de que la nube de puntos perfiles es una hiperesfera en el caso de independencia en la tabla de contingencia. La inercia es un índice de deformación de la nube y se puede descomponer en los diferentes ejes de la representación.

3.4. Solución del análisis de correspondencias simples - ACS

Lo que se tiene hasta ahora son dos representaciones que contienen la información de la

tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos

ponderados, centradas y con una inercia asociada. Esta información es apta para llevar a

cabo dos análisis de componentes principales con ponderación, que consiste en la

proyección de la nube de puntos fila (columna) sobre subespacios de dimensión reducida,

(12)

escogidos de forma que la proyección conserve la mayor dispersión posible. La solución tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles.

Para encontrar el subespacio (plano de proyección, en el caso de dos dimensiones), que se aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., se hace un análisis en componentes principales de la matriz Y, cuyo término general está dado en la ecuación 3.9, con la métrica N = diag(fi.), es decir la matriz diagonal que contiene las marginales fila de la tabla de frecuencias, asociada a la tabla de contingencia. La matriz a diagonalizar es A = Z’Z, donde

Z N Y es decir z p y z f f f

ij i ij ij

f f

ij i j

i j

=

¹

= ⇒ = −

2

,

^{$ $}

$ $

(3.11)

El vector de coordenadas de todos los individuos sobre el eje α es: & &

ψ

_α

= Yu . Para un

_α

individuo i la coordenada es, entonces:

ψ

_i_α ^ij ⁱ ^j _α

i j

j p

j

f f f

f f u

= −

∑

= ^{$ $}

$ $

1

(3.12)

el vector de coordenadas de los individuos sobre un eje está centrado y tiene como norma el valor propio asociado:

f

_i _i

y f

i n

i i

i n

$ $

&

ψ

_α

ψ

_α

ψ

_α

λ

_α

= =

∑ ⁼ ⁼ ∑ ⁼

1

2 2

1

0 (3.13)

Para todos los perfiles y se verifica:

& &

$

$ $

′ = −

=

∑

=

w g f f f f

f f

i i

ij i j

i j

j p

1

0 (3.14)

(13)

es decir que el vector centro de gravedad es perpendicular a todos los puntos perfiles centrados, lo cual indica que la nube de puntos esta en un subespacio de dimensión p-1, ortogonal a g y que g es un vector propio se A, asociado al valor propio 0. Esta propiedad permite obtener la solución del problema sin necesidad de centrar los datos, lo cual se puede estudiar en Lebart et al. (1984). De ese hecho se deriva también que el vector de coordenadas de las proyecciones se puede obtener mediante:

& &

ψ

_α

= Xu (3.15)

_α

El análisis de los perfiles columna en R

ⁿ

se obtiene de la misma manera, intercambiando los papeles de los subíndices i y j. Las coordenadas sobre los ejes factoriales son, entonces:

ϕ

i_α _α

ij

i j

j

i

f f f v

= ∑

o o

(3.16)

y el vector de coordenadas sobre un eje factorial es:

& &

ϕ

_α

= ′ X v (3.17)

_α

3.4.1. Relaciones entre los espacios fila y columna

El análisis tiene propiedades que permiten obtener la solución para la nube de puntos columna a partir de la solución de la nube de puntos fila o viceversa, mediante las siguientes relaciones de transición entre los espacios fila y columna:

• Vectores propios de un espacio en función del otro

u f

f f v

j

ij

i j

i n α i

α

λ

α

=

∑

=

1

1 o o

(3.18)

(14)

v f f f u

j

ij

i j

j p α j

α

λ

α

=

∑

=

1

1 o o

(3.19)

• Coordenadas en función de los vectores propios del otro espacio

ψ

i_α

λ

_α _α

i

f v

i

= 1

o

(3.20)

ϕ

j_α

λ

_α _α

j

f u

j

= 1

o

(3.21)

• Relaciones bibaricentricas

ψ

_α

λ ϕ

α

α i

ij

j i p

j

f

=  f

  

 

∑

=

1

1 o

(3.22)

ϕ

_α

λ ψ

α

j f

α

i

f

ij

i j n

= 

i

  

 

∑

=

1

1 o

(3.23)

Exceptuando el coeficiente 1 λ , la coordenada de un punto es el baricentro de los puntos de la otra nube, con pesos iguales a los elementos del perfil. Haciendo la dilatación apropiada las dos nubes se pueden representar simultáneamente sobre el mismo plano.

3.4.2. Proyección de elementos suplementarios

(15)

Sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando en el análisis. Los términos con K hacen referencia a la tabla de contingencia y el signo + a información suplementaria.

• Fila suplementaria, i

+

ψ

_i

λ

^ij

ϕ

i j

p

j

k

+

k

+

= +

= 

  

  1 ∑

1 o

(3.24)

• Columna suplementaria, j

+

ϕ j λ k ψ

i

k

ij

i j n + i

+

= +

= 

  

 

∑

1

1 o

(3.25)

3.4.3. Índices para ayudar a la interpretación de los ejes y a la lectura de las proyecciones

En un análisis se requiere establecer qué significado se le puede dar a cada uno de los ejes de interés o en, otras palabras, qué modalidades contribuyen más a la formación del eje, para ello se utilizan las contribuciones absolutas.

• Contribución absoluta del punto i en el eje αα, ca

αα

(i)

( )

ca i f

_i _i

α α

α

ψ

= λ

^o ²

(3.26)

Es la proporción con que cada punto contribuye a la inercia del eje. Los puntos que tengan

contribución absoluta fuerte son los que fijan la posición del eje.

(16)

Las proyecciones sobre los ejes y sobre los planos factoriales serán muy buenas para algunos puntos pero también pueden ser de mala calidad para otros puntos, se requiere entonces de un índice que ponga en evidencia este hecho.

• Contribución relativa del eje αα a la posición de un punto i, cr

_αα

(i)

( ) ( )

cr i d i g

i

α

= ψ

α

2

, (3.27)

Estos valores son los cosenos cuadrados y miden la calidad de la representación de los puntos.

3.5. Resultados del análisis de correspondencia de la tabla léxica agregada del ejemplo

Los planos de proyección se obtienen con dos de los ejes o factores principales obtenidos.

Como los ejes se enumeran según la inercia que retienen, el primer plano principal es la mejor proyección de las nubes de puntos. En general no es suficiente analizar el primer plano y una primer decisión en la lectura de los resultados es determinar cuántos ejes vale la pena interpretar: La herramienta para ello es el histograma de valores propios (figura 3.4).

HISTOGRAMME DES 3 PREMIERES VALEURS PROPRES

+---+---+---+---+---+

| | PROPRE | | CUMULE | | +---+---+---+---+---+

| 1 | .1145 | 64.01 | 64.01 | ************************************************************************** |

| 2 | .0478 | 26.75 | 90.76 | ********************************** |

| 3 | .0165 | 9.24 | 100.00 | ************ | +---+---+---+---+---+

Figura 3.4: Histograma de valores propios para el ACS de la tabla léxica agregada del

ejemplo

(17)

En el ejemplo la representación completa está en tres dimensiones, por lo cual al leer el primer plano solo se pierde una dimensión. El porcentaje de inercia (información en el sentido de dispersión de la nube), retenido por el primer plano es el 91%. Por lo tanto es de esperarse que en tal plano este prácticamente toda la información relevante (figura 3.5). En la tabla 3.5 se muestra la información tabulada dada por el SPAD-T.

EDITION DES COORDONNEES ET CONTRIBUTIONS DES COLONNES

--- IDEN LIBELLES MASSES DISTO2 * COORDONNEES * CONTRIBUTIONS ABS* COSINUS CARRES *

********************************************************************************************

* * F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *

********************************************************************************************

TETM Emp.Tec.Mod. .242 .30 * -.51 .20 -.01 *55.54 20.13 .11 * .87 .13 .00 * TTMO Tec.Mod. .225 .08 * .01 -.21 .21 * .01 19.90 57.58 * .00 .50 .50 * TCTM Cam.Tec.Mod. .265 .08 * .02 -.24 -.16 * .11 31.12 42.28 * .01 .68 .32 * TCTR Cam.Trad. .268 .24 * .44 .23 .00 *44.34 28.85 .03 * .79 .21 .00 * ---

EDITION DES COORDONNEES ET CONTRIBUTIONS DES LIGNES

--- MOTS MASSES DISTO2 * COORDONNEES *CONTRIBUTIONS ABSO * COSINUS CARRES *

********************************************************************************************

* F1 F2 F3 * F1 F2 F3 * F1 F2 F3 *

********************************************************************************************

ADMINISTRACION .208 .11 * -.32 -.03 -.10 *18.81 .29 13.31 * .90 .01 .09 * ADMINISTRADOR .091 .47 * -.63 .27 .06 *31.53 13.74 2.18 * .84 .15 .01 * AGRICULTOR .074 .56 * .70 .24 -.07 *31.91 8.85 2.05 * .89 .10 .01 * CULTIVO .094 .16 * .04 -.36 -.16 * .11 25.59 15.39 * .01 .82 .17 * LABORES .120 .08 * .01 .23 .17 * .01 12.98 20.90 * .00 .64 .36 * MANEJO .199 .01 * .07 -.02 -.04 * .77 .15 2.15 * .67 .06 .27 * PERSONA .117 .17 * .40 .12 -.02 *16.35 3.46 .26 * .92 .08 .00 * PROPIETARIO .097 .25 * .08 -.42 .27 * .51 34.94 43.76 * .02 .68 .29 * ---

Tabla 3.5: coordenadas y contribuciones de filas y columnas

El primer eje contrapone el texto campesino tradicional (lado positivo) al texto

empresario tecnificado moderno (lado negativo). Las palabras AGRICULTOR y

PERSONA aparecen al lado positivo del primer eje contraponiéndose a las palabras

(18)

ADMINISTRADOR y ADMINISTRACIÓN. Estos dos hechos ponen de manifiesto una correspondencia de las palabras AGRICULTOR y PERSONA con el texto campesino tradicional y de las palabras ADMINISTRADOR y ADMINISTRACIÓN con empresario tecnificado moderno.

En el plano se observan como más cercanos los textos de tecnificado moderno y

campesino tecnificado moderno, pero la calidad de la representación no es buena (50% y

69% respectivamente). El hecho de que el texto campesino tradicional aparezca cerca a las

palabras AGRICULTOR, PERSONA y LABORES significa que estas tres palabras son las

de mayor frecuencia en el perfil de este texto. De manera análoga la cercanía entre

AGRICULTOR y campesino tradicional manifiesta que esta palabra es usada con mayor

frecuencia por este grupo, lo cual se puede verificar en la tabla de perfiles.

(19)

Figura 3.5: Primer plano factorial

Las palabras cercanas (si están bien representadas en el plano) tienen perfiles similares. Las más cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de representación en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes, esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercanía se debe a la proyección. La palabra más cercana al perfil medio es MANEJO, lo cual es también cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se había observado directamente en los perfiles.

3.6 Aplicación del análisis de correspondencias a datos textuales

(20)

3.6.1 Análisis de correspondencia de una tabla léxica: respuestasformas*

“La tabla de contingencia a analizar es una matriz dispersa de grandes dimensiones, la información significativa está repartida sobre numerosos ejes y la interpretación del análisis factorial presenta muchas dificultades. Sin embargo, el análisis se la tabla respuestas*formas podrá ser útil en una primera fase de exploración de los datos. En este caso solo intervendrán las repeticiones suficientemente numerosas e insistentes. Podremos ver las grandes ideas presentes en las respuestas y percibir las asociaciones entre formas”

(Bécue, 1991, pág.41).

El análisis se puede enriquecer proyectando como ilustrativos los segmentos repetidos de la tabla respuestas*segmentos y se pueden detectar asociaciones entre el vocabulario y características de los individuos proyectando como ilustrativas respuestas a preguntas cerradas.

3.6.2 Análisis de una tabla léxica agregada: formastextos*

En la sección 3.5 se hace el análisis de una tabla léxica agregada, con lo cual se pueden ver asociaciones entre el vocabulario utilizado y una variable categórica de la información cerrada. “Si las respuestas individuales han sido agregadas con un criterio adecuado, el análisis de estas tablas revela una estructura en los datos textuales que no se hubiera manifestado mediante la simple lectura.” (Bécue, 1991, pág.41).

Se suelen obtener variables mediante el cruce de otras, por ejemplo sexo*grupos de edad,

grupos de edad*nivel profesional, etc. y utilizar esas variables para hacer análisis de tablas

léxicas agregadas. Cuando se tienen varias variables de un mismo tema no es posible

cruzarlas todas, ya que se tendría una variable con muchas modalidades, algunas de ellas sin

individuos. Una alternativa es la de crear una variable nominal mediante un análisis de

correspondencias múltiples y clasificación.

(21)

3. ANÁLISIS DE CORRESPONDENCIAS SIMPLES