• No se han encontrado resultados

1 Pr´acticas de An´alisis de Correspondencias. BMDP. Programa CA. 1.1 Introducci´on.

N/A
N/A
Protected

Academic year: 2022

Share "1 Pr´acticas de An´alisis de Correspondencias. BMDP. Programa CA. 1.1 Introducci´on."

Copied!
73
0
0

Texto completo

(1)

1 Pr´ acticas de An´ alisis de Correspondencias. BMDP. Programa CA.

1.1 Introducci´ on.

El An´alisis de Correspondencias es una generalizaci´on multivariante de lo que conocemos como Scatterplot y convierte tablas de frecuencia en representaciones gr´aficas, en las que cada fila y cada columna de la tabla viene representada por un punto. Proporciona un m´etodo para comparar filas entre s´ı, columnas entre s´ı, y filas y columnas entre s´ı, descomponiendo la medida de la asociaci´on de la tabla, χ2, en componentes. Dependiendo del tipo de tabla tendremos el An´alisis de Correspondencias Simple, objeto de nuestra pr´actica, o el M´ultiple para tablas multiv´ıa, aunque en algunos casos, ´estas se pueden estudiar a trav´es del An´alisis de Correspondencias Simple.

• Los datos se pueden introducir:

– Caso a caso.

– Dando los ´ındices y frecuencia de cada posici´on de la tabla.

– Como una tabla de frecuencias.

– Se pueden incluir puntos suplementarios, dando los valores correspondientes de sus perfiles filas o columnas, o se pueden generar autom´aticamente.

• La salida del programa proporciona:

– Tablas de frecuencias observadas.

– Tablas de frecuencias esperadas.

– Tablas de porcentajes por fila, por columna y totales.

– Descomposici´on de la Inercia.

– Coordenadas de cada perfil fila y columna en las representaciones gr´aficas.

– Medidas de la calidad de la representaci´on de dichos perfiles.

– Representaciones bidimensionales de los perfiles fila y columna, solo perfiles fila, o solo perfiles columna.

– Representaciones unidimensionales de esos perfiles.

1.2 Ordenes espec´ıficas de CA. ´

1. P´arrafo INPUT

• TABLE=#list.: Obligatorio si los datos se introducen en forma de tabla de frecuencias multiv´ıa. Los n´umeros

#, son los ´ındices de cada una de las variables categ´oricas, su producto es el n´umero de posiciones de la tabla.

El primer n´umero es el ´ındice que var´ıa m´as r´apido (columna), el siguiente es el segundo m´as r´apido y as´ı sucesivamente. El n´umero de VARIABLES debe ser igual al n´umero de ´ındices. El FORMATO deber´a describir las caracter´ısticas que tengan los n´umeros en la tabla.

• CONTENT=DATA, COUNT. (s´olo uno de los dos): Se utiliza la primera opci´on para datos en c´odigo ASCII, y la segunda para datos de un fichero en formato BMDP. El valor por defecto es DATA.

• REAL.: Analiza una tabla de datos reales (no se requiere que sean enteros), e imprime la tabla observada con datos reales, siempre que los datos se introduzcan en formato de tabla.

2. P´arrafo CATEGORY (O GROUP)

• NAMES(var)=List.: Asigna nombres a las categor´ıas de cada variable, que se reflejar´an en las distintas representaciones gr´aficas de la salida del programa, siempre que dentro del p´arrafo CORRESPONDENCE se especifique una sola variable en ROW y una sola variable en COLUMN.

3. P´arrafo CORRESPONDENCE

Es obligatorio y se puede repetir en modo interactivo. Construye una tabla de doble entrada y realiza el An´alisis de Correspondencias con la descomposici´on de la Inercia. Se puede obtener una estructura multiv´ıa a trav´es de una de doble entrada apilando las variables.

• ROW=List.: Indica la lista de nombres de las variables que definen las filas de la tabla. Si se indica m´as de una variable se apilan.

• COLUMN=List.: Lo mismo, para las columnas.

• AXIS=#: Indica el n´umero de ejes que se van a usar en el an´alisis. Si no se utiliza se tomar´an tantos ejes como sea necesario hasta explicar el 90% del total de la Inercia.

(2)

• CONSTANT=#.: Restringe el an´alisis a los ejes que acumulativamente contribuyen a la proporci´on de la inercia total expresada. Anula la anterior orden AXIS=#.

• SELECT(j)=List.: Restringe el an´alisis a los valores especificados en la lista de la variable j, que no tiene que ser necesariamente una variable ROW o COLUMN. La variable j puede ser la lista de CODES o los nombres de las variables declarados en NAMES, o los valores definidos en CUTPOINTS. Si se utiliza este ´ultimo caso, se deben poner los nombres de dichos cortes en la lista. Los otros valores de la variable j se excluyen de la tabla y del an´alisis. Se puede repetir.

• REJECT(j)=List.: Se usa para eliminar el valor especificado de la variable j.

• QLT=#.: Toma un valor comprendido entre 0 y 1. S´olo los puntos con una QLT mayor que ese valor, se representar´an gr´aficamente.

• COUNT=var, FREQ.: Es obligatorio si los datos se introducen dando los ´ındices de las celdillas. Indica el nombre de la variable que contiene dichos valores. Se utiliza FREQ cuando se lee una tabla de valores de un fichero en formato BMDP.

• RNAME=List.: Indica una lista de nombres para las categor´ıas de las variables fila, definidas en ROW.

• CNAME=List.: Lo mismo, para las columnas.

• TITLE=’text’.: Asigna un t´ıtulo para cada An´alisis de Correspondencias. No se imprime en modo interactivo.

El n´umero m´aximo de caracteres es de 160.

4. P´arrafo PLOT

Realiza una representaci´on uni o bidimensional de filas y columnas separadamente o en conjunto. En modo no interactivo, por defecto, se representan las tres posibilidades. Se puede repetir interactivamente.

• BOTH.: Es la opci´on por defecto. Si se declara NO BOTH no se realiza la repesentaci´on conjunta. Esta opci´on no afecta a los posibles p´arrafos PLOT posteriores que se declaren.

• ROWS.: Representa los perfiles fila separadamente. Es la opci´on por defecto en modo no interactivo. NO ROWS suprime dicha representaci´on sin afectar a los posibles p´arrafos PLOT posteriores.

• COLUMNS.: Lo mismo, para perfiles columna.

• XAXIS=List.

YAXIS=List.: Representa las coordenadas en todas las parejas de ejes formadas por cada uno de los valores de la lista del eje X, frente a cada uno de los valores de la lista del eje Y.

• SROWS.: Representa los perfiles fila suplementarios dados en el p´arrafo previo SUPPLEM. NO SROWS es la opci´on por defecto en modo interactivo.

• SCOLS.: Lo mismo, para perfiles columna.

• LABEL=NAME, NUMBER. (solo uno de los dos): Si se indica NAME, los nombres del p´arrafo CAT- EGORY o RNAME o CNAME se utilizan por defecto. Si se especifica NUMBER se utiliza R1,R2, . . . para las filas, C1, C2, . . . para las columnas, S1,S2, . . . para las filas suplementarias y D1, D2, . . . para las columnas suplementarias.

• SIZE=#1, #2.: Especifica el tama˜no de la representaci´on, siendo #1 el n´umero de caracteres para el eje horizontal, y #2 el n´umero de l´ıneas para el eje vertical. Por defecto en modo interactivo es 30, 15 y en modo no interactivo 70, 42. Para representaciones unidimensionales s´olo se requiere un par´ametro, puesto que la longitud del eje horizontal es fija, siendo en este caso #2, el n´umero de l´ıneas para el eje vertical y #1 se ignora.

• MINIMUM=#List. (hasta 3 n´umeros): Asigna l´ımites inferiores a la escala del dibujo, uno para cada eje.

Por defecto se utilizar´a el m´ınimo valor de las coordenadas.

• MAXIMUM=#List. Lo mismo para l´ımites superiores.

• QLT=#.: Igual que la misma orden del p´arrafo CORRESPONDENCE, aunque ´esta anula a la de dicho p´arrafo.

5. P´arrafo PRINT

Si se omite, el programa CA imprime las tablas de valores observados y excluidos. Se puede repetir interactivamente.

• LEVEL=MINIMAL, NORMAL. (s´olo uno de los dos): Si se especifica MINIMAL se obtienen las salidas del programa en modo interactivo y si se especifica NORMAL se obtienen las salidas en modo no interac-

(3)

• EXCLUDED.: A menos que se indique NO EXC, CA imprime la tabla de valores excluidos, si existen dichos valores.

• PERCENT=NONE, ROW, COLUMN, TOTAL.: ROW indica la tabla de porcentajes por filas, COL por columnas y TOTAL para la tabla de porcentajes totales. Por defecto es NONE (no se imprime ninguna).

• EXPECTED.: Se imprime la tabla de valores esperados bajo la hip´otesis de independencia. El valor por defecto es NO EXP.

• DIFFERENCE.: Imprime la tabla del cociente entre la diferencia entre valores observados y esperados y valores esperados. NO DIFF es el valor por defecto.

• DICTIONARY.: Cuando las variables han sido apiladas en el par´ametro CORRES, esta opci´on genera una tabla de la composici´on de las etiquetas, formada por la primera letra de cada nombre. Por defecto su valor es NO DICT.

• CHISQUARE=#.: Imprime tablas de frecuencias esperadas, donde # es el n´umero de ejes necesario para representar gr´aficamente las tablas y obtiene el valor del estad´ıstico χ2 para cada tabla. Por defecto su valor es el que aparece en AXIS dentro del p´arrafo CORRES.

6. P´arrafo SUPPLEMENTARY

Analiza perfiles suplementarios y en modo no interactivo imprime los valores de sus coordenadas. El perfil de cualquier variable no usada en el p´arrafo CORRES se puede generar autom´aticamente por RVAR y CVAR o se pueden introducir directamente con ROW y COLUMN. Se puede repetir interactivamente. Se representan en el siguiente p´arrafo PLOT a su definici´on.

• RVAR=List.: Indica los nombres de las variables que van a considerarse perfiles fila suplementarios. Se forman filas suplementarias con estas variables, utilizando las columnas que aparezcan en el ´ultimo p´arrafo CORRES.

Se deben definir CODES y CUTPOINTS en el p´arrafo CATEGORY para variables con m´as de 10 valores distintos.

• CVAR=List. : Lo mismo, para columnas.

• ROW(#)=# List.: El primer n´umero designa el orden de la fila suplementaria si hay varias. El segundo representa los valores del perfil fila y debe tener tantos valores como categor´ıas en cada fila. Se puede repetir.

• COLUMN(#)=# List.: Lo mismo, para columnas.

• RNAMES=List.: Indica los nombres para las filas suplementarias definidas con ROW . Por defecto toma los valores S1, S2, . . .

• CNAMES=List.: Lo mismo, para columnas. Por defecto toma los valores D1,D2, . . . 7. P´arrafo SAVE

S´olo se utiliza para guardar ficheros en formato BMDP. Es interactivo y se puede repetir. S´olo se puede guardar un an´alisis de CA en cada fichero BMDP.

• CONTENT=DATA, COUNT, SCORES. (s´olo uno): Se introduce cualquiera de esos valores seg´un sean datos, frecuencias o coordenadas, lo que se grabe en formato BMDP. El valor por defecto es DATA salvo si en el p´arrafo INPUT se ha usado COUNT, en cuyo caso ´este ser´ıa el valor por defecto.

• AXIS=#.: Se utiliza cuando CONTENT=SCORES, especifica el n´umero de coordenadas que se van a grabar, luego deber´a ser menor o igual que el n´umero de ejes utilizado en el an´alisis. El valor por defecto es el mismo que AXIS en el p´arrafo CORRES.

1.3 H´ abitos de fumar

El siguiente ejemplo es muy utilizado en la literatura de AC, Greenacre (1984).

Despu´es de la publicaci´on a escala nacional de un estudio sobre los peligros del h´abito de fumar, el director de una gran compa˜n´ıa, decide realizar un estudio sobre sus empleados. Para ello elige convenientemente una muestra de 193 personas correspondiente al 10%, de entre las cinco categor´ıas profesionales existentes en la empresa: Directivos senior, Directivos junior, Empleados senior, Empleados junior y Administrativos, seg´un nomenclatura anglosajona. El h´abito de fumar se categoriza en 4 niveles: no, poco, regular y mucho. Posteriormente se pregunta a los 193 empleados de la muestra de la compa˜n´ıa sobre si consumen bebidas alcoh´olicas, por la posible influencia en el h´abito de fumar. Los datos obtenidos se reflejan en las siguientes tablas:

A trav´es de un estudio similar al realizado por el director de la empresa, se conoce que el porcentaje a nivel nacional, de los diferentes niveles de fumar es el siguiente: NO 42%, POCO 29%, REGULAR 20%, MUCHO 9%. Vamos a analizar este ejemplo, t´ıpico en la literatura del An´alisis de Correspondencias, utilizando la informaci´on sobre la bebida y sobre el estudio a nivel nacional como puntos suplementarios.

(4)

Table 1: H´abitos de fumar Categor´ıas de fumadores

Plantilla NO POCO REGULAR MUCHO Total fila

DIR SEN 4 2 3 2 11

DIR JUN 4 3 7 4 18

EMPL SEN 25 10 12 4 18

EMPL JUN 18 24 33 13 88

ADMINIS 10 6 7 2 25

Total columna 61 45 62 25 193

Table 2: Consumo de bebidas alcoh´olicas Consumo bebidas

alcoh´olicas Plantilla BEBE NO BEBE

DIR SEN 0 11

DIR JUN 1 17

EMPL SEN 5 46

EMPL JUN 10 78

ADMINIS 7 18

1.4 Aplicaci´ on pr´ actica

Dentro de una tabla bidimensional tenemos que estudiar las relaciones entre las filas, entre las columnas, y las relaciones que puedan existir entre las filas y columnas, por lo tanto hay que dar tres informaciones separadas como conclusi´on del an´alisis. Para ello nos vamos a basar en las representaciones gr´aficas uni y bidimensionales que figuran a continuaci´on.

Asimismo contamos con una serie de valores num´ericos cuyo nombre gen´erico es ayudas a la interpretaci´on, que modulan y complementan lo que las gr´aficas representan.

El orden que vamos a seguir en el an´alisis de los resultados es el siguiente:

• Primero analizaremos las filas de la tabla, (perfiles fila), observando las representaciones gr´aficas sobre el primer eje factorial, sobre el segundo eje factorial y sobre ambos ejes bidimensionalmente. La justificaci´on de este orden es que el primer eje factorial, explica el 87.8% de la variabilidad existente entre las filas, y el segundo eje el 11.8%, por lo que hay que darle m´as importancia a lo visto sobre el primer eje que a lo visto sobre el segundo. Se termina con la representaci´on bidimensional que matiza y corrige lo visto sobre la primera dimensi´on.

• En segundo lugar analizaremos las columnas de la tabla, (perfiles columna), con el mismo procedimiento del apartado anterior.

• En tercer lugar analizaremos las relaciones existentes entre las filas y columnas, tambi´en con ese mismo procedimiento, aunque en este caso, si el contraste de independencia de la χ2 que realiza el programa CA, rechaza la independencia entre ambas variables, fila y columna, significa que la dependencia existente va a permitir mayores posibilidades de obtener conclusiones entre las categor´ıas de una y otra variable.

1.4.1 Perfiles fila

A la vista de las representaciones gr´aficas obtenidas al ejecutar el programa CA del paquete estad´ıstico BMDP (Biomedical Program), observamos lo siguiente:

1. Las categor´ıas profesionales EMPL SEN y por otro lado DIR JUN y EMPL JUN se encuentran en los extremos negativo y positivo del primer eje respectivamente, lo que indica que tienen comportamientos contrarios en relaci´on a los h´abitos de fumar, teniendo los dos grupos ´ultimos mayor parecido. El que unos grupos est´en en la parte negativa y otros en la positiva, no tiene ning´un significado, solo es interesante analizar las diferencias o similitudes existentes entre ellos.

2. Las categor´ıas ADMINIS y DIR SEN ocupan posiciones intermedias entre los dos grupos anteriores, por lo que el primero tiende a tener un comportamiento m´as parecido a EMPL SEN y el segundo un comportamiento intermedio entre los dos grupos del apartado anterior.

(5)

1.4.2 Perfiles columna

En este ejemplo, las columnas tienen un mayor inter´es en la explicaci´on de la asociaci´on entre las dos variables de la tabla.

Podemos observar lo siguiente:

1. El primer eje divide a los que no fuman de los que fuman, situ´andose la categor´ıa NO a la izquierda del eje y las dem´as a la derecha.

2. Adem´as observamos una jerarquizaci´on del primer eje sobre los h´abitos de fumar de manera que el orden en el que se presentan las categor´ıas es: NO, POCO, REGULAR y MUCHO, lo que siempre es interesante a la hora de establecer relaciones entre filas y columnas.

3. Las mayores diferencias se dan entre las categor´ıas NO y MUCHO, lo que no tiene porqu´e ser l´ogico, porque no estamos analizando las diferencias entre las personas que no fuman y que fuman mucho de forma absoluta, sino a trav´es de las categor´ıas profesionales de la empresa, dicho de otra forma, si en las cinco categor´ıas profesionales, hubiese muy pocos que no fuman y muy pocos que fuman mucho, ambos perfiles estar´ıan situados juntos en la representaci´on gr´afica.

4. Se observa tambi´en que no hay grandes diferencias entre las tres categor´ıas de fumadores: POCO, REGULAR y MUCHO, presentando REGULAR un comportamiento intermedio entre ambas.

1.4.3 Perfiles fila y columna

Podemos establecer las siguientes relaciones:

1. La mayor proporci´on de no fumadores se da dentro de los EMPL SEN y tambi´en es cierto que dentro de la categor´ıa profesional EMPL SEN mayoritariamente no se fuma.

2. Existe una fuerte asociaci´on positiva entre la categor´ıa profesional DIR JUN y fumar MUCHO.

3. Existe una asociaci´on positiva entre la categor´ıa profesional EMPL JUN y fumar POCO y REGULAR.

4. La categor´ıa ADMINIS presenta bastante asociaci´on positiva con NO fumar y algo menos con fumar POCO.

5. Los trabajadores clasificados en DIR SEN, tienen asociaci´on positiva con los h´abitos de fumar extremos, NO y MUCHO, por estar situados entre ambos.

6. Por ´ultimo debido a la jerarquizaci´on del primer eje en relaci´on a los h´abitos de fumar comentada antes, cuanto m´as a la izquierda est´e situada una categor´ıa profesional, m´as tendencia tendr´a a no fumar y conforme se vaya situando m´as a la derecha m´as tendencia a fumar m´as, lo que nos permite ordenar las categor´ıas profesionales seg´un los h´abitos de fumar de menos a m´as, de la siguiente forma: EMPL SEN, ADMINIS, DIR SEN, EMPL JUN y DIR JUN.

1.4.4 Perfiles suplementarios

Tenemos en este ejemplo una fila y dos columnas suplementarias. En este caso son de naturaleza distinta, mientras el primero llamado PROMEDIO, proviene de una fuente externa al estudio, y se utiliza para establecer una comparaci´on entre la informaci´on a nivel nacional y de nuestro estudio, las columnas llamadas BEBE y NO BEBE proceden de la muestra de 193 personas de la empresa, luego podr´ıan haberse incluido, de haberlo estimado necesario, en el estudio inicial. Las conclusiones a las que llegamos son las siguientes:

1. Al estar situado el punto PROMEDIO, (perfil que representa el porcentaje a nivel nacional de los h´abitos de fumar), entre NO y POCO, podemos afirmar que los trabajadores de nuestra empresa tienen una alta proporci´on de fumadores comparada con la media nacional.

2. Existe cierta asociaci´on entre fumar MUCHO con BEBE y entre NO BEBE y consumir menos tabaco. En cualquier caso una de las ayudas a la interpretaci´on (COR2 = 0.04) nos indica que esos puntos no est´an suficientemente bien representados en la gr´afica y las conclusiones podr´ıan ser err´oneas.

(6)

1.5 AC en BMDP

Resultados proporcionados por el programa CA del BMDP

PROGRAM INSTRUCTIONS /PROBLEM TITTLE IS ’Habitos de Fumar’.

/INPUT VARIABLES=2.

FORMAT=FREE.

TABLE=4,5.

FILE IS ’c:\fumar.ASC’.

/VARIABLES NAMES=FUMAR,PLANTILLA.

/CATEGORY NAMES(FUMAR)=NO,POCO,REGULAR,MUCHO.

NAMES(PLANTILLA)=DIR_SEN,DIR_JUN,EMPL_SEN,EMPL_JUN, ADMINIS.

/END

CORRES ROW=PLANTILLA.

COL=FUMAR. /

PRINT PERCENT=ROW,COL,total./

PLOT SIZE=70,42.

Xaxis=1./

PLOT /

SUPPLEM ROW=42,29,20,9.

RNAME=PROMEDIO.

COL(1)=0,1,5,10,7.

COL(2)=11,17,46,78,18.

CNAMES=NO_BEBE,BEBE./

PLOT /

END/

ANALYSIS OF OBSERVED FREQUENCY TABLE TOTAL INERTIA = SUM OF EIGENVALUES = 0.0852

AXIS EIGENVALUE % OF INERTIA CUM % HISTOGRAM

1 0.075 87.8 87.8 ****************************

2 0.010 11.8 99.5 ****

MAXIMUM NUMBER OF FACTORS TO EXTRACT ... 3 CUT-OFF TOLERANCE ... 90.00%

NUMBER OF FACTORS ACCOUNTING FOR 90.00% OF INERTIA ... 2 NUMBER OF FACTORS ACTUALLY EXTRACTED ... 2 CHISQUARE VALUE WITH 12 DF = 16.442

CHISQUARE ASSOCIATED P-VALUE = 0.172

(7)

ROWS ----

--- ROW NAME MASS QLT INR | FACTOR COR2 CTR | FACTOR COR2 CTR

| AXIS 1 | AXIS 2

--- 1 DIR_SEN 0.057 0.893 0.003 | -0.066 0.092 0.003 | 0.194 0.800 0.214 2 DIR_JUN 0.093 0.991 0.012 | 0.259 0.526 0.084 | 0.243 0.465 0.551 3 EMPL_SEN 0.264 1.000 0.038 | -0.381 0.999 0.512 | 0.011 0.001 0.003 4 EMPL_JUN 0.456 1.000 0.026 | 0.233 0.942 0.331 | -0.058 0.058 0.152 5 ADMINIS 0.130 0.999 0.006 | -0.201 0.865 0.070 | -0.079 0.133 0.081 ---

COLUMNS ---

--- COL NAME MASS QLT INR | FACTOR COR2 CTR | FACTOR COR2 CTR

| AXIS 1 | AXIS 2

--- 1 NO 0.316 1.000 0.049 | -0.393 0.994 0.654 | 0.030 0.006 0.029 2 POCO 0.233 0.984 0.007 | 0.099 0.327 0.031 | -0.141 0.657 0.463 3 REGULAR 0.321 0.983 0.013 | 0.196 0.982 0.166 | -0.007 0.001 0.002 4 MUCHO 0.130 0.995 0.016 | 0.294 0.684 0.150 | 0.198 0.310 0.506 ---

SUPPLEMENTARY ROWS ---

---

SROW NAME QLT | FACTOR COR2 | FACTOR COR2

| AXIS 1 | AXIS 2

---

1 PROMEDIO 0.761 | -0.258 0.631 | -0.118 0.131

--- SUPPLEMENTARY COLUMNS

---

---

SCOL NAME QLT | FACTOR COR2 | FACTOR COR2

| AXIS 1 | AXIS 2

---

1 NO_BEBE 0.399 | 0.157 0.177 | -0.175 0.222

2 BEBE 1.728 | 0.300 1.225 | 0.192 0.504

---

(8)

***** OBSERVED FREQUENCY TABLE

PLANTILL FUMAR

--- ---

NO POCO REGULAR MUCHO TOTAL

---

DIR_SEN 4 2 3 2 | 11

DIR_JUN 4 3 7 4 | 18

EMPL_SEN 25 10 12 4 | 51

EMPL_JUN 18 24 33 13 | 88

ADMINIS 10 6 7 2 | 25

---|---

TOTAL 61 45 62 25 | 193

***** PERCENTS OF ROW TOTALS

PLANTILL FUMAR

--- ---

NO POCO REGULAR MUCHO TOTAL

---

DIR_SEN 36.4 18.2 27.3 18.2 | 100.0

DIR_JUN 22.2 16.7 38.9 22.2 | 100.0

EMPL_SEN 49.0 19.6 23.5 7.8 | 100.0

EMPL_JUN 20.5 27.3 37.5 14.8 | 100.0

ADMINIS 40.0 24.0 28.0 8.0 | 100.0

---|---

TOTAL 31.6 23.3 32.1 13.0 | 100.0

***** PERCENTS OF COLUMN TOTALS

PLANTILL FUMAR

--- ---

NO POCO REGULAR MUCHO TOTAL

---

DIR_SEN 6.6 4.4 4.8 8.0 | 5.7

DIR_JUN 6.6 6.7 11.3 16.0 | 9.3

EMPL_SEN 41.0 22.2 19.4 16.0 | 26.4

EMPL_JUN 29.5 53.3 53.2 52.0 | 45.6

ADMINIS 16.4 13.3 11.3 8.0 | 13.0

---|---

TOTAL 100.0 100.0 100.0 100.0 | 100.0

***** PERCENTS OF THE TABLE TOTAL

PLANTILL FUMAR

--- ---

NO POCO REGULAR MUCHO TOTAL

---

DIR_SEN 2.1 1.0 1.6 1.0 | 5.7

DIR_JUN 2.1 1.6 3.6 2.1 | 9.3

EMPL_SEN 13.0 5.2 6.2 2.1 | 26.4

EMPL_JUN 9.3 12.4 17.1 6.7 | 45.6

ADMINIS 5.2 3.1 3.6 1.0 | 13.0

---|---

TOTAL 31.6 23.3 32.1 13.0 | 100.0

(9)

PLOT OF ROWS .

.3 + + +

- . -

- DIR_JUN . -

- . -

- EMPL_JUN . -

- . -

.2 + + +

- . -

- . -

- . -

- . -

- . -

.1 + + +

- . -

- . -

- . -

- . -

- . -

A 0. + + +

X - . -

I - . -

S - . -

- DIR_SEN . -

1 - . -

-.1 + + +

- . -

- . -

- . -

- . -

- . -

-.2 + ADMINIS + +

- . -

- . -

- . -

- . -

- . -

-.3 + + +

- . -

- . -

- . -

- . -

- EMPL_SEN . -

-.4 + + +

LX = .0748 ( 87.8%)

(10)

PLOT OF COLUMNS .

.3 + MUCHO + +

- . -

- . -

- . -

- . -

- . -

.2 + REGULAR + +

- . -

- . -

- . -

- . -

- . -

.1 + POCO + +

- . -

- . -

- . -

- . -

- . -

A 0. + + +

X - . -

I - . -

S - . -

- . -

1 - . -

-.1 + + +

- . -

- . -

- . -

- . -

- . -

-.2 + + +

- . -

- . -

- . -

- . -

- . -

-.3 + + +

- . -

- . -

- . -

- . -

- . -

-.4 + NO + +

LX = .0748 ( 87.8%)

(11)

PLOT OF ROWS AND COLUMNS .

.3 + + MUCHO +

- . -

- DIR_JUN . -

- . -

- EMPL_JUN . -

- . -

.2 + + REGULAR +

- . -

- . -

- . -

- . -

- . -

.1 + + POCO +

- . -

- . -

- . -

- . -

- . -

A 0. + + +

X - . -

I - . -

S - . -

- DIR_SEN . -

1 - . -

-.1 + + +

- . -

- . -

- . -

- . -

- . -

-.2 + ADMINIS + +

- . -

- . -

- . -

- . -

- . -

-.3 + + +

- . -

- . -

- . -

- . -

- EMPL_SEN . -

-.4 + + NO +

L1 = .0748 ( 87.8%)

(12)

PLOT OF ROWS

...+...+...+...+...+...+...+...+...+..

- | -

.25 + + +

- | DIR_JUN -

- | -

- | -

- | -

- | -

.20 + + +

- DIR_SEN -

- | -

- | -

- | -

- | -

.15 + + +

- | -

- | -

- | -

- | -

A - | -

X .10 + + +

I - | -

S - | -

- | -

2 - | -

- | -

.05 + + +

- | -

- | -

- | -

- | -

- EMPL_SEN | -

0.0 +---+---+---+---+---+---+---+---+---+-+

- | -

- | -

- | -

- | -

- | -

-.05 + + +

- | EMPL_JUN -

- | -

- ADMINIS | -

- | -

- | -

...+...+...+...+...+...+...+...+...+..

-.27 -.09 .09 .27

-.36 -.18 0.0 .18 .36

AXIS 1

LX = .0748 ( 87.8%) LY = .0100 ( 11.8%)

(13)

PLOT OF COLUMNS

...+...+...+...+...+...+...+...+...+...

- | -

.20 + + MUCHO +

- | -

- | -

- | -

- | -

- | -

.15 + + +

- | -

- | -

- | -

- | -

- | -

.10 + + +

- | -

- | -

- | -

- | -

A - | -

X .05 + + +

I - | -

S - NO | -

- | -

2 - | -

- | -

0.0 +----+---+---+---+---+---+---+---+---+--+

- | REGULAR -

- | -

- | -

- | -

- | -

-.05 + + +

- | -

- | -

- | -

- | -

- | -

-.10 + + +

- | -

- | -

- | -

- | -

- | POCO -

...+...+...+...+...+...+...+...+...+...

-.27 -.09 .09 .27

-.36 -.18 0.0 .18 .36

AXIS 1

LX = .0748 ( 87.8%) LY = .0100 (11.8%)

(14)

PLOT OF ROWS AND COLUMNS

...+...+...+...+...+...+...+...+...+...

- | DIR_JUN -

- | -

- | -

- | -

.20 + + MUCHO +

- DIR_SEN BEBE -

- | -

- | -

- | -

.15 + + +

- | -

- | -

- | -

- | -

.10 + + +

- | -

- | -

- | -

A - | -

X .05 + + +

I - | -

S - NO | -

- | -

2 - EMPL_SEN | -

0.0 +----+---+---+---+---+---+---+---+---+--+

- | REGULAR -

- | -

- | -

- | -

-.05 + + +

- | EMPL_JUN -

- | -

- ADMINIS | -

- | -

-.10 + + +

- | -

- PROMEDIO | -

- | -

- | POCO -

-.15 + + +

- | -

- | -

- | NO_BEBE -

...+...+...+...+...+...+...+...+...+...

-.27 -.09 .09 .27

-.36 -.18 0.0 .18 .36

AXIS 1

L1 = .0748 ( 87.8%) L2 = .0100 ( 11.8%)

(15)

1.6 AC en SPSS

Dentro del programa SPSS, existen dos m´odulos o paquetes que permiten realizar un AC sobre una tabla de datos:

ANACOR y CORRESPONDENCE y dependiendo de la forma de introducir los datos, tenemos diversas variantes, seg´un se introduzcan a trav´es de una tabla de frecuencias, o frecuencias casilla a casilla indicando la posici´on de cada una de ellas.

1. M´odulo ANACOR

´ ordenes

DATA LIST FREE

/PLANTI FUMAR FREQ.

WEIGHT BY FREQ.

VALUE LABELS

PLANTI 1 ’Dir_sen’ 2 ’Dir_jun’ 3 ’Emp_sen’ 4 ’Emp_jun’ 5 ’Adminis’

/FUMAR 1 ’No’ 2 ’Poco’ 3 ’Regular’ 4 ’Mucho’.

BEGIN DATA

1 1 4 1 2 2 1 3 3 1 4 2

2 1 4 2 2 3 2 3 7 2 4 4

3 1 25 3 2 10 3 3 12 3 4 4

4 1 18 4 2 24 4 3 33 4 4 13

5 1 10 5 2 6 5 3 7 5 4 2

END DATA.

ANACOR TABLE=PLANTI(1,5) BY FUMAR(1,4) /DIMENSION=2

/NORMALIZATION=CANONICAL

/VARIANCES=SINGULAR ROWS COLUMNS /PRINT=SCORES TABLE CONTRIBUTIONS

/PLOT NDIM(1,2) TRROWS TRCOLUMNS ROWS(15) COLUMNS(15) JOINT.

An´alisis de correspondencias

A N A C O R - VERSION 0.4 BY

DEPARTMENT OF DATA THEORY UNIVERSITY OF LEIDEN, THE NETHERLANDS

The table to be analyzed:

1 2 3 4

No Poco Regular Mucho Margin

1 Dir_sen 4 2 3 2 11

2 Dir_jun 4 3 7 4 18

3 Emp_sen 25 10 12 4 51

4 Emp_jun 18 24 33 13 88

5 Adminis 10 6 7 2 25

---

Margin 61 45 62 25 193

(16)

Dimension Singular Inertia Proportion Cumulative

Value Explained Proportion

1 ,27342 ,07476 ,878 ,878

2 ,10009 ,01002 ,118 ,995

3 ,02034 ,00041 ,005 1,000

--- --- ---

Total ,08519 1,000 1,000

Row Scores:

PLANTI Marginal Dim

Profile 1 2

1 Dir_sen ,057 -,126 ,612

2 Dir_jun ,093 ,495 ,769

3 Emp_sen ,264 -,728 ,034

4 Emp_jun ,456 ,446 -,183

5 Adminis ,130 -,385 -,249

Contribution of row points to the inertia of each dimension:

PLANTI Marginal Dim

Profile 1 2

1 Dir_sen ,057 ,003 ,214

2 Dir_jun ,093 ,084 ,551

3 Emp_sen ,264 ,512 ,003

4 Emp_jun ,456 ,331 ,152

5 Adminis ,130 ,070 ,081

--- --- 1,000 1,000

Contribution of dimensions to the inertia of each row point:

PLANTI Marginal Dim Total

Profile 1 2

1 Dir_sen ,057 ,092 ,800 ,893

2 Dir_jun ,093 ,526 ,465 ,991

3 Emp_sen ,264 ,999 ,001 1,000

4 Emp_jun ,456 ,942 ,058 1,000

5 Adminis ,130 ,865 ,133 ,999

Column Scores:

FUMAR Marginal Dim

Profile 1 2

1 No ,316 -,752 ,096

2 Poco ,233 ,190 -,446

3 Regular ,321 ,375 -,023

4 Mucho ,130 ,562 ,625

Contribution of column points to the inertia of each dimension:

FUMAR Marginal Dim

Profile 1 2

1 No ,316 ,654 ,029

2 Poco ,233 ,031 ,463

(17)

1,000 1,000

Contribution of dimensions to the inertia of each column point:

FUMAR Marginal Dim Total

Profile 1 2

1 No ,316 ,994 ,006 1,000

2 Poco ,233 ,327 ,657 ,984

3 Regular ,321 ,982 ,001 ,983

4 Mucho ,130 ,684 ,310 ,995

Variances and Correlation Matrix of the singular values:

Dim Variances Correlations between dimensions

1 ,005 1,000

2 ,006 ,020 1,000

Variances and Correlation Matrix of scores of Row 1 Dir_sen Dim Variances Correlations between dimensions

1 ,377 1,000

2 ,840 ,101 1,000

Variances and Correlation Matrix of scores of Row 2 Dir_jun Dim Variances Correlations between dimensions

1 ,213 1,000

2 ,261 ,007 1,000

Variances and Correlation Matrix of scores of Row 3 Emp_sen Dim Variances Correlations between dimensions

1 ,012 1,000

2 ,025 ,107 1,000

Variances and Correlation Matrix of scores of Row 4 Emp_jun Dim Variances Correlations between dimensions

1 ,014 1,000

2 ,015 ,611 1,000

Variances and Correlation Matrix of scores of Row 5 Adminis Dim Variances Correlations between dimensions

1 ,025 1,000

2 ,023 -,360 1,000

Variances and Correlation Matrix of scores of Column 1 No Dim Variances Correlations between dimensions

1 ,014 1,000

2 ,021 ,402 1,000

Variances and Correlation Matrix of scores of Column 2 Poco Dim Variances Correlations between dimensions

1 ,079 1,000

2 ,085 ,054 1,000

Variances and Correlation Matrix of scores of Column 3 Regular

(18)

Dim Variances Correlations between dimensions

1 ,032 1,000

2 ,110 ,020 1,000

Variances and Correlation Matrix of scores of Column 4 Mucho Dim Variances Correlations between dimensions

1 ,130 1,000

2 ,195 -,155 1,000

Figure 1: Perfiles fila sobre el eje 1

Punt. de fila para PLANTI

Simétrica Normalización

Constante

,6

,4

,2

−,0

−,2

−,4

−,6

Adminis Emp_jun

Emp_sen Dir_sen Dir_jun

(19)

Figure 2: Perfiles columna sobre el eje 1

Punt. de columna para FUMAR

Simétrica Normalización

Constante

,6

,4

,2

−,0

−,2

−,4

−,6

Mucho Regular Poco

No

Figure 3: Perfiles fila sobre los ejes 1,2

Punt. de fila para PLANTI

Simétrica Normalización

Dimensión 1

,6 ,4

,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

0,0

−,2

−,4

Adminis

Emp_jun Emp_sen

Dir_jun

Dir_sen

(20)

Figure 4: Perfiles columna sobre los ejes 1,2

Punt. de columna para FUMAR

Simétrica Normalización

Dimensión 1

,6 ,4 ,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

−,0

−,2

−,4

−,6

Mucho

Regular

Poco No

Figure 5: Perfiles fila-columna sobre los ejes 1,2

Punt. de fila y columna

Simétrica Normalización

Dimensión 1

,6 ,4 ,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

−,0

−,2

−,4

−,6

FUMAR PLANTI Mucho

Regular

Poco No

Adminis

Emp_jun Emp_sen

Dir_sen

(21)

2. M´odulo CORRESPONDENCE

Fichero de datos

Rowcat_ No Poco Regular Mucho

1 4 2 3 2

2 4 3 7 4

3 25 10 12 4

4 18 24 33 13

5 10 6 7 2

´ ordenes DATA LIST

/ROWCAT_ 1 No 3-4 Poco 6-7 Regular 9-10 Mucho 12-13.

BEGIN DATA

1 04 02 03 02 2 04 03 07 04 3 25 10 12 04 4 18 24 33 13 5 10 06 07 02 END DATA.

VALUE LABELS ROWCAT_ 1 ’DIR_SEN’ 2 ’DIR_JUN’ 3 ’EMP_SEN’ 4 ’EMP_JUN’ 5 ’ADMINIS’.

CORRESPONDENCE TABLE=ALL(5,4)

/PRINT=TABLE RPROF CPROF RPOINTS CPOINTS RCONF CCONF /PLOT NDIM(1,2) RPOINTS CPOINTS TRROWS TRCOLUMNS BIPLOT.

En DATA LIST aparece ROWCAT que es el nombre de la variable Categ´orica fila. 1 es la posici´on columna que ocupan los valores de la variable (1, 2, 3, 4, 5) en la tabla de datos. A continuaci´on aparecen los nombres de las variables columnas: No, Poco, Regular y Mucho, y las posiciones columna que ocupan sus valores en la tabla:

columnas (3,4), (6,7), (9,10) y (12,13) respectivamente. Se introducen en BEGIN DATA los valores de la tabla de doble entrada, a˜nadiendo la primera columna (ROWCAT ) y despu´es se definen las etiquetas de la variable fila (ROWCAT ), que en este ejemplo corresponden a ’DIR SEN’, ’DIR JUN’, ’EMP SEN’, ’EMP JUN’ y ’ADMINIS’, es obligatorio que vayan entre comillas. Por ´ultimo es imprescindible en la orden TABLE poner el comando ALL seguido de las dimensiones reales de la tabla.

Figure 6: Valores de los perfiles fila-columna

(22)

Figure 7: Resultados de las ayudas a la interpretaci´on

(23)

Figure 8: Desviaciones de las coordenadas de los perfiles fila

Figure 9: Desviaciones de las coordenadas de los perfiles columna

Figure 10: Diagramas de las coordenadas de las filas y columnas sobre los ejes 1 y 2 Dimensión 1 Transformadas Row categorías

Simétrica Normalización

Row

ADMINIS EMP_JUN

EMP_SEN DIR_JUN

DIR_SEN

Dimensión 1 Transformadas Row categorías

,6

,4

,2

0,0

−,2

−,4

−,6

−,8

(24)

Dimensión 2 Transformadas Row categorías Simétrica Normalización

Row

ADMINIS EMP_JUN

EMP_SEN DIR_JUN

DIR_SEN

Dimensión 2 Transformadas Row categorías

1,0

,8

,6

,4

,2

0,0

−,2

−,4

Dimensión 1 Transformadas Column categorías Simétrica Normalización

Column

MUCHO REGULAR

POCO NO

Dimensión 1 Transformadas Column categorías

,8 ,6 ,4 ,2 ,0

−,2

−,4

−,6

−,8

−1,0

Dimensión 2 Transformadas Column categorías Simétrica Normalización

MUCHO REGULAR

POCO NO

Dimensión 2 Transformadas Column categorías

,8

,6

,4

,2

−,0

−,2

−,4

−,6

(25)

Figure 11: Gr´afica de los perfiles fila, ejes 1-2

Puntos de fila para Row Simétrica Normalización

Dimensión 1

,6 ,4 ,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

0,0

−,2

−,4

ADMINIS

EMP_JUN EMP_SEN

DIR_JUN

DIR_SEN

Figure 12: Gr´afica de los perfiles columna, ejes 1-2

Puntos de columna para Column Simétrica Normalización

Dimensión 1

,6 ,4 ,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

−,0

−,2

−,4

−,6

MUCHO

REGULAR

POCO NO

(26)

Figure 13: Gr´afica de los perfiles fila-columna, ejes 1-2

Puntos de columna y de fila Simétrica Normalización

Dimensión 1

,6 ,4 ,2 0,0

−,2

−,4

−,6

−,8

Dimensión 2

,8

,6

,4

,2

−,0

−,2

−,4

−,6

Column Row MUCHO

REGULAR

POCO NO

ADMINIS

EMP_JUN EMP_SEN

DIR_SEN

(27)

3. M´odulo CORRESPONDENCE. Introduciendo los datos uno a uno seg´un la posici´on. Los resultados son los mismos del caso anterior.

Fichero de datos

Planti Fumar Freq

1,00 1,00 4,00

1,00 2,00 2,00

1,00 3,00 3,00

1,00 4,00 2,00

2,00 1,00 4,00

2,00 2,00 3,00

2,00 3,00 7,00

2,00 4,00 4,00

3,00 1,00 25,00

3,00 2,00 10,00

3,00 3,00 12,00

3,00 4,00 4,00

4,00 1,00 18,00

4,00 2,00 24,00

4,00 3,00 33,00

4,00 4,00 13,00

5,00 1,00 10,00

5,00 2,00 6,00

5,00 3,00 7,00

5,00 4,00 2,00

´ ordenes

DATA LIST FREE /PLANTI FUMAR FREQ.

WEIGHT BY FREQ.

VALUE LABELS

PLANTI 1 ’DIR_SEN’ 2 ’DIR_JUN’ 3 ’EMPL_SEN’ 4 ’EMPL_JUN’ 5 ’ADMINIS’

/FUMAR 1 ’no’ 2 ’poco’ 3 ’regular’ 4 ’mucho’.

BEGIN DATA

1 1 4 1 2 2 1 3 3 1 4 2

2 1 4 2 2 3 2 3 7 2 4 4

3 1 25 3 2 10 3 3 12 3 4 4

4 1 18 4 2 24 4 3 33 4 4 13

5 1 10 5 2 6 5 3 7 5 4 2

END DATA.

CORRESPONDENCE TABLE=PLANTI(1,5) BY FUMAR(1,4) /DIMENSION=2

/PLOT TRROWS TRCOLUMNS RPOINTS(15) CPOINTS(15) BIPLOT.

(28)

4. M´odulo CORRESPONDENCE. Usando men´us del programa. Los resultados son los mismos del caso anterior.

Fichero de datos

Planti Fumar Freq

1,00 1,00 4,00

1,00 2,00 2,00

1,00 3,00 3,00

1,00 4,00 2,00

2,00 1,00 4,00

2,00 2,00 3,00

2,00 3,00 7,00

2,00 4,00 4,00

3,00 1,00 25,00

3,00 2,00 10,00

3,00 3,00 12,00

3,00 4,00 4,00

4,00 1,00 18,00

4,00 2,00 24,00

4,00 3,00 33,00

4,00 4,00 13,00

5,00 1,00 10,00

5,00 2,00 6,00

5,00 3,00 7,00

5,00 4,00 2,00

´ ordenes

CORRESPONDENCE

TABLE = planti(1 5) BY fumar(1 4) /DIMENSIONS = 2

/MEASURE = CHISQ /STANDARDIZE = RCMEAN

/NORMALIZATION = SYMMETRICAL

/PRINT = TABLE RPOINTS CPOINTS RPROFILES CPROFILES RCONF CCONF

/PLOT = NDIM(1,2) BIPLOT(20) RPOINTS(20) CPOINTS(20) TRROWS(20) TRCOLUMNS(20) . Secuencia de men´us:

Abrir Fichero de Datos o Introducir Datos −→ Analizar −→ Reducci´on de Datos −→ An´alisis de Correspondencias

−→ −→ Variable Fila −→ −→ Planti −→ Rango de Filas −→ Min=1, Max=5 −→ Actualizar −→ Continuar −→

Variable Columna −→ Fumar −→ Rango de Columnas −→ Min=1, Max=4 −→ Actualizar −→ Continuar −→

Modelo −→ Estad´ısticos −→ Gr´aficos −→ Continuar −→ Aceptar.

Nota: Hay que introducir la variable Freq como una variable de peso: datos—-ponderar casos por Freq.

Para abrir el editor de sintaxis basta con pulsar el bot´on Pegar en la ventana: Analizar—Reducci´on de datos—An´alisis de correspondencias.

(29)

1.7 AC en R

El programa R a partir de su versi´on 2.8.1, utiliza 2 paquetes que realizan An´alisis de correspondencias, el paquete ca creado por Michael Greenacre y Oleg NenadicLas y el paquete anacor creado por Jan de Leeuw y Patrick Mair, adem´as en esta pr´actica implementamos otra variante que consiste en realizar el an´alisis paso a paso, recreando el desarrollo te´orico del AC. Utilizamos 3 formas de introducir los datos, ley´endolos desde un archivo externo como tabla de frecuencias, como vectores y como una matriz.

R en principio (R commander), no funciona con men´us sino con ´ordenes, y en la pr´actica, debajo de cada orden aparecen l´ıneas precedidas con el car´acter #, para indicar que lo que sigue es un comentario de texto, que unas veces explica el significado de la operaci´on inmediatamente anterior, y otras proporciona los resultados de la operaci´on realizada en el paso anterior. El programa R, as´ı como lospaquetesasociados, se actualizan peri´odicamente y permiten realizar cualquier tipo de t´ecnica estad´ıstica, por lo que consideramos es uno de los programas estad´ısticos con mayor proyecci´on de futuro.

1. AC paso a paso: Fichero de ´ordenes y resultados:

R version 2.8.1 (2008-12-22) Copyright (C) 2008 The R Foundation for Statistical Computing ISBN 3-900051-07-0

carfumar<-read.table("carfumar.asc",header=T)

# Lee como una tabla con cabecera, el fichero en ASCII,

# c:\rw1071\bin\carfumar.asc.

carfumar

# No Poco Regular Mucho

# Dir_sen 4 2 3 2

# Dir_jun 4 3 7 4

# Emp_sen 25 10 12 4

# Emp_jun 18 24 33 13

# Adminis 10 6 7 2

carfumar.mat<-as.matrix(carfumar)

# Convierte la tabla carfumar en una matriz.

carfumar.mat

# No Poco Regular Mucho

# Dir_sen 4 2 3 2

# Dir_jun 4 3 7 4

# Emp_sen 25 10 12 4

# Emp_jun 18 24 33 13

# Adminis 10 6 7 2

carfumar.prop<- carfumar.mat/sum( carfumar)

# Dividimos todos los valores de la tabla por su total.

carfumar.prop

# No Poco Regular Mucho

# Dir_sen 0.02072539 0.01036269 0.01554404 0.01036269

# Dir_jun 0.02072539 0.01554404 0.03626943 0.02072539

# Emp_sen 0.12953368 0.05181347 0.06217617 0.02072539

# Emp_jun 0.09326425 0.12435233 0.17098446 0.06735751

# Adminis 0.05181347 0.03108808 0.03626943 0.01036269 carfumar.filat<-apply( carfumar.prop,1,sum)

# Calcula la suma de las filas (1) del la matriz carfumar.

carfumar.filat

# Dir_sen Dir_jun Emp_sen Emp_jun Adminis

# 0.05699482 0.09326425 0.26424870 0.45595855 0.12953368 carfumar.colt<-apply( carfumar.prop,2,sum)

# Calcula la suma de las columnas (2) de la matriz carfumar carfumar.colt

(30)

# [,1]

# No 0.3160622

# Poco 0.2331606

# Regular 0.3212435

# Mucho 0.1295337

fdiag<-diag(1/sqrt(carfumar.filat))

# Matriz diagonal utilizada para calcular la matriz E, definida en un paso posterior.

fdiag

# [1] 4.188729

cdiag<-diag(1/sqrt(carfumar.colt))

# Matriz diagonal utilizada para calcular E.

cdiag

# [1] 1.778745

carfumar.filat<-as.matrix(carfumar.filat)

# Convierte el vector carfumar.filat en matriz para calcular E.

carfumar.colt<-as.matrix(carfumar.colt)

# Convierte el vector carfumar.colt en matriz para calcular E.

E<-fdiag%*%(carfumar.prop-carfumar.filat%*%t(carfumar.colt))%*%cdiag

# Calcula la matriz E=(f_(ij)-f_i.f_.j)/sqrt(f_i.f.j) E

# [,1] [,2] [,3] [,4]

# [1,] 0.02020239 -0.025384382 -0.02043562 0.03468162

# [2,] -0.05097522 -0.042054470 0.03644840 0.07864884

# [3,] 0.15922216 -0.039477006 -0.07795287 -0.07298869

# [4,] -0.13394189 0.055330472 0.06404368 0.03413421

# [5,] 0.05373569 0.005097772 -0.02618966 -0.04953368 carfumar.sva<-svd(E)

# Calcula la Descomposici´on en valores singulares de E.

carfumar.sva

# $d

# [1] 2.734211e-01 1.000859e-01 2.033652e-02 5.294257e-17

# $u

# [,1] [,2] [,3] [,4]

# [1,] -0.05742524 -0.46212293 0.8332653 -0.01642830

# [2,] 0.28923816 -0.74239515 -0.5061482 -0.09978896

# [3,] -0.71554563 -0.05475038 -0.1303234 -0.67608617

# [4,] 0.57530335 0.38957951 0.1097504 -0.60356179

# [5,] -0.26469630 0.28376408 -0.1430158 0.41035708

# $v

# [,1] [,2] [,3] [,4]

# [1,] -0.8087001 -0.17127755 -0.0246170 0.5621941

# [2,] 0.1756411 0.68056865 0.5223178 0.4828671

# [3,] 0.4069601 0.04167443 -0.7151246 0.5667835

# [4,] 0.3867013 -0.71116353 0.4638695 0.3599079 raizlambda<-carfumar.sva$d

# Selecciona los valores singulares d.

(31)

U<-carfumar.sva$u[,1:2]

# Selecciona los dos primeros vectores propios de las filas.

# [,1] [,2]

# [1,] -0.05742524 -0.46212293

# [2,] 0.28923816 -0.74239515

# [3,] -0.71554563 -0.05475038

# [4,] 0.57530335 0.38957951

# [5,] -0.26469630 0.28376408 V<-carfumar.sva$v[,1:2]

# Selecciona los dos primeros vectores propios de las columnas.

V

# [,1] [,2]

# [1,] -0.8087001 -0.17127755

# [2,] 0.1756411 0.68056865

# [3,] 0.4069601 0.04167443

# [4,] 0.3867013 -0.71116353

U[,1]<-raizlambda[1]*U[,1]/sqrt(carfumar.filat) U[,2]<-raizlambda[2]*U[,2]/sqrt(carfumar.filat) V[,1]<-raizlambda[1]*V[,1]/sqrt(carfumar.colt) V[,2]<-raizlambda[2]*V[,2]/sqrt(carfumar.colt)

# Escalamos los vectores propios para calcular las coordenadas.

U[,1]

# [1] -0.06576838 0.25895842 -0.38059489 0.23295191 -0.20108912 U[,2]

# [1] -0.19373700 -0.24330457 -0.01065991 0.05774391 0.07891123 V[,1]

# [1] -0.39330845 0.09945592 0.19632096 0.29377599 V[,2]

# [1] -0.030492071 0.141064289 0.007359109 -0.197765656

inercia<-sum(raizlambda[raizlambda>0]*raizlambda[raizlambda>0])

# Calcula la inercia para valores singulares >0.

inercia

# [1] 0.08518986

pc1<-(raizlambda[1]*raizlambda[1]/inercia)*100 pc2<-(raizlambda[2]*raizlambda[2]/inercia)*100.0

# Porcentajes de inercia explicados por cada eje pc1

# [1] 87.75587 pc2

# [1] 11.75865

# w<-8

# h<-w*raizlambda[1]/raizlambda[2]

# par(pin=c(w,h))

# Asigna el tama~no del ´area de la gr´afica para que la

# proporci´on entre los ejes permita comparar distancias entre puntos.

# w

# [1] 8

(32)

# h

# [1] 21.85492 options(digits=5)

plot(U[,1],U[,2],type="n",

xlab=paste("Eje 1 % inercia=",format(pc1)), ylab=paste("Eje 2 % inercia=",format(pc2)))

# Crea un marco en el que representar las etiquetas de filas y columnas.

text(U[,1],U[,2],labels=

c(dimnames(carfumar.mat)[[1]])) title(main="Perfiles fila")

Figure 14: Representaci´on de los perfiles fila, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2

−0.25−0.20−0.15−0.10−0.050.000.05

Eje 1 % inercia= 87.756

Eje 2 % inercia= 11.759

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

Perfiles fila

plot(V[,1],V[,2],type="n",

xlab=paste("Eje 1 % inercia=",format(pc1)), ylab=paste("Eje 2 % inercia=",format(pc2)))

# Crea un marco en el que representar las etiquetas de filas y columnas.

text(V[,1],V[,2],labels=

c(dimnames(carfumar.mat)[[2]] )) title(main="Perfiles columna")

T<-rbind(U,V)

# Combina las matrices U y V por filas para representarlas en la matriz T.

T

options(digits=5)

plot(T[,1],T[,2],type="n",

xlab=paste("Eje 1 % inercia=",format(pc1)), ylab=paste("Eje 2 % inercia=",format(pc2)))

# Crea un marco en el que representar las etiquetas de filas y columnas.

(33)

Figure 15: Representaci´on de los perfiles columna, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.20−0.15−0.10−0.050.000.050.100.15

Eje 1 % inercia= 87.756

Eje 2 % inercia= 11.759

No

Poco

Regular

Mucho Perfiles columna

Figure 16: Representaci´on de los perfiles fila-columna, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.2−0.10.00.1

Eje 1 % inercia= 87.756

Eje 2 % inercia= 11.759

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

No

Poco

Regular

Mucho Perfiles fila y columna

(34)

2. Ca: Hay que cargar el paquete ca

> carfumar<-read.table("carfumar.asc",header=T)

# Lee el fichero carfumar.asc con cabecera como tabla de frecuencias y lo guarda en el objeto carfumar

> carfumar <- structure(list(No=c(4, 4, 25, 18, 10), Poco= c(2, 3, 10, 24, 6),

Regular= c(3, 7, 12, 33, 7), Mucho= c(2, 4, 4, 13, 2)), .Names = c("NO", "Poco", "Regular", "Mucho"), row.names = c("Dir_S", "Dir_J", "Emp_S", "Emp_J", "Adm"), class = "data.frame")

# Otra forma de introducir los datos con la funci´on structure

> carfumar

# Comprobamos el contenido del objeto carfumar No Poco Regular Mucho

Dir_sen 4 2 3 2

Dir_jun 4 3 7 4

Emp_sen 25 10 12 4

Emp_jun 18 24 33 13

Adminis 10 6 7 2

> summary(ca(carfumar))

# Obtenemos un resumen del an´alisis Principal inertias (eigenvalues):

dim value % cum% scree plot

[1,] 1 0.074759 87.8 87.8 *************************

[2,] 2 0.010017 11.8 99.5 ***

[3,] 3 0.000414 0.5 100.0 [4,] --- --- [5,] Total: 0.085190 100.0

Rows:

name mass qlt inr k=1 cor ctr k=2 cor ctr 1 | Dr_s | 57 893 31 | -66 92 3 | -194 800 214 | 2 | Dr_j | 93 991 139 | 259 526 84 | -243 465 551 | 3 | Emp_s | 264 1000 450 | -381 999 512 | -11 1 3 | 4 | Emp_j | 456 1000 308 | 233 942 331 | 58 58 152 | 5 | Adm | 130 999 71 | -201 865 70 | 79 133 81 | Columns:

name mass qlt inr k=1 cor ctr k=2 cor ctr 1 | No | 316 1000 577 | -393 994 654 | -30 6 29 | 2 | Poc | 233 984 83 | 99 327 31 | 141 657 463 | 3 | Rgl | 321 983 148 | 196 982 166 | 7 1 2 | 4 | Mch | 130 995 192 | 294 684 150 | -198 310 506 |

> plot(ca(carfumar))

# Representaci´on bidimensional de filas y columnas en coordenadas est´andar

< plot(ca(carfumar), mass=c(T,T))

# Representaci´on bidimensional de filas y columnas en coordenadas est´andar donde adem´as el tama~no del

# s´ımbolo de los puntos representa sus masas

> plot(ca(carfumar), what = c("none", "all"), mass = TRUE, contrib = "relative")

# Representaci´on de los perfiles columna, donde el tama~no del s´ımbolo de los puntos representa sus

# masas y la intensidad del color las contribuciones relativas (CTR)

(35)

Figure 17: Representaci´on de los perfiles fila y columna, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.3−0.2−0.10.00.10.2

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

No

Poco

Regular

Mucho

Figure 18: Representaci´on de los perfiles fila y columna con masas, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.3−0.2−0.10.00.10.2

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

No

Poco

Regular

Mucho

> plot(ca(carfumar), what = c("all", "all"), mass = TRUE, contrib = "relative")

# Representaci´on de los perfiles columna, donde el tama~no del s´ımbolo de los puntos representa sus

# masas y la intensidad del color las contribuciones relativas (CTR)

(36)

Figure 19: Representaci´on de los perfiles columna con masas y CTR, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.3−0.2−0.10.00.10.20.3

No

Poco

Regular

Mucho

Figure 20: Representaci´on de los perfiles fila con masas y CTR, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2

−0.3−0.2−0.10.00.10.2

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

(37)

Figure 21: Representaci´on de los perfiles fila y columna con masas y CTR, ejes1-2

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

−0.3−0.2−0.10.00.10.2

Dir_sen

Dir_jun Emp_sen

Emp_jun Adminis

No

Poco

Regular

Mucho

3. Anacor: Hay que cargar el paquete anacor

> carfumar<-read.table("carfumar.asc",header=T)

# Lee el fichero carfumar.asc con cabecera como tabla de frecuencias y lo guarda en el objeto carfumar

> carfumar

# Comprobamos el contenido del objeto carfumar No Poco Regular Mucho

Dir_sen 4 2 3 2

Dir_jun 4 3 7 4

Emp_sen 25 10 12 4

Emp_jun 18 24 33 13

Adminis 10 6 7 2

> res<-anacor(carfumar, scaling=c("standard","standard"))

# El resultado de aplicar la funci´on anacor se guarda en el objeto res

> res

# Comprobamos el contenido del objeto res Principal inertias (eigenvalues):

dim value % cum% scree plot

[1,] 1 0.074759 87.8 87.8 *************************

[2,] 2 0.010017 11.8 99.5 ***

[3,] 3 0.000414 0.5 100.0 [4,] --- --- [5,] Total: 0.085190 100.0

> summary(res)

# Obtenemos un resumen del an´alisis

(38)

z-test for singular values:

Singular Values Asymptotical SE p-value

D1 0.2734 0.0700 0.0000

D2 0.1001 0.0756 0.0929

Row scores:

D1 D2

Dir_S 0.24054 -1.93571 Dir_J -0.94710 -2.43096 Emp_S 1.39197 -0.10651 Emp_J -0.85199 0.57694 Adm 0.73546 0.78844 Column scores:

D1 D2

NO 1.43847 -0.30466 Poco -0.36375 1.40943 Regular -0.71802 0.07353 Mucho -1.07445 -1.97596

> plot(res, plot.type="rowplot", xlab="Plantilla", ylab="H´abito de fumar")

# Representaci´on bidimensional de las filas en coordenadas est´andar

Figure 22: Representaci´on de los perfiles fila, ejes1-2

−1.0 −0.5 0.0 0.5 1.0

−2.5−2.0−1.5−1.0−0.50.00.5

Row Plot

Plantilla

Hábito de fumar

Dir_sen

Dir_jun

Emp_sen Emp_jun

Adminis

< plot(res, plot.type="colplot", xlab="Plantilla", ylab="H´abito de fumar")

# Representaci´on bidimensional de las columnas en coordenadas est´andar

> plot(res, plot.type="jointplot", xlab="Plantilla", ylab="H´abito de fumar")

# Representaci´on bidimensional conjunta de las fuilas y columnas en coordenadas est´andar

(39)

Figure 23: Representaci´on de los perfiles columna, ejes1-2

−1.0 −0.5 0.0 0.5 1.0 1.5

−2.0−1.5−1.0−0.50.00.51.01.5

Column Plot

Plantilla

Hábito de fumar

No Poco

Regular

Mucho

Figure 24: Representaci´on de los perfiles fila y columna, ejes1-2

−1.0 −0.5 0.0 0.5 1.0 1.5

−2−101

Joint plot

Plantilla

Hábito de fumar

Dir_sen

Dir_jun

Emp_sen Emp_jun

Adminis

No Poco

Regular

Mucho

(40)

1.8 Ejemplo 2.

Una compa˜n´ıa trabaja con tres tipos de clientes, a los que llamaremos A, B y C respectivamente. Se extrae una muestra aleatoria de cada una de las tres categor´ıas de clientes, de las que se recogen cinco variables demogr´aficas: Sexo, Estado civil, Edad, Ingresos y Comunidad de residencia. La siguiente tabla muestra las dieciocho categor´ıas de estas cinco variables:

Variables demogr´aficas Tipo de cliente

A B C

Sexo Hombre 2444 853 1547

Mujer 712 551 923

Estado civil Soltero 523 290 519

Casado 2630 1106 1946

Edad e1 (16–24) a˜nos 189 70 136 e2 (25–34) a˜nos 796 133 444 e3 (35–49) a˜nos 1100 314 706 e4 ≥ 50 a˜nos 1070 882 1187 Ingresos i1 (m´as bajos) 273 336 427

i2 1005 422 739

i3 1049 305 609

i4 (m´as altos) 767 250 612

Comunidad c1 436 142 315

de c2 843 226 494

residencia c3 243 84 453

c4 346 145 248

c5 775 584 708

c6 519 226 263

Nota:

(Esta tabla no es una verdadera tabla de contingencia, puesto que est´a formada por cinco tablas de contingencia en donde cada variable demogr´afica categoriza a la muestra, compuesta de alrededor de siete mil clientes.)

• Crea un fichero A:\CA2.ASC, que contenga los datos de la tabla anterior.

• Crea el fichero de ´ordenes, de nombre CA2.INP.

• Comenta los resultados obtenidos.

1.8.1 Fichero de ´ordenes y salida generada por BMDP Programa de ´ordenes del fichero CA1.INP

/PROBLEM TITTLE IS ’SEGUNDA PRACTICA DE CA’.

/INPUT VARIABLES=2.

FORMAT=FREE.

TABLE=3,18.

FILE IS ’A:\CA2.ASC’.

/VARIABLES NAMES=CLIENTES,DEMOGRAFIA.

/CATEGORY NAMES(CLIENTES)=CLIEN_A,CLIEN_B,CLIEN_C.

NAMES(DEMOGRAFIA)=H,M,S,C,e1,e2,e3,e4,i1, i2,i3,i4,c1,c2,c3,c4,c5,c6.

/PRINT LEVEL=NORMAL.

/END

CORRES COL=CLIENTES.

ROW=DEMOGRAFIA./

PRINT PERCENT=ROW./

PLOT SIZE=53,25. /

PLOT MAX=0.18, 0.05. MIN=-0.17,-0.13. NO ROWS. NO COL./

PLOT XAXIS=1. NO ROWS. NO COL./

(41)

ANALYSIS OF OBSERVED FREQUENCY TABLE

TOTAL INERTIA = SUM OF EIGENVALUES = 0.0354

AXIS EIGENVALUE % OF INERTIA CUM % HISTOGRAM

1 0.028 78.7 78.7 |************************

2 0.008 21.3 100.0 |******

MAXIMUM NUMBER OF FACTORS TO EXTRACT ... 2 CUT-OFF TOLERANCE ... 90.00%

NUMBER OF FACTORS ACCOUNTING FOR 90.00% OF INERTIA ... 2 NUMBER OF FACTORS ACTUALLY EXTRACTED ... 2 CHISQUARE VALUE WITH 34 DF = 1235.272

CHISQUARE ASSOCIATED P-VALUE = 0.000 ROWS

--- ROW NAME MASS QLT INR | FACTOR COR2 CTR | FACTOR COR2 CTR

| AXIS 1 | AXIS 2

1 Hombre 0.139 1.000 0.002 | -0.105 0.922 0.055 | 0.031 0.078 0.017 2 Mujer 0.063 1.000 0.004 | 0.244 0.940 0.134 | -0.061 0.060 0.031 3 Soltero 0.038 1.000 0.001 | 0.108 0.865 0.016 | -0.043 0.135 0.009 4 Casado 0.163 1.000 0.000 | -0.023 0.802 0.003 | 0.011 0.198 0.003 5 e1 0.011 1.000 0.000 | -0.064 0.980 0.002 | -0.009 0.020 0.000 6 e2 0.039 1.000 0.004 | -0.297 0.966 0.125 | -0.056 0.034 0.016 7 e3 0.061 1.000 0.001 | -0.154 0.984 0.052 | -0.020 0.016 0.003 8 e4 0.090 1.000 0.006 | 0.248 0.975 0.199 | 0.040 0.025 0.019 9 i1 0.030 1.000 0.005 | 0.409 0.995 0.178 | 0.028 0.005 0.003 10 i2 0.062 1.000 0.000 | -0.024 0.761 0.001 | 0.014 0.239 0.002 11 i3 0.056 1.000 0.002 | -0.171 0.980 0.059 | 0.025 0.020 0.005 12 i4 0.047 1.000 0.001 | -0.075 0.439 0.009 | -0.084 0.561 0.044 13 c1 0.026 1.000 0.000 | -0.096 0.845 0.008 | -0.041 0.155 0.006 14 c2 0.045 1.000 0.002 | -0.189 0.999 0.057 | 0.004 0.001 0.000 15 c3 0.022 1.000 0.005 | 0.128 0.070 0.013 | -0.466 0.930 0.645 16 c4 0.021 1.000 0.000 | -0.030 0.599 0.001 | 0.024 0.401 0.002 17 c5 0.059 1.000 0.003 | 0.197 0.797 0.083 | 0.100 0.203 0.078 18 c6 0.029 1.000 0.001 | -0.075 0.156 0.006 | 0.175 0.844 0.117

COLUMNS

--- COL NAME MASS QLT INR | FACTOR COR2 CTR | FACTOR COR2 CTR

| AXIS 1 | AXIS 2

1 CLIEN_A 0.450 1.000 0.014 | -0.173 0.966 0.486 | 0.033 0.034 0.064 2 CLIEN_B 0.198 1.000 0.015 | 0.244 0.806 0.424 | 0.120 0.194 0.378 3 CLIEN_C 0.352 1.000 0.007 | 0.084 0.374 0.090 | -0.109 0.626 0.558 ---

(42)

*** OBSERVED FREQUENCY TABLE

demograf clientes

--- ---

CLIEN_A CLIEN_B CLIEN_C TOTAL ---

H 2444 853 1547 | 4844

M 712 551 923 | 2186

S 523 290 519 | 1332

C 2630 1106 1946 | 5682

e1 189 70 136 | 395

e2 796 133 444 | 1373

e3 1100 314 706 | 2120

e4 1070 882 1187 | 3139

i1 273 336 427 | 1036

i2 1005 422 739 | 2166

i3 1049 305 609 | 1963

i4 767 250 612 | 1629

c1 436 142 315 | 893

c2 843 226 494 | 1563

c3 243 84 453 | 780

c4 346 145 248 | 739

c5 775 584 708 | 2067

c6 519 226 263 | 1008

---|---

TOTAL 15720 6919 12276 | 34915

*** PERCENTS OF ROW TOTALS

demograf clientes

--- ---

CLIEN_A CLIEN_B CLIEN_C TOTAL ---

H 50.5 17.6 31.9 | 100.0

M 32.6 25.2 42.2 | 100.0

S 39.3 21.8 39.0 | 100.0

C 46.3 19.5 34.2 | 100.0

e1 47.8 17.7 34.4 | 100.0

e2 58.0 9.7 32.3 | 100.0

e3 51.9 14.8 33.3 | 100.0

e4 34.1 28.1 37.8 | 100.0

i1 26.4 32.4 41.2 | 100.0

i2 46.4 19.5 34.1 | 100.0

i3 53.4 15.5 31.0 | 100.0

i4 47.1 15.3 37.6 | 100.0

c1 48.8 15.9 35.3 | 100.0

c2 53.9 14.5 31.6 | 100.0

c3 31.2 10.8 58.1 | 100.0

c4 46.8 19.6 33.6 | 100.0

c5 37.5 28.3 34.3 | 100.0

c6 51.5 22.4 26.1 | 100.0

---|---

TOTAL 45.0 19.8 35.2 | 100.0

Referencias

Documento similar

Si el progreso de las instituciones de Derecho público no ha tenido lugar en los pueblos que se han reservado para el Poder judicial en abso- luto las

Tal como se ha expresado en El Salvador coexisten dos tipos de control de constitucionalidad: el abstracto y el concreto. Sobre ambos se ha proporcionado información que no precisa

Pero, al fin y al cabo, lo que debe privar e interesar al sistema, es la protección jurisdiccional contra las ilegalidades de la Administración,221 dentro de las que se contemplan,

a) Ao alumnado que teña superado polo menos 60 créditos do plan de estudos da licenciatura que inclúan materias troncais e obrigatorias do primeiro curso recoñeceráselles o

22 Enmarcado el proyecto de investigación de I+D «En clave femenina: música y ceremonial en las urbes andaluzas durante el reinado de Fernando VII (1808-1833)» (Plan Andaluz

De esta manera, ocupar, resistir y subvertir puede oponerse al afrojuvenicidio, que impregna, sobre todo, los barrios más vulnerables, co-construir afrojuvenicidio, la apuesta

DECORA SOLO LAS IMÁGENES QUE NECESITES PARA LLEGAR AL NÚMERO CORRESPONDIENTE... CEIP Sansueña/CEIP Juan XXIII Infantil

Las personas solicitantes deberán incluir en la solicitud a un investigador tutor, que deberá formar parte de un grupo de investigación. Se entiende por investigador tutor la