Callorda

(1)

Universidad de San Andrés

Departamento de Economía

Una estimación del número de grupos sociales en la población

Argentina

*

Fernando Martin Callorda

**

Junio, 2009

* Este trabajo ha sido producido como Tesis de Licenciatura en Economía para la Universidad de San Andrés. Agradezco la colaboración brindada por mis mentores, Germán Daniel Caruso y Walter Sosa Escudero que hicieron posible su realización. Las posiciones aquí adoptadas pertenecen al autor y no pretenden reflejar las de la Universidad de San Andrés. Todos los errores son de mi exclusiva responsabilidad.

(2)

Resumen: El objetivo de este trabajo es estimar de manera endógena el número de grupos sociales dentro de la población argentina, tanto a nivel nacional como para cada una de sus regiones. Por lo que en base a lo realizado por Ferro Luzzi et al. (2006) y en Caruso (2008); y en función de las dimensiones de la pobreza que pueden analizarse a partir de la EPHC destacadas por Conconi y Ham (2007); se divide a la población en k clusters a través del método de k medias. Posteriormente, para determinar el número óptimo de grupos, se utiliza la metodología de “cluster stop” de Calinski y Harabasz (1974).

(3)

Índice

1. Introducción………..4

2. Revisión de la literatura……….7

3. Metodología……….12

4. Selección de variables y datos………...………...14

5. Resultados……….18

6. Conclusiones………22

7. Bibliografía………...25

(4)

Una estimación del número de grupos sociales en la población Argentina

1. Introducción

Tradicionalmente la literatura que trata sobre la pobreza y la desigualdad en América Latina, y en particular para Argentina, trabajó dividiendo a la población en dos grupos mutuamente excluyentes, uno de “pobres” y otro de “no pobres”. En esta dirección se puede observar lo realizado por Bongiorno y Carballo (2005); Conconi y Ham (2007) o por Caruso (2008)1_{. Adicionalmente, existe una serie de}

trabajos que partió del supuesto de la existencia de más grupos o “clases sociales”. En particular, Bustelo (1992), Murmis y Feldman (1992); Feijoó (1992); Minujin (1992); Minujin (1995) y Olivieri (2008), entre otros, tomaron como dada la existencia de una “clase media”. De esta manera se puede ver, que todos los trabajos mencionados parten del supuesto de la existencia de un número de grupos fijado de antemano.

Bajo este contexto, el objetivo de este trabajo es estimar de manera endógena el número de grupos sociales dentro de la población argentina a nivel nacional y

1_{En Gasparini (2004) se provee una revisión de los trabajos sobre la pobreza y la desigualdad en}

Argentina, en los cuales en su mayoría se trabaja bajo el supuesto de la existencia de dos grupos,

(5)

para cada una de sus regiones en el período que comprende desde el año 2004 al 2007. A partir de los resultados, se analizan las características de los individuos dentro de cada grupo. De esta manera, se busca realizar un aporte para futuros trabajos que necesiten ex-ante determinar qué cantidad de grupos sociales van a ser objeto de estudio.

En este sentido, se toma como referencia lo realizado por Ferro Luzzi; Fluckiger y Weber (2006) para determinar el número de grupos sociales en la población de Suiza. Los autores, para tal fin, realizan un análisis de clusters, con una serie de variables asociadas al bienestar tales como, salud, escolaridad, condiciones de la vivienda, estado psicológico y vínculos sociales que fueron previamente seleccionadas por un análisis de factores. A modo siguiente, para determinar el número óptimo de grupos que surgen de manera endógena a partir de los datos, se consideran dos estadísticos diferentes que surgen de ser los que presentan mejor performance entre otros treinta investigados por Milligan y Cooper (1985), el primero desarrollado por Calinski y Harabasz (1974) y el segundo por Duda y Hart (1973).

(6)

Patagonia) de la Argentina que define el INDEC. La metodología a usar para este objetivo, siguiendo a Ferro Luzzi; Fluckiger y Weber (2006) y a Caruso (2008), quien busca determinar el grupo de los pobres en América Latina, es el estadístico Pseudo-F desarrollado por Calinski y Harabasz (1974) que sirve para determinar el número óptimo de grupos, dada previamente la agrupación de los datos en k grupos.

Por último, hay que destacar que se sigue el trabajo de Conconi y Ham (2007) para seleccionar qué variables hay que tener en cuenta para estimar el número de grupos en la población Argentina. Del mismo surge que dada la restricción de datos de la EPHC, es posible estudiar solo cuatro dimensiones de la pobreza: la dimensión laboral; la de ingresos, la educativa y la relacionada con las condiciones habitacionales.

(7)

información empleada, la EPHC de los primeros trimestres del 2004, 2005, 2006 y 2007 y se presentan las variables que se utilizan para realizar la estimación del número de grupos. En la sexta sección, se analizan los resultados para las diferentes regiones de Argentina y a nivel país de la cantidad de grupos sugeridos por el método de Calinski y Harabasz (1974), como así también se describen las características de los individuos dentro de cada grupo. Finalmente y a modo de conclusión, en la séptima sección, se realiza una comparación de los resultados obtenidos, en relación a los trabajos analizados en la segunda sección, para luego finalizar sugiriendo líneas de investigación que quedan abiertas a partir de este trabajo.

2. Revisión de la literatura

(8)

como el de Deutsch y Silber (2005) que argumentan en contra de tomar al ingreso como única variable explicativa. El segundo supuesto en que se basan, es en que el objetivo del estudio es diferenciar entre “pobres” y “no pobres”. Por lo cual los mismos son los grupos relevantes, y la problemática estará en encontrar cuál es el umbral de ingreso que servirá para dividir a la población.

Alternativas a este segundo supuesto, se pueden encontrar en el trabajo de Gasparini, Horenstein y Olivieri (2006) que señalan que cuando la variable de identificación es continua, como lo es el ingreso declarado, hay tres estudios que sirven como referencia para identificar al número de grupos a analizar o al intervalo que abarca cada uno. Los mismos son, el de Wolfson (1994) que asume dos grupos de igual tamaño y analiza las características de cada uno de ellos; el de Esteban y Ray (1994) quienes permiten la existencia de n grupos que pueden ser de diferente tamaño; y el de Esteban, Gradín y Ray (1999) que dejan al investigador establecer cuál es el número de grupos y desarrollan una metodología para determinar endógenamente el tamaño de cada uno para minimizar la heterogeneidad dentro de ellos.

(9)

enfoca en encontrar el método correcto de definirlas. En este sentido, presenta tres formas usuales para identificar a la clase media. La primera, consiste en definirla como aquella porción de la población que tiene un ingreso superior o inferior al ingreso mediano en un determinado porcentaje. Un segundo enfoque, la identifica como el grupo central de la población y analiza cómo evoluciona el porcentaje de ingresos que ese grupo percibe. Por último, el autor señala, que hay un conjunto de estudios que no define de manera precisa a la clase media, sino que estudia la evolución de la concentración de la población condicionada a una característica de los individuos, como puede ser el estatus laboral, el nivel educativo, el número de miembros del hogar, entre otros factores, en relación al ingreso medio de cada subgrupo. La innovación que realiza el trabajo de Olivieri, es determinar a la clase media a partir de una definición completamente exógena; a través de la implementación de la metodología desarrollada por D’Ambrosio, Muliere y Secchi (2002) que es radicalmente diferente a las tres previamente mencionadas y determina de manera endógena los puntos de cortes de las distintas clases sociales; pero siempre a partir del supuesto de la existencia de tres clases.

(10)

que también asumen la existencia de una clase media; pero la definen de un modo que posee un alto grado de vaguedad; y a su vez no otorgan un fundamento teórico a la asunción que realizan. En particular, es el caso de Minujin (1995), quien tiene como objeto de estudio a la sociedad argentina de la década del 80 y plantea la existencia de al menos tres clases sociales definidas a partir del índice de necesidades básicas insatisfechas (NBI). Un primer grupo es denominado “pobres estructurales” y queda definido como aquellas familias que están por debajo de un umbral determinado de NBI y de ingreso; un segundo grupo es el de los “nuevos pobres” y se caracteriza por tener ingresos inferiores al umbral mencionado; pero sin embargo no ser pobres por el concepto de NBI; luego, en un tercer grupo, queda incluida el resto de la población. El autor menciona, acerca de este último grupo, que un subgrupo del mismo es el de la clase media, que queda definida de un modo un tanto impreciso, siendo aquella parte de la población que es propensa a pasar a pertenecer a la categoría de “nuevos pobres”.

(11)

sentido, Caruso (2008) encuentra, a partir de la encuesta Gallup del año 2006 para América Latina, que el ingreso no parece ser una buena aproximación de la pobreza o el bienestar; por lo cual es necesario tener en cuenta también otras variables u otras dimensiones de la pobreza, como por ejemplo la disponibilidad de artículos tecnológicos.

En esta línea de trabajo, también se encuentra a Gasparini et al. (2008). Los autores del mismo, encuentran resultados a favor del estudio de la pobreza en el sentido multivariado para el caso de Latinoamérica y el Caribe; haciendo hincapié en tres dimensiones particulares: el ingreso, el factor subjetivo y las necesidades básicas. Con lo cual se suma evidencia a favor de tratar al tema de la pobreza como un fenómeno multivariado en el caso que los datos lo permitan.

(12)

Bajo el contexto presentado, con este trabajo se pretende hacer un aporte, para el caso particular de Argentina entre los años 2004 al 2007, acerca de cuál es el número de grupos sociales relevantes en la población tanto a nivel nacional como sub nacional a partir de un enfoque de pobreza multivariada sujeto a la restricción de datos de la EPHC.

3. Metodología

Tan, Steinbach y Kumar (2006) indican que un análisis de clusters trata de encontrar subgrupos con objetos homogéneos entre sí y heterogéneos en relación a los otros. Es decir, que se busca minimizar la distancia dentro de los clusters; y maximizar la distancia en relación a los otros. Lo cual, como señala Caruso (2008), permite contar con la ventaja de agrupar a los individuos con características similares y separar a los de características diferentes.

(13)

cada uno en función de los resultados obtenidos, de manera repetida hasta que los centros no cambien. Vale aclarar que al hablar de distancia, el modo más adecuado de medirla, dado el tipo de datos con el cual se trabaja, es la de valor absoluto o de Minkowski con argumento uno, como será explicado en la sección de datos.

Al trabajar con clusters, uno de los aspectos más complejos es determinar el número óptimo de los mismos dado que no hay consenso en la literatura acerca de esta cuestión. Los trabajos que tratan este tema cuestionan cuál es la mejor “stopping rule” existente, que es lo mismo que plantear qué número k de clusters permite tener una baja variabilidad interna, pero que a la vez maximice la separación entre clusters diferentes.

(14)

no está cerrada ya que en trabajos como el de Hastie; Tibshirani y Walther (2001) se halla que el que mejor performance tiene es el de Gap Satistic.

A partir de la discusión presentada, y siguiendo lo realizado por Ferro Luzzi, Fluckiger y Weber (2006) y por Caruso (2008), el método elegido para este trabajo es el de Calinski y Harabasz (1974). El mismo consiste en tomar el primer máximo local para k=2,3,4,< de la función de criterio:

donde k es el número de clusters; n es el número de observaciones; BGSS es la suma de las distancias entre los grupos y WGSS es la suma de las distancias dentro de cada grupo. En este caso cuando se habla de distancia, se refiere a la distancia euclidiana.

4. Selección de variables y datos

(15)

Para seleccionar de qué modo estudiar lo que sucede a nivel sub-nacional, lo cual es relevante debido a que una persona con características de “pobre” en el GBA puede no serlo en el contexto de otra región, se mantiene la estructura que realiza el INDEC, que divide al país en seis regiones conformadas por los siguientes aglomerados como se puede observar en el trabajo de Zacaria y Zoloa (2006):

Gran Buenos Aires: Ciudad de Buenos Aires y Partidos del Conurbano.

NOA o Noroeste: Gran Catamarca, Tucumán-Tafí Viejo, Jujuy-Palpalá, La

Rioja, Salta, Santiago del Estero-La Banda.

NEA o Noreste: Corrientes, Formosa, Gran Resistencia, Posadas.

Cuyo: Gran Mendoza, Gran San Juan, San Luis-El Chorrillo.

Pampeana: Bahía Blanca-Cerri, Concordia, Gran Córdoba, Gran La Plata,

Gran Rosario, Gran Paraná, Gran Santa Fe, Mar del Plata-Batán, Río Cuarto, San Nicolás-Villa Constitución, Santa Rosa-Toay.

Patagonia: Comodoro Rivadavia- Rada Tilly, Neuquén- Plottier,

Rawson-Trelew, Río Gallegos, Ushuaia-Río Grande, Viedma-Carmen de Patagones.

(16)

Ham (2007) señalan que de las diversas dimensiones de la pobreza, a partir de la EPHC, a lo sumo pueden abordarse cuatro: la dimensión de ingresos; la laboral, la educativa y la relacionada con las condiciones habitacionales. Por este motivo, para abordar la primera de las dimensiones, se toma la variable ingreso per cápita familiar. Acerca de la misma hay que notar, como puede apreciarse en el gráfico 1, que posee un crecimiento exponencial por lo que se procede a tomar logaritmo siguiendo lo señalado por Hamilton, L. (2006) que indica que las transformaciones no lineales, entre las que se pueden encontrar a la transformación logarítmica, pueden utilizarse para hacer las distribuciones más simétricas y acercarlas a la distribución normal; o siguiendo lo realizado por Caruso (2008) con la misma variable. De este modo, luego de la transformación, la variable pasa a tener una forma más lineal como puede apreciarse en el gráfico 2.

Acerca de la dimensión laboral, hay que destacar, que es una variable que está definida de modo tal que pueda tomar tres valores: 0 en caso que el individuo esté desocupado; 0,5 en caso que no pertenezca a la población económicamente activa y 1 en caso que esté ocupado.

(17)

pertinente para este tipo de estudios. Para tal fin, partiendo de la variable nivel educativo se llega a la variable años de educación del siguiente modo: se le asigna un valor de 0 a quienes declararon no poseer instrucción; un valor aleatorio entre 0 y 7 a quienes declararon tener primaria incompleta; un valor de 7 a quienes declararon tener primaria completa; un valor aleatorio entre 7 y 12 a quienes declararon tener secundaria incompleta; un valor de 12 a quienes declararon tener secundaria completa; un valor aleatorio entre 12 y 17 a quienes declararon tener estudios universitarios incompletos y un valor de 17 a quienes declararon tener estudios universitarios completos.

Por último, acerca de la dimensión habitacional, y sujeto a la restricción de ser el único indicador de condiciones del hogar para los que se tienen datos en los cuatro períodos analizados, se toma como referencia, la respuesta a la pregunta de qué combustible es utilizado para cocinar, asignándole un valor de 0 en caso que los individuos hayan respondido que lo hacen con kerosene, leña o carbón; 0,5 en caso de que hayan declarado hacerlo con gas de tubo o garrafa; y de 1 en caso de que la respuesta haya sido con gas de red.

(18)

variables. Para tal fin se sigue al trabajo de Caruso (2008) que lo realizó de la siguiente forma:

Por último, y siguiendo al mismo autor, hay que destacar que cuando se estandariza de esta manera los datos, y se llega a variables que están en el rango que va del 0 a 1, el modo correcto de tomar distancias es mediante la del valor absoluto o “Distancia de Minkowski con argumento 1”2_.

5. Resultados

Los resultados de la estimación de cuál es el número óptimo de grupos usando las variables estandarizadas explicadas en la sección anterior, y a través de la metodología detallada en la sección tercera para cada una de las regiones de Argentina, como así también a nivel país en el período que abarca desde el año 2004 al 2007 pueden verse en forma resumida en la tabla 1 o con mayor detalle en las tablas 2, 3, 4 y 5. A modo general, puede destacarse que el número óptimo de grupos toma solo dos valores, 2 o 3, sin presentar estabilidad en el tiempo o a nivel sub nacional.

2

Ver Caruso (2008) para ver con mayor detalle el argumento de por qué corresponde tomar la

(19)

Tabla 1. Número de grupos por año y región

Año País GBA NOA NEA Cuyo Pampeana Patagonia

2004 2 2 3 2 3 3 2

2005 3 3 2 2 2 3 2

2006 3 2 3 3 2 2 2

2007 2 2 2 2 3 2 2

En segundo lugar, es interesante analizar la evolución del número de grupos y cómo estuvieron compuestos a nivel país los mismos. En este sentido, en el año 2004, como puede verse en la tabla 6, se distinguen dos grandes grupos, el primero que abarca al 37,60% de la población y que está compuesto exclusivamente por gente ocupada; a diferencia de un segundo con un peso del 62,40% de la población y compuesto por desocupados o individuos que no pertenecen a la población económicamente activa. Para este año en particular, el resultado indica que una sola de las cuatro dimensiones fue la relevante para separar a la población en grupos. Por último hay que destacar que el grupo de los ocupados puede descomponerse en dos subgrupos; mientras que el conformando por el resto de la población puede dividirse en cinco subgrupos relevantes a nivel país.

(20)

36,50% de la población está compuesto exclusivamente por individuos que no poseen gas de red y que cuentan con un nivel de ingresos y de educación por debajo de la media. En tercer término se encuentra un grupo compuesto exclusivamente por personas ocupadas y con un nivel educativo muy superior a la media; el mismo es el que esta más alejado de la pobreza en la forma que fue definida. Finalmente, y pasando a los subgrupos relevantes que se desprenden de los primeros tres grupos mencionados, hay que notar que en este año son once.

(21)

relevantes disminuye en relación al resultado del año anterior, en este caso son ocho.

Finalmente, para el caso del año 2007, como se observa en la tabla 9, no hay una característica en particular que indique a qué grupo pertenece un individuo. En particular, para este año se identifican solo dos grupos, donde el primero está compuesto por el 55,08% de la población y posee indicadores de educación y vivienda muy por debajo a los del segundo, conformado por el restante 44,92% de la población en estudio. Por lo mencionado, es posible asociar al primero con una condición de pobreza debido a sus peores indicadores en las cuatro dimensiones; y al segundo como de “no pobres” a pesar de tener en su interior a personas sin trabajo; sin gas de red; con ingresos nulos o sin ningún tipo de educación. Por último, hay que notar que el número de subgrupos relevantes se mantiene en ocho, debido a que se encuentran cuatro subgrupos de “pobres” y otros cuatro de “no pobres”.

(22)

Por último, a partir de la tabla 10 a la 33, se puede ver qué sucede para cada año a nivel sub nacional. Del análisis de los resultados se encuentra que, exceptuando a la Patagonia, en ninguna región se logra encontrar una estabilidad en las características de sus grupos, como así tampoco en el número de particiones óptimas de la población.

6. Conclusiones

A partir de los resultados puede observarse que en el período analizado, para el caso de Argentina, el número de grupos sociales que se desprende de los datos no es estable ni en el tiempo ni a nivel subnacional. Esto es una clara evidencia de las dificultades que surgen al tratar de caracterizar a cualquier estrato de la sociedad, como puede ser la clase media. A pesar de esto, se encuentra que según el método de “stopping rule” de Calinski y Harabasz (1974), la cantidad de grupos relevantes es siempre dos o tres, lo cual puede asociarse con una hipótesis de que la población solo puede dividirse entre “pobres y “no pobres”; o siguiendo la caracterización de la literatura proveniente de la sociología o del trabajo de Olivieri (2008), con una hipótesis que indica que también existe un tercer grupo relevante que podría asociarse con la clase media.

(23)

diferentes tipos de “pobreza” y de “no pobreza”. En particular, utilizando esta metodología es posible identificar dentro del grupo de los pobres a aquellos individuos que estén en peores condiciones bajo la definición de pobreza multivariada. A partir de su identificación, será posible que un gobierno tenga una mejor orientación acerca de qué políticas públicas aplicar para poder ayudarlos.

Finalizando, hay que notar ciertas limitaciones de la metodología utilizada que da lugar a posibles extensiones a este trabajo. El método de Calinski y Harabasz (1974) tiene la desventaja de que siempre parte al conjunto inicial, de modo que nunca encontrará a 1 como el número óptimo de clusters. En este sentido hay métodos alternativos que no poseen esta desventaja como el de Duda y Hart (1973) que es el que presenta mejores resultados, detrás del de Calinski y Harabasz (1974) en la prueba realizada por Milligan y Cooper (1985).

(24)

(25)

7. Bibliografía

Arias, M. (2006): “Explorando la distribución del ingreso y del consumo en el GBA: An{lisis y perspectivas a partir de la utilización de la EPH y la ENGH”. Tesis de grado de economía Universidad de San Andrés.

Atkinson, A. y Bourguignon, F (2000): “Handbook of Income Distribution”. Elsevier Science B.V.

Beccaria L. (1992): “Cambios en la estructura distributiva 1975-1990”. En “Cuesta Abajo. Los nuevos pobres: efectos de la crisis en la sociedad argentina” UNICEF/LOSADA.

(26)

Bustelo E. (1992): “La producción del Estado de malestar. Ajuste y política social en América Latina”. En “Cuesta Abajo. Los nuevos pobres: efectos de la crisis en la sociedad argentina” UNICEF/LOSADA.

Calinski, R. B. y Harabasz, J. (1974): “A dendrite method for cluster analysis”. Communications in statistics 3, 1-27.

Caruso, G. D. (2008) : “An{lisis de clusters de una distribución multivariada de la pobreza”. Tesis de Maestría en Economía para la Universidad de San Andrés.

Conconi, A. y Ham, A. (2007): “Pobreza multidimensional relativa: Una aplicación a la Argentina”. Documento de trabajo 0057, CEDLAS, Universidad Nacional de La Plata.

(27)

Dercon, Stefan, (2001): "Income Risk, Coping Strategies and Safety Nets". The Centre for the Study of African Economies, Department of Economics Working Paper Series. Working Paper 136.

Deutsch, J. and Silber, J. (2005): “Measuring Multidimensional Poverty: An Empirical Comparison of Various Approaches”, Review of Income and Wealth.

Dirección Encuesta Permanente de Hogares INDEC-Argentina (2007): “Encuesta Permanente de Hogares continua: Diseño de Registro y Estructura para las bases preliminares. Hogar y Personas.” Primer trimestre 2007.

Duda, R. O., y Hart. P. E. (1973): “Pattern Classification and Scene Analysis.” New York: Wiley.

(28)

Esteban, J., Gradín, C. and Ray, D. (1999): "Extensions of the measure of Polarization, with an application to the income distribution of five OECD countries", mimeo, Instituto de Análisis Económico.

Feijoó, M. (1992): “Los gasoleros: Estrategias de consumo de los NUPO”. En “Cuesta Abajo. Los nuevos pobres: efectos de la crisis en la sociedad argentina” UNICEF/LOSADA.

Ferro Luzzi G., Fluckiger Y. y Weber S. (2006): “A cluster analysis of multidimensional poverty in Switzerland”. Documento de trabajo de CRAG-Haute Ecole de Gestion de Geneve.

Gasparini, L. (2004): “Poverty and inequality in Argentina: Methodological issues and a literatura review”. Documento de trabajo, CEDLAS, Universidad Nacional de La Plata.

(29)

Gasparini L., Horenstein M. y Olivieri S. (2006): “Economic polarisation in Latin America and the Caribbean: What do household surveys tell us?” Documento de trabajo 0038, CEDLAS, Universidad Nacional de La Plata.

Gasparini, L., Sosa Escudero, W., Marchionni, M. y Olivieri, S. (2008): “Income, Deprivation, and Perceptions in Latin America and the Caribbean: New Evidence from the Gallup World Poll”. Documento de trabajo BID.

Hamilton, L. (2006): “Statistics with STATA”. Thomson Brooks/Cole

Hastie, T.; Tibshirani, R. y Walther, G. (2001): “Estimating the number of data clusters via the Gap statistic”. J.R. Statist. Soc. B , 63, pp. 411—423

Hartigan, J. (1975): “Clustering Algorithms”. Wiley, New York, NY.

(30)

Krzanowski, W.J. y Lai, Y.T. (1985): “A criterion for determining the number of groups in a data set using sum of squares clustering”. Biometrika 44, 23-34.

Klasen, S. (2000): “Measuring poverty and deprivation in South Africa”, Review of Income and Wealth, 46:33-58.

Milligan, G. W., y Cooper. M. C. (1985): “An examination of procedures for determining the number of clusters in a dataset.” Psychometrika 50: 159-179.

Minujin A. (1992): “En la Rodada”. En “Cuesta Abajo. Los nuevos pobres: efectos de la crisis en la sociedad argentina” UNICEF/LOSADA.

Minujin A. (1995): “Squeezed: the middle-class in Latin America” Environment and urbanization, 7, 153-166

(31)

Olivieri, S. (2008): “Debilitamiento de la clase media: GBA 1986-2004”. Documento de trabajo, CEDLAS, Universidad Nacional de La Plata.

Savova, G., Therneau, T., Chute, C. (2006): “Cluster Stopping Rules for Word Sense Discrimination”. 11th Conference of the European Chapter of the Association for Computational Linguistics

Sen, A. K. (1976): “Poverty: An Ordinal Approach to Measurement”, Econometrica, Vol. 44, No.2, pp.219-231

Sen, A. K. (1981): “Poverty and Famines. An Essay on Entitlement and Deprivation”, Oxford, Oxford University Press.

Sen, A. K. (1992): “Inequality reexamined”. Harvard University Press.

(32)

Tsakloglou, P. y Papadopoulos F. (2001): “Identifying Population Groups at High Risk of Social Exclusion: Evidence from the ECHP”. Documento para el debate 392. Institute for the Study of Labor, Bonn.

Wior, Amit (2008): “Pobreza: Un enfoque multidimensional”. Tesis de Licenciatura para la Universidad de San Andrés.

Wolfson, M. (1994): "When Inequality Diverges", American Economic Review, 84, 353-358.

(33)

8. Anexos

Tabla 3. Número de clusters 2005

N° clusters

Calinski/Harabasz pseudo-F

País GBA NOA NEA Cuyo Pampeana Patagonia 2 17.649 1.588 3.654 3.013 2.276 4.862 1.735

3 18.591 2.865 3.605 1.834 1.911 5.876 1.274

4 16.309 2.865 3.667 1.631 2.181 4.662 2.002 5 13.952 2.738 2.595 2.891 2.006 5.422 1.998 6 16.688 3.342 3.518 2.168 2.408 5.240 1.855 7 12.862 3.334 4.038 2.576 2.217 5.168 2.010 8 16.575 3.332 2.724 2.442 1.964 5.173 1.920 9 18.432 3.940 3.483 2.325 2.031 4.517 1.636 10 18.387 3.461 3.671 2.834 2.165 4.999 1.843

N° clusters

País GBA NOA NEA Cuyo Pampeana Patagonia

2 19.047 3.018 3.651 2.874 470 5.085 703

(34)

Tabla 5. Número de clusters 2007 N°

clusters

País GBA NOA NEA Cuyo Pampeana Patagonia

2 25.515 3.561 5.484 4.217 2.142 7.901 5.984

3 25.060 2.333 5.171 3.153 2.902 7.853 4.021 4 23.530 2.655 5.282 3.516 2.246 6.396 5.366 5 18.637 2.416 5.618 3.629 2.765 6.164 4.799 6 22.905 3.860 4.910 3.542 3.323 7.404 5.308 7 19.331 3.349 5.071 4.096 3.009 6.127 4.429 8 22.166 3.842 4.314 2.704 1.968 6.126 4.854 9 23.835 3.839 5.107 2.930 3.127 8.697 5.338 10 23.632 4.082 5.148 3.577 3.001 8.823 5.527

N° clusters

País GBA NOA NEA Cuyo Pampeana Patagonia 2 15.525 2.434 3.656 3.066 2.358 5.775 1.988

3 17.430 2.009 3.868 3.406 2.338 5.675 1.372

(35)

Tabla 6. Subgrupos nivel País 2004 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Laboral 1,0000 1,0000 1,0000 0,4519 0,0000 0,5000 Educación 0,6346 0,0000 1,0000 0,3942 0,0000 1,0000 Vivienda 0,7805 0,0000 1,0000 0,7506 0,0000 1,0000 Ingresos 0,3039 0,0000 1,0000 0,2894 0,0000 0,8563 Observaciones 16.932 28.102

Subgrupos

relevantes 2 3

Obs. SG1 9.847 2.375

Obs. SG2 7.085 12.088

Obs. SG3 13.639

Tabla 7. Subgrupos nivel País 2005

Grupo 1 Grupo 2 Grupo 3

Dimensión Media Min. Max. Media Min. Max. Media Min. Max. Laboral 0,4582 0,0000 0,5000 0,5771 0,0000 1,0000 1,0000 1,0000 1,0000 Educación 0,4489 0,0000 1,0000 0,3387 0,0000 1,0000 0,7165 0,0000 1,0000 Vivienda 1,0000 1,0000 1,0000 0,4746 0,0000 0,5000 0,8699 0,0000 1,0000 Ingresos 0,4002 0,0000 1,0000 0,3572 0,0000 0,8134 0,4109 0,0000 1,0000

Observaciones 15.409 17.084 14.318

Subgrupos

relevantes 5 2 4

Obs. SG1 3.610 3.685 3.661

Obs. SG2 1.929 13.399 3.754

Obs. SG3 3.594 4.086

Obs. SG4 1.523 2.817

(36)

Observaciones 16.702 16.952 12.067

Subgrupos

relevantes 3 2 3

Obs. SG1 8.827 6.277 3.173

Obs. SG2 3.537 10.675 6.570

Obs. SG3 4.338 2.324

Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 4 4

Obs. SG1 8.315 4.854

Obs. SG2 12.919 6.288

Obs. SG3 9.088 5.168

(37)

Tabla 10. Subgrupos nivel GBA 2004 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 2 2

Obs. SG1 2.065 1.120

Obs. SG2 1.910 2.517

Tabla 11. Subgrupos nivel GBA 2005

Observaciones 2.248 3.021 4.119

Subgrupos

relevantes 3 3 6

Obs. SG1 1.017 964 908

Obs. SG2 610 1.167 713

Obs. SG3 621 890 388

Obs. SG4 1.089

Obs. SG5 668

(38)

Tabla 12. Subgrupos nivel GBA 2006 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 2 3

Obs. SG1 3.226 828

Obs. SG2 3.302 983

Obs. SG3 1.095

Tabla 13. Subgrupos nivel GBA 2007

Subgrupos

relevantes 2 3

Obs. SG1 3.258 541

Obs. SG2 1.430 2.178

(39)

Tabla 14. Subgrupos nivel NOA 2004

Subgrupos

relevantes 2 4 2

Obs. SG1 1.713 1.279 1.548

Obs. SG2 1.170 286 1.663

Obs. SG3 1.181

Obs. SG4 471

Subgrupos

relevantes 2 2

Obs. SG1 1.733 3.036

(40)

Subgrupos

relevantes 2 2 2

Obs. SG1 1.263 1.320 1.556

Obs. SG2 1.821 1.373 1.933

Subgrupos

relevantes 4 3

Obs. SG1 3.088 2.414

Obs. SG2 1.192 1.671

Obs. SG3 2.052 1.293

(41)

Tabla 18. Subgrupos nivel NEA 2004 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 3 2

Obs. SG1 988 1.504

Obs. SG2 474 1.225

Obs. SG3 1.138

Tabla 19. Subgrupos nivel NEA 2005

Subgrupos

relevantes 2 2

Obs. SG1 991 1.510

(42)

Subgrupos

relevantes 2 3 2

Obs. SG1 1.775 705 226

Obs. SG2 393 818 1.259

Obs. SG3 331

Subgrupos

relevantes 3 2

Obs. SG1 901 2.984

Obs. SG2 1.152 2.060

(43)

Tabla 22. Subgrupos nivel CUYO2004

Subgrupos

relevantes 3 4 4

Obs. SG1 555 664 359

Obs. SG2 479 155 312

Obs. SG3 384 524 258

Obs. SG4 543 580

Tabla 23. Subgrupos nivel CUYO 2005

Subgrupos

relevantes 2 2

Obs. SG1 1.064 1.280

(44)

Tabla 24. Subgrupos nivel CUYO2006 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 2 2

Obs. SG1 615 968

Obs. SG2 1.289 1.787

Tabla 25. Subgrupos nivel CUYO 2007

Subgrupos

relevantes 3 2 3

Obs. SG1 833 1.068 595

Obs. SG2 687 685 1.021

(45)

Tabla 26. Subgrupos nivel PAMPEANA2004

Subgrupos

relevantes 2 3 2

Obs. SG1 2.110 1.325 3.097

Obs. SG2 2.143 1.836 2.017

Obs. SG3 2.184

Tabla 27. Subgrupos nivel PAMPEANA 2005

Subgrupos

relevantes 2 3 6

Obs. SG1 2.021 1.518 801

Obs. SG2 2.087 2.271 1.030

Obs. SG3 1.293 675

Obs. SG4 707

Obs. SG5 1.063

(46)

Tabla 28. Subgrupos nivel PAMPEANA2006 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 3 2

Obs. SG1 3.542 1.977

Obs. SG2 2.799 3.424

Obs. SG3 2.038

Tabla 29. Subgrupos nivel PAMPEANA 2007

Subgrupos

relevantes 6 6

Obs. SG1 1.263 1.334

Obs. SG2 1.170 1.695

Obs. SG3 727 936

Obs. SG4 1.247 2.393

Obs. SG5 1.963 2.237

(47)

Tabla 30. Subgrupos nivel PATAGONIA 2004 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Laboral 0,6797 0,0000 1,0000 0,6687 0,0000 1,0000 Educación 0,4986 0,0000 1,0000 0,4781 0,0000 1,0000 Vivienda 0,9968 0,5000 1,0000 0,9878 0,0000 1,0000 Ingresos 0,0120 0,0000 0,2313 0,4387 0,2170 0,7480

Observaciones 924 2.333

Subgrupos

relevantes 3 2

Obs. SG1 249 874

Obs. SG2 355 1.459

Obs. SG3 320

Tabla 31. Subgrupos nivel PATAGONIA 2005

Subgrupos

relevantes 3 4

Obs. SG1 669 422

Obs. SG2 314 551

Obs. SG3 735 248

(48)

Tabla 32. Subgrupos nivel PATAGONIA 2006 Grupo 1 Grupo 2 Dimensión Media Min. Max. Media Min. Max.

Subgrupos

relevantes 4 3

Obs. SG1 201 190

Obs. SG2 368 425

Obs. SG3 608 628

Obs. SG4 655

Tabla 33. Subgrupos nivel PATAGONIA 2007

Subgrupos

relevantes 2 3

Obs. SG1 3.078 1.263

Obs. SG2 1.868 440

(49)

Gráfico 1