• No se han encontrado resultados

5_ CLASE MEDIDAS DE TENDENCIA CENTRAL Y CURVA DE LORENZ

N/A
N/A
Protected

Academic year: 2020

Share "5_ CLASE MEDIDAS DE TENDENCIA CENTRAL Y CURVA DE LORENZ"

Copied!
9
0
0

Texto completo

(1)

MEDIDAS DE TENDENCIA CENTRAL, VARIACION Y FORMA:

En cualquier análisis o interpretación, se pueden usar muchas medidas descriptivas que representan las propiedades de tendencia central, variación y forma para resumir las

características importantes de un conjunto de datos. Si se calcula estas medidas descriptivas globales a partir de una muestra de datos, se denominan estadísticos; en cambio, si se calculan para toda la población de los datos se denomina parámetros.

MEDIDAS DE TENDENCIA CENTRAL

Loscinco tipos de promedios que se utilizan con frecuencia como medidas de tendencia central son: la media aritmética, la mediana, la moda, el rango medio (o centro de recorrido) y el eje medio.

1. Media Aritmética: (también llamada media) es el promedio o medida de tendencia central que se utiliza con mayor frecuencia. Se calcula con la suma de todas las observaciones en un conjunto de datos, dividida entre el número de elementos involucrados.

2. Mediana: es el valor medio de un arreglo ordenado de datos. Si no hay empates, la mitad de las observaciones será menor y la mitad, mayor. Para calcular la mediana de un conjunto de datos, primero se organizan en un arreglo ordenado.

Regla 1: si el tamaño de la muestra es un numero impar, entonces la mediana esta representada por el valor numérico que corresponde a la posición (n + 1) /2 de las observaciones ordenadas.

Regla 2: si el tamaño de la muestra es un número par, entonces la posición se encuentra entre las dos observaciones que están a la mitad del arreglo ordenado. La mediana es el promedio de los valores numéricos de estas dos observaciones.

3. Moda: es el valor que aparece con mayor frecuencia en un conjunto de datos. A diferencia de la media aritmética, la ocurrencia de algún valor extremo no afecta a la moda. Cuando en una serie de datos aparecen más de dos datos repetidos se describen como bimodales.

4. Rango medio: es el promedio de la observación más pequeña y la observación mas grande en un conjunto de datos.

Los cuartiles: son las medidas de posición “no central” que se utilizan con mayor frecuencia (también se llaman cuantiles) y se emplean sobre todo para resumir o describir las propiedades de conjuntos grandes de datos numéricos. Mientras que la mediana es un valor que parte el arreglo ordenado por la mitad (50%de las observaciones son menores, y 50% son mayores), los cuartiles son medidas descriptivas que parten los datos ordenados en cuatro cuartos. Otros cuantiles que se utilizan a menudo son los deciles, que separan los datos ordenados en diez partes, y los percentiles, que los dividen en cien partes.

Primer cuartil, Q1: es un valor tal que 25% de las observaciones son menores y 75% son mayores.

(2)

Q3=

Se utilizan tres reglas para obtener los valores de los cuartiles:

Regla 1: si la posición obtenida es un número entero, se elige como cuartil la observación numérica específica en ese lugar.

Regla 2: si la posición obtenida se encuentra en el justo medio de dos números enteros, se selecciona el promedio de sus valores correspondientes.

Regla 3: si la posición obtenida no es un número entero o el valor medio entre dos números enteros, una regla sencilla para aproximar el cuartil específico consiste en redondear hacia arriba o hacia abajo a la posición entera más cercana y elegir el valor numérico de esa observación.

Ejemplo:

El arreglo ordenado es:

10.0 , 20.6 , 28.6 , 28.6 , 29.4 , 29.5 , 29.9 , 30.1 , 30.5 , 30.5 , 32.1 , 32.2 , 32.4 , 33.0 , 35.2 37.1 , 38.0

Para esos datos se tiene:

Entonces si se usa la regla 2, Q1 puede aproximarse mediante el promedio de las

observaciones 4 y 5.

Además,

Por lo tanto, al aplicar la regla 2, Q3 se puede aproximar por el promedio de las

observaciones 13 y 14

5. Eje medio: es una medida de resumen que se usa para superar posibles problemas que introducen los valores extremos en los datos. El eje medio se calcula al realizar el promedio del primer y tercer cuartil de un conjunto de datos.

Medias de variación:

Una segunda propiedad importante para describir un conjunto de datos numéricos es la variación. La variación es la cantidad de dispersión o separación que presentan los datos. Dos conjuntos de datos pueden diferir tanto en la tendencia central como en la variación, o bien dos conjuntos de datos pueden tener las mismas medias de tendencia central pero diferir en términos de variación.

(3)

Rango: es la diferencia entre la observación mas grande y las mas pequeña. El rango mide la dispersión total en el conjunto de datos. Aunque es una medida sencilla de la variación toral en los datos, su debilidad característica consiste en que no toma en cuenta como se distribuyen los datos entre los valores más grande y más pequeño.

Rango intercuartil: (también llamado dispersión media) es la diferencia entre el primer y tercer cuartil en un conjunto de datos.

Rango intercuartil = Q3 – Q1

Esta medida considera la dispersión de la mitad (parte central) de los datos; por tanto, los valores extremos no influyen en ella.

Varianza y desviación estándar: Aunque el rango es una medida de la dispersión total y el rango intercuartil es una medida de la dispersión media, ninguna de estas medidas de variación toma en cuenta como se distribuyen o se agrupan las observaciones. Dos medidas de variación de uso común que si toman en cuenta la distribución de los valores de los datos son la varianza y su raíz cuadrada, la desviación estándar.

Varianza de la muestra:

La varianza de la muestra es la suma de los cuadrados de las diferencias con relación a la media aritmética dividida entre el tamaño de la muestra menos 1.

Desviación estándar de la muestra:

Es la raíz cuadrada de la suma del cuadrado de las diferencias con relación a la media aritmética, dividida entre el tamaño de la muestra menos 1.

Para calcular S2 , la varianza de la muestra, realice lo siguiente:

1. Obtenga la diferencia entre cada observación y la media 2. Eleve cada diferencia al cuadrado

3. Sume todos los cuadrados de ls diferencias 4. Divida el total entre n – 1

Para calcular S, (desviación estándar) de la muestra, obtenga la raíz cuadrada de la varianza.

La desviación estándar indica como se agrupa o distribuye un conjunto de datos alrededor de la media.

Comprensión de la variación en los datos:

1. Cuanto mas dispersos estén los datos, mas aumentara el rango, el rango intercuartil, la varianza y la desviación estándar.

2. Cuanto mas concentrados u homogéneos, sean los datos, disminuirá el rango, el rango intercuartil, la varianza y la desviación estándar.

3. Si las observaciones son todas iguales (de manera que no hay variación en los datos), el rango, el rango intercuartil, lavarianza y la desviación estándar serán iguales a cero.

(4)

Coeficiente de variación: a diferencia de las medidas que hemos visto hasta ahora, el

coeficiente de variación es una indicación relativa de la variación. Siempre se expresa como porcentaje, no en términos de las unidades de los datos específicos. El coeficiente de variación, denotado por el símbolo CV, mide la dispersión en los datos con relación a la media. El coeficiente de variación es igual a la desviación estándar dividida entre la media aritmética, multiplicada por 100 por ciento.

FORMA:

La tercera propiedad importante de un conjunto de datos es su forma, es decir la manera en que se distribuyen los datos. La distribución de los datos es simétrica o no lo es. Si no es simétrica, recibe el nombre de distribución asimétrica o sesgada

Para describir la forma, solamente se deben comparar la media y la mediana. Si ambas medidas son iguales, por lo general se considera que los datos son simetricos (o con sesgo cero). Por el contrario, si la media excede a la mediana, los datos se describen como sesgados a la derecha, o con sesgo positivo. Si la mediana excede a la media, los datos suelen llamarse

sesgados a la izquierda, o con sesgo negativo. Es decir:

Media > mediana: sesgo positivo o a la derecha Media = mediana: simetría o sesgo cero

Media < mediana: sesgo negativo o a la izquierda

Curtosis

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.

Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

Distribución leptocúrtica : presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

(5)

CURVA DE LORENZ

Es un gráfico frecuentemente utilizado para representar la distribución relativa de una variable en un dominio determinado. El dominio puede ser el conjunto de hogares o personas de una región o país, por ejemplo. La variable cuya distribución estudiamos puede ser el ingreso de los hogares o las personas. La curva se gráfica considerando en el eje horizontal el porcentaje acumulado de personas u hogares del dominio en cuestión y el eje vertical el porcentaje acumulado del ingreso.

Cada punto de la curva se lee como porcentaje acumulado de los hogares o las personas. La curva parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por ejemplo el 15% de los hogares o de la población percibe el 15% del ingreso). Si existiera desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se encuentra en una situación intermedia entre estos dos extremos, si una curva de Lorenz se encuentra siempre por encima de otra (y, por lo tanto, está más cerca de la línea de 45 grados) podemos decir sin ambigüedad que la primera exhibe menor desigualdad que la segunda. Esta comparación gráfica entre distribuciones de distintos dominios geográficos o temporales es el principal uso de la curvas de Lorenz.

Ejemplo: La curva de Lorenz es una forma gráfica de mostrar la distribución de la renta en una población. En ella se

relacionan los

porcentajes acumulados de población con porcentajes acumulados de la renta que esta población recibe. En el eje de abcisas se representa la población "ordenada" de forma que los percentiles de renta más baja quedan a la izquierda y los de renta más alta quedan a la derecha. El eje de ordenadas representa las rentas.

En la gráfica se muestran como ejemplo la representación de dos países imaginarios, uno en azul y otro en rojo. La distribución de la renta en el país azul es más desigual que en el país rojo. En el caso del país azul, el cuarenta por ciento más pobre de la población recibe una renta inferior al veinte por ciento del total del país. En cambio, en el país rojo, el cuarenta por ciento más pobre recibe más del veinte por ciento de la renta.

(6)

entre la curva y la diagonal. Esa superficie se llama área de concentración. En la gráfica de la izquierda la hemos rellenado de color rosado.

Cuanto mayor sea este área más concentrada estará la riqueza; cuanto más pequeña sea este área, más equitativa será la distribución de la renta del país representado.

COEFICIENTE DE GINI

El Coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y 1 se corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demás ninguno). El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es igual al coeficiente de Gini multiplicado por 100.

Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos, también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie disponga de una riqueza neta negativa.

Diagrama que muestra el área a comprendida entre la curva de Lorenz y la bisectriz del cuadrado, dicha área es proporcional al coeficiente de Gini.

El coeficiente de gini se calcula como una razón de las áreas en el diagrama de la curva de Lorenz. Si el área entre la línea de perfecta igualdad y la curva de Lorenz es A, y el área por debajo de la curva de Lorenz es B, entonces el coeficiente de Gini es A/(A+B). Esta ratio se expresa como porcentaje o como equivalente numérico de ese porcentaje, que es siempre un número entre 0 y 1. El coeficiente de Gini se calcula a menudo con la Fórmula de Brown, que es más práctica:

donde:

 G: Coeficiente de Gini

 X: Proporción acumulada de la variable población

 Y: Proporción acumulada de la variable ingresos

(7)

El índice de Gini en varios países

Algunos valores del informe de 2007 eran los siguientes: 1. Namibia: 70.7 (peor distribución)

2. Lesotho: 63.2 3. Botswana: 63.0 4. Sierra Leone: 62.9 5. C.African Repub 61.3 6. Bolivia: 60.6

7. Guatemala: 59.9 8. South Africa: 59.3 9. Paraguay: 56.8 10. Zimbabwe: 56.8 11. Brazil: 56.7 12. Panama: 56.4 13. Nicaragua: 55.1 14. Honduras: 55.0 15. Mexico: 54.6 16. Colombia: 53.8 17. Chile: 53.8 18. Zambia: 52.6 19. El Salvador: 52.5 20. Hong Kong: 52.3 21. Peru 49.8 22. Argentina 48.3 23. Costa Rica 46.5 24. Uruguay 45.2 25. Estados Unidos 45.0 26. Venezuela 42.0 27. Portugal 38.5 28. Italia 36.0 29. España 32.5 30. Suecia 25.0

31. Dinamarca 23.2 (mejor distribución)

Sobre un total de 122 países, el promedio ponderado es de 40.5 Fuente: Nation Master, www.nationmaster.com2

TAREA:

REALIZAR LOS EJERCICIOS 3.2 , 3.3 , 3.6 , 3.11 , 3.13 , Y ADEMAS HAGA UN COMENTARIO ACERCA DEL ARTICULO EL INDICE DEL RESENTIMIENTO PUBLICADO EN PRENSA LIBRE EL

JUEVES 31 DE MAYO DE 2007.

(8)

El índice del resentimiento

No importa que estemos bien jodidos, siempre y cuando estemos todos iguales.

El pobre Gini ni enterado ha de estar que sobre sus espaldas han echado la responsabilidad de igualar a todo el mundo en la mediocridad, porque quien sufre las consecuencias son los pobres del mundo igualados por toda esa bola de resentidos a quienes no les importa que haya miseria,

siempre y cuando todos sean igualmente miserables.

A estos resentidos, lo único que les importa son las diferencias. No pueden soportar que algunos estén mejor que otros. Prefieren que todos estén comiendo... a que algunos no estén tan mal como los otros. Detestan esas asquerosas diferencias, aunque pocas veces, si es que alguna,

(9)

Gini es un índice que se inventaron con el supuesto propósito de medir la “desigualdad” de riqueza. Su escala varía desde cero, que indicaría una “perfecta distribución de la riqueza”, hasta

cien, que representaría una “desigualdad perfecta”.

El artículo de portada del Wall Street Journal Americas de este martes, dedicado por entero a despotricar contra la “desigualdad” de ingresos, presenta un perfecto ejemplo de este resentimiento. Se quejan los escritores del artículo de que “los ingresos de los trabajadores poco calificados hayan subido, pero los de los trabajadores calificados han subido mucho más”.

Y luego se refieren a China, en donde, “si bien su impresionante expansión ha logrado generar importantes aumentos salariales para las clases bajas, la brecha de los ingresos también ha crecido debido a las enormes ganancias de la clase alta”.

De hecho, un par de las gráficas que presentan en el artículo, sobrepuestas, demuestran algo interesantísimo: en 1980, más de 600 millones de chinos vivían con menos de US$1 diario. Para el 2005, la cifra (ajustada a la inflación) bajó a cerca de cien millones. Durante el mismo período, el índice Gini pasó de 29 a 47, es decir, cuando la mayoría de la población era miserable, estaban más cerca de una “perfecta distribución de la riqueza”, mientras que ahora que muchísimos menos chinos viven en la miseria se han “acrecentado” las desigualdades.

Y, ¿qué es lo que preocupa a la bola de resentidos? La “creciente desigualdad”. El que 500 millones de personas hayan salido de la miseria y ahora tengan un nivel de vida mejor, les viene del norte. La conclusión que saco de este ejemplo es que mientras más miserable es la mayor cantidad de personas, existe una más “perfecta distribución de la riqueza” según el dichoso Gini (por supuesto, no hay riqueza que repartir). En contraposición, mientras mejor es el nivel de vida

de todos, más “desigualdad” habrá.

¿Qué prefiere usted, que todos estemos igual de pelados, o que todos estemos mejor, indistintamente de que unos estén mejor que otros? Yo prefiero mil veces que todos mejoremos nuestro nivel de vida, aunque no todos estemos iguales. ¿Por qué la envidia, por qué el resentimiento?

Publicado en Prensa Libre el jueves 31 de mayo de 2007.

Referencias

Documento similar

De acuerdo con Harold Bloom en The Anxiety of Influence (1973), el Libro de buen amor reescribe (y modifica) el Pamphihis, pero el Pamphilus era también una reescritura y

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)