Maestr´ıa en Gobierno y Pol´ıticas P´

(1)

Maestr´ıa en Gobierno y Pol´ıticas P´

ublicas

-Nivelatorio

Estad´ıstica-John F. Moreno T.

Universidad Externado de Colombia

(2)

Notaci´

on y elementos b´

asicos

Lanotaci´on sigma o notaci´on de sumatoria es utilizada para representar de forma compacta la suma de cantidades indexadas en los enteros positivos, de forma que six1,x2, ...,xn son un conjunto

de observaciones, entonces:

x1+x2+· · ·+xn= n

∑

i=1

(3)

La letra que se utiliza para denotar las distintas observaciones es

denominada´ındice de la sumatoria y su aporte es solamente

notacional, es decir:

n

∑

i=1

xi= n

∑

k=1

xk= n

∑

j=1

xj

El valor en el que inicia el ´ındice es denominadol´ımite inferior de

la sumatoria y el ´ultimo valor que toma es denominado l´ımite

(4)

Algunas propiedades de las sumatorias son:

1.

n

∑

i=1 cxi=c

n

∑

i=1 xi 2. n

∑

i=1

(xi±yi) = n

∑

i=1 xi±

n

∑

i=1 yi 3. n

∑

i=1

c=nc ; n

∑

i=m

c= (n−m+1)c

4.

n

∑

i=1 xi=

p

∑

i=1 xi+

n

∑

i=p+1

(5)

Ejemplo

Utilicemos algunas de las propiedades anteriores para determinar el valor de la siguiente suma:

7

∑

n=4

(5n−2)

Tenemos que:

7

∑

n=4

(5n−2) =

7

∑

n=4

5n−

7

∑

n=4

2=5

7

∑

n=4 n− 7

∑

n=4

(6)

Otro conjunto de resultados de gran utilidad son los siguientes:

I

n

∑

i=1

i=n(n+1)

2

I

n

∑

i=1

i2=n(n+1)(2n+1)

6

I

n

∑

i=1

i3=n

(7)

Ejemplo

100

∑

k=1

3k2−2k+4

Tenemos que:

100

∑

k=1

3k2−2k+4=3

100

∑

k=1

k2−2 100

∑

k=1 k+ 100

∑

k=1 4

=3100·101·201

6 −2

100·101

2 +4(100)

(8)

Las sumas dobles se definen como:

n

∑

i=1

m

∑

j=1

xiyj= n

∑

i=1

m

∑

j=1

xiyj !

= n

∑

i=1

(xiy1+xiy2+· · ·+xiym)

(9)

Ejemplo

Determinar el valor de la siguiente suma doble:

2

∑

i=1 3

∑

j=1

(2i+j)

Tenemos que:

2

∑

i=1 3

∑

j=1

(2i+j) !

=

2

∑

i=1

[(2i+1) + (2i+2) + (2i+3)]

(10)

Tambi´en se consideran sumas dobles al trabajar con cantidades

que tienen asociados dos o m´as sub´ındices, como por ejemplo, las

cantidades que forman una matriz y que se ubican dentro de la misma indicando la fila y la columna a la cual pertenecen.

En este caso, la suma doble se define de forma an´aloga,

n

∑

i=1

m

∑

j=1

ai j= n

∑

i=1

m

∑

j=1

ai j !

= n

∑

i=1

(ai1+ai2+· · ·+aim)

(11)

Para denotar de forma compacta la multiplicación de un conjunto indexado de valores operación, se utiliza la notación de

productoria.

x1x2x3· · ·xn= n

∏

i=1

xi

De forma an´aloga a la sumatoria, la variableise denomina ´ındice

(12)

Algunas propiedades de la productoria son:

1.

n

∏

i=1

cxi=cn n

∏

i=1

xi

donde ces una constante.

2.

n

∏

i=1

(xiyizi) = n

∏

i=1 xi ! n

∏

i=1 yi ! n

∏

i=1 zi ! 3. n

∏

i=1 xi yi =∏ n i=1xi ∏ni=1yi

; n

∏

i=1

yi6=0

4. ln n

∏

i=1 xi ! = n

∑

i=1

(13)

Logaritmaci´

on

log_xy=nsi y solo sixn=y

Algunas propiedades importantes de la funci´on logaritmo son:

1.

log_a(xy) =log_a(x) +log_a(y) 2.

loga

x y

=loga(x)−loga(y)

3.

(14)

Un logaritmo de uso muy com´un es ellogaritmo natural,

denotado porln(x)y que corresponde al logaritmo de un valorx en

el cual la base del logaritmo es el n´umero irracional e, es decir:

(15)

Definiciones b´

asicas

I Poblaci´on: conjunto de elementos de los cuales se quiere

conocer una o varias caracter´ısticas o par´ametros. (En

algunos casos se hace referencia a la poblaci´on como

población teórica o población bajo estudio).

I Censo: es la situaci´on en la cual es posible tener informaci´on

de todos los elementos de la poblaci´on.

(16)

Tipos de estudios

I En unestudio observacional, el investigador observa las

caracter´ısticas de las muestras seleccionadas, en una o m´as

poblaciones, con el objetivo de inferir sobre las mismas o sobre diferencias entre estas.

I En unestudio experimental el investigador observa como

unavariable respuesta se comporta cuando una o m´as

(17)

Tipos de muestreo

Muestreos probabil´ısticos: son los tipos de muestreo en los

cualestodos los elementos de la poblaci´on tienen la misma

probabilidad de ser seleccionados para formar parte de la muestra. En general, esto implica que el muestreo debe ser realizado con reemplazo.

I Muestreo aleatorio simple: en este caso se identifica a los

elementos de la poblaci´on mediante un n´umero o etiqueta y se

seleccionan de forma aleatoria n´umeros o etiquetas, hasta

(18)

I Muestreo aleatorio sistem´atico:

Considerando de nuevo que la poblaci´on est´a numerada o

etiquetada, se selecciona de forma aleatoria un elemento (i)

de la poblaci´on. A partir de este, se toman los elementos

i+k,i+2k,i+3k, ..., conk=N/n, donde N es el tamaño de la población yn el tamaño de la muestra. El valor deise

(19)

I Muestreo aleatorio estratificado: la poblaci´on se separa en

estratos o clases homog´eneas respecto a alguna caracter´ıstica

particular (profesi´on, lugar de residencia, lugar de nacimiento,

salario, nivel de formaci´on, sexo,... ), y dentro de cada uno de

los estratos se realiza muestreo aleatorio simple o sistem´atico.

La distribuci´on de la muestra dentro de cada uno de los

estratos se llama afijaci´on. Esta puede ser: afijaci´on simple,

cuando a cada estrato le toca un n´umero igual de elementos

de la muestra; afijaci´on proporcional, la distribuci´on se hace

de acuerdo con el pesos de la poblaci´on en cada estrato, o

afijaci´on ´optima, que es el caso en el cual se considera la

(20)

Ejemplo

Se quiere conocer el nivel de aceptaci´on de la gesti´on realizada por el gobernante de un determinado departamento del pa´ıs. Se considera una muestra de 600 personas y se sabe que el total de habitantes del departamento es 10000, de los cuales: 6000 viven en municipios principales, 3000 en veredas y 1000 en cacerios.

(21)

Ejemplo

Si se utiliza afijaci´on proporcional se tiene que:

I Municipios principales: ₁₀₀₀₀6000 =0.6→(0.6)(600) =360.

I Veredas: ₁₀₀₀₀3000 =0.3→(0.3)(600) =180.

(22)

I Muestreo aleatorio por conglomerados:

En este caso, la unidad muestral es un grupo de elementos de la poblaci´on (partidos pol´ıticos, facultades, agremiaciones,...).

Se selecciona de forma aleatoria un cierto n´umero de

conglomerados, hasta completar el tama˜no de muestra

(23)

Tipos de muestreo

Muestreos no probabil´ısticos:

Estos tipos de muestro no permiten realizar inferencias sobre la

poblaci´on, porque no se conoce la representatividad de la muestra,

pero en determinadas situaciones pueden ser el ´unico tipo de

(24)

I Muestreo por cuotas: se fijan unas cuotas (caracter´ısticas espec´ıficas de la poblaci´on), y se eligen para la muestra los primeros individuos que se consigan con estas caracter´ısticas.

I Muestreo intencional: se realiza un esfuerzo por incluir en la muestra conjuntos de elementos poblacionales considerados como t´ıpicos. Por ejemplo, sondeos preelectorales en zonas

donde hist´oricamente hay tendencia marcada de voto.

I Muestreo causal: el investigador selecciona directamente los individuos que van en la muestra.

I Muestreo bola de nieve: un elemento de la muestra lleva a otro, y este a otro, y as´ı hasta completar un determinado

(25)

Tipos de datos

La(s) caracter´ıstica(s) que son objeto de estudio por parte del

investigador se denominar´an variables, y su valor puede cambiar

entre los diferentes individuos en la población. Los datos serán el resultado de las observaciones del valor de la variable en los individuos seleccionados de la población.

Si el conjunto de observaciones realizadas (muestra) corresponde a

una sola variable, se dice que elconjunto de datos es

univariado. El conjunto de observaciones puede ser categ´orico o

(26)

En el caso de datos categ´oricos o cualitativos, estos pueden

clasificarse ennominales, cuando no hay un orden natural en las

categor´ıas o cualidades consideradas, uordinales cuando existe un

orden natural.

En el caso de datos num´ericos, estos pueden clasificarse en

discretos, cuando los posibles valores de la variable corresponden

a puntos aislados en la recta num´erica, ocontinuos cuando el

(27)

Ejemplo

Caso Sexo Nacimiento Edad Peso Opini´on

1 F Bogot´a 35 58 Buena

2 M Cali 28 72 Regular

(28)

Estad´ıstica descriptiva

Rama de la estad´ıstica que presenta las herramientas necesarias para describir datos en una o varias muestras.

I Medidas de tendencia central.

I Medidas de posici´on relativa.

I Medidas de dispersi´on.

I Medidas de forma.

(29)

Representaci´

on gr´

afica

Gr´afico de tallo y hojas:

Este tipo de gráfico permite mostrar la forma de la distribución de una variable numérica. Para su elaboración se procede de la siguiente manera:

1. Separamos las observaciones en dos partes (Tallo y Hojas). Para el tallo consideramos tantos d´ıgitos como se necesite, tomando siempre el mismo n´umero de d´ıgitos en cada observaci´on, y para la hojas se toma solo un d´ıgito.

2. Se listan los tallos verticalmente en orden ascendente y trazamos una l´ınea vertical.

(30)

Ejemplo

Las siguientes observaciones corresponden al porcentaje del presupuesto anual que 10 municipios destinan al apoyo a la formaci´on docente.

Municipio 1 2 3 4 5 6 7 8 9 10

Porcentaje 0,00 1,28 1,67 2,87 3,16 3,21 3,84 4,92 5,50 8,07

La representaci´on de tallo y hojas en este caso es:

(31)

Gr´afico de barras:

Este tipo de gráfico es de mucha utilidad para la representación de datos categóricos, asignando a cada categor´ıa una barra representa la

frecuencia (n´umero de observaciones) de la misma.

Ejemplo

En un estudio sobre intenci´on de voto, se pregunta a 170 personas sobre su preferencia por uno de cuatro candidatos. Los resultados se presentan en el cuadro. La frecuencia relativa es el resultado de dividir la frecuencia de cada candidato entre el n´umero total de observaciones.

Candidato Frecuencia Frecuencia relativa

A 50 29.4%

B 45 26.5%

(32)

Ejemplo

A B C D

30 35 40 45 50

(33)

Ejemplo

Retomando el ejemplo anterior sobre intenci´on de voto, se

consideran los resultados de las 170 personas de una ciudad A, y los resultados de 100 encuestados de una ciudad B.

Candidato Frecuencia Ciudad A Frecuencia Ciudad B

A 50 60

B 45 20

C 30 10

D 45 10

(34)

Ejemplo

A B C D

20 40

60 C1

(35)

Histogramas:

Para la construcci´on de este tipo de gr´afico, utilizado en datos

cuantitativos, se realiza primero unatabla de frecuencias, en la

cual se resume la informaci´on disponible. Los pasos para la

construcci´on de esta tabla son:

1. Dividir el rango total de observaciones en clases o intervalos.

(Por lo general estas clases se toman de igual longitud, pero no es necesario que esto siempre sea as´ı).

2. Una vez establecidas las clases, se calcula lamarca de clase

(36)

3. Para cada clase se calcula: la frecuencia absoluta(fj),

definida como el n´umero de observaciones que caen dentro de

la clase; lafrecuencia relativa (hj), definida como la

frecuencia absoluta de la clase dividida entre el total de

observaciones; la frecuencia acumulada (Fj), definida como

la suma de la frecuencia absoluta de cada clase con las

frecuencias absolutas de las clases anteriores, y la frecuencia

relativa acumulada (Hj), definida como la suma de la

(37)

Nota

El histograma se construye mediante barras que representan la

frecuencia asociada a cada clase en el ´area de la barra y no en su

altura. Desde luego, si las longitudes de las clases son iguales, el

´area y la altura de la barra dan la misma informaci´on, pero en caso

contrario no.

En el caso en el cual las clases son de diferente longitud, para leer el gr´afico de forma correcta, se recalcula la altura de las barras

mediante lo que se conoce comoescala de densidad, donde:

Altura de la barra=frecuencia relativa de la clase

(38)

Pol´ıgono de frecuencias: este gr´afico se puede obtener del histograma uniendo mediante segmentos de recta los puntos medios en las barras del histograma (las marcas de clase). Se

(39)

Ojiva: es la representaci´on gr´afica de la frecuencia relativa

acumuladaHj, y describe el porcentaje de los datos que se han

(40)

Medidas de tendencia central

Este tipo de medidas nos permiten determinar alg´un valor o valores

alrededor de los cuales se agrupan las observaciones.

I Media aritm´etica

¯

x=∑

n i=1xi

n ; µ=

∑N_i=1xi

N

En el caso de datos agrupados, la media se define como:

¯

x=∑

m j=1fjMj ∑mj=1fj

donde fj es la frecuencia absoluta de clase j yMj la marca de

(41)

Ejemplo

Las siguientes observaciones corresponden al n´umero de unidades

exportadas en los ´ultimos 24 meses por una compa˜n´ıa

multinacional.

24 14 17 16 18 12 18 14 21 22 25 21

15 25 23 16 14 14 21 14 23 21 18 12

Se tiene que la media del n´umero de unidades exportadas por la

compa˜n´ıa es:

¯

x=∑

24 i=1

(42)

Ejemplo

La tabla de frecuencia siguiente corresponde al n´umero de horas

extra trabajadas por los empleados de una empresa en el ´ultimo

mes.

Clase Mj fj

5.2-6.1 5.65 3

6.1-7.0 6.55 5

7.0-7.9 7.45 9

7.9-8.8 8.35 7

8.8-9.7 9.25 5

9.7-10.6 10.15 3

32

Se tiene que la media del

n´umero horas extra

trabajadas es:

¯

x=251.9

(43)

Algunas propiedades de la media aritm´etica son:

1. Representa el centro de gravedad de las observaciones.

2. La suma de las distancias de las observaciones a la media es

cero.

n

∑

i=1

(xi−x) =¯ n

∑

i=1

xi− n

∑

i=1 ¯ x = n

∑

i=1

xi−nx¯

=

n

∑

i=1

xi−n n

∑

i=1

xi/n

=

n

∑

x −

(44)

3. Aunque la media aritm´eticax¯es la medida de tendencia

central m´as utilizada, presenta el inconveniente de ser muy

(45)

I Media ponderada

Si consideramos un conjunto de observaciones en las que a

cada observaci´on xi le podemos asignar un valor wi asociado a

alguna caracter´ıstica particular (como por ejemplo valores m´as

grandes de wi a datos m´as cercanos en el tiempo), o cuando

los datos xi tienen frecuencias diferentes fi, entonces podemos

definir la media ponderada de los datos como:

¯

x=

n

∑

i=1

wixi con wi=

fi

(46)

Ejemplo

Se sabe que el n´umero de unidades exportadas anualmente por 20

pa´ıses es:

Unidades (Millones) Num. de pa´ıses Peso(wi)

12 6 6/20=0.3

14 10 10/20=0.5

16 4 4/20=0.2

El valor promedio del n´umero de unidades exportadas, ponderando

por el n´umero de pa´ıses es:

¯

(47)

I Media geom´etrica

La media geom´etrica de un conjunto de observaciones que se

define como:

¯

xg= n

√

x₁·x₂·...·xn= (x1·x2·...·xn)(1/n)

y corresponde al valor central representativo de observaciones

secuenciales y estrechamente relacionadas (intereses, inflaci´on,

devaluación, crecimiento, disminución, variación, etc).

En el caso de datos agrupados, la media geom´etrica se puede

calcular como:

¯

xg= n

s _m

∏

j=1

(48)

Ejemplo

Las siguientes observaciones corresponden a los porcentajes de

incremento del salario m´ınimo en 6 pa´ıses de Am´erica Latina: 4%,

11%, 10%, 6%, 11%, 3%.

La media geom´etrica de estos porcentajes es:

¯

(49)

Ejemplo

¿Cu´al es la tasa de inter´es promedio pagada en el siguiente

pr´estamo?

Mes 1 2 3

Tasa 0,15 0,10 0,16

¯

(50)

I Mediana

La mediana es una medida de tendencia central que separa el conjunto de observaciones ordenadas por su centro, es decir, la mediana es un valor tal que el 50% de las observaciones es menor o igual a dicho valor y el otro 50% es mayor. Para calcular la mediana procedemos de la siguiente manera:

1. Ordenar el conjunto de observaciones.

2. Determinar si el número de observaciones (n) es par o impar. Si el número de observaciones es impar, el valor ubicado en la posición n+1₂ corresponde a la mediana(x˜).

(51)

Ejemplo

Consideremos el conjunto de observaciones: {4, 5, 5, 6, 7, 8, 9}.

Para este caso la medina esx˜=6.

(52)

En el caso de datos agrupados, la mediana muestral se calcula como:

˜

x=Lj+

n 2−Fj−1

C fj

=Lj+

[0.5−Hj−1]C

hj

donde:

I Lj=l´ımite inferior de la mediana (la primera clase en la cual la frecuencia

acumulada iguala o supera el 50%).

I Fj−1=frecuencia acumulada de la clase anterior a la clase mediana.

I fj=frecuencia absoluta de la clase mediana.

I Hj−1=frecuencia relativa acumulada de la clase anterior a la clase mediana.

I hj=frecuencia relativa de la clase mediana.

(53)

Algunas propiedades de la mediana son:

1. Si se tiene una distribuci´on sim´etrica de las observaciones, entonces x¯=x˜.

2. Si hay asimetr´ıa en las observaciones que muestra cola larga a

derecha x˜<x¯.

3. Si hay asimetr´ıa en las observaciones que muestra cola larga a

izquierda x˜>x¯.

4. La mediana es una medida de tendencia central robusta ya

(54)

I Moda

La moda hace referencia al dato que m´as se repite dentro del

conjunto de observaciones.

Como medida de tendencia central puede resultar ineficiente

ya que podemos encontrar casos en los que la distribuci´on sea

multimodal. Por ejemplo si consideramos el siguiente conjunto de observaciones:

{2,2,3,3,4,4,5,5,6,6,7,7}

(55)

En el caso de datos agrupados, la moda se estima como:

Xmoda=Lj+C

d1

d1+d2

donded1= fj−fj−1 yd2= fj−fj+1, con:

I fj= frecuencia absoluta de la clase modal (la clase con mayor

frecuencia absoluta).

I Lj=l´ımite inferior de la case modal.

(56)

I Media recortada (Media α-podada)

En este caso, se descartan n·α datos de cada extremo de la

lista ordenada de observaciones, con el objetivo de no

(57)

Ejemplo

Hallar la media recortada al 20% del siguiente conjunto de observaciones.

{85,98,99,95,98}

Lo primero que debemos hacer es considerar el conjunto de observaciones ordenado de menor a mayor.

{856,95,98,98,99}

Comoα=0,2, se tiene que: n·α= (5)(0,2) =1, lo que nos indica que de la lista ordenada se descarta un datos de cada extremo.

(58)

Medidas de posici´

on relativa

Son medidas que describen el lugar en el que est´an ubicados los

datos con relaci´on a la totalidad de los mismos. La medida por

excelencia para este caso son los percentiles.

El percentilK de un conjunto de observaciones es un valor tal que

elK%de las observaciones es menor o igual que dicho valor. Para

determinar el percentilK de un conjunto de observaciones

(59)

1. Ordenar los datos de menor a mayor.

2. Calcular:

i= nK

100

donde ncorresponde al n´umero de observaciones yK al

percentil que se quiere determinar.

3. Si el valor calculado deies un decimal, se redondea al valor

siguiente y dicho valor determina la posici´on en la lista ordenada de observaciones en el que se encuentra el percentil

K.

4. Si el valor de ies un entero, el percentil es el promedio de los

(60)

Algunos percentiles reciben nombres espec´ıficos de acuerdo con el

n´umero de partes en las que dividen el conjunto de observaciones.

I Los cuartiles dividen el conjunto de observaciones de acuerdo

con los percentiles 25, 50, 75 y 100. Estos son denotados regularmente como Q1,Q2,Q3 yQ4.

I Los deciles dividen el conjunto de observaciones en 10 partes

de acuerdo con los percentiles 10, 20, 30, ...,100.

I Los quintiles dividen el conjunto de observaciones en 5 partes

(61)

Ejemplo

Para el siguiente conjunto de observaciones, determinarQ1,Q2,Q3

yQ₄.

104, 112, 134, 146, 155, 168, 179, 195, 246, 302, 338, 412, 678.

I i= (13)(25)₁₀₀ =3.25→4entonces Q1=146

I i= (13)(50)₁₀₀ =6.5→7 entonces Q2=170=x˜

I i= (13)(75)₁₀₀ =9.75→10entonces Q3=302

(62)

En el caso de datos agrupados, el percentilK se calcula mediante la expresi´on:

PK=Lj+ Kn 100+Fj−1

fj

donde,

I Lj=l´ımite inferior del intervalo que contiene al percentil.

I Fj−1=frecuencia acumulada de la clase anterior a la k-´esima.

I fj= frecuencia absoluta de la clase que contiene al percentil.

I C= longitud de la clase que contiene al percentil.

I K=percentil buscado.

(63)

Medidas de dispersi´

on

Una vez establecida una medida de tendencia central, es

importante considerar qu´e tan separadas o dispersas se encuentran

las observaciones con relaci´on a dicha medida, o, de forma general,

cu´anta dispersi´on presentan los datos en s´ı.

I Rango muestral

El rango de un conjunto de observaciones mide la longitud del intervalo que contiene la totalidad de las mismas, y se calcula como:

Rango = xmax−xmin

I Rango intercuartil

El rango intercuartil mide la longitud del intervalo que contiene el 50% central de las observaciones y es calculado como:

(64)

I Desviaci´on media

La desviaci´on media de un conjunto de observaciones es la

distancia promedio de cada observaci´on a la media, es decir:

DM= ∑

n

i=1|xi−x¯|

n

I Mediana de las desviaciones absolutas (MAD)

Esta es una medida de dispersi´on respecto a la mediana de un

conjunto de observaciones, y se define como:

(65)

I Varianza y desviaci´on est´andar

La varianza de un conjunto de observaciones, cuando estas

constituyen un muestra de la poblaci´on total, se denomina

varianza muestral y es definida como:

S2=∑

n

i=1(xi−x)¯ 2

n−1 ; S=

√ S2

Si el conjunto de observaciones corresponde a toda la

poblaci´on, la varianza poblacional se define como:

σ2=∑ N

i=1(xi−µ)2

N ; σ =

√

σ2

donde N denota el n´umero total de elementos en la poblaci´on

(66)

En el caso de datos agrupados, la varianza muestral es:

S2=∑

m

j=1fjM2j−nx¯2

n−1

S= √

(67)

Nota (Teorema de Tchebychev)

Para cualquier poblaci´on con media µ y varianzaσ2, por lo menos

el100(1− 1

k2)%de los valores de la poblaci´on est´a a una distancia

menor quekveces la desviaci´on est´andar parak>1, es decir, en el

intervalo(µ−kσ, µ+kσ) est´a el 100(1−_k12)%de los valores de la poblaci´on.

Al considerar algunos valores parak podemos establecer el

porcentaje de la poblaci´on dentro de cada intervalo, para cada

valor dek:

k 1.5 2 2.5 3 3.5 4

100(1− 1

(68)

Nota

Coeficiente de variaci´on de Pearson

Este coeficiente permite comparar las dispersiones de dos

conjuntos de observaciones, ya que no est´a influenciado por la

escala de los datos.

CV =

s

¯

x

(69)

Gr´

afico de caja y bigotes

Este gr´afico, propuesto por Tukey, permite representar informaci´on

de los datos basado en cuartiles. Para realizar esta representaci´on

se deben seguir estos pasos:

I Ordenar los datos de menor a mayor.

I Hallarx˜,Q1 yQ3.

I Hallar los l´ımites, dondeRICes el rango intercuartil.

I 2◦ l´ımite inferior =Q1−3(RIC).

I 1◦ l´ımite inferior =Q1−1.5(RIC).

I 1◦ l´ımite superior =Q3+1.5(RIC).

I 2◦ l´ımite superior =Q3+3(RIC).

(70)

I Se traza una escala que cubra el rango de observaciones, y en esta se ubican x˜,Q1 yQ3.

I Formar una caja cuyos lados vayan de Q₁ aQ₃, y en su

interior un segmento de recta que indique x˜.

I Partiendo de Q1, trazar un segmento de recta (bigote) hasta

el ´ultimo dato dentro del primer l´ımite inferior.

I Partiendo de Q3, trazar un segmento de recta (bigote) hasta

el ´ultimo dato dentro del primer l´ımite superior.

(71)

(72)

Ejemplo

(73)

Medidas de forma

Consideramos ahora medidas sobre la forma descrita por el

conjunto de observaciones en relaci´on con su simetr´ıa y su

apuntamiento o levantamiento respecto al eje horizontal.

Iniciamos con elsesgo, definido comouna medida del grado de

simetr´ıa de la curva descrita por las observaciones con relaci´on a su

(74)

Supongamos que la siguiente gr´afica representa la curva descrita por un conjunto de datos.

¯

x=x˜=moda

En este caso podemos observar que la curva es sim´etrica respecto

(75)

De igual forma, es posible considerar distribuciones que son sim´etricas pero multimodales. Por ejemplo, la siguiente gr´afica

representa el caso de una distribuci´on de observaciones que es

(76)

Si consideramos ahora distribuciones de observaciones que no son

sim´etricas, podemos encontrar distribuciones consesgo a derecha,

como la representada en la siguiente figura:

(77)

o distribuciones consesgo a izquierda, como la siguiente:

moda

˜

x

¯

(78)

Para cuantificar el grado de asimetr´ıa de la distribuci´on de las observaciones podemos considerar:

I ´Indice de asimetr´ıa de Yule-Bowley para variables ordinales

AS=

(Q3−Q2)−(Q2−Q1)

(Q3−Q1)

=Q1+Q3−2Q2 (Q3−Q1)

; −1≤AS≤1

En este caso se tiene que:

As=



 

 

<0 sesgo negativo o cola larga a izquierda.

=0 sesgo cero o simetr´ıa.

>0 sesgo positivo o cola larga a derecha.

(79)

I Coeficiente de asimetr´ıa de Pearson

Dado un conjunto de observaciones unimodal, este coeficiente se define como:

Ap= ¯

x−moda s

y es clasificado como:

Ap=



 

 

=0 sim´etrica

<0 sesgo negativo o a izquierda

(80)

I Coeficiente de asimetr´ıa de Fisher

Dado un conjunto de observacionesx1,x2, ...,xn, este

coeficiente se define como:

g1=∑ n

i=1(xi−x)¯ 3

nS3

donde Sdenota la desviaci´on est´andar de las observaciones.

Se clasifica en este caso como:

g1=



 

 

=0 sim´etrica

<0 sesgo negativo o a izquierda

(81)

Sobre este ´ultimo coeficiente, en el caso de datos agrupados se tiene que:

g1=

∑mj=1(Mi−x)¯ 3fj

(82)

Consideramos ahora una medida para el apuntamiento de la curva

con relaci´on al eje horizontal. Esta medida es llamadacurtosis, y

es una medida del grado de concentraci´on de los datos alrededor de

la media, es decir, es una medida del grado en el que se acumulan

observaciones en las colas de la distribuci´on. Se define como:

Curtosis=∑

n

i=1(xi−x)¯ 4

(83)

Para dar un mayor sentido a esta medida se utiliza como referente la campana Gaussina o curva normal, la cual tiene una curtosis de

3, por lo que es com´un trabajar con el exceso de curtosis, medida

definida como:

Exceso de curtosis=g2=

∑ni=1(xi−x)¯ 4

nS4 −3

Para el caso del exceso de curtosis se define:

g₂=



 

 

=0 Mesoc´urtica.

<0 Platic´urtica.

(84)

leptoc´urtica

mesoc´urtica

(85)

Medidas de concentraci´

on

El objetivo de este tipo de medidas es cuantificar el grado de

desigualdad en la distribuci´on o el reparto de una magnitud

(ventas, riqueza, beneficios,...), entre un n´umero determinado de

elementos receptores (individuos, familias, empresas,...).

Al considerar estas situaciones, se puede tener:

I m´ınima concentraci´on o m´axima igualdad: caso en el cual a todos los integrantes del conjunto receptor se les asigna la misma cantidad.

I m´axima concentraci´on o m´ınima igualdad: un receptor recibe todo.

(86)

´Indice de Gini. Para el c´alculo de este ´ındice:

1. Se ordena el conjunto de receptores de menor a mayor

cantidad recibida (se denota por vi al valor recibido por el

receptor i).

v1≤v1≤ · · · ≤vn

2. Hallar las cantidades acumuladas del n´umero de receptores y

de valor recibido.

3. Hallar las proporciones correspondientes a las cantidades

(87)

El cuadro 2.21 muestra el c´alculo de estas cantidades.

Receptores vi Acumulado receptores (i) Valor acumulado (ui) pi=ni100 qi=uin100 1◦ v1 1 u1=v1 p1=1n100 q1=

u₁ un100 2◦ _v

2 2 u2=v1+v2 p2=2n100 q2=

u₂ un100 3◦ v3 3 u3=v1+v2+v3 p3=3n100 q3=

(88)

Se debe notar que en caso de reparto equilibrado pi=qi para todo

i, y que en general la diferencia(pi−qi) indica la concentraci´on del

reparto. Partiendo de lo anterior, se define el´ındice de Gini como:

IG=

∑n−1i=1(pi−qi) ∑n−1_i=1 pi

; 0≤IG≤1

y de esta definici´on se tiene que:

I IG=0implica m´ınima concentraci´on o m´axima igualdad.

(89)

Ejemplo

La siguiente tabla de frecuencias describe los salarios mensuales recibidos por los empleados de una empresa en millones de pesos.

Salario N◦ de empleados

3.5 10

4.5 12

6 8

8 5

10 3

15 1

(90)

Curva de Lorenz: Es la representación gráfica de la concentración.

pi

qi

100 100

(pi,qi)

El ´ındice de Gini puede interpretarse como la razón entre el área del triángulo bajo la diagonal y el área encerrada por la diagonal y la curva de Lorenz f(p).

IG=1−2

Z ₁

0