Maestr´ıa en Gobierno y Pol´ıticas P´
ublicas
-Nivelatorio
Estad´ıstica-John F. Moreno T.
Universidad Externado de Colombia
Notaci´
on y elementos b´
asicos
Lanotaci´on sigma o notaci´on de sumatoria es utilizada para representar de forma compacta la suma de cantidades indexadas en los enteros positivos, de forma que six1,x2, ...,xn son un conjunto
de observaciones, entonces:
x1+x2+· · ·+xn= n
∑
i=1La letra que se utiliza para denotar las distintas observaciones es
denominada´ındice de la sumatoria y su aporte es solamente
notacional, es decir:
n
∑
i=1xi= n
∑
k=1xk= n
∑
j=1xj
El valor en el que inicia el ´ındice es denominadol´ımite inferior de
la sumatoria y el ´ultimo valor que toma es denominado l´ımite
Algunas propiedades de las sumatorias son:
1.
n
∑
i=1 cxi=c
n
∑
i=1 xi 2. n∑
i=1(xi±yi) = n
∑
i=1 xi±
n
∑
i=1 yi 3. n∑
i=1c=nc ; n
∑
i=m
c= (n−m+1)c
4.
n
∑
i=1 xi=
p
∑
i=1 xi+
n
∑
i=p+1
Ejemplo
Utilicemos algunas de las propiedades anteriores para determinar el valor de la siguiente suma:
7
∑
n=4(5n−2)
Tenemos que:
7
∑
n=4(5n−2) =
7
∑
n=45n−
7
∑
n=42=5
7
∑
n=4 n− 7∑
n=4Otro conjunto de resultados de gran utilidad son los siguientes:
I
n
∑
i=1i=n(n+1)
2
I
n
∑
i=1i2=n(n+1)(2n+1)
6
I
n
∑
i=1i3=n
Ejemplo
100
∑
k=13k2−2k+4
Tenemos que:
100
∑
k=13k2−2k+4=3
100
∑
k=1k2−2 100
∑
k=1 k+ 100∑
k=1 4=3100·101·201
6 −2
100·101
2 +4(100)
Las sumas dobles se definen como:
n
∑
i=1
m
∑
j=1
xiyj= n
∑
i=1
m
∑
j=1
xiyj !
= n
∑
i=1
(xiy1+xiy2+· · ·+xiym)
Ejemplo
Determinar el valor de la siguiente suma doble:
2
∑
i=1 3∑
j=1(2i+j)
Tenemos que:
2
∑
i=1 3
∑
j=1
(2i+j) !
=
2
∑
i=1
[(2i+1) + (2i+2) + (2i+3)]
Tambi´en se consideran sumas dobles al trabajar con cantidades
que tienen asociados dos o m´as sub´ındices, como por ejemplo, las
cantidades que forman una matriz y que se ubican dentro de la misma indicando la fila y la columna a la cual pertenecen.
En este caso, la suma doble se define de forma an´aloga,
n
∑
i=1
m
∑
j=1
ai j= n
∑
i=1
m
∑
j=1
ai j !
= n
∑
i=1
(ai1+ai2+· · ·+aim)
Para denotar de forma compacta la multiplicaci´on de un conjunto indexado de valores operaci´on, se utiliza la notaci´on de
productoria.
x1x2x3· · ·xn= n
∏
i=1xi
De forma an´aloga a la sumatoria, la variableise denomina ´ındice
Algunas propiedades de la productoria son:
1.
n
∏
i=1cxi=cn n
∏
i=1xi
donde ces una constante.
2.
n
∏
i=1(xiyizi) = n
∏
i=1 xi ! n∏
i=1 yi ! n∏
i=1 zi ! 3. n∏
i=1 xi yi =∏ n i=1xi ∏ni=1yi; n
∏
i=1yi6=0
4. ln n
∏
i=1 xi ! = n∑
i=1Logaritmaci´
on
logxy=nsi y solo sixn=y
Algunas propiedades importantes de la funci´on logaritmo son:
1.
loga(xy) =loga(x) +loga(y) 2.
loga
x y
=loga(x)−loga(y)
3.
Un logaritmo de uso muy com´un es ellogaritmo natural,
denotado porln(x)y que corresponde al logaritmo de un valorx en
el cual la base del logaritmo es el n´umero irracional e, es decir:
Definiciones b´
asicas
I Poblaci´on: conjunto de elementos de los cuales se quiere
conocer una o varias caracter´ısticas o par´ametros. (En
algunos casos se hace referencia a la poblaci´on como
poblaci´on te´orica o poblaci´on bajo estudio).
I Censo: es la situaci´on en la cual es posible tener informaci´on
de todos los elementos de la poblaci´on.
Tipos de estudios
I En unestudio observacional, el investigador observa las
caracter´ısticas de las muestras seleccionadas, en una o m´as
poblaciones, con el objetivo de inferir sobre las mismas o sobre diferencias entre estas.
I En unestudio experimental el investigador observa como
unavariable respuesta se comporta cuando una o m´as
Tipos de muestreo
Muestreos probabil´ısticos: son los tipos de muestreo en los
cualestodos los elementos de la poblaci´on tienen la misma
probabilidad de ser seleccionados para formar parte de la muestra. En general, esto implica que el muestreo debe ser realizado con reemplazo.
I Muestreo aleatorio simple: en este caso se identifica a los
elementos de la poblaci´on mediante un n´umero o etiqueta y se
seleccionan de forma aleatoria n´umeros o etiquetas, hasta
I Muestreo aleatorio sistem´atico:
Considerando de nuevo que la poblaci´on est´a numerada o
etiquetada, se selecciona de forma aleatoria un elemento (i)
de la poblaci´on. A partir de este, se toman los elementos
i+k,i+2k,i+3k, ..., conk=N/n, donde N es el tama˜no de la poblaci´on yn el tama˜no de la muestra. El valor deise
I Muestreo aleatorio estratificado: la poblaci´on se separa en
estratos o clases homog´eneas respecto a alguna caracter´ıstica
particular (profesi´on, lugar de residencia, lugar de nacimiento,
salario, nivel de formaci´on, sexo,... ), y dentro de cada uno de
los estratos se realiza muestreo aleatorio simple o sistem´atico.
La distribuci´on de la muestra dentro de cada uno de los
estratos se llama afijaci´on. Esta puede ser: afijaci´on simple,
cuando a cada estrato le toca un n´umero igual de elementos
de la muestra; afijaci´on proporcional, la distribuci´on se hace
de acuerdo con el pesos de la poblaci´on en cada estrato, o
afijaci´on ´optima, que es el caso en el cual se considera la
Ejemplo
Se quiere conocer el nivel de aceptaci´on de la gesti´on realizada por el gobernante de un determinado departamento del pa´ıs. Se considera una muestra de 600 personas y se sabe que el total de habitantes del departamento es 10000, de los cuales: 6000 viven en municipios principales, 3000 en veredas y 1000 en cacerios.
Ejemplo
Si se utiliza afijaci´on proporcional se tiene que:
I Municipios principales: 100006000 =0.6→(0.6)(600) =360.
I Veredas: 100003000 =0.3→(0.3)(600) =180.
I Muestreo aleatorio por conglomerados:
En este caso, la unidad muestral es un grupo de elementos de la poblaci´on (partidos pol´ıticos, facultades, agremiaciones,...).
Se selecciona de forma aleatoria un cierto n´umero de
conglomerados, hasta completar el tama˜no de muestra
Tipos de muestreo
Muestreos no probabil´ısticos:
Estos tipos de muestro no permiten realizar inferencias sobre la
poblaci´on, porque no se conoce la representatividad de la muestra,
pero en determinadas situaciones pueden ser el ´unico tipo de
I Muestreo por cuotas: se fijan unas cuotas (caracter´ısticas espec´ıficas de la poblaci´on), y se eligen para la muestra los primeros individuos que se consigan con estas caracter´ısticas.
I Muestreo intencional: se realiza un esfuerzo por incluir en la muestra conjuntos de elementos poblacionales considerados como t´ıpicos. Por ejemplo, sondeos preelectorales en zonas
donde hist´oricamente hay tendencia marcada de voto.
I Muestreo causal: el investigador selecciona directamente los individuos que van en la muestra.
I Muestreo bola de nieve: un elemento de la muestra lleva a otro, y este a otro, y as´ı hasta completar un determinado
Tipos de datos
La(s) caracter´ıstica(s) que son objeto de estudio por parte del
investigador se denominar´an variables, y su valor puede cambiar
entre los diferentes individuos en la poblaci´on. Los datos ser´an el resultado de las observaciones del valor de la variable en los individuos seleccionados de la poblaci´on.
Si el conjunto de observaciones realizadas (muestra) corresponde a
una sola variable, se dice que elconjunto de datos es
univariado. El conjunto de observaciones puede ser categ´orico o
En el caso de datos categ´oricos o cualitativos, estos pueden
clasificarse ennominales, cuando no hay un orden natural en las
categor´ıas o cualidades consideradas, uordinales cuando existe un
orden natural.
En el caso de datos num´ericos, estos pueden clasificarse en
discretos, cuando los posibles valores de la variable corresponden
a puntos aislados en la recta num´erica, ocontinuos cuando el
Ejemplo
Caso Sexo Nacimiento Edad Peso Opini´on
1 F Bogot´a 35 58 Buena
2 M Cali 28 72 Regular
Estad´ıstica descriptiva
Rama de la estad´ıstica que presenta las herramientas necesarias para describir datos en una o varias muestras.
I Medidas de tendencia central.
I Medidas de posici´on relativa.
I Medidas de dispersi´on.
I Medidas de forma.
Representaci´
on gr´
afica
Gr´afico de tallo y hojas:
Este tipo de gr´afico permite mostrar la forma de la distribuci´on de una variable num´erica. Para su elaboraci´on se procede de la siguiente manera:
1. Separamos las observaciones en dos partes (Tallo y Hojas). Para el tallo consideramos tantos d´ıgitos como se necesite, tomando siempre el mismo n´umero de d´ıgitos en cada observaci´on, y para la hojas se toma solo un d´ıgito.
2. Se listan los tallos verticalmente en orden ascendente y trazamos una l´ınea vertical.
Ejemplo
Las siguientes observaciones corresponden al porcentaje del presupuesto anual que 10 municipios destinan al apoyo a la formaci´on docente.
Municipio 1 2 3 4 5 6 7 8 9 10
Porcentaje 0,00 1,28 1,67 2,87 3,16 3,21 3,84 4,92 5,50 8,07
La representaci´on de tallo y hojas en este caso es:
Gr´afico de barras:
Este tipo de gr´afico es de mucha utilidad para la representaci´on de datos categ´oricos, asignando a cada categor´ıa una barra representa la
frecuencia (n´umero de observaciones) de la misma.
Ejemplo
En un estudio sobre intenci´on de voto, se pregunta a 170 personas sobre su preferencia por uno de cuatro candidatos. Los resultados se presentan en el cuadro. La frecuencia relativa es el resultado de dividir la frecuencia de cada candidato entre el n´umero total de observaciones.
Candidato Frecuencia Frecuencia relativa
A 50 29.4%
B 45 26.5%
Ejemplo
A B C D
30 35 40 45 50
Ejemplo
Retomando el ejemplo anterior sobre intenci´on de voto, se
consideran los resultados de las 170 personas de una ciudad A, y los resultados de 100 encuestados de una ciudad B.
Candidato Frecuencia Ciudad A Frecuencia Ciudad B
A 50 60
B 45 20
C 30 10
D 45 10
Ejemplo
A B C D
20 40
60 C1
Histogramas:
Para la construcci´on de este tipo de gr´afico, utilizado en datos
cuantitativos, se realiza primero unatabla de frecuencias, en la
cual se resume la informaci´on disponible. Los pasos para la
construcci´on de esta tabla son:
1. Dividir el rango total de observaciones en clases o intervalos.
(Por lo general estas clases se toman de igual longitud, pero no es necesario que esto siempre sea as´ı).
2. Una vez establecidas las clases, se calcula lamarca de clase
3. Para cada clase se calcula: la frecuencia absoluta(fj),
definida como el n´umero de observaciones que caen dentro de
la clase; lafrecuencia relativa (hj), definida como la
frecuencia absoluta de la clase dividida entre el total de
observaciones; la frecuencia acumulada (Fj), definida como
la suma de la frecuencia absoluta de cada clase con las
frecuencias absolutas de las clases anteriores, y la frecuencia
relativa acumulada (Hj), definida como la suma de la
Nota
El histograma se construye mediante barras que representan la
frecuencia asociada a cada clase en el ´area de la barra y no en su
altura. Desde luego, si las longitudes de las clases son iguales, el
´area y la altura de la barra dan la misma informaci´on, pero en caso
contrario no.
En el caso en el cual las clases son de diferente longitud, para leer el gr´afico de forma correcta, se recalcula la altura de las barras
mediante lo que se conoce comoescala de densidad, donde:
Altura de la barra=frecuencia relativa de la clase
Pol´ıgono de frecuencias: este gr´afico se puede obtener del histograma uniendo mediante segmentos de recta los puntos medios en las barras del histograma (las marcas de clase). Se
Ojiva: es la representaci´on gr´afica de la frecuencia relativa
acumuladaHj, y describe el porcentaje de los datos que se han
Medidas de tendencia central
Este tipo de medidas nos permiten determinar alg´un valor o valores
alrededor de los cuales se agrupan las observaciones.
I Media aritm´etica
¯
x=∑
n i=1xi
n ; µ=
∑Ni=1xi
N
En el caso de datos agrupados, la media se define como:
¯
x=∑
m j=1fjMj ∑mj=1fj
donde fj es la frecuencia absoluta de clase j yMj la marca de
Ejemplo
Las siguientes observaciones corresponden al n´umero de unidades
exportadas en los ´ultimos 24 meses por una compa˜n´ıa
multinacional.
24 14 17 16 18 12 18 14 21 22 25 21
15 25 23 16 14 14 21 14 23 21 18 12
Se tiene que la media del n´umero de unidades exportadas por la
compa˜n´ıa es:
¯
x=∑
24 i=1
Ejemplo
La tabla de frecuencia siguiente corresponde al n´umero de horas
extra trabajadas por los empleados de una empresa en el ´ultimo
mes.
Clase Mj fj
5.2-6.1 5.65 3
6.1-7.0 6.55 5
7.0-7.9 7.45 9
7.9-8.8 8.35 7
8.8-9.7 9.25 5
9.7-10.6 10.15 3
32
Se tiene que la media del
n´umero horas extra
trabajadas es:
¯
x=251.9
Algunas propiedades de la media aritm´etica son:
1. Representa el centro de gravedad de las observaciones.
2. La suma de las distancias de las observaciones a la media es
cero.
n
∑
i=1(xi−x) =¯ n
∑
i=1xi− n
∑
i=1 ¯ x = n∑
i=1xi−nx¯
=
n
∑
i=1xi−n n
∑
i=1xi/n
=
n
∑
x −3. Aunque la media aritm´eticax¯es la medida de tendencia
central m´as utilizada, presenta el inconveniente de ser muy
I Media ponderada
Si consideramos un conjunto de observaciones en las que a
cada observaci´on xi le podemos asignar un valor wi asociado a
alguna caracter´ıstica particular (como por ejemplo valores m´as
grandes de wi a datos m´as cercanos en el tiempo), o cuando
los datos xi tienen frecuencias diferentes fi, entonces podemos
definir la media ponderada de los datos como:
¯
x=
n
∑
i=1wixi con wi=
fi
Ejemplo
Se sabe que el n´umero de unidades exportadas anualmente por 20
pa´ıses es:
Unidades (Millones) Num. de pa´ıses Peso(wi)
12 6 6/20=0.3
14 10 10/20=0.5
16 4 4/20=0.2
El valor promedio del n´umero de unidades exportadas, ponderando
por el n´umero de pa´ıses es:
¯
I Media geom´etrica
La media geom´etrica de un conjunto de observaciones que se
define como:
¯
xg= n
√
x1·x2·...·xn= (x1·x2·...·xn)(1/n)
y corresponde al valor central representativo de observaciones
secuenciales y estrechamente relacionadas (intereses, inflaci´on,
devaluaci´on, crecimiento, disminuci´on, variaci´on, etc).
En el caso de datos agrupados, la media geom´etrica se puede
calcular como:
¯
xg= n
s m
∏
j=1Ejemplo
Las siguientes observaciones corresponden a los porcentajes de
incremento del salario m´ınimo en 6 pa´ıses de Am´erica Latina: 4%,
11%, 10%, 6%, 11%, 3%.
La media geom´etrica de estos porcentajes es:
¯
Ejemplo
¿Cu´al es la tasa de inter´es promedio pagada en el siguiente
pr´estamo?
Mes 1 2 3
Tasa 0,15 0,10 0,16
¯
I Mediana
La mediana es una medida de tendencia central que separa el conjunto de observaciones ordenadas por su centro, es decir, la mediana es un valor tal que el 50% de las observaciones es menor o igual a dicho valor y el otro 50% es mayor. Para calcular la mediana procedemos de la siguiente manera:
1. Ordenar el conjunto de observaciones.
2. Determinar si el n´umero de observaciones (n) es par o impar. Si el n´umero de observaciones es impar, el valor ubicado en la posici´on n+12 corresponde a la mediana(x˜).
Ejemplo
Consideremos el conjunto de observaciones: {4, 5, 5, 6, 7, 8, 9}.
Para este caso la medina esx˜=6.
En el caso de datos agrupados, la mediana muestral se calcula como:
˜
x=Lj+
n 2−Fj−1
C fj
=Lj+
[0.5−Hj−1]C
hj
donde:
I Lj=l´ımite inferior de la mediana (la primera clase en la cual la frecuencia
acumulada iguala o supera el 50%).
I Fj−1=frecuencia acumulada de la clase anterior a la clase mediana.
I fj=frecuencia absoluta de la clase mediana.
I Hj−1=frecuencia relativa acumulada de la clase anterior a la clase mediana.
I hj=frecuencia relativa de la clase mediana.
Algunas propiedades de la mediana son:
1. Si se tiene una distribuci´on sim´etrica de las observaciones, entonces x¯=x˜.
2. Si hay asimetr´ıa en las observaciones que muestra cola larga a
derecha x˜<x¯.
3. Si hay asimetr´ıa en las observaciones que muestra cola larga a
izquierda x˜>x¯.
4. La mediana es una medida de tendencia central robusta ya
I Moda
La moda hace referencia al dato que m´as se repite dentro del
conjunto de observaciones.
Como medida de tendencia central puede resultar ineficiente
ya que podemos encontrar casos en los que la distribuci´on sea
multimodal. Por ejemplo si consideramos el siguiente conjunto de observaciones:
{2,2,3,3,4,4,5,5,6,6,7,7}
En el caso de datos agrupados, la moda se estima como:
Xmoda=Lj+C
d1
d1+d2
donded1= fj−fj−1 yd2= fj−fj+1, con:
I fj= frecuencia absoluta de la clase modal (la clase con mayor
frecuencia absoluta).
I Lj=l´ımite inferior de la case modal.
I Media recortada (Media α-podada)
En este caso, se descartan n·α datos de cada extremo de la
lista ordenada de observaciones, con el objetivo de no
Ejemplo
Hallar la media recortada al 20% del siguiente conjunto de observaciones.
{85,98,99,95,98}
Lo primero que debemos hacer es considerar el conjunto de observaciones ordenado de menor a mayor.
{856,95,98,98,99}
Comoα=0,2, se tiene que: n·α= (5)(0,2) =1, lo que nos indica que de la lista ordenada se descarta un datos de cada extremo.
Medidas de posici´
on relativa
Son medidas que describen el lugar en el que est´an ubicados los
datos con relaci´on a la totalidad de los mismos. La medida por
excelencia para este caso son los percentiles.
El percentilK de un conjunto de observaciones es un valor tal que
elK%de las observaciones es menor o igual que dicho valor. Para
determinar el percentilK de un conjunto de observaciones
1. Ordenar los datos de menor a mayor.
2. Calcular:
i= nK
100
donde ncorresponde al n´umero de observaciones yK al
percentil que se quiere determinar.
3. Si el valor calculado deies un decimal, se redondea al valor
siguiente y dicho valor determina la posici´on en la lista ordenada de observaciones en el que se encuentra el percentil
K.
4. Si el valor de ies un entero, el percentil es el promedio de los
Algunos percentiles reciben nombres espec´ıficos de acuerdo con el
n´umero de partes en las que dividen el conjunto de observaciones.
I Los cuartiles dividen el conjunto de observaciones de acuerdo
con los percentiles 25, 50, 75 y 100. Estos son denotados regularmente como Q1,Q2,Q3 yQ4.
I Los deciles dividen el conjunto de observaciones en 10 partes
de acuerdo con los percentiles 10, 20, 30, ...,100.
I Los quintiles dividen el conjunto de observaciones en 5 partes
Ejemplo
Para el siguiente conjunto de observaciones, determinarQ1,Q2,Q3
yQ4.
104, 112, 134, 146, 155, 168, 179, 195, 246, 302, 338, 412, 678.
I i= (13)(25)100 =3.25→4entonces Q1=146
I i= (13)(50)100 =6.5→7 entonces Q2=170=x˜
I i= (13)(75)100 =9.75→10entonces Q3=302
En el caso de datos agrupados, el percentilK se calcula mediante la expresi´on:
PK=Lj+ Kn 100+Fj−1
fj
donde,
I Lj=l´ımite inferior del intervalo que contiene al percentil.
I Fj−1=frecuencia acumulada de la clase anterior a la k-´esima.
I fj= frecuencia absoluta de la clase que contiene al percentil.
I C= longitud de la clase que contiene al percentil.
I K=percentil buscado.
Medidas de dispersi´
on
Una vez establecida una medida de tendencia central, es
importante considerar qu´e tan separadas o dispersas se encuentran
las observaciones con relaci´on a dicha medida, o, de forma general,
cu´anta dispersi´on presentan los datos en s´ı.
I Rango muestral
El rango de un conjunto de observaciones mide la longitud del intervalo que contiene la totalidad de las mismas, y se calcula como:
Rango = xmax−xmin
I Rango intercuartil
El rango intercuartil mide la longitud del intervalo que contiene el 50% central de las observaciones y es calculado como:
I Desviaci´on media
La desviaci´on media de un conjunto de observaciones es la
distancia promedio de cada observaci´on a la media, es decir:
DM= ∑
n
i=1|xi−x¯|
n
I Mediana de las desviaciones absolutas (MAD)
Esta es una medida de dispersi´on respecto a la mediana de un
conjunto de observaciones, y se define como:
I Varianza y desviaci´on est´andar
La varianza de un conjunto de observaciones, cuando estas
constituyen un muestra de la poblaci´on total, se denomina
varianza muestral y es definida como:
S2=∑
n
i=1(xi−x)¯ 2
n−1 ; S=
√ S2
Si el conjunto de observaciones corresponde a toda la
poblaci´on, la varianza poblacional se define como:
σ2=∑ N
i=1(xi−µ)2
N ; σ =
√
σ2
donde N denota el n´umero total de elementos en la poblaci´on
En el caso de datos agrupados, la varianza muestral es:
S2=∑
m
j=1fjM2j−nx¯2
n−1
S= √
Nota (Teorema de Tchebychev)
Para cualquier poblaci´on con media µ y varianzaσ2, por lo menos
el100(1− 1
k2)%de los valores de la poblaci´on est´a a una distancia
menor quekveces la desviaci´on est´andar parak>1, es decir, en el
intervalo(µ−kσ, µ+kσ) est´a el 100(1−k12)%de los valores de la poblaci´on.
Al considerar algunos valores parak podemos establecer el
porcentaje de la poblaci´on dentro de cada intervalo, para cada
valor dek:
k 1.5 2 2.5 3 3.5 4
100(1− 1
Nota
Coeficiente de variaci´on de Pearson
Este coeficiente permite comparar las dispersiones de dos
conjuntos de observaciones, ya que no est´a influenciado por la
escala de los datos.
CV =
s
¯
x
Gr´
afico de caja y bigotes
Este gr´afico, propuesto por Tukey, permite representar informaci´on
de los datos basado en cuartiles. Para realizar esta representaci´on
se deben seguir estos pasos:
I Ordenar los datos de menor a mayor.
I Hallarx˜,Q1 yQ3.
I Hallar los l´ımites, dondeRICes el rango intercuartil.
I 2◦ l´ımite inferior =Q1−3(RIC).
I 1◦ l´ımite inferior =Q1−1.5(RIC).
I 1◦ l´ımite superior =Q3+1.5(RIC).
I 2◦ l´ımite superior =Q3+3(RIC).
I Se traza una escala que cubra el rango de observaciones, y en esta se ubican x˜,Q1 yQ3.
I Formar una caja cuyos lados vayan de Q1 aQ3, y en su
interior un segmento de recta que indique x˜.
I Partiendo de Q1, trazar un segmento de recta (bigote) hasta
el ´ultimo dato dentro del primer l´ımite inferior.
I Partiendo de Q3, trazar un segmento de recta (bigote) hasta
el ´ultimo dato dentro del primer l´ımite superior.
Ejemplo
Medidas de forma
Consideramos ahora medidas sobre la forma descrita por el
conjunto de observaciones en relaci´on con su simetr´ıa y su
apuntamiento o levantamiento respecto al eje horizontal.
Iniciamos con elsesgo, definido comouna medida del grado de
simetr´ıa de la curva descrita por las observaciones con relaci´on a su
Supongamos que la siguiente gr´afica representa la curva descrita por un conjunto de datos.
¯
x=x˜=moda
En este caso podemos observar que la curva es sim´etrica respecto
De igual forma, es posible considerar distribuciones que son sim´etricas pero multimodales. Por ejemplo, la siguiente gr´afica
representa el caso de una distribuci´on de observaciones que es
Si consideramos ahora distribuciones de observaciones que no son
sim´etricas, podemos encontrar distribuciones consesgo a derecha,
como la representada en la siguiente figura:
o distribuciones consesgo a izquierda, como la siguiente:
moda
˜
x
¯
Para cuantificar el grado de asimetr´ıa de la distribuci´on de las observaciones podemos considerar:
I ´Indice de asimetr´ıa de Yule-Bowley para variables ordinales
AS=
(Q3−Q2)−(Q2−Q1)
(Q3−Q1)
=Q1+Q3−2Q2 (Q3−Q1)
; −1≤AS≤1
En este caso se tiene que:
As=
<0 sesgo negativo o cola larga a izquierda.
=0 sesgo cero o simetr´ıa.
>0 sesgo positivo o cola larga a derecha.
I Coeficiente de asimetr´ıa de Pearson
Dado un conjunto de observaciones unimodal, este coeficiente se define como:
Ap= ¯
x−moda s
y es clasificado como:
Ap=
=0 sim´etrica
<0 sesgo negativo o a izquierda
I Coeficiente de asimetr´ıa de Fisher
Dado un conjunto de observacionesx1,x2, ...,xn, este
coeficiente se define como:
g1=∑ n
i=1(xi−x)¯ 3
nS3
donde Sdenota la desviaci´on est´andar de las observaciones.
Se clasifica en este caso como:
g1=
=0 sim´etrica
<0 sesgo negativo o a izquierda
Sobre este ´ultimo coeficiente, en el caso de datos agrupados se tiene que:
g1=
∑mj=1(Mi−x)¯ 3fj
Consideramos ahora una medida para el apuntamiento de la curva
con relaci´on al eje horizontal. Esta medida es llamadacurtosis, y
es una medida del grado de concentraci´on de los datos alrededor de
la media, es decir, es una medida del grado en el que se acumulan
observaciones en las colas de la distribuci´on. Se define como:
Curtosis=∑
n
i=1(xi−x)¯ 4
Para dar un mayor sentido a esta medida se utiliza como referente la campana Gaussina o curva normal, la cual tiene una curtosis de
3, por lo que es com´un trabajar con el exceso de curtosis, medida
definida como:
Exceso de curtosis=g2=
∑ni=1(xi−x)¯ 4
nS4 −3
Para el caso del exceso de curtosis se define:
g2=
=0 Mesoc´urtica.
<0 Platic´urtica.
leptoc´urtica
mesoc´urtica
Medidas de concentraci´
on
El objetivo de este tipo de medidas es cuantificar el grado de
desigualdad en la distribuci´on o el reparto de una magnitud
(ventas, riqueza, beneficios,...), entre un n´umero determinado de
elementos receptores (individuos, familias, empresas,...).
Al considerar estas situaciones, se puede tener:
I m´ınima concentraci´on o m´axima igualdad: caso en el cual a todos los integrantes del conjunto receptor se les asigna la misma cantidad.
I m´axima concentraci´on o m´ınima igualdad: un receptor recibe todo.
´Indice de Gini. Para el c´alculo de este ´ındice:
1. Se ordena el conjunto de receptores de menor a mayor
cantidad recibida (se denota por vi al valor recibido por el
receptor i).
v1≤v1≤ · · · ≤vn
2. Hallar las cantidades acumuladas del n´umero de receptores y
de valor recibido.
3. Hallar las proporciones correspondientes a las cantidades
El cuadro 2.21 muestra el c´alculo de estas cantidades.
Receptores vi Acumulado receptores (i) Valor acumulado (ui) pi=ni100 qi=uin100 1◦ v1 1 u1=v1 p1=1n100 q1=
u1 un100 2◦ v
2 2 u2=v1+v2 p2=2n100 q2=
u2 un100 3◦ v3 3 u3=v1+v2+v3 p3=3n100 q3=
Se debe notar que en caso de reparto equilibrado pi=qi para todo
i, y que en general la diferencia(pi−qi) indica la concentraci´on del
reparto. Partiendo de lo anterior, se define el´ındice de Gini como:
IG=
∑n−1i=1(pi−qi) ∑n−1i=1 pi
; 0≤IG≤1
y de esta definici´on se tiene que:
I IG=0implica m´ınima concentraci´on o m´axima igualdad.
Ejemplo
La siguiente tabla de frecuencias describe los salarios mensuales recibidos por los empleados de una empresa en millones de pesos.
Salario N◦ de empleados
3.5 10
4.5 12
6 8
8 5
10 3
15 1
Curva de Lorenz: Es la representaci´on gr´afica de la concentraci´on.
pi
qi
100 100
(pi,qi)
El ´ındice de Gini puede interpretarse como la raz´on entre el ´area del tri´angulo bajo la diagonal y el ´area encerrada por la diagonal y la curva de Lorenz f(p).
IG=1−2
Z 1
0