Resumenes númericas de una muestra II:
medidas basadas en momentos
Michael Wiper Departamento de Estadística Universidad Carlos III de Madrid
Objetivo
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural esla media(aritmética), es decir el promedio de los datos. ¯
x = 1n(x1+x2+ · · ·xn).
Nota para los ingenieros:si se colocan pesos iguales sobre una barra muy ligera en posiciones x1, ....,xn, la media es elcentro de gravedadde la barra.
1, 2, 4, 5, 7, 9, 11, 13 ¯
x = 1
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural esla media(aritmética), es decir el promedio de los datos. ¯
x = 1n(x1+x2+ · · ·xn).
Nota para los ingenieros:si se colocan pesos iguales sobre una barra muy ligera en posiciones x1, ....,xn, la media es elcentro de gravedadde la barra.
1, 2, 4, 5, 7, 9, 11, 13 ¯
x = 1
La media
Hasta ahora hemos visto dos medidas de localización: moda y mediana.
Una alternativa natural esla media(aritmética), es decir el promedio de los datos. ¯
x = 1n(x1+x2+ · · ·xn).
Nota para los ingenieros:si se colocan pesos iguales sobre una barra muy ligera en posiciones x1, ....,xn, la media es elcentro de gravedadde la barra.
1, 2, 4, 5, 7, 9, 11, 13 1
Calculando la media a través de la tabla de
frecuencias
Con datos discretas la tabla de frecuencias tiene forma:
Valor Frecuencia absoluta Frecuencia relativa
x1 n1 f1
x2 n2 f2
... ... ...
xk nk fk
Total n 1
El valor xi es repetido ni veces. Luego, la media es
¯ x = 1 n k X i=1 nixi = k X i=1 fixi.
Ejemplo
¯
Ejemplo
Con datos continuos, usamos las misma formulas, aproximando los valores dentro de un intervalo con la marca de clase. Obviamente el resultado es sólo una aproximación a la verdadera media de la muestra.
¯
x ≈ (0,06 × 25 + 0,18 × 75 + · · · + 0,02 × 2500 + 0 × 3250) = 326,5. La verdadera media de los datos es ¯x = 320 hectáreas quemadas por provincia No importa el hecho de que los intervalos son de anchuras distintas.
Sensibilidad de la media a datos atípicos
Obviamente la media es muy sensible a atípicos.
1, 2, 4, 5, 7, 9, 11, 13 ¯ x = 6,5. 1, 2, 4, 5, 7, 9, 11, 130 ¯ x = 21,125.
Luego para muestras muy asimétricas o con muchos datos atípicos, es preferible emplear la mediana como medida de localización.
Sensibilidad de la media a datos atípicos
Obviamente la media es muy sensible a atípicos.
1, 2, 4, 5, 7, 9, 11, 13 ¯ x = 6,5. 1, 2, 4, 5, 7, 9, 11, 130 ¯ x = 21,125.
Luego para muestras muy asimétricas o con muchos datos atípicos, es preferible emplear la mediana como medida de localización.
Comparando media, mediana y moda
Otras medias
Lamedia truncadaes un intento de evitar la sensibilidad a los datos atípicos, calculando la media de los datos pero quitando (por ejemplo) los 5 % más altos y los 5 % más bajos.
Lamedia geométricade una muestra (no-negativa) x1, ...,xn es igual a
n
√x1x2· · ·xn.
Son muy apropiadas para promediar índices porcentuales, por ejemplo la variabilidad regional en Europe entre homicidios y otras formas de muerte externa.
Midiendo dispersión: la varianza y desvianza típica
Suponiendo que la media es una buena medida de localización de la muestra, una idea razonable es medir la dispersión como la distancia típica de una observación en torno de la media.
Con datos x1, ...,xn, con media ¯x, las distancias son x1− ¯x, x2− ¯x, ..., xn− ¯x. Obviamente, algunas son positivas y otras negativas y Pni=1(xi− ¯x) = 0.
Midiendo dispersión: la varianza y desvianza típica
Suponiendo que la media es una buena medida de localización de la muestra, una idea razonable es medir la dispersión como la distancia típica de una observación en torno de la media.
Con datos x1, ...,xn, con media ¯x, las distancias son x1− ¯x, x2− ¯x, ..., xn− ¯x. Obviamente, algunas son positivas y otras negativas y Pni=1(xi− ¯x) = 0. Entonces, una idea posible es considerar las distancias cuadradas ...
La varianza
Lavarianzade la muestra se dene como: ˆ σ2= 1 n n X i=1 (xi− ¯x)2= 1 n n X i=1 x2 i − ¯x2.
Nota para los ingenieros:la varianza es el momento de inercia de la barra en torno delcentro de gravedad.
Nota para los estadísticos:la mayoria de paquetes estadísticos no calculan la varianza así. Como alternativa se preere lacuasi-varianza:
s2= 1 n − 1 n X i=1 (xi− ¯x)2= n n − 1σˆ2. ¾Porqué?
La varianza
Lavarianzade la muestra se dene como: ˆ σ2= 1 n n X i=1 (xi− ¯x)2= 1 n n X i=1 x2 i − ¯x2.
Nota para los ingenieros:la varianza es el momento de inercia de la barra en torno delcentro de gravedad.
Nota para los estadísticos:la mayoria de paquetes estadísticos no calculan la varianza así. Como alternativa se preere lacuasi-varianza:
s2= 1 n − 1 n X i=1 (xi− ¯x)2= n n − 1σˆ2. ¾Porqué?
La varianza
Lavarianzade la muestra se dene como: ˆ σ2= 1 n n X i=1 (xi− ¯x)2= 1 n n X i=1 x2 i − ¯x2.
Nota para los ingenieros:la varianza es el momento de inercia de la barra en torno delcentro de gravedad.
Nota para los estadísticos:la mayoria de paquetes estadísticos no calculan la varianza así. Como alternativa se preere lacuasi-varianza:
s2= 1 n − 1 n X i=1 (xi− ¯x)2= n n − 1σˆ2.
La varianza
Lavarianzade la muestra se dene como: ˆ σ2= 1 n n X i=1 (xi− ¯x)2= 1 n n X i=1 x2 i − ¯x2.
Nota para los ingenieros:la varianza es el momento de inercia de la barra en torno delcentro de gravedad.
Nota para los estadísticos:la mayoria de paquetes estadísticos no calculan la varianza así. Como alternativa se preere lacuasi-varianza:
s2= 1 n − 1 n X i=1 (xi− ¯x)2= n n − 1σˆ2. ¾Porqué?
La desviación típica
El problema más importante de la varianza es su interpretación.
Volviendo al ejemplo de los accidentes de tráco, la varianza en este caso es 3,79
(accidentes mortales cuadrados al día).
Más natural es una medida con las mismas unidades que los datos. Ladesviación típicaes ˆσ =√σˆ2 y lacuasi-desviación típicaes s =√s2. En el ejemplo, la desviación típica es 1,95 accidentes mortales por día.
La desviación típica
El problema más importante de la varianza es su interpretación.
Volviendo al ejemplo de los accidentes de tráco, la varianza en este caso es 3,79 (accidentes mortales cuadrados al día).
Más natural es una medida con las mismas unidades que los datos. Ladesviación típicaes ˆσ =√σˆ2 y lacuasi-desviación típicaes s =√s2. En el ejemplo, la desviación típica es 1,95 accidentes mortales por día.
El teorema de Chebyshev y la interpretación de la
desviación típica
Elteorema de Chebyshev dice que para cualquier conjunto de datos: Por lo menos 3/4 de los datos de la muestra están a menos de dos desviaciones típicas en torno de la media.
Por lo menos 8/9 de los datos están a menos de tres desviaciones típicas de la media.
Por lo menos 1 − 1/k2de los datos están a menos de k desviaciones típicas
de la media.
El teorema de Chebyshev es muy conservadora. Para datos más o menos
simétricas, una regla empírica dice que aproximadamente68 %95 %99.7 %de los datos están a menos deunodostresdesviaciones de la media.
El teorema de Chebyshev y la interpretación de la
desviación típica
Elteorema de Chebyshev dice que para cualquier conjunto de datos: Por lo menos 3/4 de los datos de la muestra están a menos de dos desviaciones típicas en torno de la media.
Por lo menos 8/9 de los datos están a menos de tres desviaciones típicas de la media.
Por lo menos 1 − 1/k2de los datos están a menos de k desviaciones típicas
de la media.
El teorema de Chebyshev es muy conservadora. Para datos más o menos
simétricas, una regla empírica dice que aproximadamente68 %95 %99.7 %de los datos están a menos deunodostresdesviaciones de la media.
Ejemplo
1, 2, 4, 5, 7, 9, 11, 13 ¯
x = 6,5 X x2
i =466 ˆσ2=18 ×466 − 6,52=16 ˆσ = 4.
En este caso, un 100 % de los datos están comprendidos en la región 6,5 ± 2 × 4 = [−1,5, 14,5]
1, 2, 4, 5, 7, 9, 11, 130
¯
x = 21,125 X x2
i =17197 ˆσ2= 18×17197 − 21,1252=1703,36 ˆσ = 41,27.
En contraste el intervalo 21,125 ± 2 × 41,27 = [−61,42, 103,67] contiene un 87.5 % de lo datos.
Ejemplo
1, 2, 4, 5, 7, 9, 11, 13 ¯
x = 6,5 X x2
i =466 ˆσ2=18 ×466 − 6,52=16 ˆσ = 4.
En este caso, un 100 % de los datos están comprendidos en la región 6,5 ± 2 × 4 = [−1,5, 14,5]
1, 2, 4, 5, 7, 9, 11, 130
¯
x = 21,125 X x2
i =17197 ˆσ2=18×17197 − 21,1252=1703,36 ˆσ = 41,27.
En contraste el intervalo 21,125 ± 2 × 41,27 = [−61,42, 103,67] contiene un 87.5 % de lo datos.
Midiendo la dispersión relativa: el coeciente de
variación
Supongamos que se quiere comparar la variabilidad en las cantidades de heroina (gm) y de cigarillos ilegales (cajas) encontrados en sospechosos.
Obviamente no tiene sentido comparar las desviaciones típicas directamente ya que las cantidades típicas encontradas de los dos productos son muy distintos. Luego se tiene que comparar las dispersiones relativas al tamaño típico. Con este objetivo se utiliza elcoeciente de variación:
CV = σˆ |¯x|.
Midiendo la dispersión relativa: el coeciente de
variación
Supongamos que se quiere comparar la variabilidad en las cantidades de heroina (gm) y de cigarillos ilegales (cajas) encontrados en sospechosos.
Obviamente no tiene sentido comparar las desviaciones típicas directamente ya que las cantidades típicas encontradas de los dos productos son muy distintos. Luego se tiene que comparar las dispersiones relativas al tamaño típico. Con este objetivo se utiliza elcoeciente de variación:
CV = σˆ |¯x|.
Midiendo asimetría
La medida más típica es la asimetría de Fisher: ˆ γ1= 1 nPni=1(xi− ¯x)3 ˆ σ3 .
Curtosis
Curtosises otra medida de forma que está relacionado con la proporción de la variabilidad de los datos debida a datos extremos.
La medida más utilizada es ˆ κ = 1 nPni=1(xi− ¯x)4 ˆ σ4 .
Valores grandes de la curtosis indican una proiporción más alta de datos extremos.
Una muestraplaticurticatiene pocos atípicos y una muestraleptocurtica tiene más atípicos.
Resumen y siguiente sesión
En las últimas dos sesiones hemos introducido las resumenes numéricas más típicas de un conjunto de datos.
En las siguientes sesiones empezamos a mirar conjuntos de varios tipos de datos y ver las relaciones entre ellos.