ESTADÍS
TICA
Prof. Lic.
Stella M.
MEDIDAS DE POSICIÓN
MEDIDAS DE RESUMEN
Entre las medidas que permiten
resumir información proveniente de
una población, podemos considerar las
medidas de posición, medidas de
dispersión y medidas de forma.
Medidas de Posición
Tienen por objeto, obtener un valor que resuma en sí todas las mediciones. La mayoría de ellas trata de ubicar el centro de la distribución, razón por la cual, se llaman MEDIDAS DE TENDENCIA CENTRAL; estas son: Media, Mediana, Moda, Media Geométrica, Media Armónica.
MEDIDAS DE TENDENCIA CENTRAL
Media aritmética o promedio: Es una de las
medidas de tendencia central de mayor uso. La media muestral se simboliza por y la media poblacional de denota por .
X
MEDIA PARA DATOS NO TABULADOS
Sea X una variable cuantitativa y x1, x2,…, xn una muestra de tamaño "n" de valores de la variable, se define la media aritmética de X como: n x ... x x x X 1 2 3 n n x X n 1 i i
PROMEDIO PARA DATOS TABULADOS
Sea X una variable estadística que toma los valores xi, con
frecuencias absolutas fi, respectivamente. La media está dada
por:
n 1 i i n 1 i i i n 2 1 n n 2 2 1 1 f f x f ... f f f x ... f x f x xEjemplo: Consideremos la edad en años de ocho personas
11 18 25 32 12 7 7 8
En este ejemplo el promedio , media o media aritmética de la edad de estas personas está dada por:
15 8 8 7 7 12 32 25 18 11 x
Es decir la media para las edades de estas personas es de 15 años.
Media Geométrica:
• Se define como la raíz n-ésima del producto de todos los valores numéricos, es decir,
n i n 1 i n n 2 1 G x .x ....x (x ) X La media armónica:
• Se define como el número de observaciones de la muestra dividido por la suma del inverso de cada una de las observaciones, es decir,
n 1 i i A ) x / 1 ( n XMediana (med)
Sea X una variable por lo menos ordinal y sea x1, x2,…xn una muestra de tamaño n de observaciones de la variable, se define como mediana “med" un valor tal que supera a no más del 50% de las observaciones y es superado por no más del 50% de las observaciones, cuando estas han sido ordenadas según
magnitud.
MEDIANA PARA DATOS NO TABULADOS
Ejemplo: Consideremos la edad en años de ocho personas 10 18 25 32 12 5 7 7
Para calcular la mediana , previamente se deben ordenar las observaciones. En este caso lo haremos en forma creciente:
5 7 7 10 12 18 25 32
Como la cantidad de datos es par, entonces la mediana
corresponde al promedio de los datos centrales, por lo tanto la mediana es 11.
MEDIANA PARA DATOS TABULADOS
En casos de datos agrupados es un poco más complejo y requiere de la utilización de la siguiente fórmula
Li: límite inferior de la clase mediana
c: amplitud del intervalo de la clase mediana N: número total de datos
fi: suma de frecuencias hasta la clase anterior a la mediana fmed: frecuencia de la clase mediana
c f f 2 N L med med i i
Moda (mo) para datos no tabulados
La moda se identifica al observar el valor que se presenta con más frecuencia en la distribución.
Si consideramos el ejemplo del peso de una muestra de
personas: 65 76 48 48 68 78 90 87 67 72 78 mo = 48 kilos ; mo = 78 kilos. Esta distribución es
bimodal.
Moda (mo) para datos tabulados
Ahora bien, en el caso de datos agrupados en intervalos, es fácil determinar la clase modal (clase con mayor frecuencia), pero el valor dentro del intervalo que se presume tenga mayor frecuencia se obtiene a partir de la siguiente expresión:
c L mo 2 1 1 i
Cuantiles
La mediana divide a la distribución en dos partes iguales, los
cuantiles son parámetros que dividen los datos de la distribución en partes iguales.
Los más usados son:
Cuartiles:
Se llaman cuartiles a tres valores que dividen a la serie de datos en cuatro partes iguales.
Q1: primer cuartil; Q2: segundo cuartil; Q3: tercer cuartil.
Deciles:
Nueve valores que dividen la distribución en 10 partes iguales. D1: primer decil; D2: segundo decil; …; D9: noveno decil.
Percentiles:
Noventa y nueve valores que dividen la serie en 100 partes iguales. P1: primer percentil; …; P99: noveno percentil.
ESTADÍS
TICA
Unidad IV
MEDIDAS DE DISPERSIÓN: miden la
dispersión de los datos respecto de una medida de tendencia central.
• Las medidas descriptivas más comunes de
dispersión son: el rango, la varianza, la desviación estándar y el rango intercuartílico.
• El rango de la muestra es la medida de variabilidad más sencilla entre todas las mencionadas; y se define como la diferencia entre la observación más grande y la más pequeña :
n ) x x ( s n 1 i 2 i 2
• La varianza para una serie de datos x1; x2; x3; …; xn se define como: n ) x x ( s n 1 i 2 i
• La desviación típica es la raíz cuadrad de la varianza:
• rango intercuartílico: RQ = Q3 – Q1, donde Q3 es el tercer cuartil y Q1 es el primer cuartil.
Asimetría
• Si los valores de la serie de datos presenta la misma forma a izquierda y derecha de un
valor central (media aritmética) se dice que es simétrica de lo contrario será asimétrica.
• Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:
3 1 3 1
)
(
)(
/
1
(
s
x
x
n
g
n i i
Los resultados pueden ser los siguientes:
• g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la izquierda de la media)
• g1 > 0 (distribución asimétrica positiva; existe
mayor concentración de valores a la derecha de la media que a su izquierda)
• g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la izquierda de la media que a su derecha)
Curtosis
• El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores
alrededor de la zona central de la distribución. • El Coeficiente de Curtosis viene definido
por la siguiente fórmula:
3 ) ( )( / 1 ( 4 1 4 2
s x x n g n i iSe definen 3 tipos de distribuciones según su grado de curtosis:
• g2 = 0: Distribución mesocúrtica; presenta un
grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
• g2 > 0: Distribución leptocúrtica; presenta un
elevado grado de concentración alrededor de los valores centrales de la variable.
• g2 < 0: Distribución platicúrtica; presenta un
reducido grado de concentración alrededor de los valores centrales de la variable.
MEDIDAS DE DISPERSION
Si comparamos dos grupos de variables o valores, a través de su valor representativo, considerado la MEDIA ( )
SI ESTOS GRUPOS TIENEN LA MISMA MEDIA
¿ PODRIAMOS DECIR QUE AMBOS GRUPOS SON IGUALES ?
X f Xf 1 2 2 6 4 24 11 5 55 16 4 64 21 2 42 Y f Yf 7 2 14 9 4 36 11 5 55 13 4 52 15 2 30 1 11 2 11
Aparentemente como tienen MEDIAS IGUALES podríamos responder que los grupos SON IGUALES
PERO SI OBSEBAMOS EL SIGUIENTE GRAFICO TALVEZ TENDREMOS OTRA REPUESTA
Según este gráfico parecería que los grupos de valores no son iguales
Aun si los grupos tienen la misma MEDIA esta unidad de medida no es suficiente para decidir, y responder que los grupos son iguales
Necesitamos otra UNIDAD DE MEDIDA QUE MIDA LA DISPERSIÓN DE
LOS DATOS CON RESPETO A SU VALOR MEDIO ( ) Esta unidad de medida se llama VARIANZA
n -X 2
2
Donde X son los valores de la variable es la media y n el número de datos
Es la sumatoria de las desviaciones de cada uno de los valores de
la variable X con respecto a su valor medio ( ) al cuadrado, dividido
por la cantidad de datos ( n )
MEDIDAS DE DISPERSION para DATOS no AGRUPADOS
VARIANZA: Es la sumatoria de las desviaciones de cada uno de los valores de la variable X con respecto a su valor medio ( ) al cuadrado, dividido
por la cantidad de datos ( n ) Ejemplos
Distribución de la variable X, 1, 3 y 5 con = 3 y n = 3
67 , 2 3 3 -5 3 -3 3 -1 2 2 2 2
x Distribución de la variable Y, 2, 3 y 4 con = 3 y n = 3
67 , 0 3 3 -4 3 -3 3 -2 2 2 2 2
y Debido a que la VARIANZA un valor muy grande, para conseguir un valor mas pequeño, hallamos la raiz cuadrada, esta medida de dispersión se llama
DESVIACIÓN TIPICA
2
En los ejemplos anteriores
633 , 1 67 , 2 x 8165 , 0 67 , 0 y