Medidas de Dispersión o Variación

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻͶ

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻͶ

Los conjuntos de datos pueden tener el mismo centro (media, mediana y moda), pero con aspecto diferente por la forma en que los números se dispersan desde el centro. Las medidas de variabilidad pueden ayudarle a crear una imagen mental de la dispersión de los datos y se considera una muy importante característica de datos [33]. Esto quiere decir que las medidas de centralidad no revelan la imagen completa de la distribución de un conjunto de datos. Es pertinente revisar varios de los conceptos de las medidas de dispersión como el rango, varianza, desviación estándar y coeficiente de variación antes de entrar al estudio de cómo se calculan estas medidas con R.

El rango es la medida más simple de dispersión para calcular. Se obtiene tomando la diferencia entre los valores más grandes y más pequeños en un conjunto de datos. Ver ecuación 3.4.

𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑉𝑉𝑉𝑉𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉 𝑚𝑚𝑚𝑚á𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑚𝑚𝑚𝑚𝑅𝑅𝑅𝑅 − 𝑉𝑉𝑉𝑉𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉 𝑚𝑚𝑚𝑚í𝑅𝑅𝑅𝑅𝑥𝑥𝑥𝑥𝑚𝑚𝑚𝑚𝑅𝑅𝑅𝑅 [3.4]

La varianza muestral para una muestra de n mediciones es igual a la suma de las desviaciones al cuadrado de la media, dividida por (n - 1). El símbolo 𝑆𝑆𝑆𝑆² se usa para representar la varianza muestral[34]. La ecuación 3.5 representa lo manifestado.

𝜎𝜎𝜎𝜎² = ∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} 𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.5]

𝑆𝑆𝑆𝑆² = ∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} 𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.6]

La desviación estándar se define como la raíz cuadrada positiva de la varianza. Siguiendo la notación que adoptamos para una varianza muestral y una varianza poblacional, usamos s para denotar la desviación estándar de la muestra y σ para denotar la desviación estándar de la población [35]. Las ecuaciones 3.7 y 3.8 indican como la desviación estándar se deriva de la varianza, de la siguiente manera

𝜎𝜎𝜎𝜎 = √∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} _{𝑖𝑖𝑖𝑖}− 𝑥𝑥𝑥𝑥)²

𝑁𝑁𝑁𝑁 [3.7]

𝑆𝑆𝑆𝑆 = √∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} _{𝑖𝑖𝑖𝑖}− 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.8]

Coeficiente de Variación

Las medidas de dispersión, explica [36], como el rango, varianza y la desviación estándar son todas medidas de dispersión absoluta y, en particular, sus valores dependen de las unidades en las que se mide la variable. Por lo tanto, es difícil comparar los grados de dispersión de dos variables que se miden en diferentes unidades. La solución es usar una medida de dispersión relativa, que

ͻͶ

Medidas de Dispersión o Variación

El rango es la medida más simple de dispersión para calcular. Se obtiene tomando la diferencia entre los valores más grandes y más pequeños en un conjunto de datos. Ver ecuación 3.4.

𝜎𝜎𝜎𝜎² = ∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} 𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.5]

𝑆𝑆𝑆𝑆² = ∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} 𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.6]

𝜎𝜎𝜎𝜎 = √∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} _{𝑖𝑖𝑖𝑖}− 𝑥𝑥𝑥𝑥)²

𝑁𝑁𝑁𝑁 [3.7]

𝑆𝑆𝑆𝑆 = √∑ (𝑥𝑥𝑥𝑥^{𝑛𝑛𝑛𝑛}_{𝑖𝑖𝑖𝑖=1} _{𝑖𝑖𝑖𝑖}− 𝑥𝑥𝑥𝑥)²

𝑅𝑅𝑅𝑅 − 1 [3.8]

Coeficiente de Variación

ͻͷ

es independiente de las unidades de medida. Una de esas medidas es el coeficiente de variación, la ecuación 3.9 la define como:

𝐶𝐶𝐶𝐶𝑅𝑅𝑅𝑅𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝑥𝑥𝑥𝑥𝐶𝐶𝐶𝐶𝑥𝑥𝑥𝑥𝐶𝐶𝐶𝐶𝑅𝑅𝑅𝑅𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 𝑑𝑑𝑑𝑑𝐶𝐶𝐶𝐶 𝑣𝑣𝑣𝑣𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉𝑥𝑥𝑥𝑥𝑅𝑅𝑅𝑅𝐶𝐶𝐶𝐶𝑥𝑥𝑥𝑥ó𝑅𝑅𝑅𝑅 =𝐷𝐷𝐷𝐷𝐶𝐶𝐶𝐶𝐷𝐷𝐷𝐷𝑣𝑣𝑣𝑣𝑥𝑥𝑥𝑥𝑅𝑅𝑅𝑅𝐶𝐶𝐶𝐶𝑥𝑥𝑥𝑥ó𝑅𝑅𝑅𝑅 𝐸𝐸𝐸𝐸𝐷𝐷𝐷𝐷𝐶𝐶𝐶𝐶á𝑅𝑅𝑅𝑅𝑑𝑑𝑑𝑑𝑅𝑅𝑅𝑅𝑉𝑉𝑉𝑉

𝑀𝑀𝑀𝑀𝐶𝐶𝐶𝐶𝑑𝑑𝑑𝑑𝑥𝑥𝑥𝑥𝑅𝑅𝑅𝑅 [3.9]

Al igual que las medidas de centralidad, R dispone de funciones para realizar este tipo de cálculos estadísticos de forma simple. Empecemos con el rango, de acuerdo a la definición el rango es el resultado de la resta entre el valor máximo y valor mínimo del conjunto de datos. Las funciones max() y min() consiguen esos valores, luego haciendo la resta de ambos obtenemos el rango. Para hallar la varianza y la desviación estándar usamos las funciones var() y sd(). Para hallar el coeficiente de variación se ha escrito una pequeña función donde se halla la media (mean) y la desviación estándar (sd), luego dividimos de acuerdo a la ecuación 3.9 para obtener dicho coeficiente. El código de abajo enseña como obtener las medidas de dispersión y presenta los resultados en la tabla 3.2.

#---

# Rango max()-min()

#---

r1=round(max(deportista$pesista1)-min(deportista$pesista1), 2) r2=round(max(deportista$pesista2)-min(deportista$pesista2), 2) r3=round(max(deportista$pesista3)-min(deportista$pesista3), 2) Rangos<-cbind(Pesista1=r1,Pesista2=r2,Pesista3=r3)

rownames(Rangos)=c("Rango")

#---

# Varianza var()

#---

var1=round(var(deportista$pesista1), 2) var2=round(var(deportista$pesista2), 2) var3=round(var(deportista$pesista3), 2)

Varianzas<-cbind(Pesista1=var1,Pesista2=var2,Pesista3=var3) rownames(Varianzas)=c("Varianza")

#---

# Desviación Estándar sd()

#---

sd1=round(sd(deportista$pesista1), 2) sd2=round(sd(deportista$pesista2), 2) sd3=round(sd(deportista$pesista3), 2)

desv.Stand<-cbind(Pesista1=sd1,Pesista2=sd2,Pesista3=sd3) rownames(desv.Stand)=c("SD")

#---

# Coeficiente de variación

#--- cv<-function(ds){

media<-mean(ds) desv.stand<-sd(ds)

cv<-round(desv.stand/media,2) return(cv)

}

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻ͸

cv1=round(cv(deportista$pesista1), 2) cv2=round(cv(deportista$pesista2), 2) cv3=round(cv(deportista$pesista3), 2)

Coef.variacion<-cbind(Pesista1=cv1, Pesista2=cv2, Pesista3=cv3) rownames(Coef.variacion)=c("Coef.variacion")

#---

# Medidas de dispersión

#---

dispersion<-rbind(Rangos, Varianzas, desv.Stand, Coef.variacion)

kable(dispersion, caption="Tabla 3.2 Cálculo de las medidas de dispersión") Tabla 3.2 Cálculo de las medidas de dispersión

Se puede mejorar la presentación del resultado tanto de las medidas de centralidad como las de dispersión uniendo los dataframe centralidad y dispersión mediante la función de rbind() y consolidando todos los resultados. Ver tabla 3.3.

medidasDescriptivas<-rbind(centralidad, dispersion)

# SALIDA CON FORMATO

kable(medidasDescriptivas, caption="Tabla 3.3 Medidas de centralidad y disper sión")

Tabla 3.3 Medidas de centralidad y dispersión

Visualización de las medidas de centralidad y dispersión

Para la representación gráfica de las medidas de centralidad y dispersión las funciones hist(), lines() y density() son apropiadas. De acuerdo a lo revisado en el capítulo 2, estas funciones grafican el histograma de frecuencias y la función densidad de la distribución, respectivamente.

Como el objetivo es observar el comportamiento de las medidas de centralidad y de dispersión vamos a utilizar la función abline() con su parámetro v para trazar una línea vertical en la ubicación de cada una de estas medidas. Para nuestro caso v=centralidad[“Media (M)”, “Pesista1”].

El resultado se observa en la figura 3.0 donde se presenta por separado el histograma, la función densidad y la curva normal para las medidas de centralidad y dispersión respectivamente.

Pesista1 Pesista2 Pesista3

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

Pesista1 Pesista2 Pesista3 Media (M) 369.47 371.20 371.73 Mediana (Me) 370.00 372.00 368.00 Moda (Mo) 350.00 350.00 366.00

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻ͸

cv1=round(cv(deportista$pesista1), 2) cv2=round(cv(deportista$pesista2), 2) cv3=round(cv(deportista$pesista3), 2)

Coef.variacion<-cbind(Pesista1=cv1, Pesista2=cv2, Pesista3=cv3) rownames(Coef.variacion)=c("Coef.variacion")

#---

# Medidas de dispersión

#---

dispersion<-rbind(Rangos, Varianzas, desv.Stand, Coef.variacion)

kable(dispersion, caption="Tabla 3.2 Cálculo de las medidas de dispersión") Tabla 3.2 Cálculo de las medidas de dispersión

medidasDescriptivas<-rbind(centralidad, dispersion)

# SALIDA CON FORMATO

kable(medidasDescriptivas, caption="Tabla 3.3 Medidas de centralidad y disper sión")

Tabla 3.3 Medidas de centralidad y dispersión

Visualización de las medidas de centralidad y dispersión

El resultado se observa en la figura 3.0 donde se presenta por separado el histograma, la función densidad y la curva normal para las medidas de centralidad y dispersión respectivamente.

Pesista1 Pesista2 Pesista3

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

Pesista1 Pesista2 Pesista3 Media (M) 369.47 371.20 371.73 Mediana (Me) 370.00 372.00 368.00 Moda (Mo) 350.00 350.00 366.00

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

ͻ͸

cv1=round(cv(deportista$pesista1), 2) cv2=round(cv(deportista$pesista2), 2) cv3=round(cv(deportista$pesista3), 2)

Coef.variacion<-cbind(Pesista1=cv1, Pesista2=cv2, Pesista3=cv3) rownames(Coef.variacion)=c("Coef.variacion")

#---

# Medidas de dispersión

#---

dispersion<-rbind(Rangos, Varianzas, desv.Stand, Coef.variacion)

kable(dispersion, caption="Tabla 3.2 Cálculo de las medidas de dispersión") Tabla 3.2 Cálculo de las medidas de dispersión

medidasDescriptivas<-rbind(centralidad, dispersion)

# SALIDA CON FORMATO

kable(medidasDescriptivas, caption="Tabla 3.3 Medidas de centralidad y disper sión")

Tabla 3.3 Medidas de centralidad y dispersión

Visualización de las medidas de centralidad y dispersión

El resultado se observa en la figura 3.0 donde se presenta por separado el histograma, la función densidad y la curva normal para las medidas de centralidad y dispersión respectivamente.

Pesista1 Pesista2 Pesista3

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

Pesista1 Pesista2 Pesista3 Media (M) 369.47 371.20 371.73 Mediana (Me) 370.00 372.00 368.00 Moda (Mo) 350.00 350.00 366.00

Rango 43.00 44.00 45.00

Varianza 236.27 147.74 133.50

SD 15.37 12.15 11.55

Coef.variacion 0.04 0.03 0.03

ͻ͹

#---

# Medidas de centralidad

#--- par(mfrow=c(1,2), mar=c(3.2,3.8,1,2))

# HISTOGRAMA DE FRECUENCIAS hist(deportista$pesista1

, probability = TRUE

, main = "Medidas de Centralidad"

, cex.main=1 , xlab = ""

, ylab= "Densidad"

, cex.lab=0.8 , cex.axis=0.8

, xlim = c(330, 420) , ylim = c(0.000, 0.040) , border = "darkgrey"

, plot = TRUE)

mtext(side=1, line=2.2, "Pesista 1 (Kg)", cex=0.8)

# GRÁFICO DE LA FUNCIÓN DENSIDAD

lines(density(deportista$pesista1), col="blue", lwd=2)

# LÍNEA DE LA MEDIA

abline(v=centralidad["Media (M)", "Pesista1"], col="red", lty=1, lwd=2)

# LÍNEA DE LA MEDIANA

abline(v=centralidad["Mediana (Me)", "Pesista1"], col="blue", lty=2, lwd=2)

# LÍNEA DE LA MODA

abline(v=centralidad["Moda (Mo)", "Pesista1"], col="brown", lty=3, lwd=2)

# CURVA NORMAL

curve(dnorm(x, centralidad["Media (M)", "Pesista1"]

, dispersion["SD", "Pesista1"]) , col = "darkorchid1"

, lty = 1 , lwd = 1 , add=T)

# LEYENDA

l1<-paste("M :", as.character(centralidad["Media (M)", "Pesista1"])) l2<-paste("Me :", as.character(centralidad["Mediana (Me)", "Pesista1"])) l3<-paste("Mo :", as.character(centralidad["Moda (Mo)", "Pesista1"])) legend("topright"

, col=c("red","blue","brown") , lty=1:3

, legend =c(l1, l2, l3) , lwd=2

, bty = "n"

, cex=0.7)

#---

# Medidas de dispersión

#---

# HISTOGRAMA DE FRECUENCIAS hist(deportista$pesista1

, probability = TRUE

, main = "Medidas de Dispersión"

, cex.main=1 , xlab = ""

, ylab= "Densidad"

, cex.lab=0.8

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻͺ

, cex.axis=0.8

, xlim = c(330, 420) , ylim = c(0.000, 0.040) , border = "darkgrey"

, plot = TRUE)

mtext(side=1, line=2.2, "Pesista 1 (Kg)", cex=0.8)

# FUNCIÓN DENSIDAD

lines(density(deportista$pesista1), col="blue", lwd=2)

# MEDIA

abline(v=centralidad["Media (M)", "Pesista1"], col="red", lty=1, lwd=2)

# MEDIANA

abline(v=centralidad["Media (M)", "Pesista1"] + dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# MODA

abline(v=centralidad["Media (M)", "Pesista1"] - dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# CURVA NORMAL

curve(dnorm(x, centralidad["Media (M)", "Pesista1"]

, dispersion["SD", "Pesista1"]) , col = "darkorchid1"

, lty = 1 , lwd = 1 , add=T)

# LEYENDA

l1<-paste("M :", as.character(centralidad["Media (M)", "Pesista1"])) l2<-paste("SD :", as.character(dispersion["SD", "Pesista1"]))

l3<-paste("CV :", as.character(dispersion["Coef.variacion", "Pesista1"])) legend("topright"

, col=c("red","blue", "white") , lty=1:3

, legend =c(l1, l2, l3) , lwd=2

, bty = "n"

, cex=0.7)

Figura 3.0 Gráfico de las Medidas de Centralidad y Dispersión

Como se observa en la figura 3.0 se ha visualizado las medidas de centralidad y de dispersión en el histograma de frecuencias y densidad. Un análisis breve de esto puede ser que la distribución

“ESTADÍSTICA DESCRIPTIVA CON R”

ͻͺ

, cex.axis=0.8

, xlim = c(330, 420) , ylim = c(0.000, 0.040) , border = "darkgrey"

, plot = TRUE)

mtext(side=1, line=2.2, "Pesista 1 (Kg)", cex=0.8)

# FUNCIÓN DENSIDAD

lines(density(deportista$pesista1), col="blue", lwd=2)

# MEDIA

abline(v=centralidad["Media (M)", "Pesista1"], col="red", lty=1, lwd=2)

# MEDIANA

abline(v=centralidad["Media (M)", "Pesista1"] + dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# MODA

abline(v=centralidad["Media (M)", "Pesista1"] - dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# CURVA NORMAL

curve(dnorm(x, centralidad["Media (M)", "Pesista1"]

, dispersion["SD", "Pesista1"]) , col = "darkorchid1"

, lty = 1 , lwd = 1 , add=T)

# LEYENDA

l1<-paste("M :", as.character(centralidad["Media (M)", "Pesista1"])) l2<-paste("SD :", as.character(dispersion["SD", "Pesista1"]))

l3<-paste("CV :", as.character(dispersion["Coef.variacion", "Pesista1"])) legend("topright"

, col=c("red","blue", "white") , lty=1:3

, legend =c(l1, l2, l3) , lwd=2

, bty = "n"

, cex=0.7)

Figura 3.0 Gráfico de las Medidas de Centralidad y Dispersión

Como se observa en la figura 3.0 se ha visualizado las medidas de centralidad y de dispersión en el histograma de frecuencias y densidad. Un análisis breve de esto puede ser que la distribución

ͻͺ

, cex.axis=0.8

, xlim = c(330, 420) , ylim = c(0.000, 0.040) , border = "darkgrey"

, plot = TRUE)

mtext(side=1, line=2.2, "Pesista 1 (Kg)", cex=0.8)

# FUNCIÓN DENSIDAD

lines(density(deportista$pesista1), col="blue", lwd=2)

# MEDIA

abline(v=centralidad["Media (M)", "Pesista1"], col="red", lty=1, lwd=2)

# MEDIANA

abline(v=centralidad["Media (M)", "Pesista1"] + dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# MODA

abline(v=centralidad["Media (M)", "Pesista1"] - dispersion["SD", "Pesista1"]

, col="blue", lty=2, lwd=2)

# CURVA NORMAL

curve(dnorm(x, centralidad["Media (M)", "Pesista1"]

, dispersion["SD", "Pesista1"]) , col = "darkorchid1"

, lty = 1 , lwd = 1 , add=T)

# LEYENDA

l1<-paste("M :", as.character(centralidad["Media (M)", "Pesista1"])) l2<-paste("SD :", as.character(dispersion["SD", "Pesista1"]))

l3<-paste("CV :", as.character(dispersion["Coef.variacion", "Pesista1"])) legend("topright"

, col=c("red","blue", "white") , lty=1:3

, legend =c(l1, l2, l3) , lwd=2

, bty = "n"

, cex=0.7)

Figura 3.0 Gráfico de las Medidas de Centralidad y Dispersión

Como se observa en la figura 3.0 se ha visualizado las medidas de centralidad y de dispersión en el histograma de frecuencias y densidad. Un análisis breve de esto puede ser que la distribución

ͻͻ

de los alzamientos no corresponde a una distribución normal y su desviación estándar indica que los levantamientos son muy variables.

In document ESTADISTICA DESCRIPTIVA CON R.pdf - Repositorio UTEQ (página 100-105)