Los cuartiles, junto con el m´aximo y el m´ınimo, se representan mediante un gr´afico llamado: diagrama de caja y bigotes (box-plot). Este diagrama est´a compuesto por un rect´angulo (caja) y dos brazos (bigotes), pero en el siguiente c´odigo adiciona el promedio aritm´etico como una cruz azul y los datos originales como puntos rojos.
library(reshape) reshape.cuanti<-melt(cuantitativas) reshape.cuanti$id<-rep(seq(1,4),each=20) boxplot(cuantitativas, las=1) points(reshape.cuanti[,3],reshape.cuanti[,2], cex=0.7, pch=16, col=red") points(c(1:4),apply(cuantitativas,2, mean), pch=3,
Datos at´ıpicos o inusuales
Un valor at´ıpico o inusual (outlier, en ingl´es) corresponde a una observaci´on que presenta un valor distante con respecto al resto de los datos. Las estad´ısticas calculadas con conjuntos de datos que incluyen valores inusuales pueden resultar poco veraces.
Para determinar qu´e datos son at´ıpicos dentro de un conjunto de
observaciones se suele tomar como referencia la diferencia entre el tercer y primer cuartil (Q3− Q1), el cual se conoce como el rango intercuart´ılico
(RIQ). Un valor es considerado como at´ıpico cuando:
< Q1− 1.5 · RIQ (L´ımite inferior, Li)
´ o
Medidas de posici´on relativa
Diagrama de caja y bigotes con datos at´ıpicos
Cuando se representa un conjunto de datos con valores at´ıpicos mediante un diagrama de cajas y bigotes, estos aparecer´an como puntos por encima o por debajo del l´ımite del bigote. En estos casos el valor m´aximo y m´ınimo se re-definir´an como:
Maximo = Max(X ) ≤ Ls (M´aximo en presencia de at´ıpicos)
Minimo = Min(X ) ≥ Li (M´ınimo en presencia de at´ıpicos) ¿A qu´e se deben los datos at´ıpicos?
Errores de procedimiento Acontecimientos extraordinarios
Dat.Inu<-c(13, 16.3, 20.5, 18.7, 18, 18, 18.8, 22.3, 19.7, 18.1, 20, 24)
boxplot(Dat.Inu, pch=16, cex=0.7, ylim=c(12,25)) cuartiles<-quantile(Dat.Inu)
RIQ<-cuartiles[4] - cuartiles[2] Li<-cuartiles[2]-(1.5*RIQ)
Ls<-cuartiles[4]+(1.5*RIQ)
abline(h=Ls, lwd=2,lty=3, col=red") abline(h=Li, lwd=2,lty=3, col=red") ¿Qu´e hacer con los datos at´ıpicos?
Los datos at´ıpicos distorsionan los resultados de los an´alisis, por esta raz´on se deben identificar y tratar de manera adecuada
Correlaci´on
Covarianza
La covarianza es una medida del grado de variaci´on conjunta de dos variables aleatorias. El estimador de la covarianza COV(X ,Y ) de dos variables aleatorias x y y es:
COV(X ,Y ) = 1 (n − 1) n X i =1 (xi − x)(yi − y ) (Covarianza) Caracter´ısticas de la covarianza
El signo de la covarianza representa la tendencia general de la relaci´on lineal entre las variables.
Cuando la covarianza entre dos variables (X y Y ) es cero, es porque son independientes
C´alculo de la Covarianza en R
En R la covarianza se puede calcular usando la funci´on var() o cov() si se emplean como argumentos el vector con los datos de la variable X y el vector con la variable Y . Si se dispone de una matriz num´erica, ´esta se puede ingresar como ´unico argumento a cualquiera de las dos funciones y el resultado ser´a una matriz cuadrada que tendr´a en la diagonal los valores de la varianza y en los tri´angulos las covarianzas.
C´alculo de la covarianza en R
var(cuantitativas[,3],cuantitativas[,4]) cov(cuantitativas[,3],cuantitativas[,4]) Varianzas<-diag(cov(cuantitativas)) Covarianzas<-cov(cuantitativas)
Correlaci´on
Correlaci´onCoeficiente de correlaci´on de Pearson es una medida de la relaci´on lineal entre dos variables aleatorias cuantitativas. Se define como la covarianza de dos variables, dividido entre el producto de sus desviaciones est´andar.
ρ(X ,Y )=
COV(X ,Y ) SX ∗ SY
(Coeficiente de correlaci´on de Pearson)
Correlaci´on y estad´ıstica de prueba en R
cor(cuantitativas[,3],cuantitativas[,4]) cor.test(cuantitativas[,3],cuantitativas[,4]) plot(cuantitativas[,3],cuantitativas[,4], pch=16) text(3.8, 8, paste(”r”,round(cor(cuantitativas[,3],
Diagrama de dispersi´on (scatter-plot ´o XY-plot)
En la diapositiva anterior se emple´o la funci´on plot() para generar un diagrama de dispersi´on. El diagrama de dispersi´on utiliza coordenadas cartesianas para mostrar los valores de dos variables de un conjunto de datos.
El diagrama de dispersi´on pone en evidencia algunas caracter´ısticas que pueden tener los datos, tales como: relaciones no lineales entre las
Correlaci´on
Interpretaci´on de la correlaci´on
En la pr´actica el coeficiente de correlaci´on de Pearson (r ) es un ´ındice que mide el grado de relaci´on (asociaci´on) de dos variables. La correlaci´on toma valores entre -1 y 1; un valor de 0 indica la ausencia de relaci´on. La fuerza de la correlaci´on no depende del signo. Por lo tanto, r = 0.9 y r = −0.9 son iguales en cuanto al grado de asociaci´on de las variables. Un r positivo indica que un aumento en la variable X corresponde con un aumento en la variable Y ; existe una relaci´on directa entre ellas. Una correlaci´on negativa indica una relaci´on inversa, mientras una variable aumenta la otra disminuye.
Cuando la r tiene valores de 1 ´o -1, se le llama correlaci´on lineal perfecta. Sin embargo, en la vida real, siempre hay variaciones aleatorias en las observaciones; por lo tanto, una relaci´on lineal perfecta es
Evaluaci´on de la asociaci´on entre dos muestras pareadas
Se requiere aplicar un prueba para evaluar si el valor de la correlaci´on es significativamente diferente de cero. Ya que un valor de cero, o que no es significativamente diferente de cero, indica que no hay asociaci´on entre las variables.
Cuando se emplea el coeficiente de correlaci´on de Pearson, la estad´ıstica de prueba se basa en el supuesto de que la muestra ha sido extra´ıda de manera aleatoria, que las dos variables se distribuyen de manera normal; si es as´ı, el estad´ıstico T se distribuye de acuerdo a un modelo de
probabilidad t − student con n − 2 grados de libertad.
Si el el valor de p (p − value) es menor que 0.05 se acepta que el valor de la correlaci´on es significativamente diferente de cero.
Correlaci´on
Errores en la interpretaci´on de la correlaci´on
La correlaci´on tiene limitaciones y puede en algunos casos malinterpretarse; como por ejemplo cuando se presentan asociaciones accidentales, lo que ha llevado a afirmaciones como: es un error creer en una hip´otesis de investigaci´on solo porque el valor de p indica la existencia de significancia estad´ıstica. Existen circunstancias como la contaminaci´on de los datos, errores en los instrumentos de medici´on, sesgos en la elecci´on de los individuos o elementos de la muestra o un dise˜no experimental pobre que pueden afectar la confiabilidad de estad´ısticos como la correlaci´on. Uno de los usos err´oneos m´as frecuentes y serios con respecto al an´alisis de la correlaci´on es interpretar una alta correlaci´on entre variables como una relaci´on de causa y efecto. El an´alisis de correlaci´on mide una relaci´on o asociaci´on, no determina la explicaci´on o los fundamentos de esa
El coeficiente de correlaci´on de Pearson aplica cuando las variables son cuantitativas y siguen una distribuci´on gaussiana; si esto no se cumple existen otros m´etodos no-param´etricos para determinar la correlaci´on: correlaci´on de ρ (rho) de Spearman y la correlaci´on τ (tau) de Kendall. Correlaci´on rho de Spearman
Es un coeficiente que permite medir la correlaci´on (asociaci´on) de dos variables cuando las mediciones se realizan en una escala ordinal. La correlaci´on de Spearman tambi´en se usa cuando aun siendo variables cuantitativas continuas, no tienen una distribuci´on semejante a la curva normal, o cuando ambas variables son discretas. En estos casos los datos deben ser ordenados y reemplazados por su respectivo orden. Se calcula as´ı:
ρ = 1 − 6P d
2 i
n(n2− 1). (Coeficiente de correlaci´on de Spearman)