Modelos probabiĺısticos y análisis estadístco

(1)

Estad´ıstica Descriptiva

Carlos Ricardo Bojac´a

[email protected] Departamento de Ciencias B´asicas Facultad de Ciencias Naturales e Ingenier´ıa Universidad de Bogot´a Jorge Tadeo Lozano

(2)

Tabla de contenidos

1 Introducci´on

2 Definiciones

3 Notaci´on

4 Resumen de datos

5 Medidas de tendencia central

6 Medidas de dispersi´on

7 Medidas de posici´on relativa

8 Correlaci´on

9 Regresi´on

(3)

La construcci´on de modelos con base en datos experimentales requiere un conocimiento b´asico de su estructura, de manera que se pongan en evidencia caracter´ısticas sobresalientes o inesperadas.

Adem´as permite resumir los datos y tener una primera impresi´on acerca de su comportamiento general.

El análisis exploratorio, mediante técnicas descriptivas, debe ser la primera etapa en la construcción de un modelo basado en datos experimentales.

(4)

Definiciones

Variables

Caracter´ısticas o atributos particulares, y susceptibles de ser medidos, de los individuos que componen una poblaci´on o muestra.

Variable cualitativa ordinal

Hace referencia a una caracter´ıstica que forma categor´ıas y existe una relación de orden entre ellas. Ejemplo: nivel de satisfacción, posición en una carrera de atletismo. No tiene sentido realizar operaciones aritméticas porque no puede medirse la distancia entre una categor´ıa y otra.

Variable cualitativa nominal

Hace referencia a una caracter´ıstica que forma categor´ıas pero no existe una relaci´on de orden entre ellas. Ejemplos: G´enero, color de ojos, lugar de nacimiento, etc. Las categor´ıas son mutuamente excluyentes y

(5)

Variable cuantitativa discreta

Es aquella que toma un n´umero finito o contable de valores. Presenta separaciones en la escala de valores que puede tomar, las cuales indican ausencia de valores distintos a los espec´ıficos que puede tomar la variable. N´umero de hijos: 0, 1, 2, ...

Variable cuantitativa continua

Es aquella que puede tomar infinitos valores en cualquier intervalo razonable de la variable. En este tipo de variables el valor que toma está limitado por la precisión del dispositivo de medición, y en teor´ıa siempre existe un valor intermedio entre dos mediciones consecutivas.

(6)

Definiciones

Poblaci´on

Es el conjunto de elementos de referencia sobre el que se realizan las observaciones. La poblaci´on es el conjunto sobre el que se est´a interesado en extraer conclusiones (hacer inferencias). Normalmente es demasiado grande para poder medir las caracter´ısticas sobre cada uno de los elementos.

Muestra

Subconjunto representativo de la población. Una muestra debe ser definida con base a una población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población de referencia.

(7)

Variable

X: N´umero de empleados de una empresa Y: Signo del zodiaco

Z: Velocidad máxima alcanzada por diferentes diseños de autos Población y muestra

N: Número de elementos que contiene la población n: Número de elementos que contiene la muestra Conjunto de observaciones

X = {x1, x2, x3, ..., xn}: Muestra

Y = {y1, y2, y3, ..., yN}: Censo

Estad´ıstica de orden

(8)

Resumen de datos

Frecuencia absoluta

La frecuencia absoluta (ni) de un evento i es el n´umero de veces que

ocurre (i = 1, 2, . . . , m); donde m es el n´umero de clases (m <= n). La frecuencia absoluta es representada usando un diagrama de barras (en el caso de variables cualitativas) o un histrograma (variables cuantitativas). Diagrama de barras

La variable se representan en el eje X y se levanta una barra de altura igual a la frecuencia de cada evento. Se usa para variables cualitativas y cuantitativas discretas

Histograma

El eje X representamos las clases, teniendo en cuenta la amplitud de los intervalos, y en el otro eje Y levantamos una barra de altura igual a la

(9)

Usando los datos de la clase anterior (DatosEjercicios) se determinará cuál es frecuencia de la variable ”Vegetation” y los resultados se representarán usando un diagrama de barras.

Frecuencia absoluta y diagrama de barras Funci´on summary:

summary(datos[,4]) Funci´on table: table(datos[,4]) Funci´on barplot:

barplot(table(datos[,4]), las=1, xlab="Tipo de vegetacion", ylab="Frecuencia absoluta")

Obtener ayuda de una funci´on

Para obtener ayuda de una funci´on anteponga al nombre la funci´on el s´ımbolo ?, as´ı: ?barplot

(10)

Presentaci´

on de figuras

(11)

Usando los mismos datos, pero esta vez seleccionando la variable SoilpH se construir´a un histograma sugiriendo la creaci´on de 6 intervalos. Frecuencia absoluta e histograma

Funci´on hist con el argumento plot=FALSE:

conteo<-hist(datos[,5], breaks=6, plot=FALSE) ¿Qu´e informaci´on contiene el objeto conteo?

Funci´on hist con el argumento plot=TRUE: hist(datos[,5], breaks=6, plot=TRUE)

(12)

Frecuencia absoluta e histograma

Argumento breaks de la funci´on hist Se puede usar una de las siguientes opciones:

Un vector en el que se indique los l´ımites de las clases. Una funci´on para calcular los l´ımites de las clases. Una sugerencia del n´umero de clases a crear.

Una cadena de caracteres con el nombre del algoritmo que se usar´a. Mejorando la gr´afica

Argumentos para asignar color, adicionar t´ıtulo y nombre de los ejes: Argumento col asigna un color, nombre en singular, min´usculas e ingl´es, entre comillas.

Argumento main, xlab, ylab cadenas de caracteres entre comillas hist(datos[,5], breaks=6, plot=TRUE, col="grey50", main=,

(13)

Figura:Histograma mostrando la distribuci´on de la acidez (pH) del suelo en 20 localidades de . . .

(14)

Resumen de datos

Frecuencia relativa

La frecuencia relativa de un evento i , tambi´en llamada probabilidad emp´ırica, corresponde a la frecuencia absoluta normalizada por el n´umero total de eventos, as´ı:.

fi =

ni

n (Frecuencia relativa)

donde fi ser´a la frecuencia relativa de un evento en particular, ni es la

frecuencia absoluta de ese evento particular y n es el n´umero total de eventos (sumatoria de las frecuencias absolutas).

Gr´afica de frecuencias relativas

absoluta<-hist(datos[,5], breaks=6, plot=FALSE) relativa<-absoluta[[2]]/sum(absoluta[[2]])

(15)

Tabulaci´on cruzada

La tabulaci´on cruzada, o tablas de referencias cruzadas, sirven para

resumir datos categóricos creando una tabla de contingencia. Proporcionan una imagen básica de la interrelación entre dos variables y ayudan a encontrar relaciones entre ellas.

Determine la relaci´on entre el tipo de vegetaci´on (Vegetation) y la humedad del suelo (Damp)

tablacontingencia <- table(datos[,6], datos[,4]) barplot(tablacontingencia, beside = TRUE,

col=c("grey80","grey20"))

legenda<-paste("Damp?",as.factor(unique(datos[,6])), sep=":")

legend("topright", legenda, bty="n", cex=0.8, pch=c(15,15), col=c("grey80","grey20"))

(16)

Medidas de tendencia central

Media aritm´etica o promedio aritm´etico

La media aritm´etica de un conjunto de observaciones es igual a la suma de los valores de las observaciones dividido en el n´umero de observaciones:

x = 1 n

n

X

i =1

xi (Media aritm´etica de una muestra)

µ = 1 N

N

X

i =1

xi (Media aritm´etica de una poblaci´on)

La media de una poblaci´on es una cantidad fija, mientras que la media de una muestra no lo es, es decir, las medias obtenidas a partir de diferentes muestras tomadas de una poblaci´on, generalmente, son diferentes.

(17)

Caracter´ısticas

La media aritm´etica se expresa en las mismas unidades de medida de los datos originales

La sumatoria de las diferencias entre la media aritm´etica y cada uno de los datos es cero.

La precisi´on de la media depender´a de la representatividad de la muestra

La media de una muestra tiende, en general, a tener valores diferentes cuando se calcula con diferentes muestras de un mismo tama˜no y de la misma poblaci´on.

La media aritm´etica se ve afectada por valores extremos dentro del conjunto de datos

(18)

Caracter´ısticas de la media aritm´

etica

Ejemplo para verificar las caracter´ısticas

Se creará un población ficticia de 1000000 de individuos, hombres varones que habitan un determinado departamento del pa´ıs. La variable que se midió a la población fue la estatura en cent´ımetros y se determinó que la media poblacional tiene un valor de 180, y que los valores se distribuye de forma acampanada (distribución normal).

La primera caracter´ıstica que se verificará será: La precisión de la media dependerá de la representatividad de la muestra. Tomaremos tres muestras de los siguientes tamaños: n1= 10000, n2= 100 y n3 = 10,

calcularemos la media para cada una de esas muestras y la compararemos con respecto a la media de la poblaci´on que es conocida.

(19)

Ejemplo para verificar las caracter´ısticas de la media en R N<-1000000; population <- rnorm(N, 180) plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col=”black”,lty=2) n1<-10000; n2<-100; n3<-10

X1 <- sample(population, n1) X2 <- sample(population, n2) X3 <- sample(population, n3)

abline(v = mean(X1), lty = 1, col="green") abline(v = mean(X2), lty = 1, col="blue") abline(v = mean(X3), lty = 1, col=red")

legend("topright", c("Media Poblacional","Media n=10000","Media n=100","Media n=10"), cex=0.6, lty = c(2,rep(1,3)),col=c("black","green","blue",”red"))

(20)

Caracter´ısticas de la media aritm´

etica

Ejemplo para verificar las caracter´ısticas

Ahora, se verificará la caracter´ıstica con relación a: La media de una muestra tiende, en general, a tener valores diferentes cuando se calcula con diferentes muestras de un mismo tamaño y de la mismas población. Tomaremos los mismos tamaños de muestras (n1 = 10000, n2 = 100 y n3= 10), pero esta vez se seleccionarán 500

muestras para cada tamaño, se calculará la media para cada muestra y se comparará con respecto a la media de la población.

Adicionalmente, se calcular´a el error de la media como el valor absoluto de la diferencia entre la media poblacional y la media de cada muestra, y para los diferentes tama˜nos.

(21)

Ejemplo para verificar las caracter´ısticas de la media en R plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col=’black’,lty=2) n1<-10000; n2<-100; n3<-10; sim<-500

for (j in 1:sim){

abline(v = mean(X1), lty = 1, col="grey40") abline(v = mean(X2), lty = 1, col="grey60") abline(v = mean(X3), lty = 1, col="grey80") } legend("topright", c("Media Poblacional","Medias

n=10000","Medias n=100","Medias n=10"), cex=0.6, lty = c(2,rep(1,3)),col=c("black","grey40","grey60","grey80"))

(22)

Medidas de tendencia central

Funci´on apply

Devuelve un vector, matriz o lista de valores obtenidos al aplicar una función a los márgenes de una matriz o una hojas de datos.La función apply cuenta con tres argumentos:

X: Matrix o hojas de datos

MARGIN: Un vector, si es 1 la funci´on se aplica sobre las filas, si es 2 se aplica sobre las columnas y si es c(1, 2) sobre ambas.

FUN: La funci´on que se desea aplicar Ejemplo para verificar las caracter´ısticas

Finalmente, se verificará la caracter´ıstica con relación a: La media aritmética se ve afectada por valores extremos dentro del conjunto de datos. Se insertarán a la población 100000 datos de estaturas con valores que corresponderán a una secuencia desde 180 hasta 220 cm, se

(23)

Ejemplo para verificar las caracter´ısticas de la media en R N<-1000000; inusuales<-100000

population <- c(rnorm(N, 180), seq(180,220,length.out= inusuales))

plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col="black",lty=2) n1<-10000; n2<-100; n3<-10

abline(v = mean(X1), lty = 1, col="green") abline(v = mean(X2), lty = 1, col="blue") abline(v = mean(X3), lty = 1, col=”red")

(24)

Medidas de tendencia central

Media ponderada

Se emplea cuando los valores de los cuales se quiere conocer el promedio tienen importancias relativas que son diferentes; a esta importancia relativa se le suele conocer como peso o ponderaci´on.

xw = n P i =1 wi ∗ xi n P i =1 wi (Media ponderada)

donde, xw es la media ponderada, xi es cada uno de los elementos y wi su

(25)

Ejemplo

Suponga que las nota final de un curso se calcula a partir de un conjunto de actividades que tienen pesos diferentes. La nota final se calcular´a con base en los resultados de tres ex´amenes, un quiz y un trabajo escrito.Los pesos de cada actividad son: primer examen: 20 %, segundo examen: 20 %, examen final: 40 %, quiz: 10 % y un trabajo escrito: 10 %. Las notas obtenidas un estudiante son: primer examen: 3.0 , segundo examen: 3.5, examen final: 2.8, quiz: 4.5 y el trabajo escrito: 4.0

¿Cu´al es la nota final del estudiante? Ejemplo en R

wt <- c(20,20,40,10,10)

x <- c(3.0, 3.5, 2.8, 4.5, 4.0) xm <- weighted.mean(x, wt)

(26)

Medidas de tendencia central

Mediana

La mediana es el valor de la variable que se encuentra en la posición central en un conjunto de datos ordenados. Por esta razón el 50 % de los datos tendrá un valor menor que la mediana y el restante 50 % un valor mayor. Cuando se dispone de un conjunto de datos de una muestra ordenada en orden creciente X = {x(1), x(2), x(3), . . . , x(n)}, la mediana Me se calcula de

dos maneras dependiendo de si el n´umero de observaciones es par o impar.

Me = x₍n+1

2 ) (Mediana cuando n es impar)

Me=

x(n 2)+ x(

n 2+1)

2 (Mediana cuando n es par)

(27)

Ejemplo para verificar la caracter´ıstica

Usando la misma población ficticia que incluyó los datos inusualmente altos se calculará la media y la mediana de la población anteriormente definida, verifique que la mediana se ve menos influenciada por datos inusuales.

Ejemplo para verificar las caracter´ısticas de la mediana en R N<-1000000; inusuales<-100000

population <- c(rnorm(N, 180), seq(180,220,length.out= inusuales))

plot(density(population, na.rm = T))

abline(v = median(X1), lty = 1, col="blue") abline(v = mean(X1), lty = 1, col="green")

(28)

Ejemplo de la mediana en R

Ejemplo del c´alculo de la mediana

Usando los datos de clase anterior (DatosEjercicios) calcule la mediana de las variables cuantitativas.

C´alculo de la mediana en R

cuantitativas<-datos[,c(2,3,5,7)]

(29)

Ejemplo del c´alculo de la mediana

Ahora usando los mismos datos (DatosEjercicios) calcule la mediana para la variable cuantitativa WormDensity pero separando por la variable cualitativa Damp.

En R

medianas.2<-tapply(datos[,7],datos[,6],median) Funci´on tapply

Aplica una función a subconjutos de diferentes longitudes; los subconjuntos son determinados por los niveles de ciertos factores (t´ıpicamente variables categóricas). La función tapply cuenta con tres argumentos:

X: Matrix o hojas de datos

INDEX: Vector, de la misma longitud que X, de uno o m´as factores. FUN: La funci´on que se desea aplicar

(30)

Medidas de tendencia central

Moda

La moda es el valor que m´as se repite dentro de un conjunto de datos, puede no existir cuando todos los valores son diferentes o tienen la misma frecuencia.

Ejercicios en R

Calcule la moda para la variable WormDensity moda.WormDensity<- table(datos[,7]) moda.WormDensity[moda.WormDensity == max(moda.WormDensity)]

names(moda.WormDensity)[moda.WormDensity == max(moda.WormDensity)]

(31)

Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de una muestra; lo más común es que lo realicen con respecto a la media u otra medida de tendecia central.

Rango

El rango R es la diferencia entre el m´aximo x(n) y el m´ınimo valor x(1)de

un conjunto de datos ordenados. Ejercicio en R

Calcule los rangos de las variables cuantitativas de hoja de datos DatosEjercicios.

rangos<-apply(cuantitativas,2,range)

El rango se interpreta de manera simple, as´ı: la diferencia entre el valor m´ınimo y el m´aximo es de . . .

(32)

Medidas de dispersi´

on

Varianza

La varianza es quizá la medida de variabilidad más importante en el análisis estad´ıstico. Entre más grande es la variabilidad de los datos, mas grande será la incertidumbre de los valores de los parámetros estimados a partir de ellos, y menor será la capacidad de distinguir diferencias entre conjuntos de datos contrastantes.

La varianza de una muestra es determinada como una función de: la suma de los cuadrados de las diferencias entre los datos y la media aritmética. Esta operación se conoce como suma de cuadrados.

SS =

n

X

i =1

(xi− x)2 (Suma de cuadrados)

Naturalmente, esta cantidad se incrementar´a cada vez que se introduzcan nuevos datos. Una manera obvia de resolver este problema es dividir entre

(33)

. . . para poder calcular la suma de cuadrados se necesita conocer la media aritmética. Acá se introduce el concepto de grados de libertad, el esta definido con la siguiente expresión :

d .f . = n − k (Grados de libertad) donde, n es el tamaño de la muestra y k es el número de parámetros estimados a partir de los datos. Para la varianza se usa un parámetro estimado a partir de los datos, la media x ; as´ı que los grados de libertad para el cálculo de la varianza serán n − 1. La varianza se calculará as´ı:

s2= n P i =1 (xi− x)2 n − 1 (Varianza)

(34)

Medidas de dispersi´

on

C´alculo de la varianza

C´alculo de la varianza para las variables cuantitativas del archivo DatosEjercicios.

En R

varianzas<-apply(cuantitativas,2,var) Caracter´ısticas de la varianza

La varianza toma valores positivos o cero. ¿En qu´e casos ser´a cero? La varianza, es sensible a la presencia de datos con los valores extremos.

Si no es posible determinar la media aritm´etica tampoco ser´a posible hallar la varianza

(35)

Desviaci´on est´andar

La desviación estándar s es una medida de dispersión calculada a partir de la varianza que se caracteriza por tener las mismas unidades de la variable original. s = 2 v u u u t n P i =1 (xi − x)2

n − 1 (Desviación estándar) Caracter´ısticas de la desviación estándar

La desviaci´on est´andar, al igual que la media y la varianza, es sensible a la presencia de datos con valores inusuales.

Cuanto más pequeña sea la desviación estándar mayor será concentración de datos alrededor de la media.

(36)

Medidas de dispersi´

on

Cálculo y visualización de la desviación estándar en R desv.est<-apply(cuantitativas,2,sd)

medias<-apply(cuantitativas,2,mean) x<-seq(along.with=medias)

plot(x,medias, xaxt="n", ylab="Valores", xlab=””,ylim=c(-2,8), las=2, pch=15)

axis(1,at=x, labels=names(medias))

arrows(x, medias-desv.est,x, medias+desv.est, code=3, angle=90,length=0.2)

(37)

Coeficiente de variaci´on

El coeficiente de variaci´on se emplea para comparar la variabilidad relativa entre grupos que tienen distintas (o las mismas) unidades, datos que tienen medias diferentes o que pertenecen a categor´ıas diferentes.

c.v . = s

x ∗ 100 (Coeficiente de variaci´on) Coeficiente de variaci´on en R

La desviaci´on est´andar, al igual que la media y la varianza, es sensible a la presencia de datos con valores inusuales.

Cuanto más pequeña sea la desviación estándar mayor será concentración de datos alrededor de la media.

(38)

Presentaci´

on de informaci´

on en tablas

Cuadro:Resumen de algunos estad´ısticos descriptivos (x media, me media, s desviación estándar, C .V . Coeficiente de variación) de las variables: área (Ha), Pendiente ( %), pH del Suelo (adimensional), Densidad de lombrices

(individuos/m2₎ Variable x me s C .V . Area 2.99 3 1.07 35.66 Pendiente 3.5 3.65 182.5 4.0 pH del Suelo 4.56 4.6 0.58 12.6 Densidad de lombrices 4.35 4 2.62 65.50

(39)

Medidas de posici´on relativa

Las medidas de posición relativa tienen como propósito describir el comportamiento de una variable cuantitativa dividiendo la serie de valores en un número determinado de partes que sean porcentualmente iguales, los más comunes son: los cuartiles (cuatro partes), los deciles (diez partes) y los centiles o percentiles (cien partes).

Cuartiles

Dividen al conjunto de datos (ordenado) en cuatro partes porcentualmente iguales (25 %). Hay tres cuartiles: Q1, Q2 y Q3.

Deciles

Dividen al conjunto de datos (ordenado) en diez partes porcentualmente iguales (10 %). Los deciles se denotan: D1, D2, . . . , D9. El decil 5

(40)

Medidas de posici´

on relativa

Percentiles o centines

Dividen al conjunto de datos (ordenado) en 100 partes porcentualmente iguales (1 %). Los deciles se denotan: P1, P2, . . . , P99. El percentil 50

coincide con el decil 5 que a su vez corresponde al cuartil 2 que es igual a la mediana de los datos.

C´alculo de cuantiles, deciles y centiles en R cuartiles<-quantile(cuantitativas[,1]) deciles<-quantile(cuantitativas[,1], probs=seq(0,1,by=0.1))

centiles<-quantile(cuantitativas[,1], probs=seq(0,1,by=0.01))

(41)

Prueba n´umerica para los cuantiles

Escriba y ejecute las siguientes l´ıneas de c´odigo para verificar que se cumple el enunciado: ”describir el comportamiento de una variable cuantitativa dividiendo la serie de valores en un n´umero determinado de partes que sean porcentualmente iguales”

DT<-rnorm(1000) Qs<-quantile(DT) length(which(DT>=Qs[1] & DT<Qs[2])) length(which(DT>=Qs[2] & DT<Qs[3])) length(which(DT>=Qs[3] & DT<Qs[4])) length(which(DT>=Qs[4] & DT<=Qs[5])) diff(cuartiles)

(42)

Medidas de posici´

on relativa

Representaci´on gr´afica de los cuartiles

Los cuartiles, junto con el máximo y el m´ınimo, se representan mediante un gráfico llamado: diagrama de caja y bigotes (box-plot). Este diagrama está compuesto por un rectángulo (caja) y dos brazos (bigotes), pero en el siguiente código adiciona el promedio aritmético como una cruz azul y los datos originales como puntos rojos.

library(reshape) reshape.cuanti<-melt(cuantitativas) reshape.cuanti$id<-rep(seq(1,4),each=20) boxplot(cuantitativas, las=1) points(reshape.cuanti[,3],reshape.cuanti[,2], cex=0.7, pch=16, col=red") points(c(1:4),apply(cuantitativas,2, mean), pch=3,

(43)

Datos at´ıpicos o inusuales

Un valor at´ıpico o inusual (outlier, en ingl´es) corresponde a una observaci´on que presenta un valor distante con respecto al resto de los datos. Las estad´ısticas calculadas con conjuntos de datos que incluyen valores inusuales pueden resultar poco veraces.

Para determinar qu´e datos son at´ıpicos dentro de un conjunto de

observaciones se suele tomar como referencia la diferencia entre el tercer y primer cuartil (Q3− Q1), el cual se conoce como el rango intercuart´ılico

(RIQ). Un valor es considerado como at´ıpico cuando:

< Q1− 1.5 · RIQ (L´ımite inferior, Li)

´ o

(44)

Medidas de posici´

on relativa

Diagrama de caja y bigotes con datos at´ıpicos

Cuando se representa un conjunto de datos con valores at´ıpicos mediante un diagrama de cajas y bigotes, estos aparecerán como puntos por encima o por debajo del l´ımite del bigote. En estos casos el valor máximo y m´ınimo se re-definirán como:

Maximo = Max(X ) ≤ Ls (M´aximo en presencia de at´ıpicos)

Minimo = Min(X ) ≥ Li (M´ınimo en presencia de at´ıpicos) ¿A qu´e se deben los datos at´ıpicos?

Errores de procedimiento Acontecimientos extraordinarios

(45)

Dat.Inu<-c(13, 16.3, 20.5, 18.7, 18, 18, 18.8, 22.3, 19.7, 18.1, 20, 24)

boxplot(Dat.Inu, pch=16, cex=0.7, ylim=c(12,25)) cuartiles<-quantile(Dat.Inu)

RIQ<-cuartiles[4] - cuartiles[2] Li<-cuartiles[2]-(1.5*RIQ)

Ls<-cuartiles[4]+(1.5*RIQ)

abline(h=Ls, lwd=2,lty=3, col=red") abline(h=Li, lwd=2,lty=3, col=red") ¿Qu´e hacer con los datos at´ıpicos?

Los datos at´ıpicos distorsionan los resultados de los an´alisis, por esta raz´on se deben identificar y tratar de manera adecuada

(46)

Correlaci´

on

Covarianza

La covarianza es una medida del grado de variaci´on conjunta de dos variables aleatorias. El estimador de la covarianza COV_{(X ,Y )} de dos variables aleatorias x y y es:

COV_{(X ,Y )} = 1 (n − 1) n X i =1 (xi − x)(yi − y ) (Covarianza) Caracter´ısticas de la covarianza

El signo de la covarianza representa la tendencia general de la relaci´on lineal entre las variables.

Cuando la covarianza entre dos variables (X y Y ) es cero, es porque son independientes

(47)

C´alculo de la Covarianza en R

En R la covarianza se puede calcular usando la función var() o cov() si se emplean como argumentos el vector con los datos de la variable X y el vector con la variable Y . Si se dispone de una matriz numérica, ésta se puede ingresar como único argumento a cualquiera de las dos funciones y el resultado será una matriz cuadrada que tendrá en la diagonal los valores de la varianza y en los triángulos las covarianzas.

C´alculo de la covarianza en R

var(cuantitativas[,3],cuantitativas[,4]) cov(cuantitativas[,3],cuantitativas[,4]) Varianzas<-diag(cov(cuantitativas)) Covarianzas<-cov(cuantitativas)

(48)

Correlaci´

on

Correlaci´on

Coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. Se define como la covarianza de dos variables, dividido entre el producto de sus desviaciones estándar.

ρ(X ,Y )=

COV_{(X ,Y )} SX ∗ SY

(Coeficiente de correlaci´on de Pearson)

Correlaci´on y estad´ıstica de prueba en R

cor(cuantitativas[,3],cuantitativas[,4]) cor.test(cuantitativas[,3],cuantitativas[,4]) plot(cuantitativas[,3],cuantitativas[,4], pch=16) text(3.8, 8, paste(”r”,round(cor(cuantitativas[,3],

(49)

Diagrama de dispersi´on (scatter-plot ´o XY-plot)

En la diapositiva anterior se empleó la función plot() para generar un diagrama de dispersión. El diagrama de dispersión utiliza coordenadas cartesianas para mostrar los valores de dos variables de un conjunto de datos.

El diagrama de dispersi´on pone en evidencia algunas caracter´ısticas que pueden tener los datos, tales como: relaciones no lineales entre las

(50)

Correlaci´

on

Interpretaci´on de la correlaci´on

En la práctica el coeficiente de correlación de Pearson (r ) es un ´ındice que mide el grado de relación (asociación) de dos variables. La correlación toma valores entre -1 y 1; un valor de 0 indica la ausencia de relación. La fuerza de la correlación no depende del signo. Por lo tanto, r = 0.9 y r = −0.9 son iguales en cuanto al grado de asociación de las variables. Un r positivo indica que un aumento en la variable X corresponde con un aumento en la variable Y ; existe una relación directa entre ellas. Una correlación negativa indica una relación inversa, mientras una variable aumenta la otra disminuye.

Cuando la r tiene valores de 1 ó -1, se le llama correlación lineal perfecta. Sin embargo, en la vida real, siempre hay variaciones aleatorias en las observaciones; por lo tanto, una relación lineal perfecta es

(51)

Evaluaci´on de la asociaci´on entre dos muestras pareadas

Se requiere aplicar un prueba para evaluar si el valor de la correlaci´on es significativamente diferente de cero. Ya que un valor de cero, o que no es significativamente diferente de cero, indica que no hay asociaci´on entre las variables.

Cuando se emplea el coeficiente de correlaci´on de Pearson, la estad´ıstica de prueba se basa en el supuesto de que la muestra ha sido extra´ıda de manera aleatoria, que las dos variables se distribuyen de manera normal; si es as´ı, el estad´ıstico T se distribuye de acuerdo a un modelo de

probabilidad t − student con n − 2 grados de libertad.

Si el el valor de p (p − value) es menor que 0.05 se acepta que el valor de la correlaci´on es significativamente diferente de cero.

(52)

Correlaci´

on

Errores en la interpretaci´on de la correlaci´on

La correlación tiene limitaciones y puede en algunos casos malinterpretarse; como por ejemplo cuando se presentan asociaciones accidentales, lo que ha llevado a afirmaciones como: es un error creer en una hipótesis de investigación solo porque el valor de p indica la existencia de significancia estad´ıstica. Existen circunstancias como la contaminación de los datos, errores en los instrumentos de medición, sesgos en la elección de los individuos o elementos de la muestra o un diseño experimental pobre que pueden afectar la confiabilidad de estad´ısticos como la correlación. Uno de los usos erróneos más frecuentes y serios con respecto al análisis de la correlación es interpretar una alta correlación entre variables como una relación de causa y efecto. El análisis de correlación mide una relación o asociación, no determina la explicación o los fundamentos de esa

(53)

El coeficiente de correlación de Pearson aplica cuando las variables son cuantitativas y siguen una distribución gaussiana; si esto no se cumple existen otros métodos no-paramétricos para determinar la correlación: correlación de ρ (rho) de Spearman y la correlación τ (tau) de Kendall. Correlación rho de Spearman

Es un coeficiente que permite medir la correlación (asociación) de dos variables cuando las mediciones se realizan en una escala ordinal. La correlación de Spearman también se usa cuando aun siendo variables cuantitativas continuas, no tienen una distribución semejante a la curva normal, o cuando ambas variables son discretas. En estos casos los datos deben ser ordenados y reemplazados por su respectivo orden. Se calcula as´ı:

ρ = 1 − 6P d

2 i

n(n2_{− 1)}. (Coeficiente de correlaci´on de Spearman)

(54)

M´

etodos no-param´

etricos para el estudio de la correlaci´

on

Ejemplo para la correlaci´on rho de Spearman

Los machos del ave fragata magn´ıfica (Fregata magnificens) tienen una gran bolsa roja en la garganta. Ellos exhiben esta bolsa y la usan para hacer un sonido similar al producido por un tambor cuando están en búsqueda de pareja. Madsen et al. (2004) se plantearon como objetivo determinar si las hembras, que presuntamente eligen a sus compañeros en función del tamaño de la bolsa, usan el tono del sonido como un indicador del tamaño de la bolsa. Los autores estimaron el volumen de la bolsa y la frecuencia del sonido de tambores en 18 machos (Fragata.csv).

Fragata<-read.csv(/Users/.../Fragata.csv"); par(mfrow=c(1, 2))

hist(Fragata[,1], breaks=6 ,main="Volumen") hist(Fragata[,2], breaks=6 ,main="Frecuencia")

(55)

Prueba τ de Kendall

Es usada para medir la asociación entre dos cantidades medidas en condiciones no-paramétricas. La τ de Kendall, que se basa en contar el número de pares concordantes y discordantes. Sea

(x1, y1), (x2, y2), . . . , (xn, yn) un conjunto de observaciones de las variables

aleatorias X y Y , respectivamente; de tal manera que todos los valores de (xi) y (yi) son ´unicos. Cualquier par de observaciones (xi, yi) y (xj, yj) se

consideran concordantes o discordantes de acuerdo a:

Concordantes = ( xi > xj y yi > yj, xi < xj y yi < yj, (1) Discordantes = ( xi > xj y yi < yj, xi < xj y yi > yj, (2) Si xi = xj o yi = yj, la pareja no es ni concordante ni discordante.

(56)

M´

etodos no-param´

etricos para el estudio de la correlaci´

on

Prueba τ de Kendall

El valor del coeficiente de correlaci´on τ de Kendall se determina as´ı: τ = N₁C − ND

2n(n − 1)

. (Coeficiente de correlación tau de Kendall) donde NC, es el número de parejas concordantes y ND es el número de

parejas discordantes. En una relación monótona perfecta, todas las parejas son concordantes o todas son discordantes. Aunque esta es una situación extraña cuando se trabajan con variables que son aleatorias. Debido a que hay que determinar la concordancia o discordancia de las todas las parejas, ´

(57)

El análisis de regresión lineal sirve para explorar y cuantificar la relación entre dos variables. Para el análisis de regresión las variables se clasifican en dos categor´ıas: independientes (eje X) y dependientes (eje Y).

Una variable independiente es aquella, en el contexto del problema, cuyo valor no depende de otra variable, y por lo tanto se supone que son la causa (o al menos una causa) del fen´omeno estudiado.

Variable independiente = (

Variable de entrada

Variable predictoria (3) La variable dependiente es aquella cuyos valores se tratan de cambiar por la manipulaci´on de la variable independiente.

Variable dependiente = (

Variable de salida

(58)

Regresi´

on lineal simple

Primer paso

Como primer paso para llevar a cabo un an´alisis de regresi´on se

recomienda realizar un diagrama de dispersi´on con el fin de visualizar la relaci´on que existe entre las dos variables.

Con los datos de la primera clase (DatosEjercicios.csv) genere un diagrama de dispersión en el que la variable independiente corresponda al pH del suelo (SoilpH) y la variable dependiente sea la densidad de gusanos en el suelo (WormDensity). En este caso el análisis de regresión quedar´ıa planteado en los siguientes términos: La densidad de gusanos presentes en un suelo depende del valor del pH de ese suelo.

¿Qué tipo de relación existe entre estas dos variables?. Contestar esta pregunta permitirá determinar, al menos preliminarmente, si existe una relación de dependencia razonable.

(59)

Segundo paso

Modelo estad´ıstico para un an´alisis de regresi´on lineal simple:

yi = β0+ β1xi+ εi. (Regresi´on lineal simple)

donde yi y xi representan cada uno de los valores de la variable dependiente

e independiente, respectivamente. β0 es el intercepto (valor que toma y

cuando x es cero) y β1 es la pendiente de la relaci´on lineal planteada. La

pendiente es una tasa de cambio de y con respecto a x . Indica cu´anto cambia el valor de y por cada unidad de cambio que se produce en x . ¿Qu´e caracter´ıstica debe tener la recta que mejor represente a los puntos?. La que minimice la distancia entre el valor real yi y el valor obtenido

(60)

Regresi´

on lineal simple

Tercer paso

Ajuste del modelo, encontrar la recta que logre minimizar la suma de cuadrados de las distancias verticales entre cada punto y la recta de regresi´on: m´etodo de m´ınimos cuadrados

SCERROR= n

X

i =1

(yi − ˆyi)2. (Suma de cuadrados del error)

El resultado de minimizar esta expresi´on permite determinar el valor de los coeficientes: ˆβ0 y ˆβ1. Los estimadores de ˆβ0 y ˆβ1 son:

ˆ β1 = Pn i =1(xi − x)(yi − y ) n P i =1 (xi− x)2

. (Pendiente, por m´ınimos cuadrados)

ˆ

(61)

Cuarto paso

Se debe verificar qu´e tan bueno es el modelo que se ajust´o, esto con el fin de saber si el modelo es el adecuado o si se deben realizar ajustes.

En el contexto del análisis de regresión el coeficiente de determinación es la medida que se usa para conocer el ajuste: El coeficiente de

determinación R2 es igual al coeficiente de correlación al cuadrado. La interpretación del coeficiente de determinación es: el grado de ganancia que podemos obtener al predecir una variable basándonos en el

(62)

Regresi´

on lineal simple

Supuestos

Independencia: Que no exista autocorrelaci´on, es decir que la variable X ocurra de manera independiente.

Normalidad: Los residuos presentan una distribuci´on normal con media cero. Los residuos son estimaciones de los errores.

Homocedasticidad: Varianza constante del t´ermino de error. Se requiere que la variable independiente muestre iguales niveles de varianza en los valores de la variable independiente

(63)

Con los datos de la primera clase (DatosEjercicios.csv) genere un diagrama de dispersi´on en el que la variable independiente corresponda al pH del suelo (SoilpH) y la variable dependiente sea la densidad de gusanos en el suelo (WormDensity). La densidad de gusanos presentes en un suelo depende del valor del pH de ese suelo.

plot(cuantitativas[,4] cuantitativas[,3],

ylab="Dependiente (Gusanos)", xlab=”Independiente (pH)" RegresionLineal<-lm(cuantitativas[,4] ∼ cuantitativas[,3]) summary(RegresionLineal) lines(cuantitativas[,3],RegresionLineal$fitted.values) plot(cuantitativas[,3],RegresionLineal$residuals) abline(h=0)

(64)

Taller

Los datos adjuntos (Paramo.csv) contienen mediciones en plantas de frailejón realizadas en transectos de 1 x 30 m en diferentes puntos dentro del páramo de Chingaza. Cada planta dentro del transecto se referenció con un sistema de coordenadas planas (variables llamadas: Este y Norte, en metros) y también se determinó la altitud (Altitud, m.s.n.m.) a la que se encontraba. Cada planta se clasificó según su altura en cuatro tallas (Talla), donde t1 son las plantas más pequeñas y t4 las más altas; también se determinó el estado de desarrollo (Estado) y sanitario

(Severidad), este último como un porcentaje, donde O corresponde a sano y los demás valores corresponden al grado de afectación causado por un insecto (estimado por el observador).

(65)

Realice las siguientes tareas con los datos Paramo.csv Clasifique las variables que contiene la hoja de datos Cu´al es el estado de desarrollo m´as frecuente

Cu´al es la talla m´as frecuente

En qu´e estado de desarrollo se encuentra la mayor proporci´on de plantas afectadas por el insecto.

Si se realizara un nuevo transecto cu´al ser´ıa la probabilidad emp´ırica de encontrar:

Plantas en talla tres (t3) y que se encuentren en floraci´on

Plantas en talla cuatro (t4) y que se encuentren en inicio de floraci´on Plantas que se encuentran en estado vegetativo que pertenezcan a la talla 3 (t3)

(66)

Taller

Cu´al es la incidencia global (en todos los transectos) de la afectaci´on. La incidencia es la suma de plantas muestreadas que tienen una severidad mayor que cero sobre el total de plantas, generalmente se expresa en porcentaje?

Existe una correlaci´on entre la altura promedio de cada transecto y el n´umero de frailejones?