• No se han encontrado resultados

Modelos probabiĺısticos y análisis estadístco

N/A
N/A
Protected

Academic year: 2021

Share "Modelos probabiĺısticos y análisis estadístco"

Copied!
66
0
0

Texto completo

(1)

Estad´ıstica Descriptiva

Carlos Ricardo Bojac´a

[email protected] Departamento de Ciencias B´asicas Facultad de Ciencias Naturales e Ingenier´ıa Universidad de Bogot´a Jorge Tadeo Lozano

(2)

Tabla de contenidos

1 Introducci´on

2 Definiciones

3 Notaci´on

4 Resumen de datos

5 Medidas de tendencia central

6 Medidas de dispersi´on

7 Medidas de posici´on relativa

8 Correlaci´on

9 Regresi´on

(3)

La construcci´on de modelos con base en datos experimentales requiere un conocimiento b´asico de su estructura, de manera que se pongan en evidencia caracter´ısticas sobresalientes o inesperadas.

Adem´as permite resumir los datos y tener una primera impresi´on acerca de su comportamiento general.

El an´alisis exploratorio, mediante t´ecnicas descriptivas, debe ser la primera etapa en la construcci´on de un modelo basado en datos experimentales.

(4)

Definiciones

Variables

Caracter´ısticas o atributos particulares, y susceptibles de ser medidos, de los individuos que componen una poblaci´on o muestra.

Variable cualitativa ordinal

Hace referencia a una caracter´ıstica que forma categor´ıas y existe una relaci´on de orden entre ellas. Ejemplo: nivel de satisfacci´on, posici´on en una carrera de atletismo. No tiene sentido realizar operaciones aritm´eticas porque no puede medirse la distancia entre una categor´ıa y otra.

Variable cualitativa nominal

Hace referencia a una caracter´ıstica que forma categor´ıas pero no existe una relaci´on de orden entre ellas. Ejemplos: G´enero, color de ojos, lugar de nacimiento, etc. Las categor´ıas son mutuamente excluyentes y

(5)

Variable cuantitativa discreta

Es aquella que toma un n´umero finito o contable de valores. Presenta separaciones en la escala de valores que puede tomar, las cuales indican ausencia de valores distintos a los espec´ıficos que puede tomar la variable. N´umero de hijos: 0, 1, 2, ...

Variable cuantitativa continua

Es aquella que puede tomar infinitos valores en cualquier intervalo razonable de la variable. En este tipo de variables el valor que toma est´a limitado por la precisi´on del dispositivo de medici´on, y en teor´ıa siempre existe un valor intermedio entre dos mediciones consecutivas.

(6)

Definiciones

Poblaci´on

Es el conjunto de elementos de referencia sobre el que se realizan las observaciones. La poblaci´on es el conjunto sobre el que se est´a interesado en extraer conclusiones (hacer inferencias). Normalmente es demasiado grande para poder medir las caracter´ısticas sobre cada uno de los elementos.

Muestra

Subconjunto representativo de la poblaci´on. Una muestra debe ser definida con base a una poblaci´on determinada, y las conclusiones que se obtengan de dicha muestra solo podr´an referirse a la poblaci´on de referencia.

(7)

Variable

X: N´umero de empleados de una empresa Y: Signo del zodiaco

Z: Velocidad m´axima alcanzada por diferentes dise˜nos de autos Poblaci´on y muestra

N: N´umero de elementos que contiene la poblaci´on n: N´umero de elementos que contiene la muestra Conjunto de observaciones

X = {x1, x2, x3, ..., xn}: Muestra

Y = {y1, y2, y3, ..., yN}: Censo

Estad´ıstica de orden

(8)

Resumen de datos

Frecuencia absoluta

La frecuencia absoluta (ni) de un evento i es el n´umero de veces que

ocurre (i = 1, 2, . . . , m); donde m es el n´umero de clases (m <= n). La frecuencia absoluta es representada usando un diagrama de barras (en el caso de variables cualitativas) o un histrograma (variables cuantitativas). Diagrama de barras

La variable se representan en el eje X y se levanta una barra de altura igual a la frecuencia de cada evento. Se usa para variables cualitativas y cuantitativas discretas

Histograma

El eje X representamos las clases, teniendo en cuenta la amplitud de los intervalos, y en el otro eje Y levantamos una barra de altura igual a la

(9)

Usando los datos de la clase anterior (DatosEjercicios) se determinar´a cu´al es frecuencia de la variable ”Vegetation” y los resultados se representar´an usando un diagrama de barras.

Frecuencia absoluta y diagrama de barras Funci´on summary:

summary(datos[,4]) Funci´on table: table(datos[,4]) Funci´on barplot:

barplot(table(datos[,4]), las=1, xlab="Tipo de vegetacion", ylab="Frecuencia absoluta")

Obtener ayuda de una funci´on

Para obtener ayuda de una funci´on anteponga al nombre la funci´on el s´ımbolo ?, as´ı: ?barplot

(10)

Presentaci´

on de figuras

(11)

Usando los mismos datos, pero esta vez seleccionando la variable SoilpH se construir´a un histograma sugiriendo la creaci´on de 6 intervalos. Frecuencia absoluta e histograma

Funci´on hist con el argumento plot=FALSE:

conteo<-hist(datos[,5], breaks=6, plot=FALSE) ¿Qu´e informaci´on contiene el objeto conteo?

Funci´on hist con el argumento plot=TRUE: hist(datos[,5], breaks=6, plot=TRUE)

(12)

Frecuencia absoluta e histograma

Argumento breaks de la funci´on hist Se puede usar una de las siguientes opciones:

Un vector en el que se indique los l´ımites de las clases. Una funci´on para calcular los l´ımites de las clases. Una sugerencia del n´umero de clases a crear.

Una cadena de caracteres con el nombre del algoritmo que se usar´a. Mejorando la gr´afica

Argumentos para asignar color, adicionar t´ıtulo y nombre de los ejes: Argumento col asigna un color, nombre en singular, min´usculas e ingl´es, entre comillas.

Argumento main, xlab, ylab cadenas de caracteres entre comillas hist(datos[,5], breaks=6, plot=TRUE, col="grey50", main=,

(13)

Figura:Histograma mostrando la distribuci´on de la acidez (pH) del suelo en 20 localidades de . . .

(14)

Resumen de datos

Frecuencia relativa

La frecuencia relativa de un evento i , tambi´en llamada probabilidad emp´ırica, corresponde a la frecuencia absoluta normalizada por el n´umero total de eventos, as´ı:.

fi =

ni

n (Frecuencia relativa)

donde fi ser´a la frecuencia relativa de un evento en particular, ni es la

frecuencia absoluta de ese evento particular y n es el n´umero total de eventos (sumatoria de las frecuencias absolutas).

Gr´afica de frecuencias relativas

absoluta<-hist(datos[,5], breaks=6, plot=FALSE) relativa<-absoluta[[2]]/sum(absoluta[[2]])

(15)

Tabulaci´on cruzada

La tabulaci´on cruzada, o tablas de referencias cruzadas, sirven para

resumir datos categ´oricos creando una tabla de contingencia. Proporcionan una imagen b´asica de la interrelaci´on entre dos variables y ayudan a encontrar relaciones entre ellas.

Determine la relaci´on entre el tipo de vegetaci´on (Vegetation) y la humedad del suelo (Damp)

tablacontingencia <- table(datos[,6], datos[,4]) barplot(tablacontingencia, beside = TRUE,

col=c("grey80","grey20"))

legenda<-paste("Damp?",as.factor(unique(datos[,6])), sep=":")

legend("topright", legenda, bty="n", cex=0.8, pch=c(15,15), col=c("grey80","grey20"))

(16)

Medidas de tendencia central

Media aritm´etica o promedio aritm´etico

La media aritm´etica de un conjunto de observaciones es igual a la suma de los valores de las observaciones dividido en el n´umero de observaciones:

x = 1 n

n

X

i =1

xi (Media aritm´etica de una muestra)

µ = 1 N

N

X

i =1

xi (Media aritm´etica de una poblaci´on)

La media de una poblaci´on es una cantidad fija, mientras que la media de una muestra no lo es, es decir, las medias obtenidas a partir de diferentes muestras tomadas de una poblaci´on, generalmente, son diferentes.

(17)

Caracter´ısticas

La media aritm´etica se expresa en las mismas unidades de medida de los datos originales

La sumatoria de las diferencias entre la media aritm´etica y cada uno de los datos es cero.

La precisi´on de la media depender´a de la representatividad de la muestra

La media de una muestra tiende, en general, a tener valores diferentes cuando se calcula con diferentes muestras de un mismo tama˜no y de la misma poblaci´on.

La media aritm´etica se ve afectada por valores extremos dentro del conjunto de datos

(18)

Caracter´ısticas de la media aritm´

etica

Ejemplo para verificar las caracter´ısticas

Se crear´a un poblaci´on ficticia de 1000000 de individuos, hombres varones que habitan un determinado departamento del pa´ıs. La variable que se midi´o a la poblaci´on fue la estatura en cent´ımetros y se determin´o que la media poblacional tiene un valor de 180, y que los valores se distribuye de forma acampanada (distribuci´on normal).

La primera caracter´ıstica que se verificar´a ser´a: La precisi´on de la media depender´a de la representatividad de la muestra. Tomaremos tres muestras de los siguientes tama˜nos: n1= 10000, n2= 100 y n3 = 10,

calcularemos la media para cada una de esas muestras y la compararemos con respecto a la media de la poblaci´on que es conocida.

(19)

Ejemplo para verificar las caracter´ısticas de la media en R N<-1000000; population <- rnorm(N, 180) plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col=”black”,lty=2) n1<-10000; n2<-100; n3<-10

X1 <- sample(population, n1) X2 <- sample(population, n2) X3 <- sample(population, n3)

abline(v = mean(X1), lty = 1, col="green") abline(v = mean(X2), lty = 1, col="blue") abline(v = mean(X3), lty = 1, col=red")

legend("topright", c("Media Poblacional","Media n=10000","Media n=100","Media n=10"), cex=0.6, lty = c(2,rep(1,3)),col=c("black","green","blue",”red"))

(20)

Caracter´ısticas de la media aritm´

etica

Ejemplo para verificar las caracter´ısticas

Ahora, se verificar´a la caracter´ıstica con relaci´on a: La media de una muestra tiende, en general, a tener valores diferentes cuando se calcula con diferentes muestras de un mismo tama˜no y de la mismas poblaci´on. Tomaremos los mismos tama˜nos de muestras (n1 = 10000, n2 = 100 y n3= 10), pero esta vez se seleccionar´an 500

muestras para cada tama˜no, se calcular´a la media para cada muestra y se comparar´a con respecto a la media de la poblaci´on.

Adicionalmente, se calcular´a el error de la media como el valor absoluto de la diferencia entre la media poblacional y la media de cada muestra, y para los diferentes tama˜nos.

(21)

Ejemplo para verificar las caracter´ısticas de la media en R plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col=’black’,lty=2) n1<-10000; n2<-100; n3<-10; sim<-500

for (j in 1:sim){

X1 <- sample(population, n1) X2 <- sample(population, n2) X3 <- sample(population, n3)

abline(v = mean(X1), lty = 1, col="grey40") abline(v = mean(X2), lty = 1, col="grey60") abline(v = mean(X3), lty = 1, col="grey80") } legend("topright", c("Media Poblacional","Medias

n=10000","Medias n=100","Medias n=10"), cex=0.6, lty = c(2,rep(1,3)),col=c("black","grey40","grey60","grey80"))

(22)

Medidas de tendencia central

Funci´on apply

Devuelve un vector, matriz o lista de valores obtenidos al aplicar una funci´on a los m´argenes de una matriz o una hojas de datos.La funci´on apply cuenta con tres argumentos:

X: Matrix o hojas de datos

MARGIN: Un vector, si es 1 la funci´on se aplica sobre las filas, si es 2 se aplica sobre las columnas y si es c(1, 2) sobre ambas.

FUN: La funci´on que se desea aplicar Ejemplo para verificar las caracter´ısticas

Finalmente, se verificar´a la caracter´ıstica con relaci´on a: La media aritm´etica se ve afectada por valores extremos dentro del conjunto de datos. Se insertar´an a la poblaci´on 100000 datos de estaturas con valores que corresponder´an a una secuencia desde 180 hasta 220 cm, se

(23)

Ejemplo para verificar las caracter´ısticas de la media en R N<-1000000; inusuales<-100000

population <- c(rnorm(N, 180), seq(180,220,length.out= inusuales))

plot(density(population, na.rm = T))

abline(v = mean(population), lwd=1,col="black",lty=2) n1<-10000; n2<-100; n3<-10

X1 <- sample(population, n1) X2 <- sample(population, n2) X3 <- sample(population, n3)

abline(v = mean(X1), lty = 1, col="green") abline(v = mean(X2), lty = 1, col="blue") abline(v = mean(X3), lty = 1, col=”red")

(24)

Medidas de tendencia central

Media ponderada

Se emplea cuando los valores de los cuales se quiere conocer el promedio tienen importancias relativas que son diferentes; a esta importancia relativa se le suele conocer como peso o ponderaci´on.

xw = n P i =1 wi ∗ xi n P i =1 wi (Media ponderada)

donde, xw es la media ponderada, xi es cada uno de los elementos y wi su

(25)

Ejemplo

Suponga que las nota final de un curso se calcula a partir de un conjunto de actividades que tienen pesos diferentes. La nota final se calcular´a con base en los resultados de tres ex´amenes, un quiz y un trabajo escrito.Los pesos de cada actividad son: primer examen: 20 %, segundo examen: 20 %, examen final: 40 %, quiz: 10 % y un trabajo escrito: 10 %. Las notas obtenidas un estudiante son: primer examen: 3.0 , segundo examen: 3.5, examen final: 2.8, quiz: 4.5 y el trabajo escrito: 4.0

¿Cu´al es la nota final del estudiante? Ejemplo en R

wt <- c(20,20,40,10,10)

x <- c(3.0, 3.5, 2.8, 4.5, 4.0) xm <- weighted.mean(x, wt)

(26)

Medidas de tendencia central

Mediana

La mediana es el valor de la variable que se encuentra en la posici´on central en un conjunto de datos ordenados. Por esta raz´on el 50 % de los datos tendr´a un valor menor que la mediana y el restante 50 % un valor mayor. Cuando se dispone de un conjunto de datos de una muestra ordenada en orden creciente X = {x(1), x(2), x(3), . . . , x(n)}, la mediana Me se calcula de

dos maneras dependiendo de si el n´umero de observaciones es par o impar.

Me = x(n+1

2 ) (Mediana cuando n es impar)

Me=

x(n 2)+ x(

n 2+1)

2 (Mediana cuando n es par)

(27)

Ejemplo para verificar la caracter´ıstica

Usando la misma poblaci´on ficticia que incluy´o los datos inusualmente altos se calcular´a la media y la mediana de la poblaci´on anteriormente definida, verifique que la mediana se ve menos influenciada por datos inusuales.

Ejemplo para verificar las caracter´ısticas de la mediana en R N<-1000000; inusuales<-100000

population <- c(rnorm(N, 180), seq(180,220,length.out= inusuales))

plot(density(population, na.rm = T))

abline(v = median(X1), lty = 1, col="blue") abline(v = mean(X1), lty = 1, col="green")

(28)

Ejemplo de la mediana en R

Ejemplo del c´alculo de la mediana

Usando los datos de clase anterior (DatosEjercicios) calcule la mediana de las variables cuantitativas.

C´alculo de la mediana en R

cuantitativas<-datos[,c(2,3,5,7)]

(29)

Ejemplo del c´alculo de la mediana

Ahora usando los mismos datos (DatosEjercicios) calcule la mediana para la variable cuantitativa WormDensity pero separando por la variable cualitativa Damp.

En R

medianas.2<-tapply(datos[,7],datos[,6],median) Funci´on tapply

Aplica una funci´on a subconjutos de diferentes longitudes; los subconjuntos son determinados por los niveles de ciertos factores (t´ıpicamente variables categ´oricas). La funci´on tapply cuenta con tres argumentos:

X: Matrix o hojas de datos

INDEX: Vector, de la misma longitud que X, de uno o m´as factores. FUN: La funci´on que se desea aplicar

(30)

Medidas de tendencia central

Moda

La moda es el valor que m´as se repite dentro de un conjunto de datos, puede no existir cuando todos los valores son diferentes o tienen la misma frecuencia.

Ejercicios en R

Calcule la moda para la variable WormDensity moda.WormDensity<- table(datos[,7]) moda.WormDensity[moda.WormDensity == max(moda.WormDensity)]

names(moda.WormDensity)[moda.WormDensity == max(moda.WormDensity)]

(31)

Las medidas de dispersi´on cuantifican la separaci´on, la dispersi´on, la variabilidad de los valores de una muestra; lo m´as com´un es que lo realicen con respecto a la media u otra medida de tendecia central.

Rango

El rango R es la diferencia entre el m´aximo x(n) y el m´ınimo valor x(1)de

un conjunto de datos ordenados. Ejercicio en R

Calcule los rangos de las variables cuantitativas de hoja de datos DatosEjercicios.

rangos<-apply(cuantitativas,2,range)

El rango se interpreta de manera simple, as´ı: la diferencia entre el valor m´ınimo y el m´aximo es de . . .

(32)

Medidas de dispersi´

on

Varianza

La varianza es quiz´a la medida de variabilidad m´as importante en el an´alisis estad´ıstico. Entre m´as grande es la variabilidad de los datos, mas grande ser´a la incertidumbre de los valores de los par´ametros estimados a partir de ellos, y menor ser´a la capacidad de distinguir diferencias entre conjuntos de datos contrastantes.

La varianza de una muestra es determinada como una funci´on de: la suma de los cuadrados de las diferencias entre los datos y la media aritm´etica. Esta operaci´on se conoce como suma de cuadrados.

SS =

n

X

i =1

(xi− x)2 (Suma de cuadrados)

Naturalmente, esta cantidad se incrementar´a cada vez que se introduzcan nuevos datos. Una manera obvia de resolver este problema es dividir entre

(33)

. . . para poder calcular la suma de cuadrados se necesita conocer la media aritm´etica. Ac´a se introduce el concepto de grados de libertad, el esta definido con la siguiente expresi´on :

d .f . = n − k (Grados de libertad) donde, n es el tama˜no de la muestra y k es el n´umero de par´ametros estimados a partir de los datos. Para la varianza se usa un par´ametro estimado a partir de los datos, la media x ; as´ı que los grados de libertad para el c´alculo de la varianza ser´an n − 1. La varianza se calcular´a as´ı:

s2= n P i =1 (xi− x)2 n − 1 (Varianza)

(34)

Medidas de dispersi´

on

C´alculo de la varianza

C´alculo de la varianza para las variables cuantitativas del archivo DatosEjercicios.

En R

varianzas<-apply(cuantitativas,2,var) Caracter´ısticas de la varianza

La varianza toma valores positivos o cero. ¿En qu´e casos ser´a cero? La varianza, es sensible a la presencia de datos con los valores extremos.

Si no es posible determinar la media aritm´etica tampoco ser´a posible hallar la varianza

(35)

Desviaci´on est´andar

La desviaci´on est´andar s es una medida de dispersi´on calculada a partir de la varianza que se caracteriza por tener las mismas unidades de la variable original. s = 2 v u u u t n P i =1 (xi − x)2

n − 1 (Desviaci´on est´andar) Caracter´ısticas de la desviaci´on est´andar

La desviaci´on est´andar, al igual que la media y la varianza, es sensible a la presencia de datos con valores inusuales.

Cuanto m´as peque˜na sea la desviaci´on est´andar mayor ser´a concentraci´on de datos alrededor de la media.

(36)

Medidas de dispersi´

on

C´alculo y visualizaci´on de la desviaci´on est´andar en R desv.est<-apply(cuantitativas,2,sd)

medias<-apply(cuantitativas,2,mean) x<-seq(along.with=medias)

plot(x,medias, xaxt="n", ylab="Valores", xlab=””,ylim=c(-2,8), las=2, pch=15)

axis(1,at=x, labels=names(medias))

arrows(x, medias-desv.est,x, medias+desv.est, code=3, angle=90,length=0.2)

(37)

Coeficiente de variaci´on

El coeficiente de variaci´on se emplea para comparar la variabilidad relativa entre grupos que tienen distintas (o las mismas) unidades, datos que tienen medias diferentes o que pertenecen a categor´ıas diferentes.

c.v . = s

x ∗ 100 (Coeficiente de variaci´on) Coeficiente de variaci´on en R

La desviaci´on est´andar, al igual que la media y la varianza, es sensible a la presencia de datos con valores inusuales.

Cuanto m´as peque˜na sea la desviaci´on est´andar mayor ser´a concentraci´on de datos alrededor de la media.

(38)

Presentaci´

on de informaci´

on en tablas

Cuadro:Resumen de algunos estad´ısticos descriptivos (x media, me media, s desviaci´on est´andar, C .V . Coeficiente de variaci´on) de las variables: ´area (Ha), Pendiente ( %), pH del Suelo (adimensional), Densidad de lombrices

(individuos/m2) Variable x me s C .V . Area 2.99 3 1.07 35.66 Pendiente 3.5 3.65 182.5 4.0 pH del Suelo 4.56 4.6 0.58 12.6 Densidad de lombrices 4.35 4 2.62 65.50

(39)

Medidas de posici´on relativa

Las medidas de posici´on relativa tienen como prop´osito describir el comportamiento de una variable cuantitativa dividiendo la serie de valores en un n´umero determinado de partes que sean porcentualmente iguales, los m´as comunes son: los cuartiles (cuatro partes), los deciles (diez partes) y los centiles o percentiles (cien partes).

Cuartiles

Dividen al conjunto de datos (ordenado) en cuatro partes porcentualmente iguales (25 %). Hay tres cuartiles: Q1, Q2 y Q3.

Deciles

Dividen al conjunto de datos (ordenado) en diez partes porcentualmente iguales (10 %). Los deciles se denotan: D1, D2, . . . , D9. El decil 5

(40)

Medidas de posici´

on relativa

Percentiles o centines

Dividen al conjunto de datos (ordenado) en 100 partes porcentualmente iguales (1 %). Los deciles se denotan: P1, P2, . . . , P99. El percentil 50

coincide con el decil 5 que a su vez corresponde al cuartil 2 que es igual a la mediana de los datos.

C´alculo de cuantiles, deciles y centiles en R cuartiles<-quantile(cuantitativas[,1]) deciles<-quantile(cuantitativas[,1], probs=seq(0,1,by=0.1))

centiles<-quantile(cuantitativas[,1], probs=seq(0,1,by=0.01))

(41)

Prueba n´umerica para los cuantiles

Escriba y ejecute las siguientes l´ıneas de c´odigo para verificar que se cumple el enunciado: ”describir el comportamiento de una variable cuantitativa dividiendo la serie de valores en un n´umero determinado de partes que sean porcentualmente iguales”

DT<-rnorm(1000) Qs<-quantile(DT) length(which(DT>=Qs[1] & DT<Qs[2])) length(which(DT>=Qs[2] & DT<Qs[3])) length(which(DT>=Qs[3] & DT<Qs[4])) length(which(DT>=Qs[4] & DT<=Qs[5])) diff(cuartiles)

(42)

Medidas de posici´

on relativa

Representaci´on gr´afica de los cuartiles

Los cuartiles, junto con el m´aximo y el m´ınimo, se representan mediante un gr´afico llamado: diagrama de caja y bigotes (box-plot). Este diagrama est´a compuesto por un rect´angulo (caja) y dos brazos (bigotes), pero en el siguiente c´odigo adiciona el promedio aritm´etico como una cruz azul y los datos originales como puntos rojos.

library(reshape) reshape.cuanti<-melt(cuantitativas) reshape.cuanti$id<-rep(seq(1,4),each=20) boxplot(cuantitativas, las=1) points(reshape.cuanti[,3],reshape.cuanti[,2], cex=0.7, pch=16, col=red") points(c(1:4),apply(cuantitativas,2, mean), pch=3,

(43)

Datos at´ıpicos o inusuales

Un valor at´ıpico o inusual (outlier, en ingl´es) corresponde a una observaci´on que presenta un valor distante con respecto al resto de los datos. Las estad´ısticas calculadas con conjuntos de datos que incluyen valores inusuales pueden resultar poco veraces.

Para determinar qu´e datos son at´ıpicos dentro de un conjunto de

observaciones se suele tomar como referencia la diferencia entre el tercer y primer cuartil (Q3− Q1), el cual se conoce como el rango intercuart´ılico

(RIQ). Un valor es considerado como at´ıpico cuando:

< Q1− 1.5 · RIQ (L´ımite inferior, Li)

´ o

(44)

Medidas de posici´

on relativa

Diagrama de caja y bigotes con datos at´ıpicos

Cuando se representa un conjunto de datos con valores at´ıpicos mediante un diagrama de cajas y bigotes, estos aparecer´an como puntos por encima o por debajo del l´ımite del bigote. En estos casos el valor m´aximo y m´ınimo se re-definir´an como:

Maximo = Max(X ) ≤ Ls (M´aximo en presencia de at´ıpicos)

Minimo = Min(X ) ≥ Li (M´ınimo en presencia de at´ıpicos) ¿A qu´e se deben los datos at´ıpicos?

Errores de procedimiento Acontecimientos extraordinarios

(45)

Dat.Inu<-c(13, 16.3, 20.5, 18.7, 18, 18, 18.8, 22.3, 19.7, 18.1, 20, 24)

boxplot(Dat.Inu, pch=16, cex=0.7, ylim=c(12,25)) cuartiles<-quantile(Dat.Inu)

RIQ<-cuartiles[4] - cuartiles[2] Li<-cuartiles[2]-(1.5*RIQ)

Ls<-cuartiles[4]+(1.5*RIQ)

abline(h=Ls, lwd=2,lty=3, col=red") abline(h=Li, lwd=2,lty=3, col=red") ¿Qu´e hacer con los datos at´ıpicos?

Los datos at´ıpicos distorsionan los resultados de los an´alisis, por esta raz´on se deben identificar y tratar de manera adecuada

(46)

Correlaci´

on

Covarianza

La covarianza es una medida del grado de variaci´on conjunta de dos variables aleatorias. El estimador de la covarianza COV(X ,Y ) de dos variables aleatorias x y y es:

COV(X ,Y ) = 1 (n − 1) n X i =1 (xi − x)(yi − y ) (Covarianza) Caracter´ısticas de la covarianza

El signo de la covarianza representa la tendencia general de la relaci´on lineal entre las variables.

Cuando la covarianza entre dos variables (X y Y ) es cero, es porque son independientes

(47)

C´alculo de la Covarianza en R

En R la covarianza se puede calcular usando la funci´on var() o cov() si se emplean como argumentos el vector con los datos de la variable X y el vector con la variable Y . Si se dispone de una matriz num´erica, ´esta se puede ingresar como ´unico argumento a cualquiera de las dos funciones y el resultado ser´a una matriz cuadrada que tendr´a en la diagonal los valores de la varianza y en los tri´angulos las covarianzas.

C´alculo de la covarianza en R

var(cuantitativas[,3],cuantitativas[,4]) cov(cuantitativas[,3],cuantitativas[,4]) Varianzas<-diag(cov(cuantitativas)) Covarianzas<-cov(cuantitativas)

(48)

Correlaci´

on

Correlaci´on

Coeficiente de correlaci´on de Pearson es una medida de la relaci´on lineal entre dos variables aleatorias cuantitativas. Se define como la covarianza de dos variables, dividido entre el producto de sus desviaciones est´andar.

ρ(X ,Y )=

COV(X ,Y ) SX ∗ SY

(Coeficiente de correlaci´on de Pearson)

Correlaci´on y estad´ıstica de prueba en R

cor(cuantitativas[,3],cuantitativas[,4]) cor.test(cuantitativas[,3],cuantitativas[,4]) plot(cuantitativas[,3],cuantitativas[,4], pch=16) text(3.8, 8, paste(”r”,round(cor(cuantitativas[,3],

(49)

Diagrama de dispersi´on (scatter-plot ´o XY-plot)

En la diapositiva anterior se emple´o la funci´on plot() para generar un diagrama de dispersi´on. El diagrama de dispersi´on utiliza coordenadas cartesianas para mostrar los valores de dos variables de un conjunto de datos.

El diagrama de dispersi´on pone en evidencia algunas caracter´ısticas que pueden tener los datos, tales como: relaciones no lineales entre las

(50)

Correlaci´

on

Interpretaci´on de la correlaci´on

En la pr´actica el coeficiente de correlaci´on de Pearson (r ) es un ´ındice que mide el grado de relaci´on (asociaci´on) de dos variables. La correlaci´on toma valores entre -1 y 1; un valor de 0 indica la ausencia de relaci´on. La fuerza de la correlaci´on no depende del signo. Por lo tanto, r = 0.9 y r = −0.9 son iguales en cuanto al grado de asociaci´on de las variables. Un r positivo indica que un aumento en la variable X corresponde con un aumento en la variable Y ; existe una relaci´on directa entre ellas. Una correlaci´on negativa indica una relaci´on inversa, mientras una variable aumenta la otra disminuye.

Cuando la r tiene valores de 1 ´o -1, se le llama correlaci´on lineal perfecta. Sin embargo, en la vida real, siempre hay variaciones aleatorias en las observaciones; por lo tanto, una relaci´on lineal perfecta es

(51)

Evaluaci´on de la asociaci´on entre dos muestras pareadas

Se requiere aplicar un prueba para evaluar si el valor de la correlaci´on es significativamente diferente de cero. Ya que un valor de cero, o que no es significativamente diferente de cero, indica que no hay asociaci´on entre las variables.

Cuando se emplea el coeficiente de correlaci´on de Pearson, la estad´ıstica de prueba se basa en el supuesto de que la muestra ha sido extra´ıda de manera aleatoria, que las dos variables se distribuyen de manera normal; si es as´ı, el estad´ıstico T se distribuye de acuerdo a un modelo de

probabilidad t − student con n − 2 grados de libertad.

Si el el valor de p (p − value) es menor que 0.05 se acepta que el valor de la correlaci´on es significativamente diferente de cero.

(52)

Correlaci´

on

Errores en la interpretaci´on de la correlaci´on

La correlaci´on tiene limitaciones y puede en algunos casos malinterpretarse; como por ejemplo cuando se presentan asociaciones accidentales, lo que ha llevado a afirmaciones como: es un error creer en una hip´otesis de investigaci´on solo porque el valor de p indica la existencia de significancia estad´ıstica. Existen circunstancias como la contaminaci´on de los datos, errores en los instrumentos de medici´on, sesgos en la elecci´on de los individuos o elementos de la muestra o un dise˜no experimental pobre que pueden afectar la confiabilidad de estad´ısticos como la correlaci´on. Uno de los usos err´oneos m´as frecuentes y serios con respecto al an´alisis de la correlaci´on es interpretar una alta correlaci´on entre variables como una relaci´on de causa y efecto. El an´alisis de correlaci´on mide una relaci´on o asociaci´on, no determina la explicaci´on o los fundamentos de esa

(53)

El coeficiente de correlaci´on de Pearson aplica cuando las variables son cuantitativas y siguen una distribuci´on gaussiana; si esto no se cumple existen otros m´etodos no-param´etricos para determinar la correlaci´on: correlaci´on de ρ (rho) de Spearman y la correlaci´on τ (tau) de Kendall. Correlaci´on rho de Spearman

Es un coeficiente que permite medir la correlaci´on (asociaci´on) de dos variables cuando las mediciones se realizan en una escala ordinal. La correlaci´on de Spearman tambi´en se usa cuando aun siendo variables cuantitativas continuas, no tienen una distribuci´on semejante a la curva normal, o cuando ambas variables son discretas. En estos casos los datos deben ser ordenados y reemplazados por su respectivo orden. Se calcula as´ı:

ρ = 1 − 6P d

2 i

n(n2− 1). (Coeficiente de correlaci´on de Spearman)

(54)

etodos no-param´

etricos para el estudio de la correlaci´

on

Ejemplo para la correlaci´on rho de Spearman

Los machos del ave fragata magn´ıfica (Fregata magnificens) tienen una gran bolsa roja en la garganta. Ellos exhiben esta bolsa y la usan para hacer un sonido similar al producido por un tambor cuando est´an en b´usqueda de pareja. Madsen et al. (2004) se plantearon como objetivo determinar si las hembras, que presuntamente eligen a sus compa˜neros en funci´on del tama˜no de la bolsa, usan el tono del sonido como un indicador del tama˜no de la bolsa. Los autores estimaron el volumen de la bolsa y la frecuencia del sonido de tambores en 18 machos (Fragata.csv).

Fragata<-read.csv(/Users/.../Fragata.csv"); par(mfrow=c(1, 2))

hist(Fragata[,1], breaks=6 ,main="Volumen") hist(Fragata[,2], breaks=6 ,main="Frecuencia")

(55)

Prueba τ de Kendall

Es usada para medir la asociaci´on entre dos cantidades medidas en condiciones no-param´etricas. La τ de Kendall, que se basa en contar el n´umero de pares concordantes y discordantes. Sea

(x1, y1), (x2, y2), . . . , (xn, yn) un conjunto de observaciones de las variables

aleatorias X y Y , respectivamente; de tal manera que todos los valores de (xi) y (yi) son ´unicos. Cualquier par de observaciones (xi, yi) y (xj, yj) se

consideran concordantes o discordantes de acuerdo a:

Concordantes = ( xi > xj y yi > yj, xi < xj y yi < yj, (1) Discordantes = ( xi > xj y yi < yj, xi < xj y yi > yj, (2) Si xi = xj o yi = yj, la pareja no es ni concordante ni discordante.

(56)

etodos no-param´

etricos para el estudio de la correlaci´

on

Prueba τ de Kendall

El valor del coeficiente de correlaci´on τ de Kendall se determina as´ı: τ = N1C − ND

2n(n − 1)

. (Coeficiente de correlaci´on tau de Kendall) donde NC, es el n´umero de parejas concordantes y ND es el n´umero de

parejas discordantes. En una relaci´on mon´otona perfecta, todas las parejas son concordantes o todas son discordantes. Aunque esta es una situaci´on extra˜na cuando se trabajan con variables que son aleatorias. Debido a que hay que determinar la concordancia o discordancia de las todas las parejas, ´

(57)

El an´alisis de regresi´on lineal sirve para explorar y cuantificar la relaci´on entre dos variables. Para el an´alisis de regresi´on las variables se clasifican en dos categor´ıas: independientes (eje X) y dependientes (eje Y).

Una variable independiente es aquella, en el contexto del problema, cuyo valor no depende de otra variable, y por lo tanto se supone que son la causa (o al menos una causa) del fen´omeno estudiado.

Variable independiente = (

Variable de entrada

Variable predictoria (3) La variable dependiente es aquella cuyos valores se tratan de cambiar por la manipulaci´on de la variable independiente.

Variable dependiente = (

Variable de salida

(58)

Regresi´

on lineal simple

Primer paso

Como primer paso para llevar a cabo un an´alisis de regresi´on se

recomienda realizar un diagrama de dispersi´on con el fin de visualizar la relaci´on que existe entre las dos variables.

Con los datos de la primera clase (DatosEjercicios.csv) genere un diagrama de dispersi´on en el que la variable independiente corresponda al pH del suelo (SoilpH) y la variable dependiente sea la densidad de gusanos en el suelo (WormDensity). En este caso el an´alisis de regresi´on quedar´ıa planteado en los siguientes t´erminos: La densidad de gusanos presentes en un suelo depende del valor del pH de ese suelo.

¿Qu´e tipo de relaci´on existe entre estas dos variables?. Contestar esta pregunta permitir´a determinar, al menos preliminarmente, si existe una relaci´on de dependencia razonable.

(59)

Segundo paso

Modelo estad´ıstico para un an´alisis de regresi´on lineal simple:

yi = β0+ β1xi+ εi. (Regresi´on lineal simple)

donde yi y xi representan cada uno de los valores de la variable dependiente

e independiente, respectivamente. β0 es el intercepto (valor que toma y

cuando x es cero) y β1 es la pendiente de la relaci´on lineal planteada. La

pendiente es una tasa de cambio de y con respecto a x . Indica cu´anto cambia el valor de y por cada unidad de cambio que se produce en x . ¿Qu´e caracter´ıstica debe tener la recta que mejor represente a los puntos?. La que minimice la distancia entre el valor real yi y el valor obtenido

(60)

Regresi´

on lineal simple

Tercer paso

Ajuste del modelo, encontrar la recta que logre minimizar la suma de cuadrados de las distancias verticales entre cada punto y la recta de regresi´on: m´etodo de m´ınimos cuadrados

SCERROR= n

X

i =1

(yi − ˆyi)2. (Suma de cuadrados del error)

El resultado de minimizar esta expresi´on permite determinar el valor de los coeficientes: ˆβ0 y ˆβ1. Los estimadores de ˆβ0 y ˆβ1 son:

ˆ β1 = Pn i =1(xi − x)(yi − y ) n P i =1 (xi− x)2

. (Pendiente, por m´ınimos cuadrados)

ˆ

(61)

Cuarto paso

Se debe verificar qu´e tan bueno es el modelo que se ajust´o, esto con el fin de saber si el modelo es el adecuado o si se deben realizar ajustes.

En el contexto del an´alisis de regresi´on el coeficiente de determinaci´on es la medida que se usa para conocer el ajuste: El coeficiente de

determinaci´on R2 es igual al coeficiente de correlaci´on al cuadrado. La interpretaci´on del coeficiente de determinaci´on es: el grado de ganancia que podemos obtener al predecir una variable bas´andonos en el

(62)

Regresi´

on lineal simple

Supuestos

Independencia: Que no exista autocorrelaci´on, es decir que la variable X ocurra de manera independiente.

Normalidad: Los residuos presentan una distribuci´on normal con media cero. Los residuos son estimaciones de los errores.

Homocedasticidad: Varianza constante del t´ermino de error. Se requiere que la variable independiente muestre iguales niveles de varianza en los valores de la variable independiente

(63)

Con los datos de la primera clase (DatosEjercicios.csv) genere un diagrama de dispersi´on en el que la variable independiente corresponda al pH del suelo (SoilpH) y la variable dependiente sea la densidad de gusanos en el suelo (WormDensity). La densidad de gusanos presentes en un suelo depende del valor del pH de ese suelo.

plot(cuantitativas[,4] cuantitativas[,3],

ylab="Dependiente (Gusanos)", xlab=”Independiente (pH)" RegresionLineal<-lm(cuantitativas[,4] ∼ cuantitativas[,3]) summary(RegresionLineal) lines(cuantitativas[,3],RegresionLineal$fitted.values) plot(cuantitativas[,3],RegresionLineal$residuals) abline(h=0)

(64)

Taller

Los datos adjuntos (Paramo.csv) contienen mediciones en plantas de frailej´on realizadas en transectos de 1 x 30 m en diferentes puntos dentro del p´aramo de Chingaza. Cada planta dentro del transecto se referenci´o con un sistema de coordenadas planas (variables llamadas: Este y Norte, en metros) y tambi´en se determin´o la altitud (Altitud, m.s.n.m.) a la que se encontraba. Cada planta se clasific´o seg´un su altura en cuatro tallas (Talla), donde t1 son las plantas m´as peque˜nas y t4 las m´as altas; tambi´en se determin´o el estado de desarrollo (Estado) y sanitario

(Severidad), este ´ultimo como un porcentaje, donde O corresponde a sano y los dem´as valores corresponden al grado de afectaci´on causado por un insecto (estimado por el observador).

(65)

Realice las siguientes tareas con los datos Paramo.csv Clasifique las variables que contiene la hoja de datos Cu´al es el estado de desarrollo m´as frecuente

Cu´al es la talla m´as frecuente

En qu´e estado de desarrollo se encuentra la mayor proporci´on de plantas afectadas por el insecto.

Si se realizara un nuevo transecto cu´al ser´ıa la probabilidad emp´ırica de encontrar:

Plantas en talla tres (t3) y que se encuentren en floraci´on

Plantas en talla cuatro (t4) y que se encuentren en inicio de floraci´on Plantas que se encuentran en estado vegetativo que pertenezcan a la talla 3 (t3)

(66)

Taller

Cu´al es la incidencia global (en todos los transectos) de la afectaci´on. La incidencia es la suma de plantas muestreadas que tienen una severidad mayor que cero sobre el total de plantas, generalmente se expresa en porcentaje?

Existe una correlaci´on entre la altura promedio de cada transecto y el n´umero de frailejones?

Referencias

Documento similar

(1886-1887) encajarían bien en una antología de textos históricos. Sólo que para él la literatura es la que debe influir en la historia y no a la inversa, pues la verdad litera- ria

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)