Universidad Nacional Autónoma de México

(1)

Facultad de Qu´ımica, UNAM

Curso b´

asico sobre R

1

Marcelo F. Lugo L.

Enero de 2015

1_{Basado en: Alain F. Zuur, Elena N. Ieno, Erik H.W.G.Meesters, A beginner’s Guide}

(2)

Introducci´

on

R es un lenguaje de computadora que permite escribir funciones, efectuar c´ alcu-los, aplicar muchas t´ecnicas de estad´ıstica, crear gr´aficos e incluso escribir bi-bliotecas de funciones propias.

Adem´as R es gratuito.

Muchas personas no lo usan porque R tiene una curva de aprendizaje. Su uso requiere de la programación y aunque existen varias versiones gráficas es muy dif´ıcil prescindir de la programación.

En general, la curva de aprendizaje requiere de utilizar la programación ya hecha por otras personas y modificarla de acuerdo con las necesidades del usua-rio. R fue desarrollado principalmente para cálculo estad´ıstico, por lo que se tiene una doble curva de aprendizaje, una para la programación y otra para la estad´ıstica.

(3)

La instalaci´

on

La instalación del programa requiere primero de su adquisición a través de www.r-project.org, luego se selecciona un sitio (cran= Comprehensive R Archive Network ) para descargar el programa en la computadora e instarlarlo.

La primera impresi´on

A diferencia de la mayor´ıa de lo programas comerciales, la ventana inicial de R s´olo contiene algunos “botones” con opciones.

Esto es común en muchos programas de distribución libre como Python, Maxima, LaTeX, POV-Ray, etcétera.

La figura 1 muestra la ventana de inicio a la que llamaremos una sesi´on de R.

(4)

(5)

Como muchos otros programas, es posible tener varias sesiones abiertas si-mult´aneamente, cada una con su propio proceso.

A partir del s´ımbolo “>”, se puede iniciar cualquier operaci´on admitida por el programa o bien ejecutar cualquiera de las funciones que tiene integradas.

Para empezar, a continuación del s´ımbolo “>” pulse 2 + 2 y luego la tecla “Enter”, con lo que en la ventana de la sesión aparecerá:

> 2 + 2 [1] 4

más adelante se describirá el significado de [1], por lo que ahora sólo observa-remos la respuesta: 4, como ya se esperaba.

(6)

R se instala con manuales de ayuda.

En el men´u Ayuda se encuentran varias opciones para solicitar ayuda y para leer los manuales.

Por ejemplo, la opci´on FAQ en R del men´u Ayuda, despliega las preguntas y respuestas que se han presentado con mayor frecuencia a lo largo del tiempo.

La mayor parte de la información y ayuda existente en la actualidad está escrita en inglés, sin embargo, también hay mucha informacion en español y en otros idiomas. Quizás la forma más rápida de encontrar la solución a algunas de las preguntas se logra escribiéndolas en el “browser” preferido y dejar que los motores de búsqueda muestren las opciones disponibles en internet.

Independientemente del idioma, los comandos siempre son los mismos en R, de modo que cuando se copian una o m´as instrucciones encontradas en la red y se “pegan ” en la ventana de una sesi´on de R, es posible observar los resultados y hacer las modificaciones pertinentes al problema que se desea resolver.

(7)

La finalizaci´

on de una sesi´

on

Para teminar una sesión en R basta con escribir en la consola el comando q(), con lo que apaecerá un cuadro de diálogo en el que se decide si se guarda o no el conjunto de instrucciones que se hayan usado hasta el momento, o bien se cancela la finalización de la sesión para continuar trabajando en R.

(8)

La inserci´

on de datos

Además de que el programa se puede utilizar como una calculadora común, en muchas ocasiones lo que se utilizan son datos o parámetros.

As´ı, podr´ıan insertarse datos como: > a <- 59

> b <- 55 > c <- 53.5 > d <- 53 > e <- 52.5

El s´ımbolo “<-” es el de asignación de valores, aunque también se puede usar “=” en su lugar. As´ı, al escribir a y luego la tecla Enter se obtendrá

> a [1] 59

(9)

El programa acepta nombres alfanum´ericos: > paso1 <- 11 > paso2 <- 13 > paso3 <- 15 > paso4 <- 17 > paso5 <- 19

y es posible efectuar operaciones > paso1 + paso2

[1] 24

Aunque el programa efect´ua las operaciones, no almacena los resultados, por lo que es mejor definir, si es necesario, nuevas variables, como

> resultado1 <- paso1 + paso2 > resultado1

(10)

La concatenaci´

on de datos con la funci´

on c

Cuando se registran datos experimentales de una o dos variables, lo conveniente es insertarlos como sigue:

> x <- c(1, 2, 3, 7, 11, 13, 17, 19, 23, 29) > x

[1] 1 2 3 7 11 13 17 19 23 29

donde la funci´on c ha creado un vector de longitud 10, que se puede conocer como sigue:

> length(x) [1] 10

Los elementos o componentes del vector x se llaman como sigue, por ejemplo, los elementos 1, 4, y 9:

(11)

[1] 1 > x[4] [1] 7 > x[9] [1] 23 o bien > x[1]; x[4]; x[9] [1] 1 [1] 7 [1] 23 o elementos consecutivos > x[3:7] [1] 3 7 11 13 17

(12)

> x[-2]

[1] 1 3 7 11 13 17 19 23 29

como puede observarse, el signo “−” omite al valor del elemento. Es posible utilizar otras funciones con los vectores, por ejemplo > sum(x) #la suma de los valores de x

[1] 125

> max(x) #el mayor valor contenido en x [1] 29

> mean(x) #la media o promedio del conjunto de valores de x [1] 12.5

> sd(x) #la desviaci´on t´ıpica o est´andar de x [1] 9.489761

(13)

Supongamos que registramos otra variable y la insertamos en R: > y <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

y deseamos aplicar un modelo de regresi´on lineal > M <- lm(y~x) > M Call: lm(formula = y ~ x) Coefficients: (Intercept) x 1.5595 0.3152

(14)

Para ver con detalle lo que contiene la variable M obtenida despu´es de aplicar la funci´on lm se escribe

> names(M)

[1] "coefficients" "residuals" "effects" [4] "rank" "fitted.values" "assign" [7] "qr" "df.residual" "xlevels" [10] "call" "terms" "model"

Entonces

> M$coefficients

(Intercept) x 1.5595312 0.3152375

contiene los parámetros (intersección y pendiente) del modelo lineal que, para efectos de cálculos posteriores, se pueden almacenar o guardar usando

(15)

> pendiente <- M$coefficients[[2]] > interseccion

[1] 1.559531 > pendiente [1] 0.3152375

Los gr´aficos de los datos

Si se consideran los vectores x y y, dados ya anteriormente: > x <- c(1, 2, 3, 7, 11, 13, 17, 19, 23, 29)

> y <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

y se desea trazar un gr´afico que los represente com oparejas de puntos en un plano cartesiano, lo primero que debe considerarse es que ambos vectores tengan la misma “longitud”, es decir, el mismo n´umero de datos como sigue:

(16)

[1] 10 > length(y) [1] 10

como puede observarse, ambos vectores contienen el mismo n´umero de datos, es decir, son de la misma longitud, por lo que el trazo de un gr´afico se puede hacer como sigue:

> plot(x,y)

con esta función, se abrirá una ventana en la que aparecerá el gráfico, como en la figura 52. Es importante recordar que no existe el verbo “graficar”, as´ı que cada vez que se hable de un gráfico se refiere al resultado de trazar puntos, segmentos de recta o de curva en un gráfico.

(17)

(18)

N´otese que, a diferencia de muchos otros programas, basta insertar como argumento los nombres de la variables o vectores ya definidos.

Los gráficos en R se trazan de la manera más simple posible. Como puede verse en la figura 52, la función plot muestra todos los puntos dentro de una escala ajustada automáticamente, sin intervención del usuario.

Sin embargo, como se verá más adelante, es posible añadir elementos infor-mativos al gráfico.

Debe tomarse en cuenta que cada vez que se utiliza la función plot, se crea una nueva ventana para el gráfico en cuestión.

En cada ventana de un gráfico es posible añadir varios conjuntos de datos, con la condición de que el trazo de cada conjunto estará limitado a la escala establecida de acuerdo con el primer conjunto de datos que se hayan trazado.

(19)

Los vectores con elementos NA

Suponga que se tienen las siguientes variables

> Wingcrd <- c(59, 55, 53.5, 55, 52.5, 57.5, 53, 55)

> Tarsus <- c(22.3, 19.7, 20.8, 20.3, 20.8, 21.5, 20.6, 21.5) > Head <- c(31.2, 30.4, 30.6, 30.3, 30.3, 30.8, 32.5, NA) > Wt <- c(9.5, 13.8, 14.8, 15.2, 15.5, 15.6, 15.6, 15.7) y que se desea conocer la suma de los valores del vector Head > sum(Head)

[1] NA

como puede verse, la respuesta del programa no es la esperada, pues el ´ultimo dato o elemento del vector es NA (Not Available).

Sin embargo, a pesar de esto, es posible calcular la suma si se hace lo siguiente: > sum(Head, na.rm = TRUE)

(20)

[1] 216.1

donde na.rm (rm=remove) indica al programa que omita la presencia de elemen-tos NA y la respuesta corresponde al cálculo de los valores numéricos solamente. Cuando se utilizan otras funciones también es válido usar na.rm=TRUE para omitir toda presencia de NA.

La combinaci´

on de variables

Hasta ahora se tienen cuatro vectores o variables con datos. Recordando que la funci´on c se usa para concatenar valores o variables se puede crear una nueva variable:

BirdData <- c(Wingcrd, Tarsus, Head, Wt) por lo que

(21)

[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 22.3 19.7 20.8 [12] 20.3 20.8 21.5 20.6 21.5 31.2 30.4 30.6 30.3 30.3 30.8 [23] 32.5 NA 9.5 13.8 14.8 15.2 15.5 15.6 15.6 15.7

que es un vector con 32 elementos o de longitud 32, pero aparecen de tal manera que es indistinguible a cu´al de las variables corresponde cada valor.

Los n´umeros [1], [12] y [23] son el ´ındice del primer elemento de cada rengl´on.

Es posible construir un vector con valores de identificaci´on. Sabemos que la longitud de cada variable es de 8, por lo que:

> Id <- rep(c(1, 2, 3, 4), each = 8) > Id

[1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 [28] 4 4 4 4 4

(22)

As´ı, el vector Id contiene 32 elementos, numéricos, que permiten identificar a cuál variable corresponden los elementos de BirdData, revisando simplemente la lista de valores y la de identificación. También

> Id <- rep(1 : 4, each = 8) > Id

[1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 [28] 4 4 4 4 4

Como puede advertirse, escribir c(1, 2, 3, 4) es equivalente a escribir 1:4 > 1:4

[1] 1 2 3 4

Otra forma de crear la secuencia de valores: > a <- seq(from = 1, to = 4, by = 1) > a

(23)

[1] 1 2 3 4

Hasta aqu´ı s´olo se han concatenado valores, pero supongamos que nos in-teresa crear un vector Id2 de longitud 32 y que contenga la palabra “Wingcrd” 8 veces, la palabra “Tarsus” 8 veces, etc´etera.

Se crea primero al vector VarNames:

> VarNames <- c("Wingcrd", "Tarsus", "Head", "Wt") > VarNames

[1] "Wingcrd" "Tarsus" "Head" "Wt"

Debe notarse que estos son nombres y no variables, entonces > Id2 <- rep(VarNames, each = 8)

> Id2

[1] "Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" "Wingcrd" [6] "Wingcrd" "Wingcrd" "Wingcrd" "Tarsus" "Tarsus" [11] "Tarsus" "Tarsus" "Tarsus" "Tarsus" "Tarsus"

(24)

[16] "Tarsus" "Head" "Head" "Head" "Head" [21] "Head" "Head" "Head" "Head" "Wt" [26] "Wt" "Wt" "Wt" "Wt" "Wt" [31] "Wt" "Wt"

y si se omitiera each=, se obtenr´ıa > rep(VarNames, 8)

[1] "Wingcrd" "Tarsus" "Head" "Wt" [5] "Wingcrd" "Tarsus" "Head" "Wt" [9] "Wingcrd" "Tarsus" "Head" "Wt" [13] "Wingcrd" "Tarsus" "Head" "Wt" [17] "Wingcrd" "Tarsus" "Head" "Wt" [21] "Wingcrd" "Tarsus" "Head" "Wt" [25] "Wingcrd" "Tarsus" "Head" "Wt" [29] "Wingcrd" "Tarsus" "Head" "Wt"

(25)

> Z <- cbind(Wingcrd, Tarsus, Head, Wt) > Z

Wingcrd Tarsus Head Wt [1,] 59.0 22.3 31.2 9.5 [2,] 55.0 19.7 30.4 13.8 [3,] 53.5 20.8 30.6 14.8 [4,] 55.0 20.3 30.3 15.2 [5,] 52.5 20.8 30.3 15.5 [6,] 57.5 21.5 30.8 15.6 [7,] 53.0 20.6 32.5 15.6 [8,] 55.0 21.5 NA 15.7

Si se dese tener acceso a los datos de la primera columna: > Z[,1]

[1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0

(26)

> Z[1:3,1]

[1] 59.0 55.0 53.5

Para conocer el segundo rengl´on: > Z[2, ]

Wingcrd Tarsus Head Wt 55.0 19.7 30.4 13.8

Otras operaciones de acceso a los datos de Z:

> Z[1, 1] #acceso al primer valor de Wingcrd Wingcrd

(27)

> Z[,2:3] #todos los datos de las columnas 2 y 3 Tarsus Head [1,] 22.3 31.2 [2,] 19.7 30.4 [3,] 20.8 30.6 [4,] 20.3 30.3 [5,] 20.8 30.3 [6,] 21.5 30.8 [7,] 20.6 32.5 [8,] 21.5 NA

> X<-Z[4, 4] #el peso de la cuarta ave > X

Wt 15.2

(28)

> Y<-Z[,4] #igual que Wt > Y

[1] 9.5 13.8 14.8 15.2 15.5 15.6 15.6 15.7

> W<-Z[,-3] #W contiene todas las variables, excepto Head > W Wingcrd Tarsus Wt [1,] 59.0 22.3 9.5 [2,] 55.0 19.7 13.8 [3,] 53.5 20.8 14.8 [4,] 55.0 20.3 15.2 [5,] 52.5 20.8 15.5 [6,] 57.5 21.5 15.6 [7,] 53.0 20.6 15.6 [8,] 55.0 21.5 15.7

(29)

> D<-Z[, c(1, 3, 4)] #D contiene las columnas 1, 3 y 4 de Z > D Wingcrd Head Wt [1,] 59.0 31.2 9.5 [2,] 55.0 30.4 13.8 [3,] 53.5 30.6 14.8 [4,] 55.0 30.3 15.2 [5,] 52.5 30.3 15.5 [6,] 57.5 30.8 15.6 [7,] 53.0 32.5 15.6 [8,] 55.0 NA 15.7

(30)

> E<-Z[, c(-1, -3)] #E contiene las columnas 2 y 4 de Z > E Tarsus Wt [1,] 22.3 9.5 [2,] 19.7 13.8 [3,] 20.8 14.8 [4,] 20.3 15.2 [5,] 20.8 15.5 [6,] 21.5 15.6 [7,] 20.6 15.6 [8,] 21.5 15.7

El acceso a los datos de cualquiera de las variables que se han definido an-teriorment es importante tomar en cuenta el n´umero de renglones y columnas de cada variable para evitar escribir ´ındices que no corresponden a la variable, por ejemplo, al escribir Z[4,1], nos referimos al rengl´on 4 y la columna 1 de Z

(31)

> Z[4,1] Wingcrd

55

Y si escribimos > E[4,3]

Error en E[4, 3] : sub´ındice fuera de los l´ımites

se observa el hecho de que la variable E no tiene una tercera columna, aunque el aviso de error no lo especifica, indicando simplemente que la variable tiene menos de 4 renglones o tiene menos de 3 columnas.

Para conocer el n´umero de renglones y columnas basta con escribir: > dim(Z)

[1] 8 4

(32)

La funci´on rbind permite combinar variables en renglones: > Z2 <- rbind(Wingcrd, Tarsus, Head, Wt)

> Z2 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] Wingcrd 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0 Tarsus 22.3 19.7 20.8 20.3 20.8 21.5 20.6 21.5 Head 31.2 30.4 30.6 30.3 30.3 30.8 32.5 NA Wt 9.5 13.8 14.8 15.2 15.5 15.6 15.6 15.7

La combinación de datos con la función vector : En lugar de la función c se puede usar la función vector para almacenar datos. Si se conoce la longitud del vector, entonces se puede escribir lo siguiente:

> W <- vector(length = 8) > W[1]<- 59

> W[2]<- 55 > W[3]<- 53.5

(33)

> W[4]<- 55 > W[5]<- 52.5 > W[6]<- 57.5 > W[7]<- 53 > W[8]<- 55 > W [1] 59.0 55.0 53.5 55.0 52.5 57.5 53.0 55.0

Nótese que el resutlado es prácticamente igual al de la función c, excepto que con la función vector es posible definir de antemano la longitud del vector, que se puede utilizar en tareas que incluyan ciclos, por ejemplo.

Tambi´en se pueden combinar datos mediante la funci´on matrix . Primero se crea la matriz y se observa su contenido:

> Dmat <- matrix(nrow = 8, ncol = 4) > Dmat

(34)

[,1] [,2] [,3] [,4] [1,] NA NA NA NA [2,] NA NA NA NA [3,] NA NA NA NA [4,] NA NA NA NA [5,] NA NA NA NA [6,] NA NA NA NA [7,] NA NA NA NA [8,] NA NA NA NA

Lo que se observa es la creaci´on de una matriz vac´ıa. Para llenarla se hace lo siguiente:

> Dmat[,1]<- c(59, 55, 53.5, 55, 52.5, 57.5, 53, 55)

> Dmat[,2]<- c(22.3, 19.7, 20.8, 20.3, 20.8, 21.5, 20.6, 21.5) > Dmat[,3]<- c(31.2, 30.4, 30.6, 30.3, 30.3, 30.8, 32.5, NA) > Dmat[,4]<- c(9.5, 13.8, 14.8, 15.2, 15.5, 15.6, 15.6, 15.7)

(35)

Ahora: > Dmat [,1] [,2] [,3] [,4] [1,] 59.0 22.3 31.2 9.5 [2,] 55.0 19.7 30.4 13.8 [3,] 53.5 20.8 30.6 14.8 [4,] 55.0 20.3 30.3 15.2 [5,] 52.5 20.8 30.3 15.5 [6,] 57.5 21.5 30.8 15.6 [7,] 53.0 20.6 32.5 15.6 [8,] 55.0 21.5 NA 15.7

Como puede observarse, el resultado es casi el mismo que el que se obtuvo con la funci´on cbind, excepto que Dmat carece de encabezados, pues no se han escrito aun.

(36)

Para asignar nombres a las columnas se puede utilizar la funci´on colnames : > colnames(Dmat) <- c("Wingcrd", "Tarsus", "Head","Wt")

> Dmat

Hasta aqu´ı, el proceso de la construcci´on de la matriz ha sido largo, sin em-bargo, recordando que ya se tienen los vectores Wingcrd, Tarsus, Head, Wt, entonces:

(37)

> Dmat2 <- as.matrix(cbind(Wingcrd, Tarsus, Head, Wt)) > Dmat2

como ya se hab´ıa obtenido anteriormente.

Otra función útil para la combinación de datos es data.frame , as´ı:

> Dfrm <- data.frame(WC = Wingcrd, TS = Tarsus, HD = Head, W = Wt) > Dfrm

(38)

WC TS HD W 1 59.0 22.3 31.2 9.5 2 55.0 19.7 30.4 13.8 3 53.5 20.8 30.6 14.8 4 55.0 20.3 30.3 15.2 5 52.5 20.8 30.3 15.5 6 57.5 21.5 30.8 15.6 7 53.0 20.6 32.5 15.6 8 55.0 21.5 NA 15.7

Con este tipo de datos es posible hacer otras operaciones sin alterar a Dfrm, por ejemplo:

> M <- lm(WC~Wt, data = Dfrm) > M

(39)

Call: lm(formula = WC ~ Wt, data = Dfrm) Coefficients: (Intercept) Wt 65.5315 -0.7239 o bien > summary(M) Call: lm(formula = WC ~ Wt, data = Dfrm) Residuals:

Min 1Q Median 3Q Max -1.8115 -1.2589 -0.0984 0.5618 3.2609

(40)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 65.5315 4.6113 14.211 7.59e-06 *** Wt -0.7239 0.3159 -2.291 0.0618 .

---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.757 on 6 degrees of freedom

Multiple R-squared: 0.4666, Adjusted R-squared: 0.3777 F-statistic: 5.249 on 1 and 6 DF, p-value: 0.06184

(41)

Almacenamiento de la tabla de valores

Si por alguna razón se desea almacenar a Dfrm en un archivo se puede proce-der como sigue, primero se especifica el directorio, mediente la funcion setwd , en el que se almacenará o guardará la informacion y luego se utiliza la función

write.table o write.csv para guardar la tabla en un archivo: > setwd("d:/Working/Quimica/Ejercicios/Presentaciones/") > write.table(Dfrm,"Dfrm.txt")

donde "d:/Working/Quimica/Ejercicios/Presentaciones/" indica el direc-torio en el que se almacenará el archivo y write.table(Dfrm,"Dfrm.txt") es la instrucción que contiene como argumento el objeto Dfrm que se almacenará en el archivo Dfrm.txt.

Seleccione el archivo Dfrm.txt en el directorio especificado y verifique que el contenido es el esperado.

(42)

Si se desea suprimir los n´umeros de rengl´on y los encabezados de las columnas basta con escribir:

> write.table(Dfrm,"Dfrm.txt", row.names=FALSE, col.names=FALSE) con lo que el archivo de texto guardado aparecerá sin los números de renglón y sin los encabezados.

Una vez que se ha especificado el directorio de almacenamiento de archivos, es posible almacenar el contenido de Dfrm con otro formato:

> write.csv(Dfrm,"Dfrm.csv", row.names=FALSE) donde las siglas “csv” significan comma separated values.

Este tipo de archivo es común, y es posible editarlo con hojas de cálculo como MS Excel. Para los usuarios acostumbrados a MS Excel, los archivos de datos separados por comas son muy atractivos, aunque pronto dejarán a un lado a dicho programa cuando consideren la eficiencia y facilidad de uso de R.

(43)

El trazo de gr´

aficos y sus opciones

Aunque ya se ha dado un ejemplo del trazo de gráficos es ahora cuando inicia-remos un uso más completo en la presentación de gráficos de datos.

El primer tipo de gráfico que estudiaremos será el de dispersión.

Un gráfico de dispersión de datos de dos variables x y y se presenta en R con la función plot como se describe a continuación.

Suponga que se tienen dos conjuntos de datos: > x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) > y <- c(1, 2, 3, 7, 11, 13, 17, 19, 23, 29)

Para representarlos como puntos en un gr´afico de dispersi´on como puntos en el plano, basta con escribir

(44)

El programa presenta una venta-na exclusiva para el trazo de los gráficos como el de la figura 53. Nótese que se trata del gráfico de dispersión más sencillo que per-mite la función plot.

Si el usuario est´a satisfecho con este tipo de gr´afico, puede quedarse tal com se observa.

Para usuarios más exigentes, la función plot tiene opciones que pueden modificar la presen-tación del gráfico, como por ejem-plo, se pueden cambiar las

(45)

El usuario puede especificar las etiquetas de los ejes como sigue: > plot(x,y, xlab="variable independiente",

ylab="variable dependiente")

(46)

El usuario puede especificar los s´ımbolos de los puntos: > plot(x,y, xlab="variable independiente",

ylab="variable dependiente", pch=0)

Fig. 5. Se pueden tener diferentes s´ımbolos (pch=0, 1, 2..., 25, o cracteres ASCII) para trazar los puntos.

(47)

Los s´ımbolos pueden aparecer unidos mediante segmentos de recta: > plot(x,y, xlab="X", ylab="Y", pch=16, type="b")

(48)

O simplemente segmentos de recta:

> plot(x,y, xlab="X", ylab="Y", type="l")

(49)

Tambi´en se puede dar color:

> plot(x,y, xlab="X", ylab="Y", type="b", pch=19, col=2)

(50)

Se puede cambiar el espesor de la l´ınea:

> plot(x,y, xlab="X", ylab="Y", type="b", pch=19, col=2, lwd=3)

(51)

Se puede a˜nadir una ret´ıcula alineada con las marcas de la escala: > plot(x,y, xlab="X", ylab="Y", pch=19,col=4,

panel.first=grid(col="orange"))

(52)

Se puede a˜nadir un t´ıtulo y un subt´ıtulo:

> plot(x,y, xlab="X", ylab="Y", main="T´ıtulo", sub="Subt´ıtulo", pch=19, col=4, panel.first=grid(col=3))

(53)

M´

as de un grupo de datos en los gr´

aficos

Hasta ahora, olamente se ha utilizado un par de vectores que contienen el mismo n´umero de datos, es decir, son vectores de la misma longitud.

En muchas ocasiones se tiene la necesidad de trazar más de un par de vectores o variables en un gráfico de dispersión o bien comparar dos gráficos por separado. A continuación consideraremos dos conjuntos de datos de dos variables cada uno, es decir, como si se tratara de datos de dos experimentos, a saber,

x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) y <- c(1, 2, 3, 7, 11, 13, 17, 19, 23, 29) y

xx <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)

yy <- c(0.7, 4.5, 10, 15, 23, 38, 50, 61, 85)

(54)

Tracemos primero las variables o vectores x y y, con puntos de color azul:

plot(x,y, xlab="X", ylab="Y", pch=19, col=4,

panel.first=grid(col= "orange"))

Fig. 12.Gr´afico de dispersi´on de las varia-bles x y y.

(55)

El trazo de xx y yy en el mismo gr´afico con puntos en color rojo se hace con la funci´on points : points(xx, yy, pch=19,

col=2)

Como puede observarse, s´olo aparecen cinco de los diez pun-tos, debido a que la escala qued´o definida a partir del primer par de variables.

Fig. 13.Aparecen s´olo algunos puntos del segundo par devariables.

(56)

Entonces lo conveniente es tra-zar primero xx y yy y despu´es x y y plot(xx,yy, xlab="X", ylab="Y", pch=19, col=4, panel.first=grid(col= "orange")) points(x, y, pch=19, col=2) Como puede observarse en la figura 29.

Fig. 14.Aparecen todos los puntos de las cuatro variables.

(57)

En otras condiciones, a veces se requiere de trazar las parejas de variables en gr´aficos separados.

Ya se usó la función plot que abre una ventana para trazar un gráfico de dispersión o bien traza el gráfico en una ventana gráfica ya abierta.

Para trazar otro gráfico en otra ventana gráfica se usa la función windows() que permite abrir una ventana gráfica vac´ıa, que permite insertar varios tipos de gráficos demás de los gráficos de dispersión. Más adelante se considerará el contenido del argumento de esta función, que permite especificar las condiciones en las que se abre cada nueva ventana, Dado que por ahora el argumento está vac´ıo, la ventana gráfica que se abre tiene las especificaciones establecida por omisión.

El hecho de crear más de una ventana gráfica permite mover a cada una a través de la consola o ventana de una sesión de manera independiente. A continuación se describe el proceso de creación de más de una ventana gráfica.

(58)

plot(x,y, xlab="X", ylab="Y", pch=19, col=4, panel.first=grid(col="orange"))

windows()

plot(xx,yy, xlab="X", ylab="Y", pch=19, col=4, panel.first=grid(col="orange"))

(59)

Varios gr´

aficos en una misma ventana

Además de que es posible abrir varias ventanas gráficas que pueden contener diferentes tipos de gráficos, en R existe la función par con una gran cantidad de opciones en su argumento para especificar una gran cantidad de parámetros en la presentación de gráficos.

Entre otras opciones, la función par permite la creación de espacios para más de un gráfico en una ventana gráfica.

Por ejemplo, al hacer an´alisis multivariante se puede crear una “matriz” de gr´aficos que permiten visualizar las dispersiones de datos entre varias parejas de variables.

A continuación se describe cómo se presentarán los gráficos correspondientes a las parejas x y y en un gráfico y xx y yy en otro gráfico, pero dentro de una misma ventana gráfica.

(60)

par(mfrow=c(1,2))

plot(x,y, xlab="X", ylab="Y", pch=19, col=4, panel.first= grid(col="orange"))

plot(xx,yy, xlab="XX", ylab="YY", pch=19, col=4, panel.first= grid(col="orange"))

La función par(mfrow=c(1,2)), indica que la ventana contendrá dos espacios para gráficos, uno al lado de otro, as´ı, en cuanto se escribe esta función y se pulsa la tecla “Retorno” en el teclado, aparece una ventana vac´ıa, del mismo modo que cuando se usó la función windows, excepto que en este caso se ha especificado que la ventana tendrá reservados dos espacios uno a la derecha del otro. En el primer espacio se trazará el gráfico de dispersión de las variables x y y usando la función plot y en el espacio a la derecha del primero se trazará el gráfico de dispersión de las variables xx y yy también con la función plot.

En la figura 51 se observa el resultado de la aplicaci´on de los comandos anteriores.

(61)

(62)

Es posible construir ventanas gráficas con más gráficos cambiando los valores de par(mfrow=c(m,n)), donde m es el número de renglones y n el número de columnas que se dejarán como espacios para insertar gráficos.

A partir de ahora los gr´aficos se presentar´an sin la ventana que se ha venido presentando hasta este momento, pues se trataba de capturas de la pantalla.

Si bien las capturas de pantalla tienen la calidad suficiente para presentarlas en este documento, se hará uso de la capacidad de R para exportar los gráficos en diferentes formatos y estos serán los que se presentarán a continuacion.

(63)

El control de la presentaci´

on de los gr´

aficos

Como el usuario ya se habrá percatado, los márgenes alrededor de un gráfico en una ventana gráfica son amplios.

La separación entre los valores de la escalas también son bastante amplios, por lo que resultar´ıa útil o estéticamente más atractivo cambiar estas condicio-nes.

Como ya se mencionó anteriormente, la función par tiene muchas opciones para ajustar muchos parámetros (utilice help(par)) para consultar el manual.

En primer lugar se ajustarán los márgenes alrededor del gráfico.

La l´ınea de comandos par(mar=c(0, 0, 0, 0)) abre una ventana gr´afica vac´ıa y ajusta los m´argenes inferior, izquierdo, superior y derecho a cero, 0, como sigue:

(64)

> par(mar=c(0, 0, 0, 0))

> plot(x,y, xlab="X", ylab="Y", pch=19, col=4, panel.first=grid(col="orange"))

Fig. 17.Los m´argenes externos se ajustaron a cero, 0.

N´otese que desapareci´o el espacio necesario para la escala y sus marcas, e incluso tampoco queda espacio para escribir t´ıtulo ni subt´ıtulo.

(65)

El modo más conveniente para controlar los ajustes que el programa utiliza por omisión consiste en conocer algunas funciones más, tanto para el control de las marcas de las escalas como los valores numéricos de las mismas.

En el ejercicio que se presenta a continuación se ha pretendido optimizar todos los parámetros, pero el usuario los puede ajustar según su deseo o nece-sidades.

Teniendo en mente que se optimizar´a el espacio para el trazo de los gr´aficos, inserte los comandos siguientes:

> par(mar=c(3, 2, 1, 0.1))

> plot(x, y, axes = FALSE, xlab = NA, ylab = NA, type="n", panel.first=grid(col="orange"))

La primera l´ınea de comandos establece los márgenes inferior, izquierdo, superior y derecho dentro de los cuales se insertará el gráfico, como puede verse, los valores numéricos corresponden a los márgenes.

(66)

En el ejercicio anterior se ob-serv´o que un margen de cero no deja espacio ni para que se mues-tren los l´ımites de la caja que con-tiene al gr´afico.

La segunda l´ınea de comandos inserta un gr´afico sin ejes (axes = FALSE), sin etiquetas en los ejes (xlab = NA y ylab = NA), sin puntos de los datos (type="n") pero s´ı con la ret´ıcula.

(67)

Para crear un marco dentro del cual se inserta el gráfico se usa la función box . Usando esta función y points, se obtiene lo que se observa en la figura 54. > box(col=4)

> points(x,y, pch=19, type="b", col=2)

Nótese que ya es posible ob-servar los márgenes alrededor del gráfico, que se han reservado pa-ra incluir las escalas, sus marcas

y otros textos. _{Fig. 19}_. _Gr´_{afico de dispersi´}_{on con marco}

(68)

Ahora, se colocarán las marcas de la escala dentro del gráfico, co-mo en la figura 42. La función que permite colocar las marcas de es-cala es axis .

> axis(side = 1, tck = .01, labels = NA, col=4) donde side=1 se refiere al lado in-ferior de la gráfica; el parámetro tck=0.01 indica que las marcas de la escala tienen una longitud de un centésimo de la altura del gráfico. El parámetro labels=NA inhibe la colocación automática de los valores numéricos de la es-cala.

Fig. 20.Gráfico de dispersión al que se ha añadido las marcas de la escala.

(69)

Ahora, se colocar´an los valores num´ericos de la escala, como en la figura 43:

> axis(side = 1, lwd = 0, line = -0.9, col=4) donde lwd=0 inhibe la colocación automática de las marcas de la escala en tanto que line = -0.9 indica la posición en ala que se colocan los valores numéricos de la escala.

Fig. 21.Gráfico de dispersión al que se ha añadido los valores numéricos de la escala.

(70)

Ahora, se colocar´an los valores num´ericos y las marcas de la es-cala, como en la figura 44:

> axis(side = 2, tck = .01, labels = NA, col=4) > axis(side = 2, lwd = 0,

line = -0.9, las = 1, col=4)

donde side=2 se refiere al mar-gen izquierdo del gráfico y las=1 cambia la orientación de los va-lores numéricos de la escala, ve-rifique esto último omitiendo el parámetro las=1 en la función

axis. Fig. 22. Gr´afico de dispersi´on con marcas

(71)

Ahora, se insertar´a la etiqueta del eje horizontal con la funci´on mtext : > mtext(side = 1, "x [unidades]", line = 1)

(72)

Ahora, se insertar´a la etiqueta del eje vertical: > mtext(side = 2, "y [unidades]", line = 1.2)

(73)

Ahora, se insertar´a el subt´ıtulo:

> mtext(side = 1, "Subt´ıtulo", line = 2)

(74)

Finalmente se insertar´a el t´ıtulo:

> mtext(side = 3, "T´ıtulo", line = 0)

(75)

Quizás esta forma de ir insertando elementos paso a paso haga pensar al usuario que se trata de un proceso tedioso, pero si se copian todas las instruc-ciones y se pegan en R para su compilación, se observará la rapidez con la que se puede trazar un gráfico una vez que se han especificado razonablemente todos los parámetros.

El script completo es:

x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) y <- c(1, 2, 3, 7, 11, 13, 17, 19, 23, 29) par(mar=c(3, 2, 1, 0.1))

plot(x, y, axes = FALSE, xlab = NA, ylab = NA, type="n", panel.first=grid(col="orange"))

box(col=4)

points(x,y, pch=19, type="b", col=2)

axis(side = 1, tck = .01, labels = NA, col=4) axis(side = 1, lwd = 0, line = -0.9, col=4)

(76)

axis(side = 2, tck = .01, labels = NA, col=4)

axis(side = 2, lwd = 0, line = -0.9, las = 1, col=4) mtext(side = 1, "x [unidades]", line = 1)

mtext(side = 2, "y [unidades]", line = 1.2) mtext(side = 1, "Subt´ıtulo", line = 2) mtext(side = 3, "T´ıtulo", line = 0)

(77)

El trazo de un histograma

Además de los gráficos de dispersión, a veces se necesita trazar histogramas de frecuencias para observar la forma en la que se distribuyen los datos de las mediciones de una variable aleatoria.

A continuación se describirá la construcción de un histograma de frecuencias para representar una distribución de datos.

La generaci´on de n´umeros aleatorios

Supongamos que los valores de la variable aleatoria son los que se presentan a continuaci´on y que se asignan al vector x. Los valores se generan usando la funci´on rnorm :

(78)

Esta función genera 157 números aleatorios con distribución gaussiana con media mean y desviación t´ıpica sd ; si se omiten dichos parámetros, entonces se considera un adistribución normal, con media igual a cero y desviación t´ıpica igual a 1.

En este ejercicio el lector no debe esperar obtener un gráfico igual al que se obtiene de la distribución de datos, pues en cada computadora los valores aleatorios generados son diferentes. Sin embargo, a grosso modo, los histogramas se pareceran en algo, pues proceden de l amisma función generadora.

Adicionalmente a esto, el lector puede generar un conjunto de n´umeros alea-torios diferente si usa otro valor que no sea 157, y una media y desviaci´on t´ıpica de su agrado. A pesar de que puedan presentarse diferencias notables, el procedimiento es el mismo en todos los casos.

Para trazar el histograma se usa la funci´on hist que resulta en el gr´afico de la figura 27:

(79)

> hist(x)

(80)

As´ı, se ha logrado trazar el histograma de frecuencias del modo más simple posible en R, dejando que el programa aplique los parámetros de construcción que tiene ya por omisión.

Sin embargo, lo que conviene es utilizar la l´ınea de comandos que se presenta más abajo, en la que la construcción del histograma se asigna a una variable, almacenando as´ı información que, a primera vista, está oculta a los ojos del usuario.

> h <- hist(x)

en este caso, además de que el histograma aparece en una ventana gráfica, los resultados de los cálculos que hace el programa y no se muestran, quedan almacenados en la variable h.

Antes de conocer el contenido de la variable h, quiz´as convenga averiguar algunos valores de la distribuci´on, como:

(81)

> min(x) [1] 2.963557 > max(x) [1] 20.96525 > mean(x) [1] 12.7569 > sd(x) [1] 3.258798

Como puede verse, la media y la desviación t´ıpica difieren de los valores es-pecificados al usar la función rnorm, pero la diferencia no es muy importante por lo que se pueden aceptar los resultados que se obtuvieron con las funciones anteriores (min, max, mean, sd). Después de todo, la función rnorm se utiliza para generar muestras números aleatorios, as´ı que todo va bien hasta ahora.

Al igual que muchas de las funciones de R, hist cuenta con par´ametros definidos por omisi´on. Para conocerlos basta con escribir:

(82)

> h

que es la variable en la que se almacenaron los resultados de la funci´on hist, para que se observe

$breaks [1] 2 4 6 8 10 12 14 16 18 20 22 $counts [1] 2 3 9 15 27 44 34 17 4 2 $density [1] 0.006369427 0.009554140 0.028662420 0.047770701 0.085987261 0.140127389 [7] 0.108280255 0.054140127 0.012738854 0.006369427 $mids [1] 3 5 7 9 11 13 15 17 19 21

(83)

$xname [1] "x" $equidist [1] TRUE attr(,"class") [1] "histogram"

Como puede verse, aparecen los nombres de las secciones que contiene la variable, como cuando escribimos names(hist), solo que ahora el programa muestra tambi´en los valores contenidos en cada secci´on.

Analicemos algunas secciones. Para empezar veamos el contenido de la sec-ci´on breaks.

(84)

[1] 2 4 6 8 10 12 14 16 18 20 22

Al observar el hsitograma y este conjunto de valores se tiene que > min(h$breaks)

[1] 2 y que

> max(h$breaks) [1] 22

y hagamos dos comparaciones:

primero min(h$breaks)<min(x) y luego max(h$breaks)>max(x)

as´ı, la construccion del histograma se hace considerando un intervalo de valores más amplio que x, por lo que la función hist, en su forma más simple, desarrolla los cálculos sin intervención del usuario.

(85)

Luego > h$counts

[1] 2 3 9 15 27 44 34 17 4 2 > length(h$counts)

[1] 10

Se trata de diez valores que contiene la secci´on, que es el mismo n´umero de barras en el histograma. Cada uno de estos valores es igual a la frecuencia del intervalo de clase.

Otro modo de observar los valroes num´ericos de las frecuencias se logra pre-senta´andolos directamente sobre el histograma, como sigue:

> h <- hist(x, labels=TRUE)

Como se puede ver en la figura 28, los valores de las frecuencias aparecen en la parte superior de las columnas del histograma.

(86)

(87)

El número de barras o columnas que aparecen se debe a que el programa utiliza el criterio de Sturges, por omisión, sin embargo, es posible cambiar el número de barras como sigue:

> h <- hist(x, labels=TRUE, breaks=15)

(88)

Tambi´en puede dar color a las barras

> h <- hist(x, labels=TRUE, col="gray")

(89)

Puede asignarse un color espec´ıfico al borde de las barras > h <- hist(x, labels=TRUE, col="gray", border="red")

(90)

Las barras pueden llenarse con un patr´on de l´ıneas

> h <- hist(x, border="red", density=10, angle=45, col="darkgreen")

(91)

La construcci´

on de funciones

R tiene también la opción de que el usuario construya sus propias funciones. Cuando se conoce una función es posible trazarla en un gráfico, de modo semejante al como ya se hizo en ocasiones pasadas.

Las funciones que R permite construir pueden contener uno o m´as argumen-tos, f (x1, x2, ...).

Además, el programa permite construir funciones que tienen consisten en procedimientos completos, como leer archivos de datos, escribir archivos de re-sultados, efectuar los cálculos correspondientes, etcétera.

Considerando que R es un programa /lenguaje que se diseñó originalmente solo para hacer cálculos estad´ısticos y calculo numérico es natural que todo tipo de operaciones se haga alrededor de valores numéricos. Sin embargo, la posibilidad de construir funciones y trazar gráficos mucho más comlicados que los de dispersión han venido haciendo de R un programa muy atractivo.

(92)

La construcci´on de una funci´on simple

En la cinem´atica se acostumbra a tratar con las leyes de Newton, de manera que lo m´as frecuente es escribir las ecuaciones de movimiento de una part´ıcula puntual.

As´ı, la ecuaci´on de movimiento unidimensional de una part´ıcula en un mo-vimiento rectil´ıneo uniforme se expresa

x(t) = x0 + v0t

donde x0 es la posici´on inicial de la part´ıcula y v0 la rapidez de movimiento.

La construcci´on de la ecuaci´on de movimiento en R se hace como sigue: > x0 <- 1

> v0 <- 1.25

(93)

Debe notarse la ausencia del argumento en la definición de la función. Como puede verse, el argumento se encuentra a continuación de function y que los parámetos x0(=x0) y v0(=v0) se han definido previamente, antes de escribir la

funci´on.

Al tratarse de un progrma a base de comandos, se considerar´ıa atractivo que fuese posible excribir ´ındices o sub´ındices en las variables, sin emabrgo, esto no es obst´aculo alguno para programa suficientemente bien lo que se desea.

La evaluaci´on

La simple construcci´on de las funciones no es la meta, lo que se pretende es efectuar evaluaciones e incluso trazar gr´aficos que representen aquello que se desea transmitir.

Empecemos por evaluar la funci´on x, para ello, basta con escribir, por ejem-plo:

(94)

> x(0) [1] 1

como puede verse, el programa eval´ua la funci´on tal como se esperaba, sin problema alguno.

Pero en muchas ocasiones las funciones no se construyen para evaluar punto a punto, se construyen para hacer evaluaciones usando conjuntos de valores.

As´ı, si se desea evaluar la funci´on usando valores t=(0, 1, 2, 3, 4, 5) se procede como sigue:

> t <- seq(0,5,1) > x(t)

[1] 1.00 2.25 3.50 4.75 6.00 7.25

los resultados son los esperados, pero como se acostumbra acad´emicamente, la lectura de valores es m´as atractiva si los resultados se persentan en forma de tabla.

(95)

Dado que ya hemos aprendido a unir variables, entonces podemos escribir: > data.frame(t, x=x(t)) t x 1 0 1.00 2 1 2.25 3 2 3.50 4 3 4.75 5 4 6.00 6 5 7.25

como se esperaba, los resultados aparecen en dos columnas.

El trazo de un gráfico que involucre el uso de funciones se hace prácticamente del mismo modo que cuando se trazaron pares de vectores o variables. R trata a las variables de acuerdo con la estructura de su construcción, en este caso como vectores de n = 6 dimensiones o componentes.

(96)

As´ı, pues, tracemos la función en un gráfico de dispersión. > par(mar=c(3, 2, 1, 0.1))

> plot(t, x(t), axes = FALSE, xlab = NA, ylab = NA, type="n", panel.first=grid(col="orange"))

> box(col=4)

> points(t, x(t), pch=19, type="b", col=2) > axis(side = 1, tck = .01, labels = NA, col=4) > axis(side = 1, lwd = 0, line = -0.9, col=4) > axis(side = 2, tck = .01, labels = NA, col=4)

> axis(side = 2, lwd = 0, line = -0.9, las = 1, col=4) > mtext(side = 1, "t [s]", line = 1)

> mtext(side = 2, "x [m]", line = 1.2)

> mtext(side = 3, "Movimiento rectil´ıneo uniforme", line = 0) En la figura 51 se presenta el gr´afico de dispersi´on.

(97)

(98)

Textos dentro de un gr´afico

Alguna veces es necesario incluir textos descriptivos dentro de un gr´afico, con el fin de resumir explicaciones que pudieanran ser de mayor longtud.

La insercion de textos dentro de un gráfico requiere de localizar un punto dentro del gráfico, de modo que al momento de incluir el texto, éste no que fuera del área visible.

Aunque es posible dar alg´un formato a los textos, por el momento nos limi-taremos a escribir textos sencillo y cortos.

Por ejemplo:

> text(1, 7, "la posici´on inicial xo=1.0 m") > text(1, 6.7, "la rapidez inicial vo=1.25 m/s")

como puede observarse en el gr´afico de la figura 52, el texto queda colocado en el punto (1, 7) y (1, 6.7) y est´a centrado con respecto a dicho punto.

(99)

(100)

Al texto tambi´en se le pueden asignar algunos atributos. Por ejemplo: > text(1, 7, "la posici´on inicial xo=1.0 m", col=2)

> text(1, 6.7, "la rapidez inicial vo=1.25 m/s", col=4)

(101)

O bien, atributos de alineaci´on:

> text(1, 7, "la posici´on inicial xo=1.0 m", pos=4) > text(1, 6.7, "la rapidez inicial vo=1.25 m/s", pos=4)

(102)

Alineaci´on por la derecha:

> text(1, 7, "la posici´on inicial xo=1.0 m", pos=2) > text(1, 6.7, "la rapidez inicial vo=1.25 m/s", pos=2)

(103)

Otras funciones para el trazo de gr´

aficos

Hasta ahora, se han trazado gr´aficos que incluyen s´ımbolos y lineas, combi-nados o por separado, para lo cual se han utilizado las funciones plot y points. Como argumento de plot se incluye el par´ametro type que puede tener valores como type="l" (lines), type="n" (ninguno), type="b" (ambos, l´ıneas y s´ımbolos), type="p" (s´ımbolos) entre otros.

La función points se utiliza sólo para añadir puntos representados por s´ımbo-los en un gráfico creado previamente con la función plot. Los diferentes s´ımbolos se seleccionan con la función pch, como ya se vió anteriormente.

Además existen otras funciones para el trazo de gráficos, entre ellas están lines , segments y arrows . Con estas funciones se pueden añadir elementos a los gráficos creados perviamente con la función plot.

(104)

Primero se utilizar´a el siguiente conjunto de datos:

> x <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)

> y <- c(0.7, 4.5, 10, 15, 23, 38, 50, 61, 85)

y se traza el gr´afico correspondiente

par(mar=c(3, 2, 1, 0.1))

plot(x, y, axes = FALSE, xlab = NA, ylab = NA, pch=19, col=2) box(col=4)

axis(side = 1, tck = .01, labels = NA, col=4) axis(side = 1, lwd = 0, line = -0.9, col=4) axis(side = 2, tck = .01, labels = NA, col=4)

axis(side = 2, lwd = 0, line = -0.9, las = 1, col=4) mtext(side = 1, "x", line = 1)

mtext(side = 2, "y", line = 1.2)

mtext(side = 1, "Ajuste de datos", line = 2) mtext(side = 3, "Par´abola", line = 0)

(105)

experi-Fig. 38.El trazo de los puntos experimentales.

mentales con un s´ımbolo, a saber, un c´ırculo en color rojo. A continuaci´on se construir´a una funcion que se ajuste a los valores expereimentales.

(106)

Ahora haremos un ajuste semejante al de los cuadrados m´ınimos mediante la función lm que ya se encuentra en el programa desde que inició la sesión. Los resultados del cálculo se almacenarán en la variable ajuste.

> ajuste <- lm(y~I(x^2)) > ajuste Call: lm(formula = y ~ I(x^2)) Coefficients: (Intercept) I(x^2) -0.3983 1.0203

Como puede verse, es necesario conocer el contenido de la variable ajuste, para extraer la información necesaria en la construcción de la curva ajustada. La formula tiene la forma de una parábola más que de un arecta, por esa razón, el ajuste se hace usando lm(formula = y ~ I(x^2)). La extracción de los coeficientes del polinomio ajustado se extraen como sigue:

(107)

> a <- ajuste$coefficients[[1]] > b <- ajuste$coefficients[[2]] > a; b

[1] -0.3982932 [1] 1.020297

Con los coeficientes asignados a una variable, es posible construir la funci´on ajustada:

> Y <- function(z) a + b*z^2

que ya se puede usar para hacer evaluaciones, por ejemplo

> tabla <- data.frame(x, Y=Y(x)) > tabla[1:3,]

x Y

1 1 0.6220038 2 2 3.6828947 3 3 8.7843796

(108)

As´ı, ya se puede usar la funci´on lines , como sigue:

> lines(x, Y(x), lty=6, col=4, lwd=2)

(109)

A continuación se trazará una función y se utilizará la función arrows Para hacer algunos señalamientos.

La funci´on es g(x; µ, σ) = A σ√2πe −1 2 x − µ σ 2 donde se usar´an A = 90, µ =12.5 y σ =3.8. > g <- function(x) 90*exp(-0.5*((x-12.5)/3.8)^2)/(3.8*sqrt(2*pi)) > x <- seq(0, 25, length.out=100)

y a continuacion el gr´afico de los cian valores.

> par(mar=c(3, 2, 1, 0.1))

> plot(x, g(x), axes = FALSE, xlab = NA, ylab = NA, type="l") > box(col=4)

> axis(side = 1, tck = .01, labels = NA, col=4) > axis(side = 1, lwd = 0, line = -0.9, col=4)

(110)

> axis(side = 2, tck = .01, labels = NA, col=4)

> axis(side = 2, lwd = 0, line = -0.9, las = 1, col=4) > mtext(side = 1, "x", line = 1)

> mtext(side = 2, "y", line = 1.2)

> mtext(side = 1, "Puntos cr´ıticos", line = 2) > mtext(side = 3, "Gaussiana", line = 0)

(111)

Ahora se añadirán algunos elementos usando la función arrows .

> text(5, 8, "m´aximo", pos=2)

> arrows(5, 8, 12.5, g(12.5), col=2, length=0.1)

Fig. 41. Se identifica al m´aximo de la funci´on.

(112)

> text(12.5, 2, "puntos de inflexi´on", pos=1)

> arrows(12.5, 2, (12.5-3.8), g(12.5-3.8), col=2, length=0.1) > arrows(12.5, 2, (12.5+3.8), g(12.5+3.8), col=4, length=0.1)

(113)

La construcci´on y trazo de vectores

Con las herramientas que ya conocemos, estamos en condiciones de abordar el estudio de los vectores, tanto num´erica com gr´aficamente.

Simb´olicamente, los vectores en el plano se representan como v = vxˆi + vyˆj,

as´ı que adoptaremos esta notaci´on

Primero abordaremos los vectores num´ericamente, considerando los vectores de posici´on (auqellos cuyo extremo inicial es el origen del sistema de coordena-das.)

> v <- c(2, 3) > w <- c(1, 4)

(114)

> v[1] [1] 2 > v[2] [1] 3 y para w se tiene > w[1] [1] 1 > w[2] [1] 4

La suma se obtiene simplemente sumando como en el caso de los reales

> suma <- v+w > suma

[1] 3 7

Es decir

(115)

o bien

> suma[1] [1] 3 > suma[2] [1] 7

que bien puede entenderse como sumax = 3 y sumay = 7, es decir, las

compo-nentes del vector suma, o bien sumax = vx+ wx y sumay = vy + wy, como se

sabe del curso de ´algebra.

Pr´acticamente todas la operaciones algebraicas entre vectores en R se ha-cen componente a componente, como acaba de verse; esto facilita mucho las operaciones y c´alculos entre vectores.

A continuación se hará la representación gráfica de los tres vectores, v, w y suma. Recuerde que se dijo que se tratar´ıa de vectores de posición (todos tienen su extremo inicial en el origen del sistema de coordenadas), pues todos los vectores en el plano están definidos mediante dos puntos: inicio y fin.

(116)

> plot(c(0,10), c(0,10), type ="n", panel.first=grid(col="orange")) > abline(h=0, v=0, lty=2)

> arrows(0, 0, v[1], v[2], length=0.2, col=2) > arrows(0, 0, w[1], w[2], length=0.2, col=2) > arrows(0, 0, suma[1], suma[2], length=0.2, col=4) > text(v[1], v[2], "v", pos=3)

> text(w[1], w[2], "w", pos=3)

> text(suma[1], suma[2], "suma", pos=3)

(117)

Ahora algunos detalles.

La magnitud de cada uno de los vectores anteriores se obtiene como sigue.

> sqrt(sum(v^2)) [1] 3.605551 > sqrt(sum(w^2)) [1] 4.123106 > sqrt(sum(suma^2)) [1] 7.615773

Una forma alternativa y ´util para representar los vectores

Otro modo para escribir los vectores en R, consiste en escribir todas las abscisas en una variable y todas las ordenadas en otra variable, por ejemplo, si se tienen tres vectores de posici´on cuyos extremos finales son (2, 3), (1, 4) y (5, 1) conviene escribirlos como sigue:

(118)

> y <- c(3, 4, 1)

De modo que al trazarlos en un gr´afico

> par(mar=c(3, 2, 1, 0.1))

> plot(c(0,10), c(0,10), type ="n", xlab="", ylab="", axes=FALSE, + panel.first=grid(col="orange"))

> box(col=4)

> axis(side = 1, tck = .01, labels = NA, col=4) > axis(side = 1, lwd = 0, line = -0.9, col=4) > axis(side = 2, tck = .01, labels = NA, col=4)

> mtext(side = 2, "y", line = 1.2) > mtext(side = 3, "Vectores", line = 0) > arrows(0, 0, x, y, length=0.2, col=2)

no es necesario trazarlos uno a uno, la funci´on arrow traza a los tres vectores con los mismos atributos, excepto por las cooredenadas de sus extremos finales, considerandolos como vectores de posici´on, ver la figura 44.

(119)

(120)

Y la suma tambi´en es sencilla

> s <- c(sum(x), sum(y))

> arrows(0, 0, s[1], s[2], length=0.2, col=4)

(121)

La traslaci´on de los vectores

La definición de “vector” incluye la indicación de cuál es la localización del extremo inicial y la del final, es decir un vector queda completamente definido gráficamente como sigue:

v = (x1− x0)ˆi + (y1− y0)ˆj

donde (x0, y0) son las coordenadas del extremo inicial y (x1, y1) (donde se traza

la punta de flecha).

Cuando se trata de un vector de posici´o, claramente (x0, y0) = (0, 0) y

v = x1ˆi + y1ˆj.

As´ı, es posible distinguir un vector de posición de uno que no lo es pero, ¿por qué es dif´ıcil hacer la distincion?, la respuesta es sencilla, porque al escribir expl´ıcitamente los vectores, la mayor´ıa de las ocasiones escribirmos el resultado de las resta, más que los valores de los extremos inicial y final del vector.

(122)

Esto da lugar a considerar la traslación como una operación que suma n´ ume-ros reales a los extremos de los vectores, para trasladarlos, as´ı si la traslación a lo largo del eje horizontal es T x = 1 y a lo largo del eje vertical es T y = 2, entonces, la traslación convertir´ıa a

v = (x1− x0)î + (y1− y0)ˆj en v = ((T x + x1) − (T x + x0))î + ((T y + y1) − (T y + y0))ˆj v = ((1 + x1) − (1 + x0))î + ((2 + y1) − (2 + y0))ˆj o v = ((1 + x1) − (1 + 0))î + ((2 + y1) − (2 + 0))ˆj o v = ((1 + x1) − 1)î + ((2 + y1) − 2)ˆj

y, como es de esperarse, si se desarrollan todas las operaciones v = x1ˆi + y1ˆj.

(123)

¡se trata del mismo vector!... como ya se sab´ıa, pues una de las propiedades de los vectores es que se pueden trasladar sin que esto lo afecte en magnitud y direcci´on.

Esperando que quede claro el procedimiento para distinguir a un vector de posición de uno que no lo es, veamos un ejercicio a continuación. Primero se definen y trazan los vectores de posicion y luego indicamos los valores de la traslación en cada direccion y tres colores diferentes entre s´ı para asignar un color a cada vector (los del ejercicio anterior son tres vectores)

> x <- c(-2, 1, 5) > y <- c(3, 4, -1)

> par(mar=c(3, 2, 1, 0.1))

> plot(c(-3,10), c(-2,10), type ="n", xlab="", ylab="", axes=FALSE, panel.first=grid + (col="orange"))

> box(col=4) > abline(h=0, v=0)

> text(-0.25, -0.25, "0")

(124)

> axis(side = 1, lwd = 0, line = -0.9, col=4) > axis(side = 2, tck = .01, labels = NA, col=4)

> mtext(side = 2, "y", line = 1.2) > mtext(side = 3, "Vectores", line = 0) > arrows(0, 0, x, y, length=0.2, col=2) > s <- c(sum(x), sum(y))

> arrows(0, 0, s[1], s[2], length=0.2, col=4)

ver la figura 51.

Se han considerado abscisas y ordenadas con signo negativo para ilustrar el hecho de que todos los resultados son coherentes con las operaciones y la notaci´on que se usa en R

Com puede notarse, basta una sola instrucci´on para trazar los tres vectores que se sumar´an y el vector que resulta de la suma se traza por separado, con otro color, con el fin de distinguirlo de los vectores de los que procede.

(125)

(126)

Una vez trazados los vectores de posici´on se procede a definir la traslaci´on y los colores, > Tx <- 2 > Ty <- 4 > c1 <- rgb(240, 120, 65, maxColorValue=255) > c2 <- rgb(221, 30, 180, maxColorValue=255) > c3 <- rgb(25, 35, 45, maxColorValue=255)

A continuacion se hace las traslaci´on y se trazan los vectores trasladados, junto con el vector resultante de la suma:

> arrows(Tx, Ty, Tx + x, Ty+y, col=c(c1, c2, c3)) > arrows(Tx, Ty, Tx+s[1], Ty+s[2], length=0.2, col=4)

En la figura 52 se observa el conjunto de vectores trasladados, además de los de posicion y, en ambos casos, el vector suma, pues éste también debe resul-tar trasladado. As´ı, cuando se efectúen operaciones numéricas con vectores y además deban trazarse, es indispensable definir ambos extremos de cada vector.

(127)

(128)

Si se hace una nueva traslaci´on de los vectores originales, con T x = 4 y T y = 2, se obtiene el gr´afico de la figura 2:

(129)

Ajuste de una recta mediante cuadrados m´ınimos

Con todas las herramientas que ya se estudiaron, ahora es posible estudiar una aplicaci´on.

Si bien casi todos los programas actuales permiten efectuar cálculos con el método de los cuadrados m´ınimos, son pocos los que efectúan los cálculos consi-derando las incertidumbres en los datos. Todos los programas pueden presentar gráficamente las incertidumbres o barras de error, pero pocos las incluyen en los cálculos.

La diferencia que resulta al hacer el ajuste por cuadrados m´ınimos tomando en cuenta o no las incertidumbres se puede observar al calcuoar el coeficiente de regresi´on, que siempre es m´as cercano a 1 cuando se consideran las incerti-dumbres en los datos que en el caso contrario.

As´ı, consideremos el siguiente conjunto de mediciones de dos variables que llamaremos x y y y sus respectivas incertidumbres ux y uy.

(130)

Los datos que se usar´an son los siguientes: x <- c(5, 8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41, 44, 47) y <- c(88.12, 94.05, 97.45, 100.32, 103.09, 103.15, 109.32, 112.34, 115.32, 118.47, 121.24, 124.43, 127.43, 132.00, 133.47) y sus incertidumbres ux <- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) uy <- c(1, 1.2, 1.8, 0.9, 0.7, 0.6, 1.2, 0.8, 0.6, 1.5, 0.8, 0.9, 1.5, 1.8, 0.9)

Estos datos y sus incertidumbres se almacenar´an en una estructura data.frame como sigue:

> datos <- data.frame(x, y, ux, uy)

Entonces, empezaremos a hacer el ajuste por cuadrados m´ınimos definiendo algunas operaciones y almacen´andolas en variables.

(131)

N <- length(x); alfa <- 0.05 df <- N-2 mx <- mean(x) my <- mean(y) Sx <- sum(x/uy^2) Sy <- sum(y/uy^2) Sxy <- sum(x*y/uy^2) Sx2 <- sum(x^2/uy^2) Su <- sum(1/uy^2)

Como puede verse, lo primero es determinar el número, N , de parejas de datos de las variables independiente, x, y dependiente y. Com haremos un trabajo completo, también definimos el número de grados de libertad, df necesario al establecer la banda de confianza. Luego, pueden verse la sumas (con incerti-dumbres) necesarias en la construccion de la matriz cuyo determinante se usará para efectuar los cálculos por cuadrados m´ınimos.

(132)

de términos independientes y se resuelve el sistema. Nótese que el resultado de cáda cálculo siempre se almacena en una variable:

> matriz1 <- matrix(c(Sx2, Sx, Sx, Su), nrow=2, ncol=2) > matriz2 <- matrix(c(Sxy, Sy), nrow=2, ncol=1)

> solucion <- solve(matriz1, matriz2)

La pendiente y la ordenada al origen se definen como:

> m <- solucion[1] > b <- solucion[2]

que son elementos de solucion.

Las incertidumbres en los par´ametros:

> ub<-sqrt(Sx2/abs(det(matriz1))) > um<-sqrt(Su/abs(det(matriz1)))

(133)

> fit <- function(z) m*z+b

A continuación se calcula el coeficiente de regresión, R, el error estándar, std err, el valor de intervalo de confianza, CI, y la función para establecer la banda de confianza, conf y

> R <-1-sum((y/uy^2-fit(x)/uy^2)^2)/sum((y/uy^2-mean(y/uy^2))^2) > std_err <- sqrt(sum((y-my)^2)/df)

> CI <- qt(1-alfa, df)

> confy <- function(z) CI*std_err*sqrt(1/N + (z-mx)^2/(sum((x-mx)^2)))

Ahora se construir´an las funciones que formar´an la frontera de la banda de confianza:

> y1 <- function(x) m*x+b+confy(x) > y2 <- function(x) m*x+b-confy(x)

Ya con los resultados num´ericos listos procederemos a trazar los gr´aficos, primero el marco para los datos experimentales:

(134)

> par(mar=c(2,2,1,1))

> plot(x, y, type="n", axes=FALSE, panel.first = grid(lty=4,lwd=1,col="orange")) > box(col=4)

> axis(side = 1, tck = .01, labels = NA, col=4) > axis(side = 2, tck = .01, labels = NA, col=4) > axis(side = 1, lwd = 0, line = -0.9, col=4)

> mtext(side = 2, "y", line = 1.2)

Ahora los datos experimentales con sus barras de incertidumbre y la recta ajustada:

> points(x,y, pch=19, cex=0.5)

> arrows(x,y,x+ux,y, col=’blue’, length=0.02, angle=90) > arrows(x,y,x-ux,y, col=’blue’, length=0.02, angle=90) > arrows(x, y, x, y+uy, col=’blue’, length=0.02, angle=90) > arrows(x, y, x, y-uy, col=’blue’, length=0.02, angle=90) > z <- seq(0.9*min(x), 1.1*max(x), length.out=99)

(135)

Ahora se trazar´a la banda de confianza:

> xpol <- c(z,rev(z))

> ypol <- c(y1(z), rev(y2(z)))

> polygon(xpol, ypol, col="#FFAAff90", border="white")

Nótese que se han insertado nuevas funciones que no hab´ıamos considerado hasta ahora, a saber rev y polygon . También se ha incluido una forma diferente para definir un color (el de la banda de confianza). En este caso el color está definido por #FFAAff y la transparencia como 90, con el fin de que la mancha de color debida a la función polygon “deje ver” los gráficos que, de otro modo, quedar´ıan ocultos a la vista.

Ahora se insertar´an los textos siguientes:

pp <- paste("y(x)=", format(m, digits=2, nsmall=4), " *x + (", format(b, digits=2, nsmall=4),")")

pp2 <- paste("Um=", format(um, digits=2, nsmall=4), ", Ub=", format(ub, digits=2, nsmall=4))

(136)

pp3 <- paste("R^2=", format (R,digits=2,nsmall=4)) legend(min(x), max(y), pp, cex=0.8, bty="n") legend(min(x), max(y)*0.95, pp2, cex=0.8, bty="n") legend(min(x), max(y)*0.9, pp3, cex=0.8, bty="n")

No se profundizará en describir las nuevas funciones insertadas, bástele al lector con conocer su uso, por ahora. Si requiere de mayor información solicite la ayuda al programa, usando, por ejemplo, help(legend).

Y para completar el trabajo, debe trazarse el gr´afico de residuos.

> windows(xpos=10, ypos=10)

> plot(x,fit(x)/y, type="b", main="Residuos", xlab="x", ylab="", col="blue", panel.first = grid (lty=4,lwd=1,col="orange")) > segments(0,1,max(x),1, col="black", lwd=2)

(137)