La utilizaci ´on del paquete R en la docencia de bachillerato
UGARTE, M.D.
DEPARTAMENTO DE ESTAD´ISTICA E I.O.
UNIVERSIDAD P ´UBLICA DE NAVARRA, PAMPLONA, ESPANA˜
(trabajo en colaboraci ´on con Ana F. Militino y Tom ´as Goicoa)
1.
Objetivos
• Presentar los contenidos de probabilidad y estad´ıstica en el curr´ıculum del bachillerato en Espa ˜na.
• Mostrar con ejemplos c ´omo utilizar el paquete estad´ıstico R (de libre dis- tribuci ´on) en la impartici ´on de contenidos de estad´ıstica descriptiva, proba- bilidad, nociones de inferencia estad´ıstica b ´asicas y simulaciones sencillas.
• Presentar el paquete R-Commander como alternativa a la utilizaci ´on del lenguaje de comandos de R.
1º ESO:
*Matemáticas Básicas:
3h/s Matemáticas
4h/s
2º ESO: *Ampliación de matemáticas: 3h/s
Matemáticas 4h/s
3º ESO:
Matemáticas 4h/s
4º ESO:
*Profundización de matemáticas: 2h/s Matemáticas: opción A y
opción B 4h/s
Bachillerato: Ciencias y Tecnología Matemáticas I y II (4h/s)
Bachillerato: Humanidades y Ciencias Sociales Matemáticas Aplicadas a las Ciencias Sociales I y II. (4h/s)
Estadística y probabilidad en el bachillerato
Ciencias y tecnología Humanidades y Ciencias Sociales
MATEMÁTICAS I MATEMÁTICAS APLICADAS A LAS C. SOCIALES I
Distribuciones bidimensionales. Relaciones entre dos variables estadísticas. Regresión lineal.
Estadística descriptiva unidimensional. Tipos de variables. Métodos estadísticos.
Tablas y gráficos. Parámetros estadísticos de localización, de dispersión y de posición.
Estudio de la probabilidad compuesta condicionada, total y a posteriori.
Distribuciones bidimensionales. Interpretación de fenómenos sociales y económicos en los que intervienen dos variables a partir de la representación gráfica de una nube de puntos. Grado de relación entre dos variables estadísticas. Regresión lineal.
Extrapolación y resultados.
Distribuciones binomial y normal como herramienta para asignar probabilidades a sucesos.
Asignación de probabilidades a sucesos. Distribuciones de probabilidad binomial y normal.
MATEMÁTICAS II MATEMÁTICAS APLICADAS A LAS C. SOCIALES II
No hay contenidos de estadística y probabilidad Profundización en los conceptos de probabilidades a priori y a posteriori, probabilidad compuesta, condicionada y total. Teorema de Bayes.
Implicaciones prácticas de los teoremas: Central del límite, de aproximación de la Binomial a la Normal y Ley de los Grandes Números.
Problemas relacionados con la elección de las muestras. Condiciones de representatividad. Parámetros de una población.
Distribuciones de probabilidad de las medias y proporciones muestrales.
Estad´ıstica y probabilidad en el Bachillerato
Modalidad Ciencias y Tecnolog´ıa
Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS I
• Distribuciones bidimensionales. Relaciones entre dos variables estad´ısticas.
Regresi ´on lineal.
• Estudio de la probabilidad compuesta, condicionada, total y a posteriori.
• Distribuciones binomial y normal como herramienta para asignar probabili- dades a sucesos.
3.
Estad´ıstica y probabilidad en el Bachillerato
Modalidad Ciencias y Tecnolog´ıa
Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS II
• No hay contenidos de estad´ıstica y probabilidad.
Estad´ıstica y probabilidad en el Bachillerato
Modalidad Humanidades y Ciencias Sociales
Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS APLICADAS A LAS CIENCIAS SOCIALES I
• Estad´ıstica descriptiva unidimensional. Tipos de variables. Tablas y gr ´aficos.
Par ´ametros estad´ısticos de localizaci ´on, de dispersi ´on y de posici ´on.
• Distribuciones bidimensionales. Interpretaci ´on de fen ´omenos sociales y econ ´o- micos en los que intervienen dos variables a partir de la representaci ´on gr ´afica de una nube de puntos. Grado de relaci ´on entre dos variables es- tad´ısticas. Regresi ´on lineal. Extrapolaci ´on de resultados.
• Asignaci ´on de probabilidades a sucesos. Distribuciones de probabilidad bi- nomial y normal.
5.
Estad´ıstica y probabilidad en el Bachillerato
Modalidad Humanidades y Ciencias Sociales
Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS APLICADAS A LAS CIENCIAS SOCIALES II
• Profundizaci ´on en los conceptos de probabilidades a priori y a posteriori, probabilidad compuesta, condicionada y total. Teorema de Bayes.
• Implicaciones pr ´acticas de los teoremas: Central del l´ımite, de aproximaci ´on de la Binomial a la Normal y Ley de los Grandes N ´umeros.
para la media de una distribuci ´on normal de desviaci ´on t´ıpica conocida.
• Contraste de hip ´otesis para la proporci ´on de una distribuci ´on binomial y para la media o diferencias de medias de distribuciones normales con desviaci ´on t´ıpica conocida.
6.
R-Commander
• R-Commander es una interfaz gr ´afica para R desarrollada por John Fox.
• Entre las ventajas de R-Commander para su uso en la docencia de es- tad´ıstica en pa´ıses de habla hispana destacan que est ´a disponible en caste- llano.
• Permite realizar estad´ıstica b ´asica y gr ´aficos, adem ´as de contener algunas demos interesantes para ense ˜nar estad´ıstica en el bachillerato.
Cargar R-Commander
• En primer lugar ser ´a necesario iniciar R. Para aquellos que no disponen de R deben bajarlo de:
http://cran.r-project.org/
• Despu ´es hay que instalar el paquete R-Commander desde el men ´u Paque- tes =⇒ Instalar paquete(s).
• Tras instalarlo hay que cargarlo o bien tecleando en la ventana de coman- dos de R >library(Rcmdr) o bien seleccionando el paquete concreto Rcmdr desde el men ´u Paquetes =⇒ Cargar paquete.
• Otra alternativa interesante es utilizar el paquete R-UCA, de modo que al iniciar R se carga autom ´aticamente el paquete R-Commander. El paquete R-UCA se puede descargar de:
http://knuth.uca.es/R/doku.php?id=inicio
• Si se ha cerrado R-Commander sin cerrar R, se puede reiniciar R-Commander introduciendo la instrucci ´on “Commander()” en la consola de R.
Visualizar R-Commander
R-Commander se divide de arriba a abajo en cinco partes:
1. Men ´u de R-Commander 2. Barra de Herramientas 3. Ventana de Instrucciones 4. Ventana de Resultados 5. Ventana de Mensajes
Menú Barra de herramientas
Ventana de instrucciones
Ventana de resultados
Men ´u de R-Commander
La primera franja horizontal contiene el men ´u de la interfaz. Pulsando sobre las diferentes opciones se despliegan los correspondientes men ´us. Las opciones del men ´u son:
• Fichero: Permite guardar las instrucciones y los resultados de una sesi ´on de trabajo. Adem ´as permite terminar la aplicaci ´on.
• Editar: Contiene las opciones habituales relacionadas con la edici ´on: ”Cor- tar”, ”Copiar”, ”Pegar”, ”Borrar”, ”Buscar...”, ”Seleccionar todo”, ”Deshacer”,
”Rehacer”, ”Limpiar ventana”.
• Datos: Mediante las opciones de este men ´u se pueden cargar, editar y guardar datos. Adem ´as se puede acceder a los datos de ejemplo que vienen con R. Otras opciones de este mismo men ´u permiten operaciones con los
datos, como por ejemplo, recodificaci ´on, tipificaci ´on, construcci ´on de nuevas variables, ...
• Estad´ısticos: Muestra el conjunto de procedimientos estad´ısticos que pueden llevarse a cabo.
• Gr ´aficas: Contiene las distintas representaciones gr ´aficas que se pueden hacer.
• Modelos: Permite una serie de opciones sobre los modelos ajustados. Por ejemplo, seleccionar modelos, etc.
• Distribuciones: Permite calcular cuantiles y probabilidades de las distribu- ciones de probabilidad discretas y continuas m ´as comunes as´ı como realizar representaciones gr ´aficas y simular muestras.
Barra de Herramientas
• Conjunto de datos: Este bot ´on muestra el nombre del conjunto de datos activo o la leyenda “No hay conjunto de datos activo” cuando todav´ıa no se ha cargado o creado ning ´un conjunto de datos. Pulsando sobre este bot ´on, se despliega un men ´u que permite activar otro conjunto de datos, entre los disponibles.
• Editar conjunto de datos: Permite la edici ´on del conjunto de datos activo en un entorno similar al de una hoja de c ´alculo. Durante la edici ´on de los datos no es posible realizar ninguna otra operaci ´on con R. Por ello, es absoluta- mente imprescindible cerrar la ventana de edici ´on de datos antes de intentar cualquier otra operaci ´on.
• Visualizar conjunto de datos: Muestra una ventana con los datos del con- junto de datos activo en formato similar al anterior. Esta ventana no permite
la modificaci ´on de los datos, pero puede mantenerse abierta mientras se contin ´ua haciendo operaciones.
• Modelo: La leyenda muestra el nombre del modelo activo o la leyenda “No hay modelo activo” cuando no se ha construido ning ´un modelo previamente.
La pulsaci ´on sobre dicho bot ´on permite la selecci ´on del modelo en uso de entre los disponibles.
Ventana de Instrucciones
• En esta ventana se introducen las instrucciones de R para su evaluaci ´on.
• R-Commander funciona introduciendo en esta ventana las instrucciones nece- sarias para realizar los c ´alculos o gr ´aficos correspondientes a las opciones seleccionadas en los men ´us. Esta ventana permite la modificaci ´on y la eje- cuci ´on de c ´odigo, tanto del introducido manualmente como del introducido por R-Commander.
12.
Ventana de Resultados
• Es la ventana donde se copian las instrucciones ejecutadas seguidas de los resultados producidos. Esta ventana permite la modificaci ´on de su contenido pero no permite la ejecuci ´on de c ´odigo.
• Las instrucciones se muestran en rojo y van precedidas del s´ımbolo “>”.
• Las salidas se muestran en azul.
Ventana de Mensajes
En esta ventana se muestran mensajes de informaci ´on referida a las instruc- ciones evaluadas. El significado del mensaje se refuerza con un c ´odigo de color:
• Rojo (Error): Se ha producido un error en la evaluaci ´on de la expresi ´on, por lo que no se obtiene ning ´un resultado. El mensaje informa del motivo del error.
• Verde (Aviso): La expresi ´on ha sido evaluada, si bien el resultado podr´ıa no ser el esperado. El mensaje muestra informaci ´on detallada del motivo del aviso.
• Azul: Muestra informaci ´on de car ´acter general.
14.
Cargar conjunto de datos en R-Commander
• R contiene muchos conjuntos de datos preparados para su uso. Para utilizar un conjunto de datos hay que cargarlo previamente.
• Despu ´es de iniciar R y R-Commander, observa la leyenda “Conjunto de datos: <No hay conjunto de datos activo>” en la barra de herramientas.
Esto indica que todav´ıa no se ha cargado ning ´un conjunto de datos.
• Para cargar el conjunto de datos “vit2005”, del paquetePASWR se procede de la siguiente forma:
– En el men ´u de R-Commander se seleccionan las opciones “Datos =⇒
Conjuntos de datos en paquetes =⇒ Leer conjunto de datos desde pa- quete adjunto”.
– En la parte izquierda del cuadro de di ´alogo selecciona “PASWR”, ha- ciendo una pulsaci ´on doble sobre “PASWR”.
– En la parte derecha se selecciona “vit2005” y se realiza una pulsaci ´on doble sobre ´el. Finalmente se pulsa el bot ´on “Aceptar”.
– R-Commander puede cargar varios conjuntos de datos, pero opera ´unica-
Visualizaci ´on de Datos
• Para visualizar el conjunto de datos activo, en la barra de herramientas se pulsa sobre el bot ´on “Visualizar conjunto de datos”. Los datos se mues- tran en formato tabla en una nueva ventana fuera de la ventana de R- Commander. Dicha ventana queda a veces oculta por debajo de otras ven- tanas. A veces es preciso minimizar las otras ventanas para acceder a la ventana de datos.
• La ventana de visualizaci ´on de datos no permite la modificaci ´on de ´estos, pero puede mantenerse abierta mientras se contin ´ua haciendo operaciones.
16.
Edici ´on de Datos
• Para editar el conjunto de datos activo, en la barra de herramientas se pulsa sobre el bot ´on “Editar conjunto de datos”. Los datos se muestran en formato tabla en una nueva ventana.
• El editor de datos es muy simple y permite pocas operaciones pero es capaz de importar datos desde un gran n ´umero de formatos.
• Los datos aparecen en una nueva ventana fuera de la ventana de R-Commander.
Dicha ventana queda a veces oculta por debajo de otras ventanas. A veces
contin ´ua haciendo operaciones. R parece bloquearse, queda en espera, hasta que se cierra la ventana de edici ´on de datos.
17. Guardar Datos
• Los cambios que se realizan afectan a los datos en memoria. Para que los cambios sean permanentes el conjunto de datos debe guardarse.
• Para guardar el conjunto de datos activo en formato texto, en el men ´u de R-Commander, se seleccionan las opciones “Datos=⇒Conjunto de datos activo=⇒Exportar el conjunto de datos activo...”, y se marcan las casillas correspondientes al formato de salida deseado.
ciones “Datos=⇒Conjunto de datos activo=⇒Guardar el conjunto de datos activo...”.
18.
Resumir Datos
• Para obtener un resumen de todos los datos del conjunto de datos activo, se seleccionan en el men ´u de R-Commander las opciones: “Estad´ısticos =⇒
Res ´umenes =⇒Conjunto de datos activo”.
• Se puede observar que se obtienen diferentes tipos de resultados en funci ´on de la columna, es decir, en funci ´on del tipo de variable considerada.
row.labels totalprice area zone category age Min. : 1.00 Min. :155000 Min. : 50.38 Z41 : 18 2A: 4 Min. : 1.0 1st Qu.: 55.25 1st Qu.:228500 1st Qu.: 75.18 Z53 : 16 2B:14 1st Qu.: 11.0 Median :109.50 Median :269750 Median : 86.39 Z52 : 15 3A:61 Median : 16.0 Mean :109.50 Mean :280742 Mean : 88.70 Z61 : 14 3B:77 Mean : 19.9 3rd Qu.:163.75 3rd Qu.:328625 3rd Qu.: 99.90 Z62 : 14 4A:36 3rd Qu.: 24.0 Max. :218.00 Max. :560000 Max. :187.91 Z45 : 13 4B:23 Max. :118.0 (Other):128 5A: 3 floor rooms out conservation toilets garage Min. : 1.00 Min. :3.000 E100:122 1A:161 Min. :1.000 Min. :0.0000 1st Qu.: 3.00 1st Qu.:5.000 E25 : 3 2A: 18 1st Qu.:1.000 1st Qu.:0.0000 Median : 4.00 Median :5.000 E50 : 87 2B: 36 Median :1.000 Median :0.0000 Mean : 4.44 Mean :4.853 E75 : 6 3A: 3 Mean :1.468 Mean :0.2431 3rd Qu.: 5.00 3rd Qu.:5.000 3rd Qu.:2.000 3rd Qu.:0.0000 Max. :12.00 Max. :7.000 Max. :2.000 Max. :2.0000 elevator streetcategory heating tras
Min. :0.0000 S2: 42 1A: 8 Min. :0.0000 1st Qu.:1.0000 S3:107 3A:149 1st Qu.:1.0000 Median :1.0000 S4: 59 3B: 10 Median :1.0000 Mean :0.7982 S5: 10 4A: 51 Mean :0.8073 3rd Qu.:1.0000 3rd Qu.:1.0000
Max. :1.0000 Max. :2.0000
19.
Representaciones Gr´aficas
• Para hacer un diagrama de barras de la variable “streetcategory” del con- junto de datos “vit2005”, en el men ´u de R-Commander selecciona las op- ciones: “Gr ´aficas=⇒Gr ´afica de barras...”. A continuaci ´on, selecciona la va- riable “streetcategory” y pulsa el bot ´on “Aceptar”.
• La gr ´afica aparece en una nueva ventana fuera de la ventana de R-Commander.
Dicha ventana queda a veces oculta por debajo de otras ventanas. A veces es necesario minimizar las otras ventanas para acceder a la ventana de gr ´aficos.
Frequency 20406080100
Modificaci ´on del gr´afico
A veces el resultado obtenido usando R-Commander no ser ´a de nuestro agrado.
Se puede utilizar la ventana de instrucciones para modificar un poco el gr ´afico.
Vamos a ver c ´omo cambiar el color del gr ´afico:
1. En la ventana de instrucciones se modifica la l´ınea
barplot(table(vit2005$streetcategory),xlab="streetcategory",ylab="Frequency")
a ˜nadiendo el argumento col=“red”.
barplot(table(vit2005$streetcategory), xlab="streetcategory", ylab="Frequency", col="red")
2. Coloca el cursor en la l´ınea modificada o selecciona la l´ınea completa. Si la orden ocupa m ´as de una l´ınea seleccionarlas todas.
3. Pulsa el bot ´on “Ejecutar” en la parte inferior de la ventana de instrucciones.
S2 S3 S4 S5 streetcategory
Frequency 020406080
Podemos probar ahora con la orden:
barplot(table(vit2005$streetcategory), xlab="streetcategory", ylab="Frequency", col=terrain.colors(4),
main="Categor´ıa de la calle")
S2 S3 S4 S5 streetcategory
Frequency 020406080100
21.
Estad´ıstica descriptiva. Ejemplo
Tareas:
1. Crear un fichero de texto (ascii ) con las siguientes notas cualitativas de 10 alumnos: A, D, C, D, C, C, C, C, F y B. Lo llamamos notas.txt.
2. Leer el fichero desde R-Commander. Para ello pinchamos en el men ´u de R-Commander: Datos=⇒Importar Datos=⇒Desde archivo de texto...
Aparece una ventana peque ˜na donde debemos escribir el nombre del objeto donde guardamos los datos y las caracter´ısticas de la lectura del archivo.
de alumnos con cada tipo de calificaci ´on. Para ello seleccionamos desde el men ´u
Estad´ısticos=⇒Res ´umenes=⇒Distribuci ´on de frecuencias
Nota: Pod´ıamos tb haber introducido los datos directamente en R-Commander siguiendo los siguientes pasos:
1. Pinchar desde el men ´u de R-Commander Datos=⇒Nuevo conjunto de datos
2. A continuaci ´on aparece una ventana peque ˜na donde debemos dar nombre al conjunto de datos.
3. Por ´ultimo se abre un editor de datos donde podemos escribir los datos directamente.
Resultados
> .Table # counts for notas A C D F
1 5 3 1
> 100*.Table/sum(.Table) # percentages for notas A C D F
10 50 30 10
Resultados
Si quisi ´eramos calcular frecuencias relativas (proporciones), podr´ıamos teclear en laVentana de instrucciones
table(notas$notas)/10
y tras seleccionar la orden pinchar en el bot ´onEjecutar
> .Table # counts for notas A C D F
1 5 3 1
> 100*.Table/sum(.Table) # percentages for notas A C D F
10 50 30 10
notas <- read.table("C:/Documents and Settings/itziar.arrieta/Mis documentos/charla1/notas.txt",
header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE) .Table <- table(notas$notas)
.Table # counts for notas
100*.Table/sum(.Table) # percentages for notas remove(.Table)
table(notas$notas)/10
Instrucción
denador. Sin embargo, los alumnos tienen que entender que muchas veces los conjuntos de datos son grandes y las cuentas no se pueden hacer a mano o con una calculadora.
Ejemplo: Disponemos de un conjunto de datos reales obtenidos del Instituto Nacional de Estad´ıstica. Los datos se han obtenido a partir de la Encuesta de Presupuestos Familiares del a ˜no 2006, que recoge informaci ´on sobre el gasto de los hogares espa ˜noles. El fichero de datos se denominahogar.csv.
Nota: Este fichero se importa como un fichero de texto cuyos campos est ´an separados por ;.
Ejercicio descriptiva para los alumnos
1. Los datos del ficherohogarrecogen datos de los hogares espa ˜noles. ¿Cu ´antos hogares se han entrevistado? ¿Cu ´antas variables se han recogido?
2. La variable sexosp recoge el sexo del sustentador principal (1=hombre y 6=mujer). ¿En cu ´antos hogares el sustentador principal es una mujer?
¿Cu ´al es el porcentaje de hogares cuyo sustentador principal es hombre?
3. La variable tipmiemb indica la composici ´on del hogar (seg ´un est ´e habitado por 1, 2, 3, 4, 5 ´o 6 personas). ¿Qu ´e proporci ´on de hogares est ´a habitado por dos personas?
4. Realiza un diagrama de barras seg ´un la composici ´on de hogares. Pon un t´ıtulo y da color al gr ´afico.
24.
Resultados
1. Una vez cargado el fichero en la ventana de mensajes aparece la dimensi ´on del fichero. El conjunto de datos hogar tiene 19435 filas y 19 columnas. Es decir, se ha recogido informaci ´on de 19435 hogares.
[1] NOTA: Versión de R Commander 1.5-6: Fri Jul 02 14:00:56 2010 [2] NOTA: El conjunto de datos hogar tiene 19435 filas y 19 columnas.
pregunta desde R-Commander hay que convertirla primero en factor. En el men ´u pinchar Datos=⇒Modificar variables del conjunto de datos activo =⇒
Convertir variable num ´erica en factor.
Seleccionamos la opci ´on: Estad´ısticos=⇒Res ´umenes=⇒Distribuci ´on de fre- cuencias, y escogemos la columna sexosp.
> .Table <- table(hogar$sexosp)
> .Table # counts for sexosp Hombre Mujer
14907 4528
> 100*.Table/sum(.Table) # percentages for sexosp Hombre Mujer
76.70183 23.29817
En 4528 hogares el sustentador principal es mujer. Hay un 76.7 % de hoga-
ciones).
> table(hogar$tipmiemb)/19435
1 2 3 4 5 6 0.14201183 0.29102135 0.25016722 0.22737330 0.06622074 0.02320556 table(hogar$tipmiemb)/19435
La proporci ´on de hogares con dos personas es 0.29.
4. Para realizar el diagrama de cajas y modificarlo un poco
Ventana de instrucciones
barplot(table(hogar$tipmiemb), xlab="tipmiemb", ylab="Frequency", ylim=c(0,6000),main="Composición de los hogares", col="orange")
1 2 3 4 5 6 tipmiemb
Frequency 0100020003000400050006000
25.
Correlaci ´on y Regresi ´on Lineal
• Con el conjunto de datos “vit2005”, vamos a realizar un diagrama de dis- persi ´on de las variables area y totalprice.
• Para ello desde el men ´u de R-Commander pinchar Gr ´aficas=⇒Diagrama de Dispersi ´on. Se abre una ventana donde podemos explicitar la variables explicativa (x) y explicada (y).
• Tras observar que existe una relaci ´on lineal entre ellas, podemos ajustar la recta, obtener los par ´ametros (ordenada en el origen y pendiente) y el coeficiente de determinaci ´on (cuadrado del coeficente de correlaci ´on lineal) desde el men ´u de R-Commander
● ● ●
●● ●
60 80 100 120 140 160 180
2e+053e+054e+055e+05
area
totalprice
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
26.
Resultados
>scatterplot(totalprice˜area, reg.line=lm, smooth=FALSE, labels=FALSE, boxplots=’xy’, span=0.5, data=vit2005) #Diagrama de dispersión
> RegModel.2 <- lm(area˜totalprice, data=vit2005) #ajuste del modelo de regresión
> summary(RegModel.2) ...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.073e+01 3.458e+00 5.996 8.4e-09 ***
totalprice 2.421e-04 1.196e-05 20.243 < 2e-16 ***
Residual standard error: 12.21 on 216 degrees of freedom Multiple R-squared: 0.6548, Adjusted R-squared: 0.6532 F-statistic: 409.8 on 1 and 216 DF, p-value: < 2.2e-16
La recta buscada es totalprice = 2.073 + 0.0002421 area, R2 = 0.6548.
Demos sobre Correlaci ´on y Regresi ´on Lineal
• Podemos instalar plugins (extensiones) en R-Commander. En concreto hay un plugin que incluye demos que pueden ser ´utiles para facilitar la com- prensi ´on de las ideas de correlaci ´on y regresi ´on lineal.
• Para ello hay que instalar previamente el paqueteRcmdrPlugin.TeachingDemos
• A continuaci ´on desde el men ´u de R-Commander ir a Herramientas=⇒Cargar plugin(s) de Rcmdr. Se abre una nueva ventana donde elegimos aceptar.
Una vez hecho esto nos solicita reiniciar R-Commander y le decimos que s´ı.
• En este momento se ha a ˜nadido al men ´u de R-Commander una nueva opci ´on denominada Demos.
28.
Inferencia estad´ıstica: Intervalos y Contrastes
Intervalo de confianza para la media de una poblaci ´on normal con varianza conocida
Consideremos el siguiente ejercicio correspondiente a 2o de Bachillerato:
Ejercicio
Una muestra aleatoria de 9 tarrinas de helado proporciona los siguientes pesos en gramos: 88 90 90 86 87 88 91 92 89- Halla un intervalo de confianza al 95% para la media poblacional sabiendo que el peso de las tarrinas sigue una distribuci ´on normal con una desviaci ´on t´ıpica de 1.8 g.
instrucciones.
• R no dispone de una funci ´on espec´ıfica para tratar el caso de una poblaci ´on normal con varianza conocida. Sin embargo, la librer´ıa PASWR incorpora la funci ´on z.test que permite obtener intervalos de confianza para la media de una poblaci ´on normal con varianza conocida.
• En primer lugar, debemos introducir los datos en Rcmdr y guardarlos en un fichero llamado helado. Para calcular el intervalo de confianza necesitamos cargar la librer´ıa PASWR y utilizar la funci ´on z.test de la siguiente forma
> library(PASWR)
> z.test(helado$gramos,sigma.x=1.8)$conf
Resultado:
> z.test(helado$gramos,sigma.x=1.8)$conf [1] 87.82402 90.17598
attr(,"conf.level") [1] 0.95
Luego el peso medio de las tarrinas de helado se encontrar ´a entre los 87.82 gramos y los 90.176 gramos con una confianza del 95%
Si quisi ´esemos cambiar el nivel de confianza del intervalo basta con a ˜nadir a la funci ´on z.test el argumentoconf.level.
Ejemplo: Para obtener un intervalo de confianza al 90% hay que escribir
Para ilustrar este contraste, continuaremos trabajando con el ejemplo de las ta- rrinas de helado.
Vamos a contrastar si la media poblacional es igual a 90 g o si es distinta. El contraste que realizamos es
H0 : µ = 90 H1 : µ 6= 90
Para resolverlo en R, teclear en la ventana de instrucciones de Rcmdr
> library(PASWR)
> z.test(helado$gramos,mu=90,sigma.x=1.8)
Resultado:
> z.test(helado$gramos,mu=90,sigma.x=1.8) One-sample z-Test
data: helado$gramos
z = -1.6667, p-value = 0.09558
alternative hypothesis: true mean is not equal to 90 95 percent confidence interval:
87.82402 90.17598 sample estimates:
mean of x
superior a 0.05, no podemos rechazar la hip ´otesis nula.
La funci ´on z.test proporciona adem ´as un intervalo de confianza al 95% para el valor verdadero de µ.
Si quisi ´eramos realizar un contraste unilateral del tipo (mu ≥ µ0 ´o µ ≤ µ0 basta con a ˜nadir el argumento alternative=“greater” ´o alternative=“less”, respecti- vamente.
> z.test(helado$gramos,mu=90,sigma.x=1.8, alternative="greater")
29.
Simulaciones sencillas
Distribuci ´on en el muestreo de la media muestral
La media muestral sigue una distribuci ´on normal si la poblaci ´on es normal. Si la poblaci ´on no es normal, el teorema central del l´ımite garantiza la normalidad de la media muestral siempre que el tama ˜no muestral sea grande.
En primer lugar, vamos a generar 1000 muestras de tama ˜no 10 de una poblaci ´on normal est ´andar (de media 0 y desviaci ´on t´ıpica 1) y vamos a comprobar que la media muestral sigue una distribuci ´on normal.
Desde el men ´u de R-Commander pinchar:
mal10) y la media y desviaci ´on t´ıpica de la normal (0 y 1 respectivamente). En la casilla N ´umero de muestras introducimos el valor 1000, mientras que en N ´umero de observaciones, escribimos 10. Activamos la pesta ˜na Media de cada muestra para a ˜nadirla al conjunto de datos y pulsamos Aceptar.
El resultado es un fichero con 10000 filas (una por muestra) y 11 columnas (las 10 primeras con cada muestra y la ´ultima con la media muestral).
A continuaci ´on realizamos un histograma con la columna de las medias mues- trales pinchando en Gr ´aficas=⇒Histograma (con la opci ´on densidades).
Es conveniente manipular un poco el rango de variaci ´on del eje de ordenadas (y) con la orden:
Hist(normal10$mean,scale="density",ylim=c(0, 1.5),breaks="Sturges",col="green")
Podemos adem ´as a ˜nadir la densidad de la normal con la siguiente orden:
lines(sort(normal10$mean), dnorm(sort(normal10$mean),0,1/sqrt(10)))
normal10$mean
density
−1.0 −0.5 0.0 0.5 1.0
0.00.51.0
30.
Sesiones de Trabajo
• Un an ´alisis de datos puede requerir varias sesiones de uso del software.
• R permite guardar las instrucciones dadas durante la sesi ´on, las salidas y los gr ´aficos obtenidos.
• Al seleccionar del men ´u de R-Commander las opciones “Fichero=⇒Guardar las instrucciones...”, se crea un fichero que despu ´es puede ser recuperado con la opci ´on “Fichero=⇒Abrir fichero de instrucciones...”.
• Al abrir el fichero de instrucciones ´estas no se ejecutan. Para ejecutarlas se seleccionan las instrucciones deseadas y se pulsa el bot ´on ejecutar.
resultados...”, se crea un fichero de texto que contiene las instrucciones y los resultados obtenidos, es decir, con el contenido de la ventana de resultados.
• Este fichero puede usarse para incluir los resultados en un procesador de textos.
• El fichero de resultados no incluye las gr ´aficas.
31. Guardar Gr´aficos
Para guardar los gr ´aficos disponemos de varias opciones:
1. La opci ´on del men ´u de R-Commander “Gr ´aficas=⇒Guardar gr ´afico en fichero...”
2. Pulsar el bot ´on derecho del rat ´on sobre el gr ´afico y usar el men ´u contextual.
3. Con la ventana del gr ´afico activa, usar la opci ´on“Archivo=⇒Guardar como”
del men ´u de RGui.
• Las dos ´ultimas opciones permiten copiar el gr ´afico al portapapeles para su posterior pegado.
• Si el gr ´afico se destina a la web se recomienda el formato png. Para cualquier
Referencias
Arriaza G ´omez, A.J. y otros (2008). Estad´ıstica B ´asica con R y R-Commander.
Servicio de Publicaciones UCA.
(disponible en http://knuth.uca.es/moodle/mod/resource/view.php?id=1126).
Ugarte, M.D., Militino, A.F. and Arnholt, A. (2008). Probability and Statistics with R. Boca Raton: CRC/Chapman and Hall.
Ugarte, M.D., Militino, A.F. and Arnholt, A. (2009). Solutions manual for Probabil- ity and Statistics with R. Boca Raton: CRC Press.