• No se han encontrado resultados

La utilización del paquete R en la docencia de bachillerato

N/A
N/A
Protected

Academic year: 2022

Share "La utilización del paquete R en la docencia de bachillerato"

Copied!
71
0
0

Texto completo

(1)

La utilizaci ´on del paquete R en la docencia de bachillerato

UGARTE, M.D.

DEPARTAMENTO DE ESTAD´ISTICA E I.O.

UNIVERSIDAD P ´UBLICA DE NAVARRA, PAMPLONA, ESPANA˜

(trabajo en colaboraci ´on con Ana F. Militino y Tom ´as Goicoa)

(2)

1.

Objetivos

• Presentar los contenidos de probabilidad y estad´ıstica en el curr´ıculum del bachillerato en Espa ˜na.

• Mostrar con ejemplos c ´omo utilizar el paquete estad´ıstico R (de libre dis- tribuci ´on) en la impartici ´on de contenidos de estad´ıstica descriptiva, proba- bilidad, nociones de inferencia estad´ıstica b ´asicas y simulaciones sencillas.

• Presentar el paquete R-Commander como alternativa a la utilizaci ´on del lenguaje de comandos de R.

(3)

1º ESO:

*Matemáticas Básicas:

3h/s Matemáticas

4h/s

2º ESO: *Ampliación de matemáticas: 3h/s

Matemáticas 4h/s

3º ESO:

Matemáticas 4h/s

4º ESO:

*Profundización de matemáticas: 2h/s Matemáticas: opción A y

opción B 4h/s

Bachillerato: Ciencias y Tecnología Matemáticas I y II (4h/s)

Bachillerato: Humanidades y Ciencias Sociales Matemáticas Aplicadas a las Ciencias Sociales I y II. (4h/s)

(4)

Estadística y probabilidad en el bachillerato

Ciencias y tecnología Humanidades y Ciencias Sociales

MATEMÁTICAS I MATEMÁTICAS APLICADAS A LAS C. SOCIALES I

Distribuciones bidimensionales. Relaciones entre dos variables estadísticas. Regresión lineal.

Estadística descriptiva unidimensional. Tipos de variables. Métodos estadísticos.

Tablas y gráficos. Parámetros estadísticos de localización, de dispersión y de posición.

Estudio de la probabilidad compuesta condicionada, total y a posteriori.

Distribuciones bidimensionales. Interpretación de fenómenos sociales y económicos en los que intervienen dos variables a partir de la representación gráfica de una nube de puntos. Grado de relación entre dos variables estadísticas. Regresión lineal.

Extrapolación y resultados.

Distribuciones binomial y normal como herramienta para asignar probabilidades a sucesos.

Asignación de probabilidades a sucesos. Distribuciones de probabilidad binomial y normal.

MATEMÁTICAS II MATEMÁTICAS APLICADAS A LAS C. SOCIALES II

No hay contenidos de estadística y probabilidad Profundización en los conceptos de probabilidades a priori y a posteriori, probabilidad compuesta, condicionada y total. Teorema de Bayes.

Implicaciones prácticas de los teoremas: Central del límite, de aproximación de la Binomial a la Normal y Ley de los Grandes Números.

Problemas relacionados con la elección de las muestras. Condiciones de representatividad. Parámetros de una población.

Distribuciones de probabilidad de las medias y proporciones muestrales.

(5)

Estad´ıstica y probabilidad en el Bachillerato

Modalidad Ciencias y Tecnolog´ıa

Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS I

• Distribuciones bidimensionales. Relaciones entre dos variables estad´ısticas.

Regresi ´on lineal.

• Estudio de la probabilidad compuesta, condicionada, total y a posteriori.

• Distribuciones binomial y normal como herramienta para asignar probabili- dades a sucesos.

(6)

3.

Estad´ıstica y probabilidad en el Bachillerato

Modalidad Ciencias y Tecnolog´ıa

Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS II

• No hay contenidos de estad´ıstica y probabilidad.

(7)

Estad´ıstica y probabilidad en el Bachillerato

Modalidad Humanidades y Ciencias Sociales

Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS APLICADAS A LAS CIENCIAS SOCIALES I

• Estad´ıstica descriptiva unidimensional. Tipos de variables. Tablas y gr ´aficos.

Par ´ametros estad´ısticos de localizaci ´on, de dispersi ´on y de posici ´on.

• Distribuciones bidimensionales. Interpretaci ´on de fen ´omenos sociales y econ ´o- micos en los que intervienen dos variables a partir de la representaci ´on gr ´afica de una nube de puntos. Grado de relaci ´on entre dos variables es- tad´ısticas. Regresi ´on lineal. Extrapolaci ´on de resultados.

• Asignaci ´on de probabilidades a sucesos. Distribuciones de probabilidad bi- nomial y normal.

(8)

5.

Estad´ıstica y probabilidad en el Bachillerato

Modalidad Humanidades y Ciencias Sociales

Contenidos de Estad´ıstica y Probabilidad en MATEM ´ATICAS APLICADAS A LAS CIENCIAS SOCIALES II

• Profundizaci ´on en los conceptos de probabilidades a priori y a posteriori, probabilidad compuesta, condicionada y total. Teorema de Bayes.

• Implicaciones pr ´acticas de los teoremas: Central del l´ımite, de aproximaci ´on de la Binomial a la Normal y Ley de los Grandes N ´umeros.

(9)

para la media de una distribuci ´on normal de desviaci ´on t´ıpica conocida.

• Contraste de hip ´otesis para la proporci ´on de una distribuci ´on binomial y para la media o diferencias de medias de distribuciones normales con desviaci ´on t´ıpica conocida.

(10)

6.

R-Commander

• R-Commander es una interfaz gr ´afica para R desarrollada por John Fox.

• Entre las ventajas de R-Commander para su uso en la docencia de es- tad´ıstica en pa´ıses de habla hispana destacan que est ´a disponible en caste- llano.

• Permite realizar estad´ıstica b ´asica y gr ´aficos, adem ´as de contener algunas demos interesantes para ense ˜nar estad´ıstica en el bachillerato.

(11)

Cargar R-Commander

• En primer lugar ser ´a necesario iniciar R. Para aquellos que no disponen de R deben bajarlo de:

http://cran.r-project.org/

• Despu ´es hay que instalar el paquete R-Commander desde el men ´u Paque- tes =⇒ Instalar paquete(s).

• Tras instalarlo hay que cargarlo o bien tecleando en la ventana de coman- dos de R >library(Rcmdr) o bien seleccionando el paquete concreto Rcmdr desde el men ´u Paquetes =⇒ Cargar paquete.

(12)

• Otra alternativa interesante es utilizar el paquete R-UCA, de modo que al iniciar R se carga autom ´aticamente el paquete R-Commander. El paquete R-UCA se puede descargar de:

http://knuth.uca.es/R/doku.php?id=inicio

• Si se ha cerrado R-Commander sin cerrar R, se puede reiniciar R-Commander introduciendo la instrucci ´on “Commander()” en la consola de R.

(13)

Visualizar R-Commander

R-Commander se divide de arriba a abajo en cinco partes:

1. Men ´u de R-Commander 2. Barra de Herramientas 3. Ventana de Instrucciones 4. Ventana de Resultados 5. Ventana de Mensajes

(14)

Menú Barra de herramientas

Ventana de instrucciones

Ventana de resultados

(15)

Men ´u de R-Commander

La primera franja horizontal contiene el men ´u de la interfaz. Pulsando sobre las diferentes opciones se despliegan los correspondientes men ´us. Las opciones del men ´u son:

• Fichero: Permite guardar las instrucciones y los resultados de una sesi ´on de trabajo. Adem ´as permite terminar la aplicaci ´on.

• Editar: Contiene las opciones habituales relacionadas con la edici ´on: ”Cor- tar”, ”Copiar”, ”Pegar”, ”Borrar”, ”Buscar...”, ”Seleccionar todo”, ”Deshacer”,

”Rehacer”, ”Limpiar ventana”.

• Datos: Mediante las opciones de este men ´u se pueden cargar, editar y guardar datos. Adem ´as se puede acceder a los datos de ejemplo que vienen con R. Otras opciones de este mismo men ´u permiten operaciones con los

(16)

datos, como por ejemplo, recodificaci ´on, tipificaci ´on, construcci ´on de nuevas variables, ...

• Estad´ısticos: Muestra el conjunto de procedimientos estad´ısticos que pueden llevarse a cabo.

• Gr ´aficas: Contiene las distintas representaciones gr ´aficas que se pueden hacer.

• Modelos: Permite una serie de opciones sobre los modelos ajustados. Por ejemplo, seleccionar modelos, etc.

• Distribuciones: Permite calcular cuantiles y probabilidades de las distribu- ciones de probabilidad discretas y continuas m ´as comunes as´ı como realizar representaciones gr ´aficas y simular muestras.

(17)

Barra de Herramientas

• Conjunto de datos: Este bot ´on muestra el nombre del conjunto de datos activo o la leyenda “No hay conjunto de datos activo” cuando todav´ıa no se ha cargado o creado ning ´un conjunto de datos. Pulsando sobre este bot ´on, se despliega un men ´u que permite activar otro conjunto de datos, entre los disponibles.

• Editar conjunto de datos: Permite la edici ´on del conjunto de datos activo en un entorno similar al de una hoja de c ´alculo. Durante la edici ´on de los datos no es posible realizar ninguna otra operaci ´on con R. Por ello, es absoluta- mente imprescindible cerrar la ventana de edici ´on de datos antes de intentar cualquier otra operaci ´on.

• Visualizar conjunto de datos: Muestra una ventana con los datos del con- junto de datos activo en formato similar al anterior. Esta ventana no permite

(18)

la modificaci ´on de los datos, pero puede mantenerse abierta mientras se contin ´ua haciendo operaciones.

• Modelo: La leyenda muestra el nombre del modelo activo o la leyenda “No hay modelo activo” cuando no se ha construido ning ´un modelo previamente.

La pulsaci ´on sobre dicho bot ´on permite la selecci ´on del modelo en uso de entre los disponibles.

(19)

Ventana de Instrucciones

• En esta ventana se introducen las instrucciones de R para su evaluaci ´on.

• R-Commander funciona introduciendo en esta ventana las instrucciones nece- sarias para realizar los c ´alculos o gr ´aficos correspondientes a las opciones seleccionadas en los men ´us. Esta ventana permite la modificaci ´on y la eje- cuci ´on de c ´odigo, tanto del introducido manualmente como del introducido por R-Commander.

(20)

12.

Ventana de Resultados

• Es la ventana donde se copian las instrucciones ejecutadas seguidas de los resultados producidos. Esta ventana permite la modificaci ´on de su contenido pero no permite la ejecuci ´on de c ´odigo.

• Las instrucciones se muestran en rojo y van precedidas del s´ımbolo “>”.

• Las salidas se muestran en azul.

(21)

Ventana de Mensajes

En esta ventana se muestran mensajes de informaci ´on referida a las instruc- ciones evaluadas. El significado del mensaje se refuerza con un c ´odigo de color:

• Rojo (Error): Se ha producido un error en la evaluaci ´on de la expresi ´on, por lo que no se obtiene ning ´un resultado. El mensaje informa del motivo del error.

• Verde (Aviso): La expresi ´on ha sido evaluada, si bien el resultado podr´ıa no ser el esperado. El mensaje muestra informaci ´on detallada del motivo del aviso.

• Azul: Muestra informaci ´on de car ´acter general.

(22)

14.

Cargar conjunto de datos en R-Commander

• R contiene muchos conjuntos de datos preparados para su uso. Para utilizar un conjunto de datos hay que cargarlo previamente.

• Despu ´es de iniciar R y R-Commander, observa la leyenda “Conjunto de datos: <No hay conjunto de datos activo>” en la barra de herramientas.

Esto indica que todav´ıa no se ha cargado ning ´un conjunto de datos.

• Para cargar el conjunto de datos “vit2005”, del paquetePASWR se procede de la siguiente forma:

(23)

– En el men ´u de R-Commander se seleccionan las opciones “Datos =⇒

Conjuntos de datos en paquetes =⇒ Leer conjunto de datos desde pa- quete adjunto”.

(24)

– En la parte izquierda del cuadro de di ´alogo selecciona “PASWR”, ha- ciendo una pulsaci ´on doble sobre “PASWR”.

– En la parte derecha se selecciona “vit2005” y se realiza una pulsaci ´on doble sobre ´el. Finalmente se pulsa el bot ´on “Aceptar”.

– R-Commander puede cargar varios conjuntos de datos, pero opera ´unica-

(25)

Visualizaci ´on de Datos

• Para visualizar el conjunto de datos activo, en la barra de herramientas se pulsa sobre el bot ´on “Visualizar conjunto de datos”. Los datos se mues- tran en formato tabla en una nueva ventana fuera de la ventana de R- Commander. Dicha ventana queda a veces oculta por debajo de otras ven- tanas. A veces es preciso minimizar las otras ventanas para acceder a la ventana de datos.

• La ventana de visualizaci ´on de datos no permite la modificaci ´on de ´estos, pero puede mantenerse abierta mientras se contin ´ua haciendo operaciones.

(26)

16.

Edici ´on de Datos

• Para editar el conjunto de datos activo, en la barra de herramientas se pulsa sobre el bot ´on “Editar conjunto de datos”. Los datos se muestran en formato tabla en una nueva ventana.

• El editor de datos es muy simple y permite pocas operaciones pero es capaz de importar datos desde un gran n ´umero de formatos.

• Los datos aparecen en una nueva ventana fuera de la ventana de R-Commander.

Dicha ventana queda a veces oculta por debajo de otras ventanas. A veces

(27)

contin ´ua haciendo operaciones. R parece bloquearse, queda en espera, hasta que se cierra la ventana de edici ´on de datos.

(28)

17. Guardar Datos

• Los cambios que se realizan afectan a los datos en memoria. Para que los cambios sean permanentes el conjunto de datos debe guardarse.

• Para guardar el conjunto de datos activo en formato texto, en el men ´u de R-Commander, se seleccionan las opciones “Datos=⇒Conjunto de datos activo=⇒Exportar el conjunto de datos activo...”, y se marcan las casillas correspondientes al formato de salida deseado.

(29)

ciones “Datos=⇒Conjunto de datos activo=⇒Guardar el conjunto de datos activo...”.

(30)

18.

Resumir Datos

• Para obtener un resumen de todos los datos del conjunto de datos activo, se seleccionan en el men ´u de R-Commander las opciones: “Estad´ısticos =⇒

Res ´umenes =⇒Conjunto de datos activo”.

• Se puede observar que se obtienen diferentes tipos de resultados en funci ´on de la columna, es decir, en funci ´on del tipo de variable considerada.

(31)

row.labels totalprice area zone category age Min. : 1.00 Min. :155000 Min. : 50.38 Z41 : 18 2A: 4 Min. : 1.0 1st Qu.: 55.25 1st Qu.:228500 1st Qu.: 75.18 Z53 : 16 2B:14 1st Qu.: 11.0 Median :109.50 Median :269750 Median : 86.39 Z52 : 15 3A:61 Median : 16.0 Mean :109.50 Mean :280742 Mean : 88.70 Z61 : 14 3B:77 Mean : 19.9 3rd Qu.:163.75 3rd Qu.:328625 3rd Qu.: 99.90 Z62 : 14 4A:36 3rd Qu.: 24.0 Max. :218.00 Max. :560000 Max. :187.91 Z45 : 13 4B:23 Max. :118.0 (Other):128 5A: 3 floor rooms out conservation toilets garage Min. : 1.00 Min. :3.000 E100:122 1A:161 Min. :1.000 Min. :0.0000 1st Qu.: 3.00 1st Qu.:5.000 E25 : 3 2A: 18 1st Qu.:1.000 1st Qu.:0.0000 Median : 4.00 Median :5.000 E50 : 87 2B: 36 Median :1.000 Median :0.0000 Mean : 4.44 Mean :4.853 E75 : 6 3A: 3 Mean :1.468 Mean :0.2431 3rd Qu.: 5.00 3rd Qu.:5.000 3rd Qu.:2.000 3rd Qu.:0.0000 Max. :12.00 Max. :7.000 Max. :2.000 Max. :2.0000 elevator streetcategory heating tras

Min. :0.0000 S2: 42 1A: 8 Min. :0.0000 1st Qu.:1.0000 S3:107 3A:149 1st Qu.:1.0000 Median :1.0000 S4: 59 3B: 10 Median :1.0000 Mean :0.7982 S5: 10 4A: 51 Mean :0.8073 3rd Qu.:1.0000 3rd Qu.:1.0000

Max. :1.0000 Max. :2.0000

(32)

19.

Representaciones Gr´aficas

• Para hacer un diagrama de barras de la variable “streetcategory” del con- junto de datos “vit2005”, en el men ´u de R-Commander selecciona las op- ciones: “Gr ´aficas=⇒Gr ´afica de barras...”. A continuaci ´on, selecciona la va- riable “streetcategory” y pulsa el bot ´on “Aceptar”.

(33)

• La gr ´afica aparece en una nueva ventana fuera de la ventana de R-Commander.

Dicha ventana queda a veces oculta por debajo de otras ventanas. A veces es necesario minimizar las otras ventanas para acceder a la ventana de gr ´aficos.

(34)

Frequency 20406080100

(35)

Modificaci ´on del gr´afico

A veces el resultado obtenido usando R-Commander no ser ´a de nuestro agrado.

Se puede utilizar la ventana de instrucciones para modificar un poco el gr ´afico.

Vamos a ver c ´omo cambiar el color del gr ´afico:

1. En la ventana de instrucciones se modifica la l´ınea

barplot(table(vit2005$streetcategory),xlab="streetcategory",ylab="Frequency")

a ˜nadiendo el argumento col=“red”.

(36)

barplot(table(vit2005$streetcategory), xlab="streetcategory", ylab="Frequency", col="red")

2. Coloca el cursor en la l´ınea modificada o selecciona la l´ınea completa. Si la orden ocupa m ´as de una l´ınea seleccionarlas todas.

3. Pulsa el bot ´on “Ejecutar” en la parte inferior de la ventana de instrucciones.

(37)

S2 S3 S4 S5 streetcategory

Frequency 020406080

(38)

Podemos probar ahora con la orden:

barplot(table(vit2005$streetcategory), xlab="streetcategory", ylab="Frequency", col=terrain.colors(4),

main="Categor´ıa de la calle")

(39)

S2 S3 S4 S5 streetcategory

Frequency 020406080100

(40)

21.

Estad´ıstica descriptiva. Ejemplo

Tareas:

1. Crear un fichero de texto (ascii ) con las siguientes notas cualitativas de 10 alumnos: A, D, C, D, C, C, C, C, F y B. Lo llamamos notas.txt.

2. Leer el fichero desde R-Commander. Para ello pinchamos en el men ´u de R-Commander: Datos=⇒Importar Datos=⇒Desde archivo de texto...

Aparece una ventana peque ˜na donde debemos escribir el nombre del objeto donde guardamos los datos y las caracter´ısticas de la lectura del archivo.

(41)

de alumnos con cada tipo de calificaci ´on. Para ello seleccionamos desde el men ´u

Estad´ısticos=⇒Res ´umenes=⇒Distribuci ´on de frecuencias

(42)

Nota: Pod´ıamos tb haber introducido los datos directamente en R-Commander siguiendo los siguientes pasos:

1. Pinchar desde el men ´u de R-Commander Datos=⇒Nuevo conjunto de datos

2. A continuaci ´on aparece una ventana peque ˜na donde debemos dar nombre al conjunto de datos.

3. Por ´ultimo se abre un editor de datos donde podemos escribir los datos directamente.

(43)

Resultados

> .Table # counts for notas A C D F

1 5 3 1

> 100*.Table/sum(.Table) # percentages for notas A C D F

10 50 30 10

Resultados

(44)

Si quisi ´eramos calcular frecuencias relativas (proporciones), podr´ıamos teclear en laVentana de instrucciones

table(notas$notas)/10

y tras seleccionar la orden pinchar en el bot ´onEjecutar

> .Table # counts for notas A C D F

1 5 3 1

> 100*.Table/sum(.Table) # percentages for notas A C D F

10 50 30 10

notas <- read.table("C:/Documents and Settings/itziar.arrieta/Mis documentos/charla1/notas.txt",

header=TRUE, sep="", na.strings="NA", dec=".", strip.white=TRUE) .Table <- table(notas$notas)

.Table # counts for notas

100*.Table/sum(.Table) # percentages for notas remove(.Table)

table(notas$notas)/10

Instrucción

(45)

denador. Sin embargo, los alumnos tienen que entender que muchas veces los conjuntos de datos son grandes y las cuentas no se pueden hacer a mano o con una calculadora.

Ejemplo: Disponemos de un conjunto de datos reales obtenidos del Instituto Nacional de Estad´ıstica. Los datos se han obtenido a partir de la Encuesta de Presupuestos Familiares del a ˜no 2006, que recoge informaci ´on sobre el gasto de los hogares espa ˜noles. El fichero de datos se denominahogar.csv.

(46)

Nota: Este fichero se importa como un fichero de texto cuyos campos est ´an separados por ;.

(47)

Ejercicio descriptiva para los alumnos

1. Los datos del ficherohogarrecogen datos de los hogares espa ˜noles. ¿Cu ´antos hogares se han entrevistado? ¿Cu ´antas variables se han recogido?

2. La variable sexosp recoge el sexo del sustentador principal (1=hombre y 6=mujer). ¿En cu ´antos hogares el sustentador principal es una mujer?

¿Cu ´al es el porcentaje de hogares cuyo sustentador principal es hombre?

3. La variable tipmiemb indica la composici ´on del hogar (seg ´un est ´e habitado por 1, 2, 3, 4, 5 ´o 6 personas). ¿Qu ´e proporci ´on de hogares est ´a habitado por dos personas?

4. Realiza un diagrama de barras seg ´un la composici ´on de hogares. Pon un t´ıtulo y da color al gr ´afico.

(48)

24.

Resultados

1. Una vez cargado el fichero en la ventana de mensajes aparece la dimensi ´on del fichero. El conjunto de datos hogar tiene 19435 filas y 19 columnas. Es decir, se ha recogido informaci ´on de 19435 hogares.

[1] NOTA: Versión de R Commander 1.5-6: Fri Jul 02 14:00:56 2010 [2] NOTA: El conjunto de datos hogar tiene 19435 filas y 19 columnas.

(49)

pregunta desde R-Commander hay que convertirla primero en factor. En el men ´u pinchar Datos=⇒Modificar variables del conjunto de datos activo =⇒

Convertir variable num ´erica en factor.

(50)

Seleccionamos la opci ´on: Estad´ısticos=⇒Res ´umenes=⇒Distribuci ´on de fre- cuencias, y escogemos la columna sexosp.

> .Table <- table(hogar$sexosp)

> .Table # counts for sexosp Hombre Mujer

14907 4528

> 100*.Table/sum(.Table) # percentages for sexosp Hombre Mujer

76.70183 23.29817

En 4528 hogares el sustentador principal es mujer. Hay un 76.7 % de hoga-

(51)

ciones).

> table(hogar$tipmiemb)/19435

1 2 3 4 5 6 0.14201183 0.29102135 0.25016722 0.22737330 0.06622074 0.02320556 table(hogar$tipmiemb)/19435

La proporci ´on de hogares con dos personas es 0.29.

(52)

4. Para realizar el diagrama de cajas y modificarlo un poco

Ventana de instrucciones

barplot(table(hogar$tipmiemb), xlab="tipmiemb", ylab="Frequency", ylim=c(0,6000),main="Composición de los hogares", col="orange")

(53)

1 2 3 4 5 6 tipmiemb

Frequency 0100020003000400050006000

(54)

25.

Correlaci ´on y Regresi ´on Lineal

• Con el conjunto de datos “vit2005”, vamos a realizar un diagrama de dis- persi ´on de las variables area y totalprice.

• Para ello desde el men ´u de R-Commander pinchar Gr ´aficas=⇒Diagrama de Dispersi ´on. Se abre una ventana donde podemos explicitar la variables explicativa (x) y explicada (y).

• Tras observar que existe una relaci ´on lineal entre ellas, podemos ajustar la recta, obtener los par ´ametros (ordenada en el origen y pendiente) y el coeficiente de determinaci ´on (cuadrado del coeficente de correlaci ´on lineal) desde el men ´u de R-Commander

(55)

60 80 100 120 140 160 180

2e+053e+054e+055e+05

area

totalprice

● ●

(56)

26.

Resultados

>scatterplot(totalprice˜area, reg.line=lm, smooth=FALSE, labels=FALSE, boxplots=’xy’, span=0.5, data=vit2005) #Diagrama de dispersión

> RegModel.2 <- lm(area˜totalprice, data=vit2005) #ajuste del modelo de regresión

> summary(RegModel.2) ...

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.073e+01 3.458e+00 5.996 8.4e-09 ***

totalprice 2.421e-04 1.196e-05 20.243 < 2e-16 ***

Residual standard error: 12.21 on 216 degrees of freedom Multiple R-squared: 0.6548, Adjusted R-squared: 0.6532 F-statistic: 409.8 on 1 and 216 DF, p-value: < 2.2e-16

La recta buscada es totalprice = 2.073 + 0.0002421 area, R2 = 0.6548.

(57)

Demos sobre Correlaci ´on y Regresi ´on Lineal

• Podemos instalar plugins (extensiones) en R-Commander. En concreto hay un plugin que incluye demos que pueden ser ´utiles para facilitar la com- prensi ´on de las ideas de correlaci ´on y regresi ´on lineal.

• Para ello hay que instalar previamente el paqueteRcmdrPlugin.TeachingDemos

• A continuaci ´on desde el men ´u de R-Commander ir a Herramientas=⇒Cargar plugin(s) de Rcmdr. Se abre una nueva ventana donde elegimos aceptar.

Una vez hecho esto nos solicita reiniciar R-Commander y le decimos que s´ı.

• En este momento se ha a ˜nadido al men ´u de R-Commander una nueva opci ´on denominada Demos.

(58)

28.

Inferencia estad´ıstica: Intervalos y Contrastes

Intervalo de confianza para la media de una poblaci ´on normal con varianza conocida

Consideremos el siguiente ejercicio correspondiente a 2o de Bachillerato:

Ejercicio

Una muestra aleatoria de 9 tarrinas de helado proporciona los siguientes pesos en gramos: 88 90 90 86 87 88 91 92 89- Halla un intervalo de confianza al 95% para la media poblacional sabiendo que el peso de las tarrinas sigue una distribuci ´on normal con una desviaci ´on t´ıpica de 1.8 g.

(59)

instrucciones.

• R no dispone de una funci ´on espec´ıfica para tratar el caso de una poblaci ´on normal con varianza conocida. Sin embargo, la librer´ıa PASWR incorpora la funci ´on z.test que permite obtener intervalos de confianza para la media de una poblaci ´on normal con varianza conocida.

• En primer lugar, debemos introducir los datos en Rcmdr y guardarlos en un fichero llamado helado. Para calcular el intervalo de confianza necesitamos cargar la librer´ıa PASWR y utilizar la funci ´on z.test de la siguiente forma

> library(PASWR)

> z.test(helado$gramos,sigma.x=1.8)$conf

(60)

Resultado:

> z.test(helado$gramos,sigma.x=1.8)$conf [1] 87.82402 90.17598

attr(,"conf.level") [1] 0.95

Luego el peso medio de las tarrinas de helado se encontrar ´a entre los 87.82 gramos y los 90.176 gramos con una confianza del 95%

Si quisi ´esemos cambiar el nivel de confianza del intervalo basta con a ˜nadir a la funci ´on z.test el argumentoconf.level.

Ejemplo: Para obtener un intervalo de confianza al 90% hay que escribir

(61)

Para ilustrar este contraste, continuaremos trabajando con el ejemplo de las ta- rrinas de helado.

Vamos a contrastar si la media poblacional es igual a 90 g o si es distinta. El contraste que realizamos es

H0 : µ = 90 H1 : µ 6= 90

Para resolverlo en R, teclear en la ventana de instrucciones de Rcmdr

> library(PASWR)

> z.test(helado$gramos,mu=90,sigma.x=1.8)

(62)

Resultado:

> z.test(helado$gramos,mu=90,sigma.x=1.8) One-sample z-Test

data: helado$gramos

z = -1.6667, p-value = 0.09558

alternative hypothesis: true mean is not equal to 90 95 percent confidence interval:

87.82402 90.17598 sample estimates:

mean of x

(63)

superior a 0.05, no podemos rechazar la hip ´otesis nula.

La funci ´on z.test proporciona adem ´as un intervalo de confianza al 95% para el valor verdadero de µ.

Si quisi ´eramos realizar un contraste unilateral del tipo (mu ≥ µ0 ´o µ ≤ µ0 basta con a ˜nadir el argumento alternative=“greater” ´o alternative=“less”, respecti- vamente.

> z.test(helado$gramos,mu=90,sigma.x=1.8, alternative="greater")

(64)

29.

Simulaciones sencillas

Distribuci ´on en el muestreo de la media muestral

La media muestral sigue una distribuci ´on normal si la poblaci ´on es normal. Si la poblaci ´on no es normal, el teorema central del l´ımite garantiza la normalidad de la media muestral siempre que el tama ˜no muestral sea grande.

En primer lugar, vamos a generar 1000 muestras de tama ˜no 10 de una poblaci ´on normal est ´andar (de media 0 y desviaci ´on t´ıpica 1) y vamos a comprobar que la media muestral sigue una distribuci ´on normal.

Desde el men ´u de R-Commander pinchar:

(65)

mal10) y la media y desviaci ´on t´ıpica de la normal (0 y 1 respectivamente). En la casilla N ´umero de muestras introducimos el valor 1000, mientras que en N ´umero de observaciones, escribimos 10. Activamos la pesta ˜na Media de cada muestra para a ˜nadirla al conjunto de datos y pulsamos Aceptar.

El resultado es un fichero con 10000 filas (una por muestra) y 11 columnas (las 10 primeras con cada muestra y la ´ultima con la media muestral).

(66)

A continuaci ´on realizamos un histograma con la columna de las medias mues- trales pinchando en Gr ´aficas=⇒Histograma (con la opci ´on densidades).

Es conveniente manipular un poco el rango de variaci ´on del eje de ordenadas (y) con la orden:

Hist(normal10$mean,scale="density",ylim=c(0, 1.5),breaks="Sturges",col="green")

Podemos adem ´as a ˜nadir la densidad de la normal con la siguiente orden:

lines(sort(normal10$mean), dnorm(sort(normal10$mean),0,1/sqrt(10)))

(67)

normal10$mean

density

−1.0 −0.5 0.0 0.5 1.0

0.00.51.0

(68)

30.

Sesiones de Trabajo

• Un an ´alisis de datos puede requerir varias sesiones de uso del software.

• R permite guardar las instrucciones dadas durante la sesi ´on, las salidas y los gr ´aficos obtenidos.

• Al seleccionar del men ´u de R-Commander las opciones “Fichero=⇒Guardar las instrucciones...”, se crea un fichero que despu ´es puede ser recuperado con la opci ´on “Fichero=⇒Abrir fichero de instrucciones...”.

• Al abrir el fichero de instrucciones ´estas no se ejecutan. Para ejecutarlas se seleccionan las instrucciones deseadas y se pulsa el bot ´on ejecutar.

(69)

resultados...”, se crea un fichero de texto que contiene las instrucciones y los resultados obtenidos, es decir, con el contenido de la ventana de resultados.

• Este fichero puede usarse para incluir los resultados en un procesador de textos.

• El fichero de resultados no incluye las gr ´aficas.

(70)

31. Guardar Gr´aficos

Para guardar los gr ´aficos disponemos de varias opciones:

1. La opci ´on del men ´u de R-Commander “Gr ´aficas=⇒Guardar gr ´afico en fichero...”

2. Pulsar el bot ´on derecho del rat ´on sobre el gr ´afico y usar el men ´u contextual.

3. Con la ventana del gr ´afico activa, usar la opci ´on“Archivo=⇒Guardar como”

del men ´u de RGui.

• Las dos ´ultimas opciones permiten copiar el gr ´afico al portapapeles para su posterior pegado.

• Si el gr ´afico se destina a la web se recomienda el formato png. Para cualquier

(71)

Referencias

Arriaza G ´omez, A.J. y otros (2008). Estad´ıstica B ´asica con R y R-Commander.

Servicio de Publicaciones UCA.

(disponible en http://knuth.uca.es/moodle/mod/resource/view.php?id=1126).

Ugarte, M.D., Militino, A.F. and Arnholt, A. (2008). Probability and Statistics with R. Boca Raton: CRC/Chapman and Hall.

Ugarte, M.D., Militino, A.F. and Arnholt, A. (2009). Solutions manual for Probabil- ity and Statistics with R. Boca Raton: CRC Press.

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

A continuaci´ on vamos a analizar el comportamiento tanto de la media y la desviaci´ on t´ıpica de la correlaci´ on entre los mensajes en claro y los mensajes aleatorizados,

If certification of devices under the MDR has not been finalised before expiry of the Directive’s certificate, and where the device does not present an unacceptable risk to health

In addition to the requirements set out in Chapter VII MDR, also other MDR requirements should apply to ‘legacy devices’, provided that those requirements

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que