• No se han encontrado resultados

Unidad de Consultoría Estadística

N/A
N/A
Protected

Academic year: 2021

Share "Unidad de Consultoría Estadística"

Copied!
146
0
0

Texto completo

(1)

Unidad de Consultoría

Estadística

U

NIVERSIDAD DE VIEDO

O

U N I O V I

C

Curso de Iniciación al Paquete Estadístico R

1206A

Unidad de Consultoría Estadística

(2)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Coordinador:

Emilio Torres Manzanera

Departamento de Estadística e Investigación Operativa y Didáctica de la Matemática Universidad de Oviedo

E.U. Jovellanos - Campus de Viesques [email protected]

Han colaborado en la elaboración de este material docente: Carlos Enrique Carleos Artime, Da-vide Martinetti, Pelayo Izquierdo García, Tania Iglesias Cabo, Patricia Díaz Díaz, Ignacio Montes Gutiérrez y Set Pérez González.

Los autores agradecen la inestimable colaboración de Asunción Lubiano Gómez,José Manuel Menéndez Estébanez y Susana Montes Rodríguez durante la elaboración de este texto.

© Universidad de Oviedo

Unidad de Consultoría Estadística http://uce.uniovi.es

c/ Luis Moya 261- 33203 Gijón- Spain Tel. 985 182061

email: [email protected]

Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 Unported.

(3)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Índice

1. Introducción 6

1.1. ¿Qué es R? . . . 6

1.2. Principales características . . . 6

1.3. Interfaces gráficas para usuarios . . . 7

1.3.1. Rkward . . . 7

1.3.2. RCommander . . . 7

1.3.3. RExcel, ROOo . . . 8

1.4. Interfaces para programación en R . . . 8

2. Instalación de R, RExcel y R-Commander 12 2.1. Introducción . . . 12

2.2. Instalación de RExcel . . . 12

2.3. Instalación de R-UCA . . . 13

2.4. Instalación de R y R-Commander en Windows . . . 14

2.4.1. Instalación de R . . . 14

2.4.2. Instalación del paquete R-Commander . . . 19

2.5. Instalación de editores en Windows . . . 20

2.5.1. RWinEdt, R-Sweave . . . 20

2.5.2. Tinn-R . . . 21

2.5.3. Emacs . . . 22

2.6. Instalación de R y R-Commander en Ubuntu . . . 22

2.7. Instalación de R y Rkward en Ubuntu . . . 22

2.8. Instalación de Emacs-Speaks-Statistics en Ubuntu . . . 23

2.9. Instalación de R y R-Commander en Macintosh . . . 23

3. RExcel 28 3.1. Introducción . . . 28 3.2. Primeros pasos . . . 28 3.3. R-Commander en RExcel . . . 28 3.4. Cargar datos . . . 29 4. R-Commander 31 4.1. Introducción . . . 31 4.2. Primeros pasos . . . 31 4.3. Aspecto . . . 31 4.4. Los datos . . . 32 4.5. Datos (I) . . . 34

4.5.1. Nuevo conjunto de datos . . . 35

4.5.2. Cargar conjunto de datos . . . 35

4.5.3. Importar datos . . . 36

4.5.4. Cambiar conjunto de datos . . . 37

4.6. Estadísticos . . . 38 4.6.1. Resúmenes . . . 38 4.6.2. Tablas . . . 41 4.6.3. Medias . . . 43 4.6.4. Varianzas . . . 46 4.6.5. Test no paramétricos . . . 47 4.6.6. Análisis dimensional . . . 48 4.6.7. Ajuste de modelos . . . 51 4.7. Modelos . . . 55 4.7.1. Resumir el modelo . . . 55

(4)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.7.3. Gráficas básicas de diagnóstico . . . 58

4.8. Gráficas . . . 59

4.8.1. Diagrama de caja . . . 60

4.8.2. Histograma . . . 60

4.8.3. Gráfica de barras . . . 62

4.9. Datos (II) . . . 64

4.9.1. Conjunto de datos en paquetes . . . 64

4.9.2. Conjunto de datos activos . . . 64

4.9.3. Modificar variables del conjunto de datos activos . . . 67

4.10.Extensiones (plug-in) . . . 71

4.10.1. RcmdrPlugin.Export . . . 71

4.10.2. RcmdrPlugin.HH: Heiberger and Holland . . . 73

4.10.3. RcmdrPlugin.FactoMineR . . . 73

4.10.4. RcmdrPlugin.IPSUR: Introduction to Probability and Statistics Using R . . . . 73

4.10.5. RcmdrPlugin.SurvivalT . . . 73 4.10.6. RcmdrPlugin.epack . . . 73 4.10.7. RcmdrPlugin.orloca . . . 74 4.10.8. RcmdrPlugin.DoE . . . 74 4.10.9. RcmdrPlugin.TeachingDemos . . . 74 4.10.10.RcmdrPlugin.qcc . . . 74 4.10.11.RcmdrPlugin.qual . . . 74 4.10.12.BiodiversityR . . . 74 5. Nivel avanzado 75 5.1. Introducción . . . 75 5.2. Recursos . . . 75

5.2.1. Manuales y tutoriales en la red . . . 75

5.2.2. Búsqueda de ayuda en la red . . . 77

5.2.3. Ayuda desde la consola de R . . . 78

5.3. Paquetes . . . 81

5.3.1. Paquetes de interés . . . 82

5.3.2. Hmisc . . . 82

5.3.3. Epidemiological calculator (epicalc) . . . 83

5.3.4. Rgraphics . . . 83 5.3.5. Sweave . . . 84 5.3.6. survey . . . 89 5.3.7. professR . . . 89 5.4. Programación . . . 90 5.5. Tinn-R . . . 90 6. Lenguaje R 92 6.1. Tipos de objetos . . . 92 6.1.1. Tipos básicos . . . 92 6.1.2. Asignación . . . 93 6.1.3. Tipos compuestos . . . 93 6.1.4. Cambios de tipo . . . 103

6.2. Leer y escribir datos . . . 103

6.3. Distribuciones de probabilidad . . . 105

6.4. Estadística básica . . . 105

6.5. Control del flujo . . . 110

6.5.1. Agrupar expresiones . . . 110

6.5.2. Condicionales . . . 111

6.5.3. Bucles . . . 111

(5)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

7. Ejercicios 118

7.1. Análisis de datos con RCommander . . . 118 7.2. Análisis de datos con comandos . . . 126

8. Apéndice - Cuestionarios 137

8.1. Turismo . . . 137

(6)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

1.

Introducción

En este capítulo daremos en primer lugar un repaso al entorno R y, seguidamente, a sus interfaces de usuario.

1.1.

¿Qué es R?

R es un entorno informático para análisis estadístico, distribuido bajo la licencia GPL de GNU (http://gnu.org/copyleft/gpl.html). Funciona en los sistemas operativos más populares (Microsoft Windows, Ubuntu...). Incluye:

Un intérprete del lenguaje R, que a su vez es un dialecto del lenguaje S (otro dialecto de S famoso es Splus). El nombre S viene de Statistics (Estadística); R se pronuncia como our (“nuestro” en inglés), para destacar su carácter público.

Rutinas en C y Fortran optimizadas para cálculo numérico.

Numerosos complementos (paquetes) para aplicaciones estadísticas concretas.

La página oficial del proyecto R es http://www.r-project.org.

Una buena revisión de lo que ha significado R en el campo de la computación estadística es el artículo de Paula Elosua Oliden ¿Existe vida más allá del SPSS? Descubre R [71] (bibliografía en la página 144).

1.2.

Principales características

A la hora de describir el entorno R, suelen destacarse las siguientes características:

El lenguaje R es interpretado, a alto nivel; similar a Octave/Matlab, pero con la sintaxis orien-tada al manejo de datos estadísticos (factores, fórmulas de modelos...).

Una comunidad de programadores muy dinámica (multitud de paquetes adicionales). Bien documentado y con numerosos foros de ayuda.

Los interfaces gráficos para el usuario disponibles son todavía muy inmaduros.

Por lo anterior, la curva de aprendizaje resulta difícil para los usuarios acostumbrados a inter-faces amigables (como las de SPSS, PSPP, Minitab, Gretl, Statistica, Statgraphics...).

(7)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

1.3.

Interfaces gráficas para usuarios

Una interfaz gráfica de usuario permite realizar las operaciones más comunes mediante una serie de menús o mediante interacción con los objetos gráficos que aparecen en pantalla, a través de periféricos como el ratón. Se opone a interfaz de programador o de comandos, donde se teclean las instrucciones que se pretenden ejecutar. Una lista exhaustiva de las interfaces para R se encuentra en http://www.sciviews.org/_rgui.

1.3.1. Rkward

Se trata de la interfaz gráfica para R más prometedora. Está escrita en PHP y C++ (sobre las bibliotecas del entorno gráfico KDE). Se distribuye bajo licencia GPL de GNU. Para más información, visite http://es.wikipedia.org/wiki/RKWard.

Hemos de advertir que el entorno KDE funciona perfectamente sobre Ubuntu, pero todavía no sobre Windows.

1.3.2. RCommander

Se trata de una interfaz más primitiva que Rkward, aunque más madura. Se distribuye también bajo licencia GPL de GNU. Utiliza el entorno gráfico Tcl/Tk, así que funciona adecuadamente tanto en Ubuntu como en Windows. Por ello, es ahora mismo la interfaz más popular para R. Varias universidades han desarrollado cursos basados en ella; véanse por ejemplo las páginas http://

knuth.uca.es/moodle/(Universidad de Cádiz) y http://crisol.uc3m.es/index.php/

gnur(Universidad Carlos III).

Como cualidades podemos destacar:

Adecuado para un curso de iniciación a la Estadística. Numerosa documentación en castellano.

Módulos adicionales para Estadística avanzada.

Introduce a la programación de R, al mostrar el código asociado a cada acción de los menús. Fácil instalación.

(8)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 1: Rkward

Editor de datos deficiente. Se recomienda importar los datos y no editarlos directamente.

1.3.3. RExcel, ROOo

Se trata de una interfaz entre el programa R y los paquetes ofimáticos Microsoft Office y Ope-nOffice.org, en concreto, con sus respectivas hojas de cálculo (Excel y Calc). Se distribuye bajo un licencia privativa. Su sitio es http://www.statconn.com.

Adecuado para iniciarse con el R. Fácil instalación.

Integra también R-Commander con Microsoft Office (RExcel) u OpenOffice.org (ROOo). En inglés y sólo para Windows.

1.4.

Interfaces para programación en R

La propia interfaz de R en Windows (Rgui) incluye un editor de código (Archivo → Nuevo script) que permite redactar programas en lenguaje R. Sin embargo, cuando el tamaño de los programas empieza a ser considerable, la redacción de código con dicho editor deja de ser cómoda.

En caso de necesitar un editor más completo, existen las siguientes opciones: R-Sweave, RWinEdt, para usuarios de WinEdt; shareware; Windows (figura 4). Tinn-R (figura 5); libre; Windows.

(9)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 2: RCommander

(10)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 4: RWinEdt

(11)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

(12)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

2.

Instalación de R, RExcel y R-Commander

2.1.

Introducción

En las secciones que siguen se ilustrarán distintas alternativas para las instalaciones de estos programas:

1. RExcel en Microsoft Windows (sección 2.2) 2. R-UCA en Microsoft Windows (sección 2.3)

3. R y R-Commander en Microsoft Windows (sección 2.4) 4. R y Rkward en Ubuntu (sección 2.7)

En concreto, el objetivo final es que el usuario pueda acceder al programa R y a su interfaz gráfica R-Commander. Con la instalación de RExcel, estará disponible también una versión para Microsoft Excel del RCommander. R-UCA es una alternativa a instalar R y R-Commander por separado; per-mite ejecutar directamente R-Commander sin pasar por R.

No es necesario instalar todos los programas, así que escoja la opción que prefiera y compruebe que, al final, R y R-Commander funcionen adecuadamente.

2.2.

Instalación de RExcel

Para la instalación del programa RExcel es necesaria una conexión a Internet. Conéctese con su navegador a la página http://rcom.univie.ac.at/.

Figura 7: Página de descarga para RExcel

Como se muestra en la figura 7, se puede descargar un paquete que contiene varios progra-mas, todos ellos necesarios para el correcto funcionamiento de RExcel. Obviamente es necesario disponer previamente de la Hoja de Cálculo Microsoft Excel instalado en el computador. Una vez descargado el archivo (la descarga puede llevar algunos minutos), al ejecutar el programa de insta-lacion aparecerá una ventana como se ilustra en la figura 8.

Siga los pasos de la instalación hasta llegar a la ventana que aparece en la figura9, donde se marcarán las casillas

Ggobi and RGgobi; Notepad++ and NppToR;

(13)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 8: Programa instalación RExcel

Figura 9: Opciones

El programa de instalación procederá a la descarga e instalación de todos los paquetes necesa-rios. Es importante que no se interrumpa la conexión a Internet ni tampoco la instalación, aunque parezca lenta o inactiva.

Siga todos los pasos de la instalación sin modificaciones hasta que se complete el proceso. Si se presentaran problemas debidos a la incorrecta instalación de algunos paquetes, desde la misma página se puede descargar cada paquete y proceder paso a paso con cada uno.

2.3.

Instalación de R-UCA

R-UCA es un proyecto que persigue facilitar la implantación del paquete estadístico R como es-tándar para la actividad docente e investigadora dentro del campo estadístico, en especial en la Universidad de Cádiz. En concreto, la instalación que aquí se comenta permite que, ejecutando cierto programa, arranque directamente la interfaz R-Commander, sin necesidad de pasar por Rgui (la interfaz de R en Windows, por omisión).

Para instalar el paquete R-UCA es necesaria una conexión a Internet sólo durante la descarga del archivo ejecutable. Después será posible trabajar sin conexión. La instalación aquí descrita se acon-seja para aquellos que no tengan acceso permanente de Internet; en otro caso se aconacon-seja la insta-lación de una de las otras opciones descritas en este capítulo. Desde la página http://knuth. uca.es/R/doku.php, abra el enlace Versión 2.9.2 Paquete R-UCA para windows, como se muestra en la figura 10.

(14)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 10: Página web del proyecto R-UCA

Una vez que se haya descargado el paquete, proceda con la instalación, que se abrirá con una ventana parecida a la figura 11.

Figura 11: Ventana inicial de instalación de R-UCA

La instalación no necesita conexión a Internet, una vez que el paquete se haya descargado. Los pasos de la instalación son muy sencillos, como los de cualquier programa en Windows. Una vez completada la instalación, busque entre los propios programas el archivo executable Rterm. Al ejecutarlo, aparecererá una ventana de DOS, parecida a la de figura 12, junto a la ventana de R-Commander.

2.4.

Instalación de R y R-Commander en Windows

Para la instalación del programa R y del paquete R-Commander es necesaria una conexión a Internet.

2.4.1. Instalación de R

Abra la página www.r-project.org con su navegador. Clique en el enlace Download R como se ilustra en la figura 13.

(15)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 12: Ventana de Rterm y R-Commander

Figura 13: Página web del proyecto R

Una vez abierta la página de los espejos (mirrors), elija el enlace español http://cran.es. r-project.org/. Se visualizará la página The Comprehensive R Archive Network, como se muestra en la figura 14, donde debe elegir el sistema operativo adecuado.

Para los usuarios de Windows, una vez elegida la opción Windows, como en la figura 15, se abrirá una página con enlaces a los dos directorios principales de la distribución de R. Elija base. En la nueva página se le presentará la última versión disponible de R; en el momento de la redacción de este texto, se trata de la 2.9.2.

Una vez completada la descarga, ejecute el archivo R-2.9.2-win32.exe. Después de haber elegido el idioma se abrirá la pantalla de inicio de instalación, como en la figura 16.

Siga los pasos de la instalación sin modificar los contenidos, hasta la quinta pantalla (como se ilustra en la figura 17), llamada Opciones de configuración. Marque la casilla Sí y pase a la siguiente pantalla.

Para los usuarios de R-Commander se aconseja marcar la opción SDI en la sexta pantalla, como en la figura 18.

(16)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 14: The Comprehensive R Archive Network

Figura 15: R-2.9.2 para Windows

Siga sin cambios hasta la pantalla Acceso a Internet donde, si la instalación se realiza dentro de la Universidad de Oviedo, aconsejamos marcar la casilla Internet 2, como en la figura 19.

Siga la instalación sin modificar el contenido de las pantallas hasta que el programa haya comple-tado la instalación de R.

(17)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 16: Inicio de la instalación de R

(18)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 18: Modo de distribución de ventanas

(19)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

2.4.2. Instalación del paquete R-Commander

Una vez terminada la instalación del programa R, ejecútelo, asegurándose de tener activada una conexión a Internet. El programa se abrirá con una ventana parecida a la de la figura 20.

Figura 20: Ventana inicial de R

Para instalar el paquete R-Commander, seleccionar en la barra de menús Paquetes e Instalar paquete(s)..., como se ilustra en la figura 21.

Figura 21: Instalación de paquetes en R

Tendría que abrirse entonces una ventana con todos los posibles espejos, como en la figura 22 a la izquierda, donde conviene seleccionar el espejo de Madrid.

Una vez elegido el espejo español, se abrirá otra ventana con los paquetes descargables desde el mismo. Desplazándose hacia abajo se encontrarán los paquetes de interés: se trata de todos los paquetes entre Rcmdr y RcmdrPlugin.TeachingDemos, como se ilustra en la figura 22 a la derecha.

El programa R empezará la instalación de los paquetes y, una vez detenido, volverá a mostrar la pantalla de la consola. Para arrancar el R-Commander, desde la consola de R, seleccione otra vez el menú Paquetes y después Cargar paquete... como se ilustra en la figura 23

Volverá a visualizarse una lista de paquetes; baje hasta encontrar Rcmdr y cárguelo.

Finalmente se abrirá la ventana del programa R-Commander, que tendría que parecerse a la figura 24.

(20)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 22: Izquierda: espejos; derecha: paquetes instalables

2.5.

Instalación de editores en Windows

A la hora de manejar R a través de su lenguaje de programación (en vez de usando los menús de R-Commander) se dispone de la consola y de un editor de textos (Archivo → Nuevo script).

La ventaja del editor es que los comandos se pueden escribir cómodamente en él y después ejecutarlos en la consola de R; resulta muy práctico cuando se tienen que escribir renglones de comandos particularmente largos, o programas enteros.

Sin embargo, el editor de texto que incluye R es muy pobre. No permite resaltar sintácticamente, ni sangrar el código... ni ninguna de las prestaciones que suelen incorporar los editores de progra-mación.

En esta sección se presentan algunas alternativas al editor nativo de R.

2.5.1. RWinEdt, R-Sweave

Existe la opción de usar conjuntamente el editor de texto WinEdt y R. Puesto que WinEdt es un programa privativo, esta sección está reservada para aquellos que poseen una licencia del progra-ma.

Hay dos posibles opciones: R-Sweave y RWinEdt. De principio, R-Sweave es la opción recomen-dada. Para instalar R-Sweave, acuda a http://www.winedt.org/Config/modes/R-Sweave.

phpy siga las instrucciones.

Para instalar RWinEdt, abra R y, en el menú Paquetes..., seleccione Instalar paquetes. Una vez elegido el espejo de Madrid, bájese el paquete Rwinedt. Cuando la instalación (desde ahora toda automática) se haya acabado, vuelva al menú Paquetes..., seleccione Cargar paquetes y busque Rwinedt. Si el paquete está correctamente instalado, se abrirá una ventana parecida a la que se ilustra en la figura 25.

(21)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 23: Cargar paquetes en R

Figura 24: R-Commander

2.5.2. Tinn-R

Tinn-R (Tinn Is Not Notepad-R) es un editor de código que se puede utilizar con R, pero también está preparado para escribir código en C++, HTML, Java y otros lenguajes populares.

Entre sus principales características están el resaltado de sintaxis y el manejo de proyectos (con-juntos de documentos o programas). Además, se pueden ejecutar las instrucciones de programas escritos en R desde el editor.

Para descargarlo, váyase a la página http://www.sciviews.org/Tinn-R/, donde, desli-zando hacia abajo, encontrará el enlace para la descarga (véase la figura 26).

Una vez bajado el archivo, siga las instrucciones mostradas en la figura 27, hasta que aparezca la ventana inicial de Tinn-R.

Para escribir código R, ha de utilizar un fichero. Puede crear uno nuevo mediante la opción New del menú File.

Si desea enviar órdenes al entorno R desde el fichero que esté editando en Tinn-R, entonces debe arrancar una instancia de R mediante el menú R. En el submenú Start/close and connections, puede escoger entre dos opciones:

(22)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 25: RWinEdt

Rgui para abrir R en una nueva ventana, fuera de Tinn-R. La elección dependerá del gusto personal.

Para escoger qué código desea evaluar, tiene varias opciones bajo el submenú Send del menú R de Tinn-R; por ejemplo:

File para enviar el fichero entero.

Selection para el texto seleccionado (p.ej. con el ratón). Clipboard para el texto copiado en el portapapeles. Line para enviar el renglón donde se encuentra el cursor.

2.5.3. Emacs

Para los usuarios más expertos, es posible usar tambien el programa Emacs como editor para R. Una versión para Windows está disponible en la página http://vgoulet.act.ulaval.ca/ en/ressources/emacs/windows; descargue el archivo de instalación, como se muestra en la figura 28, y siga las instrucciones.

2.6.

Instalación de R y R-Commander en Ubuntu

Vaya al menú Sistema, submenú Administración, opción Gestor de paquetes Synaptic. Busque r-cran-rcmdr.

Pulse con el botón derecho del ratón sobre el nombre del paquete encontrado, escoja Marcar para instalar.

Pulse Aplicar.

Arranque R desde el menú de aplicaciones o escribiendo R en una terminal. Una vez dentro de R, escriba library(Rcmdr) para arrancar R-Commander.

2.7.

Instalación de R y Rkward en Ubuntu

Vaya al menú Sistema, submenú Administración, opción Gestor de paquetes Synaptic. Busque rkward.

Pulse con el botón derecho del ratón, escoja Marcar para instalar. Pulse Aplicar.

(23)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 26: Página web de Tinn-R

2.8.

Instalación de Emacs-Speaks-Statistics en Ubuntu

Vaya al menú Sistema, submenú Administración, opción Gestor de paquetes Synaptic. Busque ess.

Pulse con el botón derecho del ratón, escoja Marcar para instalar. Pulse Aplicar.

Una vez arrancado Emacs, puede arrancar una sesión interactiva de R mediante la secuencia de teclas M-x R RET.

2.9.

Instalación de R y R-Commander en Macintosh

Visitamos la web http://cran.r-project.org/ y clicamos en Download R for MacOS X. En la siguiente ventana descargaremos el archivo cuya extensión acaba en .pkg.

Una vez descargado procederemos a instalar el paquete: pinchamos en el archivo e instalamos el paquete.

(24)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

(25)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

(26)

Unidad de Consultoría

(27)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Una vez instalado el paquete nos creará en nuestra carpeta de aplicaciones dos programas, el R, y el R-64 (siempre que nuestro procesador sea de 64 bits). Hay que instalar el Tcl/Tk que está en http://cran.r-project.org/bin/macosx/tools.

http://cran.r-project.org/bin/macosx/tools/tcltk-8.5.5-x11.dmg

Ahora tenemos que bajarnos la librería Rcmdr, que es la interfaz con la que trabajaremos en las clases.Para ello abrimos el R y escribimos lo siguiente:

install.packages(“Rcmdr", dependencies=TRUE)

La instalación de los paquetes es un proceso largo, no salga del programa hasta que finalice, una vez finalizada podremos trabajar con nuestro Mac sin problema. El programa es prácticamente igual que en Windows con la diferencia que para iniciar el paquete Rcmdr lo tenemos que hacer es escribir un comando en la consola: library(Rcmdr).

Nota: Es necesario tener instalado un modulo denominado X11.Sino nos dará un error y no nos

dejará iniciar la librería Rcmdr.

http://support.apple.com/kb/DL641

Sobre el X11 (Ayuda de Apple) : X11 está disponible en el disco de instalación de Mac OS X, de modo que puede instalarse al mismo tiempo que Mac OS X. Para instalar X11 en un sistema que ya tiene Mac OS X instalado, inserte el disco de instalación de Mac OS X y haga doble clic en el paquete “Instalaciones opcionales”. (Es posible que deba desplazarse hacia abajo para verlo.) Siga las instrucciones que se muestran en pantalla. Una vez terminada la instalación, escribimos library(Rcmdr) y vemos el Rcmdr corriendo en Mac OS.

Si se procede a la instación de R y R-Commander en la Universidad, pueden aparecer mensajes de error debido al uso del proxy. En tal caso, crear un archivo de texto plano de nombre .Rprofile que contenga la siguiente orden:

Sys.setenv(http_proxy="http://user:[email protected]:8888") . Este archivo de texto se ha de guardar en su directorio personal.

(28)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

3.

RExcel

3.1.

Introducción

RExcel es un programa que permite usar R desde Excel. Una vez instalado aparecerá un nuevo menú en la ventana de Excel, desde el cual se puede acceder y comunicar con R. La ventaja es que se pueden analizar bases de datos contenidas en hojas de cálculo Excel (que es la forma en que más comunmente se presentan los datos), aprovechando todas las posibilidades que ofrece un paquete estadístico profesional como R.

3.2.

Primeros pasos

Abra el programa Excel. Si la instalación de RExcel no hubiera tenido problemas, en la barra de menús aparecerá un nuevo menú llamado Complementos, como se muestra en la figura 29. Abriendo este menú se visualizará una lista de opciones. En primer lugar, hay que activar R desde Excel. En este momento el programa crea un conexión entre el Excel y el R, de forma que todo lo que aparece en un programa sea accesible en el otro y viceversa.

Figura 29: Como abrir R desde Excel

3.3.

R-Commander en RExcel

Desde RExcel, una vez abierto el R, es posible acceder al programa R-Commander, que será el eje central del desarrollo de este curso. Para abrirlo, siga las instrucciones contenidas en la figura 30. Se puede elegir entre dos posibles opciones: visualizar la barra de los menús en el mismo Excel o en el R-Commander. Se aconseja optar por la segunda opción, porque si no los menús en Excel podrían aparecer en inglés o en orden distinto del que se comenta en este texto.

(29)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 30: Cómo abrir R-Commander desde Excel

Figura 31: R-Commander

3.4.

Cargar datos

La ventaja de usar este paquete es que se pueden escribir y cargar las propias bases de datos en Excel y transferirlas después al R-Commander, donde se pueden analizar y elaborar con toda la potencia de cálculo de R.

Para pasar los datos desde Excel a R-Commander, seleccione el conjunto de datos que se quiere transferir y, pulsando la tecla derecha del ratón, se abrirá un menú parecido al de la figura 32. Seleccione Put dataframe in R y asigne un nombre al nuevo conjunto de datos.

Si ahora miramos el R-Commander, aparecerá el nombre de nuestro conjunto de datos en la barra de elementos activos, al lado de Conjunto de datos, y se podrán visualizar los valores de los datos pulsando el botón Visualizar conjunto de datos, como se ve en la figura 33.

Ahora que hemos pasado nuestros datos a R-Commander, podemos pasar al proximo capítulo, donde aprenderemos a aprovechar las posibilidades de este programa.

(30)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 32: Pasar datos a R-Commander

(31)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.

R-Commander

4.1.

Introducción

Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.

Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suficiente para todos los análisis estadísticos que tengan que abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R tendrán que manejarse di-rectamente con la consola de R, creando y editando instrucciones a mano, lo que puede resultar más engorroso, pero que permite un control total sobre los procedimientos que en cada momento se van a aplicar.

4.2.

Primeros pasos

Según la version de R y Commander que se eligió instalar, hay distintas formas de abrir R-Commander:

Si instaló RExcel, siga las instrucciones de la sección 3.2.

Si instaló R-UCA, abriendo Rterm automáticamente se abrirá también el R-Commander. Si instaló directamente R, siga las instrucciones que siguen, o mire la sección 2.4.2.

Desde la consola de R, seleccione Paquetes y después Cargar paquete... como se mues-tra en la figura 34

Figura 34: Cargar paquetes en R

Se visualizará una lista de paquetes; baje hasta encontrar Rcmdr y selecciónelo. Se abrirá la ventana del programa R-Commander, que tendría que parecerse a la figura 35.

4.3.

Aspecto

Una vez abierto el R-Commander como se explica en la sección precedente, aparecerá una ven-tana parecida a la figura 36.

La ventana consta de las siguientes partes: barra de menús;

(32)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 35: R-Commander

Figura 36: Aspecto de R-Commander

barra de elementos activos (conjuntos de datos y modelos); área de instrucciones;

área de resultados; área de mensajes.

4.4.

Los datos

En las secciones que seguirán, se usará una base de datos elaborada a partir de una encuesta realizada entre los turistas que pernoctan en Asturias.

Los datos son de distinta naturaleza: hay datos numéricos (por ejemplo los gastos) y datos cate-góricos (por ejemplo el sexo).

El tamaño de la base de datos es de 2565 unidades. Se muestra una tabla de ejemplo en la figura 37.

(33)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 37: Base de datos sobre turismo en Asturias

Por cada entrevistado, se recogen los siguientes datos: Código del cuestionario (codcue);

Zona geográfica (p1) 1. Occidente 2. Centro 3. Oriente

Periodo de recogida datos (p2) 1. Enero - Mayo 2. Junio - Septiembre 3. Octubre - Diciembre Motivos de su visita (p3) 1. Ocio - Vacaciones 2. Trabajo 3. Otro

¿Qué personas lo acompañan en este viaje? (p4) 1. Viaja solo

2. En pareja 3. En familia 4. Amigos - Grupo 5. Compañeros de trabajo Medio de transporte de llegada (p5)

1. Coche - Moto propios 2. Coche de alquiler 3. Autobús contratado 4. Autobús de línea regular 5. Tren

6. Avión

(34)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

1. Hotel

2. Turismo Rural 3. Camping

Procedencia de la persona entrevistada (p7) 1. Asturiano

2. Nacional 3. Extranjero

¿Cuántas noches pernoctará en Asturias? (p8) La estancia, ¿incluye fin de semana? (p9)

1. Sí 2. No

Gasto en comidas en el alojamiento (p10) Gasto en comidas fuera del alojamiento (p11) Gasto en bebidas en bares y cafeterías (p12) Gasto en diversión en pubes y discotecas (p13) Gasto en alojamiento (p14)

Gasto en actividades (p15) Gasto en transporte (p16) Gasto en compras varias (p17) Sexo de la persona entrevistada (p18)

1. Femenino 2. Masculino

Gasto total diario por persona (gasdia) Gasto total en el viaje por persona (gastotal)

4.5.

Datos (I)

A continuación se explicarán los comandos básicos para abrir una base con R-Commander. Los datos que usaremos en los ejemplos son los mismos de la sección precedente.

El menú que contiene los comandos de esta sección está representado en la figura 38.

(35)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.5.1. Nuevo conjunto de datos

Este comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario tendrá que rellenar con sus propios datos, como se muestra en la figura 39.

Figura 39: Crear conjunto de datos

4.5.2. Cargar conjunto de datos

Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la figura 40 se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.

(36)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.5.3. Importar datos

El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten también utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son

texto puro (en fichero, portapapeles o dirección URL); SPSS;

Minitab; STATA; Excel; Access.

Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguendo las instrucciones de la figura 41 en la página 36.

(37)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.5.4. Cambiar conjunto de datos

Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura 42.

Figura 42: Conjunto de datos activo

Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura 43, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que estan cargados.

Figura 43: Lista de conjuntos de datos disponibles

Desde la consola de R-Commander es posible cambiar el conjunto de datos activo usando el menu de figura 44. En este ejemplo se ilustra cómo pasar desde el conjunto de datos Turisguay al conjunto de datos Jovenguay.

Figura 44: Cambiar conjunto de datos activo

Todos los análisis y los estadísticos que se calculan en R-Commander se realizan sola y exclu-sivamente sobre la base de datos activa, así que tenga cuidado cuando maneje varios conjuntos de datos a la vez: ¡asegúrese de trabajar sobre el conjunto apropriado! Es fácil despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones.

(38)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.6.

Estadísticos

A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de esta sección se encuentran en el menú de la figura 45.

Figura 45: Menú de estadísticos

4.6.1. Resúmenes

Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los coman-dos contenicoman-dos en este menú aparecen en la figura 46, y se explicarán en los próximos epígrafes.

Figura 46: Menú de resúmenes

Conjunto de datos activos Según la naturaleza de la variable (cuantitativa o cualitativa), tendre-mos (figura 47):

Resúmenes numéricos para variables cuantitativas: • mínimo y máximo

• media y mediana • primer y tercer cuartil

Es decir, los cinco cuartiles más la media.

(39)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 47: Resúmenes del conjunto de datos activo

Resúmenes numéricos Este comando hace el resumen de una variable numérica (o varias). Fren-te al resumen descrito anFren-tes, ofrece además la desviación típica.

Si, por ejemplo, queremos el resumen de la variable numérica ¿Cuántas noches pernoctará en Asturias? (p8), seguiremos las instrucciones de la figura 48.

Figura 48: Resúmenes numéricos de ¿Cuántas noches pernoctará en Asturias? (p8) También se pueden calcular los resúmenes de una variable numérica, segmentando los resul-tados con respecto a una variable categórica. Si por ejemplo queremos conocer los estadísticos de la variable Gasto total diario por persona (gasdia) con respecto a Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la figura 49.

La salida será una tabla parecida a la que aparece en la figura 50.

Distribución de frecuencias Se usa para calcular las frecuencias de los casos observados en una variable categórica. Si por ejemplo estamos interesados a conocer la frecuencia de turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)), haremos como se ilustra en la figura 51.

Número de observaciones ausentes Este comando genera una tabla donde por cada variable se muestra el numero de observaciones ausentes.

(40)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 49: Resúmenes numéricos segmentados

Figura 50: Descripción del gasto según procedencia

Figura 51: Procedencia de los turistas: frecuencias

Para el conjunto de datos Turisguay, la ejecución del comando genera la tabla de la figura 52.

(41)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Tablas de estadísticos Se pueden hacer tablas con los estadísticos (media, mediana o desviación típica) para comparar varias variables. Si por ejemplo queremos saber cuál es el Gasto total en el viaje por persona (gastotal) medio de los turistas, según sean hombres o mujeres (Sexo de la persona entrevistada (p18)) y según la Procedencia de la persona entrevistada (p7), haremos como se ilustra en la figura 53.

Figura 53: Tablas de estadísticos La salida será una tabla parecida a la que se muestra en la figura 54.

Figura 54: Gasto medio según sexo y procedencia

Matriz de correlaciones Calcula las matrices de correlaciones de Pearson o de Spearman entre las variables seleccionadas.

Test de correlación Contraste para la asociación entre variables emparejadas. Se pueden calcular distintos coeficientes (Pearson, Tau de Kendall y Rho de Spearman).

Test de normalidad de Shapiro-Wilk Realiza el contraste de normalidad de Shapiro-Wilk. La salida será el valor del estadístico y el correspondiente P-valor.

4.6.2. Tablas

Tablas de contingencia Permite hallar las frecuencias de la distribución conjunta de dos variables categóricas, es decir, el número de casos en que se manifiestan simultáneamente cada combinación de valores de cada variable.

Si por ejemplo queremos contar cuántos encuestados se quedarán durante el fin de semana (La estancia, ¿incluye fin de semana? (p9)), en función del Periodo de recogida datos (p2), haremos como se muestra en la figura 55. También se puede calcular el estadístico ji cuadrado del contraste de independencia u homogeneidad.

Tablas de entradas múltiples Este menú permite construir tablas para la distribución conjunta de tres, cuatro o más variables. Si por ejemplo queremos hacer una tabla donde aparezcan las frecuencias de las variable Periodo de recogida datos (p2) y Procedencia de la persona entrevistada

(42)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 55: Existe una relación significativa entre periodo de visita y estancia en fin de semana

(p7), agrupadas según la variable Sexo de la persona entrevistada (p18), marcaremos en la primera columna p2, en la segunda p7 y en la tercera p18. La salida se muestra en la figura 56.

Figura 56: Tablas de triple entrada: salida

Para el caso de más de tres variables, obsérvese la figura 57; en la pantalla de construcción de la tabla se marcarán las variables de interés, una en la primera lista, una en la segunda y una o más en la tercera.

Si por ejemplo queremos conocer cuántos casos hay por cada posible valor de las cuatro variables Periodo de recogida datos (p2), Procedencia de la persona entrevistada (p7), La estancia, ¿incluye fin de semana? (p9) y Sexo de la persona entrevistada (p18), elegiremos como en la figura 57, cuya salida será una lista de tablas (figura 58).

(43)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 58: Tablas de entrada múltiple: salida

4.6.3. Medias

Test t para una muestra Sirve para hacer contrastes de hipótesis para la media de una variable cuantitativa con distribución normal. En la pantalla de construcción del contraste se pueden elegir:

tipo de contraste — bilateral (igualdad), unilaterales (menor o mayor); valor de la media bajo la hipótesis nula;

nivel de confianza para el intervalo de estimación.

Por ejemplo, si queremos averiguar si la media del Gasto total en el viaje por persona (gastotal) es mayor que 300, haremos como se muestra en la figura 59, cuya salida aparece en la figura 60.

Test t para muestras independientes Realiza un contraste de hipótesis de igualdad de medias entre dos muestras. Se necesita por un lado una variable cuantitativa y, por otro, una variable dico-tómica (cualitativa o factor, con sólo dos modalidades) que indique los dos grupos (por ejemplo, el sexo).

(44)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 59: Contraste t para una media

Figura 60: No se rechaza que el gasto total sea igual a 300 euros al 95 por ciento de confianza

En el ejemplo de la figura 61, se muestra cómo realizar un contraste para averiguar si el Gasto total en el viaje por persona (gastotal) promedio es mayor para las mujeres que para los hombres, con un nivel de confianza del 95 % y suponiendo que la dos muestras tengan la misma varianza. La salida aparece en la figura 62.

Figura 61: Contraste t para muestras independientes

Como otro ejemplo, queremos averiguar si en el Gasto total en el viaje por persona (gastotal) medio influye la variable dicotómica La estancia, ¿incluye fin de semana? (p9) (figura 63).

Test t para datos emparejados Se utiliza para contrastar dos variables en que los datos se su-ponen relacionados, como al comparar dos variables observadas sobre los mismos individuos. Por ejemplo, si queremos averiguar si el gasto medio en Gasto en bebidas en bares y cafeterías (p12) es

(45)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 62: El gasto medio es igual para hombres y mujeres

Figura 63: El gasto medio es significativamente distinto si la estancia incluye fin de semana

igual al gasto medio en Gasto en diversión en pubes y discotecas (p13), haremos como se muestra en la figura 64, cuya salida aparece en la figura 65.

Figura 64: Contraste t para datos emparejados

(46)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

ANOVA de un factor Este comando permite contrastar la igualdad de medias en varias muestras independientes, mediante un análisis de varianza. Si por ejemplo queremos comprobar si el Gasto total en el viaje por persona (gastotal) medio es igual independientemente del valor de Zona geográfica (p1), haremos como se muestra en la figura 66, marcando la variable gastotal en la columna izquierda y p1 en la derecha; si queremos ver si depende del sexo, marcaremos gastotal a la izquierda y p18 a la derecha. La salida está representada en la figura 67.

Figura 66: Análisis de varianza con un solo factor

Figura 67: En el gasto medio influye la zona pero no el sexo

4.6.4. Varianzas

Test F para 2 varianzas La resolución del contraste t para comparar medias de muestras indepen-dientes depende de la homoscedasticidad (igualdad de varianzas) en las dos muestras. Mediante el comando que nos ocupa se puede realizar un contraste F para comparar la varianza de dos muestras, suponiendo que la variable sigue una distribución normal.

Como ejemplo, pensemos en el Gasto en diversión en pubes y discotecas (p13), en función de si el encuestado se queda o no el fin de semana (La estancia, ¿incluye fin de semana? (p9)). Para probar si las dos muestras tienen la misma varianza seguimos los comandos que se muestran en la figura 68. La salida es el resultado del contraste de hipótesis con su P-valor (figura 69).

(47)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 68: Contraste F de igualdad de dos varianzas

Figura 69: Las varianzas son significativamente distintas, por lo que hay que ser prudente al con-trastar la igualdad de medias

Test de Bartlett Una de las hipótesis del análisis de varianza es la homoscedasticidad entre las muestras independientes. El contraste de Bartlett es similar al contraste del epígrafe anterior, pero permite contrastar más de dos muestras independientes.

Las figuras 70 y 71 representan el mismo ejemplo del epígrafe anterior, considerando las mismas variables, pero con el contraste de Bartlett en vez del contraste F .

4.6.5. Test no paramétricos

Test de Wilcoxon para dos muestras Contraste no paramétrico correspondiente al contraste t de medias.

Si por ejemplo queremos averiguar si el Gasto en diversión en pubes y discotecas (p13) es distinto respecto a si el turista encuestado se queda durante el fin de semana, podemos realizar el contraste como en se muestra en la figura 72. La salida está representada en la figura 73.

(48)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 70: Contraste de Bartlett: entrada

Figura 71: Contraste de Bartlett: salida

Test de Kruskall-Wallis Es un contraste no paramétrico correspondiente al contraste de igualdad de medias de dos o más poblaciones.

Considerando por ejemplo el Gasto total en el viaje por persona (gastotal) en las tres distintas temporadas en que se recogieron los datos (Periodo de recogida datos (p2)), podemos preguntar-nos si las tres muestras provienen de la misma población. Para realizar la prueba en R-Commander, síganse las instrucciones de la figura 74, y se obtendrá la salida de la figura 75.

4.6.6. Análisis dimensional

Agrupación jerárquica Este comando permite hacer agrupaciónes jerárquicas. Si por ejemplo queremos agrupar las variables Gasto total diario por persona (gasdia) y Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 76. Además de dibujar el den-drograma, tambien se creará una nueva variable HClust.2, que puede ser agregada al conjunto de datos activo con el comando del próximo epígrafe.

(49)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 72: Contraste de Wilcoxon para dos muestras: entrada

Figura 73: Contraste de Wilcoxon para dos muestras: salida

Figura 74: Contraste de Kruskall-Wallis: entrada

(50)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 76: Agrupación jerárquica y dendograma

Agregar la agrupación jerárquica al conjunto de datos... Este comando permite agregar al conjunto de datos activos las variables indicadoras de los grupos generados con el comando del epígrafe anterior.

Por ejemplo, podemos agregar la variable HClust.2, que hemos generado en el ejemplo prece-dente, siguiendo las instrucciones de la figura 77. Como se puede ver en la tercera ventana de la figura 77, la nueva variable aparece al final de la base de datos y se presenta con tres niveles.

Una vez que hemos adjuntado esta nueva variable, podemos calcular, por ejemplo, el gasto total según la variable de agrupación, como se indicaba en la sección 4.6.1 (figura 78).

(51)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 77: Agregar la variable HClust.2 al conjunto de datos activo

4.6.7. Ajuste de modelos

En esta parte analizaremos cómo construir modelos de regresión lineal para los datos, mientras la parte de evaluación y mejora de los ajustes se tratará más adelante. El menú para construir los modelos está representado en la figura 79.

Regresión lineal Es muy sencillo construir un modelo de regresión. Una vez fijadas la variable por explicar y todas las variables explicativas, se construye el modelo según las instrucciones de figura 80. En este caso hemos elegido el Gasto total en el viaje por persona (gastotal) como variable por explicar y todas las otras variables numéricas se utilizarán como variables explicativas.

(52)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 78: Gasto total según la variable de agrupación HClust.2

Figura 79: Menú de ajuste de modelos

El programa calcula el valor de los coeficientes y también realiza una primera evaluación del ajuste, tal como se muestra en la figura 81.

Modelo lineal Es muy parecido al caso precedente, pero en este modelo se pueden incorporar también variables categóricas. En el ejemplo hemos calculado el valor de los coeficientes para un modelo lineal con todas las variables categóricas de la base de datos. Como se muestra en la figura 82, también se pueden efectuar trasformaciones al vuelo sobre el valor de las variables explicativas, bien con las teclas ilustradas en la ventana, bien tecleando directamente. La salida está representa-da en figura 83.

(53)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 80: Regresión lineal

(54)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 82: Modelo lineal

(55)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.7.

Modelos

En este apartado presentamos las herramientas básicas para la evaluación de modelos estadís-ticos (por ejemplo, modelos de regresión lineal). El menú que permite acceder a los comandos para la evaluación de los modelos está representado en la figura 84.

Figura 84: Menú de modelos

4.7.1. Resumir el modelo

Es un primer vistazo al modelo; nos enseña las características básicas del modelo, como se ilustra en la figura 85:

fórmula del modelo;

coeficientes calculados para cada variable explicativa: • coeficiente;

• desviación típica; • valor estadístico t; • P-valor;

información sobre el ajuste: • R cuadrado;

• estadístico F y su P-valor.

(56)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.7.2. Selección del modelo paso a paso

Esta técnica permite, de forma rápida y automática, refinar un modelo con distintos procedimien-tos. La idea es probar a quitar y añadir variables a un modelo ya existente, evaluar los efectos de dichos cambios y elegir qué variables mantener y cuáles omitir. Para la evaluación de la bondad del ajuste se pueden usar dos métodos:

BIC: criterio de información bayesiano AIC: criterio de información de Akaike

mientras que las técnicas para quitar y añadir variables son cuatro: atrás/adelante;

adelante/atrás; atrás;

adelante.

Combinando técnicas y formas de evaluación se pueden construir algoritmos de mejoramiento del ajuste de forma bastante sencilla.

Consideramos ahora el modelo construido en la sección precedente, donde se explicaba el gasto total en función de todas las variables numéricas de la base de datos. Con el comando Resumir el modelo, podemos averiguar que no todas las variables son significativas, y que en general el modelo podría ser mejorado. Aplicamos entonces una de las técnicas propuestas (figura 86) y analizamos los resultados (figura 87 en la página 57).

Figura 86: Selección paso a paso: entrada

La técnica atrás/adelante con criterio de información bayesiano es un algoritmo compuesto de los siguientes pasos:

1. Inicio: se considera el modelo con todas las variables explicativas posibles.

2. Quitar una variable y evaluar el modelo con el criterio. Una vez acabado, volver a añadir la variable. (Paso atrás.)

3. Repetir el paso precedente hasta haber probado con todas las variables.

4. Ordenar los modelos calculados en los pasos 2 y 3 y construir el nuevo ajuste con una variable menos.

5. Repetir los pasos 2 y 3, aplicándolos a el nuevo modelo, y esta vez también se puede añadir la variable quitada. (Pasos atrás/adelante.)

(57)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 87: Selección paso a paso: salida

7. El modelo final será el modelo al que no se puedan ni añadir ni quitar variables sin bajar la calidad.

La técnica llamada adelante/atrás sigue el mismo algoritmo, pero en vez que arrancar con el modelo con todas variables, arranca con el modelo sin variables explicativas y va añadiendo una a una las variables hasta que se queda con el mejor ajuste.

(58)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Las técnicas adelante y atrás son más sencillas porque no consideran la posibilidad de volver a añadir (o quitar) variables descartadas (paso 5).

4.7.3. Gráficas básicas de diagnóstico

Una vez seleccionado el modelo, es posible dibujar las gráficas de diagnóstico. La salida, en el caso del modelo que explica el Gasto total en el viaje por persona (gastotal) en funcion de ¿Cuántas noches pernoctará en Asturias? (p8), Gasto en bebidas en bares y cafeterías (p12), Gasto en diversión en pubes y discotecas (p13), Gasto en alojamiento (p14) y Gasto en transporte (p16), está representada en la figura 88.

Figura 88: Gráficas de diagnóstico

En los párrafos siguientes se ofrece una sucinta explicación de las gráficas.

1. Residuos frente a ajustados.

Representa los residuos (diferencias entre el valor real y el valor ajustado/predicho) frente a los valores ajustados. Si la regresión es simple (Y = a + bX), sería equivalente a un gráfico de residuos frente a la variable independiente (X).

Si un punto está relativamente muy por encima o muy por debajo de la recta horizontal, es un valor atípico (aparecen destacados en el gráfico con sendas etiquetas). El gráfico sirve también para detectar heteroscedasticidad, falta de independencia, falta de (recti)linealidad, etc.

(59)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Una hipótesis de los modelos de regresión habituales una hipótesis es que los residuos tienen distribución gausiana (normal).

El gráfico cuantil-cuantil sirve para diagnosticar el cumplimiento de esa hipótesis. En el caso perfecto, todos los puntos estarían en línea recta. Las desviaciones de la recta suelen apreciarse en los puntos de los extremos. Los puntos que más se desvían de la hipótesis aparecen destacados con sendas etiquetas identificativas.

3. Escala-posición: raíz de valor absoluto de residuo frente a valores ajustados

Cabe destacar que, en contraste con la primera gráfica, en ésta se toma el valor absoluto, para comparar la magnitud del residuo independientemente del sentido arriba/abajo; y se toma la raíz cuadrada para disminuir la asimetría, que suele dificultar la interpretación.

Por lo anterior, puede facilitar la diagnosis de la homoscedasticidad. Sin embargo, puede dificultar la diagnosis de linealidad, precisamente por las trasformaciones a que se someten los residuos.

4. Residuos tipificados frente a palancaje

El palancaje es una medida de la influencia que tiene un punto en el cálculo de los coeficien-tes del modelo. El palancaje se basa en la aportación del punto a las varianzas de las variables independientes.

Los puntos a la derecha de la gráfica tienen gran palancaje. Tales puntos poseen una influencia notable si el residuo correspondiente se separa mucho del cero; en concreto, se suele considerar muy influyente si supera la distacia de Cook igual a 1 (que se corresponde con una de las líneas rojas de la gráfica). Los puntos notables aparecen destacados con su etiqueta.

4.8.

Gráficas

Unas herramientas muy útiles a la hora de hacer estadística son sin duda las gráficas. Muchas veces la visualización de la gráfica adecuada nos ayuda a hacernos una idea preliminar de la variable que queremos analizar.

En lo que sigue aprenderemos a construir distintas gráficas usando el menú apropiado. El menú que permite acceder a los comandos para construir las gráficas está representado en la figura 84.

(60)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4.8.1. Diagrama de caja

Dibuja el típico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las instruc-ciones de la figura 90, podemos construir la gráfica de la figura 91, que representa el diagrama de caja de la variable Gasto total diario por persona (gasdia).

Figura 90: Diagrama de caja

Figura 91: Diagrama de caja: gasto diario

También se pueden construir diagramas de cajas para variables cuantitativas segmentadas con respecto a otras variables categóricas. En el ejemplo de figura 92 hemos construido el diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la persona entrevistada (p7).

4.8.2. Histograma

Este comando permite construir histogramas para variables numéricas. En la figura 93 en la pági-na 61 está representado el histograma del Gasto total diario por persopági-na (gasdia).

(61)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 92: Diagrama de caja por grupos

Figura 93: Histograma: gasto diario

Siendo las gráficas unas herramientas muy útiles y ampliamente utilizadas en estadística, es necesario que sean lo más claras posible y que se puedan presentar incluso solas, o sea, sin estar acompañadas por datos numéricos; por esta razon deberían ser auto-explicativas en la mayoría de los casos.

(62)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Es importante entonces que cada gráfica contenga toda la información necesaria para su inter-pretación. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el título de la gráfica y las variables que en ella intervienen.

Desafortunadamente, con R-Commander no es posible modificar estas características, pero en lo que sigue daremos una explicación sencilla de cómo operar con los comandos de R para añadir a una gráfica generada con R-Commander las etiquetas de las variables y del título.

Para empezar, cuando se genera una gráfica con R-Commander, automáticamente se está pi-diendo a R seguir algunos comandos específicos, los cuales aparecen reflejados en el área de instrucciones; en el caso de la gráfica representada en la figura 93, que representa el histograma del gasto diario, el comando seria:

hist (Turisguay$gasdia, scale="percent", breaks="Sturges", col="darkgray") que corresponde a pedir:

hist (...)— un histograma...

Turisguay$gasdia— ...de la variable Gasto total diario por persona (gasdia) en el

con-junto de datos Turisguay...

scale="percent"— ...que representa los porcentajes...

breaks="Sturges"— ...calculando el ancho de las columnas con el método de Sturges...

col="darkgray"— ...y pintando las columnas de un color gris oscuro.

Para añadir las etiquetas habrá que usar el comando:

hist (Turisguay$gasdia, main="Gasto total diario", xlab="Euros", ylab="Porcentaje (%)",

scale="percent", breaks="Sturges", col="darkgray") donde las opciones añadidas significan que:

main="Gasto total diario"— el título seráGasto total diario,

xlab=.Eu

ros"— el eje horizontal llevará la etiquetaEuros y

ylab="Porcentaje ( %)"— el eje vertical llevará la etiquetaPorcentaje ( %).

El resultado de este comando está representado en la figura 94.

4.8.3. Gráfica de barras

Es una gráfica adecuada para representar las frecuencias de las variables categóricas, en espe-cial las ordinales. En el eje horizontal se ponen las categorías (niveles o modalidades) y en el eje vertical se representan las frecuencias por cada nivel. En la figura 95 se representa la gráfica de barra de la variable Procedencia de la persona entrevistada (p7).

También a las gráficas de barra es importante añadir las etiquetas de los ejes y el título; si para producir la gráfica de barras 95, el comando que automáticamente ha usado R-Commander ha sido: barplot (table (Turisguay$p7), xlab="p7", ylab="Frequency")

para añadir título y etiquetas, usaremos lo siguiente:

barplot (table (Turisguay$p7), xlab="p7", ylab="Frequency", main="Procedencia")

(63)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 94: Histograma con etiquetas

(64)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 96: Gráfica de barras con título y etiquetas

4.9.

Datos (II)

En esta sección seguiremos explicando los comandos contenidos en el menú Datos, que ya hemos introducido en la sección 4.5.

En esta sección veremos aquellos comandos que permiten modificar, agrupar, segmentar y elimi-nar tanto los datos como las variables del conjunto de datos activo.

4.9.1. Conjunto de datos en paquetes

Existen diferentes bases de datos de ejemplo que acompañan a algunos de los paquetes de R. Con este comando se puede cargar estos archivos y, si posible, obtener información adicional sobre los mismos.

4.9.2. Conjunto de datos activos

Seleccionar Equivale a pinchar con el ratón en el nombre del conjunto de datos activo, sito en la barra de elementos activos de R-Commander.

Referencias

Documento similar

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)