An ´alisis computacional Inferencia Estad´ıstica: intervalos de confianza y contrastes de hip ´ otesis
Rom ´an Salmer ´on G ´omez
29 de abril de 2014
Contenidos
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
Ejercicios SPSS
PSPP Gretl R Stata
Ejercicios
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
Ejercicios
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
En el archivo encuesta.xls (http://www.ugr.es/local/romansg/material/encuesta.xls) se dispone de la informaci ´on para las siguientes variables de 148 estudiantes:
Edad: edad del estudiante medida en a ˜nos.
G ´enero: variable dicot ´omica que toma los valores Hombre y Mujer.
Titulaci ´on: titulaci ´on a la que pertenece el estudiante (GECO, GADE, GADE+D y GFICO).
Grupo: grupo al que pertenece el estudiante (grupos A y B de ma ˜nana, el resto de tarde).
Peso: peso del estudiante medido en kg.
Pareja: variable dicot ´omica que toma el valor Si si el estudiante tiene pareja y No en caso contrario.
Sue ˜no: n ´umero de horas de sue ˜no al d´ıa del estudiante.
Fuma: variable dicot ´omica que toma el valor Si si el estudiante fuma y No en caso contrario.
Estudio: n ´umero de horas de estudio al d´ıa del estudiante.
TV: n ´umero de horas que ve la TV al d´ıa el estudiante.
Radio: n ´umero de horas que escucha la radio el estudiante.
Alcohol: variable cualitativa que toma los valores Nada, Poco y Bastante.
Ejercicios
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
1. Calcular la media (mediana, desviaci ´on t´ıpica, varianza, asimetr´ıa y curtosis) de las variables Edad y Peso en funci ´on del G ´enero y Titulaci ´on.
2. ¿Es la edad media de los estudiantes de GFICO de 22 a ˜nos? ¿Se puede decir que el peso medio es de 66 kg?
3. ¿Son las medias de las horas de estudio, de TV y radio iguales entre hombres y mujeres? ¿Es el peso medio distinto entre los que tienen y no tienen pareja?
¿Y entre los fumadores y no fumadores?
4. ¿Son las horas medias de sue ˜no iguales en los estudiantes de todas las titu- laciones?
5. ¿Son las muestras obtenidas para Edad, Peso, Sue ˜no, Estudio, TV y Radio aleatorias? ¿Se distribuyen normalmente?
Paquete estad´ıstico SPSS
Contenidos
Ejercicios
SPSS
Opciones disponibles en Comparar medias Contraste de
normalidad
PSPP
Gretl
R
Stata
Paquete estad´ıstico SPSS
Contenidos
Ejercicios
SPSS
Opciones disponibles en Comparar medias Contraste de
normalidad
PSPP
Gretl
R
Stata
SPSS es uno de los programas estad´ısticos inform ´aticos m ´as usados debido a su capacidad de trabajo y su sencillo interfaz. Entre las (muchas) opciones que presenta existe un m ´odulo que permite realizar inferencia estad´ıstica con una y dos muestras.
Dicho m ´odulo se encuentra en la ruta Analizar
→
Comparar mediasLas opciones disponibles son:
Medias...
Prueba T para una muestra...
Prueba T para muestras independientes...
Prueba T para muestras relacionadas...
ANOVA de un factor...
Describimos a continuaci ´on brevemente cada una de ellas.
Opciones disponibles en Comparar medias
Contenidos
Ejercicios
SPSS
Opciones disponibles en Comparar medias Contraste de
normalidad
PSPP
Gretl
R
Stata
Medias... calcula medias (y otros muchos estad´ısticos univariados) en subgrupos (categor´ıas de una o m ´as variables independientes).
Prueba T para una muestra... contrasta si la media de una sola variable difiere de una constante especificada.
Prueba T para muestras independientes... compara las medias de dos grupos (especificados en la variable de agrupaci ´on). En este caso, mediante la prueba de Levene, adem ´as se contrasta la igualdad de varianzas.
Prueba T para muestras relacionadas... compara las medias de dos variables de un solo grupo: se trata de una ´unica muestra a la cual se le miden variables antes y despu ´es de un evento.
ANOVA de un factor se utiliza para contrastar la hip ´otesis de que varias medias son iguales. Esta t ´ecnica es una extensi ´on de la prueba t para dos muestras.
Advi ´ertase que las pruebas devuelven el p-valor del contraste realizado y el inter- valo de confianza asociado.
Contraste de normalidad
Contenidos
Ejercicios
SPSS
Opciones disponibles en Comparar medias Contraste de
normalidad
PSPP
Gretl
R
Stata
Las pruebas anteriormente realizadas se pueden realizar siempre y cuando las muestras sean aleatorias y se distribuyan seg ´un una normal.
Estas hip ´otesis se pueden contrastar en SPSS mediante la ruta Analizar
→
Prue-bas no param ´etricas
→
Una muestra...En Campo se seleccionan las variables a analizar y en Configuraci ´on las pruebas a realizar, en este caso, Kolmogorov-Smirnov y Rachas.
Paquete estad´ıstico PSPP
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
Paquete estad´ıstico PSPP
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata
PSPP es un una aplicaci ´on de software libre para el an ´alisis de datos y un reemplazo libre para el software propietario SPSS. Puesto que es un clon de este todo lo expuesto anteriormente es v ´alido para PSPP.
M ´as informaci ´on en la web: http://www.gnu.org/software/pspp/.
Software econom ´etrico Gretl
Contenidos
Ejercicios
SPSS
PSPP
Gretl
Contrastes Hip ´otesis
R
Stata
Software econom ´etrico Gretl
Contenidos
Ejercicios
SPSS
PSPP
Gretl Contrastes Hip ´otesis
R
Stata
Si bien Gretl es un software enfocado al an ´alisis econom ´etrico, tambi ´en permite realizar inferencia estad´ıstica sobre una y dos muestras mediante contrastes de hip ´otesis.
Esta opci ´on se encuentra en la Calculadora de estad´ısticos de contraste del men ´u Herramientas, siendo las opciones disponibles las siguientes:
Contraste para la media de una poblaci ´on normal.
Contraste para la varianza de una poblaci ´on normal.
Contraste para la proporci ´on.
Contraste para la diferencia de medias procedentes de sendas poblaciones normales.
Contraste para el cociente de varianzas procedentes de sendas poblaciones normales.
Contraste de hip ´otesis para la diferencia de proporciones.
Calculadora de estad´ısticos de contraste
Contenidos
Ejercicios
SPSS
PSPP
Gretl Contrastes Hip ´otesis
R
Stata
En todos los casos me permite introducir los valores muestrales a usar1 o bien seleccionar una variable del conjunto de datos de manera que de forma autom ´atica calcula toda la informaci ´on necesaria.
Si se desea comparar dos subgrupos de una misma variable, por ejemplo, comparar el peso de alumnos en dos titulaciones distintas se ha de especificar en cada pesta ˜na Peso (Grado=1) y Peso (Grado=3) y pulsar enter para que calcule los valores muestrales correspondientes.
Como resultado se obtiene tanto el valor del estad´ıstico experimental (que habr´ıa que comparar con el te ´orico2) como el p-valor asociado al contraste.
1Estos se pueden obtener seleccionando la variable correspondiente y pulsando el
bot ´on derecho del rat ´on, dentro de las opciones que aparecen seleccionar Estad´ısticos principales.
2Este puede ser calculado en la ruta Herramientas → Tablas estad´ısticas.
Hip ´ otesis de partida
Contenidos
Ejercicios
SPSS
PSPP
Gretl Contrastes Hip ´otesis
R
Stata
Para contrastar la hip ´otesis de partida de que la variable ha de ser normal, teniendo seleccionada la variable en cuesti ´on, hay que seguir la ruta Variable
→
Contraste de normalidad. Como resultado se obtienen 4 contrastes (en versi ´on 1.9.13). En funci ´on del p-valor se rechazar ´a o no la hip ´otesis nula de normalidad.
En la ruta Herramientas
→
Contrastes no param ´etricos se puede contrastar la hip ´otesis nula de aleatoriedad de la muestra en la pesta ˜na Contraste de rachas.Entorno de programaci ´ on R
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Contrastes C ´odigo Hip ´otesis
Stata
Entorno de programaci ´ on R
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Contrastes C ´odigo Hip ´otesis
Stata
R es un conjunto integrado de programas para manipulaci ´on de datos, c ´alculo y gr ´aficos que est ´a disponible como software libre en http://www.r-project.org/.
Para comparar medias y varianzas se disponen de los comandos t.test y var.test, respectivamente:
t.test(var1, var2=NULL, alternative="two.sided", mu = 0, paired=FALSE, var.equal=FALSE, conf.level=0.95) var.test(var1, var2, ratio=1, alternative = "two.sided",
conf.level=0.95)
Las opciones indicadas son las ofrecidas por defecto.
Opciones de de los comandos t.test y var.test
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Contrastes
C ´odigo Hip ´otesis
Stata
Si para t.test no se especifica el segundo conjunto de datos se trabajar ´a con una ´unica muestra.
El argumento alternative indica el tipo de contraste: bilateral si se especifica two.sided, unilateral con hip ´otesis alternativa del tipo mayor para greater y menor para less.
En el argumento mu se especifica el valor de la hip ´otesis nula en el caso de comparaci ´on de medias, mientras que para la comparaci ´on de varianzas se hace con el argumento ratio.
En el argumento paired se especifica si los datos est ´an relacionados (parea- dos), True, o no, False.
En el argumento var.equal se especifica, en caso de dos muestras, si las va- rianzas son iguales (True) o no (False).
Con el argumento conf.level se indica el nivel de confianza a usar.
Para trabajar con proporciones se tiene el comando prop.test (de similar uso).
Para resolver algunos de los problemas planteados al inicio del documento se puede usar el siguiente c ´odigo (se obtienen p-valores e intervalos de confianza asociados).
# leo los datos
datos = read.table(file="Datos.txt", header=TRUE, dec=",", sep="\t") attach(datos)
# algunos descriptivos
list(summary(Edad), summary(Peso), summary(sueno), summary(estudio), summary(tv), summary(radio))
# ejercicios
t.test(Edad, mu=22) t.test(Peso, mu=66) var.test(tv~Sexo) t.test(tv~Sexo)
t.test(tv~Sexo,var.equal=T)) var.test(Peso~Pareja)
t.test(Peso~Pareja)
t.test(Peso~Pareja,var.equal=T)
Hip ´ otesis de partida
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Contrastes C ´odigo Hip ´otesis Stata
Para contrastar la normalidad de las variables se tiene el comando shapiro.test:
shapiro.test(Peso)
shapiro.test(Edad)
Paquete estad´ıstico Stata
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata Contrastes
Paquete estad´ıstico Stata
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata Contrastes
Stata es un software estad´ıstico que permite una eficiente gesti ´on de datos y de an ´alisis estad´ısticos.
Los datos en Stata se introducen directamente pulsando el bot ´on correspondien- te a Data Editor (edit) o import ´andolos, por ejemplo desde Excel, sin m ´as que copiarlos en la hoja de c ´alculo y peg ´andolos en la de Stata (si el nombre de las variables est ´a escrito en la primera fila de la hoja de c ´alculo aparecer ´a un mensaje preguntando si dicha fila ha de tratarla como los nombres de las variables o como datos).
Advi ´ertase que el delimitador decimal es el punto (al igual que en Gretl y R).
Comandos ttest, sdtest y swilk
Contenidos
Ejercicios
SPSS
PSPP
Gretl
R
Stata Contrastes
Para hacer inferencia en Stata hay que usar el comando ttest para contrastes sobre la media, ya sea para una ´unica muestra o para dos (con varianzas iguales o distintas), o el comando sdtest para la comparaci ´on de varianzas:
ttest peso = 66 ttest peso, by(fuma) ttest TV = Radio, unpaired
ttest TV = Radio, unpaired unequal sdtest TV = Radio
En todos los casos se obtienen la media y varianzas muestrales, intervalos y p-valores asociados a los contrastes de hip ´otesis realizados.
Para contrastar la normalidad de las variables se dispone del comando swilk :