CASAS Econometria Moderna

(1)

Unidad de Consultoría

Estadística

U

NIVERSIDAD DE VIEDO

O

U N I O V I

C

Curso Avanzado del Paquete Estadístico R

Introducción a la modelización estadística

1201B

Unidad de Consultoría Estadística http://uce.uniovi.es

(2)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Coordinador:

Emilio Torres Manzanera

Departamento de Estadística e Investigación Operativa y Didáctica de la Matemática Universidad de Oviedo

E.U. Jovellanos - Campus de Viesques [email protected]

Han colaborado en la elaboración de este material docente: Susana Montes Rodríguez, Ignacio Montes , Pelayo Izquierdo García, Tania Iglesias Cabo, Patricia Díaz Díaz.

Unidad de Consultoría Estadística http://uce.uniovi.es

c/ Luis Moya 261- 33203 Gijón- Spain Tel. 985 182061

email: [email protected]

Se concede permiso para copiar, distribuir o modificar este documento bajo los términos de la Licencia de Documentación Libre de GNU, versión 1.3 o cualquier otra versión posterior publica-da por la Free Software Founpublica-dation; sin Secciones Invariantes ni Textos de Portapublica-da ni Textos de Contraportada.

(3)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Índice

1. Iniciar R-Commander 4 2. Conceptos básicos 6 2.1. Análisis descriptivo . . . 6 2.2. Variable cualitativa-nominal . . . 6 2.3. Cuantitativa-discreta . . . 8 2.4. Cuantitativa-continua . . . 9 3. Contrastes de hipótesis 12 3.1. Introducción . . . 12

3.2. Tests para el promedio . . . 13

3.3. Comparación de dos promedios . . . 17

3.4. Comparación de dos varianzas . . . 22

3.5. Test para la proporción . . . 24

3.6. Comparación de dos proporciones . . . 27

3.7. Relaciones entre variables . . . 28

3.8. Comparación de más de dos promedios . . . 30

4. Regresión lineal 43 4.1. Modelización estadística . . . 43

4.2. Modelo de regresión lineal simple . . . 43

4.3. Transformaciones de variables . . . 50

4.4. Regresión lineal múltiple . . . 57

5. Análisis de la varianza 64 5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales . . . 64

5.2. Modelo lineal con un factor . . . 64

5.3. Interacciones entre factores . . . 68

6. Análisis de la covarianza 73 6.1. Introducción . . . 73

6.2. El consumo de energía según la producción de TBC y la línea. . . 74

6.3. Variables indicadoras . . . 78

6.4. Modelo completo . . . 82

7. Redacción de un artículo 95 8. Ejercicios 99 A. Bases de datos 105 A.1. Producción de acero . . . 105

(4)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

1. Iniciar R-Commander

Antes de profundizar en el conocimiento de la Estadística, es útil empezar motivándose mediante una interfaz que nos facilite la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander presenta una interfaz que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.

Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta sufi-ciente para todos los análisis estadísticos que necesiten abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R, podrán manejarse directamente con la con-sola de R, creando y editando las instrucciones, lo que puede resultar más engorroso, pero al mismo tiempo permite un control total sobre los procedimientos que en cada momento se van a aplicar.

Según la version de R y Commander que se eligió instalar, hay distintas formas de lanzar R-Commander. Si instaló R-UCA o R-commander, abriendo Rterm automáticamente se inicia también el R-Commander. Si instaló directamente R, o bien R-Excel, siga las instrucciones que se indican a continuación.

Desde la consola de R, seleccione Paquetes y después Cargar paquete..., tal como se muestra en la figura 1.

Figura 1: Cargar paquetes en R

Se visualizará una lista de paquetes; baje hasta encontrar Rcmdr y selecciónelo. Se inicia la ventana del R-Commander. Este interface consta de las siguientes partes: barra de menús, barra de elementos activos (conjuntos de datos y modelos), área de instrucciones, área de resultados y área de mensajes (Fig. 2).

(5)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Para abrir una base de datos, accedemos al menú de Datos (Fig.3) y si deseamos trabajar con un fichero con el formato nativo de R (.rda), escogemos la opción Cargar conjunto de datos (Fig. 4).

Figura 3: Menú de datos.

Figura 4: Cargar datos

El programa R y el paquete R-Commander no sólo permiten crear y trabajar sobre datos con formato nativo, sino que importan ficheros provenientes de otros programas: texto puro (en fichero, portapapeles o dirección URL), SPSS, Minitab, STATA, Excel y Access.

(6)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

2. Conceptos básicos

2.1. Análisis descriptivo

La estadística descriptiva es la parte de la Estadística que se dedica a resumir los datos. Es-te análisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obEs-tenidas tras el análisis descriptivo proporcionan un poder de inferencia mínimo, pero facilitan la utilización de téc-nicas más avanzadas (inferencia, contrastes). Una vez depurados los posibles errores de los datos, sintetizamos la información mediante tablas, gráficos y medidas descriptivas.

Las variables estadísticas se clasifican en tres categorías: nominales, ordinales y numéricas. Las variables nominales clasifican según modalidades, atributos o niveles, como por ejemplo el estado civil, grupo sanguíneo, etc. Las variables ordinales corresponden a otro caso particular de variables no numéricas y ocurre cuando existe una relación de orden entre los atributos, como por ejemplo, nivel de estudios (primarios, secundarios, superiores), capacitación laboral (baja, media, alta), etc. Las variables numéricas cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos prime-ras se integrarán en las llamadas características cualitativas (factores), mientprime-ras que el tercer tipo corresponde a características cuantitativas (numéricas). Dentro de las cuantitativas también se pue-den hacer dos grupos: discretas y continuas. Una variable discreta es aquella que entre dos valores posibles de la variable, siempre existe uno que no puede ser un valor posible de la variable. Por ejemplo, el número de hijos de una familia, puesto que pueden ser 3 o 4, pero no pueden ser 305. Otros ejemplos de variables discretas son el número de cilindros de un coche, el número de averías en una hora, etc. Por otro lado, se dice que una variable numérica es continua si entre cualesquiera dos valores posibles de la variable, siempre existe un valor posible. Una variable continua sería la estatura de una persona, puesto que al poder ser 1070 ó 1075 metros, en potencia al menos podría tomar cualquier valor intermedio como 1073 metros, por ejemplo. Longitudes, pesos, temperaturas, etc. son otros ejemplos de variables continuas.

Una vez identificadas, recopiladas y organizadas, las variables se tratarán combinando medidas estadísticas con representaciones gráficas. Conviene seleccionar y mostrar, en cada caso, aquellas que aportan información relevante (cuadro 1).

Cuadro 1: Principales estadísticos de resumen.

Tipo de Medidas Medidas Gráficos más

Variable posición dispersión habituales

Cualitativa-nominal Moda Diagrama de barras

(sexo, raza,. . . ) Porcentajes Diagrama de sectores+

Cualitativa-ordinal Mediana Diagrama de barras

(nivel de estudios,. . . ) Percentiles Diagrama de sectores+ Cuantitativa-discreta Media Desviación Diagrama de barras (Nº dias, Nº errores) Percentiles típica Diagrama de sectores+ Cuantitativa-continua Media Desviación Histograma

(peso, consumo,. . . ) Percentiles típica Diagrama de cajas

+

No se recomienda.

2.2. Variable cualitativa-nominal

Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades (Sí, No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal.

(7)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Estos estadísticos se obtienen de la siguiente forma:

Estadísticos yResúmenes

yDistribución de frecuencias...

Seleccionar la variable averias yAceptar

Los procedimientos anteriores proporcionan el siguiente resultado: > Tabla <- table(acero$averias) # counts for averias > Tabla

No Sí 89 28

> 100 * Tabla/sum(Tabla) # percentages for averias

No Sí

76.06838 23.93162

Así, se ha obtenido el número de casos de cada modalidad y el porcentaje que representan dentro de la muestra. La moda es el dato que más se repite; en este caso, la modalidad No.

Ejemplo 2.2. Obtenga el gráfico de barras de la variable averias.

Solución: Los gráficos de barras se obtienen con la opción del menú Gráficas. En particular,

Gráficas

yGráfica de barras...

Con esto se obtendría el gráfico de barras correspondiente. Para modificar las etiquetas de los ejes, se podrían cambiar los nombres que aparecen en la ventana de instrucciones como sigue: > barplot(table(acero$averias), xlab = "avería", ylab = "Frecuencia")

(8)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

2.3. Cuantitativa-discreta

Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la variable naverias. Tal como se comentó en el Cuadro 1, para esta variable interesa obtener su media, su desviación típica y algunos de sus percentiles.

Ejemplo 2.3. Calcule la media, desviación típica y percentiles de la variable naverias.

Solución: Estos valores se obtienen de la siguiente forma:

yResúmenes numéricos

Seleccionar la variable naverias yAceptar

Las salidas del procedimiento anterior son:

> numSummary(acero[,"naverias"], statistics=c("mean", "sd", "quantiles"),

+ quantiles=c(0,.25,.5,.75,1))

mean sd 0% 25% 50% 75% 100% n

0'6752137 1.292078 0 0 0 0 4 117

Los resultados nos indican que la media es de aproximadamente 00675 averías por hora, con una desviación típica de 10292. El número de averías varía desde 0 hasta 4, y al menos el 75 % de la observaciones no presentaron averías. En total disponemos de 117 observaciones.

(9)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Nos hemos de percatar que al ser una variable numérica, R la considera continua y, por tanto, no nos permitiría hacer este gráfico. Debemos pues, crear en primer lugar una nueva variable de tipo factor con estos datos.

Datos

yModificar variables del conjunto. . . yConvertir variable numérica en factor

Seleccionar la variable naverias yUtilizar números

yEscribir un nombre para la nueva variable yAceptar

> acero$naver <- as.factor(acero$naverias)

Realizamos con esta variable el gráfico como en el Ejemplo 2.2:

Gráficas

yGráfica de barras

con lo que obtenemos un gráfico similar al siguiente:

2.4. Cuantitativa-continua

Dentro de la base de datos acero escogemos la variable consumo como ejemplo de variable cuantitativa continua. Para las variables continuas, tal como vimos en el Cuadro 1, los descripti-vos que nos interesa obtener son la media, la desviación típica y los percentiles (en particular los cuartiles).

(10)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Estos valores se consiguen mediante el siguiente procedimiento:

yResúmenes numéricos

con el que se obtiene:

> numSummary(acero[,"consumo"], statistics = c("mean", "sd", "quantiles"),

+ quantiles=c(0,.25,.5,.75,1))

mean sd 0% 25% 50% 75% 100% n

139.4565 55.18525 17.5 99.09 140'07 182.48 290'72 117

Con esta información podemos concluir que el consumo medio se sitúa en torno a 139046 Mega-vatios/hora, con una desviación típica de 55019 Mg./hora. El consumo mínimo desciende hasta 1705 y el máximo asciende hasta 290072. El 25 % de los casos analizados consumen 99009 megavatios o menos, el 50 % menos de 140007 y un 25 % consume más de 182048.

Ejemplo 2.6. Obtenga el histograma y el diagrama de cajas de la variable consumo.

Solución: Vamos a realizar este ejemplo en dos etapas:

1. Para representar el histograma, seguimos los pasos que se detallan a continuación:

Gráficas

yHistograma. . .

Seleccionar la variable consumo yAceptar

se obtiene el siguiente histograma para la variable consumo:

Hist(acero$consumo, scale = "frequency", + breaks="Sturges", col="darkgray")

(11)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

2. Para representar el diagrama de cajas, los pasos a seguir son:

Gráficas

yDiagrama de caja. . .

Seleccionar la variable consumo yAceptar

que dan como resultado:

> boxplot(acero$consumo, ylab = "consumo")

A partir de dicho diagrama se observa, por ejemplo, que no existen datos atípicos para la variable (consumo) en esta muestra.

(12)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

3. Contrastes de hipótesis

3.1. Introducción

Los métodos descriptivos proporcionan una idea de cómo es la muestra. Para obtener conclusio-nes relativas a la población necesitamos utilizar técnicas de inferencia estadística. Dentro de éstas la más habitual es el contraste de hipótesis.

Una hipótesis es una afirmación sobre las características estadísticas de un proceso, por lo que se puede considerar una hipótesis como una conjetura. Por ejemplo: si un técnico observa el consumo de energía durante varias horas, sabrá el consumo medio de las horas que observó. Con la ayuda de la inferencia, puede avanzar un paso más y conjeturar que el consumo medio de todas las horas de trabajo en esa fábrica es de 120. El proceso científico consiste entonces en probar su hipótesis contra una hipótesis alternativa:

Hipótesis nula H0: consumo medio = 120

Hipótesis alternativa H1: consumo medio 6= 120

Un test consiste en un procedimiento estadístico para determinar la validez de una hipótesis (la hipótesis nula). Si los datos de la muestra resultan poco creíbles de obtenerse en caso de ser cierta dicha hipótesis, nuestra razón nos obligará a rechazarla. En caso contrario, no hay base suficiente para rechazarla. La aceptación de la hipótesis nula es muy difícil si sólo se usan procedimientos estadísticos. Sin embargo, desde el punto de vista práctico, el no rechazo de una hipótesis nos llevará a concluir que no hay evidencias significativas en contra de dicha hipótesis y, por tanto, que puede considerarse admisible.

La forma habitual de presentar los resultados de un test de hipótesis es a través delp-valor o nivel crítico. Simplemente con este número se puede concluir si la hipótesis nula es o no rechazada a

un nivel de significación (α). Elp-valor es el nivel de significación menor que llevaría al rechazo

de la hipótesis nula H0. Una vez que se conoce el p-valor, el responsable de tomar las decisiones

puede determinar por sí mismo en qué medida son significativos los datos sin que se le imponga formalmente un nivel de significación predeterminado. Una vez conocido el valor del p-valor y fijado el nivel de significación del contraste, la decisión a tomar se obtiene comparando ambos valores, tal como puede verse en el cuadro 2.

Cuadro 2: Regla de decisión.

REGLA DE DECISIÓN

P-valor < α =⇒ Rechazo H0

P-valor ≥ α =⇒ No rechazo H0

Generalmente se considera α = 0005.

La decisión es el último paso de un contraste de hipótesis. Un esquema de todo el proceso asociado a un contraste puede verse en la figura 5. En dicho esquema se pone de manifiesto el hecho de que los niveles de significación habituales son siempre menores de 001, destacando los valores 001, 0005 y 0001. De entre todos ellos, el nivel 0005 predomina con claridad.

Como ejemplos de test de hipótesis, vamos a considerar algunos de los más habituales en la práctica. Éstos aparecen descritos a continuación, junto con un ejemplo de pregunta que sería con-testada mediante dicho test.

Promedio de una población: ¿El consumo medio es menor de 140?

Comparación de promedios: ¿El consumo medio es mayor cuando hubo averías? Proporción poblacional: ¿El porcentaje de horas con averías es mayor del 10 %?

(13)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 5: Pasos en un contraste de hipótesis.

Comparación de proporciones: ¿El porcentaje de horas con averías es mayor cuando

esta-ba encendido el sistema que cuando no?

Desviación típica: ¿La variabilidad del consumo es menor de 50?

Comparación de desviaciones típicas: ¿La variabilidad del consumo es la misma durante

las horas que hubo averías y durante las que no?

Ejemplos de la mayoría de los contrastes anteriores serán analizados en detalle en las Secciones 3.2 a 3.6.

3.2. Tests para el promedio

Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el contras-te adecuado en el caso en estudio, establecer quiénes son H0y H1en ese contraste e interpretar

el p-valor. En un test sobre el valor promedio de la población, debemos tener en cuenta si los datos siguen aproximadamente una distribución normal o no, así como el tamaño de la muestra, y según sea el resultado, decidir qué contraste realizamos (cuadro 3).

Cuadro 3: Contrastes para el promedio.

Contraste para la ¿Distribución aproximadamente Tipo de test normal ongrande?

Media (µ) Sí Test t para una muestra

Mediana (M e) No Test de Wilcoxon para una muestra

Si la muestra dispone de un suficiente número de datos (habitualmente se exige que tenga al menos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de la media de la población. En caso contrario, es necesario que se pueda admitir la normalidad de los datos para realizar dicho test. Si no fuera normal, se utilizaría el test de Wilcoxon para una muestra. En los contrastes de normalidad de los datos utilizaremos del test de Shapiro-Wilk. Para este test las hipótesis a contrastar son:

TEST DE BONDAD DE AJUSTE A LA NORMAL H0: los datos provienen de una población normal

(14)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

REGLA DE DECISIÓN

P-valor < α =⇒ Rechazo H0(la distribución no es normal)

P-valor ≥ α =⇒ No rechazo H0(se puede admitir la normalidad)

Generalmente se consideraα = 0005 .

En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener 117 datos ya podemos utilizar directamente el test t para una muestra. Así pues, estamos en condiciones de realizar un contraste para la media, comparándola con el valor 120. El test adecuado en este caso es eltest t para una muestra, cuyas hipótesis a contrastar (H0y H1) pueden ser de tres tipos:

H0: µ = 120 H0: µ ≥ 120 H0: µ ≤ 120

H1: µ 6= 120 H1: µ < 120 H1: µ > 120

Ejemplo 3.1. ¿Es el consumo medio igual a 120?

Solución: En este caso se tiene:

H0: el consumo medio es de 120

H1: el consumo medio no es de 120

Estadísticos yMedias

yTest t para una muestra...

Seleccionar la variable consumo yPonemos 120 en la hipótesis nula

yAceptar

Las salidas de este test son:

> t.test(acero$consumo, mu = 120, conf.level = 0.95)

One Sample t-test data: acero$consumo

t = 3.8136, df = 116, p-value = 0.0002210

alternative hypothesis: true mean is not equal to 120 95 percent confidence interval:

129.3516 149.5614 sample estimates: mean of x

139.4565

Puesto que la adaptación de la regla de decisión a este test en particular sería: P-valor < α =⇒ Rechazo H0(consumo medio 6= 120)

P-valor ≥ α =⇒ No rechazo H0(consumo medio = 120)

(15)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

simplemente debemos considerar el valor del p-valor asociado a este contraste para esta muestra y, en base a él, tomar la decisión correspondiente. Puesto que hemos obtenido que el p-valor es 000002210, éste es menor que α = 0005, por lo que la decisión es rechazar la hipótesis nula (H0).

Como conclusión podemos decir que la media poblacional es distinta de 120.

El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hipótesis alternativa es que el valor del parámetro es distinto de un número. Cuando la alternativa lleve el símbolo menor (<) o mayor (>), en lugar del símbolo distinto (6=, se denomina test unilateral. En ejemplo de dicho tipo de test unilateral puede verse a continuación.

Ejemplo 3.2. ¿El consumo medio es menor de 140?

Solución: En este caso, tal como comentamos en el ejemplo anterior, se verifican las hipótesis para utilizar el test t para una muestra. Así, el test adecuado para contestar a esta pregunta contrastaría las siguientes hipótesis:

H0: el consumo medio es mayor o igual que 140

H1: el consumo medio es menor de 140

y sería realizado tal como sigue: Estadísticos

yMedias

yTest t para una muestra

Seleccionar la variable consumo yPonemos 140 en la hipótesis nula

yMarcar Media poblacional < mu0 yAceptar

Los resultados obtenidos son:

> t.test(acero$consumo, alternative = "less", mu = 140, conf.level = 0.95)

One Sample t-test

data: acero$consumo

t = -0.1065, df = 116, p-value = 0.4577

alternative hypothesis: true mean is less than 140 95 percent confidence interval:

-Inf 147.9159 sample estimates: mean of x

139.4565

Como el p-valor (004577) supera los valores habituales de α, no se rechaza la hipótesis nula, por lo que podemos concluir que estos datos no aportan evidencias suficientes de que la media sea menor de 140.

Vamos por último a analizar el caso de una variable en la que no se den las condiciones para aplicar el test t para una muestra.

Ejemplo 3.3. Durante los días que hubo averías, ¿la producción promedio de galvanizado 1 se sitúa

(16)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Comenzaremos seleccionando los datos para quedarnos sólo con aquellos que corres-ponden a días en los que hubo averías. Para ello podemos seguir los siguientes pasos:

Datos

yConjunto de datos activo yFiltrar el conjunto de datos...

Seleccionar averias

yExpresión de. . . averias=="Sí" yNombre del nuevo. . . acero2

yAceptar

Datos

yConjunto de datos activo

yActualizar conjunto de datos activo

Así, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos a las horas en las que hubo avería. Como son 28 datos, tal como vimos en el ejemplo 2.1, no podemos aplicar sin más el test t para la media y debemos comprobar si se cumple la hipótesis de normalidad.

Realizaremos pues el test de normalidad a la variable pr.galv1.

yTest de normalidad de Shapiro. . .

Seleccionar pr.galv1 yAceptar

Los resultados de dicho test son:

> shapiro.test(acero2$pr.galv1) Shapiro-Wilk normality test data: acero2$pr.galv1

W = 0.8805, p-value = 0.004117

Como el p-valor (00004118) es menor que α = 0005, se rechaza la hipótesis nula, por lo tanto no hay normalidad.

(17)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

¿Cómo podemos hacer para contrastar la hipótesis sobre el valor promedio de la producción de galvanizado 1 en las horas con averías? Al no haber normalidad y disponer de pocos datos, debemos realizar eltest de Wilcoxon para una muestra. Para éste los distintos tipos de contrastes

de hipótesis para la mediana son:

H0: M e = 400 H0: M e ≥ 400 H0: M e ≤ 400

H1: M e 6= 400 H1: M e < 400 H1: M e > 400

two.sided less greater

La hipótesis que nos interesa es:

¿La producción promedio es menor de 400? H0: M e ≥ 400 (la producción promedio es alta)

H1: M e < 400 (la producción promedio es baja)

Para realizar este test escribimos en la ventana de instrucciones lo que sigue: wilcox.test(acero2$PR.GALV1,alternative="less",mu=400) y pinchamos en Ejecutar.

Figura 6: Test de Wilcox para una muestra Lo que da como resultado

> wilcox.test(acero2$pr.galv1, alternative = "less", mu = 400) Wilcoxon signed rank test with continuity correction

data: acero2$pr.galv1 V = 277, p-value = 0.9552

alternative hypothesis: true location is less than 400

Como el p-valor (009552) es mayor que el nivel de significación α, no se rechaza la hipótesis nula, por lo tanto podemos suponer que la producción es alta, es decir mayor o igual de 400.

3.3. Comparación de dos promedios

La comparación de dos promedios consiste en comprobar si el promedio de una variable varía según determinadas características. Dependiendo de la situación existen diversas posibilidades de contrastes. El cuadro 4 recoge los principales tests aplicados habitualmente.

Ejemplo 3.4. ¿Se puede afirmar que cuando se producen averías el consumo de energía se

(18)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Cuadro 4: Contrastes para igualdad de promedios.

¿Distribuciones

¿Independientes? Tipo de test Contrastes para aproximadamente

comparar dos normales o tamaños muestrales grandes?

Medias Sí Sí Test t para muestras independientes Medias Sí No Test t para datos relacionados Medianas No Sí Test de Wilcoxon para dos muestras Medianas No No Test de Wilcoxon para muestras pareadas

Solución: Lo primero de todo será volver a activar la base de datos acero. Para ello, pinchamos a la derecha de Conjunto de datos:, en el botón que pone acero2 y seleccionamos de nuevo la base de datos acero.

Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dos situaciones (cuando haya averías y cuando no) mediante el test de Shapiro-Wilk. Para esto ponemos en la línea de comandos:

Figura 7: Normalidad del consumo según las averías Los resultados de ejecutar ambas líneas de comando son:

> shapiro.test(subset(acero, subset = averias == "No")$consumo) Shapiro-Wilk normality test

data: subset(acero, subset = averias == "No")$consumo W = 0.9869, p-value = 0.5137

> shapiro.test(subset(acero, subset = averias == "Sí")$consumo) Shapiro-Wilk normality test

data: subset(acero, subset = averias == "Sí")$consumo W = 0.9644, p-value = 0.4408

Los p-valores correspondientes superan el nivel α, por lo que podemos considerar normalidad en ambos casos.

Por la naturaleza del problema, es evidente que se puede trabajar con la hipótesis de que las poblaciones son independientes, con lo cual estamos en condiciones de aplicar eltest t para mues-tras independientes. Ahora bien, a la hora de realizar dicho test es necesario especificar si se

supone que las varianzas son iguales o no, puesto que el estadístico utilizado al obtener el p-valor y, por tanto, el valor de dicho p-valor, difiere según la opción elegida. En la sección 3.4 se puede ver cómo contrastar la igualdad de varianzas. El contraste para este ejemplo en particular está realizado en el Ejemplo 3.6, donde se obtiene que no hay evidencias en contra de suponer que las varianzas de ambas poblaciones sean iguales. En estas circunstancias, aplicamos eltest t para muestras independientes, suponiendo las varianzas iguales.

(19)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

¿Quiénes son H0y H1en ese contraste?

Dependiendo de la hipótesis alternativa considerada, los tres contrastes que podemos realizar con eltest t para muestras independientes para comparar las medias de dos poblaciones son:

H0: µ1= µ2 H0: µ1≥ µ2 H0: µ1≤ µ2

H1: µ16= µ2 H1: µ1< µ2 H1: µ1> µ2

Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase 1 con media µ1) y como segunda clase (clase 2 con media µ2). Por defecto, el programa considera el

orden alfabético, es decir, si como en este caso las clases son No y Sí, la primera clase corresponde al no (sin averías y la segunda al sí (con avería). Que consuma más con avería se traduciría por lo tanto en µ2> µ1, por lo que para este ejemplo vamos a considerar el contraste:

H0: µ1≥ µ2(consumo menor o igual con avería)

H1: µ1< µ2(consumo mayor con avería)

y para calcularlo procedemos de la siguiente forma:

yTest t para muestras independientes

Seleccionar las variables averias y consumo

yMarcar: Diferencias < 0 yMarcar: Varianzas iguales

yAceptar

Los resultados de estos pasos son:

> t.test(consumo ~ averias, alternative = "less", conf.level = 0.95,

+ var.equal = TRUE, data = acero)

Two Sample t-test

data: consumo by averias

t = -0.9423, df = 115, p-value = 0.174

alternative hypothesis: true difference in means is less than 0 95 percent confidence interval:

-Inf 8.564113 sample estimates:

mean in group No mean in group Sí

136.7585 148.0321

Como el p-valor (00174) es mayor que el nivel de significación α, no se rechaza la hipótesis nula. Así pues, los datos no aportan evidencias de que el consumo promedio sea mayor cuando haya avería.

(20)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

¿Qué ocurriría si las poblaciones no fueran independientes?

En tal caso, si suponemos normalidad, realizamos eltest t para muestras relacionadas. Se elige

la siguiente opción del menú:

yTest t para muestras relacionadas

Sería este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y después de aplicarle un procedimiento en el horno, el nivel de glóbulos rojos de una persona antes y después de recibir un determinado tratamiento o la producción de galvanizado tipo 1 y la producción de galvanizado tipo 2.

Cuando las poblaciones no son normales y no tienen suficiente número de datos (habitualmente se suele exigir al menos 30) se realiza eltest de Wilcoxon para dos muestras si las poblaciones

son independientes, o eltest de Wilcoxon para muestras pareadas si tal independencia no es

supuesta. Realicemos unos ejemplos para aclarar tales situaciones.

Ejemplo 3.5. Estudie el comportamiento de la producción de galvanizado 1 en función de las

ave-rías.

Solución: Aunque ya sabemos que no podemos asegurar que la producción de galvanizado 1 siga una distribución normal, vamos a actuar como si aún no conociésemos dicha información. Así, de-terminamos el tipo de test más apropiado. Para ello aplicamos el test de normalidad de Shapiro-Wilk a ambas poblaciones:

Figura 8: Test Shapiro de galvanizado por averias y los resultados de los mismos se detallan a continuación:

> shapiro.test(subset(acero, subset = averias == "No")$pr.galv1)

Shapiro-Wilk normality test

data: subset(acero, subset = averias == "No")$pr.galv1 W = 0.8563, p-value = 8.081e-08

> shapiro.test(subset(acero, subset = averias == "Sí")$pr.galv1)

data: subset(acero, subset = averias == "Sí")$pr.galv1 W = 0.8805, p-value = 0.004117

(21)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

A la vista de los resultados (ambos p-valores son menores de 000042) podemos considerar la no normalidad de los datos y no disponemos de un número suficiente de datos (para horas con avería sólo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1). Por tanto vamos a abordar este problema realizando un test para muestras sin normalidad, el test de Wilcoxon. En este caso, dada la naturaleza de los datos, se realizará el test de Wilcoxon para muestras independientes.

Para este problema, puesto que el No representa la clase 1 y el Sí la clase 2, las hipótesis a contrastar son:

H0: M e1≥ M e2(producción menor o igual con avería)

H1: M e1< M e2(producción mayor con avería)

aunque de nuevo se podría considerar de la misma forma la alternativa de mayor (>) o de distinto (6=), tal como ocurría con el test t de igualdad de medias.

Para realizar el test seguimos los siguientes pasos: Estadísticos

yTest no paramétricos

yTest de Wilcoxon para dos muestras

Seleccionar las variables averias y pr.galv1 yMarcar: Diferencia < 0

yAceptar

Los resultados obtenidos en este caso son:

> tapply(acero$consumo, acero$averias, median, na.rm = TRUE)

No Sí

136.05 148.56

> wilcox.test(consumo ~ averias, alternative = "less", data = acero) Wilcoxon rank sum test with continuity correction

W = 1088.5, p-value = 0.1579

alternative hypothesis: true location shift is less than 0

Como el p-valor (001579) es mayor que el nivel de significación considerado (α), no se rechaza la hipótesis nula y, por tanto, no podemos concluir que la producción de galvanizado 1 sea mayor cuando haya averías.

En el caso de que las muestras no fueran independientes se tendría que haber elegido, si no se supone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza eligiendo la siguiente opción del menú:

(22)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Estadísticos

yTest no paramétricos

yTest de Wilcoxon para muestras pareadas

3.4. Comparación de dos varianzas

Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar la igualdad de varianzas, lo cual supone la realización de un test previo de igualdad de varianzas. Para este contraste de hipótesis vamos a considerar dos tipos de test, según la naturaleza de los datos, tal como se detalla en el cuadro 5

Cuadro 5: Contrastes para igualdad de varianzas.

Contrastes para

¿Normalidad? Tipo de test comparar dos

Varianzas Sí Test F para dos varianzas Varianzas No Test de Levene

En nuestro ejemplo comparamos el consumo con o sin averías y ya habíamos visto que se podían suponer ambas poblaciones normales. Por lo que realizaremos eltest F para dos varianzas.

¿Quiénes son H0y H1en ese contraste?

Los distintos tipos de contrastes de hipótesis para dos varianzas, según la hipótesis alternativa considerada, son:

H0: σ21= σ22 H0: σ12≥ σ22 H0: σ21≤ σ22

H1: σ216= σ22 H1: σ12< σ22 H1: σ21> σ22

En el contraste de igualdad de medias, la comprobación previa consiste precisamente en el pri-mero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente ejemplo.

Ejemplo 3.6. ¿Son iguales las varianzas del consumo con o sin averías?

Solución: Las hipótesis para el test son las siguientes.

H0: σ21= σ22(varianzas iguales)

H1: σ216= σ22(varianzas distintas)

Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:

Estadísticos yVarianzas

(23)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Seleccionar las variables averias y consumo ySeñalar Bilateral

yAceptar

Los resultados que presenta el R al finalizar estos pasos son:

> tapply(acero$consumo, acero$averias, var, na.rm = TRUE)

No Sí

3123.748 2802.630

> var.test(consumo ~ averias, alternative = "two.sided", conf.level = 0.95,

+ data = acero)

F test to compare two variances

F = 1.1146, num df = 88, denom df = 27, p-value = 0.7731

alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval:

0.5696427 1.9686748 sample estimates: ratio of variances

1.114577

Como el p-valor (007731) es mayor que el nivel de significación α, no se rechaza la hipótesis nula y, por tanto, podemos suponer que no existen diferencias significativas entre las varianzas del consumo con o sin avería (tienen la misma varianza).

Como ya hemos comentado, si quisiésemos comparar la varianza de dos poblaciones que no su-ponemos normales, se debería realizar el test de Levene. Vamos a ver su funcionamiento mediante un ejemplo.

Ejemplo 3.7. ¿Es homocedástica la producción de galvanizado 1 (pr.galv1) según las averías?

Solución: Para la variable pr.galv1 sabíamos que los datos se comportan sin normalidad. En este caso se realiza eltest de Levene. Las hipótesis del test son:

H0: σ12= σ22(varianzas iguales)

H1: σ126= σ22(varianzas distintas)

La realización de este test se lleva acabo como sigue:

(24)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Seleccionar las variables averias y pr.galv1 yAceptar

Los resultados del test de Levene para estos datos son: > levene.test(acero$pr.galv1, acero$averias)

No Sí

114634.30 91694.27

Levene's Test for Homogeneity of Variance Df F value Pr(>F)

group 1 4.1293 0.04445 *

115

---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como el p-valor (0004445) es menor que α se rechaza la hipótesis nula, podemos por tanto supo-ner que hay diferencias significativas entre las varianzas. Más aún, podemos ver que la varianza sin avería es de 114634030 mientras que cuando hay avería la varianza toma el valor de 91694027.

3.5. Test para la proporción

Es frecuente el interés por saber qué proporción o porcentaje de individuos de una población, presentan una característica A, frente a los que no la presentan. Dicha proporción no será en general conocida, pero se pueden hacer contrastes de hipótesis sobre su valor, en función de los datos de una muestra. Para la realización de dichos tests es necesario un tamaño suficiente de muestra. Habitualmente se exige que dicho tamaño (n) sea mayor o igual que 30.

Por ejemplo de aplicación de dichos tests sería si queremos saber si porcentaje de horas con avería es excesivo, considerándose excesivo si el porcentaje es mayor del 10 %.

Para responder a esta pregunta un contraste de hipótesis adecuado es eltest de proporciones para una muestra. Vamos a ver un ejemplo de aplicación de dicho test.

Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, ¿puede considerarse que el porcentaje

de averías es mayor del 10 %?

Solución: Tendríamos en cuenta que p es la primera clase por orden alfabético, en este caso No. Plantearse si el porcentaje de horas con averías es mayor del 10 % es lo mismo que plantearse si el porcentaje de horas sin averías es menor del 90 %. Puesto que los distintos tipos de contrastes de hipótesis para la proporción son de la forma:

H0: p = 90 % H0: p ≥ 90 % H0: p ≤ 90 %

H1: p 6= 90 % H1: p < 90 % H1: p > 90 %

las hipótesis a contrastar serían:

H0: p ≥ 90 % (proporción razonable de averías)

(25)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Ahora solo habría que hacer

Estadísticos yProporciones

yTest de proporciones para una muestra

Seleccionar la variable averias yEscribir 0.9 como hipótesis nula

yProporción de la población < p0

yAceptar

Las soluciones de este procedimiento son:

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = "less",

+ p = 0.9, conf.level = 0.95, correct = FALSE)

1-sample proportions test without continuity correction

data: rbind(xtabs(~averias, data = acero)), null probability 0.9 X-squared = 25.2317, df = 1, p-value = 2.542e-07

alternative hypothesis: true p is less than 0.9 95 percent confidence interval:

0.0000000 0.8192062 sample estimates: p

0.7606838

Como el p-valor es tan pequeño (20542·10−7), se rechaza la hipótesis nula, por lo que se concluye que ha habido un porcentaje excesivo de averías. En la muestra se ve que dicho porcentaje ha sido de alrededor del 24 %.

Otra manera de abordar el problema, sobre todo si hubiera más de 2 clases sería reordenar los niveles de factor y poner como primer factor de la variable averias el factor Sí.

Datos

yModificar variables

(26)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Reordenar de la forma deseada yAceptar

Las salidas obtenidas son:

> acero$averias <- factor(acero$averias, levels = c("Sí", "No"))

De esta manera las nuevas hipótesis del test serán:

H0: p ≤ 10 % (proporción razonable de averías)

H1: p > 10 % (proporción excesiva de averías)

En estas condiciones el test se realizaría del siguiente modo:

yTest de proporciones para una muestra

Seleccionar la variable averias yEscribimos 0.1 como hipótesis nula

yProporción de la población > p0

yAceptar

Las salidas obtenidas son:

> prop.test(rbind(xtabs(~averias, data = acero)), alternative = "greater",

+ p = 0.1, conf.level = 0.95, correct = FALSE)

1-sample proportions test without continuity correction

data: rbind(xtabs(~averias, data = acero)), null probability 0.1 X-squared = 25.2317, df = 1, p-value = 2.542e-07

(27)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

95 percent confidence interval: 0.1807938 1.0000000

sample estimates: p

0.2393162

Como el p-valor (20542e − 07) (que es el mismo para los dos contrastes) es menor que α se rechaza la hipótesis nula y se concluye que la proporción de averías es excesiva.

De nuevo vemos que para estos datos el porcentaje de horas con averías es de aproximadamente el 24 %.

3.6. Comparación de dos proporciones

Además de analizar el comportamiento de una proporción, se puede querer comparar la pro-porción de una determinada característica en dos poblaciones distintas. Al igual que ocurría en la sección anterior, el número de datos en cada muestra debe ser suficientemente grande (habitual-mente se exigen al menos 30 datos por muestra).

Así, por ejemplo, para poder determinar si el porcentaje de horas con avería es mayor cuando estaba apagado el sistema que cuando no, deberíamos plantear un test de proporciones para dos muestras.

Los distintos tipos de contrastes de hipótesis en este caso son:

H0: p1= p2 H0: p1≥ p2 H0: p1≤ p2

H1: p16= p2 H1: p1< p2 H1: p1> p2

donde p1representa la proporción en el primer grupo (por orden alfabético) y p2en el segundo.

Vamos a ver el funcionamiento de este test a través de un ejemplo concreto.

Ejemplo 3.9. ¿El porcentaje de horas con avería es mayor cuando estaba encendido el sistema

que cuando no?

Solución: Hemos de tener en cuenta que p1es siempre la primera clase por orden alfabético. Como

en este caso trabajamos con las modalidades No y Sí, las hipótesis a contrastar son:

H0: pN O≥ pSI(igual o mejor con el sistema encendido)

H1: pN O< pSI(peor con el sistema encendido)

La obtención del p-valor asociado a este test se realizaría mediante los siguientes pasos en R:

(28)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Seleccionar las variables sistema y averias yMarcar: Diferencia < 0

yAceptar

Las salidas de este procedimiento son:

> prop.test(xtabs(~sistema + averias, data = acero), alternative = "less",

+ conf.level = 0.95, correct = FALSE)

2-sample test for equality of proportions without continuity correction

data: xtabs(~sistema + averias, data = acero) X-squared = 0.6641, df = 1, p-value = 0.2076 alternative hypothesis: less

95 percent confidence interval:

-1.000000 0.065007

sample estimates:

prop 1 prop 2

0.7288136 0.7931034

Como el p-valor (002076) es mayor que α no se rechaza la hipótesis nula, no hay evidencias de que vaya peor con el sistema encendido.

3.7. Relaciones entre variables

Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma conjunta, si existe una relación entre ellas y en caso de existir como de fuerte es esa relación.

Para contestar a estas preguntas se establece una serie de coeficientes:

Para estudiar la relación general, se puede estudiar, entre otros, elcoeficiente Chi-cuadrado de Pearson.

Para estudiar la relación lineal, el más habitual es elcoeficiente de correlación de Pearson.

Para seleccionar el contraste más adecuado a la muestra, tendremos en cuenta la naturaleza de nuestras variables.

Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas Discretizadas, se uti-liza el testChi-cuadrado de Pearson de independencia.

Para variables Cuantitativas-Continuas, se usará el test decorrelación de Pearson.

Las hipótesis a contrastar en este tipo de problemas son siempre del tipo: H0: no existe relación entre las variables

(29)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

donde la relación será o no del tipo lineal dependiendo del coeficiente utilizado en el contraste. Así pues, un p-valor claramente menor de 0005 indicará que existe relación entre las variables. Si es mayor de 0005, los datos no nos proporcionarán evidencias de dicha relación.

Ejemplo 3.10. ¿Existe relación entre que haya habido o no averías y la línea utilizada?

Solución: Como las variables son cualitativas vamos a utilizar eltest chi-cuadrado. Para hacer esto

vamos a

Estadísticos

yTablas de contingencias yTabla de doble entrada. . .

Seleccionar las variables averias y linea yAceptar

Las salidas de este procedimiento son:

> xtabs(~averias + linea, data = acero)

linea

averias A B C

No 31 28 30

Sí 8 11 9

> chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE)

Pearson's Chi-squared test

data: xtabs(~averias + linea, data = acero) X-squared = 0.6573, df = 2, p-value = 0.7199

Como el p-valor (007199) es mayor que α no se rechaza la hipótesis nula, es decir, no hay eviden-cias de que las líneas afecten en que haya o no averías.

(30)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Como las variables son cuantitativas continuas, podemos utilizar eltest de correlación de Pearson, para lo cual haremos:

Estadísticos yResúmenes. . .

yMatriz de correlaciones

Seleccionar las variables pr.galv1 y pr.galv2

yAceptar

> cor.test(acero$pr.galv1, acero$pr.galv2, alternative = "two.sided", + method = "pearson")

Pearson's product-moment correlation data: acero$pr.galv1 and acero$pr.galv2 t = 0.5331, df = 115, p-value = 0.595

alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:

-0.1330859 0.2291146

sample estimates: cor

0.04964655

Como el p-valor (00595) es mayor que α no se rechaza la hipótesis nula. Así pues, de nuevo no hay evidencias de relación lineal entre las dos producciones (al aumentar una no tiene por qué au-mentar o disminuir significativamente la otra).

3.8. Comparación de más de dos promedios

El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata, por tanto, de una generalización del test t para dos muestras independientes en el caso de diseños con más de dos factores de agrupación. Veremos aquí su utilización como simple generalización de dicho test, aunque volveremos sobre este tema en más profundidad en los capítulos 5 y 6.

A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar, la lla-mamos independiente o factor. A la variable cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos, la llamamos dependiente.

(31)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

más eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleato-rias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Después, podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremos una variable independiente categórica (el tipo de programa de incentivos) cuyos niveles deseamos comparar entre sí, y una variable dependiente cuantitativa (la medida del rendimiento), en la cual queremos comparar los tres programas. El ANOVA de un factor permite obtener información sobre el resultado de esa comparación. Es decir, permite concluir si los sujetos sometidos a distintos pro-gramas difieren de la medida de rendimiento utilizada.

La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la variable dependiente en cada nivel de la variable independiente) son iguales. Si las me-dias poblacionales son iguales, eso significa que los grupos no difieren en la variable dependiente y que, en consecuencia, la variable independiente o factor no influye en la variable dependiente.

Lo que habitualmente se conoce como Análisis de la varianza es una versión paramétrica del test de la F. Para poder aplicarse deben verificarse ciertas condiciones previas (normalidad, independen-cia y homocedasticidad (igualdad de varianzas)). En caso contrario existen alternativas paramétricas y no paramétricas.

NORMALIDAD HOMOCEDASTICIDAD TEST RECOMENDADO

Sí Sí

Test de la F

NO∗ Sí

Sí NO Test de Welch o

Test de Kruskal Wallis

NO Sí o NO Test de Kruskal Wallis

*No drástico, p-valores del test de normalidad entre 0’01 y 0’05.

Recordar que la normalidad la estudiábamos con el test de Shapiro-Wilk, mientras que la homo-cedasticidad se puede comprobar utilizando el test de Barlett.

En este tipo de tests de igualdad de más de dos promedios, las hipótesis a contrastar son: H0: promedios iguales

H1: no todos los promedios son iguales

Si volvemos a mirar la regla de decisión, dicha decisión en este caso sería:

P-valor < α =⇒ Rechazo H0(no todos los promedios son iguales)

P-valor ≥ α =⇒ No rechazo H0(los promedios son iguales)

Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar.

Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas.

Solución: Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo de temperatura, para ello utilizábamos estest de Shapiro-Wilk, que tenía como hipótesis:

H0: los datos provienen de una población normal

H1: los datos NO provienen de una población normal

La forma más rápida de realizar los tres tests (uno para cada modalidad de la temperatura) es escribir en la línea de comandos:

Cuyos resultados son:

> shapiro.test(subset(acero, subset = temperatura == "Alta")$consumo)

data: subset(acero, subset = temperatura == "Alta")$consumo W = 0.9748, p-value = 0.4112

(32)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Figura 9: Test de Shapiro-Wilk para el consumo por temperatura

> shapiro.test(subset(acero, subset = temperatura == "Media")$consumo)

data: subset(acero, subset = temperatura == "Media")$consumo W = 0.9499, p-value = 0.1323

> shapiro.test(subset(acero, subset = temperatura == "Baja")$consumo)

data: subset(acero, subset = temperatura == "Baja")$consumo W = 0.9662, p-value = 0.2993

Los p-valores obtenidos son, respectivamente, 004112, 001323 y 002993, con lo que en todos los casos es suficientemente grande como para no rechazar la hipótesis nula (se puede admitir la nor-malidad).

Para contrastar la igualdad de varianzas en más de dos poblaciones, se utiliza eltest de Barlett,

que tiene como hipótesis:

H0: las varianzas son iguales

H1: las varianzas son distintas

Para realizar dicho test vamos a:

yTest de Bartlett

Seleccionar temperatura y consumo yAceptar

Cuyas salidas son:

(33)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Bartlett test of homogeneity of variances data: consumo by temperatura

Bartlett's K-squared = 1.4052, df = 2, p-value = 0.4953

Como el p-valor (004953) es mayor que α no se rechaza la hipótesis nula, con lo que se pueden suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test que realizaremos es eltest de la F para la igualdad de medias, es decir, el típico análisis de la varianza de un factor. A

este modelo le vamos a llamar Anova1. Los pasos a seguir para obtener el correspondiente p-valor son:

yANOVA de un factor

Introducimos el nombre Anova1

ySeleccionar temperatura y consumo yAceptamos

Cuyos resultados son:

> Anova1 <- aov(consumo ~ temperatura, data = acero) > summary(Anova1)

Df Sum Sq Mean Sq F value Pr(>F)

temperatura 2 101567 50783 23.001 4.06e-09 ***

Residuals 114 251701 2208

---Signif. codes: 0 _*** 0.001 _** 0.01 _* 0.05 . 0.1 1

> numSummary(acero$consumo , groups=acero$temperatura, statistics=c("mean", + "sd"))

mean sd n

Alta 109.4409 51.13719 46 Media 138.7297 45.58685 38 Baja 182.1333 42.25437 33

Como el p-valor (4006 · 10−9) es menor que α, se rechaza la hipótesis nula, con lo que se puede suponer que no todas las medias son iguales.

Gráficamente podríamos ver como se comporta cada grupo haciendo los correspondientes dia-gramas de cajas o gráficos de medias.

(34)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Gráficas

yDiagrama de cajas...

Seleccionar consumo yGráfica según:temperatura

yAceptar

Con lo que se obtiene:

> boxplot(consumo ~ temperatura, ylab = "Consumo", xlab = "Temperatura",

+ data = acero)

Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un gráfico más ade-cuado podría ser el de medias. Para obtenerlo los pasos a seguir son:

Gráficas

(35)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Seleccionar las variables temperatura y consumo

yAceptar

Con el procedimiento anterior se obtendrían los gráficos de medias para los tres grupos de tem-peratura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando directamente, podemos cambiar las opciones del gráfico, como por ejemplo las etiquetas de los ejes o el título del gráfico. Para ello deberíamos ejecutar la siguiente orden:

Cuyas salidas son:

> plotMeans(acero$consumo, acero$temperatura, error.bars = "conf.int",

+ level = 0.95, xlab = "Temperatura", ylab = "Consumo", n.label = FALSE, + main = "Distribución del consumo por temperatura", col = "black", + barcol = "blue", connect = TRUE)

(36)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Si se rechaza la hipótesis nula, es decir, si se concluye que las medias no son todas iguales, no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendría media superior a la otra, sino que ahora habrá que evaluar las relaciones entre las distintas poblaciones. Existen una gran cantidad de test que realizan comparaciones múltiples. Cabe destacar, por su uso más extendido, Duncan, Newman-Keuls, Bonferroni, Scheffé y HSD de Tukey.

Para realizar esta comparación solo hay que marcar la casilla: Comparación dos a dos de las medias, tal como puede verse a continuación:

yANOVA de un factor

Introducimos el nombre Anova1

ySeleccionanos temperatura y consumo yComparación dos a dos de las medias

yAceptamos Cuyas salidas son:

> comparacion <- glht(Anova1, linfct = mcp(temperatura = "Tukey")) > summary(comparacion)

Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts

Fit: aov(formula = consumo ~ temperatura, data = acero) Linear Hypotheses:

Estimate Std. Error t value Pr(>|t|)

B - A == 0 72.69 10.72 6.781 <0.001 ***

M - A == 0 29.29 10.30 2.843 0.0146 *

M - B == 0 -43.40 11.18 -3.882 <0.001 ***

---Signif. codes: 0 _*** 0.001 _** 0.01 _* 0.05 . 0.1 1

(Adjusted p values reported -- single-step method)

Simultaneous Confidence Intervals

Multiple Comparisons of Means: Tukey Contrasts

Fit: aov(formula = consumo ~ temperatura, data = acero) Quantile = 2.3738

(37)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Linear Hypotheses: Estimate lwr upr Media - Alta == 0 72.6925 47.2471 98.1378 Baja - Alta == 0 29.2889 4.8377 53.7400 Baja - Media == 0 -43.4036 -69.9442 -16.8630 > plot(comparacion)

Para añadir la línea vertical tenemos que poner en la línea de comandos:

tal como puede verse a continuación: abline(v = 0, col = "red")

y ejecutar la línea de comando.

A la vista del gráfico podemos concluir que el consumo a temperatura alta es mayor que a tempe-ratura media o baja y el consumo a tempetempe-ratura media es significativamente mayor que el consumo a temperatura baja.

(38)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Al igual que antes veamos si los datos están normalizados y hay homocedasticidad. Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo tenemos que implementar por comandos, para ello escribimos

y obtenemos:

> shapiro.test(subset(acero, subset = linea == "A")$consumo)

data: subset(acero, subset = linea == "A")$consumo W = 0.9597, p-value = 0.1738

> shapiro.test(subset(acero, subset = linea == "B")$consumo)

data: subset(acero, subset = linea == "B")$consumo W = 0.9485, p-value = 0.07302

> shapiro.test(subset(acero, subset = linea == "C")$consumo)

data: subset(acero, subset = linea == "C")$consumo W = 0.9887, p-value = 0.9584

Para los datos de la línea A el p-valor es 001738, para los de la línea B es 0007302 y para los de la C es 009584. En los tres casos suficientemente grande como para que no se rechace la hipótesis nula (se puede admitir la normalidad).

La homocedasticidad la estudiamos por medio del test de Bartlett:

(39)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Seleccionar las variables linea y consumo yAceptar

> tapply(acero$consumo, acero$linea, var, na.rm = TRUE)

A B C

1574.079 3559.603 2239.063

> bartlett.test(consumo ~ linea, data = acero)

Bartlett test of homogeneity of variances

data: consumo by linea

Bartlett's K-squared = 6.3161, df = 2, p-value = 0.04251

Dado que el p-valor (0004251) es menor que α, se rechaza la hipótesis nula al nivel 0005, con lo que no pueden suponerse las varianzas iguales. En este caso, como no hay homocedasticidad, realizaremos eltest de Kruskal-Wallis, donde las hipótesis a contrastar son:

H0: promedios iguales para A, B y C

H1: no todas los promedios son iguales

Para realizar el test hacemos:

Estadísticos

yTest no paramétricos yTest de Kruskal-Wallis

Obteniendo los siguientes resultados:

> kruskal.test(consumo ~ linea, data = acero)

Kruskal-Wallis rank sum test

data: consumo by linea

(40)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Como el p-valor (10688 · 10−6) es menor que α se rechaza la hipótesis nula, no todas las medias son iguales. Gráficamente lo podemos ver mediante diagramas de cajas:

Gráficas

yDiagrama de cajas

Seleccionar consumo yGráfica según:linea

yAceptar

Bien tecleando directamente el código o bien modificando las salidas del proceso anterior se pueden hacer modificaciones en el gráfico. Así, mediante la orden por comandos

obtenemos el siguiente diagrama de cajas:

(41)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Aunque en este caso sería menos aconsejable, también podríamos hacer un gráfico de medias. Los pasos a seguir son:

Gráficas

yGráficas de la media

Con el procedimiento anterior se obtendría el correspondiente gráfico de medias. No obstante, vamos a hacer modificaciones en la ventana de instrucciones a fin de especificar ciertas opciones del gráfico. Así, ejecutaremos la siguiente orden de comandos:

Dicha ejecución da lugar a las siguientes salidas:

> plotmeans(acero$consumo ~ acero$linea, error.bars = "conf.int", + level = 0.95, xlab = "Linea", ylab = "Consumo", n.label = FALSE, + main = "Distribución del consumo por linea", col = "black", + barcol = "blue", connect = TRUE)

(42)

Unidad de Consultoría

(43)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

4. Regresión lineal

4.1. Modelización estadística

Si se sospecha de la existencia de una relación entre diversas variables o magnitudes (por ejem-plo, la influencia de la experiencia profesional de los trabajadores en sus respectivos sueldos, la estatura en el peso de las personas, etc.) surge de forma natural plantearse cómo formalizar esa relación y si puede extrapolarse a situaciones más generales.

El modelado estadístico obtiene un conjunto de modelos que se ajustan a los datos disponibles de una forma razonable. En general, los modelos más sencillos buscan explicar la variabilidad de una magnitud Y , denominada variable dependiente, en función de otras variables, X1, X2, . . . , Xk,

llamadas variables independientes.

No siempre resulta fácil determinar cuál es la variable dependiente y cuáles intervienen como independientes. La influencia o relación causa-efecto depende del planteamiento del problema y su concreción y formalización corresponden al investigador que diseña el experimento.

Las técnicas estadísticas disponibles abarcan una gran variedad de situaciones y de nuevo con-cierne al responsable del estudio seleccionar el procedimiento más correcto para modelar los datos. Sin ser exhaustivos, el Cuadro 6 detalla los modelos más habituales.

Cuadro 6: Principales modelos estadísticos según la naturaleza de las variables.

Variable respuesta Variables independientes

Continua Todas son continuas: regresión normal Todas son categóricas: análisis de la varianza Ambos tipos: análisis de la covarianza Proporción Regresión logística

Conteo Modelos log-lineales

Binarias Regresión logística binaria Tiempo de muerte Análisis de supervivencia

La principal regla para realizar el modelado consiste en asumir que el resultado obtenido siempre será mejorable. El modelo ha de adaptarse a los datos y evitar la tentación de que los datos casen con un determinado modelo. De principio, un buen ajuste ha de explicar la mayor parte de la variabi-lidad y simplificar al máximo las relaciones entre las variables. No encontraremos un único modelo, sino un conjunto de soluciones que se amoldan razonablemente bien a los datos.

El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en vez de uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la más sencilla se convierte en la mejor; cuantos menos parámetros intervengan en el modelo, relaciones lineales o con pocos factores señalan pistas que orientan nuestra búsqueda. Sin embargo, no exageremos en la sencillez del modelo. También existe la navaja de Einstein: A model should be as simple as possible. But not simpler.

4.2. Modelo de regresión lineal simple

El principio de parsimonia indica que el modelo de regresión lineal se convierte en el primer candi-dato para explicar la relación entre las variables. En este ejemplo, deseamos estudiar el consumo de energía de la fábrica: la variable dependiente (Y ) es el consumo, mientras que el resto de variables disponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar un modelo que cuantifique el consumo energético a partir de las diferentes producciones.

La forma más facil de comenzar consiste en realizar representaciones gráficas.

Ejemplo 4.1. Realice un diagrama de dispersión de la variable consumo con las variables de

(44)

Unidad de Consultoría

Estadística

Unidad de Consultoría

Estadística

Solución: Dibujamos una matriz con los diagramas de dispersión:

Gráficas

yMatriz de diagrama de dispersión

Seleccionamos consumo, pr.ca, pr.cc,

pr.galv1, pr.galv2, pr.pint y

pr.tbc. yAceptar

> scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 +

+ pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5,

+ diagonal = "density", data = acero)

De los diferentes gráficos que aparecen, los más ajustados a nuestra hipótesis de trabajo se encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje de ordenadas, mientras que las independientes, las diferentes producciones, se representan en el eje de abscisas.

¿Qué nube de punto de la primera fila muestra un patrón más claro de relación? Si bien no siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre el consumo energía y la producción del tren de bandas en caliente (pr.tbc).