Práctica 2 -
Práctica 2 -
Estadística Descriptiva Bidimensi
Estadística Descriptiva Bidimensi
onal
onal
Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)
Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)
Práctica 2 -
Práctica 2 -
Estadística Descriptiva Bidimensi
Estadística Descriptiva Bidimensi
onal
onal
Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)
PRÁCTICA 2 para entregar:
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
Contenido:
1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de doble entrada
2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple 3. Covarianza y correlación
1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias de doble entrada
Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas), frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias
condicionales (por filas o por columnas)
Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas
A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente encuesta:
1. SEXO (1- VARÓN 2- MUJER) 2. EDAD (en años)
3. MES DE NACIMIENTO (1 a 12) 4. ESTATURA (en centímetros) 5. PESO (En kgs)
6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE: 1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema. 7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9.
8. LUGAR DE RESIDENCIA DURANTE EL CURSO:
1- Hogar familiar 4. Pensión.
2- Colegio mayor o Residencia 5. Otra situación. 3- Piso con compañeros.
9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?
1- En tu coche 4. En un coche con un compañero.
2- En tu moto o bici. 5. Transporte público.
3- Andando.
10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?
11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE EN LA ESPAÑA ACTUAL?
1- Drogas 4. Desigualdad social.
2- Paro juvenil 5. Pérdida de valores morales.
Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se encuentra en el directorio habitual o en la red
Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido necesario codificar dichas variables, agrupando los datos en intervalos, ya que STATGRAPHICS no realiza la tabulación automática para mas de dos variables cuantitativas .
Límite inferior Límite superior Nuevo valor
150 160 150-160
160 170 160-170
170 180 170-180
180 210 180-210
Límite inferior Límite superior Nuevo valor
40 60 40-60
60 70 60-70
70 80 70-80
80 99 80-99
Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD
a) Construir una tabla de frecuencias de doble entrada que recoja las frecuencias
conjuntas y marginales de las variables ALTCOD y PESOCOD . ¿Cómo se
interpretan los valores de la celda (1,1)? ¿Y el total de la primera fila y de la primera columna?
Statgraphics: Desplegar el menú Describir y el submenú Datos Categóricos , y elegir la
opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del Statfolio y
seleccionar la opción Tabla de Frecuencias.
Tabla de Frecue ncias para ALTCOD por PES OCOD
40-60 60-70 70-80 80-100 T ot al p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90%
Total por Columna 42 42 36 11 131
Son 7 personas del total (131) que cumplen que su peso está entre 40 y 60 kg y
su estatura está entre 150 y 160 cm y que son el 5.34% del total de personas que hay.
Total por fila es el total de personas que están agrupadas en los distintos grupos
de estatura:
o 150-160 son 7 personas.
o 160-170 son 38 personas.
o …
Total por columna es el total de personas que están agrupadas en los distintos
grupos de peso:
o 40-60 son 42 personas.
o 60-70 son 42 personas.
o …
b) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la
variable PESO asociadas a los distintos tramos de la variable ALTURA. ¿Cómo se
interpreta el nuevo valor de la celda (1,1)?
Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar
con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar
Porcentajes de Fila.
Tabla de Frecuencias para ALTCOD por PES OCOD
40-60 60-70 70-80 80-100 Total p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 100,00% 0,00% 0,00% 0,00% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 73,68% 21,05% 5,26% 0,00% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 10,71% 44,64% 37,50% 7,14% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90% 3,33% 30,00% 43,33% 23,33%
Total por Columna 42 42 36 11 131 32,06% 32,06% 27,48% 8,40% 100,00%
El nuevo valor representa el porcentaje de personas de ese grupo de peso
referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 40-60, que representan el 100% de las personas que miden entre 150-160.
c) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la variable ALTURA asociadas a los distintos tramos de la variable PESO. ¿Cómo se interpreta el
nuevo valor de la celda (1,1)?
Statgraphics: Para obtener la distribución condicional de la variable columna (Y), pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar Porcentajes de Columna.
El nuevo valor representa el porcentaje de personas de ese grupo de altura
referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 150-160, que representan el 16.67% de las personas que pesan entre 40-60.
Tabla de Frecuencias para ALTCOD por PES OCOD
40-60 60-70 70-80 80-100 Tot al p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 16,67% 0,00% 0,00% 0,00% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 66,67% 19,05% 5,56% 0,00% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 14,29% 59,52% 58,33% 36,36% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90% 2,38% 21,43% 36,11% 63,64%
Total por Columna 42 42 36 11 131 32,06% 32,06% 27,48% 8,40% 100,00%
d) Representar la distribución de frecuencias en un histograma tridimensional y cambiar la perspectiva del gráfico ¿Que ocurre con la interpretación?
Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de gráfico rascacielos. Para cambiar la perspectiva, utilizar el botón de rotar
Ocurre que la interpretación va variando conforme vamos girando el gráfico,
de una posición veremos las frecuencias referentes a la variable altura codificada y de otra a la variable peso codificado.
Gráfico Rascacielos para ALTCOD según PESOCOD
ALTCOD PESOCOD 0 5 10 15 20 25 30 f r e c u e n c i a 150-160 160-170 170-180 180-200 40-60 60-70 70-80 80-100
Ejercicio 1: Tabla de frecuencias para dos variables cualitativas.
a) La posible relación entre la opción política y el problema que se considera más importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble entrada que recoja las frecuencias conjuntas, marginales y condicionales de las variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida en la celda (3,1)?
Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú Descripción y
el submenú Datos cualitativos , y elegir la opción Tabulación cruzada. Pulsar el icono
de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias.
Para obtener frecuencias condicionales elegir en Opciones de Ventana Porcentajes por
fila y Porcentajes por columna
La celda (3,1) representa el porcentaje, en este caso 3.70%, de personas que
consideran que el problema es la desigualdad social y que da igual que sean de
centro, derechas, izquierdas…(Porcentaje de fila). Tabla de Frecuencias para PROBCOD por POLITCOD
CENTRO DERECHAS IZQUIERDAS PASA Total por Fila
DES.SOCIAL 1 3 13 10 27 0,81% 2,42% 10,48% 8,06% 21,77% 3,70% 11,11% 48,15% 37,04% 4,35% 8,82% 44,83% 26,32% DROGAS 4 3 5 6 18 3,23% 2,42% 4,03% 4,84% 14,52% 22,22% 16,67% 27,78% 33,33% 17,39% 8,82% 17,24% 15,79% PARO 8 3 7 11 29 6,45% 2,42% 5,65% 8,87% 23,39% 27,59% 10,34% 24,14% 37,93% 34,78% 8,82% 24,14% 28,95% PERDIDA VALORES 1 6 1 3 11 0,81% 4,84% 0,81% 2,42% 8,87% 9,09% 54,55% 9,09% 27,27% 4,35% 17,65% 3,45% 7,89% TERRORISM O 9 19 3 8 39 7,26% 15,32% 2,42% 6,45% 31,45% 23,08% 48,72% 7,69% 20,51% 39,13% 55,88% 10,34% 21,05%
Total por Columna 23 34 29 38 124 18,55% 27,42% 23,39% 30,65% 100,00%
b) Representar en diagramas de barras múltiples las frecuencias conjuntas, marginales y condicionales
Statgraphics: Para obtener las representaciones gráficas, utilizar el botón de opciones gráficas del Statfolio. Elegir diagrama de barras y gráfico Mosaico. En el diagrama de
barras seleccionar con el boton derecho Opciones de Ventana y luego seleccionar
Agrupado para frecuencias conjuntas y Apilado para frecuencias marginales
0 4 8 12 16 20 f r e c u e n c i a PROBCOD
Diagrama de Barras para PROBCOD según POLITCOD
DES.SOCIAL DROGAS PAROPERDIDA VALORESTERRORISMO
POLITCOD CENTRO DERECHAS IZQUIERDAS PASA 0 10 20 30 40 f r e c u e n c i a PROBCOD
Diagrama de Barras para PROBCOD según POLITCOD
DES.SOCIAL DROGAS PAROPERDIDA VALORESTERRORISMO
POLITCOD CENTRO DERECHAS IZQUIERDAS PASA
c) ¿Existen diferencias en la opinión acerca de los problemas prioritarios según la opinión política? ¿Que gráfico ayuda mejor a realizar comparaciones?
Sí, se nota una gran diferenciación y variabilidad aunque en algunos problemas coinciden bastante sean de la opinión política que sean.
Me ha servido de gran ayuda el gráfico Mosaico apilado, ya que se pueden apreciar bien las elecciones de los usuarios de una forma comparativa a simple vista.
d) ¿A que otro grupo político se parecen más los que se consideran de centro?¿Que les diferencia?
Tienen bastante similitud con los que Pasan, ya que observando el Mosaico de barras agrupado se observan ciertas similitudes aunque no muchas.
Les diferencia que no consideran como problemas una desigualdad social o una pérdida de valores.
e) ¿Y los que pasan de política? ¿Que les diferencia?
Que sus opiniones están más equilibradas, más repartidas, no se decantan tanto por unos problemas u otros, que es lo que pasa con los de una ideología política en concreto, sino que están más repartidas sus opiniones y menos concentradas.
f) Representar la distribución condicional de TRANSPCOD según POLICOD en un Gráfico de Mosaico ¿Existe alguna relación entre el medio de transporte utiliz ado para venir a la universidad y la opinión política?
Statgraphics: Utilizar el botón de opciones del Statfolio para cambiar de variables
Gráfico de Mosaico para POLITCOD según TRANSPCOD
CENTRO DERECHAS IZQUIERDAS PASA TRANSPCOD ANDANDO COCHE COMPAÑER MOTO/BICI TRANSP.PU
2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple
El estudio comparativo de una variable continua por subgrupos dentro de una muestra se plantea como un estudio de la distribución condicional de la variable continua considerada para los distintos valores de una variable discreta que indica la pertenencia a un grupo concreto.
Ejercicio 3: Estudio de la distribución del peso por tramos de altura
a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD). Comentar los resultados.
Statgraphics: Desplegar el menú Descripción , el submenú Datos Numéricos y
seleccionar la opción Análisis subgrupos. Seleccionar como Datos la variable de la
que se quieren obtener los estadísticos, y como Códigos la variable que indica la
pertenencia al grupo. Con el icono amarillo de subopciones seleccionar Resúmenes
Estadísticos.
Estadísticas de Resumen Datos /Variable: PESO
Desviación Coeficiente Sesgo
ALTCOD Recuento Promedio Estándar de Variación Mínimo Máximo Rango Estandarizado
150-160 7 50,7143 4,15188 8,1868% 45,0 56,0 11,0 -0,137982 160-170 38 56,6053 6,70433 11,844% 46,0 75,0 29,0 2,28593 170-180 56 70,4107 7,64146 10,8527% 56,0 90,0 34,0 1,05164 180-200 30 74,1667 7,68376 10,3601% 60,0 90,0 30,0 0,793403 Total 131 66,2137 10,6569 16,0947% 45,0 90,0 45,0 0,303203 Curtosis ALTCOD Estandarizada 150-160 -0,944802 160-170 1,63407 170-180 0,0378084 180-200 -0,459484
b) confirmar los comentarios del apartado anterior realizando un gráfico de Box-Whisker múltiple
Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de Gráfico de caja y bigotes
c) Utilizar el gráfico de Box-Whisker para analizar si existe alguna relación entre el PESO y el medio de transporte utilizado para llegar a la universidad Comentar los resultados.
150-160
160-170
170-180
180-200
Gráfica de Caja y Bigotes
45 55 65 75 85 95 PESO A L T C O D ANDANDO COCHE COMPAÑERO MOTO/BICI TRANSP.PUBLICO
Gráfica de Caja y Bigotes
45 55 65 75 85 95 PESO T R A N S P C O D
Hay una caja a la que le falta 1 bigote, que significa que todos los del primer
cuartil están concentrados y por eso no sale ningún bigote. Todo esto nos lleva a que puede que hayan distribuciones que no tengan bigotes.
Lo único que se aprecia así que pueda parecer más llamativo es que, los que van en coche, suelen pesar o tienen un rango de peso más concentrado que el resto de opciones de transporte.
Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes
Los datos de viscosidad en centipoise de tres mezclas son: Mezcla 1 Mezcla 2 Mezcla 3
22.02 21.49 20.33 23.83 22.67 21.67 26.67 24.62 24.67 25.38 24.18 22.45 25.49 22.78 22.28 23.50 22.56 21.95 25.90 24.46 20.49 24.98 23.79 21.81
a) Si desearas comparar la distribución de la viscosidad en las tres mezclas mediante un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo con esta información
22,02 1 23,83 1 26,67 1 25,38 1 25,49 1 23,5 1 25,9 1 24,98 1 21,49 2 22,67 2 24,62 2 24,18 2 22,78 2 22,56 2 24,46 2
21,67 3 24,67 3 22,45 3 22,28 3 21,95 3 20,49 3 21,81 3
b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas
b) Estudia la simetría en cada una de las mezclas
En las 3 mezclas, las gráficas son asimétricas, no obstante, en la gráfica del motor 1 la gráfica es la más simétrica de las 3 que hay.
c) ¿En que mezcla tiene mayor rango la viscosidad?
La mezcla 1, pues lo podemos ver claramente en el gráfico puesto arriba al haber una menor concentración de datos con una gran variabilidad.
d) ¿En qué mezcla tiene mayor recorrido intercuartílico la viscosidad?
En la mezcla 1, puesto que el recorrido entre el primer y el tercer cuartil es superior a los otros dos recorridos de las otras dos mezclas.
1
2
3
Gráfica de Caja y Bigotes
20 22 24 26 28 Mezcla n m e z c l a
e) ¿En qué mezcla es mayor la mediana la viscosidad? En la mezcla 1, con una mediana de 25,18. f) ¿Hay algún valor anómalo?
Sí, en el motor 3, con un valor de 24.67 centipoise.
3. Covarianza y correlación
La covarianza y la correlación son estadísticos bidimensionales que se utilizan para estudiar la relación existente entre dos variables continuas. En concreto permite observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es lineal.
Ejercicio 5 Covarianza y correlación
a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz?
Statgraphics: Desplegar el menú Descripción , el submenú Datos Numéricos y a
continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de
subopciones para seleccionar Covarianzas.
Se interpretan como varianzas las celdas que coinciden altura – altura, peso – peso y
edad – edad y covarianzas las que no coinciden entre sí.
Las covarianzas miden qué tanto varían las variables conjuntamente, y se utilizan para
Covarianzas
ALTURA PESO EDAD ALTURA 82,3711 71,6159 1,31439 (131) (131) (131) PESO 71,6159 113,569 1,88244 (131) (131) (131) EDAD 1,31439 1,88244 2,7825 (131) (131) (131)
b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional?
Statgraphics : Desplegar el menú Descripción , el submenú Datos Numéricos y a continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de subopciones para seleccionar Correlaciones.
Los valores son la correlación que existe entre las variables, quiere decir,
cuanto mayor es el escalar, más correlación tiene, más fuerte es. Dos variables que tengan una correlación pobre significa que no tienen apenas relación y que no siguen un patrón definido, mientras que si tienen una gran correlación, significa que tienden a llevar un patrón que los relaciona entre sí.
La mejor correlación es la de 0.7404 que está bastante bien que correlaciona
altura y peso, lo cual parece que sigue bastante bien un patrón que los relaciona, por ejemplo, cuanto más alto más pesa.
4. Diagrama de dispersión
El diagrama de dispersión permite visualizar la relación entre dos variables continuas. En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.
Ejercicio 6: Diagrama de dispersión
a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo de relación hay entre las dos variables?
Correlaciones
ALTURA PESO EDAD ALTURA 0,7404 0,0868 (131) (131) 0,0000 0,3241 PESO 0,7404 0,1059 (131) (131) 0,0000 0,2287 EDAD 0,0868 0,1059 (131) (131) 0,3241 0,2287
Statgraphics: Desplegar el menú Gráficos , el submenú Gráficos de Dispersión y la
opciónGráfico X-Y.
Existe una gran dispersión, aunque se puede apreciar bastante bien la correlación que hemos obtenido anteriormente del 0.7404 y podríamos obtener una esti mación lineal de esta gráfica para obtenerla.
Gráfico de PESO vs ALTURA
150 160 170 180 190 200 ALTURA 45 55 65 75 85 95 P E S O
b) Obtener el diagrama de dispersión indicando los puntos que corresponden a hombre y a mujer ¿Qué llama la atención?
Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable,
seleccionar con el botón derecho del ratón Opciones de Ventana y en el campo Código
de Puntos introducir la variable diferenciadora (SEXCOD).
Llama la atención que el sexo femenino no predomina en altura y, por lo tanto, en peso, en lo que sí predominan los hombres, de hecho, ambos sexos se encuentran muy muy bien agrupados, apenas se mezclan los valores de ambos.
Gráfico de PESO vs ALTURA
150 160 170 180 190 200 ALTURA 45 55 65 75 85 95 P E S O SEXO 1 2
c) Construir el diagrama de dispersión para la variable ALTURA en función de la EDAD ¿Existe alguna relación entre estas variables? ¿Por qué?
Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para
seleccionar variable e indicar un filtro
No hay apenas relación entre la edad y la altura puesto que su coeficiente de correlación es de 0.0868 y por tanto no existe una relación entre ambas variables que defina un patrón a seguir.
Gráfico de EDAD vs ALTURA
150 160 170 180 190 200 ALTURA 19 22 25 28 31 34 E D A D