• No se han encontrado resultados

Practica 2 Estadistica Descriptiva Bidimensional

N/A
N/A
Protected

Academic year: 2021

Share "Practica 2 Estadistica Descriptiva Bidimensional"

Copied!
19
0
0

Texto completo

(1)

Práctica 2 -

Práctica 2 -

Estadística Descriptiva Bidimensi

Estadística Descriptiva Bidimensi

onal

onal

Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)

Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)

Práctica 2 -

Práctica 2 -

Estadística Descriptiva Bidimensi

Estadística Descriptiva Bidimensi

onal

onal

Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)

(2)

PRÁCTICA 2 para entregar:

ESTADISTICA DESCRIPTIVA

BIDIMENSIONAL

Contenido:

1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de doble entrada

2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple 3. Covarianza y correlación

(3)

1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias  de doble entrada

 Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas),  frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias

condicionales (por filas o por columnas)

 Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas

 A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente encuesta:

1. SEXO (1- VARÓN 2- MUJER) 2. EDAD (en años)

3. MES DE NACIMIENTO (1 a 12) 4. ESTATURA (en centímetros) 5. PESO (En kgs)

6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE: 1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema. 7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9.

8. LUGAR DE RESIDENCIA DURANTE EL CURSO:

1- Hogar familiar 4. Pensión.

2- Colegio mayor o Residencia 5. Otra situación. 3- Piso con compañeros.

9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?

1- En tu coche 4. En un coche con un compañero.

2- En tu moto o bici. 5. Transporte público.

3- Andando.

10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?

11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE EN LA ESPAÑA ACTUAL?

1- Drogas 4. Desigualdad social.

2- Paro juvenil 5. Pérdida de valores morales.

(4)

 Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se encuentra en el directorio habitual o en la red

Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido necesario codificar dichas variables, agrupando los datos en intervalos,  ya que STATGRAPHICS no realiza la tabulación automática para mas de dos variables cuantitativas .

 Límite inferior Límite superior Nuevo valor

150 160 150-160

160 170 160-170

170 180 170-180

180 210 180-210

 Límite inferior Límite superior Nuevo valor

40 60 40-60

60 70 60-70

70 80 70-80

80 99 80-99

 Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD

a) Construir una tabla de frecuencias de doble entrada que recoja las  frecuencias

 conjuntas y  marginales de las variables ALTCOD y PESOCOD . ¿Cómo se

interpretan los valores de la celda (1,1)? ¿Y el total de la primera fila y de la  primera columna?

Statgraphics: Desplegar el menú Describir y el submenú Datos Categóricos , y elegir la

opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del Statfolio y

seleccionar la opción Tabla de Frecuencias.

Tabla de Frecue ncias para ALTCOD por PES OCOD

40-60 60-70 70-80 80-100 T ot al p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90%

Total por Columna 42 42 36 11 131

(5)

 Son 7 personas del total (131) que cumplen que su peso está entre 40 y 60 kg y

su estatura está entre 150 y 160 cm y que son el 5.34% del total de personas que hay.

 Total por fila es el total de personas que están agrupadas en los distintos grupos

de estatura:

o 150-160 son 7 personas.

o 160-170 son 38 personas.

o …

 Total por columna es el total de personas que están agrupadas en los distintos

grupos de peso:

o 40-60 son 42 personas.

o 60-70 son 42 personas.

o …

b) Construir una tabla de frecuencias que recoja las  frecuencias condicionales de la

variable PESO asociadas a los distintos tramos de la variable ALTURA. ¿Cómo se

interpreta el nuevo valor de la celda (1,1)?

Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar

con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar

 Porcentajes de Fila.

Tabla de Frecuencias para ALTCOD por PES OCOD

40-60 60-70 70-80 80-100 Total p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 100,00% 0,00% 0,00% 0,00% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 73,68% 21,05% 5,26% 0,00% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 10,71% 44,64% 37,50% 7,14% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90% 3,33% 30,00% 43,33% 23,33%

Total por Columna 42 42 36 11 131 32,06% 32,06% 27,48% 8,40% 100,00%

(6)

 El nuevo valor representa el porcentaje de personas de ese grupo de peso

referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 40-60, que representan el 100% de las personas que miden entre 150-160.

c) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la variable  ALTURA asociadas a los distintos tramos de la variable PESO. ¿Cómo se interpreta el

nuevo valor de la celda (1,1)?

Statgraphics: Para obtener la distribución condicional de la variable columna (Y), pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar Porcentajes  de Columna.

 El nuevo valor representa el porcentaje de personas de ese grupo de altura

referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 150-160, que representan el 16.67% de las personas que pesan entre 40-60.

Tabla de Frecuencias para ALTCOD por PES OCOD

40-60 60-70 70-80 80-100 Tot al p or Fila 150-160 7 0 0 0 7 5,34% 0,00% 0,00% 0,00% 5,34% 16,67% 0,00% 0,00% 0,00% 160-170 28 8 2 0 38 21,37% 6,11% 1,53% 0,00% 29,01% 66,67% 19,05% 5,56% 0,00% 170-180 6 25 21 4 56 4,58% 19,08% 16,03% 3,05% 42,75% 14,29% 59,52% 58,33% 36,36% 180-200 1 9 13 7 30 0,76% 6,87% 9,92% 5,34% 22,90% 2,38% 21,43% 36,11% 63,64%

Total por Columna 42 42 36 11 131 32,06% 32,06% 27,48% 8,40% 100,00%

(7)

d) Representar la distribución de frecuencias en un histograma tridimensional  y cambiar la  perspectiva del gráfico ¿Que ocurre con la interpretación?

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de gráfico  rascacielos. Para cambiar la perspectiva, utilizar el botón de rotar

 Ocurre que la interpretación va variando conforme vamos girando el gráfico,

de una posición veremos las frecuencias referentes a la variable altura codificada y de otra a la variable peso codificado.

Gráfico Rascacielos para ALTCOD según PESOCOD

ALTCOD   PESOCOD 0 5 10 15 20 25 30        f     r     e       c       u       e       n      c         i     a  150-160 160-170 170-180 180-200   40-60 60-70 70-80 80-100

(8)

 Ejercicio 1: Tabla de frecuencias para dos variables cualitativas.

a) La posible relación entre la opción política y el problema que se considera más importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble entrada que recoja las frecuencias conjuntas, marginales y condicionales de las variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida en la celda (3,1)?

Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú  Descripción y

el submenú Datos cualitativos , y elegir la opción Tabulación cruzada. Pulsar el icono

de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias.

Para obtener frecuencias condicionales elegir en Opciones de Ventana Porcentajes por

 fila y Porcentajes por columna

  La celda (3,1) representa el porcentaje, en este caso 3.70%, de personas que

consideran que el problema es la desigualdad social y que da igual que sean de

centro, derechas, izquierdas…(Porcentaje de fila). Tabla de Frecuencias para PROBCOD por POLITCOD

CENTRO DERECHAS IZQUIERDAS PASA Total por Fila

DES.SOCIAL 1 3 13 10 27 0,81% 2,42% 10,48% 8,06% 21,77% 3,70% 11,11% 48,15% 37,04% 4,35% 8,82% 44,83% 26,32% DROGAS 4 3 5 6 18 3,23% 2,42% 4,03% 4,84% 14,52% 22,22% 16,67% 27,78% 33,33% 17,39% 8,82% 17,24% 15,79% PARO 8 3 7 11 29 6,45% 2,42% 5,65% 8,87% 23,39% 27,59% 10,34% 24,14% 37,93% 34,78% 8,82% 24,14% 28,95% PERDIDA VALORES 1 6 1 3 11 0,81% 4,84% 0,81% 2,42% 8,87% 9,09% 54,55% 9,09% 27,27% 4,35% 17,65% 3,45% 7,89% TERRORISM O 9 19 3 8 39 7,26% 15,32% 2,42% 6,45% 31,45% 23,08% 48,72% 7,69% 20,51% 39,13% 55,88% 10,34% 21,05%

Total por Columna 23 34 29 38 124 18,55% 27,42% 23,39% 30,65% 100,00%

(9)

b) Representar en diagramas de barras múltiples las frecuencias conjuntas, marginales  y condicionales

Statgraphics: Para obtener las representaciones gráficas, utilizar el botón de  opciones  gráficas del Statfolio. Elegir diagrama de barras y gráfico Mosaico. En el diagrama de

barras seleccionar con el boton derecho Opciones de Ventana  y luego seleccionar

 Agrupado para frecuencias conjuntas y Apilado para frecuencias marginales

0 4 8 12 16 20      f    r    e      c      u      e      n     c       i    a  PROBCOD

Diagrama de Barras para PROBCOD según POLITCOD

DES.SOCIAL DROGAS PAROPERDIDA VALORESTERRORISMO

POLITCOD CENTRO DERECHAS IZQUIERDAS PASA 0 10 20 30 40       f    r    e      c      u      e      n     c        i    a  PROBCOD

Diagrama de Barras para PROBCOD según POLITCOD

DES.SOCIAL DROGAS PAROPERDIDA VALORESTERRORISMO

POLITCOD CENTRO DERECHAS IZQUIERDAS PASA

(10)

c) ¿Existen diferencias en la opinión acerca de los problemas prioritarios según la opinión política? ¿Que gráfico ayuda mejor a realizar comparaciones?

Sí, se nota una gran diferenciación y variabilidad aunque en algunos problemas coinciden bastante sean de la opinión política que sean.

 Me ha servido de gran ayuda el gráfico Mosaico apilado, ya que se pueden apreciar bien las elecciones de los usuarios de una forma comparativa a simple vista.

d) ¿A que otro grupo político se parecen más los que se consideran de centro?¿Que les diferencia?

Tienen bastante similitud con los que Pasan, ya que observando el Mosaico de barras agrupado se observan ciertas similitudes aunque no muchas.

 Les diferencia que no consideran como problemas una desigualdad social o una  pérdida de valores.

e) ¿Y los que pasan de política? ¿Que les diferencia?

Que sus opiniones están más equilibradas, más repartidas, no se decantan tanto por unos problemas u otros, que es lo que pasa con los de una ideología política en concreto, sino que están más repartidas sus opiniones y menos concentradas.

 f) Representar la distribución condicional de TRANSPCOD según POLICOD en un Gráfico de Mosaico ¿Existe alguna relación entre el medio de transporte utiliz ado para venir a la universidad y la opinión política?

Statgraphics: Utilizar el botón de opciones del Statfolio para cambiar de variables

Gráfico de Mosaico para POLITCOD según TRANSPCOD

CENTRO DERECHAS IZQUIERDAS PASA TRANSPCOD ANDANDO COCHE COMPAÑER MOTO/BICI TRANSP.PU

(11)

 2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple

El estudio comparativo de una variable continua por subgrupos dentro de una muestra se plantea como un estudio de la distribución condicional de la variable continua considerada para los distintos valores de una variable discreta que indica la  pertenencia a un grupo concreto.

 Ejercicio 3: Estudio de la distribución del peso por tramos de altura

a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD). Comentar los resultados.

Statgraphics: Desplegar el menú  Descripción , el submenú  Datos Numéricos y

seleccionar la opción Análisis subgrupos. Seleccionar como Datos la variable de la

que se quieren obtener los estadísticos, y como Códigos la variable que indica la

 pertenencia al grupo. Con el icono amarillo de subopciones seleccionar  Resúmenes

 Estadísticos.

Estadísticas de Resumen Datos /Variable: PESO

 Desviación Coeficiente Sesgo

 ALTCOD Recuento Promedio Estándar de Variación Mínimo Máximo   Rango Estandarizado

150-160 7 50,7143 4,15188 8,1868% 45,0 56,0 11,0 -0,137982 160-170 38 56,6053 6,70433 11,844% 46,0 75,0 29,0 2,28593 170-180 56 70,4107 7,64146 10,8527% 56,0 90,0 34,0 1,05164 180-200 30 74,1667 7,68376 10,3601% 60,0 90,0 30,0 0,793403 Total 131 66,2137 10,6569 16,0947% 45,0 90,0 45,0 0,303203 Curtosis  ALTCOD Estandarizada 150-160 -0,944802 160-170 1,63407 170-180 0,0378084 180-200 -0,459484

(12)

b) confirmar los comentarios del apartado anterior realizando un gráfico de Box-Whisker múltiple

Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de Gráfico de caja y bigotes

c) Utilizar el gráfico de Box-Whisker para analizar si existe alguna relación entre el PESO y el medio de transporte utilizado para llegar a la universidad Comentar los resultados.

150-160

160-170

170-180

180-200

Gráfica de Caja y Bigotes

45 55 65 75 85 95 PESO       A       L       T       C        O        D ANDANDO COCHE COMPAÑERO MOTO/BICI TRANSP.PUBLICO

Gráfica de Caja y Bigotes

45 55 65 75 85 95 PESO       T       R       A       N       S        P       C        O        D

(13)

  Hay una caja a la que le falta 1 bigote, que significa que todos los del primer

cuartil están concentrados y por eso no sale ningún bigote. Todo esto nos lleva a que puede que hayan distribuciones que no tengan bigotes.

 Lo único que se aprecia así que pueda parecer más llamativo es que, los que van en coche, suelen pesar o tienen un rango de peso más concentrado que el resto de opciones de transporte.

 Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes

 Los datos de viscosidad en centipoise de tres mezclas son:  Mezcla 1 Mezcla 2 Mezcla 3

22.02 21.49 20.33 23.83 22.67 21.67 26.67  24.62 24.67 25.38  24.18 22.45 25.49 22.78 22.28 23.50 22.56 21.95 25.90 24.46 20.49 24.98  23.79 21.81

a) Si desearas comparar la distribución de la viscosidad en las tres mezclas mediante un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo con esta información

22,02 1 23,83 1 26,67 1 25,38 1 25,49 1 23,5 1 25,9 1 24,98 1 21,49 2 22,67 2 24,62 2 24,18 2 22,78 2 22,56 2 24,46 2

(14)

21,67 3 24,67 3 22,45 3 22,28 3 21,95 3 20,49 3 21,81 3

b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas

b) Estudia la simetría en cada una de las mezclas

En las 3 mezclas, las gráficas son asimétricas, no obstante, en la gráfica del motor 1 la gráfica es la más simétrica de las 3 que hay.

c) ¿En que mezcla tiene mayor rango la viscosidad?

 La mezcla 1, pues lo podemos ver claramente en el gráfico puesto arriba al haber una menor concentración de datos con una gran variabilidad.

d) ¿En qué mezcla tiene mayor recorrido intercuartílico la viscosidad?

En la mezcla 1, puesto que el recorrido entre el primer y el tercer cuartil es superior a los otros dos recorridos de las otras dos mezclas.

1

2

3

Gráfica de Caja y Bigotes

20 22 24 26 28 Mezcla     n     m     e      z     c       l    a 

(15)

e) ¿En qué mezcla es mayor la mediana la viscosidad? En la mezcla 1, con una mediana de 25,18.  f) ¿Hay algún valor anómalo?

Sí, en el motor 3, con un valor de 24.67 centipoise.

 3. Covarianza y correlación

 La covarianza y la correlación son estadísticos bidimensionales que se utilizan para estudiar la relación existente entre dos variables continuas. En concreto permite observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es lineal.

 Ejercicio 5 Covarianza y correlación

a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz?

Statgraphics: Desplegar el menú  Descripción , el submenú  Datos Numéricos y a

continuación el submenú  Análisis Multidimensional   y utilizar el icono amarillo de

subopciones para seleccionar Covarianzas.

Se interpretan como varianzas las celdas que coinciden altura  –  altura, peso –  peso y

edad –  edad y covarianzas las que no coinciden entre sí.

 Las covarianzas miden qué tanto varían las variables conjuntamente, y se utilizan para

Covarianzas

ALTURA PESO EDAD ALTURA 82,3711 71,6159 1,31439 (131) (131) (131) PESO 71,6159 113,569 1,88244 (131) (131) (131) EDAD 1,31439 1,88244 2,7825 (131) (131) (131)

(16)

b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional?

Statgraphics : Desplegar el menú Descripción , el submenú Datos Numéricos  y a continuación el submenú Análisis Multidimensional  y utilizar el icono amarillo de subopciones para seleccionar Correlaciones.

  Los valores son la correlación que existe entre las variables, quiere decir,

cuanto mayor es el escalar, más correlación tiene, más fuerte es. Dos variables que tengan una correlación pobre significa que no tienen apenas relación y que no siguen un patrón definido, mientras que si tienen una gran correlación, significa que tienden a llevar un patrón que los relaciona entre sí.

  La mejor correlación es la de 0.7404 que está bastante bien que correlaciona

altura y peso, lo cual parece que sigue bastante bien un patrón que los relaciona, por ejemplo, cuanto más alto más pesa.

 4. Diagrama de dispersión

El diagrama de dispersión permite visualizar la relación entre dos variables continuas. En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.

 Ejercicio 6: Diagrama de dispersión

a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo de relación hay entre las dos variables?

Correlaciones

ALTURA PESO EDAD ALTURA 0,7404 0,0868 (131) (131) 0,0000   0,3241 PESO 0,7404 0,1059 (131) (131) 0,0000   0,2287 EDAD 0,0868 0,1059 (131) (131) 0,3241 0,2287

(17)

Statgraphics: Desplegar el menú Gráficos , el submenú Gráficos de Dispersión y la

opciónGráfico X-Y.

Existe una gran dispersión, aunque se puede apreciar bastante bien la correlación que hemos obtenido anteriormente del 0.7404 y podríamos obtener una esti mación lineal de esta gráfica para obtenerla.

Gráfico de PESO vs ALTURA

150 160 170 180 190 200 ALTURA 45 55 65 75 85 95       P       E       S        O 

(18)

b) Obtener el diagrama de dispersión indicando los puntos que corresponden a hombre  y a mujer ¿Qué llama la atención?

Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable,

seleccionar con el botón derecho del ratón Opciones de Ventana y en el campo Código

 de Puntos introducir la variable diferenciadora (SEXCOD).

 Llama la atención que el sexo femenino no predomina en altura y, por lo tanto, en peso, en lo que sí predominan los hombres, de hecho, ambos sexos se encuentran muy muy bien agrupados, apenas se mezclan los valores de ambos.

Gráfico de PESO vs ALTURA

150 160 170 180 190 200 ALTURA 45 55 65 75 85 95      P      E      S       O  SEXO 1 2

(19)

c) Construir el diagrama de dispersión para la variable ALTURA en función de la EDAD ¿Existe alguna relación entre estas variables? ¿Por qué?

Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para

seleccionar variable e indicar un filtro

 No hay apenas relación entre la edad y la altura puesto que su coeficiente de correlación es de 0.0868 y por tanto no existe una relación entre ambas variables que defina un patrón a seguir.

Gráfico de EDAD vs ALTURA

150 160 170 180 190 200 ALTURA 19 22 25 28 31 34       E       D       A       D

Referencias

Documento similar

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Respuesta de los parámetros S en función de la frecuencia después de optimizar Como se observa en la gráfica, obtenemos un comportamiento no tan ideal, más realista, ya que la