• No se han encontrado resultados

calculo de metodos estadisticos variables multifuncionales 2

N/A
N/A
Juan Villa

Academic year: 2023

Share "calculo de metodos estadisticos variables multifuncionales 2"

Copied!
44
0
0

Texto completo

Por un lado, el primer capítulo pretende introducir un análisis estadístico descriptivo mediante R-Commander, que incluye la introducción e importación de datos, la creación y transformación de variables, el cálculo de estadísticas básicas (a nivel univariado y multivariado) y la realización de gráficos. Naturalmente, se trata de un análisis más complejo, pero ofrece muchas más posibilidades, tanto en cuanto al cálculo de estadísticas y extracción de información estadística en general, como en el campo del análisis gráfico. 3. Saber elegir el tipo de gráfico necesario en cada caso en función del análisis que se realice.

Estadística descriptiva con R-Commander

  • Iniciar sesión con R-Commander
  • Introducción de datos
  • Importación de datos
  • Análisis descriptivo
  • Análisis gráfico
    • Histograma
    • Diagrama de barras
    • Diagrama de caja
    • Diagrama de dispersión
  • Transformación de variables

Cuando hayamos creado nuestro conjunto de datos simplemente cerramos la ventana y se guardarán las variables con sus valores. Cuando queramos ver los datos en la memoria, lo haremos usando la opción Ver conjunto de datos. Esta ventana no se puede editar ni modificar ya que simplemente muestra las variables que componen el conjunto de datos.

Al igual que antes, aparecerá una ventana pidiéndonos el nombre que queremos darle a nuestro conjunto de datos. Para ello existe una opción donde puedes elegir entre un conjunto de estadísticas. Aparecerá entonces el siguiente cuadro de diálogo, donde podremos nombrar el nuevo conjunto de datos, la variable agrupada y el factor.

Tenga en cuenta que al realizar esta operación creamos un nuevo conjunto de datos diferente al anterior. Siempre debemos tener presente cuál de los dos conjuntos de datos está activo, ya que los cálculos que realizamos sólo se aplican al conjunto de datos que está activo. Calcularemos este gráfico de la variable Gatos, por lo que debemos cambiar el conjunto de datos activos nuevamente a Animales.

Si volvemos a mirar el conjunto de datos veremos cómo la variable que acabamos de crear se ha incorporado en la columna de la derecha.

Análisis del mercado de trabajo en España

Importación y manejo de datos

Visualización de bases de datos Las funciones head y tail nos permiten ver el principio y el final de un conjunto de datos. Una forma de comprobar que los datos se han introducido correctamente es utilizar la función de encabezado, que muestra las primeras seis observaciones en filas en la consola, con las variables en columnas. Esta función, aplicada a una base de datos, nos muestra en primer lugar el número de filas (observaciones) y en segundo lugar el número de columnas (variable).

La función tenue se aplica tanto a matrices como a bases de datos y nos dice la dimensión del objeto. Para ello, como vimos al realizar el análisis descriptivo con R-Commander, existen diferentes funciones, entre ellas la de resumen. Recordemos que esta función muestra el mínimo, máximo, media y tres cuartiles de cada variable.

En este caso, se utiliza para acceder a las distintas variables que componen una base de datos. Para hacer referencia a una variable de base de datos, la sintaxis correcta sería base de datos.datos$variable. Esta función, aplicada a una base de datos, almacena todas sus variables en memoria en forma de objetos independientes (vectores), de modo que para hacer referencia a estas variables no es necesario utilizar el símbolo repetidamente.

Sin embargo, puede resultar engorroso a la hora de programar un análisis con las variables. De esta forma se puede acceder a las variables simplemente dando sus nombres, sin consultar la base de datos. Recordemos que la función suma aplica la operación suma a todos los componentes de un objeto, en este caso las variables de nuestro análisis.

Estadística descriptiva

Representación gráfica

  • Diagrama de dispersión
  • Histograma y función de densidad
  • Diagrama de caja
  • Gráficos compuestos

Otro ejemplo de diagrama de dispersión son las variables centradas en el valor cero, para las cuales se debe aplicar la transformación xi−x, es decir, restar la media aritmética. Para hacerlo más completo, usaremos la función ordenar para que los datos se muestren ordenados de menor a mayor, y consideraremos los nombres de la matriz de índice. El histograma se utiliza para representar datos cuantitativos continuos, mientras que el gráfico de barras se utiliza para representar gráficamente datos cuantitativos discretos o datos cualitativos.

La función de densidad, calculada con técnicas no paramétricas, es la generalización del histograma suponiendo que el espesor de las barras tiende a cero. El primer paso será estimar la función de densidad mediante la función de densidad, cuyo resultado será un conjunto de valores. Además, opcionalmente podemos colorear esta característica (tanto el borde como el interior) usando la característica poligonal.

Otra opción es combinar un histograma con una estimación de la función de densidad. Usando la instrucción freq=FALSE decidimos que en el eje x no aparece la frecuencia, sino la densidad de probabilidad. Además, usando la función de línea, agregamos una capa adicional al gráfico estimando la función de densidad.

El box plot consiste en una gráfica basada en cuartiles, que permite visualizar la simetría de la distribución de los datos. Si lo que nos interesa es la comparación de varios boxplots de diferentes variables en un mismo gráfico, introduciremos como primer argumento una matriz (o base de datos) con las variables ordenadas en columnas. Otra opción interesante es el diagrama de violín, que combina el diagrama de caja con la función de densidad en un solo gráfico.

En el siguiente ejemplo, organizaremos cuatro gráficos en dos filas y dos columnas usando la instrucción mfrow=c(2,2). En el siguiente ejemplo, crearemos tres gráficos en una composición de 2×2, es decir, dos filas y dos columnas. Configuramos el primer gráfico para que ocupe toda la primera fila (es decir, ambas columnas), mientras que los dos gráficos restantes ocupan cada uno una columna de la segunda fila.

Análisis demográfico en Cataluña

  • Manejo de bases de datos
  • Creación y análisis de variables
  • Creación y análisis de factores
  • Representación gráfica
    • Gráficos con componente factorial
    • La librería Lattice

Miremos las primeras seis observaciones en la base de datos para confirmar que se hizo correctamente. El resumen de la base de datos nos da estadísticas básicas de la variable: mínimo y máximo, media aritmética y cuartiles. Esta es una característica fundamental del análisis de datos, ya que le permite crear bases de datos más pequeñas a partir de una base de datos original introduciendo condiciones.

Para acelerar la explotación de los datos que queremos analizar, muchas veces nos vemos obligados a crear bases de datos más pequeñas basadas en la base de datos original. Empecemos con un primer ejemplo muy sencillo: extraeremos de la base de datos inicial sólo dos variables (el municipio y la edad), y sólo aquellas observaciones que cumplan la condición de edad>65. Por tanto, la base de datos resultante contiene sólo dos variables y tres observaciones que cumplen esta condición.

El siguiente paso es ver cómo podemos reorganizar las observaciones en una base de datos según el orden creciente o decreciente de una variable. En este caso, el vector orden(edad) será un vector que contiene los valores 1:941 según el orden creciente de la variable edad. Siendo un poco más ambiciosos, para la variable edad calcularemos una tabla con los estadísticos de la función estadística básica para los tres factores disponibles.

Otra funcionalidad de Res es crear variables discretas dividiendo las variables en intervalos. En el siguiente ejemplo haremos algo más complicado: presentaremos gráficamente la densidad de edad media empírica que diferencia entre municipios dentro y fuera del área metropolitana de Barcelona. En el siguiente ejemplo, trazaremos la función de densidad de la variable edad y la dividiremos en dos subgrupos según la variable f_bcn.

Una gráfica similar a la anterior es la siguiente, excepto que en lugar de calcular el histograma de la variable, calcula la función de densidad empírica y también traza las observaciones en el eje x. Si introducimos f_bcn*f_cos, en realidad cruzamos dos factores: la pertenencia al área metropolitana de Barcelona y la ubicación costera del municipio, de modo que el resultado serán cuatro gráficas de la función empírica de densidad de edad con cuatro posibles combinaciones de f_bcnyf_cos . Veamos esto con un ejemplo práctico: para las variables inmigración, edad y densidad tendremos una estructura de 3×3 donde los elementos de la diagonal están vacíos.

Veamos el hecho de que los diagramas de la diagonal superior son los mismos que los de la diagonal inferior, al revés. No olvidemos que en este módulo creamos esta matriz, la cual contiene tres variables relacionadas con la tasa de inmigración, la edad promedio y la densidad de los municipios en la base de datos.

Figure

Figura 1: Interfaz de R-Commander

Referencias

Documento similar