Análisis exploratorio de datos

(1)

Análisis exploratorio

de datos

Hasta este momento hemos aprendido que para comenzar un buen análisis estadístico es necesario contar con una buena base de datos, la cual se logra diseñando un eficaz plan de muestreo.

También vimos que luego de recolectar los datos era necesario ordenarlos y presentarlos, para que de esa manera, el investigador pueda advertir signos de alguna tendencia o comportamiento que luego se pueden confirmar o no. También aprendimos que una buena presentación gráfica facilita la interpretación, sobre todo a las personas que no están habituadas a los términos estadísticos.

En este capítulo vamos a comenzar con los primeros análisis de datos. Dichos análisis arrojan como resultado cifras que resumen la información contenida en el conjunto de datos y que nos sirven para caracterizarlo.

El objetivo de este capítulo es interiorizarnos acerca de las medidas de posición y variabilidad más utilizadas y en qué casos se emplea cada una de ellas. También se hablará de ciertas medidas denominadas robustas o resistentes que se utilizan cuando las medidas de posición clásicas pierden representatividad.

Medidas de posición

Supongamos que un investigador en nutrición registra el peso de niños de un año de edad. Lo primero que se le ocurrirá es tener una idea acerca de si el peso de los niños se ubica alrededor de 6 Kg. o de 10 Kg. Necesita resumir de alguna forma sus datos y calcular alguna medida representativa sencilla que le permita establecer si los niños de su estudio se posicionan en la categoría de desnutridos (alrededor de 6 kilos) o si, por el contrario, están bastante cercanos a la normalidad (alrededor de 10 kilos).

Se conocen varias medidas que cumplen con el requisito de posicionar a un conjunto de datos y veremos a continuación las tres más comúnmente utilizadas: moda, mediana y media aritmética.

(2)

El cálculo de estas medidas difiere de acuerdo al tipo de variables con que se trabaja y presenta pequeñas modificaciones según se disponga de datos agrupados o no.

Antes de ver la definición y forma de cálculo de las distintas medidas de resumen, veremos qué notación vamos a utilizar para cada una de ellas. Esto es importante porque si bien la definición es la misma, cambiará su nombre y su simbología según si la hayamos obtenido a partir de todos los datos de la población o si se obtuvo a partir de una muestra, por ejemplo si calculamos el promedio de edad de todos los alumnos de la U.Na.F. tendremos un promedio poblacional, en cambio si calculamos el promedio de edad de una muestra de 300 alumnos, esa medida es un promedio muestral.

Si una medida de resumen es calculada con las observaciones de toda la población, dicha medida se denomina genéricamente parámetro, pero si se la obtiene a partir de una muestra se llama estadístico.

Nombre Símbolo Nombre Símbolo

Parámetro (en

forma genérica)



Estadístico (en forma

genérica)



ˆ

Media

poblacional



Media muestral

x

Varianza

poblacional



2

Varianza muestral

s

2

Desviación estándar

poblacional



Desviación estándar muestral

s

Proporción

poblacional

P

Proporción muestral

p

Media aritmética

La media aritmética de un conjunto de observaciones es una medida de posición que se conoce comúnmente como promedio.

Si se ha realizado una investigación donde se han medido n unidades

experimentales con respecto a una característica determinada, la media aritmética se calcula como la suma de todos los valores que toma la característica en estudio dividida por el número total de unidades experimentales observadas. En símbolos

(3)

Esta fórmula corresponde a la media muestral, pero es la misma para la media poblacional, considerando que el denominador n corresponde al total de la población, que generalmente se simboliza con N.

Propiedades de la media aritmética:

a) La suma de todos los desvíos con respecto a la media es igual a cero

1

(

)

0

n i

i

x

 

x



Un desvío es una diferencia entre un valor cualquiera que asume la variable y un valor constante elegido arbitrariamente. Cuando ese valor fijo es la media, la suma de dichos desvíos es nula.

b) La suma de los cuadrados de los desvíos con respecto a la media es un mínimo 2 2 1

(

)

1

(

)

n n i i i

x



x



i

x



a

 

a

x



Modo

El modo o la moda es aquel valor de la variable que ocurre con mayor frecuencia.

(4)

Mediana

La mediana de un conjunto de observaciones es un valor de la variable que divide a este conjunto (ordenado de menor a mayor) en dos subconjuntos que contienen la misma cantidad de datos.

Cuartiles

Los cuartiles de una distribución, son valores de la variable que dividen al conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos que contienen la misma cantidad de datos.

Percentiles

Los percentiles de una distribución, son valores de la variable, que dividen al conjunto de datos (ordenados de menor a mayor) en cien partes con igual número de elementos cada una.

Rango

Se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el menor valor de la variable.

Recordemos que ya hemos hablado del rango y lo hemos utilizado en el Módulo II para calcular los intervalos de clase.

Definiendo ahora el rango como una medida de dispersión, debemos destacar que el mismo es completamente dependiente de los dos valores extremos que toma la variable.

(5)

Varianza

Vimos que la manera más adecuada de estudiar la mayor o menor dispersión de los datos alrededor de un cierto valor de referencia es utilizar la desviación de cada uno de los valores individuales con respecto al valor de referencia establecido.

Volvemos ahora a considerar las desviaciones con respecto a la media aritmética de un conjunto de datos.

En una primera instancia utilizamos los valores absolutos de las desviaciones para evitar que su suma sea cero.

Ahora, mediante otro artificio matemático, elevaremos cada desviación al cuadrado.

Obtendremos así, promediando estas desviaciones elevadas al cuadrado, una nueva medida de dispersión ampliamente conocida y que se denomina varianza.

La varianza es la suma de las desviaciones con respecto a la media aritmética elevadas al cuadrado dividida por el número de observaciones. En símbolos:





2 2 1 n i i x N





  



Donde n es el tamaño de la población

Si la varianza es calculada con los datos de una muestra de tamaño n , la expresión es:





2 2 1

1

n i i

x

s

n











(6)

Desvío estándar

Vemos que, al usar este artificio matemático de elevar las desviaciones al cuadrado, nos ha quedado alterada la unidad de medida.

Para evitar este inconveniente se emplea como medida de dispersión la raíz cuadrada de la varianza, la que se conoce con el nombre de desviación estándar.

De acuerdo a lo establecido, podemos elaborar la siguiente definición: La desviación estándar es la raíz cuadrada positiva de la varianza

2







_{(D.E. poblacional)} 2

s



s

_{(D.E. muestral)}

Coeficiente de

variación

En muchas ocasiones deseamos comparar dos distribuciones a partir de la variabilidad de cada una, pero en esta comparación nos podemos encontrar con dos problemas: Uno de ellos es cuando las distribuciones son de variables que están expresadas en distintas unidades de media, por ejemplo distribución de peso en kg y otra en libras, o más aún, queremos comparar la distribución de peso en kilogramo con la de talla en centímetros. El otro problema es cuando a pesar de tener la misma magnitud medida, y en consecuencia, la misma unidad, por ejemplo peso, podemos tener dos distribuciones muy distintas en cuanto a sus valores, es decir, sus medidas de tendencia central son muy distintas entre sí. Es aquí entonces donde comparar dos desviaciones estándar puede no ser conveniente y es allí donde se utiliza el coeficiente de variación (CV).

Esta medida es adimensional y permite en consecuencia comparar la variabilidad de características medidas en diferentes escalas

(7)

Fórmula del coeficiente de variación muestral

Diagramas de Caja (“Box Plot”)

Estos gráficos tienen por objeto presentar sintéticamente los aspectos más importantes de una distribución de frecuencias.

Ejemplo :Se toman muestras aleatorias de tamaño n = 100 de cada uno de

tres estadios larvales de una especie de polilla forestal. Cada individuo es pesado y los resultados se presentan en la siguiente tabla:

(8)

Obviamente la visualización de estos resultados no permite percibir las similitudes o diferencias entre las distribuciones muestreadas. Una forma de presentar estos resultados es el que se hace en la figura siguiente. En ella se observan 3 cajas cuyos cuerpos están atravesados por una línea horizontal y de los extremos superior e inferior emergen sendos segmentos de recta que son continuados por círculos. La figura incluye la interpretación de este tipo de gráfico.

¿Qué se puede decir del peso de las larvas de los distintos estadios?

En primera instancia las distribuciones están posicionadas de manera diferente, siendo las larvas de estadio 3 las más pesadas, luego las de estadio 2 y finalmente las de estadio 1. Otro hecho que puede observarse es que la variación, al menos en términos absolutos, va incrementándose a medida que aumenta el peso promedio de las larvas. Un tercer hecho es que la distribución es asimétrica con valores extremos sólo a la derecha de la media. Por otra parte, la asimetría tiende a disminuir con el aumento del peso, esto indica que la distribución es más asimétrica en las larvas de estadio 1 que en las de estadio 2 ó 3. Esto se puede visualizar por la cantidad de valores extremos.

Aunque el box-plot es una representación apropiada para la distribución de frecuencias muestrales, a veces el tamaño de la muestra es pequeño y los cuantiles muestrales que de ella se obtienen no son confiables desde el punto de vista estadístico y en consecuencia la construcción del box-plot, que requiere de estas medidas, puede no ser buena.