• No se han encontrado resultados

ESTADÍSTICA DESCRIPTIVA I

N/A
N/A
Protected

Academic year: 2021

Share "ESTADÍSTICA DESCRIPTIVA I"

Copied!
26
0
0

Texto completo

(1)

ESTADÍSTICA DESCRIPTIVA I

1.- DISTRIBUCIONES UNIDIMENSIONALES.

CONCEPTOS GENERALES.

La estadística se puede dividir en dos partes:  Estadística descriptiva o deductiva.  Estadística inferencial o inductiva.

La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten simplificar en gran medida, la complejidad de todos los datos que intervienen en la distribución. Asimismo se calculan parámetros estadísticos que caracterizan la distribución. En esta parte de la estadística no se hace uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos.

La estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra. Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el cálculo de probabilidades.

La población es el conjunto de todos los elementos, que cumpliendo una condición, deseamos estudiar (por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una granja, etc.).

Un individuo es cada uno de los elementos de la población.

Una muestra es cualquier subconjunto de la población (por ejemplo: 100 alumnos del colegio, 1.000 habitantes de una ciudad, 300 gallinas de una granja, etc.). El saber seleccionar una muestra suficientemente representativa de la población a estudiar es fundamental para que los resultados del estudio sean fiables. Sobre cómo seleccionar una muestra existen todo un tratado llamado “Teoría de las muestras”, al cual haremos una aproximación más adelante.

Cada una de las propiedades que se pueden estudiar se llama carácter estadístico (por ejemplo: talla, peso, sexo, estado civil, etc).

Pueden ser cuantitativos si se pueden medir numéricamente (por ejemplo: la talla, el peso, etc) o cualitativo si no se puede medir numéricamente (por ejemplo: sexo, estado civil, etc).

Al conjunto de valores que toma un carácter se le llama variable estadística que podrá ser cualitativa o cuantitativa, dependiendo de si el carácter es cualitativo o cuantitativo, respectivamente.

Una variable será discreta si sólo puede tomar determinados valores (ej: número de hermanos, número de aprobados, etc).

Una variable será continua si puede tomar todos los valores posibles de un intervalo (ej: altura de una persona, peso, etc).

Tablas de frecuencias: Son tablas donde se reflejan los datos obtenidos y las diferentes frecuencias: La frecuencia absoluta ( fi) es el número de veces que se repite un valor (si están agrupados en intervalos de clase, la frecuencia absoluta del intervalo será el número de veces que aparece un valor cualquiera de ese intervalo).

(2)

La frecuencia relativa (hi) de un valor es el cociente entre la frecuencia absoluta del valor y el número total de datos N f h i i

La frecuencia absoluta acumulada ( Fi) de un valor es la suma de todas las frecuencias absolutas de los valores menores o iguales al valor.

La frecuencia relativa acumulada (Hi) de un valor es la suma de todas las frecuencias relativas de los valores menores o iguales al valor.

Propiedades de la frecuencia relativa:

1 . 2 1 0 . 1 n 1 = i     

i i h h

A continuación vamos a estudiar el tratamiento de la información, es decir, cómo debemos proceder para analizar ordenadamente una muestra.

Los pasos a seguir son:

1. Recogida de datos. Consiste en la toma de datos numéricos procedente de la muestra. 2. Ordenación de datos. Una vez recogidos los datos los colocaremos en orden creciente. 3. Agrupación de los datos en clase. En caso de que la variable sea continua o bien discreta pero

con número muy elevado de datos, es necesario agrupar los datos en intervalos, a los cuales llamaremos intervalos de clases. Respecto a cómo agruparlos y qué número de intervalos elegir, podemos decir que no existe una contestación tajante y hay varios criterios para dar respuesta a esta cuestión. Una de las teorías establece que debemos hacer un número de intervalos aproximadamente igual a la raíz cuadrada del número de datos, pero nosotros vamos a seguir otros criterios. Intentaremos hacer un número de intervalos comprendido entre 8 y 12. Llamaremos marca de clase al punto medio del cada intervalo. Una vez elegido el número, es aconsejable escoger los límites de los intervalos, de modo que sean múltiplos, pares, divisibles, etc., para lograr que la marca de clase no nos dé un número fraccionario o con muchos decimales. Esto nos facilitará luego el trabajo de cálculo. También tenemos que lograr que los intervalos sean de la misma amplitud y que el límite superior de uno coincida con el inferior del siguiente. Y por último adoptaremos el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha, esto quiere decir que si un valor de la variable queda justo en el límite de dos intervalos, siempre lo pondremos en el superior. 4. Recuento de frecuencia. Efectuaremos el recuento de los datos obtenidos.

5. Construcción de la tabla. Calcularemos las frecuencias absolutas, relativas, acumuladas, porcentuales representaciones gráficas y todos aquellos datos que nos hagan falta para el estudio estadístico.

(3)

Veamos unos ejemplos de tabulación de datos.

Ejemplo 1: Un profesor tiene anotadas en su cuaderno las notas de 30 alumnos de una clase. Construir la tabla sabiendo que son las siguientes:

5 3 4 1 2 8 9 8 7 6 6 7 9 8 7 7 1 0 1 5 9 9 8 0 8 8 8 9 5 7 Xi Recuento fi Fi hi Hi pi Pi 0 // 2 2 2/30 2/30 2/30*100 2/30*100 1 /// 3 5 3/30 5/30 3/30*100 5/30*100 2 / 1 6 1/30 6/30 1/30*100 6/30*100 3 / 1 7 1/30 7/30 1/30*100 7/30*100 4 / 1 8 1/30 8/30 1/30*100 8/30*100 5 /// 3 11 3/30 11/30 3/30*100 11/30*100 6 // 2 13 2/30 13/30 2/30*100 13/30*100 7 ///// 5 18 5/30 18/30 5/30*100 18/30*100 8 ///// // 7 25 7/30 25/30 7/30*100 25/30*100 9 ///// 5 30 5/30 30/30 5/30*100 30/30*100 30 1 100

Ejemplo 2: Construir la tabla estadística de las edades de las personas que acuden a un logopeda a lo largo de un mes, sabiendo que son:

3 2 11 13 4 3 2 4 5 6 7 3 4 5 3 2 5 6 27 15 4 21 12 4 3 6 29 13 6 17 6 13 6 5 12 26 Clases Marcas de clases xi fi Fi hi Hi [0 5) 2,5 13 13 13/36 13/36 [5 10) 7,5 11 24 11/36 24/36 [10 15) 12,5 6 30 6/36 30/36 [15 20) 17,5 2 32 2/36 32/36 [20 25) 22,5 1 33 1/36 33/36 [25 30) 27,5 3 36 3/36 36/36=1 36 1

(4)

2.- DIAGRAMA DE TALLOS Y HOJAS

Una moderna técnica de recogida de datos es la que se conoce como diagrama de tallos y hojas Veamos a continuación con un ejemplo en qué consiste.

Las puntuaciones obtenidas por 40 alumnos en un test han sido las siguientes: 41, 53, 72, 62, 81, 93, 81, 74, 56, 62, 45, 47, 62, 58, 88, 76, 77, 63, 43, 56, 76, 63, 78, 73, 65, 66, 91, 82, 61, 72, 36, 50, 91, 32, 60, 80, 51, 68, 61, 71. Para construir el diagrama de tallos y hojas, procedemos del siguiente modo:

Paso 1º

Se observa entre qué valores están las cifras de las decenas de todos los datos, y se tiene que van de 3 a 9.

Tallo 3 4 5 6 7 8 9 Paso 2º

Se va leyendo uno a uno cada dato, anotando las cifras de las unidades en la fila correspondientes. Tallo 3 6 2 4 1 5 7 3 5 3 6 8 6 0 1 6 2 2 2 3 3 5 6 1 0 8 1 7 2 4 6 7 6 8 3 2 1 8 1 1 8 2 0 9 3 1 1

Así se obtiene una figura como esta.

Paso 3º

Por último se vuelve a escribir la tabla ordenando de menor a mayor las unidades dentro de cada fila.

Tallo 3 2 6 4 1 3 5 7 5 0 1 3 6 6 8 6 0 1 1 2 2 2 3 3 5 6 8 7 1 2 2 3 4 6 6 7 8 8 0 1 1 2 8 9 1 1 3

(5)

 Los diagramas de tallos y hojas son, en sí mismos, diagramas de frecuencias, pues basta con trazar una línea poligonal que una los últimos números de cada fila.

 Podemos sacar muchas conclusiones a la vista del diagrama:

o Hay dos alumnos con puntuaciones entre 30 y 39, y así sucesivamente.

o Se puede observar que es una distribución ligeramente asimétrica a la derecha. o La clase con mayor frecuencia es la de 60-69

o Etc.

3.- GRÁFICOS ESTADÍSTICOS

Aun cuando las tablas estadísticas contienen toda la información, es conveniente expresarla mediante gráficos adecuados a la variable, con el fin de resaltar los aspectos más significativos y hacer la distribución más clara y evidente.

Diagramas de barras

Los diagramas de barras o bastones son especialmente útiles cuando se desea comparar datos cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos.

Para trazarlos se representan sobre el eje de abscisas los valores de la variable, y sobre el eje de ordenadas la frecuencia que se vaya a representar; o viceversa. A continuación, se levantan trazos gruesos de longitud igual a la frecuencia correspondiente a cada valor de la variable.

Ejemplo. Xi fi Fi 0 2 2 1 3 5 2 1 6 3 1 7 4 1 8 5 3 11 6 2 13 7 5 18 8 7 25 9 5 30

(6)

Polígonos de frecuencias

Los polígonos de frecuencia son especialmente útiles cuando se desea comparar datos cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos.

Se forman siguiendo el mismo procedimiento que para los diagramas de barras, pero no se trazan las barras, sino que se unen los puntos de las frecuencias mediante una línea. Se puede representar sobre el mismo diagrama de barras o incluso sobre un histograma (como veremos más adelante. Ejemplo.

Diagrama de Sectores

Los diagramas de sectores representan las distintas modalidades de un carácter mediante sectores circulares. Cada valor viene representado por un sector circular de amplitud proporcional a su frecuencia. Normalmente se utilizan tantos por ciento para reflejar las frecuencias y la amplitud se calcula mediante una simple regla de tres.

(7)

Pictogramas

Los pictogramas son dibujos alusivos a las distribuciones que se pretenden estudiar y que mediante su forma, tamaño, etc., ofrecen una descripción lo más expresiva posible de la distribución. Son gráficos poco precisos pero fáciles de interpretar a simple vista.

Ejemplo.

Cartogramas

Se llama cartogramas a los gráficos que se realizan sobre un mapa, señalando sobre determinadas zonas, con distintos colores o rayados lo que se trate de poner de manifiesto. Se suelen utilizar para representar renta per cápita, densidad de población, horas de sol, recursos hídricos, etc.

(8)

Histogramas

Los histogramas se utilizan para distribuciones de variables agrupadas en intervalos. Se construyen representado en el eje de abscisa los límites de cada clase y en el eje de ordenadas la frecuencia que queramos representar. Luego se levantan los rectángulos correspondientes, con una base igual a las amplitudes de los intervalos y una altura igual a la frecuencia.

Ejemplo.

Como se observa, también se puede construir el polígono de frecuencia.

Diagramas lineales o series temporales

Los diagramas lineales son muy utilizados para mostrar las fluctuaciones de un determinado carácter estadístico con el paso del tiempo.

Lo que interesa en el gráfico es la altura de la línea referida a la base del diagrama. Con frecuencia se aprovecha para representar sobre la misma escala varios diagramas lineales. Como por ejemplo ingresos y gastos; nacimientos y defunciones; etc.

Clases Marcas de clases xi fi [0 5) 2,5 13 [5 10) 7,5 11 [10 15) 12,5 6 [15 20) 17,5 2 [20 25) 22,5 1 [25 30) 27,5 3 36

(9)

Pirámides de población

Las pirámides de población se utilizan para estudiar conjuntamente la variable edad y el atributo sexo. El gráfico se obtiene representando en la ordenada el grupo de edad, y en la abscisa el sexo. Para la modalidad mujer se toma el semieje positivo, y para la modalidad hombre el semieje negativo.

El estudio detallado de las pirámides de población aporta datos sobre aspectos sociológicos ligados a dicha población, cómo por ejemplo, catástrofes, guerras, control de natalidad, desarrollo de la población. Asimismo se pueden realizar previsiones para el futuro, como es el caso del estudio de las necesidades de las futuras pensiones.

(10)

Resumen:

Estadística: Estadística descriptiva. Estadística inferencial. Población. Muestra. Individuo.

Variables o carácter estadístico. Variables cualitativas. Variables cuantitativas. V. cuantitativas discretas. V. cuantitativas continuas. Tablas estadísticas. Intervalos o clases. Marcas de clase. Frecuencias absolutas, fi.

Frecuencia absoluta acumulada, Fi.

Frecuencia relativa, hi.

Frecuencia relativa acumulada, Hi.

Diagrama de tallos y hojas

Gráficos

Para variables cualitativas o cuantitativas discretas. Diagramas de barras.

Polígonos de frecuencias. Diagramas de sectores. Pictogramas.

Para variables cuantitativas continuas. Histogramas.

Polígonos de frecuencias (sobre el histograma). Diagramas de sectores. Pictogramas. Otros Cartogramas. Diagramas lineales. Pirámides de población.

(11)

Ejercicio.

Se ha pasado un test de 80 preguntas a 600 personas. El de respuestas correctas se refleja en la siguiente tabla.

Se pide:

1. Elaborar la tabla con todas las frecuencias. 2. Representar de todas las formas posibles.

Respuestas [0 10) [10 20) [20 30) [30 40) [40 50) [50 60) [60 70) [70 80) correctas Numero de 40 60 75 90 105 85 80 65 personas Respuestas Marca de correctas clase xi fi Fi hi Hi pi Pi [0 10) 5 40 40 0,06667 0,06667 6,6667 6,6667 [10 20) 15 60 100 0,10000 0,16667 10,0000 16,6667 [20 30) 25 75 175 0,12500 0,29167 12,5000 29,1667 [30 40) 35 90 265 0,15000 0,44167 15,0000 44,1667 [40 50) 45 105 370 0,17500 0,61667 17,5000 61,6667 [50 60) 55 85 455 0,14167 0,75833 14,1667 75,8333 [60 70) 65 80 535 0,13333 0,89167 13,3333 89,1667 [70 80) 75 65 600 0,10833 1,00000 10,8333 100,0000 ∑ 600 1,00000 100

(12)

ESTADÍSTICA DESCRIPTIVA II

1.- DISTRIBUCIONES UNIDIMENSIONALES.

CÁLCULO DE PARÁMETROS

PARÁMETROS DE CENTRALIZACIÓN

En la búsqueda de la concreción y la simplificación, la información recogida en una tabla o gráfica estadística suele resumirse en unos pocos valores que nos informan del comportamiento de todos los individuos del colectivo estudiado. Estos valores, representativos de todos los datos de una distribución, se llaman parámetros o medidas de centralización.

MEDIA ARITMÉTICA

Media aritmética de una variable estadística es el cociente que resulta de dividir la suma de todos los valores por el número total de éstos. Se representa por

x

.

Su cálculo se realiza, según las expresiones que siguen, atendiendo a la presentación de los datos.

Para datos sin frecuencias

Si la variable toma los N valores x1, x2,...,xn la media aritmética adopta la expresión:

N

x

N

x

x

x

x

1

2

...

n

i

Para datos con frecuencias

Si la variable toma los valores o marcas de clase x1, x2, xn, siendo f1, f2,.... fn las frecuencias absolutas correspondientes de la distribución, la media aritmética se calcula con la expresión:

N

f

x

f

f

x

f

f

f

f

x

f

x

f

x

x

i i i i i n n n

...

...

2 1 2 2 1 1

(13)

Para datos ponderados

La media ponderada se calcula cuando todos los valores de la variable no tienen el mismo “peso”. Su fórmula es análoga a la vista con anterioridad, cambiando las frecuencias fi, por los pesos pi,

y, en el denominador, N por la suma de todos los pesos pi, por lo que resulta:

i i i n n n

p

p

x

p

p

p

p

x

p

x

p

x

x

...

...

2 1 2 2 1 1

Consideraciones sobre la media aritmética.

 La media aritmética es el parámetro de centralización más utilizado.

 Presenta la ventaja de tener en cuenta todos los datos de la distribución, además de resultar muy sencillo su cálculo.

 Tiene el inconveniente de que si la distribución posee valores extremos, excepcionalmente raros y pocos significativos, éstos producen una distorsión sobre el valor de la media.

 No siempre es posible calcular la media aritmética y, a veces, aunque sea posible calcularla, carece de significado como sucede en las variables cualitativas o se trata de intervalos abiertos. En estos casos deben utilizarse otras medidas de centralización.

 Si se suma una constante a todos los valores de la variable, la media aritmética aumenta en el mismo valor.

 Si se multiplican todos los valores de la variable por un mismo número, la media queda multiplicada por el mismo número.

MODA

Se denomina moda de una variable estadística al valor de la variable que tiene mayor frecuencia absoluta. Se representa por Mo.

La moda de una variable discreta es fácil de calcular, basta buscar el valor de la variable que presenta mayor frecuencia. Puede ocurrir que la moda no sea única, es decir, la distribución puede tener 2, 3 o más modas, recibiendo el nombre de bimodal, trimodal, etc.

En el caso de que los datos se encuentren agrupados en intervalos, la clase con mayor frecuencia se denomina clase modal. Puede tomarse como moda la marca de clase de la clase modal. Si se desea mayor precisión en el cálculo de la moda, ésta puede obtenerse mediante la expresión:       D D D c L Mo i

Li= Límite inferior del intervalo.

C= Amplitud del intervalo.

(14)

Cálculo de la moda por el método gráfico.

Para las distribuciones que se encuentran agrupadas en intervalos existe un método gráfico muy sencillo que permite obtener la moda con bastante aproximación. Para ello se representa el histograma de frecuencias absolutas, al ser posible en papel milimetrado, con el fin de poder obtener mayor precisión. Seguidamente se unen, con líneas los extremos de la clase modal con las contiguas. La moda viene dada por la abscisa del punto de corte.

Consideraciones sobre la moda.

 Puede ocurrir que existan distribuciones que no tengan moda; eso ocurre cuando las frecuencias de todos los datos, o casi todos, son iguales.

 Puede ser muy útil cuando se trata de variables cualitativas.  En su cálculo no intervienen todos los datos de la distribución.

 Aun cuando es una medida de centralización, es relativamente frecuente encontrar modas situadas en los extremos de la distribución.

MEDIANA

La mediana de una distribución estadística es el valor de la variable, tal que el número de datos menores que él es igual al número de datos mayores que él. Se representa por Me.

Si la distribución es de una variable discreta y el número de datos es impar, la mediana es el valor central, y si el número de datos es par, la mediana es la media de los valores centrales. Si la distribución es de una variable continua, el intervalo que contiene a la mediana se denomina

clase mediana o intervalo mediano. Puede tomarse como mediana, en una primera

aproximación, la marca del intervalo mediano.

Si se desea mayor precisión en el cálculo de la mediana, ésta se obtiene, dentro del intervalo mediano, mediante la expresión:

i i i e f F N c L M 1 2    

Li= Límite inferior del intervalo. C= Amplitud del intervalo. N= Número total de datos

F = Frecuencia absoluta acumulada de la clase anterior a la clase mediana.

Variable discreta: N imparMeX(n1)/ 2

(15)

fi= Frecuencia absoluta de la clase mediana.

Consideraciones sobre la mediana.

 La mediana es particularmente útil en los siguientes casos:

 Cuando entre los datos existen valores ostensiblemente extremos.  Cuando los datos están agrupados en intervalos y alguno es abierto.  La mediana depende del orden de los datos y no de su valor.

 Cuando en su cálculo, el valor N/2 cae justo en el límite de un intervalo, se hace la media entre la frecuencia de este y del posterior.

PARÁMETROS DE POSICIÓN

CUANTILES

La mediana de los valores de una variable estadística divide a la distribución en dos partes iguales. Es decir, la mediana parte la distribución en dos mitades, cada una corresponde al 50% de los datos. Generalizando la idea anterior, se puede pensar en obtener valores que dividan a distribución en diversas partes iguales, dando lugar a los cuantiles. Los más importantes y usados, sobretodos en las ciencias sociales y médicas, son:

CUARTILES

Se llaman cuartiles a tres valores que dividen la distribución en cuatro partes iguales. Se representan y designan como cuartil primero (Q1), segundo (Q2) y tercero (Q3). Cada parte

agrupa, por tanto, al 25%, al 50% y al 75% de los datos de la distribución.

Es obvio que el segundo cuartil, por definición, coincide con la mediana. El cálculo de los otros cuartiles sigue las pautas de la mediana y se obtienen a través de las expresiones:

i i i f F N c L Q 1 1 4     DECILES

Análogamente, se llaman deciles a nueve valores de la variable que dividen a la distribución en diez partes iguales. Es decir, los deciles agrupan a los datos en diez partes correspondientes cada una con el 10% de la distribución. Se representan por D1, D2, ..., D9 y la expresión que

permite calcularlos es:

K=1, 2, 3,...,9 i i i f F N c L Q 1 3 4 3     i i i k f F k N c L D 1 10    

(16)

PERCENTILES

De la misma manera, decimos que se llaman percentiles a 99 valores que divide la distribución en 100 partes iguales Se representa por P1, P2, ..., P99 y se calculan a través de la expresión

X=1, 2, 3,...,99

Cálculo gráfico de los cuantiles

Para calcular gráficamente los cuantiles de una distribución existe un método muy sencillo que consiste en representar el polígono de frecuencias porcentuales acumuladas (Pi), situando en el eje abscisa la variable discreta o los intervalos, y en el eje de ordenadas los porcentajes correspondientes. Convine realizar la representación en papel milimetrado para mayor precisión. Ejemplo. i i i x f F xN c L P 1 100   

(17)

PARÁMETROS DE DISPERSIÓN

Las medidas de centralización vistas con anterioridad necesitan de otras que las complementen en el estudio de las distribuciones de frecuencias de las variables estadísticas. Estas nuevas medidas, que denominamos parámetros de dispersión, informan de las desviaciones que sufren los datos respecto de los valores centrales, en especial con relación a la media aritmética. Los parámetros de dispersión más usuales son:

RECORRIDO

Recorrido o rango de una variable estadística es la diferencia entre el mayor y el menor valor de los datos observados. Se representa por R. Así, se tiene: R = Xmax - Xmin

VARIANZA

Varianza de una variable estadística es la media aritmética de los cuadrados de las desviaciones de todos los datos o marcas de clase respecto de la media. Se representa por σ2 ó S2

Las expresiones equivalentes que permiten calcular la varianza son:

N x x fi i

  2 2 ( )  2 2 2 x N x fi i  

Es importante conocer que la varianza es siempre positiva, o nula en caso de que todos los valores de la variable sean iguales.

DESVIACION TIPICA

Se denomina desviación típica de una variable estadística a la raíz cuadrada positiva de la varianza.

Se representa por σ ó S.

Consideraciones sobre la desviación típica

 La desviación típica es el parámetro de dispersión más utilizado.

 Si se suma una constante a todos los valores de la variable, la desviación típica no varía.  Si se multiplican todos los valores de la variable por un mismo número, la desviación típica

queda multiplicada por el mismo número.  No se puede calcular, es obvio, en el

caso de que no se pueda calcular la media. N x x fi i

  2 ) (  2 2 x N x fi i  

(18)

ESTUDIO CONJUNTO DE

x

y

σ

La media aritmética,

x

, y la desviación típica, σ , son los parámetros estadísticos por antonomasia.

La media es la medida central más utilizada y la desviación típica es la medida de dispersión o variabilidad por excelencia.

En toda distribución estadística, el estudio del comportamiento conjunto de la media aritmética y la desviación típica nos aporta numerosa información sobre la distribución de frecuencias estudiada.

En casi todas las distribuciones estadísticas de comportamiento normal se verifican de forma aproximada los porcentajes descritos a continuación que, referidos a la media y la desviación típica, expresan la distribución de datos.

Para una distribución estadística de comportamiento normal, se cumple: En (

x

x

+σ) está el 68% del total de individuos.

En (

x

-2σ

x

+2σ) está el 95% del total de individuos. En (

x

-3σ

x

+3σ) está el 99% del total de individuos.

Coeficiente de variación de Pearson

Para comparar el grado de dispersión de dos o más distribuciones no podemos confrontar simplemente las desviaciones típicas, puesto que esas medidas de dispersión vienen afectadas por la escala de la medida representativa de la variable. Es necesario por lo tanto eliminar esa influencia convirtiendo dichas medidas en números abstractos.

Para ello utilizaremos el coeficiente de variación de Pearson:

100  

x cv

Como sabemos que las medidas de centralización son más representativas cuanto más concentrada estén, vamos a establecer las siguientes condiciones:

 Menos de 30% ALTA concentración, y por lo tanto la media es altamente representativa.

 Entre 30% y 45% MEDIA concentración, y por lo tanto la media es medianamente

representativa.

 Mayor de un 45% BAJA concentración, y por lo tanto la media es poco o muy poco

representativa.

(19)

EJERCICIOS RESUELTOS

1. La estación meteorológica del Roque de los Muchachos registró 88 días de lluvia el pasado año, según muestra la tabla siguiente:

Calcula la precipitación media durante los días de lluvia.

N f x x

i i ; 18,523 88 1630   x

Por tanto, el año pasado la precipitación media

durante los días de lluvia fue de 18,523 l/m2.

2. La calificación media que han obtenido los alumnos de Ingeniería Técnica Agrícola de cierta Universidad, en la asignatura de Estadística durante los cuatro últimos cursos han sido: 5,8; 6,3; 6,7 y 7,2, respectivamente. En el primero de estos cursos se examinaron 180 alumnos, en el segundo 200, en el tercero 275 y en el cuarto 220. ¿Cuál es la calificación media de estos cursos en dicha asignatura?

Nota media Xi N" de alumnos fi xifi 5,8 180 1 044 6,3 200 1 260 6,7 275 1 842,5 7,2 220 1 584 Σ 875 5 730,5

Calcularemos la media aritmética ponderada, en la que el número de alumnos son los pesos correspondientes a las calificaciones medias de cada año.

i i i x f x f 

; 6,55 875 5 , 5730 x

3. Calcula la moda y la mediana correspondiente a la variable litros/m2 durante los días de lluvia en la estación meteorológica del Roque de los Muchachos, según la distribución citada en el ejercicio 1.

La moda

El mayor valor de la frecuencia, 23, corresponde al intervalo [15, 20) que recibe el nombre de intervalo modal.

En una primera aproximación se puede tomar la moda como la marca de clase, es decir, Mo=17,5.

Para obtener una mayor precisión utilizamos la fórmula:

      D D D c L Mo i ; 17,22 ) 18 23 ( ) 19 23 ( 19 23 5 15        o M

El dato que más se repite es de 17,22 litros/m2

La mediana

El intervalo mediano es [15, 20), ya que contiene el dato 88/2=44.

Litros/m2 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) Nº de días 3 7 19 23 18 12 6 Litros/m2 Xi fi Fi Xifi [0, 5) 2,5 3 3 7,5 [5, 10) 7,5 7 10 52,5 [10, 15) 12,5 19 29 237,5 [15, 20) 17,5 23 52 402,5 [20, 25) 22,5 18 70 405 [25, 30) 27,5 12 82 330 [30, 35) 32,5 6 88 195 Σ 88 1630

(20)

i i i e f F N c L M 1 2     ; 18,26 23 29 2 88 5 15     e M

El 50% de los días de lluvia se recogieron más de 18,26 Litros/m2 y el otro 50% de los días por debajo.

4. Dadas las siguientes distribuciones:

Los pesos de los toros de lidia de una ganadería se distribuyen con una x1 510 kg y una 1 25kg Los pesos de los perros de una exposición canina se distribuyen con una x2 19kg y una 2 10kg. Determinar cuál de las dos distribuciones está más dispersa.

La desviación típica de los pesos de la manada de los toros bravos es superior que la de los perros. Sin embargo, esos 25 kg son poca cosa para el enorme peso de los toros (es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 kg en relación con el peso del perro es mucho (imaginamos que en la exposición canina habrá perros muy dispares: caniches, "salchichas", dogos, mastines...

Comparando los coeficientes de variación:

CVtoros=(25/510)100=4,9% CVperros=(10/19)100=52,6%.

Con estos parámetros se ve claramente que el peso de los perros de la exposición canina es mucho más disperso que el de los toros de la manada.

5. Una empresa debe cubrir un cierto número de puestos de trabajo de dos tipos A, y B. Se somete a los aspirantes a dos pruebas, ambas puntuables de 0 a 50, diseñadas para valorar sus aptitudes en uno y otro tipo de trabajo. En la Prueba A, la media de calificaciones ha sidoxA 28, y la desviación típica A 3,4. En la B han sido, respectivamente, xB 24y B 2,1. Dígase: ¿Qué tipo de puesto de trabajo asignaríamos a un aspirante que hubiera obtenido 33 puntos en la prueba A y 28 en la B?

En ambos casos se halla por encima de la media. Su puntuación es más alta en la prueba A (33 frente a 28), así como su desviación respecto de la media (+5 frente a +4). No obstante, valorar igual los puntos obtenidos en ambas pruebas puede ser un error de apreciación".

En efecto: Las desviaciones típicas indican que los resultados de la prueba B se hallan más agrupados que los de la A. En esas condiciones, "cuatro puntos sobre la media" en la prueba B puede indicar mayor aptitud para el trabajo B, frente a los demás aspirantes, de lo que indican "cinco puntos sobre la media" en la prueba para el trabajo A. Saldremos de dudas calculando e interpretando las puntuaciones típicas del aspirante en ambas pruebas. Son

471 , 1 4 , 3 28 33    A Z 1,905 1 , 2 24 28    B Z

Esto significa que su calificación en la prueba A se halla "1,471 desviaciones" sobre la medía y, en la prueba B, "1,905 desviaciones” sobre la media.

Por tanto, está más cualificado para ocupar un puesto de trabajo tipo B que un puesto tipo A, si lo comparamos con el resto de los aspirantes.

(21)

ESTADÍSTICA DESCRIPTIVA III

Distribuciones Bidimensionales.

1.- Variables Estadísticas Bidimensionales.

Las variables estadísticas bidimensionales se representan por el par (X, Y) donde, X es una variable unidimensional, e Y es otra variable unidimensional. Y por lo tanto la variable estadística bidimensional (X, Y) toma los valores (X1,Y1), (X2, Y2), …. (Xn, Yn).

Si representamos estos pares de valores en un sistema de ejes cartesianos, se obtiene un conjunto de puntos sobre un plano al que se llama diagrama de dispersión o nube de puntos. Ejemplo.

Tablas bidimensionales de frecuencias.

Existen dos tipos de tablas:

Tablas simples conjunta en la que cada una de las variables y su correspondiente

frecuencia, se disponen en columnas del siguiente modo: X (matemáticas) Y (física) fi (nº de alumnos) 3 2 4 4 5 6 5 5 12 6 6 4 6 7 5 7 6 4 7 7 2 8 9 1 10 10 2

(22)

Tablas de doble entrada en las que se dispone la variable X en fila, en la parte superior, y la variable Y en columna a la izquierda. Posterior mente se añaden las frecuencias en el cuerpo de la tabla. Todo ello de la siguiente forma:

X Y 3 4 5 6 7 8 10 2 4 5 6 12 6 4 4 7 5 2 9 1 10 2

Como se puede observar, las tablas simples se pueden transformar en tablas de doble entrada, y viceversa. Esto es importante saberlo hacer, porque en los cálculos posteriores necesitaremos ambas formas de tablas.

Antes de continuar aprenderemos a sacar lo que se denomina “distribuciones marginales” de

X e Y. Su cálculo es muy sencillo, partiendo de la tabla de doble entrada se añade una fila y una

columna y se va sumando el cuerpo principal de la tabla por filas y columnas. La nueva columna es la distribución marginal de Y, y la nueva fila es la distribución marginal de X.

X Y 3 4 5 6 7 8 10 ∑ fy 2 4 4 5 6 12 18 6 4 4 8 7 5 2 7 9 1 1 10 2 2 x ∑ f 4 6 12 9 6 1 2 40

Distribución marginal de X Distribución marginal de Y Y fi 2 4 5 18 6 8 7 7 9 1 10 2 40 X fi 3 4 4 6 5 12 6 9 7 6 8 1 10 2 40

(23)

Cálculo de parámetros

Tanto con la variable X, como con la variable Y, se pueden realizar todos los cálculos, las representaciones gráficas y sacar las conclusiones que hemos visto en los dos temas anteriores. Hay que tener en cuenta, que muchas veces es importante estudiar cada una de las variables de forma independiente, para conocer su comportamiento individual y luego poder interpretar mejor el comportamiento conjunto.

El primer parámetro conjunto que vamos a ver es la covarianza, que viene a ser la varianza conjunta de las variables X e Y. La vamos a definir como la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.

La covarianza viene representada por

σ

xyó Sxy, y su cálculo lo realizaremos mediante la formula:

Más adelante veremos el significado de la varianza, así como su interpretación según su signo. Para su cálculo matemático es preciso partir de la tabla simple conjunta, confeccionando todas las columnas necesarias, como a continuación se muestra:

Sí en el estudio estadístico no se nos exige el cálculo de modas, medianas, percentíles, etc., todos los datos y los parámetros que necesitamos (medias, varianzas y desviaciones típicas) lo podemos obtener de la tabla anterior. Pero si no es el caso, debemos calcular las distribuciones marginales y operar con ellas.

Concepto de correlación

Se llama correlación a la teoría que trata de estudiar “la relación o dependencia” que existe entre las dos variables que intervienen en una distribución bidimensional.

i i i xy

x y f

x y

N

  

(24)

La correlación es lineal o curvilínea según el diagrama de dispersión se concentre en torno a una línea recta o curva.

La correlación es positiva o directa cuando a medida que crece una variable la otra también crece, o viceversa.

La correlación es negativa o inversa cuando a medida que crece una variable la otra decrece, o viceversa.

La correlación es nula cuando no existe ninguna relación entre ambas variables, y se dice que están incorrelacionadas.

La correlación es de tipo funcional si existe una función que satisface todos los valores de la distribución.

(25)

Coeficiente de correlación lineal

Una vez observado, mediante un diagrama de dispersión, que existe una correlación entre las variables hay que demostrarlo de forma más precisa y objetiva.

Nosotros sólo vamos a estudiar la correlación de tipo lineal. Y el procedimiento más frecuente es el coeficiente de correlación de Pearson, que se define mediante la siguiente expresión:

El signo de

r

viene dado por el signo de la covarianza, ya que las desviaciones típicas son siempre positivas. Así pues, el signo de la covarianza nos indica el comportamiento de la correlación:

Si la covarianza es positiva la correlación es directa. Si la covarianza es negativa la correlación es inversa. Si la covarianza es nula existe incorrelación.

Está demostrado que el coeficiente de correlación lineal de Pearson es un número real comprendido entre

-1

y

+ 1

. Veamos a continuación el tipo de dependencia entre las variables X e Y según el valor de

r:

Si

r

=

+1

o

r

=

- 1

, todos los valores están sobre la recta y en consecuencia se dice que existe una dependencia funcional directa o inversa, respectivamente.

Si

-1

<

r

<

0

, la correlación es negativa y será tanto más fuerte cuanto más se aproxime a

-1

. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos a considerar que las variables están altamente relacionadas a partir del

-0,80

.

Si

r

=

0

las variables están incorrelacionadas y por lo son aleatoriamente independientes. Si

0 <

r

< +1

, la correlación es positiva y será tanto más fuerte cuanto más se aproxime

a

+1

. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos a considerar que las variables están altamente relacionadas a partir del

+0,80

.

xy x y

r

·

 

(26)

Estudio analítico de la regresión lineal

Si entre dos variables existe una fuerte correlación, el diagrama de dispersión se concentrará en torno a una recta. Entonces el problema consiste en encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.

Existen varios métodos, siendo el más utilizado el denominado mínimos cuadrados. Consiste en hacer mínima la suma de los cuadrados de la diferencia entre los valores observados experimentalmente y los teóricos que se obtengan de la recta.

De la aplicación de este método se deduce que:

La recta de regresión de

y

sobre

x

es

La recta de regresión de

x

sobre

y

es

Una vez obtenidas las rectas de regresión, o solo una de ellas según haga falta para el estudio, seguiremos operando hasta lograr una expresión del tipo:

y ax  b

O

x ay  b

Estas rectas nos permiten predecir el comportamiento de las variables y con ello podemos sacar conclusiones respecto al futuro. Es conveniente representarlas sobre el diagrama de dispersión para comprobar la bondad del ajuste y que no hemos cometido algún error.

No hay que olvidar dos cosas:

Sólo realizaremos el estudio de regresión si existe una alta relación entre las variables, que nosotros hemos establecido en a partir del + 0’80.

No se puede extrapolar a lo loco y fuera de los límites estudiados, pues nada nos garantiza que la serie estadística se siga comportando igual más allá del campo estudiado.

2

(

)

 

xy

x

y

y

x

x

2

(

)

 

xy

y

x

x

y

y

Referencias

Documento similar

En Estadística podemos representar los datos por medio de un gráfico estadístico, que es un resumen visual de la tabla de frecuencias y su objetivo es informar de manera clara

Hi: La frecuencia relativa es la proporción de cada frecuencia absoluta, es decir, el número de veces que se produce ese resultado (frecuencia absoluta) dividido por el número total

Indica, para cada caso, cuáles son los individuos, cuál la población, cuál la variable y de qué tipo es:.. Número de veces al año que ha usado su tarjeta sanitaria

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

La heterogeneidad clínica de esta patolo- gía hizo que se considerasen a numerosos genes de pro- teínas de la matriz extracelular (elastina, fibronectina, genes de los colágenos de

A lo largo de este capítulo hemos visto diferen- tes tablas para el cálculo del riesgo cardiovascular global de nuestros pacientes, etapa fundamental a la hora de intentar reducir

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en