ESTADÍSTICA DESCRIPTIVA

(1)

Rosana Álvarez García [email protected]

ESTADÍSTICA DESCRIPTIVA

Lo primero que buscamos con la Estadística es el tratamiento matemático a partir de una información experimental. Cuando queremos observar la evolución de una enfermedad ante una determinada tratamiento, lo primero, es tratar de reducir la información hasta hacerla manejable. Ante la imposibilidad de trabajar con toda la población, extraemos muestras de la misma, que sean representativas. Cuando hablamos de población nos referimos a todos los elementos que pueden ser objetos del estudio realizado, mientras que si hablamos de muestra nos estamos refiriendo a una parte de esa población, a un subconjunto de la misma.

Otra característica de la Estadística es la medición por la observación de las características de personas u objetos, así como la adjudicación de números a esas características que nos faciliten posteriores comparaciones. Las características que varían de individuo a individuo se conocen con el nombre de variables y se clasifican en tres grandes grupos, según el nivel de medición de las mismas:

Cualitativas.- Indican cualidades.

Nominal.- Es el nivel más simple, que permite clasificar los individuos u objetos en clases o categorías meramente descriptivas.

Ordinal.- Es el nivel inmediatamente superior, además de clasificar ordena la característica que se quiere medir.

Intervalo.- Además de clasificar y ordenar, las variables, las agrupa en categorías. También podemos realiza una clasificación de las variables en:

Cuantitativas.- Indican medición y pueden ser: Continuas. Toman cualquier valor de R. Discretas. Sólo toman valores enteros.

Al tomar una muestra aleatoria en una población, lo primero es el conteo, indicar cuántos individuos presentan las mismas características. De modo que obtendremos:

Frecuencia absoluta.- Número de veces que aparece una determinada característica o variable en

esa muestra. Se representa por ni.

Frecuencia relativa.- Cada frecuencia absoluta dividida entre el tamaño muestral. Nos facilita la comparación entre distintas poblaciones, al estar trabajando en tantos por uno.

Frecuencia absoluta acumulada.- Suma de las diferentes frecuencias absolutas. Se representa por Ni Se verifica Σ Ni = N

(2)

Rosana Álvarez García [email protected]

REPRESENTACIONES GRÁFICAS

Son otro instrumento para reducir la información original obtenida en el estudio de distintas muestras, de modo que pueda obtenerse una idea rápida de los resultados obtenidos en el estudio. Este método permite establecer diferencias entre las distintas características a simple vista aunque conlleva una pérdida de información.

Según el tipo de muestra, hay distintos tipos de representaciones gráficas:

• Para una variable no agrupada:

• Pictograma.- Se realiza un dibujo que representa a la variable, cuyo área coincide con la frecuencia absoluta

Diagrama de barras.- Representamos en el eje X los valores de la variable y en el eje Y las frecuencias absolutas o relativas con que aparecen.

0 50 100 1 e r 3 e r Este Oeste Norte

Polígono de frecuencias.- Se construye uniendo los extremos de las distintas barras del diagrama anterior. 0 50 100 1 e r tr im . 3 e r tr im . Este Oeste Norte

Diagrama de sectores.- Ahora la variable la representamos en un círculo siendo la frecuencia de

cada variable el ángulo que forma, y que viene dado por la fórmula α= 360.fi

1er trim. 2do trim. 3er trim. 1e r trim . 2do trim . 3e r

Hasta ahora hemos trabajado con variables estadísticas unidimensionales no agrupadas en intervalos, cuando por la cantidad de valores que toma la variable decidimos agruparla en intervalos a pesar de la pérdida de información que este conlleva, las representaciones gráficas también sufren variaciones. Así:

(3)

Rosana Álvarez García [email protected]

Histograma de frecuencias.- En el eje X representamos los intervalos de la variable, y en el eje Y la frecuencia absoluta o relativa.

ni

Polígono de frecuencias.- Es igual que en variables no agrupadas, sólo que al trabajar con intervalos, para unir las diferentes barras, debemos calcular la marca de clase, punto medio de cada intervalo. Al unir las diferentes marcas de clase se pierde área de frecuencia, y para recuperarlo unimos la marca de clase del primer intervalo con la marca de clase de un intervalo a la izquierda de igual amplitud que el primero. Con el último intervalo haremos lo mismo.

Para dos variables sin agrupar:

Diagrama de barras.- Trabajamos en el espacio y por tanto con los tres ejes X, Y, Z. En los ejes X e Y colocamos los valores de las variables en estudio y en el eje Z las frecuencias de cada par (x,y).

1e 2d 3e 4t 0 50 100 1e 2d 3e 4t Este Oeste Norte

En estos casos también debemos considerar el que las variables estén o no agrupadas lo que supone un cambio en el tipo de representación más compleja al trabajar en el espacio tridimensional.

MEDIDAS DE ESTUDIO

Para facilitar el estudio de las distintas muestras hay una serie de parámetros que se agrupan en dos grandes grupos:

Medidas de tendencia central.- Son estadísticos, medidas que de forma más precisa nos dan información sobre el valor central de la variable hacia el que tiende la distribución. Entre las más importantes tenemos:

(4)

Rosana Álvarez García [email protected]

A) Media aritmética.- Nos informa sobre la concentración del número de casos.

N n x x ₌ ∑ i⋅ i

B) Mediana.- Es el valor de la variable que divide a la distribución en dos partes iguales. Para su cálculo hay que ordenar los valores de la variable de menor a mayor. Si todas las variables tienen la misma frecuencia y el número de datos es impar será el valor central. Si el número de variables es par tomaremos los dos valores centrales y los dividimos entre dos. También debemos distinguir entre variables no agrupadas y agrupadas, de modo que:

sin agrupar.- Calculamos N/2 y el valor obtenido lo buscamos en la frecuencia acumulada absoluta, siendo la mediana el valor de la variable con esa o mayor que esa frecuencia acumulada.

agrupadas..- para Volvemos a calcular N/2, encontrar el intervalo que contiene a la mediana, y aplicamos la fórmula:

i 1 i i i n N 2 N a l Me= + ⋅ − −

C) Moda.- Es el valor de la variable que más se repite. Si aparecen varios datos con la misma frecuencia máxima, hablaremos de distribución multimodal. También debemos diferenciar entre muestras con datos agrupados y sin agrupar:

sin agrupar.- buscamos la variable con mayor frecuencia.

agrupadas.- buscamos el intervalo con mayor frecuencia y aplicamos la fórmula Mo = 2 1 1 i i d d d a l + ⋅ + d1= ni - ni-1 d2= ni - ni+1

Nota: cuando los intervalos tienen distinta amplitud, debemos hacer un cambio de variable y trabajar igual pero con la nueva variable: hi= ni/ai

Medidas de posición:

Cuartiles, deciles y percentiles.-Lo cuartiles dividen a la distribución en cuatro partes iguales, los deciles en diez y los percentiles en cien. Para su cálculo como siempre hay que diferenciar entre variables agrupadas y sin agrupar.

Cuartiles para buscar el valor de la variable o el intervalo que contiene ese cuartil calculamos a.N/4 siendo a=1,2,3,4, los distintos cuartiles. La fórmula para los intervalos es prácticamente igual que la de la mediana exceptuando el término que nos indica el cuartil:

i 1 i i i c n N 4 N c a l Q = + ⋅ ⋅ − −

(5)

Rosana Álvarez García [email protected]

Para los deciles y percentiles lo mismo, sólo que ahora tendremos los términos d.N/10 y p.N/100, respectivamente. i 1 i i i d n N 10 N d a l D = + ⋅ ⋅ − − i 1 i i i p n N 100 N d a l P = + ⋅ ⋅ − −

La media es la medida más representativa, a no ser que los datos estén más o menos agrupados y haya alguno/os muy alejados del resto, en cuyo caso será la mediana la medida más representativa, junto con los cuartiles deciles y percentiles. Lo mismo ocurre si tenemos intervalos y alguno de ellos no está perfectamente acotado. En estos casos la media y todo lo relacionado con la media no es representativo.

Cuando en un problema nos mandan describir la variable en estudio debemos recordar que hay una serie de valores que calculan lo mismo y por tanto van a tomar el mismo valor, así si calculamos la mediana, también habremos calculado el cuartil dos, el decil cinco y el percentil cincuenta.

Me = Q2 = D5 = P50

• Medidas de dispersión.- Nos muestran la dispersión delos datos obtenidos en el estudio

estadístico, es decir si están todos más o menos agrupados o próximos a un valor. Entre los más utilizados tenemos:

Rango o recorrido.- Es la diferencia de los valores extremos que toma la variable.

Recorrido intercuartílico.- Es la diferencia entre el cuartil tres y el cuartil uno.

Recorrido semiintercuartílico.- Es el recorrido intercuartílico dividido entre dos.

Desviación típica.- es la más importante de las medidas de dispersión, y nos indica la mayor o menor proximidad o uniformidad de los datos respecto a la media. Es la raíz cuadrada de la varianza.

La varianza tiene como fórmula:

(

)

i 2 2 i 2 i 2 x x N n x N x x S =∑ − = ∑ ⋅ −

Coeficiente de variación.- Se utiliza para comparar los resultados obtenidos en dos muestras distintas y conocer cuál es mejor teniendo en cuenta la muestra a partir de la cual se obtiene. Se calcula por la fórmula:

C.V =

x Sx

Medidas de forma.- Nos indican como son las curvas que representan la muestra en estudio

(simétricas o asimétricas). Entre estos parámetros destacan:

A) Asimetría.- Nos indican el carácter más o menos simétrico de las distribuciones en estudio. Entre las más utilizadas tenemos:

Medida de Pearson.- Se basa en las medidas de tendencia central y se calcula por la fórmula: x S Mo x−      > = < derecha la a asimétrica 0 simétrica 0 izquierda la a asimétrica 0

(6)

Rosana Álvarez García [email protected]

Coeficiente de asimetría de Fisher.- Calcula el promedio en los individuos de la diferencia en cada valor de la variable. Viene dado por la fórmula:

(

)

3 x i i S N n x x ∑ ₋ _⋅      >>>> = <<<< derecha la a asimétrica 0 simétrica 0 izquierda la a asimétrica 0

B) Simetría.- Kurtosis Intenta medir la uniformidad de la densidad de individuos, o bien el apuntamiento de la distribución, tomando como referencia la distribución normal. Se calcula:

(

)

3 S N n x x 4 x i 4 i − ∑ − ⋅      > = < ca leptocúrti 0 a mesocúrtic 0 ca platicúrti 0

Todos estos parámetros se utilizan para variables cuantitativas.

C) Momentos.- Los momentos se calculan para conocer la posición de una determinada variable ya sea respecto al origen o a la media. No suelen utilizarse ya que su cálculo es muy laborioso. Los veremos más adelante al trabajar con variables estadísticas bidimensionales.

ESTADÍSTICA

BIDIMENSIONAL

Cuando estudiamos dos variables conjuntamente, hablamos de estadística descriptiva de datos bidimensionales. El motivo del estudio de datos bidimensionales, que provienen del estudio simultáneo de dos características, de los individuos de una muestra, es que la consideración de estos datos permite por un lado obtener al menos tanta información como el estudio separado de ambas variables, y además examinar relaciones de dependencia estadística o funcional entre ambas.

Variable estadística bidimensional.- Es una magnitud, cuyos valores no necesariamente numéricos,

son los pares (xi,yj) donde xi , es un único valor de la característica X, e yj, es un único valor de la característica

Y.

Dato bidimensional.- Cada par (a1, b1), correspondiente a la observación de una variable

estadística bidimensional sobre un mismo individuo, es decir, a sería el valor de la variable estadística unidimensional X en ese individuo, y b la variable estadística unidimensional Y en ese mismo individuo.

Frecuencia de un valor bidimensional.- La forma más sencilla de describir el conjunto de datos bidimensionales proporcionados por una muestra de individuos es a través del estudio de las frecuencias de los valores de la medida unidimensional.

Si consideramos una muestra de tamaño n extraída de la población y suponemos que se observa una v.e.b (x, y), sobre los individuos de esta muestra, distinguiremos entre:

• Frecuencia absoluta del valor (a, b).- número de individuos de la muestra, para los que X toma el

(7)

Rosana Álvarez García [email protected]

• Frecuencia relativa del valor (a, b).- es la frecuencia absoluta dividida entre el número total de individuos. La notación utilizada es fij=nij/N.

Características de la frecuencia absoluta y relativa: ∑_n_ij_{= N , y,}∑_f_ij_{= 1}

La frecuencia absoluta está entre 1 y N, mientras que la relativa está entre o y uno.

A la sucesión de todos los posibles valores de una variable bidimensional, con sus frecuencias

correspondientes se le llama distribución bidimensional, bivariante, o conjunta de frecuencias de la variable

(X, Y).

Las dos tablas de frecuencias, expresiones tabulares de la distribución de frecuencias, más utilizadas son:

⊗Tabla de doble entrada.- se usa cuando aparecen muchos datos bidimensionales repetidos.

Y1 Y2 Y3 yn

X1 n11 n12 n13 n1n

X2 n21 n22 n13 n1n

X3 n31 n32 n34 n3n

xn nn1 nn2 nn3 nnn

⊗ Tabla de datos apareados.- se utiliza cuando aparecen datos bidimensionales no repetidos o muy poco repetidos.

X x1 x2 x3 xn

y y1 y2 y3 yn

Distribuciones marginales.- Corresponden a las distribuciones de cada una de las variables

estadísticas unidimensionales estudiadas separadamente. Llamaremos frecuencia absoluta marginal de xi de X, al

número de individuos de la muestra para los que X toma el valor xi. La notación utilizada es ni. , de modo que:

∑_n_i._{= n}_i1_{+ n}_i2_{+ n}_i3_{+ ... + n}_ik₌∑_n_ij_{= N}

Llamamos frecuencia marginal del valor yj de Y, al número de individuos de la muestra, para los que Y

toma el valor yj. La notación empleada es n.j, y como antes:

∑_n_.j_{= n}_1j_{+ n}_2j_{+ n}_3j_{+ ... + n}_nj₌∑_n_ij_{= N}

Las distribuciones marginales relativas, son las absolutas divididas por el número total de individuos de la muestra.

Distribuciones condicionadas.- Llamaremos frecuencias (relativas), condicionadas del valor xi a la

proporción de individuos de la muestra para los que X=xi de entre los individuos para los que Y=yj . La notación

utilizada es:

(8)

Rosana Álvarez García [email protected]

Independencia estadística entre dos v.e.b..- Sea (x,y) una v.e.b, suponiendo conocida la distribución bivariante de frecuencias de todos los pares (x,y)., así como las distribuciones condicionadas. Diremos que la variable x es independiente de la variable y, si para todo valor xi de X se verifica que la

frecuencia de ese valor no depende del valor que haya tomado Y, es decir si para todo valor de xi:

∀xi, se verifica: N n n nij i j ⋅ =

Momentos .- Son parámetros que describen la distribución de dos variables bidimensionales, aunque su cálculo es bastante pesado siendo su utilización escasa. Dentro de los momentos más utilizados, tenemos dos

grandes grupos: • respecto al origen, trabajamos con ambas variables estudiando su posición conjunta

respecto al origen. Se calculan por la fórmula:

N n y x a ij z j w i wz ∑ ∑ _⋅ _⋅ =

Los momentos más característicos son el momento de orden 10, que se corresponde con la media

de X, el de orden 01 que coincide con la media de Y.

• respecto a la media, nos indica las posiciones de cada par de valores de la variable respecto a la media. La fórmula que nos permite su cálculo es:

(

)

(

)

N n y y x x m ij z j w i wz ∑ ∑ ₋ _⋅ ₋ _⋅ =

Los momentos respecto a la media más característicos son, el momento de orden 20 que coincide con la varianza de X, el momento de orden 02 que coincide con la varianza de Y, y el momento de orden 11 que coincide con el valor de la covarianza::

y x N n . y x S_xy =

∑ ∑

i.⋅ j⋅ ij − ⋅

RECTA DE REGRESIÓN

La regresión entre dos variables estadísticas X e Y, trata de buscar la relación de cierto tipo prefijado, lineal, exponencial o potencial, que mejor se ajuste o bien que mejor “exprese” Y respecto a X. La correlación sirve de complemento de la regresión indicándonos hasta que punto la mejor relación encontrada en la regresión describe bien la verdadera relación entre las dos variables.

En la práctica, el tipo de relación funcional que se estudia, viene dado como modelo de experimentos anteriores similares al considerado.

Vamos a ver los distintos tipos de regresión:

∗ Lineal: sea (X;Y), una variable estadística bidimensional, con distribución de frecuencias

conjunta fij, en una muestra dada. Vamos a buscar la relación lineal y = ax + b que “más se ajusta a la nube de

puntos que resulta de la representación de los datos:

Para deducir las ecuaciones de regresión, se utilizó el criterio de los mínimos cuadrados, basado en

aceptar en el error cometido para cada par (xi , yj), al considerar como válida la relación lineal y = ax + b . Este

error puede medirse midiendo el valor absoluto de la diferencia: y = yj – |(axi + b)|

esta diferencia es el residuo que se comete con cada valor de la variable y cambia de unos datos a

otros, dependiendo su mayor o menor proximidad a la recta. En principio sería imposible encontrar un valor a y b

(9)

Rosana Álvarez García [email protected]

usar una medida representativa de ese error en toda la muestra. El criterio de mínimos cuadrados consiste en

minimizar la media de esos errores al cuadrado, lo que gráficamente equivale a buscar los valores a y b que hagan

mínima la media de las distancias al cuadrado de los puntos del diagrama de dispersión respecto a la recta. Cuando estas medidas se miden verticalmente, por este método deducimos la ecuación de la recta de X sobre Y, (X/Y):

(

x x

)

S S y y ₂ x xy − ⋅ = −

Cuando estas distancias se miden horizontalmente se deduce la recta de X sobre Y, (X/Y).

(

y y

)

S S x x ₂ y xy − ⋅ = −

La pendiente de las rectas de regresión se conocen con el nombre de coeficientes de regresión.

Para saber si las rectas calculadas son buenas o malas calculamos el coeficiente de correlación de Pearson : y x xy S S S r ⋅ =

Su valor está comprendido entre -1 y 1, de modo que cuanto más cerca estemos de los extremos mejor será la relación estudiada, mientras que cuanto más cerca estemos de cero peor será la relación obtenida, y por tanto los resultados obtenidos a partir de ella no tendrán validez.

También se puede utilizar el coeficiente de determinación, R2_{, comprendido entre 0 y 1 . Es igual al}

producto de las pendientes de ambas rectas de regresión. La variación no explicada por la variación lineal será:

S2x = (y − y’)2 + r2. S2y’

Esta fórmula equivale a decir: la varianza total de Y, es igual a la varianza debida a que la variable Y no es lineal, más la varianza explicada por la relación lineal.

∗∗∗∗ Tipo no lineal.- En la regresión no lineal, no podremos calcular el coeficiente de correlación antes que la función como ocurría en la regresión lineal.

Vamos a ver dos tipos fundamentales de regresión no lineal, que por diferentes cambios podemos transformar en lineales:

A) Exponenciales.- Son funciones de la forma:

y = a . ebx

.Para transformarla en una relación lineal tomamos logaritmos neperianos en ambos términos, de modo que:

Lny = Lna + Lnebx Lny = Lna + bx y’ = a’ + bx

De todos los pares (X,Y) que teníamos, ahora pasamos a tener pares (X,Y’), transformando la variable Y en LnY, de modo que ya podemos calcular una recta de regresión, y tras deshacer los cambios, obtendremos la relación exponencial que buscamos.

B) Potenciales o alométricas.- Son funciones de la forma:

y = a . xb.

Se corresponde con parábolas , sinusoidales,....Para conseguir una recta, volvemos a tomar logaritmos neperianos en ambos términos, de modo que:

0 20 40 60 80 1 00 0 2 4 6 Es t e O e s t e No r t e y

(10)

Rosana Álvarez García [email protected]

Lny = Lna + Lnxb

Lny = Lna + b.Lnx y’ = a’ + b.x’

Ahora de los valores (X,Y), pasamos a los valores (X’,Y’), obteniendo la relación lineal indicada, que al deshacer los cambios utilizados nos da la relación funcional buscada..

La medida del grado de bondad de una relación óptima respecto a otra relación óptima de otro tipo diferente, debe realizarse mediante un coeficiente que cuantifique lo mismo en ambos casos. para comparar dos

relaciones distintas y de diferente tipo, es más adecuado utilizar el coeficiente de bondad de ajuste, en lugar del

coeficiente de correlación de Pearson. Este coeficiente de bondad de ajuste Z2, viene dado por:

1 − Z2 = ∑∑_{( y}_j₋_G(x_i_{) )}2_{. f} ij / Sy2

En particular cuando G(x), es una relación lineal, z2 = r2. En la práctica es frecuente que z2, esté próximo al valor que tomaría el coeficiente de relación de los datos transformados en una relación no lineal.

1 − z2 =

[

₂

]

y i S ) x ( G y−

Aquí G(X), es la mejor relación de tipo no lineal. El valor de Z, al igual que el coeficiente de

correlación de Pearson, está comprendido entre [-1 , 1].

Otro coeficiente de correlación utilizado, es el correlación por rangos de Spearman, que se usa cuando una de las variables no es ordinal, al menos una de ellas es cualitativa. El rango de una puntuación, es la posición que ocupa en la muestra ordenada de menor a mayor. Cuando las puntuaciones se repiten se les asigna el rango medio.