Tema 1: Estadística Descriptiva.

(1)

Tema 1: Estad´ıstica Descriptiva.

Definición 1 Población es cualquier conjunto de datos, objetivo de nuestro interés que caracteriza un fenómeno que nos interesa.

Definición 2 Muestra es un subconjunto de una población determinada. Interesan aquellas muestras que representan fielmente a la población.

En ocasiones se utilizan las palabras poblaci´on y muestra para representar los objetos que se someten a medici´on.

Definición 3 La Estad´ıstica Descriptiva es la rama de la Estad´ıstica dedicada a la recogida, recopi-lación y reducción de unos datos a unas pocas medidas descriptivas y gráficos, permitiendo conocer las caracter´ısticas existentes en la población o conjunto de datos.

Definición 4 La Inferencia Estad´ıstica tiene por objeto obtener conocimientos sobre ciertas pobla-ciones a partir de las observapobla-ciones relativas a una muestra. Su instrumento matemático es el Cálculo de Probabilidades.

1 Variables estad´ısticas.

Se va a trabajar con conjuntos de datos asociados al carácter o caracter´ıstica objeto de estudio, que denominaremos variable estad´ıstica y se representará por una letra mayúscula: X, Y, Z,. . . A partir de ahora nos referiremos a los conjuntos de datos como variables.

Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estad´ısticas apropiadas.

1.1 Tipos de variables.

Las variables estad´ısticas pueden ser de dos tipos:

1. Variables cualitativas o atributos: describen cualidades y no toman valores numéricos. Ejem-plos: Provincias españolas, pa´ıses de la U. E., nivel de estudios, meses del año, clasificar una pieza como aceptable o defectuosa, . . .

2. Variables cuantitativas: toman valores num´ericos. A su vez pueden ser:

(2)

• Discretas: Sólo toman un número finito o infinito numerable de valores distintos (gene-ralmente números naturales o enteros). Ejemplos: número de compras de un producto en un mes, el año de fabricación de un veh´ıculo, número de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, número de hijos,. . .

• Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telefónicas, el tiempo de servicio o de operación de una máquina, etc. Una caracter´ıstica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida.

Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie temporal, y su an´alisis requiere otras t´ecnicas especiales, que tengan en cuenta que el orden de los datos influye.

A los distintos resultados que pueden presentar las variables estad´ısticas los denominaremos modalidades. Ejemplo: Si la caracter´ıstica es el gusto, puede presentar cuatro modalidades: dulce, amargo, salado y ´acido. Si es el sexo: hombre y mujer.

1.2 Presentaci´

on de datos.

La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracter´ısticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentación t´ıpica de hoja de cáculo)

Ejemplo:

edad especialidad sexo

Individuo 1 21 Estructuras mujer

Individuo 2 19 Construcci´on de Maqu. hombre Individuo 3 19 Construcci´on de Maqu. hombre

Individuo 4 18 Estructuras mujer

Individuo 5 20 Construcci´on de Maqu. hombre ..

. ... ... ...

Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la primera columna.

Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la poblaci´on.

Ejemplo: Edades de 25 individuos encuestados:

12 17 16 23 39 32 23 23 36 23 23 15 16 24 17 24 11 34 37 24 17 39 19 31 16

(3)

1.3 Agrupaci´

on en clases.

En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se agrupan en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una muestra con una estatura entre 1_.70 y 1_.80, que anotar exactamente la estatura de todos.

No obstante, siempre se producirá una pérdida de información al agrupar los datos en intervalos, y dado que el uso de ordenadores y programas de cálculo suelen ser corriente, se suelen tratar los datos sin agrupar salvo para algunos resúmenes gráficos, cuando el número de valores distintos que toma una variable discreta sea grande, o cuando ésta sea continua.

La primera cuestión que se nos plantea es elegir el número de clases y la longitud de cada clase. Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al número de clases, en general, se recomienda utilizar entre 5 y 20 ó 25 clases, de forma que ninguna contenga menos de 5 datos.

Existen distintos criterios, para determinar un número adecuado de clases, todos ellos en función del número de datos. Nosotros utilizaremos para obtener una aproximación al número de clases _k a utilizar o bien la fórmula de Sturges donde _k es el entero más próximo a 1 +10₃ log₁₀_N siendo _N el número de datos o individuos o bien _k el entero más próximo a √_{N .}

En general, el número de clases debe ser suficientemente grande para que no se pierda excesiva información, pero no tanto que se pierda la simplicidad de la representación.

Las clases o intervalos en que se agrupen los datos deben cumplir:

• Ser disjuntas: un dato no puede estar en dos clases a la vez.

• Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable.

• Estar ordenadas de menor a mayor.

En general, la forma de las clases que utilizaremos ser´a: (_L₀_{, L}₁]_, (_L₁_{, L}₂]_{, . . .}(_L_k₋₁_{, L}_k] Elementos asociados a las clases o intervalos:

• L´ımites: _L_i₋₁_{, L}_i (l´ımite inferior y l´ımite superior, respectivamente).

• Amplitud de la clase: _b_i =_L_i−_L_i₋₁_.

• Marca de la clase: _c_i = Li+₂Li−1

Observaci´on 1 La marca de clase se considera el valor representativo de todos los valores de su intervalo. Por ello, deben elegirse los intervalos de forma que la marca s´ı sea un valor representativo. Puede ocurrir que la marca de clase tenga m´as cifras decimales que los datos (es decir, que no corresponda a un valor realmente observable) y lo mismo puede ocurrir con los l´ımites de clase.

A veces, el primer y ´ultimo intervalo, tienen respectivamente, el extremo inferior y superior indeterminados, con objeto de incluir observaciones poco frecuentes.

Ejemplo de agrupación en clases: distancia de frenado en metros, en automóviles conducidos so-bre una pista húmeda (mismo automóvil y velocidad en todos los casos).

(4)

35.8 30.5 35.9 41.6 35.9 39.2 41.9 38.6 39.2 37.3 35.3 37.3 35.6 38.0 36.7 40.1 36.1 37.0 39.5 38.3 Agrupaci´on en clases: Clases _No de datos (30,32] 1 (32,34] 0 (34,36] 5 (36,38] 6 (38,40] 5 (40,42] 3

En este caso el n´umero de clases es 5, los l´ımites son 30, 32, 34, 36, 38, 40 y 42; la amplitud es en todas las clases 2.4 y las marcas son, respectivamente: 31, 33, 35, 37, 39 y 41.

Observación 2 Una agrupación más razonable que la equiespaciada que hemos dado, para estos datos, ser´ıa agrupar en las clases: (30_,36]_,(36_,38]_, (38_,40]_,(40_,42] ya que se tendr´ıa un reparto más uniforme del número de datos en cada intervalo.

2 Distribuciones univariantes.

A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable estad´ıstica, que denominaremos_X. (Se corresponder´a a tratar con una de las columnas de la matriz de datos ya vista).

Definici´on 5 Elementos que utilizaremos para resumir la informaci´on que ofrecen nuestros datos:

• Se denomina frecuencia total al n´umero total de individuos observados o n´umero total de datos, N.

• Se denomina frecuencia absoluta de la modalidad _M_i (valor _x_i o intervalo _I_i), al n´umero de individuos o n´umero de datos que presentan esta modalidad, _n_i,.

• Se denomina frecuencia relativa de la modalidad_M_i (valor_x_i o intervalo_I_i), al cociente_f_i = ni

N.

Si la variable considerada es cuantitativa, se pueden definir adem´as:

• Se denomina frecuencia absoluta acumulada hasta la modalidad_M_i, (valor_x_i o intervalo _I_i) al n´umero de individuos o n´umero de datos, _N_i, que presentan una modalidad menor o igual que ´

esta; se define como _N_i =_n₁+_n₂+· · ·+_n_i =i_j₌₁_n_j.

• Se denomina frecuencia relativa acumulada hasta la modalidad _M_i, (valor _x_i o intervalo _I_i) al cociente: _F_i = Ni

N o Fi =f1+f2 +· · ·+fi =

_i

(5)

Definici´on 6 Se dice que se ha dado la distribuci´on de frecuencias (absolutas, relativas, absolu-tas acumuladas o relativas acumuladas) de la variable estad´ıstica X si se dan las distinabsolu-tas mo-dalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumu-ladas o relativas acumuacumu-ladas, respectivamente) de cada modalidad. En ese caso, hablaremos de datos agrupados por frecuencias.

La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa) y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas (estas dos ´ultimas cuando tengan sentido).

Mi ni fi Ni Fi M1 n1 f1 N1 F1 M2 n2 f2 N2 F2 .. . ... ... ... ... Mk nk fk Nk =N Fk = 1

Propiedades 1 Propiedades de las tablas:

- k i=1ni =N - k i=1fi = 1 - _N_k =_N. - _F_k= 1

- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como por-centajes (tantos por ciento) de la siguiente forma:

. _f_i100% es el tanto por ciento de datos o individuos que est´an en la modalidad _M_i.

. _F_i100%es el tanto por ciento de datos o individuos que est´an en las modalidades_M₁_{, M}₂_{, . . . M}_i.

Tablas para datos agrupados:

Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias tienen la forma: (_L_i₋₁−_L_i] _c_i _n_i _f_i _N_i _F_i (_L₀_{, L}₁] _c₁ _n₁ _f₁ _N₁ _F₁ (_L₁_{, L}₂] _c₂ _n₂ _f₂ _N₂ _F₂ .. . ... ... ... ... (_L_k₋₁_{, L}_k] _c_k _n_k _f_k _N_k _F_k En el ejemplo anterior:

(6)

(_L_i₋₁−_L_i] _c_i _n_i _f_i _N_i _F_i (30_,32] 31 1 0_.05 1 0_.05 (32_,34] 33 0 0_.00 1 0_.05 (34_,36] 35 5 0_.25 6 0_.30 (36_,38] 37 6 0_.30 12 0_.60 (38_,40] 39 5 0_.25 17 0_.85 (40_,42] 41 3 0_.15 20 1_.00 Ejemplo 2:

N´umero de unidades de ordenador vendidas en los 12 ´ultimos meses: (_L_i₋₁−_L_i] _c_i _n_i _f_i _N_i _F_i (10_,15] 12_.5 3 0_.25 3 0_.25 (15_,20] 17_.5 6 0_.50 9 0_.75 (20_,30] 25_.0 3 0_.25 12 1_.00

Se observa c´omo en este caso, la marca de clase puede no ser un valor posible de la variable, pero conserva su significado de valor representativo de todos los datos del intervalo.

Observaci´on 3 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para evitar ambig¨uedades:

. Indicar la unidad de medida de cada variable.

. Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretaci´on es de falta de informaci´on sobre la frecuencia del valor).

. Escribir todos los datos con igual n´umero de decimales.

3 Representaci´

on gr´

afica de variables estad´ısticas

unidimen-sionales.

La representación gráfica de una distribución de frecuencias va a depender del tipo de variable considerada.

3.1 Representaci´

on gr´

afica de variables cualitativas y de variables

cuan-titativas con pocos valores distintos.

Para ilustrar las principales representaciones gr´aficas, vamos a utilizar los datos del tipo de veh´ıculos:

TIPO frecuencias deportivo 14 furgoneta 9 gran turismo 11 monovolumen 16 peque˜no 21 tama˜no medio 11

(7)

• Diagrama de barras.

Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura se toma proporcional a la frecuencia absoluta o relativa (según cual estemos representando), obteniendo rectángulos con áreas proporcionales a las frecuencias que se quieran representar.

• Diagrama de Pareto.

Es un diagrama de rectángulos en el que los rectángulos se presentan en orden decreciente de altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde las alturas de los rectángulos a menudo representan frecuencias de problemas en el proceso de producción. Como los rectángulos están dispuestos en orden decreciente por altura, resulta fácil identificar las áreas con el mayor número de problemas.

• Diagrama de sectores.

Esta representación consiste en dividir un c´ırculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendrá un área proporcional a la frecuencia absoluta (o relativa).

(8)

3.2 Representaci´

on gr´

afica de variables cuantitativas que toman muchos

valores distintos.

• Histograma.

Es la representación gráfica más frecuente y se realiza a partir de una grupación de los datos en intervalos. Consiste en un conjunto de rectángulos construidos de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los l´ımites de las clases sobre la escala.

- Como eje vertical, tiene una escala de alturas.

Sobre cada clase se eleva un rect´angulo tal que su ´area _A_i = base·altura = (_L_i −_L_i₋₁)_h_i sea proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, _λn_i; entonces, despejando tenemos que la altura es _h_i = λni

Li−Li−1.

Ejemplo:

En el ejemplo de la distancia de frenado:

Ejemplo:

(9)

Si la distribuci´on de la variable es:

(_L_i₋₁−_L_i] _c_i _n_i (1_.5_,3_.5] 2_.5 3 (3_.5_,6_.5] 5 4

un histograma correcto tendr´ıa un primer rectángulo de altura 3₂_λ y un segundo rectángulo de altura 4₃_λ, dónde _λ es un número real positivo cualquiera. Por ejemplo, para _λ = 6, el histograma ser´ıa:

1.5 3.5 6.5 8

9

• Pol´ıgono de frecuencias acumuladas. Se construye de la siguiente forma:

-Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre ´el se marcan los l´ımites de las clases.

- La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas).

En este plano, partiendo desde el punto sobre el eje OX que corresponde al l´ımite inferior del primer intervalo, se sitúan los pares formados por el l´ımite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una gráfica creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gráfica se conoce como ojiva de frecuencias.

(10)

• Diagrama de tallo-hojas. (Stem and leaf)

Se trata de un procedimiento semi-gr´afico de presentar la informaci´on de variables cuantitativas, ´

util cuando el número de datos es pequeño (menor que 50), aunque con los ordenadores es posible utilizarlo con más datos.

Los pasos para su construcci´on son:

1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas y ordenarlos de menor a mayor.

2. Colocarlos en una tabla con dos columnas separadas por una l´ınea como sigue:

- Para los datos con dos d´ıgitos, escribir a la izquierda de la l´ınea los d´ıgitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas).

- Para datos con tres d´ıgitos, el tallo estar´a formado por las centeneas y decenas, escritos a la izquierda, y las hojas ser´an las unidades.

3. Cada tallo define una clase y se escribe una s´ola vez; el n´umero de hojas representa la frecuencia de la clase correspondiente al tallo.

Ejemplo:

Para el ejemplo de la distancia de frenado, el diagrama de tallo-hojas ser´ıa:

1 30 5 1 31 1 32 1 33 1 34 6 35 3 6 8 9 9 8 36 1 7 (3) 37 0 3 3 9 38 0 3 6 6 39 2 2 5 3 40 1 2 41 6 9

Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente. Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posici´on central; en este tallo, el valor aparece entre par´entesis e indica solo la frecuencia de ese tallo.

Observación 4 Para facilitar la construcción del diagrama, para una cantidad numerosa de datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado” anotando los tallos y las hojas sin ordenar de mayor a menor, y a partir de esta primera aproximación, construir el diagrama.

A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5, las 6 y 7 y, por ´ultimo, las 8 y 9; por ejemplo:

(11)

1 5 2 1 5 6 14 6 0 0 0 0 0 0 4 4 4 4 4 4 (8) 6 8 8 8 8 8 8 8 8 20 7 2 2 2 2 2 2 2 2 12 7 6 6 6 6 6 7 8 0 0 4 4 3 8 8 8 1 9 2

4 Medidas caracter´ısticas de una distribuci´

on

unidimensio-nal.

Vamos a definir en esta sección algunos valores numéricos que proporcionan información sobre cómo se distribuye un conjunto de datos homogéneo. Estas medidas además, permiten comparar distribu-ciones y en la tercera parte de la asignatura nos serán de utilidad para obtener conclusiones sobre la población cuando se trabaja con una muestra.

4.1 Medidas de posici´

on o localizaci´

on.

Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central.

1. Medidas de tendencia central.

Vamos a estudiar tres: media aritm´etica, mediana y moda.

• Media o media aritm´etica.

Definici´on 7 Si _x₁_{, . . . , x}_N son los datos directos de la variable, se define la media como:

¯ x= N i=1 xi N

Observaci´on 5 Si los datos vienen dados por medio de una tabla de frecuencias:

xi ni fi x1 n1 f1 x2 n2 f2 .. . ... ... xk nk fk entonces ¯ x= k i=1 xini N = k i=1xifi

(12)

Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y nega-tivas de los datos directos respecto a su valor: N

1(xi −x¯) = 0. En ese sentido, se la

puede considerar como centro de gravedad o centro geom´etrico de los datos. (b) Utiliza toda la informaci´on contenida en los datos (pues utiliza todos los datos).

• Mediana.

Definici´on 8 Llamaremos mediana y la denotaremos por _M_e al valor num´erico que ve-rifica que ordenados los datos de menor a mayor, el 50% son menores o iguales que este valor y el 50% son mayores o iguales.

C´alculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de menor a mayor; denotaremos por _x₍_i₎ el dato que ocupa el lugar i-´esimo una vez ordenados los datos de esta forma.

Si el n´umero de datos, _N, es par, el valor mediana es x(N/2)+x₂((N/2)+1), mientras que si el n´umero de datos es impar, el valor mediana es _x₍₍_N₊₁₎_/₂₎, supuestos los datos ordenados de menor a mayor.

• Moda.

Definici´on 9 La moda, se define como el valor o los valores m´as frecuentes de la variable, es decir, a los que corresponde la mayor frecuencia.

Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda; en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene porqué coincidir con la clase de mayor frecuencia).

Comparaci´on entre las medidas de tendencia central

Como ya hemos señalado al definirla, la media es una medida que utiliza toda la información disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues sólo tiene en cuenta la posición y no el valor.

Por esa misma raz´on, la media es muy sensible a valores extremos. Por ello, un error en los datos puede modificarla por completo.

Ejemplo:

Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo.

Si los datos correctos hubiesen sido 10, 15, 21, 20, la media ser´ıa 16.5. Sin embargo, la mediana queda menos afectada por ese dato extremo: en el primer caso ser´ıa 18 y en el segundo, 17.5. Observación 6 A veces, el conjunto de datos está dividido en subgrupos, por ejemplo, los indi-viduos de una clase divididos en hombres y mujeres, y se conoce la media de una caracter´ıstica en cada subgrupo. A partir de esta información se puede obtener la media del conjunto total de datos: si _x¯₁_,_x¯₂_{, . . . ,}_x¯_s son las medias en s subgrupos (disjuntos) con _n₁_{, n}₂_{, . . . , n}_s individuos cada uno, la media total será:

¯

x= n1x¯1+n2x¯2 +. . .+nsx¯s n1 +n2+. . .+ns

(13)

2. Otras medidas de posici´on: Percentiles.

Definici´on 10 Para cada valor_p∈(0_,1), se denomina p-percentil y se denota por _q_p, al valor de la variable que divide a la distribuci´on de frecuencias en dos partes, de forma que al menos el 100_p% de los datos son menores o iguales que _q_p.

C´alculo de los percentiles:

qp = ⎧ ⎪ ⎨ ⎪ ⎩ x([pN]+1) si pN no es entero x(pN)+x(pN+1) 2 si pN es entero

Definici´on 11 Se denominan cuartiles a los percentiles que dividen a la distribuci´on en 4 partes iguales, es decir,

- el 0.25-percentil, llamado primer cuartil, y denotado por _Q₁. - el 0.5-percentil, que es la mediana.

- el 0.75-percentil, llamado tercer cuartil, y denotado por _Q₃.

Definici´on 12 Se denominan deciles a los percentiles que dividen a la distribuci´on en 10 partes iguales. Se denotan por _d₁_{, d}₂_{, . . . , d}₉, siendo _d_i el ₁₀i -percentil, _i= 1_,2_,· · ·_,9_.

Observaci´on 7 A veces solo disponemos de la informacin de los datos agrupados en clases y no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando como valor _q_p el valor del eje X en el que el pol´ıgono de frecuencias relativas acumuladas tiene por altura p: Si _F₁_{, F}₂_{, . . . , F}_k son las frecuencias relativas acumuladas de las clases en que se agrupan los datos, existe _i ∈ {1_,2_{, . . . k}} con _F_i₋₁ ≤ _{p < F}_i. ( Se considera _F₀ = 0). El p-percentil ser´a:

qp =Li−1+ p−Fi−1 fi bi

4.2 Medidas de dispersi´

on.

Estas medidas indican lo próximos o alejados que están los datos, bien entre s´ı, o respecto a alguna medida de centralización.

• Rango o recorrido.

Definici´on 13 Si _x₍₁₎_{, x}₍₂₎_{, . . . , x}₍_k₎ son los datos, ordenados de menor a mayor, se denomina recorrido a _x₍_k₎−_x₍₁₎, es decir, a la diferencia entre el mayor y el menor dato.

El recorrido es fácil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en control de calidad. Además tiene idénticas unidades que la variable. Sin embargo, presenta el inconveniente de ser una medida muy sensible a valores extremos.

(14)

• Varianza.

Definici´on 14 Se define la varianza de los datos directos _x₁_{, x}₂_{, . . . , x}_N, y se denota por _s2, al valor: s2 = N i=1 (_x_i−_x¯)2 N = ( 1 N N i=1x 2 i)−x¯2

Observaci´on 8 Si los datos vienen dados por medio de una tabla de frecuencias, entonces

s2 = k i=1 (_x_i−_x¯)2_n_i N = k i=1 (_x_i−_x¯)2_f_i

La varianza tiene en cuenta todos los datos, es f´acil de calcular, pero no tiene las mismas unidades que la variable; este inconveniente se salva considerando su ra´ız cuadrada, que se denomina desviaci´on t´ıpica.

Observaci´on 9 Por razones que veremos m´as adelante, en muchos casos se utiliza otra me-dida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades que la varianza. Se define la cuasivarianza de los datos directos _x₁_{, x}₂_{, . . . , x}_N, y se denota por

s2_c al valor: s2_c = N i=1 (_x_i−_x¯)2 N−1

Notar que _{N s}2 = (_N−1)_s2_c, y que si N es grande, la diferencia entre ambas medidas (varianza y cuasivarianza) es peque˜na.

Observaci´on 10 En muchos programas de software estad´ıstico, se llama varianza a la cuasi-varianza (entre ellos el programa de Statgraphics).

• Desviaci´on t´ıpica.

Definición 15 Se define la desviación t´ıpica o estándar de los datos directos _x₁_{, x}₂_{, . . . , x}_N, y se denota por _s, al valor:

s = N i=1 (_x_i−_x¯)2 N

Observaci´on 11 Si los datos vienen dados por medio de una tabla de frecuencias, entonces

s = k i=1 (_x_i−_x¯)2_n_i N = k i=1 (_x_i−_x¯)2_f_i Observación 12 Se define también la cuasidesviación t´ıpica como:

sc = N i=1 (_x_i−_x¯)2 N −1

(15)

La desviación estándar se expresa en las mismas unidades que la variable, dando una idea más precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.

Teorema 1 Desigualdad de Chebychev.

Sea X una variable estad´ıstica y _k∈IR con _k ≥1. Entonces, en el intervalo [¯_x−_ks,_x¯+_ks] se halla m´as del (1−_k12)100% de las observaciones.

(Expres´andolo de otra forma: la frecuencia relativa del intervalo [¯_x−_ks,_x¯+_ks] es mayor que

(1− _k1₂).) Demostraci´on:

Vamos a denotar por _f_r la frecuencia relativa de un conjunto de datos y por _x₁_{, x}₂_{, . . . , x}_N los valores directos de la variable X.

Sean_A₁ ={_x_i :|_x_i−_x¯|_{> ks}}y_A₂ ={_x_i :|_x_i−_x¯| ≤_ks}. A partir de la definici´on de varianza, se obtienen las siguientes desigualdades:

s2 = N i=1 (_x_i−_x¯)2 N = xi∈A1 (_x_i−_x¯)2 N + xi∈A2 (_x_i−_x¯)2 N ≥ ≥ xi∈A1 (_x_i−_x¯)2 N > xi∈A1 (_ks)2 N = (ks) 2_f r(A1) Despejando, _f_r(_A₁)_< _k12. Como fr(A1) +fr(A2) = 1, se tiene que

fr(A2) =fr({xi :|xi−x¯| ≤ks})>1− 1

k2

y teniendo en cuenta la interpretaci´on de la frecuencia relativa como tanto por ciento, se obtiene el resultado.

Observaci´on 13 Tomando _k = 2 en el intervalo [¯_x−2_s,_x¯+ 2_s] se encuentra como m´ınimo el 75% de los datos.

Tomando _k= 3 en el intervalo [¯_x−3_s,_x¯+ 3_s] se encuentra como m´ınimo el 89% de los datos.

• Rango intercuart´ılico.

Definici´on 16 Se define el rango intercuart´ılico, y se denota por IQR, a:

IQR=_Q₃−_Q₁_.

El rango intercuart´ılico es una medida de dispersión utilizada en relación con la mediana e indica la dispersión del 50% central de los datos.

(16)

4.3 Medidas de posici´

on y de variaci´

on utilizadas para comparar

con-juntos de datos

• Valores o puntuaciones z

Los valores z indican la posici´on relativa de un dato, respecto del conjunto. Definici´on 17 Se define el valor z del dato _x_i como el valor xi−x¯

s .

Nos indica cu´antas desviaciones t´ıpicas se aleja el dato respecto del valor de la media.

• Coeficiente de variaci´on.

Definici´on 18 Para datos todos positivos o todos negativos, se define el coeficiente de variaci´on de Pearson de la variable estad´ıstica X como:

CV = s

|_x¯|.

Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relación al tamaño de su media ( no es lo mismo una variabilidad de 200 euros en ganacias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede interpretar el _CV como el promedio del error de medida.

4.4 Otras caracter´ısticas observables de una distribuci´

on de datos

1. Asimetr´ıa.

Diremos que una distribución es simétrica si al considerar la representación gráfica de la distribución de frecuencias y trazar una perpendicular al eje de abcisas por ¯_xocurre lo siguiente: Hay el mismo número de valores a ambos lados de la perpendicular, equidistantes de ¯_x dos a dos y tales que cada par de valores equidistantes a ¯_x tienen la misma frecuencia. En este caso, la mediana coincide con ¯_x.

Las medidas de asimetr´ıa existentes son válidas para las denominadas distribuciones con forma de campana (campaniformes): Distribuciones unimodales simétricas o con ligera asimetr´ıa; y para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las más usuales. Cuando la distribución de los datos es campaniforme, las distribuciones asimétricas se clasifican en distribuciones asimétricas con cola a la derecha y distribuciones asimétricas con cola a la izquierda; el valor de ¯_x−_Me proporciona información del tipo de asimetr´ıa:

(17)

2. Apuntamiento o curtosis.

Llamamos curtosis o apuntamiento el grado de concentración de los datos alrededor de la media. Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesa-rio definir previamente una distribución “tipo”, que vamos a tomar como modelo de referencia. Esta distribución va a ser la llamada distribución normal, que corresponde a fenómenos muy corrientes en la naturaleza y cuya representación gráfica es una campana de Gauss, dada por la fórmula:

f(_x) = 1 σ√2_πe

−1 2(x−σ2µ)2_,

donde _µy _σ son respectivamente la media y la desviaci´on t´ıpica.

A esta distribuci´on se le llama normal porque se presenta en numerosos casos, e implica que la mayor´ıa de los valores de la variable est´an cerca de la media, y aquellos que se encuentran muy distanciados de ella, a ambos lados son poco numerosos.

Tomando esta distribución como referencia diremos que una distribución puede ser más apun-tada que la normal, es decir, leptocúrtica o menos apuntada, es decir, platicúrtica. A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica

platicúrtica mesocúrtica leptocúrtica

En definitiva, aqu´ı lo que se estudia es la deformaci´on, en sentido vertical, respecto de la normal, de una distribuci´on.

5 Diagramas de caja o “Box-Plot”.

Este tipo de diagramas son una representación semigráfica de la distribución, que permite observar las caracter´ısticas principales de la distribución y detectar posibles valores at´ıpicos. Son especialmente ´

utiles para comparar la distribución de una variable en distintas poblaciones. Se ha pospuesto su estudio hasta ahora pues para su construcción son necesarias algunas de las medidas caracter´ısticas de la distribución, definidas en el apartado anterior.

Construcci´on del Box-Plot

Los pasos para su construcci´on son:

1. Ordenar los datos de menor a mayor y obtener los cuartiles _Q₁,_Q₂ y_Q₃. Se obtienen tambi´en otros dos valores, llamados l´ımite inferior (LI) y l´ımite superior (LS), dados por:

LI =_Q₁ −1_.5_IQR LS=_Q₃+ 1_.5_IQR

(18)

2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento [_Q₁_{, Q}₃] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana, mediante una l´ınea vertical que divida al rectángulo.

4. Desde el centro de los lados verticales del rect´angulo se dibujan sendas l´ıneas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos m´as extremos del intervalo (LI,LS)).

5. Los datos que queden fuera del intervalo [_{LI, LS}] se marcan con un punto o un asterisco, a la altura de las dos l´ıneas dibujadas. Se denominan datos at´ıpicos y se clasifican en próximos y lejanos, según estén en [_Q₁ −3_{IQR, Q}₃+ 3_IQR] o aún más alejados.

Ejemplo:

Para los datos de la distancia de frenado, los cinco valores son: _Q₁ = 35_,9,_Q₃ = 39_,2,_M_e = 37_,3, LI = 30_,95 y_LS = 44_,15 y el gr´afico:

Observación 14 El Box-Plot permite ver fácilmente caracter´ısticas como asimetr´ıa, apuntamiento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables por datos at´ıpicos, proporciona en general una imagen adecuada de la distribución.

Tambi´en permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos.

Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto de veh´ıculos subdivididos en cuanto al tipo de veh´ıculo. Es fácil observar en el gráfico, por ejemplo, que las furgonetas son las que presentan menor variabilidad y los de tamaño pequeño son los de mayor variación.

(19)

6 Datos at´ıpicos

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños. Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayor´ıa de las puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de individuos con estaturas normales. También en ocasiones, aparecen como consecuencia de haber registrado de forma incorrecta un dato. Existen varios métodos para detectar los datos at´ıpicos; indicaremos dos:

• La proporcionada por el diagrama de caja: considerar como at´ıpicos todos los datos fuera del intervalo [LI,LS]. En el ejemplo de la distancia de frenado, ser´ıa el dato 30,5.

• El criterio de 3_s: considerar como at´ıpico todo dato que se aleje más de 3_s de la media de los datos ( recordar que según la desigualdad de Chebysev, al menos el 88_.89% de los datos está en el intervalo [¯_x−3_s,_x¯+ 3_s]). En el ejemplo de la distancia de frenado, con este criterio no existir´ıan datos at´ıpicos.

7 Transformaciones.

El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos lo más simples y manejables posible.

En otras ocasiones, como los principales métodos estad´ısticos son aplicables sólo a distribuciones simétricas, nos interesará transformar unos datos asimétricos en otros que no lo sean tanto.

Vamos a distinguir entre dos tipos de transformaciones: Transformaciones lineales:

Son del tipo Y=aX+b, con_{a, b}∈IR; _a= 0, es decir, traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posición y dispersión, pero no var´ıan la forma de la distribución: si x1, . . . , xN son los datos directos de la variable X, sus transformados serán los datos y1, . . . , yN, con

yi =axi+b. Propiedades 3 1. _y¯=_a_x¯+_b. En efecto: ¯ y= N i=1 yi N = N i=1 axi+b N = =_a N i=1 xi N +b=ax¯+b 2. _s2_Y =_a2_s2_X En efecto: s2_Y = N i=1 (_y_i−_y¯)2 N = N i=1 (_ax_i+_b−(_a_x¯+_b))2 N = =_a2 N i=1 (_x_i−_x¯)2 N =a 2_s2 X

(20)

3. _s_Y =|_a|_s_X

4. _M_e(_Y) =_aM_e(_X) +_b

En efecto, si _{a >}0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si _{a <} 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado.

5. _Moda(_Y) =_aModa(_X) +_b

6. Si _{a >} 0 entonces _Q₁(_Y) = _aQ₁(_X) +_b y _Q₃(_Y) = _aQ₃(_X) +_b. Si _{a <} 0 entonces _Q₁(_Y) = aQ3(X) +b yQ3(Y) = aQ1(X) +b.

(Se razona de igual forma que en la propiedad anterior).

7. _IQR(_Y) =|_a|_IQR(_X).

Transformaciones no lineales

Las transformaciones no lineales más usuales son: _Y =_X2,_Y =√_X,_Y = ln_X e_Y = _X1. Produ-cen, además de cambios en la posición y dispersión, cambios en la forma. Se utilizan principalmente para promover simetr´ıa.