• No se han encontrado resultados

Tema 1: Estadística Descriptiva.

N/A
N/A
Protected

Academic year: 2021

Share "Tema 1: Estadística Descriptiva."

Copied!
20
0
0

Texto completo

(1)

Tema 1: Estad´ıstica Descriptiva.

Definici´on 1 Poblaci´on es cualquier conjunto de datos, objetivo de nuestro inter´es que caracteriza un fen´omeno que nos interesa.

Definici´on 2 Muestra es un subconjunto de una poblaci´on determinada. Interesan aquellas muestras que representan fielmente a la poblaci´on.

En ocasiones se utilizan las palabras poblaci´on y muestra para representar los objetos que se someten a medici´on.

Definici´on 3 La Estad´ıstica Descriptiva es la rama de la Estad´ıstica dedicada a la recogida, recopi-laci´on y reducci´on de unos datos a unas pocas medidas descriptivas y gr´aficos, permitiendo conocer las caracter´ısticas existentes en la poblaci´on o conjunto de datos.

Definici´on 4 La Inferencia Estad´ıstica tiene por objeto obtener conocimientos sobre ciertas pobla-ciones a partir de las observapobla-ciones relativas a una muestra. Su instrumento matem´atico es el C´alculo de Probabilidades.

1

Variables estad´ısticas.

Se va a trabajar con conjuntos de datos asociados al car´acter o caracter´ıstica objeto de estudio, que denominaremos variable estad´ıstica y se representar´a por una letra may´uscula: X, Y, Z,. . . A partir de ahora nos referiremos a los conjuntos de datos como variables.

Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estad´ısticas apropiadas.

1.1

Tipos de variables.

Las variables estad´ısticas pueden ser de dos tipos:

1. Variables cualitativas o atributos: describen cualidades y no toman valores num´ericos. Ejem-plos: Provincias espa˜nolas, pa´ıses de la U. E., nivel de estudios, meses del a˜no, clasificar una pieza como aceptable o defectuosa, . . .

2. Variables cuantitativas: toman valores num´ericos. A su vez pueden ser:

(2)

Discretas: S´olo toman un n´umero finito o infinito numerable de valores distintos (gene-ralmente n´umeros naturales o enteros). Ejemplos: n´umero de compras de un producto en un mes, el a˜no de fabricaci´on de un veh´ıculo, n´umero de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, n´umero de hijos,. . .

Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telef´onicas, el tiempo de servicio o de operaci´on de una m´aquina, etc. Una caracter´ıstica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisi´on del instrumento de medida.

Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie temporal, y su an´alisis requiere otras t´ecnicas especiales, que tengan en cuenta que el orden de los datos influye.

A los distintos resultados que pueden presentar las variables estad´ısticas los denominaremos modalidades. Ejemplo: Si la caracter´ıstica es el gusto, puede presentar cuatro modalidades: dulce, amargo, salado y ´acido. Si es el sexo: hombre y mujer.

1.2

Presentaci´

on de datos.

La forma m´as elemental de presentar los datos es por medio de una matriz en la que aparecen en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracter´ısticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentaci´on t´ıpica de hoja de c´aculo)

Ejemplo:

edad especialidad sexo

Individuo 1 21 Estructuras mujer

Individuo 2 19 Construcci´on de Maqu. hombre Individuo 3 19 Construcci´on de Maqu. hombre

Individuo 4 18 Estructuras mujer

Individuo 5 20 Construcci´on de Maqu. hombre ..

. ... ... ...

Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la primera columna.

Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la poblaci´on.

Ejemplo: Edades de 25 individuos encuestados:

12 17 16 23 39 32 23 23 36 23 23 15 16 24 17 24 11 34 37 24 17 39 19 31 16

(3)

1.3

Agrupaci´

on en clases.

En ocasiones, y con objeto de facilitar la toma o presentaci´on de datos cuantitativos, estos se agrupan en intervalos o clases. Por ejemplo, es m´as sencillo anotar cu´antos individuos hay en una muestra con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos.

No obstante, siempre se producir´a una p´erdida de informaci´on al agrupar los datos en intervalos, y dado que el uso de ordenadores y programas de c´alculo suelen ser corriente, se suelen tratar los datos sin agrupar salvo para algunos res´umenes gr´aficos, cuando el n´umero de valores distintos que toma una variable discreta sea grande, o cuando ´esta sea continua.

La primera cuesti´on que se nos plantea es elegir el n´umero de clases y la longitud de cada clase. Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al n´umero de clases, en general, se recomienda utilizar entre 5 y 20 ´o 25 clases, de forma que ninguna contenga menos de 5 datos.

Existen distintos criterios, para determinar un n´umero adecuado de clases, todos ellos en funci´on del n´umero de datos. Nosotros utilizaremos para obtener una aproximaci´on al n´umero de clases k a utilizar o bien la f´ormula de Sturges donde k es el entero m´as pr´oximo a 1 +103 log10N siendo N el n´umero de datos o individuos o bien k el entero m´as pr´oximo a N .

En general, el n´umero de clases debe ser suficientemente grande para que no se pierda excesiva informaci´on, pero no tanto que se pierda la simplicidad de la representaci´on.

Las clases o intervalos en que se agrupen los datos deben cumplir:

Ser disjuntas: un dato no puede estar en dos clases a la vez.

Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable.

Estar ordenadas de menor a mayor.

En general, la forma de las clases que utilizaremos ser´a: (L0, L1], (L1, L2], . . .(Lk1, Lk] Elementos asociados a las clases o intervalos:

L´ımites: Li1, Li (l´ımite inferior y l´ımite superior, respectivamente).

Amplitud de la clase: bi =LiLi1.

Marca de la clase: ci = Li+2Li−1

Observaci´on 1 La marca de clase se considera el valor representativo de todos los valores de su intervalo. Por ello, deben elegirse los intervalos de forma que la marca s´ı sea un valor representativo. Puede ocurrir que la marca de clase tenga m´as cifras decimales que los datos (es decir, que no corresponda a un valor realmente observable) y lo mismo puede ocurrir con los l´ımites de clase.

A veces, el primer y ´ultimo intervalo, tienen respectivamente, el extremo inferior y superior indeterminados, con objeto de incluir observaciones poco frecuentes.

Ejemplo de agrupaci´on en clases: distancia de frenado en metros, en autom´oviles conducidos so-bre una pista h´umeda (mismo autom´ovil y velocidad en todos los casos).

(4)

35.8 30.5 35.9 41.6 35.9 39.2 41.9 38.6 39.2 37.3 35.3 37.3 35.6 38.0 36.7 40.1 36.1 37.0 39.5 38.3 Agrupaci´on en clases: Clases No de datos (30,32] 1 (32,34] 0 (34,36] 5 (36,38] 6 (38,40] 5 (40,42] 3

En este caso el n´umero de clases es 5, los l´ımites son 30, 32, 34, 36, 38, 40 y 42; la amplitud es en todas las clases 2.4 y las marcas son, respectivamente: 31, 33, 35, 37, 39 y 41.

Observaci´on 2 Una agrupaci´on m´as razonable que la equiespaciada que hemos dado, para estos datos, ser´ıa agrupar en las clases: (30,36],(36,38], (38,40],(40,42] ya que se tendr´ıa un reparto m´as uniforme del n´umero de datos en cada intervalo.

2

Distribuciones univariantes.

A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable estad´ıstica, que denominaremosX. (Se corresponder´a a tratar con una de las columnas de la matriz de datos ya vista).

Definici´on 5 Elementos que utilizaremos para resumir la informaci´on que ofrecen nuestros datos:

Se denomina frecuencia total al n´umero total de individuos observados o n´umero total de datos, N.

Se denomina frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii), al n´umero de individuos o n´umero de datos que presentan esta modalidad, ni,.

Se denomina frecuencia relativa de la modalidadMi (valorxi o intervaloIi), al cocientefi = ni

N.

Si la variable considerada es cuantitativa, se pueden definir adem´as:

Se denomina frecuencia absoluta acumulada hasta la modalidadMi, (valorxi o intervalo Ii) al n´umero de individuos o n´umero de datos, Ni, que presentan una modalidad menor o igual que ´

esta; se define como Ni =n1+n2+· · ·+ni =ij=1nj.

Se denomina frecuencia relativa acumulada hasta la modalidad Mi, (valor xi o intervalo Ii) al cociente: Fi = Ni

N o Fi =f1+f2 +· · ·+fi =

i

(5)

Definici´on 6 Se dice que se ha dado la distribuci´on de frecuencias (absolutas, relativas, absolu-tas acumuladas o relativas acumuladas) de la variable estad´ıstica X si se dan las distinabsolu-tas mo-dalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumu-ladas o relativas acumuacumu-ladas, respectivamente) de cada modalidad. En ese caso, hablaremos de datos agrupados por frecuencias.

La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa) y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas (estas dos ´ultimas cuando tengan sentido).

Mi ni fi Ni Fi M1 n1 f1 N1 F1 M2 n2 f2 N2 F2 .. . ... ... ... ... Mk nk fk Nk =N Fk = 1

Propiedades 1 Propiedades de las tablas:

- k i=1ni =N - k i=1fi = 1 - Nk =N. - Fk= 1

- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como por-centajes (tantos por ciento) de la siguiente forma:

. fi100% es el tanto por ciento de datos o individuos que est´an en la modalidad Mi.

. Fi100%es el tanto por ciento de datos o individuos que est´an en las modalidadesM1, M2, . . . Mi.

Tablas para datos agrupados:

Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias tienen la forma: (Li1Li] ci ni fi Ni Fi (L0, L1] c1 n1 f1 N1 F1 (L1, L2] c2 n2 f2 N2 F2 .. . ... ... ... ... (Lk1, Lk] ck nk fk Nk Fk En el ejemplo anterior:

(6)

(Li1Li] ci ni fi Ni Fi (30,32] 31 1 0.05 1 0.05 (32,34] 33 0 0.00 1 0.05 (34,36] 35 5 0.25 6 0.30 (36,38] 37 6 0.30 12 0.60 (38,40] 39 5 0.25 17 0.85 (40,42] 41 3 0.15 20 1.00 Ejemplo 2:

N´umero de unidades de ordenador vendidas en los 12 ´ultimos meses: (Li1Li] ci ni fi Ni Fi (10,15] 12.5 3 0.25 3 0.25 (15,20] 17.5 6 0.50 9 0.75 (20,30] 25.0 3 0.25 12 1.00

Se observa c´omo en este caso, la marca de clase puede no ser un valor posible de la variable, pero conserva su significado de valor representativo de todos los datos del intervalo.

Observaci´on 3 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para evitar ambig¨uedades:

. Indicar la unidad de medida de cada variable.

. Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretaci´on es de falta de informaci´on sobre la frecuencia del valor).

. Escribir todos los datos con igual n´umero de decimales.

3

Representaci´

on gr´

afica de variables estad´ısticas

unidimen-sionales.

La representaci´on gr´afica de una distribuci´on de frecuencias va a depender del tipo de variable considerada.

3.1

Representaci´

on gr´

afica de variables cualitativas y de variables

cuan-titativas con pocos valores distintos.

Para ilustrar las principales representaciones gr´aficas, vamos a utilizar los datos del tipo de veh´ıculos:

TIPO frecuencias deportivo 14 furgoneta 9 gran turismo 11 monovolumen 16 peque˜no 21 tama˜no medio 11

(7)

Diagrama de barras.

Esta representaci´on gr´afica consiste en construir tantos rect´angulos como modalidades presente la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura se toma proporcional a la frecuencia absoluta o relativa (seg´un cual estemos representando), obteniendo rect´angulos con ´areas proporcionales a las frecuencias que se quieran representar.

Diagrama de Pareto.

Es un diagrama de rect´angulos en el que los rect´angulos se presentan en orden decreciente de altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde las alturas de los rect´angulos a menudo representan frecuencias de problemas en el proceso de producci´on. Como los rect´angulos est´an dispuestos en orden decreciente por altura, resulta f´acil identificar las ´areas con el mayor n´umero de problemas.

Diagrama de sectores.

Esta representaci´on consiste en dividir un c´ırculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendr´a un ´area proporcional a la frecuencia absoluta (o relativa).

(8)

3.2

Representaci´

on gr´

afica de variables cuantitativas que toman muchos

valores distintos.

Histograma.

Es la representaci´on gr´afica m´as frecuente y se realiza a partir de una grupaci´on de los datos en intervalos. Consiste en un conjunto de rect´angulos construidos de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los l´ımites de las clases sobre la escala.

- Como eje vertical, tiene una escala de alturas.

Sobre cada clase se eleva un rect´angulo tal que su ´area Ai = base·altura = (Li Li1)hi sea proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, λni; entonces, despejando tenemos que la altura es hi = λni

Li−Li−1.

Ejemplo:

En el ejemplo de la distancia de frenado:

Ejemplo:

(9)

Si la distribuci´on de la variable es:

(Li1Li] ci ni (1.5,3.5] 2.5 3 (3.5,6.5] 5 4

un histograma correcto tendr´ıa un primer rect´angulo de altura 32λ y un segundo rect´angulo de altura 43λ, d´onde λ es un n´umero real positivo cualquiera. Por ejemplo, para λ = 6, el histograma ser´ıa:

1.5 3.5 6.5 8

9

Pol´ıgono de frecuencias acumuladas. Se construye de la siguiente forma:

-Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre ´el se marcan los l´ımites de las clases.

- La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas).

En este plano, partiendo desde el punto sobre el eje OX que corresponde al l´ımite inferior del primer intervalo, se sit´uan los pares formados por el l´ımite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una gr´afica creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gr´afica se conoce como ojiva de frecuencias.

(10)

Diagrama de tallo-hojas. (Stem and leaf)

Se trata de un procedimiento semi-gr´afico de presentar la informaci´on de variables cuantitativas, ´

util cuando el n´umero de datos es peque˜no (menor que 50), aunque con los ordenadores es posible utilizarlo con m´as datos.

Los pasos para su construcci´on son:

1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas y ordenarlos de menor a mayor.

2. Colocarlos en una tabla con dos columnas separadas por una l´ınea como sigue:

- Para los datos con dos d´ıgitos, escribir a la izquierda de la l´ınea los d´ıgitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas).

- Para datos con tres d´ıgitos, el tallo estar´a formado por las centeneas y decenas, escritos a la izquierda, y las hojas ser´an las unidades.

3. Cada tallo define una clase y se escribe una s´ola vez; el n´umero de hojas representa la frecuencia de la clase correspondiente al tallo.

Ejemplo:

Para el ejemplo de la distancia de frenado, el diagrama de tallo-hojas ser´ıa:

1 30 5 1 31 1 32 1 33 1 34 6 35 3 6 8 9 9 8 36 1 7 (3) 37 0 3 3 9 38 0 3 6 6 39 2 2 5 3 40 1 2 41 6 9

Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente. Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posici´on central; en este tallo, el valor aparece entre par´entesis e indica solo la frecuencia de ese tallo.

Observaci´on 4 Para facilitar la construcci´on del diagrama, para una cantidad numerosa de datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado” anotando los tallos y las hojas sin ordenar de mayor a menor, y a partir de esta primera aproximaci´on, construir el diagrama.

A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5, las 6 y 7 y, por ´ultimo, las 8 y 9; por ejemplo:

(11)

1 5 2 1 5 6 14 6 0 0 0 0 0 0 4 4 4 4 4 4 (8) 6 8 8 8 8 8 8 8 8 20 7 2 2 2 2 2 2 2 2 12 7 6 6 6 6 6 7 8 0 0 4 4 3 8 8 8 1 9 2

4

Medidas caracter´ısticas de una distribuci´

on

unidimensio-nal.

Vamos a definir en esta secci´on algunos valores num´ericos que proporcionan informaci´on sobre c´omo se distribuye un conjunto de datos homog´eneo. Estas medidas adem´as, permiten comparar distribu-ciones y en la tercera parte de la asignatura nos ser´an de utilidad para obtener conclusiones sobre la poblaci´on cuando se trabaja con una muestra.

4.1

Medidas de posici´

on o localizaci´

on.

Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central.

1. Medidas de tendencia central.

Vamos a estudiar tres: media aritm´etica, mediana y moda.

Media o media aritm´etica.

Definici´on 7 Si x1, . . . , xN son los datos directos de la variable, se define la media como:

¯ x= N i=1 xi N

Observaci´on 5 Si los datos vienen dados por medio de una tabla de frecuencias:

xi ni fi x1 n1 f1 x2 n2 f2 .. . ... ... xk nk fk entonces ¯ x= k i=1 xini N = k i=1xifi

(12)

Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y nega-tivas de los datos directos respecto a su valor: N

1(xi −x¯) = 0. En ese sentido, se la

puede considerar como centro de gravedad o centro geom´etrico de los datos. (b) Utiliza toda la informaci´on contenida en los datos (pues utiliza todos los datos).

Mediana.

Definici´on 8 Llamaremos mediana y la denotaremos por Me al valor num´erico que ve-rifica que ordenados los datos de menor a mayor, el 50% son menores o iguales que este valor y el 50% son mayores o iguales.

C´alculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de menor a mayor; denotaremos por x(i) el dato que ocupa el lugar i-´esimo una vez ordenados los datos de esta forma.

Si el n´umero de datos, N, es par, el valor mediana es x(N/2)+x2((N/2)+1), mientras que si el n´umero de datos es impar, el valor mediana es x((N+1)/2), supuestos los datos ordenados de menor a mayor.

Moda.

Definici´on 9 La moda, se define como el valor o los valores m´as frecuentes de la variable, es decir, a los que corresponde la mayor frecuencia.

Cuando los datos est´an agrupados por clases, no puede determinarse qu´e valor es la moda; en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene porqu´e coincidir con la clase de mayor frecuencia).

Comparaci´on entre las medidas de tendencia central

Como ya hemos se˜nalado al definirla, la media es una medida que utiliza toda la informaci´on disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues s´olo tiene en cuenta la posici´on y no el valor.

Por esa misma raz´on, la media es muy sensible a valores extremos. Por ello, un error en los datos puede modificarla por completo.

Ejemplo:

Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo.

Si los datos correctos hubiesen sido 10, 15, 21, 20, la media ser´ıa 16.5. Sin embargo, la mediana queda menos afectada por ese dato extremo: en el primer caso ser´ıa 18 y en el segundo, 17.5. Observaci´on 6 A veces, el conjunto de datos est´a dividido en subgrupos, por ejemplo, los indi-viduos de una clase divididos en hombres y mujeres, y se conoce la media de una caracter´ıstica en cada subgrupo. A partir de esta informaci´on se puede obtener la media del conjunto total de datos: si x¯1,x¯2, . . . ,x¯s son las medias en s subgrupos (disjuntos) con n1, n2, . . . , ns individuos cada uno, la media total ser´a:

¯

x= n1x¯1+n2x¯2 +. . .+nsx¯s n1 +n2+. . .+ns

(13)

2. Otras medidas de posici´on: Percentiles.

Definici´on 10 Para cada valorp(0,1), se denomina p-percentil y se denota por qp, al valor de la variable que divide a la distribuci´on de frecuencias en dos partes, de forma que al menos el 100p% de los datos son menores o iguales que qp.

C´alculo de los percentiles:

qp = ⎧ ⎪ ⎨ ⎪ ⎩ x([pN]+1) si pN no es entero x(pN)+x(pN+1) 2 si pN es entero

Definici´on 11 Se denominan cuartiles a los percentiles que dividen a la distribuci´on en 4 partes iguales, es decir,

- el 0.25-percentil, llamado primer cuartil, y denotado por Q1. - el 0.5-percentil, que es la mediana.

- el 0.75-percentil, llamado tercer cuartil, y denotado por Q3.

Definici´on 12 Se denominan deciles a los percentiles que dividen a la distribuci´on en 10 partes iguales. Se denotan por d1, d2, . . . , d9, siendo di el 10i -percentil, i= 1,2,· · ·,9.

Observaci´on 7 A veces solo disponemos de la informacin de los datos agrupados en clases y no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando como valor qp el valor del eje X en el que el pol´ıgono de frecuencias relativas acumuladas tiene por altura p: Si F1, F2, . . . , Fk son las frecuencias relativas acumuladas de las clases en que se agrupan los datos, existe i ∈ {1,2, . . . k} con Fi1 p < Fi. ( Se considera F0 = 0). El p-percentil ser´a:

qp =Li−1+ p−Fi−1 fi bi

4.2

Medidas de dispersi´

on.

Estas medidas indican lo pr´oximos o alejados que est´an los datos, bien entre s´ı, o respecto a alguna medida de centralizaci´on.

Rango o recorrido.

Definici´on 13 Si x(1), x(2), . . . , x(k) son los datos, ordenados de menor a mayor, se denomina recorrido a x(k)x(1), es decir, a la diferencia entre el mayor y el menor dato.

El recorrido es f´acil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en control de calidad. Adem´as tiene id´enticas unidades que la variable. Sin embargo, presenta el inconveniente de ser una medida muy sensible a valores extremos.

(14)

Varianza.

Definici´on 14 Se define la varianza de los datos directos x1, x2, . . . , xN, y se denota por s2, al valor: s2 = N i=1 (xix¯)2 N = ( 1 N N i=1x 2 i)−x¯2

Observaci´on 8 Si los datos vienen dados por medio de una tabla de frecuencias, entonces

s2 = k i=1 (xix¯)2ni N = k i=1 (xix¯)2fi

La varianza tiene en cuenta todos los datos, es f´acil de calcular, pero no tiene las mismas unidades que la variable; este inconveniente se salva considerando su ra´ız cuadrada, que se denomina desviaci´on t´ıpica.

Observaci´on 9 Por razones que veremos m´as adelante, en muchos casos se utiliza otra me-dida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades que la varianza. Se define la cuasivarianza de los datos directos x1, x2, . . . , xN, y se denota por

s2c al valor: s2c = N i=1 (xix¯)2 N−1

Notar que N s2 = (N1)s2c, y que si N es grande, la diferencia entre ambas medidas (varianza y cuasivarianza) es peque˜na.

Observaci´on 10 En muchos programas de software estad´ıstico, se llama varianza a la cuasi-varianza (entre ellos el programa de Statgraphics).

Desviaci´on t´ıpica.

Definici´on 15 Se define la desviaci´on t´ıpica o est´andar de los datos directos x1, x2, . . . , xN, y se denota por s, al valor:

s = N i=1 (xix¯)2 N

Observaci´on 11 Si los datos vienen dados por medio de una tabla de frecuencias, entonces

s = k i=1 (xix¯)2ni N = k i=1 (xix¯)2fi Observaci´on 12 Se define tambi´en la cuasidesviaci´on t´ıpica como:

sc = N i=1 (xix¯)2 N 1

(15)

La desviaci´on est´andar se expresa en las mismas unidades que la variable, dando una idea m´as precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.

Teorema 1 Desigualdad de Chebychev.

Sea X una variable estad´ıstica y k∈IR con k 1. Entonces, en el intervaloxks,x¯+ks] se halla m´as del (1k12)100% de las observaciones.

(Expres´andolo de otra forma: la frecuencia relativa del intervaloxks,x¯+ks] es mayor que

(1 k12).) Demostraci´on:

Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1, x2, . . . , xN los valores directos de la variable X.

SeanA1 ={xi :|xix¯|> ks}yA2 ={xi :|xix¯| ≤ks}. A partir de la definici´on de varianza, se obtienen las siguientes desigualdades:

s2 = N i=1 (xix¯)2 N = xi∈A1 (xix¯)2 N + xi∈A2 (xix¯)2 N xi∈A1 (xix¯)2 N > xi∈A1 (ks)2 N = (ks) 2f r(A1) Despejando, fr(A1)< k12. Como fr(A1) +fr(A2) = 1, se tiene que

fr(A2) =fr({xi :|xi−x¯| ≤ks})>1 1

k2

y teniendo en cuenta la interpretaci´on de la frecuencia relativa como tanto por ciento, se obtiene el resultado.

Observaci´on 13 Tomando k = 2 en el intervalox2s,x¯+ 2s] se encuentra como m´ınimo el 75% de los datos.

Tomando k= 3 en el intervalox3s,x¯+ 3s] se encuentra como m´ınimo el 89% de los datos.

Rango intercuart´ılico.

Definici´on 16 Se define el rango intercuart´ılico, y se denota por IQR, a:

IQR=Q3Q1.

El rango intercuart´ılico es una medida de dispersi´on utilizada en relaci´on con la mediana e indica la dispersi´on del 50% central de los datos.

(16)

4.3

Medidas de posici´

on y de variaci´

on utilizadas para comparar

con-juntos de datos

Valores o puntuaciones z

Los valores z indican la posici´on relativa de un dato, respecto del conjunto. Definici´on 17 Se define el valor z del dato xi como el valor xi−x¯

s .

Nos indica cu´antas desviaciones t´ıpicas se aleja el dato respecto del valor de la media.

Coeficiente de variaci´on.

Definici´on 18 Para datos todos positivos o todos negativos, se define el coeficiente de variaci´on de Pearson de la variable estad´ıstica X como:

CV = s

|x¯|.

Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relaci´on al tama˜no de su media ( no es lo mismo una variabilidad de 200 euros en ganacias del orden de 1000 euros, que en ganancias del orden de 1 mill´on). Por ello, es la medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede interpretar el CV como el promedio del error de medida.

4.4

Otras caracter´ısticas observables de una distribuci´

on de datos

1. Asimetr´ıa.

Diremos que una distribuci´on es sim´etrica si al considerar la representaci´on gr´afica de la distribuci´on de frecuencias y trazar una perpendicular al eje de abcisas por ¯xocurre lo siguiente: Hay el mismo n´umero de valores a ambos lados de la perpendicular, equidistantes de ¯x dos a dos y tales que cada par de valores equidistantes a ¯x tienen la misma frecuencia. En este caso, la mediana coincide con ¯x.

Las medidas de asimetr´ıa existentes son v´alidas para las denominadas distribuciones con forma de campana (campaniformes): Distribuciones unimodales sim´etricas o con ligera asimetr´ıa; y para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las m´as usuales. Cuando la distribuci´on de los datos es campaniforme, las distribuciones asim´etricas se clasifican en distribuciones asim´etricas con cola a la derecha y distribuciones asim´etricas con cola a la izquierda; el valor de ¯xMe proporciona informaci´on del tipo de asimetr´ıa:

(17)

2. Apuntamiento o curtosis.

Llamamos curtosis o apuntamiento el grado de concentraci´on de los datos alrededor de la media. Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesa-rio definir previamente una distribuci´on “tipo”, que vamos a tomar como modelo de referencia. Esta distribuci´on va a ser la llamada distribuci´on normal, que corresponde a fen´omenos muy corrientes en la naturaleza y cuya representaci´on gr´afica es una campana de Gauss, dada por la f´ormula:

f(x) = 1 σ√2πe

1 2(x−σ2µ)2,

donde µy σ son respectivamente la media y la desviaci´on t´ıpica.

A esta distribuci´on se le llama normal porque se presenta en numerosos casos, e implica que la mayor´ıa de los valores de la variable est´an cerca de la media, y aquellos que se encuentran muy distanciados de ella, a ambos lados son poco numerosos.

Tomando esta distribuci´on como referencia diremos que una distribuci´on puede ser m´as apun-tada que la normal, es decir, leptoc´urtica o menos apuntada, es decir, platic´urtica. A la distribuci´on normal, desde el punto de vista de la curtosis, se le llama mesoc´urtica

platic´urtica mesoc´urtica leptoc´urtica

En definitiva, aqu´ı lo que se estudia es la deformaci´on, en sentido vertical, respecto de la normal, de una distribuci´on.

5

Diagramas de caja o “Box-Plot”.

Este tipo de diagramas son una representaci´on semigr´afica de la distribuci´on, que permite observar las caracter´ısticas principales de la distribuci´on y detectar posibles valores at´ıpicos. Son especialmente ´

utiles para comparar la distribuci´on de una variable en distintas poblaciones. Se ha pospuesto su estudio hasta ahora pues para su construcci´on son necesarias algunas de las medidas caracter´ısticas de la distribuci´on, definidas en el apartado anterior.

Construcci´on del Box-Plot

Los pasos para su construcci´on son:

1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1,Q2 yQ3. Se obtienen tambi´en otros dos valores, llamados l´ımite inferior (LI) y l´ımite superior (LS), dados por:

LI =Q1 1.5IQR LS=Q3+ 1.5IQR

(18)

2. A continuaci´on se sit´uan en un eje graduado estos 5 valores y tomando como base el segmento [Q1, Q3] se dibuja un rect´angulo con altura arbitraria; en ´el se indica la posici´on de la mediana, mediante una l´ınea vertical que divida al rect´angulo.

4. Desde el centro de los lados verticales del rect´angulo se dibujan sendas l´ıneas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos m´as extremos del intervalo (LI,LS)).

5. Los datos que queden fuera del intervalo [LI, LS] se marcan con un punto o un asterisco, a la altura de las dos l´ıneas dibujadas. Se denominan datos at´ıpicos y se clasifican en pr´oximos y lejanos, seg´un est´en en [Q1 3IQR, Q3+ 3IQR] o a´un m´as alejados.

Ejemplo:

Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35,9,Q3 = 39,2,Me = 37,3, LI = 30,95 yLS = 44,15 y el gr´afico:

Observaci´on 14 El Box-Plot permite ver f´acilmente caracter´ısticas como asimetr´ıa, apuntamiento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables por datos at´ıpicos, proporciona en general una imagen adecuada de la distribuci´on.

Tambi´en permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos.

Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto de veh´ıculos subdivididos en cuanto al tipo de veh´ıculo. Es f´acil observar en el gr´afico, por ejemplo, que las furgonetas son las que presentan menor variabilidad y los de tama˜no peque˜no son los de mayor variaci´on.

(19)

6

Datos at´ıpicos

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o peque˜nos. Pueden ser datos reales, como una puntuaci´on de 10 en un examen en el que la mayor´ıa de las puntuaciones est´an entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de individuos con estaturas normales. Tambi´en en ocasiones, aparecen como consecuencia de haber registrado de forma incorrecta un dato. Existen varios m´etodos para detectar los datos at´ıpicos; indicaremos dos:

La proporcionada por el diagrama de caja: considerar como at´ıpicos todos los datos fuera del intervalo [LI,LS]. En el ejemplo de la distancia de frenado, ser´ıa el dato 30,5.

El criterio de 3s: considerar como at´ıpico todo dato que se aleje m´as de 3s de la media de los datos ( recordar que seg´un la desigualdad de Chebysev, al menos el 88.89% de los datos est´a en el intervalo [¯x3s,x¯+ 3s]). En el ejemplo de la distancia de frenado, con este criterio no existir´ıan datos at´ıpicos.

7

Transformaciones.

El objetivo de la descripci´on de datos es obtener una visi´on lo m´as clara posible de los datos, por ello, en muchas ocasiones ser´a necesario hacer traslaciones o cambios de escala para obtener datos lo m´as simples y manejables posible.

En otras ocasiones, como los principales m´etodos estad´ısticos son aplicables s´olo a distribuciones sim´etricas, nos interesar´a transformar unos datos asim´etricos en otros que no lo sean tanto.

Vamos a distinguir entre dos tipos de transformaciones: Transformaciones lineales:

Son del tipo Y=aX+b, cona, bIR; a= 0, es decir, traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posici´on y dispersi´on, pero no var´ıan la forma de la distribuci´on: si x1, . . . , xN son los datos directos de la variable X, sus transformados ser´an los datos y1, . . . , yN, con

yi =axi+b. Propiedades 3 1. y¯=ax¯+b. En efecto: ¯ y= N i=1 yi N = N i=1 axi+b N = =a N i=1 xi N +b=ax¯+b 2. s2Y =a2s2X En efecto: s2Y = N i=1 (yiy¯)2 N = N i=1 (axi+b(ax¯+b))2 N = =a2 N i=1 (xix¯)2 N =a 2s2 X

(20)

3. sY =|a|sX

4. Me(Y) =aMe(X) +b

En efecto, si a >0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado.

5. Moda(Y) =aModa(X) +b

6. Si a > 0 entonces Q1(Y) = aQ1(X) +b y Q3(Y) = aQ3(X) +b. Si a < 0 entonces Q1(Y) = aQ3(X) +b yQ3(Y) = aQ1(X) +b.

(Se razona de igual forma que en la propiedad anterior).

7. IQR(Y) =|a|IQR(X).

Transformaciones no lineales

Las transformaciones no lineales m´as usuales son: Y =X2,Y =X,Y = lnX eY = X1. Produ-cen, adem´as de cambios en la posici´on y dispersi´on, cambios en la forma. Se utilizan principalmente para promover simetr´ıa.

Referencias

Documento similar

&#34;No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

El tercero tiene notas bajas pero la mayor es estadística, una de las temáticas trabajadas de forma más mecánica, asimismo el último arquetipo muestra que, aun con notas buenas,

“La unificación de la clasificación de empresas otorgada por las CC.AA.”, “La unificación de criterios en la acreditación de los servicios de prevención de riesgos

En cuarto lugar, se establecen unos medios para la actuación de re- fuerzo de la Cohesión (conducción y coordinación de las políticas eco- nómicas nacionales, políticas y acciones

En el capítulo de desventajas o posibles inconvenientes que ofrece la forma del Organismo autónomo figura la rigidez de su régimen jurídico, absorbentemente de Derecho público por

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación