• No se han encontrado resultados

Estadística y Gestión de Datos

N/A
N/A
Protected

Academic year: 2021

Share "Estadística y Gestión de Datos"

Copied!
124
0
0

Texto completo

(1)

Estad´ıstica y Gesti´

on de Datos

http://eygdd.wordpress.com

Prof. Milton A. Ram´ırez Klapp

[email protected]

Instituto Profesional AIEP Escuela de Negocios y Tecnolog´ıa

(2)

EYGDD *.* - Curso Completo

Part I

Preliminar

(3)

Caracter´ısticas Generales

La Estad´ıstica es una rama de la Matem´atica que se refiere a la

recolecci´on, agrupaci´on, clasificaci´on, estudio e interpretaci´on de los datos obtenidos en un estudio determinado.

La Estad´ıstica se subdivide en dos ramas que pasaremos a revisar a continuaci´on:

Estad´ıstica Descriptiva. Inferencia Estad´ıstica.

(4)

EYGDD *.* - Curso Completo Estad´ıstica Campo de Aplicaci´on

Campo de Aplicaci´

on

A ver

Ciencias de la Salud. Nutrici´on. Computaci´on. Meteorolog´ıa. Demograf´ıa. Deporte. Sociolog´ıa.

Educaci´on del Tr´ansito. etc.

(5)

Qu´

e es

La Estad´ıstica Descriptiva se define como un conjunto de t´ecnicas y m´etodos cuyo prop´osito es describir alguna caracter´ıstica de inter´es en base a la informaci´on contenida en una muestra.

La metodolog´ıa que se emplea para recabar informaci´on de inter´es en nuestros estudios contempla las siguientes etapas:

1 Selecci´on y determinaci´on de la muestra (saber con certeza sobre qu´e tratar´a el estudio).

2 Obtenci´on de los datos.

3 Clasificaci´on y organizaci´on de los datos recogidos en la etapa anterior. 4 Estudio descriptivo de los datos a trav´es de tabulaciones y c´alculo de

estad´ıgrados tanto de tendencia central como de dispersi´on. 5 Representaci´on Gr´afica de los datos.

6 Conclusiones.

(6)

EYGDD *.* - Curso Completo Estad´ıstica

Inferencia Estad´ıstica

Inferencia Estad´ıstica

Nada m´

as que por cultura general

La Inferencia Estad´ıstica se dedica a la generaci´on de modelos matem´aticos que permitan hacer predicciones o inferencias respecto al comportamiento estad´ıstico de una poblaci´on a partir de los datos recogidos en una muestra.

En este ´ambito lo que se hace es tratar de deducir cu´ales ser´ıan los par´ametros estad´ısticos de una poblaci´on en base a una cierta probabilidad de ´exito o de fracaso (seg´un como se mire).

Otras aristas del estudio se refieren al establecimiento de ciertas hip´otesis, a partir de las cuales podemos obtener respuestas s´ı o no con un cierto margen de error prefijado.

(7)

Qu´

e es

La poblaci´on estad´ıstica corresponde al conjunto de elementos de referencia sobre el cual se realizar´an las observaciones.

Tambi´en se le conoce como universo o colectivo.

El tama˜no de una poblaci´on corresponde a la cantidad de elementos que ´

esta posee, y su valor lo representaremos mediante el s´ımbolo N. Por lo general, N es un n´umero grande.

Por ejemplo

La poblaci´on de todas las mujeres chilenas nacidas a la fecha. La poblaci´on del parque automotriz en Sudam´erica.

La poblaci´on de todas las personas del mundo que sean mayores de 18 a˜nos.

(8)

EYGDD *.* - Curso Completo Conceptos Fundamentales

Muestra

Muestra

Qu´

e es

Corresponde a una parte de la poblaci´on (subconjunto).

El tama˜no de la muestra se denota con el s´ımbolo n, y se cumple que n < N

Por ejemplo

Si la poblaci´on fuera igual a todas las mujeres chilenas nacidas a la fecha, una posible muestra ser´ıan las mujeres que est´an embarazadas

Si la poblaci´on fuera el parque automotriz en Sudam´erica, una muestra ser´ıa los veh´ıculos que tienen placa patente de la ciudad de Buenos Aires. Si la poblaci´on fuera igual a todas las personas del mundo que sean mayores de 18 a˜nos, una posible muestra ser´ıan todas las personas que tengan dos hijos y sean mayores de 50 a˜nos.

(9)

Veamos

Las variables representan las caracter´ısticas de los casos, entes u objetos que forman la poblaci´on.

Distinguiremos dos tipos de variables:

X Cualitativas (cualidades) X Cuantitativas (cantidades)

Se diferencian entre s´ı porque a una no se le puede atribuir valores num´ericos y a la otra s´ı.

(10)

EYGDD *.* - Curso Completo Conceptos Fundamentales

Variable

Variables Cualitativas

Cualitativa, cualidad

Son aquellas que no toman valores num´ericos y s´olo describen cualidades.

Por ejemplo

Raza. Color de pelo. Estado civil. Sexo.

(11)

Cuantitativa, cantidad

Son aquellas a las cuales podemos asignarles un valor num´erico. Se clasifican en:

Variables cuantitativas discretas. Variables cuantitativas continuas.

Ejemplos

Estatura. Edad.

Potencia del motor de un autom´ovil. Cantidad de DVDs que hay en un videoclub.

(12)

EYGDD *.* - Curso Completo Conceptos Fundamentales

Variable

Variables Cuantitativas Discretas

Discreto, conteo

Son variables cuantitativas que suelen emplearse para hacer conteos o enumeraciones.

Toman valores enteros (sin decimales).

Ejemplos

Cantidad de alumnos presentes en una sala. Cantidad de alumnos ausentes en una sala. Cantidad de manzanas que caben en un kilo.

N´umero de clientes que espera ser atendido en la caja de un supermercado.

(13)

Continuo, medici´

on

Son aquellas variables cuantitativas que puede tomar cualquier valor en un intervalo dado.

Pensemos en cosas que puedan ser traducidas a n´umeros decimales.

Ejemplos

Peso corporal (es posible que uno pueda pesar 80.7 kilos) Estatura (se puede medir 1.82 metros)

Tiempo de espera (podr´ıa ser de 1 hora con 27 minutos, donde en este caso los minutos ser´ıan los decimales)

(14)

EYGDD *.* - Curso Completo

Part II

Frecuencia

(15)

La frecuencia es uno de los t´erminos m´as usados en estad´ıstica. ´

Esta constituye un elemento esencial a la hora de an´alisis datos muestrales.

Es un concepto relacionado con la cantidad de veces que se repite un determinado valor en una variable (cualitativa o cuantitativa). Existen diversos tipos de frecuencias:

X frecuencia absoluta X frecuencia relativa

(16)

EYGDD *.* - Curso Completo Introducci´on

Frecuencia Absoluta

Frecuencia Absoluta

Es el n´umero de veces que se repite un valor particular de cierta variable. Si la variable en cuesti´on toma un n´umero k de valores, la frecuencia se denota con el s´ımbolo fi donde i es un ´ındice que puede tomar valores

(17)

Es denotada por fir y se define como el cuociente entre la frecuencia

absoluta y el n´umero de observaciones. Esto es:

fir =

fi

(18)

EYGDD *.* - Curso Completo Introducci´on

Frecuencia Absoluta

Frecuencia Relativa Porcentual

Se denota por fir% y se define como:

fir% = fir× 100, i = 1, . . . , k.

Adem´as, como fr i =

fi

n la expresi´on anterior se puede escribir como

fir% =

fi

(19)

Para calcular la frecuencia se debe tener presente el tipo de variable que se desea analizar, pues a partir de dicho an´alisis se realiza la agrupaci´on de datos respectivos.

Recordemos que los tipos de variable que existen son:

X cualitativa

X cuantitativa discreta X cuantitativa continua

Lo que veremos a continuaci´on es justamente c´omo hacer los c´alculos de cada tipo de frecuencia a trav´es de ejemplos que ayudar´an a clarificar los conceptos que vimos anteriormente.

(20)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable C´alculo de Frecuencias para Variables Cualitativas

alculo de Frecuencias para Variables Cualitativas

Vamos viendo

La presentaci´on de datos cualitativos suele hacerse indicando los atributos considerados y sus frecuencias de aparici´on.

Ejemplo

Sup´ongase que los datos siguientes representan las marcas extranjeras de autom´oviles preferidas en una muestra de 40 personas.

A C C J C F B F J A C C J F A B F F A C J J B F C J C J C B A F C J J C J A F C

En donde A significa alem´an, C coreano, J japon´es, F franc´es y B brasile˜no.

Se pide representar los datos en una tabla que contenga las frecuencias absolutas y relativas e interpretar algunas de ellas.

(21)

Soluci´

on

En primer lugar, definamos la variable con la que estamos trabajando. Sea X :“Variable cualitativa o atributo que representa la marca extranjera de autom´ovil preferida.”

En este caso la muestra consta de n = 40 observaciones. Por lo tanto: la suma de las frecuencias debe ser igual a 40. Para tabular los datos en una tabla de frecuencias, se coloca en la primera columna los valores de i , donde i var´ıa entre 1 y k, donde k corresponde al n´umero de valores que toma la variable. En este caso k = 5 ya que tenemos los valores X = A, X = C , X = J, X = F y X = B.

(22)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable C´alculo de Frecuencias para Variables Cualitativas

Ejemplo (Cont.)

Soluci´

on

En la columna siguiente se presentan los valores que toma la variable. Como se trata de una variable cualitativa, ella representa una cualidad y por lo tanto se denota con una letra en un orden arbitrario, como por ejemplo, A, C, J, F y B para mantener la notaci´on original del ejercicio. En la tercera columna se colocan las frecuencias absolutas de cada uno de los valores que toma la variable, la que se obtiene contando el n´umero de veces que aparece una respectiva cualidad en la muestra.

Finalmente en la ´ultima columna se presenta la frecuencia relativa la que se obtiene la dividir la frecuencia absoluta por el n´umero total de observaciones (n = 40), es decir: fir=

fi n.

(23)

Soluci´

on

Luego, la tabla de frecuencias queda de la siguiente manera: i Marca Frecuencia(fi) Frec. Relativa(fir)

1 A 6 6/40 = 3/20 2 C 12 12/40 = 3/10 3 J 10 10/40 = 1/4 4 F 8 8/40 = 1/5 5 B 4 4/40 = 1/10 Total 40 1

(24)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable C´alculo de Frecuencias para Variables Cualitativas

Ejemplo (Cont.)

Soluci´

on

Interpretemos algunos valores particulares de la tabla:

X f1representa el total de veces que el valor A se repite en la muestra.

Como el valor X = A se repite 6 veces y como a la A le asignamos arbitrariamente el valor i = 1 se tiene que f1= 6. Lo mismo ocurre

con el resto de los valores.

X Veamos el caso de f4r, es decir la frecuencia relativa del cuarto valor

que toma la variable. Que f4r =103 significa que un quinto de las

preferencias de la gente se la lleva los veh´ıculos de nacionalidad francesa.

(25)

Soluci´

on

X f2r = 101 significa que los tres d´ecimos de la gente prefiere los autom´oviles

coreanos. X fr

4% significa interpretar la frecuencia porcentual del cuarto valor que

tome la variable. La expresi´on para calcularlo es

f4r% = f r 4 × 100 = 1 5× 100 = 20

Esto significa que el 20% de las preferencias de la gente se las llevan los autom´oviles de origen franc´es. J

(26)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Discretas

alculo de Frecuencias para Variables Cuantitativas

Discretas

Veamos

Para presentar los datos cuantitativos discretos se indica el n´umero considerado y su frecuencia de aparici´on.

Es similar al caso cualitativo.

Ejemplo

Sup´ongase que los datos siguientes representan el n´umero de veh´ıculos que llega a una estaci´on de servicio en 30 per´ıodos de 5 minutos.

3 4 3 2 1 1 0 0 3 4 5 5 4 4 3 3 2 3 4 1 1 1 2 0 2 1 3 2 3 1

Agr´upense los datos en una tabla que contenga las frecuencias y las frecuencias relativas.

(27)

Soluci´

on

Sea X : “Variable que denota el n´umero de veh´ıculos que llega a una estaci´on de servicio en un intervalo de tiempo de 5 minutos”. Al igual que en el problema anterior, la construcci´on de la tabla de frecuencias se realiza de la siguiente forma: La primera columna representa los valores de i , donde i = 1, . . . , k, con k = n´umero de valores que toma la variable. Para este ejemplo k = 6.

En la columna siguiente se colocan los valores que toma la variable (0, 1, 2, 3, 4 y 5). En la tercera columna las frecuencias absolutas para cada uno de los valores de la variable, la que se obtiene al contar el n´umero de veces que aparece cada valor en la muestra.

Finalmente en la ´ultima columna se presenta la frecuencia relativa la que se obtiene: fir =

fi n

(28)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Discretas

Ejemplo (Cont.)

Soluci´

on

La tabla de frecuencias queda de la siguiente manera: i xi Frecuencia(fi) Frec. Relativa(fir)

1 0 3 3/30 = 1/10 2 1 7 7/30 3 2 5 5/30 = 1/6 4 3 8 8/30 = 4/15 5 4 5 5/30 = 1/6 6 5 2 2/30 = 1/15 Total 30 1

X f4= 8 significa que en 8 periodos de 5 minutos llegaron exactamente 3

veh´ıculos.

X f5r = 16 significa que en la sexta parte de los veh´ıculos que se consideraron

(29)

Veamos

En este caso cuando se dispone de cierto n´umero de valores referidos a una variable continua, es conveniente agruparlos en intervalos de clase o categor´ıas. Para seleccionar el n´umero k de intervalos de clases, o simplemente el n´umero k de clases, existen diversas formas.

1 Una de ellas es considerar tal n´umero k de clases no menor de 5 ni mayor de 15. No menor de 5 para evitar la p´erdida de informaci´on que se producir´ıa al reunir en una clase un grupo de datos muy diferentes; y, no mayor de 15 para de esta forma tener un f´acil manejo y con el prop´osito de asegurar una compactaci´on de la informaci´on.

2 Otra forma de seleccionar el n´umero de k de clases es empleando la Regla de Sturges, en donde k = 1 + 3.3 × log n, siendo n el tama˜no de la muestra.

En general, las clases se eligen de modo que la amplitud de cada una de ellas sea igual para todas las categor´ıas o intervalos de clases.

(30)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

alculo de Frecuencias para Variables Cuantitativas

Continuas

Veamos

Antes de ver un ejemplo es necesario definir el concepto de Marca de Clase. Se denota por mi y corresponde al punto medio del intervalo de clase. Ella es la

representante de la clase pues se atribuye el valor de la frecuencia correspondiente a dicha clase.

Ejemplo

Sup´ongase que los datos a continuaci´on representan el precio aproximado de la libra de cobre, en centavos de d´olar para una muestra de 30 d´ıas, los que han sido ordenados convenientemente.

70 71 71 72 73 73 73 75 76 76 77 78 78 78 78 78 79 79 80 81 81 82 83 84 84 84 84 87 89 91 Se pide agrupar los datos en una tabla de frecuencias.

(31)

Soluci´

on

A continuaci´on se presenta paso a paso la forma de realizar una tabla de frecuencias para una variable cuantitativa continua:

1 Se determina el rango o recorrido r , el que se define como la diferencia entre los valores m´aximo y m´ınimo de la variable presentes en la muestra.

2 Se determina el n´umero k de clases o categor´ıas, empleando Regla de Sturges.

3 Se obtiene la amplitud o tama˜no a del intervalo, dividiendo el rango por el n´umero de clases.

4 Se seleccionan los l´ımites de clase que definen los intervalos, de manera que las clases sean de la misma magnitud y que cada observaci´on se clasifique sin ambig¨uedad en una sola clase.

5 Se cuenta el n´umero de observaciones en cada clase, es decir, se determinan las frecuencias absolutas de cada clase.

(32)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Paso 1 - Valor del Rango

El rango o recorrido lo obtenemos de la siguiente manera:

r = xmax− xmin= 91 − 70 = 21

xmaxcorresponde al m´aximo valor observable de la variable X (91) y xmin

(33)

Paso 2 - N´

umero de Clases

Como el valor de n = 30, aplicando la Regla de Sturges se llega a que

k = 1 + 3.3 × log n = 1 + 3.3 × log 30 = 5.87 ≈ 6

Cabe destacar que el valor de k tiene que ser un n´umero entero (sin decimales).

El s´ımbolo ≈ significa aproximado o aproximadamente. Entonces 5.87 ≈ 6 se lee 5.87 es aproximadamente 6.

(34)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Paso 3 - Amplitud o Tama˜

no del Intervalo

Se calcula dividiendo el rango por el n´umero de clases. Si a denota la amplitud del intervalo entonces

a = r k = 21

6 = 3.5 ≈ 4

(35)

Paso 4 - L´ımites de cada Clase o Intervalo

En primer lugar obtenemos el primer intervalo de clase, cuyo l´ımite aparente inferior es igual al m´ınimo valor que toma la variable en la muestra. En este caso este l´ımite inferior vale xmin= 70.

Para obtener el l´ımite aparente superior del primer intervalo de clase, sumamos al l´ımite aparente inferior la amplitud menos 1. En este caso ser´ıa xmin+ (a − 1) = 70 + 4 − 1 = 73.

Por lo tanto, nuestro primer intervalo (o clase) aparente es [70, 73[. Por notaci´on, [70, 73[ se interpreta como el intervalo que contiene a todos aquellos n´umeros que sean mayores o iguales que 70 y menores que 73. Esta explicaci´on es v´alida para todos los intervalos que construyamos, salvo que hay que reemplazar por los valores num´ericos que correspondan.

(36)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Ojo

En este caso restamos una unidad, pero si la amplitud del intervalo de clase se hubiese presentado con un decimal hubi´esemos tenido que restar 0.1.

Si se hubiese presentado con dos decimales tendr´ıamos que haber restado 0.01.

(37)

Paso 4 - L´ımites de cada Clase o Intervalo

Tengamos presente que tenemos que construir un total de 6 intervalos, ya que k = 6 por la regla de Sturges.

Determinemos el l´ımite inferior del segundo intervalo. ´Este es igual al l´ımite aparente inferior del intervalo anterior m´as la amplitud. Es decir 70 + 4 = 74.

El l´ımite superior aparente del intervalo se obtiene sumando el l´ımite superior aparente del intervalo anterior con la amplitud. En este caso 73 + 4 = 77.

(38)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Paso 4 - L´ımites de cada Clase o Intervalo

Determinemos el l´ımite inferior del tercer intervalo. ´Este es igual al l´ımite aparente inferior del intervalo anterior m´as la amplitud. Es decir

74 + 4 = 78.

El l´ımite superior aparente del intervalo se obtiene sumando el l´ımite superior aparente del intervalo anterior con la amplitud. En este caso 77 + 4 = 81.

(39)

Paso 4 - L´ımites de cada Clase o Intervalo

Determinemos el l´ımite inferior del cuarto intervalo. ´Este es igual al l´ımite aparente inferior del intervalo anterior m´as la amplitud. Es decir

78 + 4 = 82.

El l´ımite superior aparente del intervalo se obtiene sumando el l´ımite superior aparente del intervalo anterior con la amplitud. En este caso 81 + 4 = 85.

(40)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Paso 4 - L´ımites de cada Clase o Intervalo

Determinemos el l´ımite inferior del quinto intervalo. ´Este es igual al l´ımite aparente inferior del intervalo anterior m´as la amplitud. Es decir

82 + 4 = 86.

El l´ımite superior aparente del intervalo se obtiene sumando el l´ımite superior aparente del intervalo anterior con la amplitud. En este caso 85 + 4 = 89.

(41)

Paso 4 - L´ımites de cada Clase o Intervalo

Determinemos el l´ımite inferior del sexto y ´ultimo intervalo. ´Este es igual al l´ımite aparente inferior del intervalo anterior m´as la amplitud. Es decir 86 + 4 = 90.

El l´ımite superior aparente del intervalo se obtiene sumando el l´ımite superior aparente del intervalo anterior con la amplitud. En este caso 89 + 4 = 93.

(42)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Paso 4 - L´ımites de cada Clase o Intervalo

Una vez que se obtienen los intervalos o clases aparentes, se tienen que construir los intervalos o clases reales.

Esto se debe a que existe una diferencia num´erica entre el l´ımite inferior aparente de un intervalo con el l´ımite superior aparente de otro intervalo, lo que le quita el car´acter de continuo a la variable X :“Variable que describe el precio diario aproximado de la libra de cobre en centavos de d´olar”.

(43)

Paso 4 - L´ımites de cada Clase o Intervalo

Para la formaci´on de los intervalos de clase real, a cada uno de los l´ımites inferiores de las clases aparentes se le debe restar 0.5, en caso que los datos est´an presentados sin decimales.

En nuestro caso, como los datos los tenemos sin decimales, tendremos que el l´ımite real inferior asociado con el primer intervalo ser´a igual a 70 − 0.5 = 69.5.

De igual forma, para obtener el l´ımite real superior de cada intervalo de clase se debe sumar 0.5, en caso que los datos vengan sin decimales. En este caso, el l´ımite real superior asociado con el primer intervalo es igual a 73 + 0.5 = 73.5.

(44)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Ojo

Si los datos se presentan con un decimal, para obtener el l´ımite real inferior de cada intervalo de clase se debe restar 0.05 al l´ımite aparente inferior.

Si est´an presentados con dos decimales se debe restar 0.005. Si est´an con 3 decimales, restaremos 0.0005 y as´ı sucesivamente. Para el caso de los l´ımites reales superiores en vez de restar, sumamos 0.5 o 0.05 o 0.005 seg´un como se presenten los datos.

(45)

Paso 5 - Conteo de la Frecuencia Absoluta de cada Clase

La tabla de frecuencias nos queda de la siguiente forma:

i Clase Aparente Clase Real fi fir mi

1 [70, 73[ [69.5, 73.5[ 7 7/30 71.5 2 [74, 77[ [73.5, 77.5[ 4 4/30 = 2/15 75.5 3 [78, 81[ [77.5, 81.5[ 10 10/30 = 1/3 79.5 4 [82, 85[ [81.5, 85.5[ 6 6/30 = 1/5 83.5 5 [86, 89[ [85.5, 89.5[ 2 2/30 = 1/15 87.5 6 [90, 93[ [89.5, 93.5[ 1 1/30 91.5 Total 30 1

(46)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Ejemplo (Cont.)

Observaci´

on

Se entiende por l´ımite de clase a los n´umeros que aparecen en los extremos de cada clase, con lo cual los l´ımites de la izquierda y de la derecha corresponden a los l´ımites de clase inferior y superior respectivamente.

Al respecto tambi´en se definen los l´ımites de clase aparentes o aproximados y los l´ımites reales o verdaderos de clase.

En los l´ımites aparentes se consideran los valores tal como aparecen en la muestra, esto es, tal como fueron aproximados, ya sea al n´umero entero m´as pr´oximo.

En el caso de los l´ımites reales , estos se determinan de tal modo que reflejen la forma c´omo fueron redondeados los datos, por lo que ´estos siempre contienen como m´ınimo un decimal que termina en cinco.

(47)

Algunas Interpretaciones

X f2= 4 significa que durante cuatro d´ıas el precio aproximado de la libra

de cobre fluctu´o entre los 74 y 77 centavos de d´olar. (Revisando las clases aparentes).

X Viendo las clases reales, podr´ıamos decir que f2= 4 durante 4 d´ıas la

libra de cobre tuvo un precio mayor o igual que los 73.5 centavos de d´olar y menor que 77.5 centavos de d´olar.

X f6r = 301 significa que en la treintava parte de las observaciones el valor

diario del precio de la libra de cobre vari´o entre los 90 y 93 centavos de d´olar.

X En t´erminos porcentuales, se ve que en el f6r% = 301 × 100 = 3.33 por

ciento de las observaciones, el valor diario del precio de la libra de cobre oscil´o entre los 90 y 93 centavos de d´olar. J

(48)

EYGDD *.* - Curso Completo

C´alculo de Frecuencia seg´un el tipo de Variable

C´alculo de Frecuencias para Variables Cuantitativas Continuas

Palabras al cierre. . .

Observaci´

on

En caso que la muestra contenga una gran variedad de datos num´ericos que en principio se puedan clasificar de discretos deberemos trabajarlos como si fueran continuos y agruparlos en clases para as´ı evitar que la tabla de frecuencia quede demasiado grande.

Se recomienda que la cantidad total de valores que pueda asumir la variable no exceda el valor de k = 10.

(49)

La representaci´on gr´afica de los datos es un complemento que permite apreciar visualmente c´omo se presenta la informaci´on.

Existe una gran variedad de gr´aficos para representar los datos, lo que naturalmente depende del tipo de variable que se est´a estudiando.

(50)

EYGDD *.* - Curso Completo Introducci´on

Tipos de Gr´

afico seg´

un la clasificaci´

on de la variable en

estudio

Dependiendo si la variable que estamos analizando es cualitativa, cuantitativa discreta o cuantitativa continua, tendremos los siguientes tipos de gr´afico:

Tipo de Variable Gr´afico(s) Asociado(s) Cualitativa Torta, Barra. Cuantitativa Discreta Varas.

(51)

A cada frecuencia porcentual se le asocia un ´angulo de la circunferencia. Si fir% representa la frecuencia porcentual asociada con el i −´esimo valor

de la variable cualitativa, entonces los grados que le corresponden en el gr´afico quedan determinados por la expresi´on

αoi =

fir%

100%× 360

(52)

EYGDD *.* - Curso Completo Gr´aficos para variables Cualitativas

Gr´afico de Torta (o Sectorial)

Gr´

afico de Torta (Cont.)

Por ejemplo

Consideremos la tabla de frecuencias del ejemplo de la nacionalidad de auto extranjero preferido por la gente:

i Marca Frecuencia(fi) Frec. Relativa(fir) f r i% 1 A 6 6/40 = 3/20 15 2 C 12 12/40 = 3/10 30 3 J 10 10/40 = 1/4 25 4 F 8 8/40 = 1/5 20 5 B 4 4/40 = 1/10 10 Total 40 1 100

(53)

Por ejemplo, para i = 3 (es decir, X = J) le hacemos corresponder αo3= f3r% 100%× 360 o =10025 × 360o = 90o. Para i = 5 tendremos αo5 = f5r% 100%× 360 o = 10 100× 360 o = 36oy as´ı sucesivamente.

(54)

EYGDD *.* - Curso Completo Gr´aficos para variables Cualitativas

Gr´afico de Torta (o Sectorial)

(55)

Est´a formado por una serie de rect´angulos cuyas bases est´an sobre el eje horizontal y cuyas alturas son proporcionales a las frecuencias.

Las dimensiones de las bases de los rect´angulos son arbitrarias pero deben ser iguales.

Los rect´angulos no tienen frontera vertical com´un, pero por convenci´on tienen que estar a una misma distancia.

(56)

EYGDD *.* - Curso Completo Gr´aficos para variables Cualitativas

Gr´afico de Barras

Gr´

afico de Barras (Cont.)

Ejemplo

Consideremos nuevamente las preferencias por marcas extranjeras de veh´ıculos, de acuerdo a un sondeo realizado a 40 personas que participaron de una muestra.

(57)

Consiste en una serie de segmentos de recta situadas sobre el eje horizontal y cuyas longitudes son proporcionales a las frecuencias. Los segmentos de recta tienen forma de varas. De ah´ı el nombre.

(58)

EYGDD *.* - Curso Completo

Gr´afico para Variable Cuantitativa Discreta Gr´afico de Varas

Gr´

afico de Varas (Cont.)

Ejemplo

Consideremos la variable X :“N´umero de veh´ıculos que llega a una estaci´on de servicio en intervalos de 5 minutos” que est´a asociada con el ejemplo de construcci´on de tablas de frecuencia para variables cuantitativas discretas. Su gr´afico de varas es el siguiente:

(59)

El Histograma representa datos que se encuentran agrupados en clases o categor´ıas.

Consiste en una serie de rect´angulos con fronteras verticales comunes, en donde las bases de los rect´angulos son iguales a las amplitudes o anchuras de clase y las alturas son proporcionales a las frecuencias.

Se “parece” a un gr´afico de barras con la diferencia que los rect´angulos van unidos entre s´ı.

Por ejemplo

Consideremos el ejemplo dado para el caso de creaci´on de tablas de frecuencias en variables cuantitativas continuas que estaba relacionado con la variaci´on del precio de la libra de cobre, expresada en centavos de d´olar.

(60)

EYGDD *.* - Curso Completo

Gr´aficos para Variables Cuantitativas Continuas Histograma

Histograma (Cont.)

El histograma asociado con el ejemplo anterior es el que se muestra a continuaci´on:

(61)

Proporciona una representaci´on suavizada de un conjunto de valores. Para construir este gr´afico, hay que unir los puntos medios situados sobre los techos de rect´angulos del histograma, en donde tales puntos medios corresponden a las marcas de clase.

El pol´ıgono de frecuencias se completa agregando dos segmentos de recta: uno antes de la primera clase y el otro despu´es de la ´ultima clase asign´andoles artificialmente el valor cero en cada tipo de frecuencia. Esto debido a que “antes” y “despu´es” de recogidos los datos no se registraron observaciones con esos valores.

(62)

EYGDD *.* - Curso Completo

Gr´aficos para Variables Cuantitativas Continuas Pol´ıgono de Frecuencias

Pol´ıgono de Frecuencias

Ejemplo

Considerando el mismo ejemplo de la variaci´on del precio de la libra de cobre en centavos de d´olar, el pol´ıgono de frecuencias ser´ıa el siguiente:

(63)

La Ojiva representa las frecuencias acumuladas y adem´as proporciona una descripci´on visual de c´omo se acumulan los valores de la variable. Los puntos que unen cada uno de los segmentos de recta que forman el pol´ıgono son aquellos que tienen como coordenadas el l´ımite real superior de clase en la abscisa y el valor de la frecuencia acumulada en la

ordenada (que tambi´en puede ser la frecuencia relativa acumulada o la frecuencia porcentual acumulada).

(64)

EYGDD *.* - Curso Completo

Gr´aficos para Variables Cuantitativas Continuas Ojiva

Ojiva(Cont.)

Ejemplo

Construyamos una nueva columna a la tabla de frecuencias del ejemplo de la libra de cobre donde registremos los valores de la frecuencia acumulada:

i Clase Aparente Clase Real fi fir mi Frec. Acum.

1 [70, 73[ [69.5, 73.5[ 7 7/30 71.5 7 2 [74, 77[ [73.5, 77.5[ 4 4/30 = 2/15 75.5 11 3 [78, 81[ [77.5, 81.5[ 10 10/30 = 1/3 79.5 21 4 [82, 85[ [81.5, 85.5[ 6 6/30 = 1/5 83.5 27 5 [86, 89[ [85.5, 89.5[ 2 2/30 = 1/15 87.5 29 6 [90, 93[ [89.5, 93.5[ 1 1/30 91.5 30 Total 30 1

(65)
(66)

EYGDD *.* - Curso Completo

Gr´aficos para Variables Cuantitativas Continuas Ojiva

Ojiva (Cont.)

Algunas observaciones

La gracia que tiene este tipo de gr´afico es que permite ver cu´antas observaciones son menores o iguales a un cierto valor especificado. Por ejemplo, a partir de la ojiva exhibida en la l´amina anterior que durante 21 d´ıas el valor del precio de la libra de cobre fue aumentando hasta alcanzar un valor aproximado de 81.5 centavos de d´olar.

(67)

Part IV

Estad´ıgrafos

(68)

EYGDD *.* - Curso Completo Generalidades

Introducci´

on

En la primera parte del curso aprendimos a tabular los datos procedentes de una muestra a trav´es de lo que denominamos tablas de frecuencia, las cuales ten´ıan su particular forma de construcci´on dependiendo del tipo de variable en estudio.

Posterior a ello se procedi´o a hacer gr´aficos, cuya ´unica finalidad era presentar de un modo amigable y resumido la informaci´on contenida en la tabla, facilitando con ello la lectura de los datos procedentes de la muestra.

(69)

En esta etapa del curso seguiremos describiendo la informaci´on de una muestra de una manera m´as fina, tratando de responder a las siguientes preguntas:

1 ¿Alrededor de qu´e valor se agrupan los datos?

2 En el caso que efectivamente se agrupen alrededor de un valor dado:

¿c´omo lo hacen? ¿muy concentrados? ¿muy dispersos?

(70)

EYGDD *.* - Curso Completo Generalidades

Estad´ıgrafos

Los estad´ıgrafos son medidas descriptivas que resumen los datos en forma cuantitativa.

Estos pueden ser de dos clases:

1 Estad´ıgrafos de posici´on o de tendencia central:

1 Media aritm´etica.

2 Mediana.

3 Moda.

4 Percentiles, deciles, quintiles, cuartiles.

2 Estad´ıgrafos de variabilidad o de dispersi´on de los datos:

1 Rango.

2 Varianza.

3 Desviaci´on est´andar (o desviaci´on t´ıpica).

(71)

Observaci´

on

El c´alculo de cada estad´ıgrafo va a depender del tipo de variable que estemos considerando.

En la siguiente tabla se muestra si es posible o no obtener el estad´ıgrafo para los diferentes tipos de variable:

Estad´ıgrafo Variable Cualitativa Variable Cuantitativa

Media Aritm´etica χ X

Mediana χ X

Moda X X

Percentiles χ X

Rango χ X

Varianza χ X

Desviaci´on Est´andar χ X

(72)

EYGDD *.* - Curso Completo Generalidades

Caracterizaci´

on de los elementos de una muestra

Vamos a formalizar la notaci´on que hemos estado empleando para designar los elementos que conforman una muestra.

En forma somera hemos denotado por n al tama˜no de ´esta y por xmaxy

por xminal valor m´aximo y m´ınimo presente en ella, respectivamente.

Ahora veremos c´omo individualizar al resto de los elementos que la componen.

Para ello emplearemos la notaci´on de sub´ındice, donde si X representa a una variable asociada a una muestra de tama˜no n, entonces el valor de cada observaci´on la denotaremos por xi, i = 1, n.

(73)

Por ejemplo

Consideremos la siguiente muestra que representa la edad de un grupo de 10 personas:

5 10 34 23 12 19 21 27 54 37

Podemos decir entonces que n = 10, xmax= 54 y que xmin= 5.

Adem´as: x1= 5, x2= 10, x3= 34, x4= 23, x5= 12, x6= 19, x7=

21, x8= 27, x9= 54, x10= 37.

Esto quiere decir que la primera edad observada fue de 5 a˜nos, la segunda fue igual a 10 a˜nos, la quinta edad fue de 12 y as´ı sucesivamente.

(74)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Promedio o Media Aritm´etica

Promedio o Media Aritm´

etica

La medida de tendencia central de mayor uso te´orico y pr´actico es la media aritm´etica, que tambi´en suele llamarse promedio o simplemente media.

En caso que estemos en presencia una variable cuantitativa discreta, la media aritm´etica del conjunto de valores es igual a la suma de todos los datos dividida por el tama˜no de la muestra.

En caso que la muestra est´e relacionada con una variable cuantitativa continua, deberemos considerar en el c´alculo del promedio los valores de las marcas de cada intervalo.

El promedio lo simbolizaremos por X .

La media aritm´etica la vamos a presentar con una cifra decimal extra en relaci´on a c´omo vengan presentados los datos de la muestra. Si por ejemplo los valores muestrales tienen un decimal, el promedio lo dejaremos con 2 decimales y as´ı sucesivamente.

(75)

Si tenemos una variable cuantitativa discreta que toma un total de k valores de la forma x1, x2, . . . , xk cuyas frecuencias absolutas denotamos

por f1, f2, . . . , fk, la media est´a dada por la suma de los productos entre

los diferentes k valores observados y su respectiva frecuencia absoluta, dividido por el total de la muestra.

Formalmente: X = x1f1+ x2f2+ · · · + xkfk f1+ f2+ · · · + fk = k P i =1 xifi k P i =1 fi = k P i =1 xifi n

(76)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Promedio o Media Aritm´etica

Promedio o Media Aritm´

etica

Caso de Variables Cuantitativas Discretas: X = k P i =1 xifi n

Por ejemplo

Sea X : “Variable que denota el n´umero de veh´ıculos que llega a una estaci´on de servicio en un intervalo de 5 minutos”.

Los datos est´an reflejados en la siguiente tabla de distribuci´on de frecuencias: i Valor = xi fi xi× fi 1 0 3 0 × 3 = 0 2 1 7 1 × 7 = 7 3 2 5 2 × 5 = 10 4 3 8 3 × 8 = 24 5 4 5 4 × 5 = 20 6 5 2 5 × 2 = 10 Total 30 71

(77)

Caso de Variables Cuantitativas Discretas: X = i =1 n

Por ejemplo (cont.)

Es decir: k P i =1 xifi = 71. Como k = 6, n = 30 y k X i =1 xifi se concluye que X = 71 30 = 2.4 Esto significa que en los 30 intervalos de tiempo que se consideraron, cada 5 minutos entraron 2.4 autos a la estaci´on de servicio. J

(78)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Promedio o Media Aritm´etica

Promedio o Media Aritm´

etica

Caso de Variables Cuantitativas Continuas

En caso que tener una variable cuantitativa continua donde sus datos est´en agrupados en k clases o categor´ıas y cuyas frecuencias de aparici´on las denotemos por fi, i = 1, k y cuyas marcas de clase por mi, i = 1, n,

entonces la media aritm´etica viene dada por la siguiente expresi´on:

X = m1f1+ m2f2+ · · · + mkfk f1+ f2+ · · · + fk = k P i =1 mifi k P i =1 fi = k P i =1 mifi n

(79)

Caso de Variables Cuantitativas Continuas: X = i =1 n

Por ejemplo

Los datos que a continuaci´on se presentan tabulados representan el precio aproximado de la libra de cobre, en centavos de d´olar para una muestra de 30 d´ıas, los que han sido ordenados convenientemente:

i Int. Clase Real fi mi mi× fi

1 [69.5, 73.5[ 7 71.5 71.5 × 7 = 500.5 2 [73.5, 77.5[ 4 75.5 75.5 × 4 = 302 3 [77.5, 81.5[ 10 79.5 79.5 × 10 = 795 4 [81.5, 85.5[ 6 83.5 83.5 × 6 = 501 5 [85.5, 89.5[ 2 87.5 87.5 × 2 = 175 6 [89.5, 93.5[ 1 91.5 91.5 × 1 = 91.5 Total 30 2365

(80)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Promedio o Media Aritm´etica

Promedio o Media Aritm´

etica

Caso de Variables Cuantitativas Continuas: X = k P i =1 mifi n

Por ejemplo

Como k = 6, n = 30 y k X i =1 mifi = 2365 se concluye que X = 236530 = 78.8

Esto significa que el promedio del valor de la libra de cobre expresada en centavos de d´olar es de 78.8. J

(81)

Observaci´

on

La media se interpreta como aquel valor en donde los dem´as valores tienden a agruparse en torno a ´el.

La media de un conjunto de datos es como el “punto de equilibrio” de ellos, haciendo una analog´ıa con el concepto f´ısico de centro de gravedad para una distribuci´on de masas.

(82)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Mediana

Mediana

La mediana es un estad´ıgrafo cuyo prop´osito es el dividir la distribuci´on de frecuencias en dos partes iguales, de tal manera que pasa a

desempe˜nar el rol del t´ermino central de la muestra.

Para ello es obligatorio que el conjunto de datos que componen la muestra est´en ordenados.

Da lo mismo si los datos se ordenan de menor a mayor o de mayor a menor. Para unificar criterios lo haremos de menor a mayor. La denotaremos por Me.

Es posible que el valor que tome la mediana no est´e dentro de la muestra inicial.

(83)

Cuando la variable en juego es cuantitativa discreta se distinguen 2 casos: n es par o n es impar.

Si suponemos que la muestra inicial la hemos ordenado y sus valores los denotamos gen´ericamente por x1, x2, . . . , xnentonces:

1 Si n es par: Me =x( n 2) + x(

n 2+1)

2 , es decir, el promedio aritm´etico de los dos t´erminos centrales de la muestra.

2 Si n es impar: Me = x(n+1 2 )

(84)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Mediana

Mediana

Mediana en el caso de Variables Cuantitativas Discretas:    Me = x (n 2) +x (n 2+1) 2 si n es par Me = x(n+1 2 ) si n es impar

Por ejemplo

Consideremos la siguiente muestra correspondiente al n´umero de duraznos en mal estado presentes en 6 cajas: 0,5,3,1,8,2.

Para hallar la mediana de la muestra, debemos ordenar los valores. De este modo obtenemos: 0,1,2,3,5,8.

Si definimos por X a la variable relacionada con el total de duraznos en mal estado presentes en cada caja, entonces los elementos de la muestra ser´an x1= 0, x2= 1; x3= 2, x4= 3, x5= 5 y x6= 8.

Por otro lado: n = 6 y por lo tanto deberemos aplicar la f´ormula v´alida para muestras de tama˜no par. ´Esta nos dice que Me =

x (n 2) +x (n 2+1) 2 .

(85)

  Me = (2) (2+1) 2 si n es par Me = x(n+1 2 ) si n es impar

Por ejemplo (Cont.)

Recordando que x1= 0, x2= 1; x3= 2, x4= 3, x5= 5 y x6= 8 tendremos

que x(n

2) = x(62) = x3= 2. Por otro lado x(2n+1) = x(62+1) = x4= 3. Luego: Me = x( n 2) + x(n2+1) 2 = x3+ x4 2 = 2 + 3 2 = 5 2 = 2.5

Esto significa que el 50% del total de las cajas consideradas en la muestra tienen menos de 2.5 duraznos en mal estado y que el 50% restante sobrepasa esa cantidad. J

(86)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Mediana

Mediana

Mediana en el caso de Variables Cuantitativas Discretas:    Me = x (n 2) +x (n 2+1) 2 si n es par Me = x(n+1 2 ) si n es impar

Otro ejemplo

Supongamos que ahora tenemos 7 cajas con duraznos donde la cantidad de fruta en mal estado en cada caja es 0,2,3,6,7,7,9.

Esto es: x1= 0, x2= 2, x3= 3, x4= 6, x5= 7, x6= 7 y x7= 9.

Claramente los datos est´an ordenados en forma creciente y n = 7 es impar. Luego, para hallar la mediana aplicaremos la f´ormula para muestras de tama˜no impar.

Lo que hay que hacer es encontrar el valor que ocupa la posici´on x(n+1

2 ) = x(7+12 ) = x4= 6.

Luego: Me = x4= 6.

Esto quiere decir la mitad de las cajas contienen menos de 6 duraznos en mal estado y que m´as de la mitad sobrepasa ese valor. J

(87)

En este caso es necesario contar con la columna que contenga las frecuencias acumuladas de cada intervalo (de clase o real da lo mismo).

La frecuencia absoluta de cada intervalo la denotaremos por Fi, i = 1, k.

Sean:

1 LIj: l´ımite inferior del primer intervalo tal que Fj≥ n2. Diremos que ese

intervalo contiene a la mediana.

2 j : ´ındice asociado con el intervalo que contiene la mediana. 3 fj: frecuencia absoluta del intervalo que contiene a la mediana.

4 F(j −1): frecuencia acumulada del intervalo anterior al de la mediana.

5 a: amplitud del intervalo que contiene a la mediana. Recordemos que a =rk o bien a = ls− li donde lsy li denotan los l´ımites superior e inferior

del intervalo, respectivamente.

De esta manera, la expresi´on anal´ıtica para calcular el valor de la mediana para datos agrupados es Me = LIj+ n 2− F(j −1) Fj− F(j −1) ! × a

(88)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Mediana

Mediana

Mediana para Variables Cuantitativas Continuas: Me = LIj+

n 2−F(j −1) Fj−F(j −1)  × a

Por ejemplo

Consideremos la tabla de frecuencias del precio de la libra de cobre expresada en centavos de d´olar. A dicha tabla le agregaremos la columna de las frecuencias acumuladas, que las denotaremos por Fi:

i Int. Clase Real fi mi Fi

1 [69.5, 73.5[ 7 71.5 7 2 [73.5, 77.5[ 4 75.5 11 3 [77.5, 81.5[ 10 79.5 21 4 [81.5, 85.5[ 6 83.5 27 5 [85.5, 89.5[ 2 87.5 29 6 [89.5, 93.5[ 1 91.5 30 Total 30 El tama˜no de la muestra n = 30. Luego n

2 = 15. El intervalo cuya frecuencia absoluta acumulada es inmediatamente superior a 15 es [77.5, 81.5[ ya que 21 es el primer valor de las frecuencias absolutas acumuladas que es mayor o igual a 15.

(89)

Ejemplo (Cont.)

Mirando la tabla se observa que este intervalo ocupa la posici´on asociada con el ´ındice 3. Luego, el valor de j = 3.

Por otro lado:

LIj= LI3= 77.5 F(j −1)= F(3−1)= F2= 11 Fj= F3= 21 a = 81.5 − 77.5 = 4 Luego: Me = LIj+ n 2− F(j −1) Fj− F(j −1) ! × a = 77.5 + 15 − 11 21 − 11  × 4 = 77.5 + 4 10× 4 = 79.1 Esto significa que en menos de la mitad de los valores observados, el precio de la libra de cobre no sobrepas´o los 79.1 centavos de d´olar. J

(90)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Moda

Moda

Moda en Variables Cualitativas y Cuantitativas Discretas

La moda corresponde al valor de la variable que ocupa la mayor frecuencia absoluta.

Para el caso de variables cualitativas y cuantitativas discretas, basta con observar la tabla de frecuencias y ver cu´al es el valor que tiene la mayor frecuencia absoluta.

La denotaremos por Mo.

Si existe empate entre diferentes valores con las frecuencias absolutas mayores, diremos que la muestra no tiene moda.

(91)

Por ejemplo

Consideremos la nacionalidad de auto preferida por la gente en una muestra que const´o de 40 personas. En este caso A significa alem´an, C coreano, J japon´es, F franc´es y B brasile˜no.

La tabla de frecuencias se muestra a continuaci´on: i Marca fi 1 A 6 2 C 12 3 J 10 4 F 8 5 B 4 Total 40

La mayor frecuencia absoluta es igual a 12. Luego, los autom´oviles de bandera coreana son los preferidos por la gente que particip´o en la encuesta. J

(92)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Moda

Moda

Moda en Variables Cuantitativas Discretas

Por ejemplo

Recordando el ejemplo del n´umero de autom´oviles que llegan a la estaci´on de servicio en 30 intervalos de 5 minutos y su tabla de frecuencias:

i Valor = xi fi 1 0 3 2 1 7 3 2 5 4 3 8 5 4 5 6 5 2 Total 30

Por simple inspecci´on se tiene que la m´axima cantidad de veh´ıculos que llegaron a la estaci´on de servicio en un intervalo de 5 minutos es igual a 8. J

(93)

Se construye la tabla de distribuci´on de frecuencias y se ubica el intervalo que contenga la mayor frecuencia absoluta. Sea LIj el l´ımite inferior de ese intervalo.

Si denotamos por fj a la frecuencia absoluta de ese intervalo, entonces:

f(j −1)corresponder´a a la frecuencia del intervalo anterior al que contiene

la moda.

fj +1ser´a la frecuencia absoluta del intervalo que viene inmediatamente a

continuaci´on del intervalo modal. Sean adem´as:

∆1= fj− f(j −1) ∆2= fj− fj +1 Entonces: Mo = LIj+  ∆1 ∆1+ ∆2  × a

(94)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Moda

Moda

Moda en Variables Cuantitativas Continuas: Mo = LIj+

 ∆1 ∆1+∆2  × a

Por ejemplo

Determinemos la moda del ejemplo del precio de la libra de cobre. Recordemos la tabla de frecuencias relacionada a ese problema:

i Int. Clase Real fi mi Fi

1 [69.5, 73.5[ 7 71.5 7 2 [73.5, 77.5[ 4 75.5 11 3 [77.5, 81.5[ 10 79.5 21 4 [81.5, 85.5[ 6 83.5 27 5 [85.5, 89.5[ 2 87.5 29 6 [89.5, 93.5[ 1 91.5 30 Total 30

El intervalo de clase que tiene la mayor frecuencia absoluta (10) es [77.5, 81.5[. El l´ımite inferior de este intervalo es igual a 77.5 y est´a asociado con el ´ındice 3. Luego j = 3 y en consecuencia LIj= LI3= 77.5. La amplitud a del intervalo es

(95)

Ejemplo (Cont.)

Adem´as:

fj= f3= 10

f(j −1)= f(3−1)= f2= 4.

f(j +1)= f(3+1)= f4= 6

Esto nos conduce a que

∆1= fj− f(j −1)= f3− f2= 10 − 4 = 6 ∆2= fj− f(j +1)= f3− f4= 10 − 6 = 4 Por lo tanto: Mo = LIj+  ∆1 ∆1+ ∆2  × a = 77.5 + 6 6 + 4× 4 = 77.5 + 6 10× 4 = 79.9, lo que significa que el valor del precio de la libra de cobre que m´as se repiti´o en la muestra fue de 79.9 centavos de d´olar. J

(96)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Estad´ıgrafos de Posici´

on

Introducci´on

Tambi´en conocidos como estad´ıgrafos de posici´on, son aquellos que dan informaci´on acerca del orden en la estructura de la muestra.

De comienzos del curso conocemos dos: el valor m´aximo y el m´ınimo. A contar de ahora asumiremos que la muestra de datos se encuentra ordenada en orden creciente. Esto es: x1≤ x2≤ · · · ≤ xn.

De esta manera: xmin= x1y xmax= xn.

Centraremos nuestra atenci´on en describir algunos valores de localizaci´on que permiten dividir la muestra en varias partes iguales con el objetivo de ir viendo c´omo se concentran los datos que se alojan en ella.

(97)

Los percentiles son n´umeros que dividen a la muestra en 100 partes iguales.

En total tenemos 99 percentiles y denotaremos por Pk al percentil de

orden k, con k = 1, 99.

El percentil Pk divide a la muestra en dos partes:

una a la izquierda de Pk que contiene al k% inferior de las

observaciones.

una a la derecha de Pkque contiene al (100 − k)% de las

observaciones.

Entre dos percentiles consecutivos est´a contenido un 1% de la muestra. El c´alculo de cada percentil se har´a dependiendo del tipo de variable que est´e en juego.

(98)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

alculo de Percentiles

Variable Cuantitativa Discreta

Sea Lk la posici´on del percentil que andamos buscando.

Expl´ıcitamente: Lk= n × k 100 Entonces: Pk=          xdLke , si Lk no es un n´umero entero xLk+ xdL(k+1)e 2 , si Lk es entero

Por notaci´on: dLke corresponde al n´umero entero que es inmediatamente

(99)

Al igual que en el c´alculo de la mediana, requerimos contar con la columna correspondiente a la frecuencia acumulada de cada intervalo.

La frecuencia absoluta de cada intervalo la denotaremos por Fi, i = 1, k.

Si buscamos el percentil de orden m, definamos:

1 LIj: l´ımite inferior del primer intervalo tal que Fj≥m×n100. Diremos que ese

intervalo contiene al percentil que andamos buscando. 2 j : ´ındice asociado con el intervalo que contiene al percentil. 3 fj: frecuencia absoluta del intervalo que contiene al percentil.

4 F(j −1): frecuencia acumulada del intervalo anterior al percentil.

5 a: amplitud del intervalo que contiene al percentil. Recordemos que a =rk.

De esta manera, la expresi´on anal´ıtica para calcular el percentil de orden m es Pm= LIj+ m×n 100 − F(j −1) Fj− F(j −1) ! × a, m = 1, 99

(100)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Algunos Percentiles de inter´

es

Cuartiles, Deciles, Quintiles

Existen percentiles que son ampliamente utilizados y que llevan nombre propio. Entre ellos destacan los cuartiles, quintiles y deciles.

Los cuartiles dividen la muestra en 4 partes iguales. Se denotan por Q1, Q2, Q3.

Los quintiles dividen la muestra en 5 partes iguales. Se denotan por C1, C2, C3, C4.

Los deciles dividen la muestra en 10 partes iguales. Se denotan por D1, D2, D3, D4, D5, D6, D7, D8, D9.

(101)

Me = P50= Q2= D5

C4= P80= D8

C1= D2= P20

(102)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Algunos Percentiles de inter´

es

Observaci´

on

La forma de calcularlos se basa en buscar la equivalencia con el percentil correspondiente (esto siempre se puede hacer).

Luego aplicar la f´ormula correspondiente como si se tratara de un percentil de orden k ya sea si la variable en juego es cuantitativa discreta o continua.

(103)

Pk=         dLke k xLk + xdL(k+1)e 2 , si Lk es entero

Por ejemplo

Determinar los valores de Q3, D7y P42para los elementos de la siguiente

muestra: 4, 7, 8, 10, 15, 20, 24, 24, 25, 25.

En primer lugar la muestra tiene un total de n = 10 valores que son x1= 4, x2= 7, x3= 8, x4= 10, x5= 15, x6= 20, x7= 24, x8= 24, x9= 25 y

x10= 25.

Por otro lado, en virtud de la equivalencia existente entre los estad´ıgrafos existentes podemos afirmar que el problema se reduce a encontrar los percentiles P75, P70y P42.

(104)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

alculo de Percentiles de orden k, k = 1, 99

Variable Cuantitativa Discreta.

Pk=          xdLke , si Lk no es un n´umero entero xLk + xdL(k+1)e 2 , si Lk es entero

Hallar P

75

, P

70

y P

42

para la muestra

4, 7, 8, 10, 15, 20, 24, 24, 25, 25

Para Q3= P75consideramos k = 75 y calculamos

Lk=

k × n 100 =

75 × 10 100 = 7.5.

Como 7.5 no es un n´umero entero, diremos que P75= xdLke= xd7.5e= x8= 24.

Luego P75= 24. Se interpreta como que el 75% de las observaciones est´an por

(105)

Pk=         dLke k xLk + xdL(k+1)e 2 , si Lk es entero

Hallar P

75

, P

70

y P

42

para la muestra

4, 7, 8, 10, 15, 20, 24, 24, 25, 25

Para el caso de D7= P70consideramos k = 75 y calculamos

Lk=

k × n 100 =

70 × 10

100 = 7. Como Lk= L70= 7 es entero, deberemos calcular el valor de Lk+1= L(70+1)= L71= 71×10100 = 7.1 ⇒ dL71e = 8 De esta manera: P70= xLk+ xL(k+1) 2 = x7+ x8 2 = 24 + 24 2 = 24

(106)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

alculo de Percentiles de orden k, k = 1, 99

Variable Cuantitativa Discreta.

Pk=          xdLke , si Lk no es un n´umero entero xLk + xdL(k+1)e 2 , si Lk es entero

Hallar P

75

, P

70

y P

42

para la muestra

4, 7, 8, 10, 15, 20, 24, 24, 25, 25

Finalmente para encontrar el valor de P42hacemos k = 42, con lo cual

Lk=42×10100 = 4.2.

Como 4.2 no es un n´umero entero se sigue que P42= xdLke= xd4.2e= x5= 15.

(107)

Fj−F(j −1) 100

Por ejemplo

Encontrar los valores de Q1, D3y P45para los datos de una muestra cuya

tabla de frecuencia es

i Int. Clase Real fi Fi

1 [45, 55[ 6 6 2 [55, 65[ 10 16 3 [65, 75[ 19 35 4 [75, 85[ 11 46 5 [85, 95[ 4 50 Total 50

Es necesario precisar que, en virtud de la equivalencia existente cuartiles, quintiles y deciles con los percentiles, nuestro problema se reduce a hallar Q1= P25, D3= P30y P45.

(108)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

alculo de Percentiles de orden k, k = 1, 99

Variable Cuantitativa Continua: Pk= LIj+

k×n 100−F(j −1) Fj−F(j −1)  × a, k = 1, 99, Fj≥ k×n100

Hallar Q

1

= P

25

, D

3

= P

30

y P

45

Para Q1= P25deberemos encontrar el intervalo cuya frecuencia

acumulada sea inmediatamente superior a k×n

100, con k = 25 y n = 50. Es

decir, mayor o igual que 25×50100 = 12.5.

Dicho intervalo es [55, 65[ cuyo l´ımite inferior es 55 y cuyo ´ındice asociado j = 2 y cuya amplitud vale a = 65 − 55 = 10.

As´ı: Fj= F2= 16, F(j −1)= F(2−1)= F1= 6.

Luego Q1= P25= 55 +50/4−616−6 × 10 = 61.5.

Esto se interpreta como que el 25% de los datos es menor o igual que 61.5 y que el 75% restante es mayor que ese n´umero.

(109)

Fj−F(j −1) 100

Hallar Q

1

= P

25

, D

3

= P

30

y P

45

En forma an´aloga se concluye que:

D3= P30= 55 + 30×50 100 − 6 16 − 6 × 10 = 64 (segundo intervalo) P45= 65 + 45×50 100 − 16 35 − 16 × 10 = 68.4 (tercer intervalo) J

(110)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Diagrama de Cajas

Box and Whisker Plot

Presentaci´on visual que describe al mismo tiempo varias caracter´ısticas importantes de un conjunto de datos tales como:

centro dispersi´on

alejamiento de la simetr´ıa

identificaci´on de valores extremos (puntos at´ıpicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.

Sus ingredientes principales son los 3 cuartiles. Recordemos que la mediana es el cuartil de orden 2 o bien Q2.

(111)

1 Calcular la mediana y los otros dos cuartiles, con los cuales se formar´a la caja, que tiene la mediana como eje central y como lados los dos cuartiles. Estos cuartiles reciben tambi´en los nombres de “bisagras”. La altura (anchura) de la caja no interesa.

2 Calculamos el rango intercuart´ılico RIC = Q3− Q1.

3 Calculamos el paso P = 1.5 × RIC .

4 Determinamos las cercas internas que est´an a un paso de los cuartiles o bisagras. Tenemos la

Cerca Interna Inferior CIi = Q1− P

Cerca Interna Superior CIs = Q3+ P

Si la cerca interna inferior da menor que el valor m´ınimo de la muestra, ´esta se hace igual al valor m´ınimo; igualmente, si la cerca interna superior da mayor que el valor m´aximo, ´esta se hace igual a dicho valor.

5 “Valores extremos” son los ubicados entre las dos cercas y merecen especial atenci´on, ya que pueden ser valores at´ıpicos, que en algunos casos no pertenecen realmente a la distribuci´on general de donde provienen los datos.

(112)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Diagrama de Cajas

Por ejemplo

Imaginemos que tenemos una variable a partir de cuya tabla de frecuencias se pueda extraer la siguiente informaci´on:

Primer Cuartil Q1= 7.0

Segundo Cuartil Q2= Me = 7.8

Tercer Cuartil Q3= 8.8

Recorrido Intercuart´ılico RIC = Q3− Q1= 8.8 − 7.0 = 1.8

Paso P = 1.5 × RIC = 1.5 × 1.8 = 2.7

Cerca Interna Inferior CIi = Q1− P = 7.0 − 2.7 = 4.3

(113)

La gr´

afica queda de esta manera

CIi = 4.3 CIe = 11.5 Q1 = 7.0 Q2 = Me = 7.8 Q3 = 8.8 RIC = Q3 - Q1 = 1.8

(114)

EYGDD *.* - Curso Completo Estad´ıgrafos de Tendencia Central

Medidas de Localizaci´on: Cuartiles, Deciles, Percentiles

Diagrama de Cajas

Interpretaci´on

La mitad de los datos es inferior a 7.8

La mitad de los datos toman valores entre 7.0 y 8.8

La primera mitad de los datos (antes del primer cuartil) son menores que 7.0

La cuarta parte de los datos (25%) toman valores entre 7.0 y 7.8 El 25% de los datos toman valores entre 7.8 y 8.8

Despu´es del tercer cuartil, el 25% de los datos son mayores que 8.8 La mayor´ıa de los datos se concentran entre 7.0 y 8.8

Los valores que sean menores que 4.3 o superiores a 11.5 son at´ıpicos.

(115)

Las medidas de tendencia central no proporcionan suficiente informaci´on para una adecuada descripci´on de los datos, porque no toman en cuenta la variabilidad o dispersi´on de los mismos.

Luego, para completar la interpretaci´on que pueda deducirse y para evitar falsas interpretaciones, es necesario acompa˜nar el valor medio con un coeficiente que mida el grado de dispersi´on de la distribuci´on de la variable.

Dentro de los estad´ıgrafos de dispersi´on que vamos a estudiar se encuentran el rango, varianza, desviaci´on est´andar y coeficiente de variaci´on porcentual.

(116)

EYGDD *.* - Curso Completo Estad´ıgrafos de Dispersi´on

Rango

Estad´ıgrafos de Dispersi´

on

Rango

El rango es igual a la diferencia entre los valores m´aximos y m´ınimos presentes en una muestra.

Este posee la ventaja de su independencia respecto de la media de tendencia central y de la facilidad de su c´alculo; sin embargo tiene la desventaja que para su c´alculo se toman s´olo dos valores del conjunto. Se denota por r y es igual a r = xmax− xmin.

(117)

Corresponde al promedio de los cuadrados de las distancias entre cada observaci´on y la media aritm´etica del conjunto de observaciones. Se denota por S2.

En el caso de variables cuantitativas discretas que puedan tomar k valores distintos x1, . . . , xk con frecuencias absolutas f1, . . . , fk:

S2= k P i =1 xi− X 2 × fi n − 1 , n 6= 1

Para el caso de variables cuantitativas continuas donde las marcas de clase m1, . . . , mktienen frecuencias absolutas f1, . . . , fk:

S2= k P i =1 mi− X 2 × fi n − 1 , n 6= 1

(118)

EYGDD *.* - Curso Completo Estad´ıgrafos de Dispersi´on

Varianza

Estad´ıgrafos de Dispersi´

on - Varianza en caso discreto

S2= k P i =1( xi−X)2×fi n−1 , n 6= 1

Por ejemplo

Encontrar la varianza para los siguientes valores: 3,4,6,7.

En primer lugar encontremos la media aritm´etica de ellos: X = 3+4+6+7 4 = 5.0

A la tabla de frecuencias le vamos a agregar el dato de (xi− X )2× fi:

i xi fi (xi− X )2× fi 1 3 1 (3 − 5.0)2× 1 = 4 2 4 1 (4 − 5.0)2× 1 = 1 3 6 1 (6 − 5.0)2× 1 = 1 4 7 1 (7 − 5.0)2× 1 = 4 Total 4 10 De acuerdo a esto tenemos que

k P i =1  xi− X 2 × fi= 10. Por lo tanto S2= k P i =1( xi−X)2×f i n−1 = 10 3 = 3.3 J

(119)

S2= k P i =1 mi− X 2 × fi n − 1 , n 6= 1

Consideremos la siguiente tabla de frecuencias: i Int. Clase Real mi fi mi× fi

 mi− X 2 × fi 1 [5.2, 6.1[ 5.65 3 16.95 (5.65 − 7.87)2× 3 = 14.79 2 [6.1, 7.0[ 6.55 5 32.75 (6.55 − 7.87)2× 5 = 8.71 3 [7.0, 7.9[ 7.45 9 67.05 (7.45 − 7.87)2× 9 = 1.59 4 [7.9, 8.8[ 8.35 7 58.45 (8.35 − 7.87)2× 7 = 1.61 5 [8.8, 9.7[ 9.25 5 46.25 (9.25 − 7.87)2× 5 = 9.52 6 [9.7, 10.6[ 10.15 3 30.45 (10.15 − 7.87)2× 3 = 15.60 Total 32 251.9 51.81 X =251.932 = 7.87

(120)

EYGDD *.* - Curso Completo Estad´ıgrafos de Dispersi´on

Varianza

Estad´ıgrafos de Dispersi´

on Varianza en caso continuo

-Ejemplo

S2= k P i =1 mi− X 2 × fi n − 1 , n 6= 1 Como X = 7.87 y k P i =1 (mi− X )2× fi= 51.81 se concluye que S2= k P i =1 mi− X 2 × fi n − 1 = 51.81 31 = 1.67 J

(121)

La desviaci´on est´andar — denotada por S — corresponde a la ra´ız cuadrada positiva de la varianza. Es decir:

S = + √

S2

Para efectos de estudio se prefiere trabajar con la desviaci´on est´andar en lugar de la varianza, ya que es compatible con la dimensionalidad de los datos. Se interpreta de la siguiente manera: “Es la distancia media que existe entre todas las observaciones respecto del valor central, esto es, de la media”. En el ejemplo anterior de varianza en el caso discreto se tiene que S = +

S2=3.3 = 1.82 y en el caso del ejemplo continuo es igual a

Referencias

Documento similar

El primer grupo contiene las herramientas para el profesor, cuyo objetivo es permitirle agilizar su trabajo con los dispositivos durante la clase, permitiendo realizar acciones

Este trabajo presenta los resultados de la investigación realizada en el Hospital Maternidad Babahoyo, cuyo objetivo fue desarrollar una estrategia para la gestión de

A la tabla de frecuencias es conveniente añadirle información sobre el número de datos cuyo valor numérico es menor o igual que el límite superior de cada clase; este número recibe

Cuando los datos están agrupados en distribuciones de frecuencias cuyas clases presenten igual amplitud, se toma el punto medio de la clase con mayor frecuencia absoluta como

1.5 En operaciones de reporto con Contrapartes sobre los Instrumentos cuyo plazo por vencer sea igual o inferior a un año, que cumplan con las calificaciones crediticias previstas

Aunque vemos en la tabla que los límites superiores de un intervalo coinciden con el límite inferior del intervalo siguiente, los corchetes cerrados nos indican que ese valor

Para calcular la media de datos agrupados el primer paso es determinar el punto medio de cada intervalo o clase.. Estos puntos medios deben entonces ser

Para imputar los restantes datos faltantes, en rachas de longitud inferior a 40 datos, tras intentar identificar algunos segmentos con igual número de datos y que, por el análisis