estadistica_descriptiva.pdf

(1)

Estad´ıstica Descriptiva.

Material realizado para trabajar guiado.

Marcela Ribas

(2)

1. Introducci´on 3

1.1. Introducci´on . . . 3

1.1.1. La Estad´ıstica y el M´etodo Cient´ıfico. . . 4

1.1.2. ¿Qu´e entendemos por Estad´ıstica? . . . 5

1.1.3. Etapas de un estudio estad´ıstico . . . 6

2. La Estad´ıstica Descriptiva 11 2.1. Introducci´on . . . 11

2.2. Descripci´on de una variable . . . 12

2.2.1. Esquema: T´ecnicas para resumir informaci´on . . . 12

2.3. Conceptos generales. . . 13

2.3.1. Variables categ´oricas o de atributo o cualitativas. . . 13

2.3.2. Variables Cuantitativas . . . 14

2.4. Variables Cualitativas Nominales . . . 16

(3)

´INDICE GENERAL 1

2.4.2. Gr´aficos . . . 19

2.4.3. Medidas de Resumen . . . 20

2.5. Variables Cualitativas Ordinales . . . 21

2.5.1. Tabla de Frecuencias . . . 22

2.5.2. Gr´aficos . . . 23

2.5.3. Medidas de Resumen . . . 27

2.6. Variables cuantitativas, no agrupadas en intervalos . . . 30

2.6.1. Tabla de frecuencias . . . 31

2.6.2. Gr´aficos . . . 31

2.6.3. Medidas de resumen para variables cuantitativas no agru-padas en intervalos . . . 34

2.7. Variablebles cuantitativas agrupadas en intervalos . . . 39

2.7.1. Tabla de la Distribuci´on de Frecuencias . . . 39

2.7.2. Gr´aficos . . . 42

2.7.3. Medidas de resumen . . . 44

2.7.4. Medidas de dispersi´on . . . 51

(4)

(5)

Cap´ıtulo 1

Introducci´

on

1.1. Introducci´

on

La forma de pensar llamada “estad´ıstica” se ha vuelto importante para todos los profesionales: no sólo para aquéllos que están dedicados a la ciencia o a los negocios, sino también le preocupa a personas que quieren ayudar a hacer del mundo, un mejor lugar.

Pero, ¿qué es estad´ıstica? y ¿qué puede ésta hacer?.

Hay definiciones y percepciones populares de los que significan “las estad´ısticas”. Vemos “estad´ısticas de vida” en el diario: nacimientos, defunciones, matrimonios, divorcios, etc. El uso p´ublico de la palabra “estad´ısticas” es ampliamente variado y la mayor parte de las veces indica una lista de n´umeros o datos.

(6)

1.1.1. La Estad´ıstica y el M´

etodo Cient´ıfico

¿Alguna vez te has preguntado cómo se llega a la verdad acerca de los fenómenos que interesan al ser humano? ¿Cómo se sabe que el cigarrillo causa cáncer o cómo se sabe que la vitamina C ayuda a prevenir el resfr´ıo?.

El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de conocimiento:

La autoridad:algo era cierto sólo porque una cierta autoridad, llámese rey, iglesia o autoridad cient´ıfica, lo afirmaba. Esta fuente de conocimiento se basa en la fé de las personas o en la incapacidad de verificar, por s´ı mismas la veracidad del conocimiento que aceptan como válido.

La razón: el racionalismo es un método que utiliza exclusivamente el ra-zonamiento para llegar al conocimiento. Supone que si las premisas son válidas y el razonamiento se realiza de manera correcta, de acuerdo con las reglas de la lógica, entonces las conclusiones llegarán a la verdad. Sin embargo , existe un gran número de situaciones en que el solo razonamiento es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso en que existen dos explicaciones lógicas razonables para un fenómeno; y por s´ı sola la razón resulta inadecuada para distinguir entre ellas.

La intuición: a través de ella, muchos cient´ıficos han comenzado a dar forma a sus teor´ıas, o han resuelto intrincados problemas que se negaban a ser resueltos a través de la razón. Sin embargo, a pesar de que la intuición ha sido utilizada como fuente de conocimiento durante toda la existencia de la humanidad, sigue siendo un proceso misterioso acerca del cual sólo tenemos una comprensión muy rudimentaria.

(7)

1.1 Introducción 5 intuición para llegar a la verdad, se fundamenta en una evaluación objeti-va, que es lo que lo distingue de los otros métodos. El método cient´ıfico es bastante directo: por algún medio, generalmente un razonamiento deducti-vo a partir de la teor´ıa existente o una inducción a partir de hechos reales o a través de la intuición, el cient´ıfico llega a una hipótesis sobre cierta par-ticularidad de la realidad. Entonces el investigador diseña un experimento para verificar de manera objetiva dicha hipótesis. Los datos, resultado del experimento, posteriormente se analizan en forma estad´ıstica y la hipótesis se acepta o se rechaza.

La caracter´ıstica más importante de esta metodolog´ıa es que no importa lo que el cient´ıfico crea que es verdadero con respecto a la hipótesis en cuestión, pues el experimento proporciona una base para una evaluación objetiva de dicha hip´ ote-sis.

Aqu´ı es donde la Estad´ıstica cobra un papel relevante: uno de sus principales objetivos es evaluar, en forma cient´ıfica, las afirmaciones o hip´otesis planteadas por el investigador.

1.1.2. ¿Qu´

e entendemos por Estad´ıstica?

(8)

Por ejemplo, ciertas investigaciones manejan la hipótesis de que está aumentando la cantidad de adolescentes con altos niveles de azúcar en sangre, los cuales corren el riesgo de desarrollar diabetes, en algún momento de su vida. Para comprobar la veracidad de dicha hipótesis se recogen muestras de sangre en ayunas de un grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y as´ı se cuenta con 500 datos a ser ordenados y analizados por la Estad´ıstica Descriptiva, a partir de las herramientas con que ésta cuenta, las cuales veremos en detalle más adelante.

Si queremos extraer conclusiones generales, como por ejemplo saber cu´al es el nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero debemos indicar, por ejemplo, un margen de error que nos permita generalizar dicho dato particular. Aqu´ı utilizaremos las herramientas de la Estad´ıstica In-ductiva y trataremos de conocer, por ejemplo, cu´al es la probabilidad de que un adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de sangre lo que lo llevar´ıa a tener diabetes.

Por último, a partir de las conclusiones obtenidas de este trabajo de investigación, si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes, las autoridades de la ciudad pueden tomar medidas de pol´ıtica tendientes a re-vertir dicha situación en el futuro, por ejemplo, fomentar los hábitos saludables de alimentación en la escuela, prohibiendo la venta de golosinas dentro de los establecimientos escolares.

1.1.3. Etapas de un estudio estad´ıstico

(9)

1.1 Introducci´on 7

a) Definir el objetivo de la investigaci´on.

Por ejemplo: diversas Organizaciones internacionales han dirigido su atención sobre un reciente fenómeno: se observa una disminución de los umbrales de percepción auditiva en niños, adolescentes y jóvenes, provocada por exposición a altos niveles sonoros.

En particular, en Argentina es cada vez mayor el porcentaje de j´ ove-nes aspirantes al ingreso laboral que son rechazados por problemas de audición. El objetivo de una investigación al respecto, puede ser, entre otros, determinar, comprender y evaluar el conjunto de los diversos factores que pueden contribuir al desarrollo de las hipoacusias tem-pranas en adolescentes en dicho pa´ıs, con el fin de realizar acciones tendientes a la prevención de esta problemática social.

b) Definir la poblaci´on o universo: es el conjunto completo de indivi-duos, objetos o datos que el investigador est´a interesado en estudiar. En el caso del ejemplo anterior, ser´ıan todos los adolescentes argenti-nos.

c) Definir el tipo de informaciónque se desea extraer de los elementos de la población: podr´ıan ser un conjunto de preguntas, observaciones o mediciones dirigidas hacia dichos elementos. A partir de la infor-mación anterior, se construirán variables: son cualquier propiedad o caracter´ıstica de los elementos de la población, que puede ser de interés para el investigador en el sentido de contribuir a lograr el objetivo de su estudio.

(10)

1) Se les puede chequear la capacidad de audici´on, medida en canti-dad de decibeles m´ınimos que pueden percibir.

2) Preguntar cu´antas veces al mes concurren a locales con m´usica por encima de 100 decibeles.

3) Preguntar si viven cerca de algún aeropuesto, fábrica u otro edifi-cio que provoque contaminación sonora.

4) Preguntar cu´antos minutos al d´ıa escuchan m´usica con auriculares. De lo anterior surgen las siguientes variables:

Variable 1: Capacidad de audici´on, en decibeles m´ınimos percibidos.

Variable 2: Cantidad de veces al mes que concurren a locales con m´usica por encima de 100 decibeles.

Variable 3: Se la define como 1: si el estudiante vive cerca de alg´un edificio que provoque contaminaci´on sonora; y 0: en caso contrario. Variable 4: Tiempo, medido en minutos al d´ıa, en que el estudiante escucha

m´usica con auriculares.

2. _{Recogida de la Informaci´}_{on Muestral}

Por lo general, no se puede disponer del valor de todas las variables para todos los elementos de la población, por ejemplo por razones económicas. Entonces se seleccionan algunos de sus elementos: a este subconjunto de la población se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y en el cuestionario que ésta incluye, se plantean las tres preguntas anteriores, además de realizarles un chequeo auditivo.

(11)

1.1 Introducción 9 Consiste en procedimientos estad´ısticos que sirven para organizar y resu-mir, de diversas formas de acuerdo a nuestro interés, un conjunto de datos obtenidos de la realidad. Los conjuntos de datos no organizados resultan de poco valor. Sin embargo se dispone de técnicas estad´ısticas para organizar este tipo de datos en forma significativa: tablas de frecuencias, gráfico de barras, histograma, medidas de resumen, entre otros.

Aqu´ı se toman los 1000 formularios que resultaron de la encuesta anterior y con la ayuda de las herramientas de la Estad´ıstica Descriptiva se organizan y analizan todos los datos que éstos contienen. Y se sacan conclusiones particulares, en relación a esa parte de la población que fue estudiada. Por ejemplo, se podrá conocer cuántos minutos por d´ıa, en promedio, estos 1000 adolescentes, escuchan música con auriculares. Y también se podrá saber cuál es el porcentaje, entre ellos, que concurren más de una vez por semana a locales con música a un volúmen por encima de 100 decibeles, lo cual es nocivo para su salud auditiva.

4. Inferencia Estad´ıstica

Una vez organizados, analizados y resumidos los datos de la muestra, po-demos tratar de ver más allá de lo que esta muestra nos presenta: podemos buscar conocer caracter´ısticas generales de la población, a partir de las caracter´ısticas particulares que nos presenta la muestra. Con este fin exis-ten distinstas técnicas estad´ısticas como son la estimación o la prueba de hipótesis.

(12)

Sabiendo cuántos minutos por d´ıa, en promedio, estos 1000 adolescentes, escuchan música con auriculares (dato aportado por la Estad´ıstica Des-criptiva), se puede “estimar”, con cierto margen de error prefijado por el investigador, cuál es dicho promedio pero entre todos los adolescentes argentinos.

(13)

Cap´ıtulo 2

La Estad´ıstica Descriptiva

2.1. Introducci´

on

(14)

2.2. Descripci´

on de una variable

2.2.1. Esquema: T´

ecnicas para resumir informaci´

on

El objetivo de la Estad´ıstica Descriptiva es extraer la informaci´on contenida en un conjunto de observaciones o datos. Para ello cuenta con una serie de t´ecnicas:

Tablas de distribuci´on de frecuencias: conteniendo las distintas: frecuencias correspondientes a cada categor´ıa.

Gr´aficos y funciones:

Gr´afico de barras (variables cualitativas).

Histograma de frecuencias (variables cuantitativas) y pol´ıgono de fre-cuencias.

Ojiva o gráfico de la función de distribución acumulada emp´ırica F∗ (variables cuantitativas y cualitativas ordinales). También llamado pol´ıgono de frecuencias acumuladas.

Diagrama de tallos y hojas.

Diagrama de caja

Medidas de resumen:

Medidas de posici´on

Medidas de dispersi´on

Medidas de forma

(15)

2.3 Conceptos generales 13

2.3. Conceptos generales

Recorrido y tipos de Variables:

Es el conjunto de todos los valores que, en teor´ıa, puede tomar la variable. De acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican en dos grandes grupos:

1. las variables categ´oricas o cualitativas o de atributos, 2. y las variables medibles o cuantitativas.

2.3.1. Variables categ´

oricas o de atributo o cualitativas

Son aqu´ellas que no son cuantificables, es decir que para su recolecci´on no in-tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos

categor´ıa, puede ser asociado con un n´umero, con la ´unica finalidad de simpli-ficar el procesamiento de los datos.

Por ejemplo, son variables cualitativas (entre par´entesis est´a un posible recorrido):

1. el color de ojos(1.negros, 2.casta˜nos, 3.grises, 4.celestes, 5.verdes, 6.otro ) 2. sexo de nacimiento: (1.mujer, 2.hombre).

3. el rendimiento acad´emico (1.bajo, 2.promedio, 3.sobre). 4. el estado nutricional (1.bueno, 2.regular, 3.malo).

(16)

Los otros dos ejemplos son de variables cualitativas ordinales, llamadas as´ı pues existe un orden particular preestablecido entre los diferentes valores que puede tomar una variable.

Mientras que entre los valores de las variables nominales s´olo podemos comparar si son iguales o distintos, entre los de las variables ordinales podemos establecer la relaci´on ”mayor que.o _{“menor que”.}

2.3.2. Variables Cuantitativas

Son variables que resultan de contar o medir ciertas caracter´ısticas de los ele-mentos de la muestra. Se expresan numéricamente, y dichos valores se usarán algebraicamente a fin de realizar cálculos, a diferencia de los números asignados a las variables cualitativas.

Ejemplos de dichas variables:

1. Cantidad de hijos, que tiene una mujer mayor de 40 a˜nos.

2. Cantidad de cigarrillos fumados por d´ıa, por los estudiantes de Biolog´ıa. 3. La estatura de un jugador de basquetball.

4. El tiempo de recuperaci´on de los pacientes operados de apendicitis.

Dentro de este grupo de variables, se distingue entre variables discretas o conti-nuas. Los dos primeros ejemplos son de variablescuantitativa discretas, llama-das as´ı pues entre dos valores de la variable no siempre existe otro: por ejemplo una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos son de variables cuantitativas continuas pues dados dos valores de la variable

(17)

2.3 Conceptos generales 15 cm, y podemos seguir subdividiendo los intervalos y siempre, en teor´ıa, podremos encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nues-tros instrumentos de medicion, llegará un momento, que no tendrán la presición adecuada como para notar diferencias.

Categor´ıas:

Son los distintos grupos, entre los cuales podemos clasificar los distintos valores que toma una variable. Surgen de partir su recorrido. Muchas veces las categor´ıas pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el caso de las variables continuas, cuyo recorrido está formado por infinitos números y entonces debemos particionar su recorrido en intervalos, que serán nuestras categor´ıas.

Sea cual sea el tipo de variable, las categor´ıas en las cuales se agrupan los diferentes valores que toma la variable, deben serexhaustivas y mutuamente excluyentes.

Categor´ıas exhaustivas:´estas cubren todo el recorrido. Cualquier obser-vaci´on se debe poder colocar en alguna categor´ıa; por ejemplo, si la persona se niega a contestar, se la coloca en la categor´ıa no sabe, no contesta.

Categor´ıas mutuamente excluyentes: no se deben superponer. Cual-quier observación se debe colocar sólo en una categor´ıa, no debe haber ambigüedades.

Ejemplos:

(18)

Recorrido de X : {0; 1; 2; 3; 4; 5; 6; 7}. Puedo considerar como categor´ıas exactamente el recorrido de la variable; o sino podr´ıa considerar como ca-tegor´ıas: {{0};{1; 2};{3; 4; 5},{6; 7}}.

2. Variable Y: peso de los beb´es en kg, nacidos a t´ermino.

Posible recorrido: [2,3; 5] . Puedo tomar como categor´ıas los siguientes in-tervalos:{[2,3,2,5),[2,5; 3,5); [3,5; 3,9); [3,9; 5]}, u otros, dependiendo de los intervalos que sean de inter´es.

Observaci´on:

1. Los intervalos no tienen por qu´e tener todos igual amplitud.

2. Los intervalos que son válidos son los del tipo [ ; ) o ( ; ]. Si los intervalos son todos ( ; ), no cumplen con la caracter´ıstica de la exhaustividad, pues los valores de los extremos no están incluidos en ningún intervalo. Si los in-tervalos son todos [ ; ], no cumplen con la caracter´ıstica de ser mutuamente excluyentes, pues se superponen.

2.4. Variables Cualitativas Nominales

Ejemplo 1

X =tipo de música que prefiere. El recorrido de X se agrupa, a elección del in-vestigador, en las categor´ıas siguientes {rock (incluye pop, heavy), salsa (incluye ritmos latinoamericanos), new age, folklore, melódico (incluye boleros), tango, clásica, otros}.

(19)

2.4 Variables Cualitativas Nominales 17

rock, folklore, rock, new age, cl´asica, rock, folklore, salsa, rock, mel´odico .

Esta disposición de los datos no facilita la comprensión de la información que aportan sobre el comportamiento de la variable en la muestra.

En muchos casos, el número de observaciones hace muy dif´ıcil llegar a conclusio-nes inmediatas e interesantes sobre la variable de interés. Entonces organizamos dichos datos en una tabla de distribución de frecuencias.

2.4.1. Tabla de distribuci´

on de frecuencias para variables

Cualitativas Nominales

Comencemos haciendo la tabla de frecuencias para el ejemplo 1:

Categor´ıas ni hi

Rock //// 4 0.4 Salsa / 1 0.1 New Age / 1 0.1 Folklore // 2 0.2 Mel´odico / 1 0.1

Tango 0 0

Cl´asica / 1 0.1

Otros 0 0

total n =10 1

UnaTabla de distribuci´on de Frecuencias es un m´etodo estad´ıstico muy

´

(20)

frecuencias absolutas: ni, es el n´umero de observaciones de cada categor´ıa.

frecuencias relativas:hi, es la proporci´on de observaciones de cada categor´ıa:

hi =

ni

n

Observaci´on: El porcentaje de observaciones de cada categor´ıa eshi·100.

El Inter´es fundamental de las frecuencias relativas es permiten comparar las pro-porciones asignadas a cada categor´ıa, entre muestras de distintos tama˜nos.

Algunas propiedades sobre la tabla de frecuencias son:

las frecuancias absolutas son simpre menores a la cantidad de observaciones, 0< ni < n.

La suma de todas las frecuencias absolutas es igual a n ( tama˜no de la muestra).

X

i

ni =n

Esto se cumple porque las categor´ıas son exhaustivas y mutuamente exclu-yentes; si no fueran exhaustivas las frecuencias absolutas sumar´ıan menos de n; y si no fueran mutuamente excluyentes sumar´ıan m´as de n.

las frecuancias relativas son simpre menores a 1, 0< hi <1.

La suma de todas las frecuencias relativas es 1:

X

i

hi = 1.

(21)

2.4 Variables Cualitativas Nominales 19

Observaci´on: El extremo superior de las sumatorias no es n; var´ıa con cada problema, y con cada forma de agrupar los datos: representa la cantidad de categor´ıas.

2.4.2. Gr´

aficos para Variables Cualitativas Nominales

Gr´afico o Diagrama de Barras

El Diagrama de Barras es una forma alternativa a la tabla de frecuencias, de presentar la informaci´on, que permite visualizar de manera mas sencilla la distri-buci´on de frecuencias de una variable cualitativa.

En el eje horizontal van los valores que toma la variable (categor´ıas o clases). En el eje vertical pueden ir las frecuencias absolutas o las relativas. La diferencia entre ellas es sólo de escala. Pero generalmente se utilizan las frecuencias relativas, porque la altura de cada barra será entonces la proporción que se obtuvo para esa clase o categor´ıa.

Las barras deben poseer el mismo espesor, pues al diferencia esta dada sólo por las alturas; y deben guardar una distancia razonable que facilite su visualización. La gráfica debe estar bien centrada, para lo cual deben observarse los valores extremos, de modo que no queden desproporcionados.

En la figura2.1 realizamos el Gr´afico de Barras del ejemplo 1.

Pictograma o Diagrama Circular

(22)

Figura 2.1: Grafico de Barras con frecuencias relativa para el ejemplo 1

En la figura 2.2 realizamos el Pictograma del ejemplo 1.

2.4.3. Medidas de Resumen para Variables Cualitativas

Nominales

Moda o Modo

La moda es la clase o categor´ıa que tiene la mayor frecuencia relativa (o absoluta). En otras palabras, la categor´ıa con m´as cantidad de observaciones ( o proporci´on). En nuestro ejemplo el modo es rock.

El Modo es la medida natural con que se describe una variable cualitativa, pues es el valor más representativo, por ser el más frecuente. Observar que puede existir más de una clase con la máxima frecuencia relativa. En ese caso, el modo no es ´

(23)

2.5 Variables Cualitativas Ordinales 21

Figura 2.2: Pictograma con porcentajes para el ejemplo 1

2.5. Variables Cualitativas Ordinales

Ejemplo 2

Consideremos la variableX dada por

X =opini´on sobre la posibilidad de que Uruguay clasifique para el pr´oximo mundial.

El recorrido deX se agrupa, a elecci´on del investigador, en las categor´ıas siguien-tes

{no clasifica, poco probable, probable, muy probable, clasifica seguro}

(24)

clasifica seguro probable poco probable clasifica seguro

no clasifica muy probable probable clasifica seguro poco probable clasifica seguro

El tratamiento de los datos de variables cualitativas ordinales es similar al de las variables cualitativas nominales: en primer lugar organizamos los datos en una tabla de distribuci´on de frecuencias.

2.5.1. Tabla de distibuci´

on de frecuencias para Variables

Cualitativas Ordinales

Comencemos haciendo la tabla de frecuencias para el ejemplo 2:

Categor´ıas (i) ni hi Fi∗

No clasifica(1) / 1 0,1 0,1 Poco probable(2) // 2 0,2 0,3 Probable (3) // 2 0,2 0,5 Muy probable(4) / 1 0,1 0,6 Clasifica seguro(5) //// 4 0,4 1,00

total n= 10 1

A diferencia de las categor´ıas de las variables cualitativas nominales, las categor´ıas de las variables cualitativas ordinales vienen ordenadas de forma natural , y esto permite introducir la idea de distribuci´on de frecuencias acumuladas emp´ırica: F_i∗.

(25)

2.5 Variables Cualitativas Ordinales 23 F_i∗: es la suma de las frecuencias relativas de todas las categor´ıas anteriores a la categor´ıa i, inclusive :

F∗i =h1+h2+...+hi

Algunas caracter´ısticas de Fi∗ son:

El primer valor coincide con la frecuencia relativa de la primera categor´ıa, y el ´ultimo valor es siempre 1, adem´as 0≤F_i∗ ≤1.

F_i∗ es no decreciente, pues crece o se mantiene constante.

Interpretaci´on de Fi∗ :

es la proporci´on de observaciones que tienen categor´ıas anteriores a la categor´ıa i, inclusive.

Por ejemploi= 3 corresponde a la categor´ıa probable, y entonces:

F₃∗ = 0,5

significa que el 50 % de estos estudiantes (en la muestra) piensan que, como m´aximo, es probable que Uruguay clasifique .

2.5.2. Gr´

aficos para variables Cualitativas Ordinales

Diagrama de barras

El diagrama de barras para variables cualitativas ordinales es an´alogo al diagrama de barras para variables cualitativas nominales, respetando el orden subyacente que existe entre las distintas categor´ıas de la variable ordinal.

(26)

Figura 2.3: Grafico de Barras con frecuencias relativa para el ejemplo 2

Pictograma

El Pictograma para variables cualitativas ordinales es an´alogo al Pictograma para variables cualitativas nominales.

En la figura 2.4 vemos el Pictograma corespondiente al ejemplo 2.

Ojiva o Gr´afico de la Funci´on Acumulada Emp´ıtica F_i∗ para variables Cualitativas Ordinales

Para variables cualitativas ordinales la gr´afica de F_i∗ se realiza con barras cre-cientes.

En la figura 2.5 vemos la Ojiva corespondiente al ejemplo 2.

(27)

Figura 2.4: Pictograma con porcentajes para el ejemplo 2

(28)

Ejercicio 1

A partir de las funciones hi y Fi∗ podemos contestar una serie de preguntas:

1. Porcentaje de personas que opinan que por lo menos es probable que clasi-fique.

2. Porcentaje de personas que opinan que como m´aximo es poco probable que clasifique.

3. Porcentaje de personas que opinan que clasifica seguro.

4. ¿ Qu´e categor´ıa acumula el 50 % de las personas?

Al menos el 50 % de las personas opinan que como m´aximo

Soluci´on:

1. 70 % 2. 30 % 3. 40 %

(29)

2.5 Variables Cualitativas Ordinales 27 Un 50 % de las personas opinan que, como m´aximo, es probable que Uru-guay clasifique. Es decir: un 50 % de las personas piensan que UruUru-guay: o no clasifica, o es poco probable, o como m´aximo es probable que lo haga.

5. La categor´ıa que acumula el 25 % de las personas es: poco probable.

Al menos un 25 % de las personas opinan que, como m´aximo, es poco pro-bable que clasifique. Es decir: al menos un 25 % de las personas piensan que Uruguay: o no clasifica o es poco probable que lo haga.

6. La categor´ıa que acumula el 75 % de las personas es: clasifica seguro. Al menos un 75 % de las personas opinan que, como m´aximo, es seguro

que Uruguay clasifica.

2.5.3. Medidas de resumen para las Variables Cualitativas

Ordinales

Moda o Modo: Es la clase o categor´ıa que tiene la mayor frecuencia rela-tiva (o absoluta). En nuestro ejemplo el modo es clasifica seguro.

Mediana: Es la categor´ıa que acumula el 50 % de las observaciones. ¿Cómo encontrarla? observo F_i∗ y detecto cual es la primera categor´ıa que alcanza el 0,5 o más, en esta función. En nuestro caso la mediana es: probable; es decir: al menos un 50 % de las personas opinan que, como máximo, es probable que Uruguay clasifique.

(30)

es: poco probable; es decir: al menos un 25 % de las personas opinan que, como m´aximo, es poco probable que Uruguay clasifique.

Tercer cuartil : Es la categor´ıa que acumula el 75 % de las observaciones. ¿Cómo encontrarla? observo F_i∗ y detecto cual es la primera categor´ıa que alcanza el 0,75 o más, en esta función. En nuestro caso el tercer cuartil es: clasifica seguro; es decir: al menos un 75 % de las personas opinan que, como máximo, es seguro que Uruguay clasifique.

Ejercicio 2

Teniendo la codificaci´on:

no clasifica 1 poco probable 2 probable 3 muy probable 4 clasifica seguro 5

tenemos que el promedio para los datos observados es :

¯

X = 1 + (2 + 2) + (3 + 3) + 4 + (5 + 5 + 5 + 5)

10 = 3,5

es decir, en promedio el grupo encuestado opina que se encuentra justo en la mitad de probable: 3 y muy probable: 4 la posibilidad de que Uruguay clasifique al pr´oximo mundial.

1. ¿Es correcto este razonamiento?

(31)

clasifica seguro, por ello planteamos la siguiente codificaci´on:

no clasifica 1 poco probable 2 probable 3 muy probable 4 clasifica seguro 10

a) ¿C´omo cambia ´esto el promedio?

b) ¿Qu´e opina sobre calcular promedios con variables cualitativas ordi-nales?

Ejercicio 3

Sea hace una encuesta a los estudiantes para indagar que opinan de los conoci-mientos de un determinado profesor, para ello se les hacen muchas preguntas con las posibles categor´ıas:

muy malo 1 malo 2 aceptable 3 bueno 4 muy bueno 5

(32)

intervalos

En general este tratamiento es para variables discretas; pero las variables

continuas, cuando toman pocos valores distintos en la muestra, pueden, tambi´en, no agruparse en intervalos.

Ejemplo 3

Sea la variable X dada por:

X =cantidad de personas que habitan en el hogar

Inclu´ımos la persona encuestada.

El recorrido de X es {1,2,3,4,5,6,7,8,9, . . .}

Los datos obtenidos a partir de una muestra de 10estudiantes son los siguientes:

5 3 2 5 1 4 3 5 2 5

(33)

2.6 Variables cuantitativas, no agrupadas en intervalos 31

2.6.1. Tabla de distribuci´

on de frecuencias para Variables

Cuantitativas no agrupadas en intervalos

Categor´ıas:xi ni =n(xi) hi =h(xi) Fi∗ =F ∗_(x

i)

1 / 1 0.1 0.1

2 // 2 0.2 0.3

3 // 2 0.2 0.5

4 / 1 0.1 0.6

5 //// 4 0.4 1

n= 10 1

h(xi):La frecuencia relativa de xi

h(xi) Es la proporci´on de observaciones que tienen valores iguales a xi. Por

ejem-plo: h(2) = 0,2, significa que el 20 % de estos estudiantes en la muestra viven en un hogar con 2 personas.

F∗(xi): La frecuencia relativa acumulada de xi

F∗(xi) Es la proporci´on de observaciones que tienen valores menores o iguales

a xi. Por ejemplo: F∗(4) = 0,6, significa que el 60 % de estos estudiantes en la

muestra viven en un hogar con 4 personas o menos.

2.6.2. Gr´

aficos para variables cuantitativas no agrupadas

en intervalos

Histograma

(34)

Figura 2.6: Histograma de frecuencias para el ejemplo 3.

En el eje horizontal van los valores que toma la variable (xi). En el eje vertical

pueden ir las frecuencias absolutas o las relativas, pero generalmente se utili-zan las frecuencias relativas, por el mismo motivo expresado para las variables cualitativas.

Atenci´on:Los puntos pueden ser prolongados con una l´ınea, hasta su corte con el ejeOx, para mejorar su visualizaci´on o incluso representarse con delgadas barras verticales.

En la figura2.6observamos el histograma de frecuencias relativas para el ejemplo

(35)

Figura 2.7: Pictograma de frecuencias para el ejemplo3.

Pictograma

El Pictograma en este caso es an´alogo al realizado para variables cuantitativas. En la figura2.7 se realiza el Pictograma para el ejemplo 3.

Ojiva

Para variables cuantitativas no agrupadas en intervalos, la gráfica deF_i∗ se repre-senta con una función seccionalmente constante : forma escalonada, donde cada escalón se da en los valoresxi del recorrido de la variable.

(36)

Figura 2.8: Ojiva para el ejemplo 3.

(2), hasta que lleguemos al siguiente xi que tenga frecuencia para acumular (3).

Observaci´on: la altura del escal´on en xi , es su frecuencia relativah(xi). Y que

en xi, F∗(xi) toma el valor de la derecha y no el de la izquierda (que es siempre

m´as peque˜no).

En la figura 2.8 observamos la ojiva para el ejemplo 3.

2.6.3. Medidas de resumen para variables cuantitativas

no agrupadas en intervalos

Medidas de Posici´on

(37)

a) Moda o Modo: Es la categor´ıa xi , que tiene la mayor frecuencia

relativa (o absoluta). En nuestro ejemplo el modo es Xmo = 5.

b) Mediana :Es la menor categor´ıa xi que acumula al menos el 50 % de

las observaciones. ¿Cómo encontrarlo? observo F_i∗ y detecto cual es la primera categor´ıaxique alcanza el 0,5 o más, en esta función. En

nues-tro caso la mediana es:Xme = 3; es decir: al menos un 50 % de las

per-sonas de la muestra, viven con 3 perper-sonas en su hogar, como m´aximo.

c) Media:Es el promedio matem´atico, se puede calcular como el prome-dio de los valores del recorrido ponderado por las frecuencias relativas, es decir:

¯ x=X

i

hi·xi

En nuestro ejemplo tenemos:

¯

x= 1 + 2 + 2 + 3 + 3 + 4 + 5 + 5 + 5 + 5

10 = 1·0,1+2·0,2+3·0,3+4·0,1+5·0,4 = 3,5 2. Cuartiles:

a) Primer cuartil:es la primer categor´ıa que acumula al menos el 25 % de las observaciones. En nuestro ejemplo:

Q1 = 2

b) Segundo cuartil: es la primer categor´ıa que acumula al menos el 50 % de las observaciones, es decir, la mediana.

c) Tercer cuartil: es la primer categor´ıa que acumula al menos el 75 % de las observaciones. En nuestro ejemplo:

(38)

Medidas de Dispersi´on:

1. Rango: R Es la diferencia entre el mayor y el menor valor observado en la muestra, en nuestro ejemplo:

R = 5−1 = 4

Nos da una idea de qué tan alejados están los datos, es una primera y simple forma de medir la dispersión de los datos.

2. Rango Intercuart´ılico: RI Es la diferencia entre el terecer y el primer cuartil, en nuestro ejemplo:

RI = 5−2 = 3

Al igual que el Rango, el Rango Intercuart´ılico nos da una idea de la disper-sión, en este caso nos da información sobre la dispeción del 75 % central de la muestra, dejando de lado as´ı los casos extremos (que pueden ser at´ıpicos). 3. Desviación media: La desviación media es el promedio de las distancias de cada observación al valor promedio de la muestra, puede calcularse como promedio de las distancias kxi−x¯k ponderados por la frecuencia relativa,

es decir:

desv media = X

i

|xi−x¯| ·hi

En nuestro ejemplo, siendo ¯x= 3,5:

|1−3,5|+|2−3,5|+|2−3,5|+|3−3,5|+|3−3,5|+|4−3,5|+|5−3,5|+|5−3,5|+|5−3,5|+|5−3,5|

10

=

(39)

2.6 Variables cuantitativas, no agrupadas en intervalos 37 Esta medida nos dá buena información sobre la dispersión de los datos, nos dice cuanto se alejan del valor medio, en promedio. Sin embargo esta forma de medir la desviación no resulta muy útil pues no posee buenas propiedades “estad´ısticas”, estudiando inferencia estad´ıstica se podrá apreciar con más sentido este comentario.

Una medida “similar” a la desviación media, pero de mucha más utilidad es el Desv´ıo o desviación standard, ella proviene de cierta modificación de la desviación media, es una aproximación del tipo:

desviaci´on media = X

i

|xi −x¯| ·hi =

X

i

p

(xi−x)¯ 2·hi

¿≈?

s X

i

(xi−x)¯ 2·hi

Como se puede apreciar, el último paso es dudoso, no está clara si vale la igualdad, al menos esto nos lleva a introducir el concepto de varianza y desv´ıo standard. Posteriormente, cuando estudiemos variables aleatorias, veremos que toma mucho más sentido la definición de varianza aqu´ı dada. 4. Varianza: S2

Con el fin de introducir una medida de dispersión de los datos introducimos primero una cantidad para facilitar la definición. Llamamos varianza al promedio ponderado de las distancias cuadradas de cada observación a la media, es decir:

S2 =X

i

(xi −x)¯ 2·hi

En nuestro ejemplo:

(40)

Observemos que si la variable es medida en una cierta unidad u, enton-ces la varianza queda medida en unidades al cuadrado u2, con el fin de “normalizar” la unidad es que damos paso al desv´ıo standard.

5. Desv´ıo standard: S

El desv´ıo standard se define como la ra´ız cuadrada de la varianza, se inter-preta similar a la desviación media, la distancia promedio entre los valores observados y el valor medio de éstos. Sabemos que no es exactamente igual a la desviación media, pero la interpretación va en el mismo sentido, aunque técnicamente no sea del todo correcto.

En nuestro ejemplo:

S =√S2 ₌p_2,_{05 = 1,}₄₃

En este caso la interpretaci´on ser´ıa del tipo:

(41)

2.7 Variablebles cuantitativas agrupadas en intervalos 39

2.7. Variablebles cuantitativas agrupadas en

in-tervalos

Habiendo dado un resumen de las principales caracter´ısticas de las variables cua-litativas y cuantitativas que no son agrupadas en intervalos, pasamos ahora a detenernos con un poco m´as de detalle en las variables cuantitativas que agrupa-mos en intervalos.

Ya vimos que el objetivo de la Estad´ıstica era extraer la informaci´on contenida en un conjunto de observaciones o datos. Para ello cuenta con las siguientes herramientas:

2.7.1. Tabla de la Distribuci´

on de Frecuencias

Continuando con el ejemplo introducido en la página 5, de los adolescentes y su nivel de glucemia, vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por lo general de mayor tamaño, pero tomamos sólo 20 para manejar con facilidad los datos.

Ejemplo 4

Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos como

X =nivel de glucemia en ayunas

(42)

98, 150, 100, 70, 80, 110, 123, 85, 115, 120 130, 110, 105, 98, 140, 81, 125, 120, 130, 126

En primer lugar, organizamos estos datos muestrales en una tabla de distribuci´on de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con el fin de que los podamos interpretar de alguna forma.

Existen ciertos valores l´ımite, para distintas condiciones relacionadas con la can-tidad de az´ucar en sangre en ayunas. Seg´un algunos especialistas se puede afirmar lo siguiente:

mg de glucosa por dl de sangre Condici´on 48 a 73 hipoglucemia 74 a 99 glucemia normal 100 a 125 pre-diabetes 126 a 152 diabetes

Adoptaremos la convención de construir intervalos de la forma [ , ): implica que el valor de la izquierda está en el intervalo pero no el de la derecha. Y recordando que las categor´ıas deben ser exhaustivas, nuestros intervalos serán ligeramente diferentes a los planteados en la tabla anterior:

Categor´ıas: [xi−1, xi) ni total

[48,74) _X 1

[74,100) _XXXXX 5

[100,126) _XXXXXXXXX 9 [126,152] _XXXXX 5

(43)

2.7 Variablebles cuantitativas agrupadas en intervalos 41 A la columna ni se la llama columna de frecuencias absolutas, y en ella se

colocan cuántos datos caen en cada intervalo. Una práctica común para comple-tarla, es leer uno a uno los datos y colocar una marca (_X) al lado del intervalo donde cada dato se encuentra. Luego contamos la cantidad de_Xy obtenemos ni.

Al sumar esta columna debemos obtener n: el tama˜no de la muestra.

Es importante tener en cuenta que al organizar los datos en intervalos pierdo la información de los datos originales, pero gano en un mejor ordenamiento de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o están distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros vamos a adoptar esta ultima hipótesis.

La tabla de frecuencias tambi´en incluye las siguientes columnas:

ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se

calcula como la semisuma de sus valores extremos.

Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61. La marca de clase viene a ser el valor representativo del intervalo.

hi: frecuencia relativa del intervalo: es la proporci´on de datos que hay en ´el.

Se calcula comohi =ni/n. La suma de todos las hi es siempre 1.

Si multiplicamos hi ·100, obtenemos el porcentaje de datos en cada intervalo.

Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de glucosa por dl de sangre) que los lleva a tener pre-diabetes.

(44)

hastacada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,

los valores de hi de todos los intervalos anteriores a ´el.

A partir deF_i∗, podemos decir que el 30 % de los adolescentes tienen hipoglucemia o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-diabetes o pre-diabetes (pues F ·100 = 0,3).

f_i∗: funci´on de densidad emp´ırica: es la frecuencia relativa por unidad de me-dida en cada intervalo. Me indica la concentraci´on o “densidad de datos” que hay en cada intervalo.

Se calcula as´ı: f_i∗ =hi/amplitud de cada intervalo. La amplitud del intervalo es

la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de f_i∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.

Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗

[48,74) 1 0,05 0,05 61 0,002 [74,100) 5 0,25 0,3 87 0,01 [100,126) 9 0,45 0,75 113 0,017 [126,152] 5 0,25 1 139 0,01

n= 20 1

2.7.2. Gr´

aficos

Histograma

(45)

2.7 Variablebles cuantitativas agrupadas en intervalos 43 En el eje horizontal se indican los extremos de los intervalos. En el eje vertical van los valores def_i∗. Y se levantan “barras” encima de cada intervalo, a la altura del correspondiente f_i∗.

Observar que el ´area encima de cada intervalo (base por altura =amplitud del intervalo porf_i∗ =hi ) es su correspondiente frecuencia relativa.

El ´area total del histograma es 1, por ser la suma de todas las barras, que son las frecuencias relativashi.

(46)

Ojiva o gráfico de la función de distribución acumulada emp´ırica F_i∗

Para variables cuantitativas agrupadas en intervalos, la gráfica de F_i∗ se repre-senta como una función continua, pues trabajamos con la hipótesis de que los valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-mente dentro del mismo. Por lo tanto :

1. Primero, se marcan en el gr´afico las frecuencias acumuladas en los extremos superiores de los intervalos, que son los que aparecen en la tabla. Es decir:

F∗(74) = 0,05, F∗(100) = 0,3, F∗(126) = 0,75, F∗(152) = 1

2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo, en forma coherente con el supuesto antedicho.

Distribuciones Emp´ıricas y Te´

oricas

Las distribuciones estudiadas: f_i∗ y F∗(xi) son emp´ıricas, pues son realizadas a

partir de la observaci´on de una muestra.

Existen otras distribuciones llamadas te´oricas(f(xi) yF(xi) ), que resultan de

estudios realizados con modelos probabil´ısticos e involucran los datos de toda la poblaci´on.

Se demuestra que, al aumentar el número de observaciones en las muestras, las distribuciones emp´ıricas se aproximan cada vez más a las teóricas.

2.7.3. Medidas de resumen

(47)

0 0.2 0.4 0.6 0.8 1

40 60 80 100 120 140 160

Distribucion empirica

nivel de glucemia Ojiva

Figura 2.10: Ojiva del nivel de glucemia

grado en que reflejan la informaci´on del conjunto de datos. Veremos dos grupos de medidas de resumen:

Medidas de posición:Indican “por dónde” se sitúan los datos de la mues-tra. Estas medidas pueden ser de tendencia central o medidas no centrales (los cuartiles y percentiles).

(48)

Medidas de posici´on

Medidas de tendencia central

Son tres: la media, la mediana y el modo.

Media (aritm´etica): Se la puede definir como el “centro de gravedad” de la distribuci´on de frecuencias. Constituye el valor central por excelen-cia, pues considera la totalidad de las observaciones, ponderadas por su frecuencia relativa. Se calcula como la suma de las marcas de clase por la correspondiente frecuencia relativa. Observar en la tabla siguiente que la media surge de sumar la columna indicada como ci·hi.

La media en nuestro caso vale ¯x= 110,4 lo cual significa que, en promedio, los adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en ayunas. Ello sólo no nos dice mucho pues no sabemos si la mayor´ıa tienen ese valor de glucemia, o tienen valores inferiores y superiores que hacen que sea tal el promedio. Más adelante calcularemos el desv´ıo standard y se nos aclarará un poco el panorama.

Esta media muestral es una aproximaci´on de la verdadera media muestral (que se calcula como la suma de todos los datos originales dividido 20 o sea 110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos sustituidos por un ´unico valor, ci, el punto medio de dicho intervalo.

Mediana (Xme):Cuando la muestra contiene unos pocos datos sumamente

grandes o muy peque˜nos, la media puede no ser representativa. El punto central de tales datos puede describirse mejor utilizando otra medida de tendencia central como es laMediana, pues ella no considera dichos valores extremos. Es el valor de la variable que divide en dos mitades al conjunto de datos ordenados: es el valor Xme que acumula el 50 % de las observaciones

(49)

Dos casos:

1. Si en la tabla se observa que F∗(xi) = 0,5, entonces Xme =

extremo superior del intervalo correspondiente.

2. Si no es as´ı, entonces la mediana se debe obtener por interpolaci´on dentro del intervalo que contiene a Xme. En este caso, se procede as´ı:

a) Encontramos el intervalo donde se encuentra Xme: es el primer

intervalo donde F∗(xi) es mayor a 0,5. En nuestro caso es [100,

126).

b) Aplicamos la f´ormula siguiente:

Xme =xi−1+

(0,5−F∗(xi−1))

f∗ i

donde:

xi−1 : extremo inferior del intervalo donde est´a la mediana. O sea

xi−1 = 100

F∗(xi−1) : frecuencia acumulada del intervalo anterior al de la

mediana. O sea F∗(xi−1) = 0,3

f_i∗ : valor de la funci´on de densidad emp´ırica, correspondiente al intervalo donde est´a la mediana. O sea f_i∗ = 0,017

Xme = 100 +

(0,5–0,3)

0,017 = 111,76

Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de glucemia de 111,76 mg/dl o menos. O m´as significativamente, podemos decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76 lo que implicar´ıa que tienen pre-diabetes o diabetes.

3. Modo (Xmo):Es la categor´ıa con la mayor cantidad de observaciones.

(50)

el modo no es único. Si existen dos modos se dice que la distribución es bimodal. En la forma es que estamos trabajando, con datos agru-pados en intervalos, no hablamos de Modo sino de Intervalo Modal: es el intervalo que concentra la mayor frecuencia relativa por unidad de medida, por lo tanto es aquel intervalo, al cual le corresponde el máximo valor de la función de densidad emp´ırica f_i∗.

En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl de sangre en ayunas, lo cual significa que son pre-diab´eticos.

Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗ ci·hi c2i ·hi

[48,74) 1 0,05 0,05 61 0,002 3,05 186,05 [74,100) 5 0,25 0,3 87 0,01 21,75 1892,25 [100,126) 9 0,45 0,75 113 0,017 50,85 5746,05 [126,152] 5 0,25 1 139 0,01 34,75 4830,25

total n= 20 1 110,4 12654,6

Medidas de posici´on no centrales

Además de las medidas de tendencia central , también hay algunas medidas útiles de posición “no central” que suelen utilizarse al resumir o describir propiedades de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles. LosCuartilesson tres valores:Q1,Q2, yQ3, que me dividen los datos ordenados

(51)

25 % | 25 % | 25 % | 25 % Q1 Q2 Q3

Q1 es el valor cuya frecuencia acumulada es 25 %.

Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 =Xme

Q3 es el valor cuya frecuencia acumulada es 75 %. Percentiles: Hay noventa y nueve percentiles.

Por ejemplo, el percentil 10 (que anotamos P10) es el valor cuya frecuencia

acu-mulada es del 10 %. Y el percentil 90 (P90 ) cumple que Fi∗(P90) = 0,9

La determinaci´on de estas medidas es an´aloga a la de la mediana o los cuartiles.

C´alculo de PRIMER CUARTIL:

Es aquel valor que cumple que F∗(Q1) = 0,25. Dos casos:

1. Si en la tabla se observa que F∗(xi) = 0,25, entonces Q1 = xi, extremo

superior del intervalo correspondiente.

2. Si no es as´ı, entonces Q1 se debe obtener por interpolaci´on dentro del

in-tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q1: es el primer intervalo

donde F∗(xi) es mayor a 0,25.

b) Aplico la formula siguiente: Q1 =xi−1+

(0,25−F∗(xi−1))

(52)

donde:

xi−1 : extremo inferior del intervalo donde est´a Q1.

F∗(xi−1) : frecuencia acumulada del intervalo anterior al deQ1.

f_i∗ : valor de la funci´on de densidad emp´ırica del intervalo donde est´a Q1.

En el ejemplo, el intervalo donde est´aQ1 es [74 , 100 ). Por lo tanto:

Q1 = 74 +

(0,25–0,05) 0,01 = 94

Es decir el 25 % de los adolescentes de esta muestra tienen niveles de glucemia de hasta 94 mg/dl.

C´alculo de TERCER CUARTIL:

Es aquel valor que cumple que F∗(Q3) = 0,75. Dos casos:

1. Si en la tabla se observa que F∗(xi) = 0,75, entonces Q3 = xi, extremo

superior del intervalo correspondiente.

2. Si no es as´ı, entonces Q3 se debe obtener por interpolaci´on dentro del

in-tervalo que lo contiene. En este caso, se procede de la siguiente forma:

a) Encontrar el intervalo donde se encuentra Q3: es el primer intervalo

dondeF∗(xi) es mayor a 0,75.

b) Aplico la formula siguiente:

Q3 =xi−1+

(0,75−F∗(xi−1))

(53)

2.7 Variablebles cuantitativas agrupadas en intervalos 51 xi−1 : extremo inferior del intervalo donde est´a Q3.

F∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q3.

f_i∗ : valor de la funci´on de densidad emp´ırica del intervalo donde est´aQ3.

En el ejemplo, se observa en la tabla que F∗(126) = 0,75. Por lo tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra

tienen niveles de glucemia hasta 126 mg/dl. O m´as significativamente, el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que tienen diabetes.

2.7.4. Medidas de dispersi´

on

Las medidas de dispersi´on dan idea de cu´anto se dispersan o concentran los datos de nuestra muestra.

Son útiles para medir, de algún modo, la representatividad de las medidas de ten-dencia central. En otras palabras:los valores centrales pierden significación cuando la dispersión es alta, y por ello debemos conocer y complementar las medidas de posición, con las medidas de dispersión.

EJEMPLO: los ingresos mensuales de 4 personas (en$) son los siguientes: 7.800, 8.200, 8.000, 8.400.

La media es 8.100, y a simple vista notamos que los valores est´an concentrados en torno a ella, pues se separan poco de la media (la dispersi´on es baja).

Los ingresos mensuales de otras 4 personas son los siguientes:

800 2 700 1 000 12 900

(54)

en el caso anterior. Por lo tanto la información que brinda la media en este caso se desvirtúa y para no realizar conclusiones erróneas imaginar que 8.100 es un sueldo representativo de estas 4 personas, debemos acompañarla de una medida de dispersión, como es el desv´ıo standard.

Rango: R

El rango de un conjunto de datos es la diferencia entre el mayor y el menor de todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra. Para datos agrupados en intervalos, es la diferencia entre el extremo superior del ´

ultimo intervalo y el extremo inferior del primer intervalo. Es decir:R = 152–48 = 104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de mi muestra están entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores). Una limitación que tieneR es que sólo considera los valores extremos, sin aportar información sobre los valores interiores.

Rango Intercuart´ılico: RI o desviaci´on respecto a Xme:

RI =Q3–Q1

Es una medida complementaria de la mediana, la cual se encuentra en el intervalo que corresponde al rango intercuart´ılico.

En nuestro ejemplo,

RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32 valores).

(55)

2.7 Variablebles cuantitativas agrupadas en intervalos 53 Da idea de la dispersi´on promedio de los datos, respecto a la media aritm´etica. Se calcula como el promedio del cuadrado de las desviaciones de los valores respecto de la media.

S2 =

P

(ci–(¯x)2).ni

n

o más fácil para los cálculos S2 ₌P

(c2

i ·hi)−(¯x)2

Entonces la varianza muestral se puede calcular f´acilmente a partir de la tabla, agregando la columnac2

i ·hi y siendo

P

c2

i ·hi la suma de dicha columna. Por lo

tanto S2 _{= 12654,}₆₋_(110,4)2 _{= 466,}₄₄

Observaci´on 1: Las desviaciones de cada xi con respecto a la media, se elevan al cuadrado pues de lo contrario la suma de todas ellas ser´ıa siempre cero.

Observación 2: La varianza es una de las más importantes medidas de disper-sión, pero su resultado implica una magnitud que no tiene una interpretación útil en s´ı misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado. Su significado cobra relevancia al comparar la varianza de dos muestras: a ma-yor varianza, mama-yor dispersión y menor concentración de datos. Como tiene el inconveniente de medir la dispersión, en términos del cuadrado de las unidades, se calcula su ra´ız cuadrada: la desviación standard

Desv´ıo t´ıpico o desviaci´on standard: S

Se calcula tomando la ra´ız cuadrada de la varianza. Entonces S= 21,6

(56)

tanto S tiene interpretación en s´ı misma: En promedio, los niveles de glicemia de los adolescentes de la muestra se desv´ıan 21,6 mg/dl, con respecto a la media que es 110,4 mg/dl. Pero dicha dispersión, ¿ es grande o pequeña ?. Esto lo contesta el coeficiente de variación.

Coeficiente de variación : C.V. relaciona la desviación standard con la me-dia, brindando una medida sobre la dispersión relativa del conjunto de observa-ciones. Se calcula sólo cuando los datos son positivos:

C.V.= S ¯ x

Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-da que no tiene unimedi-dades, resulta muy ´util para comparar muestras que tengan unidades diferentes.

(57)

2.7.5. Ejericicos

Atenci´ones muy importante que interpretes los resultados de casa ejercicio. Uno

de los objetivos de la Estad´ıstica es resumir y presentar información cuantitativa de forma clara, por lo que es especialmente relevante que, en la resolución de los ejercicios, se exprese de forma evidente el planteamiento del problema, el método seguido para su resolución, los resultados y las conclusiones que se obtengan.

1. A continuación se presenta una lista de variables, las cuales el estudian-te debe poder identificar de acuerdo a la clasificación señalada el punto anterior:

a) N´umero de micciones en 24 horas.

b) Presi´on arterial sist´olica (mm de Hg).

c) Color de ojos (agrupados en tres categor´ıas: 1) celestes, azules o verdes; 2) pardos o negros; 3) otros).

d) Apetito sexual: fuerte, moderado, leve o nulo.

e) N´umero de deposiciones por d´ıa en un beb´e de tres meses.

f) N´umero de cromosomas.

g) Cantidad de gl´obulos rojos.

2. Los items de este primer ejercicio, tienen como fuente de datos la tabla que se presenta a continuaci´on, la cual surge de una encuesta realizada a usuarios de un servicio de salud. El significado de las variables, que se encuentran en la primera fila de la tabla, se explican a continuaci´on de la misma.

(58)

(59)

26 0 1 167 47.70 82 179 61 21 0 1 157 57.40 72 232 77 71 1 0 154 61.60 96 233 34 35 1 0 173 97.50 138 211 36 29 1 0 169 81.00 101 229 39 50 1 0 167 67.50 103 221 41 39 1 0 174 88.00 102 214 42 39 1 1 167 82.00 97 273 45 47 1 1 164 70.00 240 264 49 39 1 1 180 81.00 80 238 67 69 1 1 168 71.40 109 235 77 41 1 1 166 82.00 125 255 30

EDAD: En a˜nos

SEXO: 0 (Mujeres) 1 (Varones)

BH: Bebedor/a habitual: 1 (S´ı) 0 (No) TALLA: en cm.

PESO: En Kg.

GLU: Glucemia (mg/dl) CT : Colesterol Total (mg/dl)

HDL: Fracci´on de colesterol unido a lipoprote´ınas de alta densidad: High Density Lipoproteins (mg/dl).

a) Clasifica todas las variables de la tabla, seg´un sean cuantitativas, cua-litativas, discretas o continuas.

(60)

Consi-dera 5 intervalos de igual longitud. Interpreta los valores de la tabla construida.

c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a partir de los datos de glucemia de los varones de la tabla anterior. Considera 4 intervalos de igual longitud. ¿ Qu´e porcentaje de hombres tienen un nivel normal de glucemia ? Contesta de dos formas: a partir de la tabla de frecuencias y a partir de los datos originales. Explica las diferencias que surjan.

d) Representa el histograma de la variable talla.Considera 5 interva-los.Haz lo mismo, discriminando por sexo, considerando los mismos intervalos. Compara.

e) Representa la tabla de frecuencias de la variable BH, diferenciando por tres grupos de edades: de 20 a 39 años, de 40 a 59 años y de 60 a 90 años. Compara.

f) ¿Qu´e puedes decir sobre las medidas de tendencia central de la variable CT en las mujeres de la tabla? ¿Y sobre su dispersi´on?. Considere 5 intervalos.

g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( co-lesterol bueno) m´as alto que los hombres”, a la luz de esta muestra.

(61)

Nivel socioecon´omico Personas con CI <95 Personas con CI ≥95 Intervalos Frecuencia Frecuencia

[4, 10) 75 19

[10, 16) 35 26

[16, 22) 20 25

[22, 28) 30 30

[28, 34) 25 54

[34, 40] 15 46

a) Dibuje un gr´afico que permita comparar ambos grupos.

b) Calcule las medidas de tendencia central para cada uno de los dos grupos de personas.

c) Calcular las medidas de dispersi´on para cada uno de los grupos.

d) ¿Qu´e conclusiones se pueden sacar a ra´ız de la informaci´on obtenida en los items anteriores?

4. Un estudio consistió en anotar el número de palabras le´ıdas en 15 segundos por un grupo de 120 sujetos disléxicos y 120 individuos normales. Teniendo en cuenta los resultados de la tabla

Nro de palabras le´ıdas Disl´exicos Normales

25 56 1

26 24 9

27 16 21

28 12 29

29 10 28

30 2 32

calcule:

(62)

b) Las medianas de ambos grupos.

c) El porcentaje de sujetos disl´exicos que superaron la mediana de los normales.

d) Compare la variabilidad relativa de ambos grupos.

5. En una epidemia de escarlatina, se recogieron el n´umero de fallecidos, en 40 ciudades de un pa´ıs, obteni´endose la siguiente tabla:

Nro de fallecidos 0 1 2 3 4 5 6 7 Ciudades 7 11 10 7 1 2 1 1

a) Representar gr´aficamente estos datos.

b) Obtener la distribuci´on acumulada y representarla.

c) Calcular media, mediana y moda. Interpretarlas

d) Calcular la varianza y la desviaci´on standard.

e) Calcular el porcentaje de ciudades con al menos 2 muertos.

f) Calcular el porcentaje de ciudades con m´as de 3 muertos.