Estad´ıstica Descriptiva.
Material realizado para trabajar guiado.
Marcela Ribas
1. Introducci´on 3
1.1. Introducci´on . . . 3
1.1.1. La Estad´ıstica y el M´etodo Cient´ıfico. . . 4
1.1.2. ¿Qu´e entendemos por Estad´ıstica? . . . 5
1.1.3. Etapas de un estudio estad´ıstico . . . 6
2. La Estad´ıstica Descriptiva 11 2.1. Introducci´on . . . 11
2.2. Descripci´on de una variable . . . 12
2.2.1. Esquema: T´ecnicas para resumir informaci´on . . . 12
2.3. Conceptos generales. . . 13
2.3.1. Variables categ´oricas o de atributo o cualitativas. . . 13
2.3.2. Variables Cuantitativas . . . 14
2.4. Variables Cualitativas Nominales . . . 16
´INDICE GENERAL 1
2.4.2. Gr´aficos . . . 19
2.4.3. Medidas de Resumen . . . 20
2.5. Variables Cualitativas Ordinales . . . 21
2.5.1. Tabla de Frecuencias . . . 22
2.5.2. Gr´aficos . . . 23
2.5.3. Medidas de Resumen . . . 27
2.6. Variables cuantitativas, no agrupadas en intervalos . . . 30
2.6.1. Tabla de frecuencias . . . 31
2.6.2. Gr´aficos . . . 31
2.6.3. Medidas de resumen para variables cuantitativas no agru-padas en intervalos . . . 34
2.7. Variablebles cuantitativas agrupadas en intervalos . . . 39
2.7.1. Tabla de la Distribuci´on de Frecuencias . . . 39
2.7.2. Gr´aficos . . . 42
2.7.3. Medidas de resumen . . . 44
2.7.4. Medidas de dispersi´on . . . 51
Cap´ıtulo 1
Introducci´
on
1.1.
Introducci´
on
La forma de pensar llamada “estad´ıstica” se ha vuelto importante para todos los profesionales: no s´olo para aqu´ellos que est´an dedicados a la ciencia o a los negocios, sino tambi´en le preocupa a personas que quieren ayudar a hacer del mundo, un mejor lugar.
Pero, ¿qu´e es estad´ıstica? y ¿qu´e puede ´esta hacer?.
Hay definiciones y percepciones populares de los que significan “las estad´ısticas”. Vemos “estad´ısticas de vida” en el diario: nacimientos, defunciones, matrimonios, divorcios, etc. El uso p´ublico de la palabra “estad´ısticas” es ampliamente variado y la mayor parte de las veces indica una lista de n´umeros o datos.
1.1.1.
La Estad´ıstica y el M´
etodo Cient´ıfico
¿Alguna vez te has preguntado c´omo se llega a la verdad acerca de los fen´omenos que interesan al ser humano? ¿C´omo se sabe que el cigarrillo causa c´ancer o c´omo se sabe que la vitamina C ayuda a prevenir el resfr´ıo?.
El ser humano, desde el comienzo de los tiempos ha aceptado varias fuentes de conocimiento:
La autoridad:algo era cierto s´olo porque una cierta autoridad, ll´amese rey, iglesia o autoridad cient´ıfica, lo afirmaba. Esta fuente de conocimiento se basa en la f´e de las personas o en la incapacidad de verificar, por s´ı mismas la veracidad del conocimiento que aceptan como v´alido.
La raz´on: el racionalismo es un m´etodo que utiliza exclusivamente el ra-zonamiento para llegar al conocimiento. Supone que si las premisas son v´alidas y el razonamiento se realiza de manera correcta, de acuerdo con las reglas de la l´ogica, entonces las conclusiones llegar´an a la verdad. Sin embargo , existe un gran n´umero de situaciones en que el solo razonamiento es inadecuado para determinar la verdad. Es el caso, por ejemplo, del caso en que existen dos explicaciones l´ogicas razonables para un fen´omeno; y por s´ı sola la raz´on resulta inadecuada para distinguir entre ellas.
La intuici´on: a trav´es de ella, muchos cient´ıficos han comenzado a dar forma a sus teor´ıas, o han resuelto intrincados problemas que se negaban a ser resueltos a trav´es de la raz´on. Sin embargo, a pesar de que la intuici´on ha sido utilizada como fuente de conocimiento durante toda la existencia de la humanidad, sigue siendo un proceso misterioso acerca del cual s´olo tenemos una comprensi´on muy rudimentaria.
1.1 Introducci´on 5 intuici´on para llegar a la verdad, se fundamenta en una evaluaci´on objeti-va, que es lo que lo distingue de los otros m´etodos. El m´etodo cient´ıfico es bastante directo: por alg´un medio, generalmente un razonamiento deducti-vo a partir de la teor´ıa existente o una inducci´on a partir de hechos reales o a trav´es de la intuici´on, el cient´ıfico llega a una hip´otesis sobre cierta par-ticularidad de la realidad. Entonces el investigador dise˜na un experimento para verificar de manera objetiva dicha hip´otesis. Los datos, resultado del experimento, posteriormente se analizan en forma estad´ıstica y la hip´otesis se acepta o se rechaza.
La caracter´ıstica m´as importante de esta metodolog´ıa es que no importa lo que el cient´ıfico crea que es verdadero con respecto a la hip´otesis en cuesti´on, pues el experimento proporciona una base para una evaluaci´on objetiva de dicha hip´ ote-sis.
Aqu´ı es donde la Estad´ıstica cobra un papel relevante: uno de sus principales objetivos es evaluar, en forma cient´ıfica, las afirmaciones o hip´otesis planteadas por el investigador.
1.1.2.
¿Qu´
e entendemos por Estad´ıstica?
Por ejemplo, ciertas investigaciones manejan la hip´otesis de que est´a aumentando la cantidad de adolescentes con altos niveles de az´ucar en sangre, los cuales corren el riesgo de desarrollar diabetes, en alg´un momento de su vida. Para comprobar la veracidad de dicha hip´otesis se recogen muestras de sangre en ayunas de un grupo de 500 adolescentes de una determinada ciudad. Se les mide el nivel de glucemia (miligramos de glucosa por decilitro de sangre) a todos ellos y as´ı se cuenta con 500 datos a ser ordenados y analizados por la Estad´ıstica Descriptiva, a partir de las herramientas con que ´esta cuenta, las cuales veremos en detalle m´as adelante.
Si queremos extraer conclusiones generales, como por ejemplo saber cu´al es el nivel promedio de glucemia entre todos los adolescentes de la cuidad, podemos hacerlo a partir del promedio obtenido entre los 500 adolescentes estudiados, pero debemos indicar, por ejemplo, un margen de error que nos permita generalizar dicho dato particular. Aqu´ı utilizaremos las herramientas de la Estad´ıstica In-ductiva y trataremos de conocer, por ejemplo, cu´al es la probabilidad de que un adolescente de dicha ciudad tenga un nivel de glucosa mayor a 126 mg/dl de sangre lo que lo llevar´ıa a tener diabetes.
Por ´ultimo, a partir de las conclusiones obtenidas de este trabajo de investigaci´on, si resulta que efectivamente hay altos niveles de glucemia entre los adolescentes, las autoridades de la ciudad pueden tomar medidas de pol´ıtica tendientes a re-vertir dicha situaci´on en el futuro, por ejemplo, fomentar los h´abitos saludables de alimentaci´on en la escuela, prohibiendo la venta de golosinas dentro de los establecimientos escolares.
1.1.3.
Etapas de un estudio estad´ıstico
1.1 Introducci´on 7
a) Definir el objetivo de la investigaci´on.
Por ejemplo: diversas Organizaciones internacionales han dirigido su atenci´on sobre un reciente fen´omeno: se observa una disminuci´on de los umbrales de percepci´on auditiva en ni˜nos, adolescentes y j´ovenes, provocada por exposici´on a altos niveles sonoros.
En particular, en Argentina es cada vez mayor el porcentaje de j´ ove-nes aspirantes al ingreso laboral que son rechazados por problemas de audici´on. El objetivo de una investigaci´on al respecto, puede ser, entre otros, determinar, comprender y evaluar el conjunto de los diversos factores que pueden contribuir al desarrollo de las hipoacusias tem-pranas en adolescentes en dicho pa´ıs, con el fin de realizar acciones tendientes a la prevenci´on de esta problem´atica social.
b) Definir la poblaci´on o universo: es el conjunto completo de indivi-duos, objetos o datos que el investigador est´a interesado en estudiar. En el caso del ejemplo anterior, ser´ıan todos los adolescentes argenti-nos.
c) Definir el tipo de informaci´onque se desea extraer de los elementos de la poblaci´on: podr´ıan ser un conjunto de preguntas, observaciones o mediciones dirigidas hacia dichos elementos. A partir de la infor-maci´on anterior, se construir´an variables: son cualquier propiedad o caracter´ıstica de los elementos de la poblaci´on, que puede ser de inter´es para el investigador en el sentido de contribuir a lograr el objetivo de su estudio.
1) Se les puede chequear la capacidad de audici´on, medida en canti-dad de decibeles m´ınimos que pueden percibir.
2) Preguntar cu´antas veces al mes concurren a locales con m´usica por encima de 100 decibeles.
3) Preguntar si viven cerca de alg´un aeropuesto, f´abrica u otro edifi-cio que provoque contaminaci´on sonora.
4) Preguntar cu´antos minutos al d´ıa escuchan m´usica con auriculares. De lo anterior surgen las siguientes variables:
Variable 1: Capacidad de audici´on, en decibeles m´ınimos percibidos.
Variable 2: Cantidad de veces al mes que concurren a locales con m´usica por encima de 100 decibeles.
Variable 3: Se la define como 1: si el estudiante vive cerca de alg´un edificio que provoque contaminaci´on sonora; y 0: en caso contrario. Variable 4: Tiempo, medido en minutos al d´ıa, en que el estudiante escucha
m´usica con auriculares.
2. Recogida de la Informaci´on Muestral
Por lo general, no se puede disponer del valor de todas las variables para todos los elementos de la poblaci´on, por ejemplo por razones econ´omicas. Entonces se seleccionan algunos de sus elementos: a este subconjunto de la poblaci´on se le llama muestra. Siguiendo con nuestro ejemplo, se lleva a cabo una encuesta que cubre a 1000 adolescentes argentinos (la muestra) y en el cuestionario que ´esta incluye, se plantean las tres preguntas anteriores, adem´as de realizarles un chequeo auditivo.
1.1 Introducci´on 9 Consiste en procedimientos estad´ısticos que sirven para organizar y resu-mir, de diversas formas de acuerdo a nuestro inter´es, un conjunto de datos obtenidos de la realidad. Los conjuntos de datos no organizados resultan de poco valor. Sin embargo se dispone de t´ecnicas estad´ısticas para organizar este tipo de datos en forma significativa: tablas de frecuencias, gr´afico de barras, histograma, medidas de resumen, entre otros.
Aqu´ı se toman los 1000 formularios que resultaron de la encuesta anterior y con la ayuda de las herramientas de la Estad´ıstica Descriptiva se organizan y analizan todos los datos que ´estos contienen. Y se sacan conclusiones particulares, en relaci´on a esa parte de la poblaci´on que fue estudiada. Por ejemplo, se podr´a conocer cu´antos minutos por d´ıa, en promedio, estos 1000 adolescentes, escuchan m´usica con auriculares. Y tambi´en se podr´a saber cu´al es el porcentaje, entre ellos, que concurren m´as de una vez por semana a locales con m´usica a un vol´umen por encima de 100 decibeles, lo cual es nocivo para su salud auditiva.
4. Inferencia Estad´ıstica
Una vez organizados, analizados y resumidos los datos de la muestra, po-demos tratar de ver m´as all´a de lo que esta muestra nos presenta: podemos buscar conocer caracter´ısticas generales de la poblaci´on, a partir de las caracter´ısticas particulares que nos presenta la muestra. Con este fin exis-ten distinstas t´ecnicas estad´ısticas como son la estimaci´on o la prueba de hip´otesis.
Sabiendo cu´antos minutos por d´ıa, en promedio, estos 1000 adolescentes, escuchan m´usica con auriculares (dato aportado por la Estad´ıstica Des-criptiva), se puede “estimar”, con cierto margen de error prefijado por el investigador, cu´al es dicho promedio pero entre todos los adolescentes argentinos.
Cap´ıtulo 2
La Estad´ıstica Descriptiva
2.1.
Introducci´
on
2.2.
Descripci´
on de una variable
2.2.1.
Esquema: T´
ecnicas para resumir informaci´
on
El objetivo de la Estad´ıstica Descriptiva es extraer la informaci´on contenida en un conjunto de observaciones o datos. Para ello cuenta con una serie de t´ecnicas:
Tablas de distribuci´on de frecuencias: conteniendo las distintas: frecuencias correspondientes a cada categor´ıa.
Gr´aficos y funciones:
Gr´afico de barras (variables cualitativas).
Histograma de frecuencias (variables cuantitativas) y pol´ıgono de fre-cuencias.
Ojiva o gr´afico de la funci´on de distribuci´on acumulada emp´ırica F∗ (variables cuantitativas y cualitativas ordinales). Tambi´en llamado pol´ıgono de frecuencias acumuladas.
Diagrama de tallos y hojas.
Diagrama de caja
Medidas de resumen:
Medidas de posici´on
Medidas de dispersi´on
Medidas de forma
2.3 Conceptos generales 13
2.3.
Conceptos generales
Recorrido y tipos de Variables:
Es el conjunto de todos los valores que, en teor´ıa, puede tomar la variable. De acuerdo a su recorrido, existen diferentes tipos de variables. Se clasifican en dos grandes grupos:
1. las variables categ´oricas o cualitativas o de atributos, 2. y las variables medibles o cuantitativas.
2.3.1.
Variables categ´
oricas o de atributo o cualitativas
Son aqu´ellas que no son cuantificables, es decir que para su recolecci´on no in-tervienen mediciones, aunque cada distinto valor de la variable, que llamaremos
categor´ıa, puede ser asociado con un n´umero, con la ´unica finalidad de simpli-ficar el procesamiento de los datos.
Por ejemplo, son variables cualitativas (entre par´entesis est´a un posible recorrido):
1. el color de ojos(1.negros, 2.casta˜nos, 3.grises, 4.celestes, 5.verdes, 6.otro ) 2. sexo de nacimiento: (1.mujer, 2.hombre).
3. el rendimiento acad´emico (1.bajo, 2.promedio, 3.sobre). 4. el estado nutricional (1.bueno, 2.regular, 3.malo).
Los otros dos ejemplos son de variables cualitativas ordinales, llamadas as´ı pues existe un orden particular preestablecido entre los diferentes valores que puede tomar una variable.
Mientras que entre los valores de las variables nominales s´olo podemos comparar si son iguales o distintos, entre los de las variables ordinales podemos establecer la relaci´on ”mayor que.o “menor que”.
2.3.2.
Variables Cuantitativas
Son variables que resultan de contar o medir ciertas caracter´ısticas de los ele-mentos de la muestra. Se expresan num´ericamente, y dichos valores se usar´an algebraicamente a fin de realizar c´alculos, a diferencia de los n´umeros asignados a las variables cualitativas.
Ejemplos de dichas variables:
1. Cantidad de hijos, que tiene una mujer mayor de 40 a˜nos.
2. Cantidad de cigarrillos fumados por d´ıa, por los estudiantes de Biolog´ıa. 3. La estatura de un jugador de basquetball.
4. El tiempo de recuperaci´on de los pacientes operados de apendicitis.
Dentro de este grupo de variables, se distingue entre variables discretas o conti-nuas. Los dos primeros ejemplos son de variablescuantitativa discretas, llama-das as´ı pues entre dos valores de la variable no siempre existe otro: por ejemplo una mujer puede tener 1 o 2 hijos, pero no 1 hijo y medio. Los otros dos ejemplos son de variables cuantitativas continuas pues dados dos valores de la variable
2.3 Conceptos generales 15 cm, y podemos seguir subdividiendo los intervalos y siempre, en teor´ıa, podremos encontrar un jugador que tenga una altura en dicho intervalo, apesar de que nues-tros instrumentos de medicion, llegar´a un momento, que no tendr´an la presici´on adecuada como para notar diferencias.
Categor´ıas:
Son los distintos grupos, entre los cuales podemos clasificar los distintos valores que toma una variable. Surgen de partir su recorrido. Muchas veces las categor´ıas pueden coincidir exactamente con el recorrido; pero en otros casos es imposible: el caso de las variables continuas, cuyo recorrido est´a formado por infinitos n´umeros y entonces debemos particionar su recorrido en intervalos, que ser´an nuestras categor´ıas.
Sea cual sea el tipo de variable, las categor´ıas en las cuales se agrupan los diferentes valores que toma la variable, deben serexhaustivas y mutuamente excluyentes.
Categor´ıas exhaustivas:´estas cubren todo el recorrido. Cualquier obser-vaci´on se debe poder colocar en alguna categor´ıa; por ejemplo, si la persona se niega a contestar, se la coloca en la categor´ıa no sabe, no contesta.
Categor´ıas mutuamente excluyentes: no se deben superponer. Cual-quier observaci´on se debe colocar s´olo en una categor´ıa, no debe haber ambig¨uedades.
Ejemplos:
Recorrido de X : {0; 1; 2; 3; 4; 5; 6; 7}. Puedo considerar como categor´ıas exactamente el recorrido de la variable; o sino podr´ıa considerar como ca-tegor´ıas: {{0};{1; 2};{3; 4; 5},{6; 7}}.
2. Variable Y: peso de los beb´es en kg, nacidos a t´ermino.
Posible recorrido: [2,3; 5] . Puedo tomar como categor´ıas los siguientes in-tervalos:{[2,3,2,5),[2,5; 3,5); [3,5; 3,9); [3,9; 5]}, u otros, dependiendo de los intervalos que sean de inter´es.
Observaci´on:
1. Los intervalos no tienen por qu´e tener todos igual amplitud.
2. Los intervalos que son v´alidos son los del tipo [ ; ) o ( ; ]. Si los intervalos son todos ( ; ), no cumplen con la caracter´ıstica de la exhaustividad, pues los valores de los extremos no est´an incluidos en ning´un intervalo. Si los in-tervalos son todos [ ; ], no cumplen con la caracter´ıstica de ser mutuamente excluyentes, pues se superponen.
2.4.
Variables Cualitativas Nominales
Ejemplo 1
X =tipo de m´usica que prefiere. El recorrido de X se agrupa, a elecci´on del in-vestigador, en las categor´ıas siguientes {rock (incluye pop, heavy), salsa (incluye ritmos latinoamericanos), new age, folklore, mel´odico (incluye boleros), tango, cl´asica, otros}.
2.4 Variables Cualitativas Nominales 17
rock, folklore, rock, new age, cl´asica, rock, folklore, salsa, rock, mel´odico .
Esta disposici´on de los datos no facilita la comprensi´on de la informaci´on que aportan sobre el comportamiento de la variable en la muestra.
En muchos casos, el n´umero de observaciones hace muy dif´ıcil llegar a conclusio-nes inmediatas e interesantes sobre la variable de inter´es. Entonces organizamos dichos datos en una tabla de distribuci´on de frecuencias.
2.4.1.
Tabla de distribuci´
on de frecuencias para variables
Cualitativas Nominales
Comencemos haciendo la tabla de frecuencias para el ejemplo 1:
Categor´ıas ni hi
Rock //// 4 0.4 Salsa / 1 0.1 New Age / 1 0.1 Folklore // 2 0.2 Mel´odico / 1 0.1
Tango 0 0
Cl´asica / 1 0.1
Otros 0 0
total n =10 1
UnaTabla de distribuci´on de Frecuencias es un m´etodo estad´ıstico muy
´
frecuencias absolutas: ni, es el n´umero de observaciones de cada categor´ıa.
frecuencias relativas:hi, es la proporci´on de observaciones de cada categor´ıa:
hi =
ni
n
Observaci´on: El porcentaje de observaciones de cada categor´ıa eshi·100.
El Inter´es fundamental de las frecuencias relativas es permiten comparar las pro-porciones asignadas a cada categor´ıa, entre muestras de distintos tama˜nos.
Algunas propiedades sobre la tabla de frecuencias son:
las frecuancias absolutas son simpre menores a la cantidad de observaciones, 0< ni < n.
La suma de todas las frecuencias absolutas es igual a n ( tama˜no de la muestra).
X
i
ni =n
Esto se cumple porque las categor´ıas son exhaustivas y mutuamente exclu-yentes; si no fueran exhaustivas las frecuencias absolutas sumar´ıan menos de n; y si no fueran mutuamente excluyentes sumar´ıan m´as de n.
las frecuancias relativas son simpre menores a 1, 0< hi <1.
La suma de todas las frecuencias relativas es 1:
X
i
hi = 1.
2.4 Variables Cualitativas Nominales 19
Observaci´on: El extremo superior de las sumatorias no es n; var´ıa con cada problema, y con cada forma de agrupar los datos: representa la cantidad de categor´ıas.
2.4.2.
Gr´
aficos para Variables Cualitativas Nominales
Gr´afico o Diagrama de Barras
El Diagrama de Barras es una forma alternativa a la tabla de frecuencias, de presentar la informaci´on, que permite visualizar de manera mas sencilla la distri-buci´on de frecuencias de una variable cualitativa.
En el eje horizontal van los valores que toma la variable (categor´ıas o clases). En el eje vertical pueden ir las frecuencias absolutas o las relativas. La diferencia entre ellas es s´olo de escala. Pero generalmente se utilizan las frecuencias relativas, porque la altura de cada barra ser´a entonces la proporci´on que se obtuvo para esa clase o categor´ıa.
Las barras deben poseer el mismo espesor, pues al diferencia esta dada s´olo por las alturas; y deben guardar una distancia razonable que facilite su visualizaci´on. La gr´afica debe estar bien centrada, para lo cual deben observarse los valores extremos, de modo que no queden desproporcionados.
En la figura2.1 realizamos el Gr´afico de Barras del ejemplo 1.
Pictograma o Diagrama Circular
Figura 2.1: Grafico de Barras con frecuencias relativa para el ejemplo 1
En la figura 2.2 realizamos el Pictograma del ejemplo 1.
2.4.3.
Medidas de Resumen para Variables Cualitativas
Nominales
Moda o Modo
La moda es la clase o categor´ıa que tiene la mayor frecuencia relativa (o absoluta). En otras palabras, la categor´ıa con m´as cantidad de observaciones ( o proporci´on). En nuestro ejemplo el modo es rock.
El Modo es la medida natural con que se describe una variable cualitativa, pues es el valor m´as representativo, por ser el m´as frecuente. Observar que puede existir m´as de una clase con la m´axima frecuencia relativa. En ese caso, el modo no es ´
2.5 Variables Cualitativas Ordinales 21
Figura 2.2: Pictograma con porcentajes para el ejemplo 1
2.5.
Variables Cualitativas Ordinales
Ejemplo 2
Consideremos la variableX dada por
X =opini´on sobre la posibilidad de que Uruguay clasifique para el pr´oximo mundial.
El recorrido deX se agrupa, a elecci´on del investigador, en las categor´ıas siguien-tes
{no clasifica, poco probable, probable, muy probable, clasifica seguro}
clasifica seguro probable poco probable clasifica seguro
no clasifica muy probable probable clasifica seguro poco probable clasifica seguro
El tratamiento de los datos de variables cualitativas ordinales es similar al de las variables cualitativas nominales: en primer lugar organizamos los datos en una tabla de distribuci´on de frecuencias.
2.5.1.
Tabla de distibuci´
on de frecuencias para Variables
Cualitativas Ordinales
Comencemos haciendo la tabla de frecuencias para el ejemplo 2:
Categor´ıas (i) ni hi Fi∗
No clasifica(1) / 1 0,1 0,1 Poco probable(2) // 2 0,2 0,3 Probable (3) // 2 0,2 0,5 Muy probable(4) / 1 0,1 0,6 Clasifica seguro(5) //// 4 0,4 1,00
total n= 10 1
A diferencia de las categor´ıas de las variables cualitativas nominales, las categor´ıas de las variables cualitativas ordinales vienen ordenadas de forma natural , y esto permite introducir la idea de distribuci´on de frecuencias acumuladas emp´ırica: Fi∗.
2.5 Variables Cualitativas Ordinales 23 Fi∗: es la suma de las frecuencias relativas de todas las categor´ıas anteriores a la categor´ıa i, inclusive :
F∗i =h1+h2+...+hi
Algunas caracter´ısticas de Fi∗ son:
El primer valor coincide con la frecuencia relativa de la primera categor´ıa, y el ´ultimo valor es siempre 1, adem´as 0≤Fi∗ ≤1.
Fi∗ es no decreciente, pues crece o se mantiene constante.
Interpretaci´on de Fi∗ :
es la proporci´on de observaciones que tienen categor´ıas anteriores a la categor´ıa i, inclusive.
Por ejemploi= 3 corresponde a la categor´ıa probable, y entonces:
F3∗ = 0,5
significa que el 50 % de estos estudiantes (en la muestra) piensan que, como m´aximo, es probable que Uruguay clasifique .
2.5.2.
Gr´
aficos para variables Cualitativas Ordinales
Diagrama de barras
El diagrama de barras para variables cualitativas ordinales es an´alogo al diagrama de barras para variables cualitativas nominales, respetando el orden subyacente que existe entre las distintas categor´ıas de la variable ordinal.
Figura 2.3: Grafico de Barras con frecuencias relativa para el ejemplo 2
Pictograma
El Pictograma para variables cualitativas ordinales es an´alogo al Pictograma para variables cualitativas nominales.
En la figura 2.4 vemos el Pictograma corespondiente al ejemplo 2.
Ojiva o Gr´afico de la Funci´on Acumulada Emp´ıtica Fi∗ para variables Cualitativas Ordinales
Para variables cualitativas ordinales la gr´afica de Fi∗ se realiza con barras cre-cientes.
En la figura 2.5 vemos la Ojiva corespondiente al ejemplo 2.
2.5 Variables Cualitativas Ordinales 25
Figura 2.4: Pictograma con porcentajes para el ejemplo 2
Ejercicio 1
A partir de las funciones hi y Fi∗ podemos contestar una serie de preguntas:
1. Porcentaje de personas que opinan que por lo menos es probable que clasi-fique.
2. Porcentaje de personas que opinan que como m´aximo es poco probable que clasifique.
3. Porcentaje de personas que opinan que clasifica seguro.
4. ¿ Qu´e categor´ıa acumula el 50 % de las personas?
Al menos el 50 % de las personas opinan que como m´aximo
5. ¿ Qu´e categor´ıa acumula el 25 % de las personas?
Al menos el 25 % de las personas opinan que como m´aximo
6. ¿ Qu´e categor´ıa acumula el 75 % de las personas?
Al menos el 75 % de las personas opinan que como m´aximo
Soluci´on:
1. 70 % 2. 30 % 3. 40 %
2.5 Variables Cualitativas Ordinales 27 Un 50 % de las personas opinan que, como m´aximo, es probable que Uru-guay clasifique. Es decir: un 50 % de las personas piensan que UruUru-guay: o no clasifica, o es poco probable, o como m´aximo es probable que lo haga.
5. La categor´ıa que acumula el 25 % de las personas es: poco probable.
Al menos un 25 % de las personas opinan que, como m´aximo, es poco pro-bable que clasifique. Es decir: al menos un 25 % de las personas piensan que Uruguay: o no clasifica o es poco probable que lo haga.
6. La categor´ıa que acumula el 75 % de las personas es: clasifica seguro. Al menos un 75 % de las personas opinan que, como m´aximo, es seguro
que Uruguay clasifica.
2.5.3.
Medidas de resumen para las Variables Cualitativas
Ordinales
Moda o Modo: Es la clase o categor´ıa que tiene la mayor frecuencia rela-tiva (o absoluta). En nuestro ejemplo el modo es clasifica seguro.
Mediana: Es la categor´ıa que acumula el 50 % de las observaciones. ¿C´omo encontrarla? observo Fi∗ y detecto cual es la primera categor´ıa que alcanza el 0,5 o m´as, en esta funci´on. En nuestro caso la mediana es: probable; es decir: al menos un 50 % de las personas opinan que, como m´aximo, es probable que Uruguay clasifique.
es: poco probable; es decir: al menos un 25 % de las personas opinan que, como m´aximo, es poco probable que Uruguay clasifique.
Tercer cuartil : Es la categor´ıa que acumula el 75 % de las observaciones. ¿C´omo encontrarla? observo Fi∗ y detecto cual es la primera categor´ıa que alcanza el 0,75 o m´as, en esta funci´on. En nuestro caso el tercer cuartil es: clasifica seguro; es decir: al menos un 75 % de las personas opinan que, como m´aximo, es seguro que Uruguay clasifique.
Ejercicio 2
Teniendo la codificaci´on:
no clasifica 1 poco probable 2 probable 3 muy probable 4 clasifica seguro 5
tenemos que el promedio para los datos observados es :
¯
X = 1 + (2 + 2) + (3 + 3) + 4 + (5 + 5 + 5 + 5)
10 = 3,5
es decir, en promedio el grupo encuestado opina que se encuentra justo en la mitad de probable: 3 y muy probable: 4 la posibilidad de que Uruguay clasifique al pr´oximo mundial.
1. ¿Es correcto este razonamiento?
2.5 Variables Cualitativas Ordinales 29
clasifica seguro, por ello planteamos la siguiente codificaci´on:
no clasifica 1 poco probable 2 probable 3 muy probable 4 clasifica seguro 10
a) ¿C´omo cambia ´esto el promedio?
b) ¿Qu´e opina sobre calcular promedios con variables cualitativas ordi-nales?
Ejercicio 3
Sea hace una encuesta a los estudiantes para indagar que opinan de los conoci-mientos de un determinado profesor, para ello se les hacen muchas preguntas con las posibles categor´ıas:
muy malo 1 malo 2 aceptable 3 bueno 4 muy bueno 5
intervalos
En general este tratamiento es para variables discretas; pero las variables
continuas, cuando toman pocos valores distintos en la muestra, pueden, tambi´en, no agruparse en intervalos.
Ejemplo 3
Sea la variable X dada por:
X =cantidad de personas que habitan en el hogar
Inclu´ımos la persona encuestada.
El recorrido de X es {1,2,3,4,5,6,7,8,9, . . .}
Los datos obtenidos a partir de una muestra de 10estudiantes son los siguientes:
5 3 2 5 1 4 3 5 2 5
2.6 Variables cuantitativas, no agrupadas en intervalos 31
2.6.1.
Tabla de distribuci´
on de frecuencias para Variables
Cuantitativas no agrupadas en intervalos
Categor´ıas:xi ni =n(xi) hi =h(xi) Fi∗ =F ∗(x
i)
1 / 1 0.1 0.1
2 // 2 0.2 0.3
3 // 2 0.2 0.5
4 / 1 0.1 0.6
5 //// 4 0.4 1
n= 10 1
h(xi):La frecuencia relativa de xi
h(xi) Es la proporci´on de observaciones que tienen valores iguales a xi. Por
ejem-plo: h(2) = 0,2, significa que el 20 % de estos estudiantes en la muestra viven en un hogar con 2 personas.
F∗(xi): La frecuencia relativa acumulada de xi
F∗(xi) Es la proporci´on de observaciones que tienen valores menores o iguales
a xi. Por ejemplo: F∗(4) = 0,6, significa que el 60 % de estos estudiantes en la
muestra viven en un hogar con 4 personas o menos.
2.6.2.
Gr´
aficos para variables cuantitativas no agrupadas
en intervalos
Histograma
Figura 2.6: Histograma de frecuencias para el ejemplo 3.
En el eje horizontal van los valores que toma la variable (xi). En el eje vertical
pueden ir las frecuencias absolutas o las relativas, pero generalmente se utili-zan las frecuencias relativas, por el mismo motivo expresado para las variables cualitativas.
Atenci´on:Los puntos pueden ser prolongados con una l´ınea, hasta su corte con el ejeOx, para mejorar su visualizaci´on o incluso representarse con delgadas barras verticales.
En la figura2.6observamos el histograma de frecuencias relativas para el ejemplo
2.6 Variables cuantitativas, no agrupadas en intervalos 33
Figura 2.7: Pictograma de frecuencias para el ejemplo3.
Pictograma
El Pictograma en este caso es an´alogo al realizado para variables cuantitativas. En la figura2.7 se realiza el Pictograma para el ejemplo 3.
Ojiva
Para variables cuantitativas no agrupadas en intervalos, la gr´afica deFi∗ se repre-senta con una funci´on seccionalmente constante : forma escalonada, donde cada escal´on se da en los valoresxi del recorrido de la variable.
Figura 2.8: Ojiva para el ejemplo 3.
(2), hasta que lleguemos al siguiente xi que tenga frecuencia para acumular (3).
Observaci´on: la altura del escal´on en xi , es su frecuencia relativah(xi). Y que
en xi, F∗(xi) toma el valor de la derecha y no el de la izquierda (que es siempre
m´as peque˜no).
En la figura 2.8 observamos la ojiva para el ejemplo 3.
2.6.3.
Medidas de resumen para variables cuantitativas
no agrupadas en intervalos
Medidas de Posici´on
2.6 Variables cuantitativas, no agrupadas en intervalos 35
a) Moda o Modo: Es la categor´ıa xi , que tiene la mayor frecuencia
relativa (o absoluta). En nuestro ejemplo el modo es Xmo = 5.
b) Mediana :Es la menor categor´ıa xi que acumula al menos el 50 % de
las observaciones. ¿C´omo encontrarlo? observo Fi∗ y detecto cual es la primera categor´ıaxique alcanza el 0,5 o m´as, en esta funci´on. En
nues-tro caso la mediana es:Xme = 3; es decir: al menos un 50 % de las
per-sonas de la muestra, viven con 3 perper-sonas en su hogar, como m´aximo.
c) Media:Es el promedio matem´atico, se puede calcular como el prome-dio de los valores del recorrido ponderado por las frecuencias relativas, es decir:
¯ x=X
i
hi·xi
En nuestro ejemplo tenemos:
¯
x= 1 + 2 + 2 + 3 + 3 + 4 + 5 + 5 + 5 + 5
10 = 1·0,1+2·0,2+3·0,3+4·0,1+5·0,4 = 3,5 2. Cuartiles:
a) Primer cuartil:es la primer categor´ıa que acumula al menos el 25 % de las observaciones. En nuestro ejemplo:
Q1 = 2
b) Segundo cuartil: es la primer categor´ıa que acumula al menos el 50 % de las observaciones, es decir, la mediana.
c) Tercer cuartil: es la primer categor´ıa que acumula al menos el 75 % de las observaciones. En nuestro ejemplo:
Medidas de Dispersi´on:
1. Rango: R Es la diferencia entre el mayor y el menor valor observado en la muestra, en nuestro ejemplo:
R = 5−1 = 4
Nos da una idea de qu´e tan alejados est´an los datos, es una primera y simple forma de medir la dispersi´on de los datos.
2. Rango Intercuart´ılico: RI Es la diferencia entre el terecer y el primer cuartil, en nuestro ejemplo:
RI = 5−2 = 3
Al igual que el Rango, el Rango Intercuart´ılico nos da una idea de la disper-si´on, en este caso nos da informaci´on sobre la dispeci´on del 75 % central de la muestra, dejando de lado as´ı los casos extremos (que pueden ser at´ıpicos). 3. Desviaci´on media: La desviaci´on media es el promedio de las distancias de cada observaci´on al valor promedio de la muestra, puede calcularse como promedio de las distancias kxi−x¯k ponderados por la frecuencia relativa,
es decir:
desv media = X
i
|xi−x¯| ·hi
En nuestro ejemplo, siendo ¯x= 3,5:
|1−3,5|+|2−3,5|+|2−3,5|+|3−3,5|+|3−3,5|+|4−3,5|+|5−3,5|+|5−3,5|+|5−3,5|+|5−3,5|
10
=
2.6 Variables cuantitativas, no agrupadas en intervalos 37 Esta medida nos d´a buena informaci´on sobre la dispersi´on de los datos, nos dice cuanto se alejan del valor medio, en promedio. Sin embargo esta forma de medir la desviaci´on no resulta muy ´util pues no posee buenas propiedades “estad´ısticas”, estudiando inferencia estad´ıstica se podr´a apreciar con m´as sentido este comentario.
Una medida “similar” a la desviaci´on media, pero de mucha m´as utilidad es el Desv´ıo o desviaci´on standard, ella proviene de cierta modificaci´on de la desviaci´on media, es una aproximaci´on del tipo:
desviaci´on media = X
i
|xi −x¯| ·hi =
X
i
p
(xi−x)¯ 2·hi
¿≈?
s X
i
(xi−x)¯ 2·hi
Como se puede apreciar, el ´ultimo paso es dudoso, no est´a clara si vale la igualdad, al menos esto nos lleva a introducir el concepto de varianza y desv´ıo standard. Posteriormente, cuando estudiemos variables aleatorias, veremos que toma mucho m´as sentido la definici´on de varianza aqu´ı dada. 4. Varianza: S2
Con el fin de introducir una medida de dispersi´on de los datos introducimos primero una cantidad para facilitar la definici´on. Llamamos varianza al promedio ponderado de las distancias cuadradas de cada observaci´on a la media, es decir:
S2 =X
i
(xi −x)¯ 2·hi
En nuestro ejemplo:
Observemos que si la variable es medida en una cierta unidad u, enton-ces la varianza queda medida en unidades al cuadrado u2, con el fin de “normalizar” la unidad es que damos paso al desv´ıo standard.
5. Desv´ıo standard: S
El desv´ıo standard se define como la ra´ız cuadrada de la varianza, se inter-preta similar a la desviaci´on media, la distancia promedio entre los valores observados y el valor medio de ´estos. Sabemos que no es exactamente igual a la desviaci´on media, pero la interpretaci´on va en el mismo sentido, aunque t´ecnicamente no sea del todo correcto.
En nuestro ejemplo:
S =√S2 =p2,05 = 1,43
En este caso la interpretaci´on ser´ıa del tipo:
2.7 Variablebles cuantitativas agrupadas en intervalos 39
2.7.
Variablebles cuantitativas agrupadas en
in-tervalos
Habiendo dado un resumen de las principales caracter´ısticas de las variables cua-litativas y cuantitativas que no son agrupadas en intervalos, pasamos ahora a detenernos con un poco m´as de detalle en las variables cuantitativas que agrupa-mos en intervalos.
Ya vimos que el objetivo de la Estad´ıstica era extraer la informaci´on contenida en un conjunto de observaciones o datos. Para ello cuenta con las siguientes herramientas:
2.7.1.
Tabla de la Distribuci´
on de Frecuencias
Continuando con el ejemplo introducido en la p´agina 5, de los adolescentes y su nivel de glucemia, vamos a trabajar con una muestra de 20 adolescentes. Las muestras deben ser por lo general de mayor tama˜no, pero tomamos s´olo 20 para manejar con facilidad los datos.
Ejemplo 4
Tenemos entonces un conjunto de 20 datos de la variable X la cual definimos como
X =nivel de glucemia en ayunas
98, 150, 100, 70, 80, 110, 123, 85, 115, 120 130, 110, 105, 98, 140, 81, 125, 120, 130, 126
En primer lugar, organizamos estos datos muestrales en una tabla de distribuci´on de frecuencias. Lo primero que debemos hacer es determinar los intervalos, con el fin de que los podamos interpretar de alguna forma.
Existen ciertos valores l´ımite, para distintas condiciones relacionadas con la can-tidad de az´ucar en sangre en ayunas. Seg´un algunos especialistas se puede afirmar lo siguiente:
mg de glucosa por dl de sangre Condici´on 48 a 73 hipoglucemia 74 a 99 glucemia normal 100 a 125 pre-diabetes 126 a 152 diabetes
Adoptaremos la convenci´on de construir intervalos de la forma [ , ): implica que el valor de la izquierda est´a en el intervalo pero no el de la derecha. Y recordando que las categor´ıas deben ser exhaustivas, nuestros intervalos ser´an ligeramente diferentes a los planteados en la tabla anterior:
Categor´ıas: [xi−1, xi) ni total
[48,74) X 1
[74,100) XXXXX 5
[100,126) XXXXXXXXX 9 [126,152] XXXXX 5
2.7 Variablebles cuantitativas agrupadas en intervalos 41 A la columna ni se la llama columna de frecuencias absolutas, y en ella se
colocan cu´antos datos caen en cada intervalo. Una pr´actica com´un para comple-tarla, es leer uno a uno los datos y colocar una marca (X) al lado del intervalo donde cada dato se encuentra. Luego contamos la cantidad deXy obtenemos ni.
Al sumar esta columna debemos obtener n: el tama˜no de la muestra.
Es importante tener en cuenta que al organizar los datos en intervalos pierdo la informaci´on de los datos originales, pero gano en un mejor ordenamiento de los datos. Por ejemplo, en la tabla veo que tengo 5 adolescentes en el in-tervalo [ 74, 100 ) pero a partir de la tabla no sabemos si ellos tienen cerca de 74 mg de glucosa por dl de sangre o tienen un nivel cerca de 99 mg/dl, o est´an distribuidas de manera uniforme a lo largo de todo el intervalo. Nosotros vamos a adoptar esta ultima hip´otesis.
La tabla de frecuencias tambi´en incluye las siguientes columnas:
ci: marca de clase del intervalo: es el punto medio de dicho intervalo, que se
calcula como la semisuma de sus valores extremos.
Por ejemplo, el punto medio del primer intervalo es (48 + 74)/2 = 61. La marca de clase viene a ser el valor representativo del intervalo.
hi: frecuencia relativa del intervalo: es la proporci´on de datos que hay en ´el.
Se calcula comohi =ni/n. La suma de todos las hi es siempre 1.
Si multiplicamos hi ·100, obtenemos el porcentaje de datos en cada intervalo.
Por ejemplo, podemos ver en la tabla siguiente que el 45 % de los adolescentes poseen un nivel de glucemia tal (de entre 100 y hasta 126, no inclusive, mg de glucosa por dl de sangre) que los lleva a tener pre-diabetes.
hastacada intervalo inclusive. Se calcula sumando, al valor hi de cada intervalo,
los valores de hi de todos los intervalos anteriores a ´el.
A partir deFi∗, podemos decir que el 30 % de los adolescentes tienen hipoglucemia o glucemia normal (100 mg/dl o menos), lo que implica que el 70 % tienen pre-diabetes o pre-diabetes (pues F ·100 = 0,3).
fi∗: funci´on de densidad emp´ırica: es la frecuencia relativa por unidad de me-dida en cada intervalo. Me indica la concentraci´on o “densidad de datos” que hay en cada intervalo.
Se calcula as´ı: fi∗ =hi/amplitud de cada intervalo. La amplitud del intervalo es
la diferencia entre el extemo superior y el inferior. Por ejemplo el primer valor de fi∗ es 0,05/(74–48) = 0,0019 = 0,002 redondeando a tres decimales.
Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗
[48,74) 1 0,05 0,05 61 0,002 [74,100) 5 0,25 0,3 87 0,01 [100,126) 9 0,45 0,75 113 0,017 [126,152] 5 0,25 1 139 0,01
n= 20 1
2.7.2.
Gr´
aficos
Histograma
2.7 Variablebles cuantitativas agrupadas en intervalos 43 En el eje horizontal se indican los extremos de los intervalos. En el eje vertical van los valores defi∗. Y se levantan “barras” encima de cada intervalo, a la altura del correspondiente fi∗.
Observar que el ´area encima de cada intervalo (base por altura =amplitud del intervalo porfi∗ =hi ) es su correspondiente frecuencia relativa.
El ´area total del histograma es 1, por ser la suma de todas las barras, que son las frecuencias relativashi.
Ojiva o gr´afico de la funci´on de distribuci´on acumulada emp´ırica Fi∗
Para variables cuantitativas agrupadas en intervalos, la gr´afica de Fi∗ se repre-senta como una funci´on continua, pues trabajamos con la hip´otesis de que los valores que caen dentro de cada intervalo, se consideran distribuidos uniforme-mente dentro del mismo. Por lo tanto :
1. Primero, se marcan en el gr´afico las frecuencias acumuladas en los extremos superiores de los intervalos, que son los que aparecen en la tabla. Es decir:
F∗(74) = 0,05, F∗(100) = 0,3, F∗(126) = 0,75, F∗(152) = 1
2. Y posteriormente, se trazan los segmentos que determinan dos puntos con-secutivos. Esto implica un crecimiento uniforme dentro de cada intervalo, en forma coherente con el supuesto antedicho.
Distribuciones Emp´ıricas y Te´
oricas
Las distribuciones estudiadas: fi∗ y F∗(xi) son emp´ıricas, pues son realizadas a
partir de la observaci´on de una muestra.
Existen otras distribuciones llamadas te´oricas(f(xi) yF(xi) ), que resultan de
estudios realizados con modelos probabil´ısticos e involucran los datos de toda la poblaci´on.
Se demuestra que, al aumentar el n´umero de observaciones en las muestras, las distribuciones emp´ıricas se aproximan cada vez m´as a las te´oricas.
2.7.3.
Medidas de resumen
2.7 Variablebles cuantitativas agrupadas en intervalos 45
0 0.2 0.4 0.6 0.8 1
40 60 80 100 120 140 160
Distribucion empirica
nivel de glucemia Ojiva
Figura 2.10: Ojiva del nivel de glucemia
grado en que reflejan la informaci´on del conjunto de datos. Veremos dos grupos de medidas de resumen:
Medidas de posici´on:Indican “por d´onde” se sit´uan los datos de la mues-tra. Estas medidas pueden ser de tendencia central o medidas no centrales (los cuartiles y percentiles).
Medidas de posici´on
Medidas de tendencia central
Son tres: la media, la mediana y el modo.
Media (aritm´etica): Se la puede definir como el “centro de gravedad” de la distribuci´on de frecuencias. Constituye el valor central por excelen-cia, pues considera la totalidad de las observaciones, ponderadas por su frecuencia relativa. Se calcula como la suma de las marcas de clase por la correspondiente frecuencia relativa. Observar en la tabla siguiente que la media surge de sumar la columna indicada como ci·hi.
La media en nuestro caso vale ¯x= 110,4 lo cual significa que, en promedio, los adolescentes encuestados tienen 110,4 mg de glucosa por dl de sangre, en ayunas. Ello s´olo no nos dice mucho pues no sabemos si la mayor´ıa tienen ese valor de glucemia, o tienen valores inferiores y superiores que hacen que sea tal el promedio. M´as adelante calcularemos el desv´ıo standard y se nos aclarar´a un poco el panorama.
Esta media muestral es una aproximaci´on de la verdadera media muestral (que se calcula como la suma de todos los datos originales dividido 20 o sea 110,8 ), pues dentro de cada intervalo, los diferentes valores han sido todos sustituidos por un ´unico valor, ci, el punto medio de dicho intervalo.
Mediana (Xme):Cuando la muestra contiene unos pocos datos sumamente
grandes o muy peque˜nos, la media puede no ser representativa. El punto central de tales datos puede describirse mejor utilizando otra medida de tendencia central como es laMediana, pues ella no considera dichos valores extremos. Es el valor de la variable que divide en dos mitades al conjunto de datos ordenados: es el valor Xme que acumula el 50 % de las observaciones
2.7 Variablebles cuantitativas agrupadas en intervalos 47
Dos casos:
1. Si en la tabla se observa que F∗(xi) = 0,5, entonces Xme =
extremo superior del intervalo correspondiente.
2. Si no es as´ı, entonces la mediana se debe obtener por interpolaci´on dentro del intervalo que contiene a Xme. En este caso, se procede as´ı:
a) Encontramos el intervalo donde se encuentra Xme: es el primer
intervalo donde F∗(xi) es mayor a 0,5. En nuestro caso es [100,
126).
b) Aplicamos la f´ormula siguiente:
Xme =xi−1+
(0,5−F∗(xi−1))
f∗ i
donde:
xi−1 : extremo inferior del intervalo donde est´a la mediana. O sea
xi−1 = 100
F∗(xi−1) : frecuencia acumulada del intervalo anterior al de la
mediana. O sea F∗(xi−1) = 0,3
fi∗ : valor de la funci´on de densidad emp´ırica, correspondiente al intervalo donde est´a la mediana. O sea fi∗ = 0,017
Xme = 100 +
(0,5–0,3)
0,017 = 111,76
Se interpreta diciendo que el 50 % de los adolescentes tienen un nivel de glucemia de 111,76 mg/dl o menos. O m´as significativamente, podemos decir que el nivel de glucemia del 50 % de ellos es mayor o igual a 111,76 lo que implicar´ıa que tienen pre-diabetes o diabetes.
3. Modo (Xmo):Es la categor´ıa con la mayor cantidad de observaciones.
el modo no es ´unico. Si existen dos modos se dice que la distribuci´on es bimodal. En la forma es que estamos trabajando, con datos agru-pados en intervalos, no hablamos de Modo sino de Intervalo Modal: es el intervalo que concentra la mayor frecuencia relativa por unidad de medida, por lo tanto es aquel intervalo, al cual le corresponde el m´aximo valor de la funci´on de densidad emp´ırica fi∗.
En nuestro ejemplo, el intervalo modal es [100, 126), lo cual significa que la mayor parte de los adolescentes de esta muestra (un 45 %) tienen niveles de glucemia entre 100 y 126 (no inclusive) mg de glcosa por dl de sangre en ayunas, lo cual significa que son pre-diab´eticos.
Categor´ıas: [xi−1, xi) ni hi Fi∗ =F∗(xi) ci f∗ ci·hi c2i ·hi
[48,74) 1 0,05 0,05 61 0,002 3,05 186,05 [74,100) 5 0,25 0,3 87 0,01 21,75 1892,25 [100,126) 9 0,45 0,75 113 0,017 50,85 5746,05 [126,152] 5 0,25 1 139 0,01 34,75 4830,25
total n= 20 1 110,4 12654,6
Medidas de posici´on no centrales
Adem´as de las medidas de tendencia central , tambi´en hay algunas medidas ´utiles de posici´on “no central” que suelen utilizarse al resumir o describir propiedades de grandes conjuntos de datos. Estas medidas son los cuartiles y percentiles. LosCuartilesson tres valores:Q1,Q2, yQ3, que me dividen los datos ordenados
2.7 Variablebles cuantitativas agrupadas en intervalos 49
25 % | 25 % | 25 % | 25 % Q1 Q2 Q3
Q1 es el valor cuya frecuencia acumulada es 25 %.
Q2 es el valor cuya frecuencia acumulada es 50 %. Entonces Q2 =Xme
Q3 es el valor cuya frecuencia acumulada es 75 %. Percentiles: Hay noventa y nueve percentiles.
Por ejemplo, el percentil 10 (que anotamos P10) es el valor cuya frecuencia
acu-mulada es del 10 %. Y el percentil 90 (P90 ) cumple que Fi∗(P90) = 0,9
La determinaci´on de estas medidas es an´aloga a la de la mediana o los cuartiles.
C´alculo de PRIMER CUARTIL:
Es aquel valor que cumple que F∗(Q1) = 0,25. Dos casos:
1. Si en la tabla se observa que F∗(xi) = 0,25, entonces Q1 = xi, extremo
superior del intervalo correspondiente.
2. Si no es as´ı, entonces Q1 se debe obtener por interpolaci´on dentro del
in-tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q1: es el primer intervalo
donde F∗(xi) es mayor a 0,25.
b) Aplico la formula siguiente: Q1 =xi−1+
(0,25−F∗(xi−1))
donde:
xi−1 : extremo inferior del intervalo donde est´a Q1.
F∗(xi−1) : frecuencia acumulada del intervalo anterior al deQ1.
fi∗ : valor de la funci´on de densidad emp´ırica del intervalo donde est´a Q1.
En el ejemplo, el intervalo donde est´aQ1 es [74 , 100 ). Por lo tanto:
Q1 = 74 +
(0,25–0,05) 0,01 = 94
Es decir el 25 % de los adolescentes de esta muestra tienen niveles de glucemia de hasta 94 mg/dl.
C´alculo de TERCER CUARTIL:
Es aquel valor que cumple que F∗(Q3) = 0,75. Dos casos:
1. Si en la tabla se observa que F∗(xi) = 0,75, entonces Q3 = xi, extremo
superior del intervalo correspondiente.
2. Si no es as´ı, entonces Q3 se debe obtener por interpolaci´on dentro del
in-tervalo que lo contiene. En este caso, se procede de la siguiente forma:
a) Encontrar el intervalo donde se encuentra Q3: es el primer intervalo
dondeF∗(xi) es mayor a 0,75.
b) Aplico la formula siguiente:
Q3 =xi−1+
(0,75−F∗(xi−1))
2.7 Variablebles cuantitativas agrupadas en intervalos 51 xi−1 : extremo inferior del intervalo donde est´a Q3.
F∗(xi−1) : frecuencia acumulada del intervalo anterior al de Q3.
fi∗ : valor de la funci´on de densidad emp´ırica del intervalo donde est´aQ3.
En el ejemplo, se observa en la tabla que F∗(126) = 0,75. Por lo tanto Q3 = 126. Es decir, el 75 % de los adolescentes de esta muestra
tienen niveles de glucemia hasta 126 mg/dl. O m´as significativamente, el 25 % de ellos tienen niveles de 126 mg/dl o mayores, es decir que tienen diabetes.
2.7.4.
Medidas de dispersi´
on
Las medidas de dispersi´on dan idea de cu´anto se dispersan o concentran los datos de nuestra muestra.
Son ´utiles para medir, de alg´un modo, la representatividad de las medidas de ten-dencia central. En otras palabras:los valores centrales pierden significaci´on cuando la dispersi´on es alta, y por ello debemos conocer y complementar las medidas de posici´on, con las medidas de dispersi´on.
EJEMPLO: los ingresos mensuales de 4 personas (en$) son los siguientes: 7.800, 8.200, 8.000, 8.400.
La media es 8.100, y a simple vista notamos que los valores est´an concentrados en torno a ella, pues se separan poco de la media (la dispersi´on es baja).
Los ingresos mensuales de otras 4 personas son los siguientes:
800 2 700 1 000 12 900
en el caso anterior. Por lo tanto la informaci´on que brinda la media en este caso se desvirt´ua y para no realizar conclusiones err´oneas imaginar que 8.100 es un sueldo representativo de estas 4 personas, debemos acompa˜narla de una medida de dispersi´on, como es el desv´ıo standard.
Rango: R
El rango de un conjunto de datos es la diferencia entre el mayor y el menor de todos ellos. Da idea de la amplitud del recorrido total de la variable en la muestra. Para datos agrupados en intervalos, es la diferencia entre el extremo superior del ´
ultimo intervalo y el extremo inferior del primer intervalo. Es decir:R = 152–48 = 104. Al interpretarlo, decimos que los valores de glicemia de los adolescentes de mi muestra est´an entre 48 mg/dl y 152 mg/dl, (es decir recorren 104 valores). Una limitaci´on que tieneR es que s´olo considera los valores extremos, sin aportar informaci´on sobre los valores interiores.
Rango Intercuart´ılico: RI o desviaci´on respecto a Xme:
RI =Q3–Q1
Es una medida complementaria de la mediana, la cual se encuentra en el intervalo que corresponde al rango intercuart´ılico.
En nuestro ejemplo,
RI = 126–94 = 32 . Se interpreta diciendo que el 50 % de los adolescentes de la muestra tienen niveles de glicemia de entre 94 mg/dl y 126 mg/dl (recorren 32 valores).
2.7 Variablebles cuantitativas agrupadas en intervalos 53 Da idea de la dispersi´on promedio de los datos, respecto a la media aritm´etica. Se calcula como el promedio del cuadrado de las desviaciones de los valores respecto de la media.
S2 =
P
(ci–(¯x)2).ni
n
o m´as f´acil para los c´alculos S2 =P
(c2
i ·hi)−(¯x)2
Entonces la varianza muestral se puede calcular f´acilmente a partir de la tabla, agregando la columnac2
i ·hi y siendo
P
c2
i ·hi la suma de dicha columna. Por lo
tanto S2 = 12654,6−(110,4)2 = 466,44
Observaci´on 1: Las desviaciones de cada xi con respecto a la media, se elevan al cuadrado pues de lo contrario la suma de todas ellas ser´ıa siempre cero.
Observaci´on 2: La varianza es una de las m´as importantes medidas de disper-si´on, pero su resultado implica una magnitud que no tiene una interpretaci´on ´util en s´ı misma, pues al elevar al cuadrado, tenemos unidades de medida al cuadrado. Su significado cobra relevancia al comparar la varianza de dos muestras: a ma-yor varianza, mama-yor dispersi´on y menor concentraci´on de datos. Como tiene el inconveniente de medir la dispersi´on, en t´erminos del cuadrado de las unidades, se calcula su ra´ız cuadrada: la desviaci´on standard
Desv´ıo t´ıpico o desviaci´on standard: S
Se calcula tomando la ra´ız cuadrada de la varianza. Entonces S= 21,6
tanto S tiene interpretaci´on en s´ı misma: En promedio, los niveles de glicemia de los adolescentes de la muestra se desv´ıan 21,6 mg/dl, con respecto a la media que es 110,4 mg/dl. Pero dicha dispersi´on, ¿ es grande o peque˜na ?. Esto lo contesta el coeficiente de variaci´on.
Coeficiente de variaci´on : C.V. relaciona la desviaci´on standard con la me-dia, brindando una medida sobre la dispersi´on relativa del conjunto de observa-ciones. Se calcula s´olo cuando los datos son positivos:
C.V.= S ¯ x
Por lo tanto C.V = 21,6 mg/dl /110,4 mg/dl = 0,196 = 0,20 redondeando Al C.V. generalmente se lo interpreta como un porcentaje. Como es una medi-da que no tiene unimedi-dades, resulta muy ´util para comparar muestras que tengan unidades diferentes.
2.7 Variablebles cuantitativas agrupadas en intervalos 55
2.7.5.
Ejericicos
Atenci´ones muy importante que interpretes los resultados de casa ejercicio. Uno
de los objetivos de la Estad´ıstica es resumir y presentar informaci´on cuantitativa de forma clara, por lo que es especialmente relevante que, en la resoluci´on de los ejercicios, se exprese de forma evidente el planteamiento del problema, el m´etodo seguido para su resoluci´on, los resultados y las conclusiones que se obtengan.
1. A continuaci´on se presenta una lista de variables, las cuales el estudian-te debe poder identificar de acuerdo a la clasificaci´on se˜nalada el punto anterior:
a) N´umero de micciones en 24 horas.
b) Presi´on arterial sist´olica (mm de Hg).
c) Color de ojos (agrupados en tres categor´ıas: 1) celestes, azules o verdes; 2) pardos o negros; 3) otros).
d) Apetito sexual: fuerte, moderado, leve o nulo.
e) N´umero de deposiciones por d´ıa en un beb´e de tres meses.
f) N´umero de cromosomas.
g) Cantidad de gl´obulos rojos.
2. Los items de este primer ejercicio, tienen como fuente de datos la tabla que se presenta a continuaci´on, la cual surge de una encuesta realizada a usuarios de un servicio de salud. El significado de las variables, que se encuentran en la primera fila de la tabla, se explican a continuaci´on de la misma.
2.7 Variablebles cuantitativas agrupadas en intervalos 57
26 0 1 167 47.70 82 179 61 21 0 1 157 57.40 72 232 77 71 1 0 154 61.60 96 233 34 35 1 0 173 97.50 138 211 36 29 1 0 169 81.00 101 229 39 50 1 0 167 67.50 103 221 41 39 1 0 174 88.00 102 214 42 39 1 1 167 82.00 97 273 45 47 1 1 164 70.00 240 264 49 39 1 1 180 81.00 80 238 67 69 1 1 168 71.40 109 235 77 41 1 1 166 82.00 125 255 30
EDAD: En a˜nos
SEXO: 0 (Mujeres) 1 (Varones)
BH: Bebedor/a habitual: 1 (S´ı) 0 (No) TALLA: en cm.
PESO: En Kg.
GLU: Glucemia (mg/dl) CT : Colesterol Total (mg/dl)
HDL: Fracci´on de colesterol unido a lipoprote´ınas de alta densidad: High Density Lipoproteins (mg/dl).
a) Clasifica todas las variables de la tabla, seg´un sean cuantitativas, cua-litativas, discretas o continuas.
Consi-dera 5 intervalos de igual longitud. Interpreta los valores de la tabla construida.
c) Haz una tabla con las frecuencias absolutas, relativas y acumuladas, a partir de los datos de glucemia de los varones de la tabla anterior. Considera 4 intervalos de igual longitud. ¿ Qu´e porcentaje de hombres tienen un nivel normal de glucemia ? Contesta de dos formas: a partir de la tabla de frecuencias y a partir de los datos originales. Explica las diferencias que surjan.
d) Representa el histograma de la variable talla.Considera 5 interva-los.Haz lo mismo, discriminando por sexo, considerando los mismos intervalos. Compara.
e) Representa la tabla de frecuencias de la variable BH, diferenciando por tres grupos de edades: de 20 a 39 a˜nos, de 40 a 59 a˜nos y de 60 a 90 a˜nos. Compara.
f) ¿Qu´e puedes decir sobre las medidas de tendencia central de la variable CT en las mujeres de la tabla? ¿Y sobre su dispersi´on?. Considere 5 intervalos.
g) Analiza la frase “las mujeres tienden a tener un colesterol HDL( co-lesterol bueno) m´as alto que los hombres”, a la luz de esta muestra.
2.7 Variablebles cuantitativas agrupadas en intervalos 59
Nivel socioecon´omico Personas con CI <95 Personas con CI ≥95 Intervalos Frecuencia Frecuencia
[4, 10) 75 19
[10, 16) 35 26
[16, 22) 20 25
[22, 28) 30 30
[28, 34) 25 54
[34, 40] 15 46
a) Dibuje un gr´afico que permita comparar ambos grupos.
b) Calcule las medidas de tendencia central para cada uno de los dos grupos de personas.
c) Calcular las medidas de dispersi´on para cada uno de los grupos.
d) ¿Qu´e conclusiones se pueden sacar a ra´ız de la informaci´on obtenida en los items anteriores?
4. Un estudio consisti´o en anotar el n´umero de palabras le´ıdas en 15 segundos por un grupo de 120 sujetos disl´exicos y 120 individuos normales. Teniendo en cuenta los resultados de la tabla
Nro de palabras le´ıdas Disl´exicos Normales
25 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 2 32
calcule:
b) Las medianas de ambos grupos.
c) El porcentaje de sujetos disl´exicos que superaron la mediana de los normales.
d) Compare la variabilidad relativa de ambos grupos.
5. En una epidemia de escarlatina, se recogieron el n´umero de fallecidos, en 40 ciudades de un pa´ıs, obteni´endose la siguiente tabla:
Nro de fallecidos 0 1 2 3 4 5 6 7 Ciudades 7 11 10 7 1 2 1 1
a) Representar gr´aficamente estos datos.
b) Obtener la distribuci´on acumulada y representarla.
c) Calcular media, mediana y moda. Interpretarlas
d) Calcular la varianza y la desviaci´on standard.
e) Calcular el porcentaje de ciudades con al menos 2 muertos.
f) Calcular el porcentaje de ciudades con m´as de 3 muertos.