ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

(1)

1

ESTADÍSTICA Y PROBABILIDAD

NOTAS DE CATEDRA

Autora: Ing. Inés González de Rubiano

Versión corregida y aumentada en el

(2)

2

Conceptos previos

Podemos decir que entendemos por estadística a la técnica o método que se utiliza para recopilar, organizar, presentar, analizar e interpretar información numérica, con la finalidad de extraer conclusiones útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el conjunto de datos o del conocimiento de una parte del mismo.

Esta definición de estadística nos lleva a hacer dos consideraciones:

Primero, éste concepto no se compadece con el que normalmente se tiene en el uso cotidiano del término. Comúnmente, al hablar de estadística, se quiere hacer referencia a uno o más números referidos a determinados fenómenos. Así oímos hablar de las “estadísticas” de lluvia caída durante un determinado período, importación o exportación de ganado o muebles, sobre analfabetismo, deserción escolar, problemas de conducta, etc. etc. En todos estos casos, de lo que se está hablando en realidad, es de los datos estadísticos referidos a cada uno de éstos temas, o sea magnitudes numéricas asociadas a cada uno de ellos.

De acuerdo a la definición que adoptamos, la estadística es una técnica o un método que aplicaremos al estudio de los datos estadísticos, que no han a ser considerados en forma aislada, sino dentro de un contexto que posibilite efectuar comparaciones y plantear relaciones

Segundo, otro aspecto que debemos señalar es la distinción entre las dos grandes partes de la estadística: la descriptiva y la inferencial.

Para la primera el propósito central es mostrar las características de un determinado fenómeno que ha ocurrido y cuyo comportamiento conocemos, como por ejemplo las ventas de un determinado comercio durante el primer trimestre del presente año, los alumnos matriculados en determinado nivel y período de tiempo en la provincia de Formosa, los casos de violencia de género denunciados durante el año, la distribución de ingresos mensuales según tipo de ocupación y las temperaturas medias diarias de un mes.

La estadística inferencial nos permite proyectar los resultados obtenidos en una muestra a toda la población representada por esa muestra, pudiéndose medir la confianza de la generalización, en términos de probabilidad. La inferencia nos permite además, formular conjeturas o predicciones acerca de las características de un fenómeno que se producirá en el futuro, o que habiéndose presentado en el pasado desconocemos su actual comportamiento.

Si todas las investigaciones fueran posibles de efectuarse observando o recogiendo informaciones de todos los elementos que componen una población, el método estadístico se reduciría fundamentalmente a la Estadística Descriptiva. Pero en la investigación en general muy rara vez se puede estudiar a todos los miembros de la población, sea por razones de tiempo, de costo o de simple imposibilidad física, la mayoría de las investigaciones tiene que limitarse a las observaciones o

(3)

3 experimentación en muestras. De allí que debamos recurrir a la Estadística Inferencial.

Ya que hemos utilizado los términos de población y muestra, los vamos a definir diciendo que llamamos:

POBLACIÓN: al conjunto de individuos u objetos en los cuales un investigador está interesado.

MUESTRA: es el conjunto de individuos u objetos que componen una parte representativa de la población. Es un subconjunto de la población.

La población puede ser finita o infinita.

Una población finita es aquella que puede ser físicamente listada.

Una población puede ser definida como los alumnos regulares de la Universidad Nacional de Formosa y, en ese caso, pueden ser listados e individualizados todos los elementos que constituyen la población. Pero en la investigación científica, muchas veces la población es considerada infinita a causa de la imposibilidad física de listar todos sus elementos. Así, si se considera la población de eucaliptus de un determinado radio o la población de un cierto insecto que ataca a los animales, o los alumnos con problemas de adaptación escolar, etc., todas son ejemplos de poblaciones infinitas y, por lo tanto hipotéticas.

Luego la población infinita es aquella que en la práctica no puede ser físicamente listada.

Las medidas que se calculan teniendo en cuenta todos los elementos que componen una cierta población, se denominan parámetros poblacionales.

Un estadístico muestral, en cambio, es una medida que se calcula teniendo en cuenta solamente los elementos que integran una muestra determinada. Insistimos entonces que la muestra es una parte representativa de la población.

El estadístico muestral nos sirve, pues es la única información con la que contaremos para decir algo acerca de todos los elementos de la población, utilizando las herramientas que nos brinda la estadística inferencial.

Breve reseña histórica

El origen de la palabra “estadística” tiene que ver con la administración de los estados, que exigía la recopilación y el análisis de datos relativos a la población y a la riqueza, para los fines de la guerra y de las finanzas. Con el tiempo fueron obteniéndose datos para otros usos del gobierno. La teoría de probabilidad fue desarrollada a pedido de los nobles franceses y tenía que ver con los juegos de azar.

(4)

4 Las tasas y seguros motivaron que la gente llegara a interesarse en problemas de censos, longevidad y mortalidad.

Se cree que el primer personaje importante en bioestadística fue Adolphe Quetelet (1796-1874), astrónomo y matemático belga, que en su trabajo combinaba los métodos teóricos y prácticos de estadística y los aplicaba a problemas de biología, medicina y sociología. A Francis Galton (1822-1911), primo de Charles Darwin, se le denominó padre de la bioestadística y eugenesia, dos materias que estudió interrelacionadamente. Lo imperfecto de las teorías genéticas de Darwin estimuló a Galton a intentar resolver los problemas de herencia.

La mayor contribución de Galton a la biología es su aplicación de la metodología estadística al análisis de la variación biológica, así como el análisis de variabilidad y su estudio de regresión y correlación en medidas biológicas.

A Weldon se le ha atribuido incidentalmente la creación del término biometría para el tipo de estudios a que se dedicaba. En el siglo XX la figura dominante en estadística y biometría ha sido Ronald A. Fisher (1890-1962).

En la actualidad la estadística posee un campo amplio, cuyas aplicaciones conciernen a casi todas las ciencias e incluso a aquellas que parecen alejadas de los números como son los estudios de humanidades.

Etapas del método estadístico

Cuando definimos estadística, mencionamos las etapas del método estadístico que son:  Recopilación  Organización  Presentación  Análisis  Interpretación

Recopilación: consiste en la captación de los datos estadísticos. Puede ser interna o externa. Es interna cuando se realiza dentro del ente que la va a utilizar. Por

ejemplo los datos de las ventas de un establecimiento se recogen internamente, son de la propia empresa o establecimiento. Es externa cuando los datos provienen de afuera del ente, ya sea porque las tomamos de alguna publicación o porque se captan directamente mediante una encuesta o censo. Como ejemplo tenemos los datos sobre la población total de nuestro país que la podemos obtener de las publicaciones censales.

(5)

5

Permanente

Continua: por medio de registros diarios.

Periódica: por ejemplo los censos de población que se realizan cada diez años, o la

encuesta permanente de hogares que se realiza cada tres meses.

No permanente: está referida a estudios especiales, que pueden utilizar las

encuestas o los censos para la obtención de los datos.

Organización: esta etapa comprende dos operaciones importantes que deben

llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los datos, que resulta sumamente importante, particularmente en los casos de encuestas. Consiste en la eliminación de las inconsistencias internas de algunos datos o el completamiento de otros. Por ejemplo si en una encuesta que estamos realizando en el año 2000 figura una pregunta sobre el año de nacimiento del encuestado, y por otro lado figura otra que solicita la edad, habrá que verificar la coherencia en la respuesta entre ambas. Si no existe esta coherencia habrá que subsanarla tratando de conseguir el dato cierto o bien deducir la edad correcta sobre la base de algunos indicios que puedan surgir de otros aspectos de la información del cuestionario.

Durante la organización también se realiza la clasificación de los datos, que consiste en establecer cuales son los aspectos relevantes que vamos a tener en cuenta para la tabulación y presentación. Pueden tener en cuenta aspectos temporales, (fechas, períodos), aspectos cuantitativos, (ingresos, edad, etc.), aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.). En realidad esta tarea se realiza normalmente antes de finalizada la recopilación, porque forma parte de la programación previa del operativo y de sus objetivos.

Presentación: ya sea para uso propio o para el ajeno, los datos deben presentarse

en forma adecuada.

Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas formas de presentación no son excluyentes entre sí, pudiendo en una misma presentación, emplear mas de una de ellas.

En la forma textual se expresan los resultados a través de enunciados o textos

escritos. Entre las ventajas de ésta forma de presentación se puede mencionar que permite dirigir la atención hacia determinadas cifras haciéndolas resaltar.

Como desventaja mencionamos que solo se puede utilizar cuando los datos a representar son pocos, ya que es necesario leer o por lo menos registrar el párrafo antes de que se pueda comprender el significado de todo el conjunto de cifras. También resulta difícil aislar inmediatamente las cifras individuales del texto.

(6)

6

La presentación tabular es la que hace uso de cuadros o tablas estadísticas. Es

superior al uso de los textos porque es más breve, puesto que los encabezados de las columnas y el título de cada renglón eliminan la necesidad de repetir explicaciones. Además la disposición en filas y columnas de las cifras hace que el cuadro sea claro y fácil de leer. También facilita las comparaciones.

La presentación semi-tabular es una combinación de las dos anteriores.

La gráfica es otra forma de presentar los datos, no excluyente con respecto a los

cuadros. Entre las ventajas podemos mencionar que es más atractiva y más sencilla de interpretar. Además son más eficaces para llamar la atención sobre algún dato que interese particularmente. Dan rápida idea de la situación general. Como desventaja de ésta presentación podemos mencionar que solo se puede presentar una cantidad limitada de información y que solo permite presentar valores aproximados o sea que se pierde precisión con respecto al cuadro.

Variable

Al observar la realidad notamos la enorme cantidad de distinciones sensibles que podemos establecer en ella. Por ejemplo, la altura, el diámetro, la edad, el sexo, la conducta, el tamaño, etc.

Definimos como variable a la propiedad con respecto a la cual los objetos de estudio difieren entre sí de algún modo verificable.

Las variables se clasifican en dos grandes grupos: las categóricas o cualitativas y

las numéricas o cuantitativas.

Las variables categóricas o cualitativas son aquellas que están definidas por las

clases o categorías que las componen.

Por ejemplo los animales pueden clasificarse de acuerdo al color de su pelaje, las especies forestales en familias, las personas de acuerdo a la profesión, etc. Las categorías pueden ser naturales como al definir la variable sexo, (macho, hembra o masculino, femenino) según se trate de animales o personas; o arbitrarias como la clasificación de alturas, (ya sea de personas, animales o vegetales), en bajos, medianos o altos.

Las variables categóricas generadas por la forma de presencia-ausencia de una categoría, se llaman dicotómicas o binarias.

(7)

7 Por ejemplo personas con trabajo o sin trabajo, vegetales comestibles o no comestibles, árboles ornamentales o no ornamentales, animales con crías o sin ellas, etc.

Otro tipo de variables son las numéricas o cuantitativas.

Como su nombre lo indica, las variables numéricas son aquellas que se expresan por medio de un número.

Estas variables se dividen en:

discretas o discontinuas, que se obtienen por conteo y solo toman valores

numéricos fijos, sin posibles valores intermedios. Por ejemplo el número de animales o personas en un establecimiento podrá ser 1.000, 2.000 o 2.500, pero nunca 1.000,6; 2.000,5 o 2.500,7.

Continuas, éstas surgen de mediciones efectuadas sobre cada unidad experimental,

y pueden tomar infinitos valores entre dos valores dados, por lo menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm podrían medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y si se dispone de un método suficientemente preciso para obtener tales medidas. Ejemplos de variables continuas son: longitud, peso, temperatura, etc.

Escala o nivel de medición

Las escalas o nivel de medición se diferencian por propiedades de orden y de distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón.

Escala nominal es aquella en la que no se hace ningún supuesto respecto de las

relaciones que existen entre las categorías de la variable. Por ejemplo el sexo de una persona, es una variable medida en escala nominal, porque no tiene un orden pre establecido; (de mayor o menor), entre sus categorías: varón, mujer. Otros ejemplos de variables medidas en escala nominal son: religión, lugar de nacimiento, color del follaje, color del pelo, etc.

Escala ordinal es aquella que surge de ordenar todas las categorías de la variable,

de acuerdo a algún criterio. Por ejemplo, clasificar las personas de acuerdo al puesto que ocupan en su lugar de trabajo, como: peón, encargado, administrador, etc. El nivel socioeconómico puede ordenarse como alto, medio, bajo. En éstos casos lo único que sabemos es que el nivel de encargado es superior al de peón y el de administrador superior al de encargado. Que el nivel socioeconómico alto implica un ingreso mayor que el nivel bajo. No obstante, en ningún caso sabemos con certeza cuánto “mayor” es una categoría de la variable con respecto a otra pues no existe una medición de distancia.

(8)

8

Escala intervalar es aquella que tiene la propiedad de asignar una medición de

distancia entre los valores de la variable. Entonces cuando se dice que un objeto es mayor que otro, se puede especificar cuantas unidades de diferencia hay entre ambos o por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la medición es posible decir no sólo que Antonio es más alto que Pedro, sino también se puede decir que Antonio es 10 cm mas alto que Pedro. Una característica de la escala intervalar es que el punto de origen o punto cero en la escala de medición es un punto de acuerdo o punto convencional. Otras variables que se pueden medir con escala intervalar son: temperatura, inteligencia, etc. En todos estos casos es posible hacer comparaciones de distancia entre mediciones pero no entre sus magnitudes proporcionales. El punto cero o de origen, es convencional.

Escala de razón: es aquella que presenta todas las propiedades de orden y distancia

de una escala intervalar adicionando el punto “0” o punto de origen que es natural. Por ejemplo medidas de distancia, ingreso familiar, medidas de superficie, etc.

En ésta escala de razón, al igual que en una escala intervalar, las unidades de medida son equidistantes unas de otras con la única diferencia que, en las escalas de razón, existe un punto cero correctamente definido por lo tanto se pueden efectuar comparaciones proporcionales.

El tipo de escala de medición que se utiliza al medir una variable condiciona el tratamiento estadístico que se efectuará a los datos.

MUESTREO

En la vida cotidiana una buena parte de las actitudes y juicios de la gente dependen y han dependido de la práctica consciente o inconsciente del muestreo. Desde el ama de casa que después de examinar algunos artículos en una mueblería, les dice a sus amigas que el mismo es un lugar caro, hasta el periodista que después de permanecer algunos pocos días en un país extraño escribe un libro sobre los problemas del país en cuestión, son ejemplos de inferencia por muestreo, que van

(9)

9 desde lo que tiene base científica, hasta lo que tiene sentido común, hasta lo que puede ser arbitrariamente simplista.

Vemos que la práctica del muestreo antecede a la Estadística en muchos siglos y constituye un procedimiento familiar y empírico de emitir conclusiones. Que es válido sacar de un grupo de elementos representativos, conclusiones generales acerca de todos los elementos de la población.

En resumen, la Inferencia Estadística establece que el muestreo, realizado bajo ciertas condiciones y sometido a ciertos requisitos, constituye un procedimiento científico, en muchos casos insustituible, por lo práctico y económico, para proyectar las conclusiones derivadas de una muestra, a toda la población de la que forma parte la muestra, dentro de límites pre-establecidos de confianza.

Previa a la aplicación de una técnica de muestreo, habrá que fijar el máximo error, en exceso o en defecto, que consideramos aceptable en la medición del atributo investigado en una muestra. O sea el máximo error aceptable del estadístico, con respecto al parámetro.

Otro criterio que habrá que fijar previamente es el nivel de confianza con el que se desea trabajar.

Por ejemplo, supongamos que el objeto de la investigación es determinar la edad promedio de varios miles de trabajadores de cierto sector industrial, para lo cual queremos utilizar una muestra, cuyo error no exceda del 5%, (en exceso o en defecto), con un nivel de confianza de 99%. Estas condiciones implican que la edad promedio que se obtenga de la muestra de trabajadores no debe discrepar en más de 5% con respecto a la edad promedio que obtendríamos si averiguáramos la edad individual de cada uno de los trabajadores en cuestión. Y, por otra parte, significa que la edad promedio obtenido de la muestra, (con el margen de error tolerado) es la misma que obtendremos del estudio de, cuando menos el 99% de todas las posibles muestras, iguales en tamaño a la muestra original, que se pueden sacar de la población.

Ventajas del muestreo: menor costo: menor número de personas dedicadas

a recolectar la información; mayor rapidez en la recolección; mejor preparación del personal dedicado a la recolección; mejores métodos de control e inspección del trabajo, entre otras.

El muestreo, es muchas veces el único método para obtener información, por ejemplo en el caso de poblaciones que se consideran infinitas; o cuando el estudio implica la destrucción del objeto investigado, como en los casos de tests de resistencia a la rotura o a la fusión, tests de duración, los que implican consumo de alimentos o medicamentos, etc.

En ciertas condiciones, el muestreo, aporta resultados más precisos que el conteo o la medición de toda una población, por ejemplo cuando ésta es muy grande

(10)

10 y difícil de examinar individualmente, por lo cual se vuelve vulnerable a ocasionar errores aún mayores que los que pueden derivarse del muestreo.

Criterios de utilización del muestreo:

a) no es aplicable cuando se requiere conocer las peculiaridades de cada miembro de la población.

b) tampoco cuando la variabilidad del atributo que se investiga en la población es muy grande o su incidencia muy rara.

c) antes de aplicarlo hay que definir claramente la población de la cual se extraerá la muestra.

d) Clara determinación previa del atributo que deseamos investigar.

e) Indagar y obtener toda información previa de la población que se va investigar. Realizar una prueba piloto.

Probabilísticas TIPOS DE MUESTRAS

No probabilísticas

Probabilísticas: cuando cada uno de los miembros de la población, tiene

alguna probabilidad conocida, de ser elegido para formar parte de la muestra. El riesgo de conclusiones incorrectas puede ser medido en forma de probabilidades.

No probabilísticas: la probabilidad de elección de los miembros de la muestra

no puede ser determinada, por ende, no hay manera de medir el riesgo de conclusiones erróneas. Al azar simple Sistemático proporcional Muestreo probabilístico Estratificado al azar no proporcional

(11)

11

Por conglomerados

Por conveniencia Muestreo no probabilístico Por juicio

Por cuota

Al azar simple:

Se obtiene utilizando algún procedimiento aleatorio que asegure que cada elemento de la población tenga la misma probabilidad de estar incluido en la muestra elegida.

Cuando la muestra es pequeña, puede utilizarse para la elección, algún procedimiento primitivo como los papelitos o procedimientos similares. Sin embargo, el método más aconsejable, especialmente cuando la población es grande, es efectuar esta elección por medio de una Tabla de números Aleatorios.

A continuación se transcribe un pequeño fragmento de una

TABLA DE NUMEROS ALEATORIOS (Cambridge)

20 17 42 28 23 17 59 66 38 61 02 10 86 10 51 55 92 52 44 25 74 49 04 49 03 04 10 33 53 70 11 54 48 63 94 60 94 49 57 38 94 70 49 31 38 67 23 42 29 65 40 88 78 71 37 18 48 64 06 57 22 15 78 15 69 84 32 52 32 54 15 12 54 02 01 37 38 37 12 93 93 29 12 18 27 30 30 55 91 87 50 57 58 51 49 36 12 53 96 40

Por ejemplo, supongamos que una empresa, tiene a su servicio 20 camiones numerados de 1 a 20 y que los números 1 al 3 son de gran tonelaje, los números 4 al 10 de tonelaje medio y los números 11 al 20 son de bajo tonelaje. Supongamos además, que el kilometraje por litro de combustible de las 20 unidades es la siguiente:

Alto tonelaje Medio tonelaje Bajo tonelaje N° km/lt N° km/lt N° km/lt

1 2,6 4 5,6 11 8,1

2 3,0 5 5,2 12 7,5

3 2,5 6 5,0 13 7,6

(12)

12 8 4,9 15 7,3 9 5,2 16 7.7 10 5,5 17 7,4 18 7,1 19 7.5 20 7.9 __ ___ ___ 8,1 37,1 75,0 Media: 2,7 5,3 7,5

Si utilizando la tabla de números aleatorios, eligiéramos una muestra de 6 camiones, por el método al azar simple y sacamos el promedio de km/lt, el resultado seria el siguiente: N° km/lt 4 5,6 12 7,5 15 7,3 17 7,4 18 7,1 20 7,9 _____ 42,8 Media: 7,1 km/lt

Se puede observar claramente que este método no es él más conveniente, pues la población esta constituida por 3 grupos heterogéneos con respecto a rendimiento de combustible y, además, de tamaños muy diferentes dentro de la población. Se puede apreciar que ninguna unidad de alto tonelaje llega a constituir parte de la muestra aleatoria.

En resumen si la población esta claramente dividida en grupos más o menos heterogéneos y las proporciones de dichos grupos dentro de la población son desiguales, el muestreo aleatorio simple no es él más aconsejable.

Muestreo sistemático:

Consiste en elegir los individuos de la muestra a intervalos sistemáticos del listado, es decir intervalos iguales a partir de un primer caso elegido según

(13)

13

el método de números al azar. Para fijar el intervalo se divide él número de casos de la población por él número de elementos que se desea en la muestra.

Por ejemplo N = 20 camiones y queremos una muestra de 5, se tomara:

N/n = 20 / 5 = 4

Es decir, uno de cada 4 individuos de la población, siendo el primer número entero entre 1 y 4 tomado al azar. Supongamos que sale el 2; el siguiente será el 2 + 4 = 6; el siguiente 6 + 4 = 10, etc. Este método es más conveniente cuando el listado es largo. Puede producir deformaciones, si el listado presenta alguna tendencia, pero esto suele poder corregirse mezclando bien los individuos de la lista.

Muestreo estratificado:

Cuando la población puede dividirse en estratos homogéneos, con respecto al atributo que se investiga; el muestreo estratificado da resultados más precisos que el simple al azar.

El muestreo estratificado consiste en tomar una muestra de cada estrato, para reunir todas las submuestras en una gran muestra total.

Puede ser proporcional: que implica que cada submuestra es proporcional al

tamaño del estrato del que procede, dentro de la población.

En el no proporcional o por muestras iguales, todas las submuestras son

del mismo tamaño y es el método aconsejable, cuando se desconoce la proporción de cada estrato de la población

Muestreo por conglomerados

Consiste en dividir la población en grupos llamados conglomerados.

Estos grupos se usan generalmente cuando hay que hacer trabajos que abarcan una superficie geográfica muy amplia, por ejemplo, estudiar algún aspecto de la población de un país. Se divide a la población en sectores, llamados conglomerados que deben ser lo más homogéneos posible.

Además deben ser exhaustivos, es decir donde estén representados todos los aspectos de la población y mutuamente excluyentes, o sea que cada individuo de la población pertenezca a uno y tan solo un conglomerado.

Aquí lo que se elige es una muestra de conglomerados. Suele tener mucho mayor error que la muestra elegida por el método simple al azar.

(14)

14

MUESTRAS NO PROBABILISTICAS

Muestras por conveniencia

Son aquellas compuestas por los miembros más accesibles de una población, o los que se consideran mas dispuestos a someterse a una encuesta. Por ejemplo las personas que salen de un supermercado.

Muestreo por juicio

Son aquellas cuyos miembros se eligen entre aquellos que se consideran los más representativos de una población.

Por ejemplo si queremos averiguar sobre los gustos para preparar comidas a base de pescados, se elige una población consumidora de este alimento.

Muestreo por cuotas

Es una variante del muestreo estratificado, que lleva implícita una selección más o menos no probabilística de los miembros de cada submuestra.

ORGANIZACIÓN Y RESUMEN DE DATOS

Un conjunto de datos puede ser trabajado en forma bruta, o sea en el orden aleatorio en que se han recolectado. Pero cuando el número de

observaciones es muy grande se hace difícil trabajar de ésta manera, por ello es conveniente resumirlos y clasificarlos de acuerdo con criterios adecuados, de modo de facilitar su análisis y así sacar conclusiones.

Puede ser en:

a) arreglo ordenado: pone los datos brutos en orden, de la observación menor a la

mayor. Esto facilita la evaluación por parte del investigador. Esta forma de trabajar es también aconsejable cuando los datos no son demasiado numerosos.

b) En exhibiciones de “tallo y hojas” o “tronco y ramas”. Esta es una técnica

sencilla de gran utilidad para explorar y describir una gran masa de datos, que fue desarrollada por Tukey.

Supongamos que se han contabilizado la cantidad de personas empleadas en un grupo de establecimientos agrícola ganadero de una zona geográfica determinada, y los resultados obtenidos fueron los siguientes:

(15)

15 23 82 19 50 15 29 9 10 11 52 26

95 20 41 17 33 35 57 61 50 43 10 16 30 27 32 6 47 36 8 84 43 43 67 27 44 16 22 90 29 76 37 17 16

Se comienza colocando en una columna todos los números que conforman los datos eliminando la última cifra (unidades), y se ordenan de menor a mayor.

A la derecha de cada uno de éstos números se escribe la última cifra (unidad) de cada dato, que comienza con el número escrito anteriormente. Posteriormente, se ordenan también de menor a mayor los números de cada fila. Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en las filas pueden repetirse de acuerdo a las cantidades que conforman los datos. Por ejemplo el valor 19 se coloca en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc.

El diagrama de tallo y hojas correspondiente al ejemplo planteado es el siguiente: 0 6 8 9 1 0 0 1 2 5 5 6 6 6 6 7 7 7 9 9 2 0 1 2 2 3 6 7 7 9 9 3 0 2 3 5 6 7 4 1 3 3 3 4 4 7 5 0 0 2 4 7 6 0 1 7 7 0 2 8 0 2 4 9 5

De ésta manera se ha obtenido una distribución de frecuencias, donde la frecuencia ahora esta representada por una fila de números en lugar de un rectángulo.

La interpretación de éste gráfica es la siguiente:

Por ejemplo, tomando la segunda fila puede observarse que hay dos establecimientos con 10 empleados cada uno; 1 de 11; 1 de 12; 2 de 15; 4 de 16, etc.

De ésta manera se interpretan las demás filas.

c) En tablas de distribución de frecuencias: éstas asocian cada valor de la variable,

(16)

16

TABLAS DE DISTRIBUCION DE FRECUENCIAS

Se puede definir a una distribución de frecuencias como el cuadro o tabla que presenta en forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias.

Para variable discreta: se construye una tabla simple. Si una variable continua es tratada como discreta, también podrá presentarse en éste tipo de tabla.

Para variable continua: se construye una tabla con intervalos de clase. Este tipo de tabla también puede utilizarse para variable discreta con amplio recorrido.

Mediante un ejemplo veremos la presentación de una tabla simple de distribución de frecuencias, (variable discreta).

El número de días que no asistieron a trabajar durante un año, un grupo de 40 obreros fue el siguiente, de acuerdo al registro obtenido en el período considerado: ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

Nº de inasistencias Nº de obrer. Frec.ac. Frec.rel.% Frec.rel % acum. (xi) (fi) (Fi) (f ri) (Fri) ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 0 1 1 2,5 2,5 1 2 3 5,0 7,5 2 4 7 10,0 17,5 3 12 19 30,0 47,5 4 10 29 25,0 72,5 5 7 36 17,5 90,0 6 4 40 10,0 100,0 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, TOTAL 40 -- 100,0 ---- ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

En la primer columna (xi) se observan los valores que toma la variable “número de inasistencias por obrero”, ordenados en forma creciente, cuyo campo de variabilidad o dominio, para éste caso, es de 0 a 6.

En la columna siguiente (fi), se ha colocado el número de obreros u observaciones correspondientes a cada valor de la variable, es decir la frecuencia absoluta que presenta cada valor de la misma. Si sumamos ésta columna tendremos el total de obreros cuyas inasistencias se estudia.

Decimos entonces que la frecuencia absoluta está dada por el número de veces que se repite cada valor de la variable.

(17)

17 La suma de las frecuencias absolutas es igual al total de observaciones, que simbolizamos con N o n, según se trate de una población o una muestra la que está en estudio. Luego:

 fi = n

En el ejemplo anterior:

1 + 2 + 4 + 12 + 10 + 7 + 4 = 40

La frecuencia absoluta es siempre un número positivo comprendido entre 0 y n

0  fi  n

Luego en la columna tercera (Fi), sumamos para cada valor dado de la variable, las frecuencias absolutas de los valores menores o iguales al valor que se está considerando. Esto se denomina frecuencia acumulada.

O sea: Fi

Por ejemplo, hasta 2 inasistencias se acumularon 7 obreros, o sea 1 obrero con 0 inasistencia, 2 con 1 inasistencia y 4 con 2 inasistencias.

En la columna cuarta (fri) calculamos el cociente de cada uno de los valores de la columna segunda (fi) respecto del total de obreros, por cien, o sea: fi  40 x 100. Llamaremos a estos valores frecuencia relativa porcentual.

Es decir: fri = fi . 100 n

La frecuencia relativa porcentual es un número positivo comprendido entre 0 y 100

0  fri  100

La suma de las frecuencias relativas porcentuales es siempre igual a 100.

 fri  100

Finalmente en la última columna efectuaremos el cociente de (Fi) sobre el total de observaciones por cien, lo que nos indica el peso relativo porcentual de los casos acumulados hasta cada uno de los valores de la variable y llamaremos a esta columna “frecuencias relativas porcentuales acumuladas”.

(18)

18

Las frecuencias relativas porcentuales acumuladas para el último valor de la variable son siempre igual a 100.

REPRESENTACIÓN GRÁFICA

En general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones de frecuencias cuando se utilizan gráficos estadísticos.

Se utiliza un par de ejes de coordenadas. En el eje de las abscisas se representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias (absolutas o relativas). En el caso de una variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar por un bastón vertical construyéndose de esta forma un “ gráfico de bastones”.

Podemos decir entonces que el gráfico de bastones es la representación

gráfica de las frecuencias de una variable discreta, mediante un gráfico de puntos, en un sistema de coordenadas cartesianas ortogonales cuyas abscisas son los valores de la variable y cuyas ordenadas son las frecuencias absolutas o relativas.

Para el cuadro del ejemplo anterior, el gráfico sería:

fi 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 inasistencias

(19)

19 Gráfico de bastones

El gráfico de frecuencias acumuladas, o “gráfico de escalones”, es la representación gráfica de las frecuencias acumuladas (absolutas o relativas), de una variable discreta mediante segmentos paralelos al eje de abscisas.

Cada segmento se extiende entre dos valores consecutivos de la variable, siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al valor de la variable que es abscisa del punto inicial del segmento.

Fi 40 30 20 10 0 1 2 3 4 5 6 7 inasistencias gráfico de escalones

Como ya dijimos, los mismos tipos de gráficos se utilizan para representar las frecuencias relativas.

PARA EL CASO CONTINUO

Para el caso de variables continuas será necesario fijar intervalos de clase para llegar a un resumen efectivo de la información original que se presenta en una tabla de frecuencias para datos agrupados

(20)

20

Los intervalos de clase o simplemente clases son cada una de las subdivisiones o intervalos en que se ha dividido el dominio o campo de variabilidad de una variable.

Para ello en principio habrá que observar el mayor y el menor valor que toma la variable en estudio y obtener el rango.

El rango se define como la diferencia que existe entre el mayor y el menor valor observado, que toma la variable en estudio.

Por ejemplo si las remuneraciones por cátedra de un grupo de docentes fueran las siguientes: 103 153 079 146 150 149 150 070 128 129 116 087 093 132 110 068 069 086 103 085 100 109 123 114 083 106 118 093 106 106 126 132 102 093 097 106 113 111 095 069 111 141 126 114 114 099 063 079 119 128 131 137 099 067 087 103 087 116 063 085 078 078 105 109 095 087 084 097 106 109 140 113 069 089 089 101 118 106 136 073 086 106 108 105 113 101 081 098 113 069 107 098 069 064 068 078 075 106 096 086

El rango sería igual a:

R = 153 - 63 = 90

Este intervalo que contiene a todos los valores registrados puede dividirse, por ejemplo en 10 intervalos de 10 $ cada uno. Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores originales de la variable se los reemplaza por 10 intervalos de amplitud (h) 10, cada uno.

Los valores colocados a la izquierda de cada intervalo de clase se denominan límite inferior de la clase y lo simbolizamos con Li. Los de la derecha son los límites superiores de las mismas y el símbolo es Ls.

El límite superior de cada intervalo se obtiene, sumando la amplitud (h) a cada límite inferior.

(21)

21 Para establecer la frecuencia de cada intervalo se cuentan los valores de la variable que caen en cada uno de ellos. Por ejemplo, agrupando las remuneraciones tendremos: INTERV. DE CLASE fi 60 - 70 11 70 - 80 9 80 - 90 14 90 - 100 11 100 - 110 22 110 - 120 14 120 - 130 7 130 – 140 5 140 – 150 4 150 - 160 3

La decisión en cuanto a la cantidad de intervalos y a la amplitud de cada uno de ellos es arbitraria. La única recomendación que debemos hacer aquí es tratar de que no queden intervalos de clase con frecuencia nula. En general se aconseja que los intervalos no sean menos de cinco ni más de quince.

Además como el rango total de los intervalos de clase debe incluir a todos los valores de la variable registrados, se aconseja redondear el rango calculado a un número entero superior para evitar que el menor o el mayor valor que toma la variable queden excluidos.

En el ejemplo el rango era igual a 9 y fue redondeado a 10, decidiendo entonces hacer 10 intervalos de amplitud 10 cada uno. El menor valor de la variable era 63 y se empezó a construir a los intervalos desde el valor 60.

El valor de la variable que coincida con un límite, por ejemplo 80 podría ubicarse en el segundo o tercer intervalo de clase. Libremente se puede decidir en cuál de los dos hacerlo, pero siguiendo siempre el mismo criterio a través de todo el proceso de agrupamiento. O sea si se decide ubicarlo en el segundo intervalo, cuando aparezca un valor de 100, se lo ubicará en el cuarto intervalo, si se tiene un valor de 150, se lo debe ubicar en el noveno intervalo.

A través del agrupamiento de las observaciones en una tabla de distribución de frecuencias con intervalos de clase se pierde la información correspondiente a los valores individuales de la variable, ya que se da por supuesto que todas las observaciones de una clase se encuentran en el punto medio del intervalo.

El punto medio o marca de clase de cada intervalo es el valor de la variable en el que se da por supuesto que se encuentran todas las

(22)

22 Se puede hallar sumando el límite inferior y el superior de cada intervalo y dividiendo por dos.

Por ejemplo el punto medio o marca de clase del primer intervalo, de la tabla anterior, es:

Xi = 60 + 70 = 65 2

Otra forma de encontrarlo es sumando al límite inferior la mitad de la amplitud, o sea:

Xi = Li + h / 2

Para el ejemplo sería: 60 + 10/5 = 60 + 5 = 65

Como la mitad de la amplitud es una constante para todos los intervalos de ésta tabla, se puede obtener el punto medio de cada uno de ellos, sumándole 5 a cada límite inferior. Así tendremos:

60 + 5 = 65; 70 + 5 = 75; 80 + 5 = 85; etc., etc.

REPRESENTACIÓN GRÁFICA

Existen dos gráficos, llamados histograma, para representar la distribución de éste tipo de variable:

• para las frecuencias, ya sean absolutas o relativas

• para las frecuencias, absolutas acumuladas, o relativas acumuladas

En el eje horizontal se pondrán los distintos intervalos de clase y en el eje vertical las correspondientes frecuencias (absolutas o absolutas acumuladas).

Cuando, como en éste caso, se estudian variables continuas, las frecuencias se representan mediante áreas o superficies, pues la escala en la que están medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del gráfico.

El mismo nos permite, entre otras cosas, la identificación de valores típicos y atípicos de una distribución.

Llamamos valor atípico al que se diferencia sustancialmente de los demás.

(23)

23

Otro gráfico útil es el polígono de frecuencias, que para el caso del gráfico de frecuencias absolutas, la frecuencia del intervalo se representa por una ordenada en el punto medio del mismo. Para que quede cerrada la figura, ya

que la superficie dentro del polígono de frecuencias es igual a la del histograma para la misma distribución, se coloca un punto medio inmediato anterior y otro inmediato posterior de lo que sería un intervalo anterior y posterior ficticio con frecuencia cero.

Histograma y polígono de frecuencias

Histograma de frecuencias absolutas

En el histograma de frecuencias acumuladas, (gráfica siguiente), éste

polígono se denomina ojiva y es una línea que une los límites superiores de cada uno de los intervalos de clase. Esta línea empieza en lo que sería el límite

superior de un intervalo inmediato anterior ficticio con frecuencia cero.

La mayor utilidad de éste gráfico consiste en la comparación de la distribución empírica de los datos, proporcionada por la tabla de frecuencias, con una distribución estándar denominada distribución normal.

31,10 32,00 32,90 33,80 34,70 35,60 36,50 37,40 38,30 39,20 PC (cm) 0 2 4 6 8 10 12 fre c u e n c ia a b s o lu ta

(24)

24 Histograma de frecuencias acumuladas y ojiva

MEDICIÓN DE DATOS

Las distribuciones de frecuencias aportan información preliminar de interés, acerca de una variable investigada en una población o en una muestra. Sin embargo, a menudo necesitamos una medida que caracterice o distinga a la distribución, en los siguientes aspectos:

• en cuanto a su posición

• en cuanto a su dispersión

• en cuanto a su forma

Como ya dijimos, cuando a éstos valores se los obtiene a partir de toda la población se denominan parámetros y si son calculados con los datos de una muestra se denominan estadísticos.

a) las medidas de posición: nos indican la “posición”, que ocupa la distribución sobre

el eje de las abscisas. También se las denomina de tendencia central porque muchas de ellas tienden a ubicarse en el centro de la distribución.

31,10 32,00 32,90 33,80 34,70 35,60 36,50 37,40 38,30 39,20 PC (cm) 0 10 20 30 40 50 fre c . a b s . a c u m u la d a

(25)

25

b) las medidas de dispersión: nos reflejan cómo se distribuyen los valores de la

variable a lo largo del eje de las abscisas.

c) Entre las medidas de forma, tenemos:

- las de asimetría: que indican la deformación horizontal que tiene la

distribución. Una distribución perfectamente simétrica es aquella en la que las frecuencias equidistantes de la frecuencia máxima son iguales.

- las de puntiagudez: expresan la altura relativa de la distribución.

MEDIDAS DE POSICIÓN

Se definen varios tipos de medidas de posición o tendencia central, siendo las más comunes:

media aritmética moda

mediana

Medidas cuartiles Medidas de deciles fractilas de orden Posición percentiles

Cada una tiene ventajas y desventajas, según los datos y el objetivo perseguido.

El cálculo de las mismas difiere de acuerdo al tipo de variable con que se trabaja y presenta pequeñas modificaciones según se disponga de datos agrupados o no.-

LA MEDIA ARITMÉTICA

O simplemente media, o promedio, es el más conocido y quizás el más usado de los parámetros de posición por las ventajas que ofrece en algunos aspectos. Se

_

denota con x, (léase “x barra”) y para un conjunto N de números x 1 , x 2, x 3, ..., x n se define por:

(26)

26 _ i=n

X = x1 + x2 + x3 + ... + xn =  Xi N i=1 N

i=n

Media aritmética simple:  x i

i=1_N

Es decir la media aritmética simple es la sumatoria de los valores de la variable xi, (variando i de 1 hasta n), dividido por el total de observaciones.

La igualdad i = 1 indica que los valores (datos) deben ser sumados empezando por el primero y terminando por el enésimo como nos indica la igualdad i = n escrita encima del signo.

Por ejemplo: la media aritmética de los números 8, 3, 5, 12 y 10 es:

_

X = 8 + 3 + 5 + 12 + 10 = 7,6 5

Si los números x 1 , x 2 , ...x i se repiten diferente número de veces, o sea tienen frecuencias diferentes, (simbolizadas por fi), podemos agruparlos en una tabla simple de distribución de frecuencias.

Es necesario tener en cuenta el diferente peso que los datos tienen en la distribución y en éste caso deberá aplicarse el concepto de media aritmética

ponderada.

Por ejemplo si tenemos los siguientes valores, correspondientes al número de animales por corral, o al número de árboles por parcela:

x i * fi * xi . fi

50 * 3 * 150 50 que se repite 3 veces 60 * 1 * 60 70 que se repite 2 veces 70 * 2 * 140 60 que se repite 1 vez Tot. * 6 * 350

Los valores 3, 2 y 1 constituyen las respectivas ponderaciones de cada dato o valor observado. La media aritmética ponderada será:

(27)

27 _

X = 50 x 3 + 70 x 2 + 60 = 58,33  58 6

O sea que en promedio cada parcela tiene 58 árboles, o cada corral en promedio tiene 58 animales.

Reemplazando los valores numéricos por sus respectivos símbolos:

_

X = X 1. f 1 + X 2. f 2 + X 3. f3

N

_

X =  x i . f i Media aritmética ponderada

N

Donde N es la frecuencia total (o sea el número total de casos, que en la tabla de distribución de frecuencias está dado por la sumatoria de las fi ).

En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media aritmética es similar al caso anterior, es decir:

_

X =  Xi fi N

Ahora bien, qué valor tomará xi en la fórmula de cálculo de la media aritmética. Ya hemos expresado que cuando se agrupan datos continuos en intervalos de clase, se pierde información original.

Luego, para solucionar este problema, xi se calcula como el promedio entre los extremos de cada intervalo, es decir, xi representa el punto medio, (o marca de clase), de cada intervalo de clase.

Calculemos la media aritmética en la siguiente tabla de distribución de frecuencias:

(28)

28 Categoría fi x i x i . fi 50 - 100 2 75 150 100 - 150 6 125 750 150 - 200 11 175 1925 200 - 250 5 225 1125 250 - 300 3 275 825 _ ____________________ ___ X = 4.775 = 176,85 TOTAL 27 4775 27

Significa que el valor promedio es de 176,85.

Por supuesto que el valor que se obtiene debe estar comprendido entre el mínimo y el máximo de la serie, en éste caso entre 50 y 300.

Características de la media aritmética:

- Como dijimos anteriormente es un valor comprendido entre el mínimo y el

máximo valor de la variable en estudio.

- Posee la misma unidad de medida que la variable considerada.

- En su cálculo intervienen todos los valores de la variable estudiada. Esto

se presenta como una ventaja ya que permite el tratamiento algebraico de la misma.

- Otra ventaja es que resulta de fácil cálculo e interpretación.

- No se la puede calcular cuando los datos están agrupados en una tabla de

distribución de frecuencias con intervalos abiertos, (porque de los mismos no se puede obtener el punto medio). Obviamente esto es una desventaja.

- Se ve afectada o arrastrada por los valores extremos, lo que la hace poco

significativa cuando éstos existen. Por lo tanto no se aconseja su cálculo en éstos casos.

PROPIEDADES DE LA MEDIA ARITMÉTICA

1. “La suma de los desvíos de cada valor de la variable con respecto a la media aritmética es siempre igual a cero”. En símbolos:

_

(29)

29 En general, entendemos por desvío, a la diferencia entre los valores de la variable y un valor fijo cualquiera. Cuando ese valor fijo es la media aritmética tendremos desvíos con respecto a ella.

Por ejemplo: _ Xi Xi - X 2 2 - 5 = - 3 3 3 - 5 = - 2 _ 5 5 - 5 = 0 X = 25 = 5 7 7 - 5 = 2 5 8 8 - 5 = 3 _____________________ _ 25 - 5 + 5 = 0 X = 5

Veamos la demostración analítica de ésta importante propiedad:

_ Xi Xi - X _ X1 (X 1 - X) = d 1 _ X2 (X 2 - X) = d 2 _______ X 3 (X 3 - X) = d 3 . . . . . . . . _ . Xn (X n - X) = d n _  ( X i - X) =  d i _ d i =  x i - N x  d i =  x i - N  x i N  d i =  x i -  x i  d i = 0

(30)

30

2.- “La suma de los cuadrados de los desvíos con respecto a la media

aritmética, da un mínimo”.

Es decir que cuando los desvíos son con respecto a la media, la suma de los cuadrados nos da un valor que será siempre menor que el valor que se obtiene cuando los desvíos y sus cuadrados se calculan respecto de cualquier otra constante distinta a la media. Por ejemplo: _ _ xi xi – x ( xi – x )2 (xi – 1) (xi – 1)2 ( xi – 4) ( xi – 4)2 2 - 1 1 1 1 - 2 4 3 0 0 2 4 - 1 1 4 1 1 3 9 0 0 2 14 5 _

x = 3 tomando, la constante: 1 constante: 4

Observamos que: _  (xi - x)2_{= 2}

 (xi - 1)2_{= 14} (xi_{- 5)}2_{= 5}

Por medio de éste ejemplo hemos comprobado, que si hacemos la sumatoria de los desvíos al cuadrado con respecto a cualquier otro valor, menor o mayor que la media, ésta será siempre mayor que si lo hacemos con respecto al valor promedio.

MODO O MODA

Es el valor de la variable que se repite la mayor cantidad de veces, o sea, al que le corresponde la máxima frecuencia.

^ En símbolos: Mº ó x

Si tenemos datos sin agrupar, bastará con identificar cuál es el valor de la variable que más se repite.

(31)

31 Podremos tener series, con un modo es decir unimodales, con más de un modo, o sea bimodales, o que no tengan modo, llamadas amodales.

Por ejemplo, para las siguientes series de datos el modo sería:

a) 2 3 5 7 2 Mº = 2

b) 10 14 10 12 10 20 14 45 14 Mº = 10 y 14

c) 23 24 25 30 45 54 Sin Mº

En el caso de pocos datos provenientes de una variable discreta, una vez agrupados es posible determinar inmediatamente el valor modal. Bastará con identificar al valor de la variable al que le corresponde la mayor frecuencia.

Ejemplo:

Nº de obreros Cantidad de establecimientos

10 44

11 84

12 73

13 189

14 32

Mirando la tabla, directamente podemos determinar el modo o valor modal fijándonos cual es la máxima frecuencia absoluta, (189 en éste caso), y luego a qué valor de la variable le corresponde, (13, en éste ejemplo). Por lo tanto:

Mº = 13 obreros

Esta medida de tendencia central está indicando que lo mas frecuente es que los establecimientos observados, tengan 13 obreros.

En una tabla con intervalos de clase el modo se puede obtener gráfica y analíticamente.

El siguiente es un ejemplo de una distribución de frecuencias referida a la producción de un grupo de establecimientos, (en kg).

(32)

32

Peso (en kg) punto medio(xi) fi Fi

50 - 100 75 1 1 100 - 150 125 3 4 150 - 200 175 9 13 200 - 250 225 30 43 250 - 300 275 60 103 300 - 350 325 52 155 TOTAL 155

En primer término, vamos a determinar el intervalo con mayor frecuencia absoluta: es 250 – 300. Dicho intervalo se denomina intervalo de clase modal.

Determinación gráfica:

1.- Se confecciona el histograma con la barra de mayor frecuencia y las adyacentes.

2.- Se trazan dos diagonales en el interior de la barra del intervalo modal, partiendo de los vértices de la barra hasta los vértices de las adyacentes.

3.- Se traza luego una línea perpendicular desde la intersección de las dos diagonales hasta el eje de las x, (escala horizontal). El punto donde se cortan será el valor de la variable al que le corresponde la máxima frecuencia, o sea el modo.

En el ejemplo: ^ X  289 60 d2 d1  40  20  0   200 250 300 350 289

Determinación analítica:

(33)

33 Se deriva la fórmula partiendo del dibujo geométrico que resulta de calcular gráficamente el modo.

Mº = Li + d1 . h

d1 + d2

Donde:

Li = límite inferior del intervalo modal

d1 = fi - f(i – 1) , o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata anterior.

d2 = fi – f(i + 1), o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata posterior

h = amplitud del intervalo modal

MEDIANA

La mediana es un estadístico de localización útil a veces en investigación biológica.

Se define como el valor de la variable, (en una serie ordenada), que divide al conjunto de datos en dos subconjuntos con igual número de elementos.

 Se simboliza de la siguiente manera: Med o x

En la siguiente muestra de cinco medidas:

14 15 16 19 23 Med = 16

ya que la tercera observación tiene el mismo número de observaciones a ambos lados.

Podemos hacer visible la mediana fácilmente si pensamos en una ordenación de menor a mayor. Por ejemplo una fila de animales o personas, alineadas por sus estaturas.

El animal o la persona mediana será el/la que tiene igual número de animales o personas a su derecha y a su izquierda. Su altura será la altura mediana de la muestra considerada. Esta cantidad se calcula fácilmente en una muestra ordenada de un número impar de individuos.

(34)

34 Cuando el número es par, la mediana se calcula convencionalmente como el punto medio entre los valores que ocupan el lugar: n/2 y (n/2) + 1. En una muestra de cuatro medidas:

20 21 22 26

la mediana será el punto medio entre la segunda y la tercera medida, o sea: 21,5.

También podemos definir a la mediana como aquel valor de la variable que cumple con la condición de superar a no mas de la mitad de las observaciones y ser superado por no más de la mitad de las observaciones.

Simbólicamente para calcular la mediana hay que distinguir distintas situaciones:

a) Cuando la serie es simple y la cantidad de observaciones es un número impar, es decir, n = número impar. Sea la serie simple:

x = x1, x2 , x 3, ... ... , x n

En éste caso hay que ordenar las observaciones de menor a mayor y luego localizar la observación central que será aquella que ocupe el lugar

n + 1

2

b) Cuando la serie es simple y la cantidad de observaciones es par.

En ese caso hay dos valores centrales: los que ocupan la posición n/2 y (n/2) + 1. Como dijimos por convención se adopta el promedio simple de ambos como única mediana de la serie. O sea:

Med = x(n/2) + x (n/2) + 1

2

c) Serie agrupada, con variable discreta:

El procedimiento de cálculo resulta de practicar el análisis anterior para serie simple, pero teniendo en cuenta las ponderaciones que ahora aparecen.

Hay que calcular el valor de n/2 y las frecuencias absolutas acumuladas. Luego se relaciona el valor n/2 con las frecuencias absolutas acumuladas para encontrar dos de estos valores entre los que esté comprendido el mismo.

Supongamos que ese par de valores sean Fj – 1 y Fj y que satisface que:

Fj – 1 < n/2 < Fj

(35)

35 x i f i F i 7 32 32 8 40 72 58 9 12 84 10 10 94 11 22 116 Total 116 n/2 = 58 32 < n /2 < 72 Mna = 8

d) Distribución de variable continua

Ejemplo: Intervalos fi Fi 20 - 40 2 2 40 - 60 6 8 60 - 80 11 19 n/2 = 15 80 -100 6 25 100 -120 5 30 Total 30

Los pasos para obtener el valor mediana, son:

- Agregar la columna de frecuencias acumuladas ( Fi ). Obtener el punto medio de la distribución mediante la siguiente operación: n/2 = 30/2 = 15

- Ubicar en la columna de Fi ( frecuencias acumuladas), los valores entre los cuales se encuentra el n/2, (15 para nosotros), o sea entre 8 y 19, quiere decir que la mediana, en éste caso, se ubicará en una posición mayor que 8 y menor que 19. Por lo tanto ya sabemos que será un valor entre 60 y 80.-

- Determinado el intervalo en el cual cae la mediana sabemos que el valor será; el límite inferior (Li ) de ese intervalo más una cierta cantidad x, o sea:

(36)

36 Med = Li + x

No necesitamos incorporar las 11 observaciones del intervalo 60 – 80, sino que interpolamos esas frecuencias de la tercera clase, suponiendo que las frecuencias están distribuidas en ella por igual.

Las observaciones cuyas frecuencias necesitamos incorporar surgen de la diferencia entre el punto medio del total de observaciones, (n/30), menos la frecuencia acumulada hasta el intervalo inmediato anterior al de la mediana, o sea:

15 - 8 = 7 Decimos: 11 observaciones --- 20 amplitud 7 “ --- x = 20 x 7 = 12,73 x = 12,73 11 Mna = Li + x Mna = 60 + 12,73 = 72,73 Mna = Li + n/2 - (F(i-1)) h fi Donde:

Li = límite inferior del intervalo donde cae la mediana

n/2 = total de observaciones dividido 2

Fi-1 = frecuencias acumuladas hasta el intervalo inmediato anterior al de la mediana

fi = frecuencia absoluta del intervalo donde se encuentra la mediana

h= amplitud del intervalo donde cae la mediana

CUARTILES, DECILES Y PERCENTILES

Son también parámetros de posición. El concepto de cada uno de ellos responde a un razonamiento similar al de la mediana.

En la mediana buscábamos el valor de la variable que separa a la distribución en dos partes con igual número de elementos. Si nosotros pedimos en cambio, el valor de la variable que supere a no más de ¼ del total de las observaciones y que

(37)

37 sea superado por no mas de ¾ del total de las observaciones, tendremos el primer cuartil ( Q1).

Hay tres cuartiles que dividen la distribución en cuatro partes con igual número de elementos. Por supuesto que el Q2 es la mediana y así se lo designa generalmente.

El tercer cuartil (Q3), o cuartil superior, es el valor situado de modo que las tres cuartas partes de los términos son inferiores y la cuarta parte mayores que él.

El mecanismo para calcular los cuartiles es el mismo que utilizamos para el cálculo de la mediana.

En la última tabla de distribución de frecuencias:

N = 30

para ubicar la categoría donde se encuentra el Q1 hacemos: n/4 = 30/4 = 7,50

El valor 7,50 nos permite determinar que el mencionado cuartil se ubica en el intervalo 40 - 60. O sea que:

Q1 = Li + xi

 Para averiguar el valor de x, efectuamos la interpolación como en la x

La fórmula a utilizar para hallar el valor de Q1 es la siguiente:

Q1 = Li + n/4 - F(i-1) h

fi

Q1 = 40 + 7,50 – 2 . 20 6

Q1 = 40 + 18,33 = 58,33

Este es el valor de la variable que está situado de modo que el 25% de los datos es menor o igual que el mismo y el 75% restante es igual o lo superan.

Para averiguar el valor del Q3, debemos realizar en primer término el cálculo de:

(38)

38 3 n = 3 . 30 = 22,5

4 4

Este valor nos permitirá ubicar el intervalo donde se encuentra el Q3. Para averiguar el valor exacto, aplicamos la fórmula ya conocida:

Q3 = Li + 3.n/4 - F(i-1) . h fi

Q3 = 80 + 22,5 - 19 . 20 = 91,67 6

Este, (91,67), es el valor de la variable que está situado de modo que el 75% de los datos son menores o iguales que él y el 25% restante son iguales o lo superan.

El tercer cuartil es el tercer punto que vemos en el tramo correspondiente:

75% 25% _______________________ Q1 Q3

Deciles:

Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de observaciones y lo dividimos por 10, nos ubicaremos en el lugar correspondiente al primer decil, simbolizado por: D1

10% 10% 10% 10%

         0 D1 D2 D3 D4 D5 D6 D7 D8 D9

Se tienen 9 puntos sobre el eje de las x. El procedimiento para obtener cada uno de los deciles, es el mismo que para los cuartiles.

D1 = Li + n/10 – F(i-1) . h

(39)

39 Siguiendo con el ejemplo anterior,

n/10 = 3, este valor, con el cual entro a la columna de Fi, me ubica en el intervalo 40 – 60.

D1 = 40 + 3 - 2 . 20 = 43,33 6

Significa que del total de observaciones, el 10% son valores inferiores o iguales a 43,33 y el 90% restante son iguales o lo superan.

Percentiles

:

Permiten el estudio, aún más detallado de la distribución, ya que el análisis se hace por tramos del 1%.

Para encontrar la ubicación de los percentiles, hacemos el siguiente cálculo:

P1 n/100 P2 2 n/100 P82 82 n/100

Fácilmente se podrá advertir que el P75 = Q3

Por otra parte: P50 = D5 = Q2 = Mna

A menos que una distribución sea muy extensa, no tiene objeto calcular los percentiles. En realidad, por lo general, sólo se usan los percentiles 10, 20, 30, etc., que son, por supuesto, los deciles 1, 2, 3, etc.

MEDIDAS DE FORMA

De asimetría :        _   _     _ x x x x = x = x x x x

(40)

40 El grado de asimetría de una distribución se conoce como sesgo, es decir cuanto se aparta de la simetría. Si la curva de frecuencias (polígono de frecuencias suavizado) tiene a la derecha una cola mas larga que a la izquierda, se dice sesgada a la derecha o de sesgo positivo. En caso contrario, sesgada a la izquierda o de sesgo negativo.

Una medida de asimetría está dada por la diferencia: media aritmética – modo, dividida por el desvío estándar

_ _

Sesgo = x - modo ó Sesgo = 3( x - mediana) s s

Estos son llamados primer y segundo coeficientes de sesgo de Pearson, respectivamente.

El signo de este coeficiente nos indicará si el sesgo es positivo o negativo. Cuando mas lejano este su valor del 0, la distribución se apartará mas de la simetría.

En una distribución simétrica coinciden la media aritmética, la mediana y el modo.

Cuando la distribución se vuelve asimétrica, a la media aritmética la afecta, no solo el hecho de que haya un exceso de frecuencia de un lado, sino también se ve arrastrada, por los valores atípicos, por lo cual se ubica hacia el extremo donde se encuentran éstos valores.

La mediana divide a la curva en dos áreas iguales. No se presta para el tratamiento algebraico que estudiamos para la media aritmética. El valor de la mediana también cambia en dirección de la asimetría.

El modo se ubica en el valor de la variable al que le corresponde la mayor frecuencia, (el máximo de la curva). El modo no es una medida útil, a menos que se base sobre bastantes términos para presentar una concentración bien definida.

(41)

41

De puntiagudez:

Leptocúrtica mesocúrtica platicúrtica

Esta deformación tiene que ver con el cambio de la dispersión de los datos alrededor de un valor central, que en general es la media aritmética.

La curtosis mide cuán puntiaguda es una distribución, en general con respecto a la normal. Si tiene un pico alto como en la figura de la izquierda, se dice leptocúrtica, mientras si es aplastada como la de la derecha, se dice platicúrtica. La distribución normal, (la del centro), no es ni muy puntiaguda, ni muy aplastada, se llama mesocúrtica.

Una medida de curtosis, llamada coeficiente percentil de curtosis, basada en cuartiles y percentiles, está dada por:

k = ______Q_______ P90 - P10

Donde:

Q = rango semi – intercuartilico, o sea Q 3_ - Q 1 2