HUAMANGA
FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA PROFESIONAL DE BIOLOGÍA
SEPARATA I
ESTADÍSTICA
DESCRIPTIVA
Prof. Reynán Cóndor Alarcón
2016
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 3
Contenido
I. BIOESTADÍSTICA ... 7
1.1. Estadística y bioestadística ... 7
1.2. Objeto de estudio. ... 7
1.3. Estadística descriptiva y estadística inferencial. ... 7
1.4. Conceptos básicos ... 8
1.5 Importancia de la Estadística ... 12
1.6 La bioestadística en la investigación científica. ... 13
II. LOS DATOS ... 15
2.1. Observación ... 15
2.2. Datos ... 15
2.3. Recolección de datos ... 15
2.4. Sistema y fuentes de información ... 15
2.5. Población ... 16
2.6. Muestra ... 16
2.7. Elaboración de los datos ... 17
2.8. Mecanismos para presentar, tabular y graficar datos ... 23
2.9. Distribución de frecuencias (Tablas de frecuencia) ... 26
2.10 Diagrama de Tallos y Hojas ... 43
III. ANÁLISIS E INTERPRETACIÓN DE DATOS ... 45
3.1. Análisis descriptivo. ... 45
3.2. Medidas estadísticas ... 45
3.3. Medidas de tendencia central. ... 45
3.4. Percentiles ... 50
3.5. Medidas de Variabilidad o de dispersión. ... 51
3.5.1 Rango o intervalo de variación ... 52
3.5.2 La varianza ... 52
3.5.3 La desviación estándar ... 54
3.5.4 Coeficiente de variabilidad ... 54
3.6. Medidas de asimetría. ... 56
3.6.1 Formas de una distribución ... 56
3.6.2 Variables ordinales: el índice de asimetría intercuartílico ... 57
3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson ... 57
3.7 Curtosis ... 58
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 4
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher ... 59
3.8 Diagrama de cajas (box plot) ... 59
IV. PROBABILIDADES ... 62
4.1. Conceptos básicos de probabilidad objetiva y subjetiva. ... 62
4.2. Permutaciones y combinaciones. ... 64
4.3. Cálculo de probabilidades de evento. ... 69
4.4 Probabilidad condicional. ... 70
V. Variables aleatorias ... 76
5.1 Definición ... 76
5.2 Variable aleatoria discreta ... 76
5.2.1 Función de probabilidad de una variable aleatoria discreta ... 77
5.3 Variable aleatoria continua ... 80
5.3.1 Función de densidad de una v.a continua X ... 80
5.4 ESPERANZA MATEMÁTICA ... 82
VI. Distribuciones Discretas ... 83
6.1 Distribución Binomial ... 83
6.2 Distribución Hipergeométrica ... 86
6.3 La distribución de Poisson. ... 87
VII. Distribuciones continuas ... 90
7.1 Distribución Exponencial ... 90
7.2 Distribución Normal ... 91
7.3 Distribución Normal Estándar ... 92
7.5 Distribución Ji-Cuadrado ... 94 7.6 Distribución t de Student. ... 95 7.7 Distribución F ... 96 VII. Muestreo ... 102 7.1 Muestreo ... 102 7.2 Muestra ... 102 7.3 Selección de la muestra... 102 7.4 Características de la muestra ... 102 7.5 Tipos de muestreo. ... 102
VIII. Distribución de muestreo ... 104
8.1 Distribución de muestreo de medias ... 104
8.2 Distribución de muestreo de proporciones ... 104
8.3 Errores típicos... 104
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 5
8.5 Ejemplo de distribución de muestreo de proporciones ... 109
IX. Inferencia Estadística. ... 112
9.1 Estimación de parámetros: ... 112
Estimación puntual ... 112
Estimación por intervalos ... 112
Estimador ... 112
Población muestreada... 112
Población objetivo ... 112
9.2 Interpretación del intervalo de confianza ... 115
Interpretación probabilística ... 115
Interpretación práctica ... 115
Precisión ... 115
9.3 Muestreo a partir de poblaciones que no presentan una distribución normal ... 116
9.4 Intervalos de confianza que utilizan la distribución t... 118
9.5 Intervalo de confianza para la proporción de una población ... 119
X. Determinación del tamaño de muestra. ... 121
10.1 Determinación del tamaño de la muestra para la estimación del promedio ... 121
10.1.1 Variancia conocida ... 121
10.1.2 Variancia desconocida ... 121
10.2 Determinación del tamaño de la muestra para la estimación de las proporciones ... 122
XI. Prueba de hipótesis. ... 124
11.1 Tipos de hipótesis ... 124
11.2 El nivel de significación. ... 124
11.3 Tipos de errores. ... 124
11.4 Prueba de hipótesis para la media de una sola población ... 124
A. Muestreo a partir de poblaciones con distribución normal y variancia conocidas ... 125
B. Muestreo a partir de una población con distribución normal y variancia desconocida ... 128
C. Muestreo a partir de una población que no presenta una distribución normal ... 131
11.5 PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN DE UNA SOLA POBLACIÓN ... 133
XII Análisis de Asociación ... 135
12.1 Distribución Ji cuadrada: Prueba de independencia ... 135
XIII. Regresión simple ... 138
13.1 Regresión ... 138
XIV. El modelo de correlación. ... 141
14.1 Correlación ... 141
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 6
14.3 El coeficiente de determinación. ... 144 REFERENCIA BIBLIOGRÁFICA ... 144
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 7
I. BIOESTADÍSTICA
1.1. Estadística y bioestadística
Daniel indica que la estadística es la disciplina que se ocupa de 1) la recolección, organización, resumen y análisis de datos, y 2) la obtención de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos.
La Bioestadística, en el ámbito de la Estadística, hace referencia a métodos estadísticos y matemáticos que se aplican al análisis de datos provenientes de las ciencias biológicas. Debido a que las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u otros organismos vivos, son de naturaleza muy variada. Incluye no sólo herramientas para el análisis estadístico descriptivo de datos biológicos sino también el uso de numerosos procedimientos y algoritmos de cálculo y computación para el análisis inferencial, el reconocimiento de patrones en los datos y la construcción de modelos que permiten describir y analizar procesos aleatorios (Balzarini et al, 2011).
1.2. Objeto de estudio.
El objetivo de la estadística es investigar y evaluar la naturaleza y el significado de la información contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadística se ha propuesto como instrumento de investigación. La investigación puede ser en genética, mercadeo, nutrición, agronomía, etc. Es el campo de investigación, no el instrumento, el que debe proporcionar los “porqué” del problema de investigación. Aveces, este hecho se pasa por alto y los usuarios olvidan que tienen que pensar, que la estadística no puede pensar por ellos. La estadística, sin embargo, ayuda a los investigadores a diseñar experimentos y a evaluar objetivamente los datos numéricos resultantes. Es nuestra intención proporcionar a los investigadores instrumentos estadísticos útiles para este fin.
1.3. Estadística descriptiva y estadística inferencial.
La Estadística puede ser dividida en:
• La Estadística Descriptiva. Parte de la estadística que se ocupa de la clasificación, descripción, simplificación y presentación de los datos. Comprende el uso de tablas de frecuencias, gráficos y el cálculo de medidas estadísticas.
• La Estadística Inferencial. Parte de la estadística que se ocupa de la estimación y prueba de hipótesis de los parámetros de una población, a partir de una muestra aleatoria extraída de dicha población.
Ejemplo
Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en el 2013 y se les aplica la encuesta respectiva.
Se aplica la Estadística Descriptiva para recopilar, clasificar, organizar y presentar en una tabla de frecuencias y en forma gráfica los datos recogidos de una encuesta.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 8
Distribución de la frecuencia de consumo de droga Frecuencia de
consumo Número Porcentaje
No 100 41.7
Interdiario 80 33.3
Diario 40 16.7
A veces 20 8.3
Total 240 100.0
Fuente: UNAL La Molina – Dpto. de Estadística e Informática
Fuente: UNAL La Molina – Dpto. de Estadística e Informática Figura. Frecuencia de consumo de droga.
También se calcula medidas estadísticas. La edad promedio de la muestra de los adolescentes que consumen droga es 20.5 años.
Se aplica la Estadística Inferencial para estimar la proporción de adolescentes que consumen drogas diariamente del distrito de Comas, cuya estimación fue de 16.7%. Para probar la hipótesis si esta proporción es mayor al 17%.
1.4. Conceptos básicos
1) Población. Es el conjunto de unidades elementales con características similares. El estudio de toda la población constituye un censo.
Ejemplo
1. El conjunto de todos los estudiantes de una institución educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011. 41.7 33.3 16.7 8.3 0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0
No Interdiario Diario A veces
%
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 9
3. El conjunto de personas que viven en el Distrito de Ayacucho.
2) Unidad Elemental. Es un elemento particular de la población o muestra. Ejemplo
1. Un estudiante de la Institución educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011. 3. Cada persona que viven en el Distrito de Ayacucho.
3) Muestra. Es un subconjunto de la población. Al proceso de obtención de una muestra se le llama "muestreo". Para que una muestra sea representativa debe cumplir con las siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un método de muestreo.
Ejemplo
1. 120 estudiantes de la institución educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011. 3. 80 personas que viven en el Distrito de Ayacucho.
4) Variable. Son las características que toman diferentes valores cuando son evaluadas en las unidades elementales de una población o muestra. Se representan por las últimas letras mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.
Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene sentido realizar operaciones matemáticas con ellas. Pueden ser del tipo:
• Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición para generar sus valores: balanza, termómetros, test, escalas, cronómetros, winchas, etc.
Ejemplo
1. Peso del langostino de río (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos) 3. Gasto mensual familiar en atención médica (nuevos soles)
• Variable Cuantitativa Discreta. Son aquellas que cumplen con la condición de que entre un valor cualesquiera y su consecutivo no es posible que existan valores intermedios. Generalmente son representados por el conjunto de números enteros. Las observaciones cuantitativas discretas se registran por conteo.
Ejemplo
1. Número de artículos defectuosos en un lote de 20
2. Número de clientes atendidos cada 20 minutos en una ventanilla 3. Número de predios que posee un agricultor de un valle
B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 10
sentido realizar operaciones matemáticas con ellas. Son aquellas cuyos valores posibles son atributos o categorías.
• Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o atributos) no son factibles de ser clasificados a través de un criterio de orden o jerarquía. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente) 3. Marca de una computadora (A, B, C o D)
4. Marca de Automóvil (Toyota, Chevrolet, Mercedes Benz, etc...)
• Variable Cualitativa Jerárquica u Ordinal. Son aquellas donde sí se puede establecer un criterio de orden o jerarquía entre sus atributos de la variable.
Ejemplo
1. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior) 2. Nivel socioeconómico de un cliente (Alto, Medio o Bajo)
3. Calificación de un servicio (Bueno, Regular o Malo) 4. Rango Militar (Cabo, Sargento, Coronel)
¿Variable aleatoria?
Otros autores hacen uso de la definición de variables aleatorias, que en realidad se tratan de las variables cuantitativas, pudiendo ser éstas discretas y continuas. Pondremos énfasis en la aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de un individuo, el resultado frecuentemente se denomina valor de la variable respectiva. Cuando los valores se originan como resultado de factores aleatorios (al azar), que no pueden predecirse con exactitud y anticipación, la variable se llama variable aleatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los niños no es posible predecir con exactitud la estatura que tendrán en su edad adulta; la estatura que alcanza un adulto es el resultado de muchos factores genéticos y ambientales. Los valores resultantes de los procedimientos de medición se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El número de admisiones diarias en un hospital general es una variable aleatoria discreta, puesto que el número de admisiones por día debe representarse con números enteros tales como 0, 1, 2 o 3. El número de admisiones en un día determinado no puede ser 1.5, 2.997 o 3.333. El número de caries, amalgamas o pérdida de dientes por niño en una escuela primaria es otro ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden hacerse en individuos tales como su estatura, peso y diámetro craneano. Sin importar cuán cerca estén las estaturas de dos personas, teóricamente siempre es posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de referencia.
Ahora bien, debido a las limitaciones de los instrumentos de medición disponibles, las observaciones sobre variables que son inherentemente continuas se registran como si fueran discretas. La estatura, por ejemplo, normalmente se redondea metros o centímetros completa más cercanos, mientras que si se cuenta con el instrumento de medición adecuado, esa medida puede hacerse tan precisa como se desee.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 11 Ejemplos:
1. Decir cuáles de estos datos son discretos y cuáles continuos: (a) Número de acciones vendidas un día en la Bolsa de Valores. (b) Temperaturas medidas en un observatorio cada media hora. (c) Vida media de los tubos de televisión producidos por una fábrica. (d) Ingresos anuales de los profesores de Enseñanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa. Solución
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.
2. Dar el dominio de las siguientes variables y decir cuáles son continuas: (a) Número G de galones (gal) de agua en una lavadora.
(b) Número B de libros en una estantería.
(c) Suma S de los puntos obtenidos al lanzar un par de dados. (d) Diámetro D de una esfera.
(e) País P de Europa. Solución
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua. (b) Dominio: 0, 1, 2, 3,... hasta el número total de libros que caben en la estantería. Variable: Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 ó 6. Luego la suma de dos dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ó 12, que es el dominio de S. Variable: Discreta. (d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numéricamente como 1. 2, Variable: Discreta.
5) Observación. Es el valor posible que toma una variable. A las observaciones se les suele representar con las letras minúsculas subindicadas, como por ejemplo x¡, y¡, zi
Ejemplo
1. X = Peso del langostino de río (en gr). Observaciones: x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificación de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo
6) Parámetro. Es una medida estadística para describir el comportamiento de una variable en la población. Son calculadas con los datos de toda la población. Es un valor constante. Se representan con letras griegas.
Ejemplo
1. Suponga que el número promedio de cocinas vendidas en todos los meses de venta es 15.4 (μ = 15.4).
2. El Censo Nacional 2007: XI de Población y VI de Vivienda indica que en el grupo edad de 20 a 29 años, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de las mujeres no sabe leer y escribir (π1 = 0.014 y π2 = 0.031).
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 12 7) Valor estadístico o Estadígrafo. Es una medida para describir el comportamiento de una
variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores variables (varían de muestra a muestra). Los estadísticos sirven para estimar a los parámetros. Se representan con letras latinas.
Ejemplo
1. En una muestra de 30 meses de venta se encontró que el número promedio de cocinas vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe leer y ni escribir (p = 0.011) .
3. Suponga que en distrito de Breña se ha seleccionado una muestra de 500 personas encontrándose los siguientes resultados:
1.5 Importancia de la Estadística
Ya hemos visto que la Estadística se encuentra ligada a nuestras actividades cotidianas. Sirve tanto para pronosticar el resultado de unas elecciones, como para determinar el número de ballenas que viven en nuestros océanos, para descubrir leyes fundamentales de la Física o para estudiar cómo ganar a la ruleta.
La Estadística resuelve multitud de problemas que se plantean en ciencia:
Análisis de muestras. Se elige una muestra de una población para hacer inferencias respecto a esa población a partir de lo observado en la muestra (sondeos de
opinión, control de calidad, etc).
Descripción de datos. Procedimientos para resumir la información contenida en un conjunto (amplio) de datos.
Contraste de hipótesis. Metodología estadística para diseñar experimentos que garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las predicciones resultantes de las hipótesis con los datos observados (medicina eficaz, diferencias entre poblaciones, etc).
Medición de relaciones entre variables estadísticas (contenido de gas hidrógeno neutro en galaxias y la tasa de formación de estrellas, etc)
Predicción. Prever la evolución de una variable estudiando su historia y/o relación con otras variables.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 13
1.6 La bioestadística en la investigación científica.
La estadística es un instrumento aplicable en el método científico, para el cual fue desarrollada. Su aplicación particular está en los muchos aspectos del diseño de un experimento, desde el plan inicial para la recolección de los datos, y en el análisis de los resultados a partir de los datos resumidos, hasta la evaluación de la incertidumbre de toda la inferencia extraída de ellos.
De una forma esquemática, el proceso experimental suele desarrollarse siguiendo el siguiente esquema: Definir la pregunta o problema a resolver. Cuanto más claro y definido sea el objetivo del experimento, mucho más fácil será realizar su planificación y ejecución.
Obtener información y recursos. Una vez definido el objetivo del experimento, es necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qué equipos son necesarios, qué cantidades hay que medir, y de qué manera se va a realizar el experimento.
Formular hipótesis, acerca de los resultados de nuestro experimento. Hacerlo antes de su ejecución evita el sesgo personal de identificar los resultados que ya se conocen como objetivos iniciales (no debemos engañarnos a nosotros mismos).
Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios pasos:
Preparación: el equipo debe ser puesto a punto para su utilización. Si el experimento requiere la utilización de aparatos con los que no estamos familiarizados, es necesario leer atentamente los manuales de utilización, e incluso consultar a experimentadores con experiencia previa en su manejo. Todo ello evita perder tiempo y cometer errores de bulto, a la vez que preserva la integridad del equipo (¡y la nuestra!).
Experimentación preliminar: suele ser muy aconsejable realizar una pequeña experimentación de prueba antes de iniciar la toma definitiva de medidas. Esto facilita el uso correcto del equipo instrumental, permitiendo identificar los aspectos más difíciles o en los que resulta más fácil cometer errores.
Toma de datos: el trabajo cuidadoso y detallado son fundamentales en todo proceso experimental. Ejecutar dicha labor siguiendo un plan de trabajo bien definido resulta básico. No hay nada más frustrante que descubir, tras largas horas de medidas, que hemos olvidado anotar algún parámetro esencial o sus unidades. En este sentido resulta imprescindible tener presentes varias cuestiones
¿Cuáles son las unidades asociadas a cada medida? ¿Cuál es la incertidumbre asociada?
¿Qué variabilidad presentan las medidas?
¿Cómo puedo tener una idea del orden de magnitud de una medida antes de realizarla y saber así que los resultados que se van
obteniendo son razonables?
¿Qué información debe ser incluida en la tabla de datos?
Comprobación de la repitibilidad: siempre que sea posible, todo experimento debería repetirse varias veces para comprobar que los resultados obtenidos son repetibles y representativos. Y aunque,
obviamente, la repetición de un experimento no proporciona exactamente los mismos números, discrepancias muy grandes deben alertarnos acerca de la existencia de efectos sistemáticos que pueden estar distorsionando el experimento.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 14 Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadístico para poder obtener magnitudes (e incertidumbres asociadas) representativas del objeto de nuestro estudio.
Interpretar los datos y extraer conclusiones que sirvan como punto de partida para nuevas hipótesis. El éxito de esta interpretación dependerá, básicamente, de la calidad de las medidas y de su análisis.
Publicar los resultados. Los resultados de cualquier proceso experimental deben ser comunicados de manera clara y concisa. Esto incluye desde un sencillo informe
de laboratorio, como el que se exigirá en los diversos laboratorios en los que se
trabajará durante la licenciatura de Físicas, hasta la publicación de un artículo
científico en una revista reconocida.
Referencias bibliográficas
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 15
II. LOS DATOS 2.1. Observación
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para que se pueda aplicar la estadística a esas observaciones éstas deben estar en forma numérica.
- En el mejoramiento de cultivos, los números bien pueden ser rendimientos por parcela.
- En la investigación médica, pueden ser tiempos de recuperación bajo varios tratamientos.
- En la industria, pueden ser cantidad de defectos en varios lotes de un artículo producido en una línea de montaje.
Tales números constituyen datos y su característica común es la variabilidad o variación.
2.2. Datos
Daniel indica que los datos son la materia prima de la estadística. Para este propósito definió a los datos como números. Las dos clases de números que se utilizan en estadística son números que resultan de la toma —en el sentido literal del término— de medidas, y aquellos que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centígrados. Un tipo bastante diferente de números se obtiene cuando el administrador de un hospital cuenta el número de pacientes, quizá 20, dados de alta en un día. Cada uno de los tres números es un dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con dos decimales) a 72.81, porque 72.8146 está más cerca de 72.81 que de 72.82.
Al redondear 72.465 en centesimas nos hallamos ante un dilema, ya que está equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es particularmente útil para minimizar los errores de redondeo acumulados cuando se efectúa un gran número de operaciones (véase Prob. 1.4).
2.3. Recolección de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen de los elementos de una muestra, y las muestras se toman de la población, de tal forma que sean lo más representativas posible. La técnica más común para asegurar una representación adecuada es usar una muestra aleatoria.
2.4. Sistema y fuentes de información
El desempeño de actividades estadísticas obedece a la necesidad de responder a diversas preguntas. Por ejemplo, los médicos probablemente quieran encontrar respuestas a preguntas con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los administradores posiblemente quieran responder a preguntas respecto a áreas de interés como el espíritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 16
del uso de la estadística, se comienza a investigar datos apropiados que sirvan como la materia prima en la investigación. Estos datos normalmente están disponibles de una o más fuentes como las siguientes:
1. Registros rutinarios. Es difícil imaginar algún tipo de organización que no lleve registros de la operación diaria de sus actividades. Mientras que los registros clínicos de un hospital, por ejemplo, contienen una inmensa cantidad de información acerca de los pacientes, los registros contables de la institución contienen datos en abundancia sobre las actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar primero en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no están disponibles a partir de los registros almacenados de manera rutinaria, la fuente lógica puede ser una encuesta. Por ejemplo, suponga que el administrador de una clínica desea obtener información respecto a la forma de transporte que utiliza el paciente para visitar la clínica. Si la forma de admisión no contiene una pregunta acerca del transporte, es posible llevar a cabo una encuesta entre los pacientes para obtener esta información.
3. Experimentación. Frecuentemente, los datos necesarios para responder una pregunta están disponibles sólo como resultado de la experimentación. Tal vez una enfermera quiere saber qué estrategia es mejor para maximizar el seguimiento de las indicaciones médicas por parte del paciente. La enfermera podría conducir un experimento en el que se prueben diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes. La evaluación subsecuente de las respuestas a las diversas estrategias puede capacitar a la enfermera para decidir cuál es más efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir como informes publicados, bancos de datos disponibles o en la literatura de investigación. En otras palabras, uno se puede encontrar con que alguien más ya planteó la misma pregunta y que la respuesta que obtuvo puede aplicarse a la situación presente.
2.5. Población
Habitualmente se considera a una población como una colección de entidades, por lo general personas. Sin embargo, una población o colección de entidades puede estar compuesta de animales, máquinas, plantas o células. Una población de entidades se define como la colección más grande de entidades de interés en un momento particular. Si se toma la medida de alguna variable para cada una de las entidades en una población, se obtiene una población de valores para esa variable. Por lo tanto, una población de valores se puede definir como la mayor colección de valores para una variable aleatoria, los cuales son de interés en un momento particular. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el sistema de educación primaria del estado, la población está formada por todos esos pesos. Si se tiene interés sólo en el peso de los estudiantes inscritos en el primer grado, se tiene una población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos valores, se dice que la población es finita. Si, por otra parte, una población consiste en una sucesión interminable de valores, entonces es una población infinita.
2.6. Muestra
Una muestra puede definirse simplemente como una parte de una población. Suponga que una población se compone de los pesos de todos los niños inscritos en el sistema de
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 17
educación primaria del estado, y se escoge para el análisis sólo una fracción de los niños; entonces se tiene únicamente una parte de la población, es decir, se tiene una muestra.
2.7. Elaboración de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general interviene una tabla de números aleatorios, como la tabla A.1. Esta tabla está formada por los dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a 10,000 dígitos aleatorios. Estos números se obtuvieron en una máquina y no hay razón para pensar que algún número apareciera con más frecuencia que otro, ni que alguna sucesión de números fuese más frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asignándoles números de orden. La organización por orden no es necesaria para extraer muestras al azar; el orden de los números aleatorios pudo haberse asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tómense 20 dígitos consecutivos de la tabla A.1 y regístrense como 10 pares. Estos serán los números de orden de los pesos correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma más satisfactoria es señalar con el dedo en una de las páginas, leer los cuatro números opuestos más cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida. Así: 1. En la primera página de la tabla A.1, el dedo encuentra el número 1188 (frente a 10 y son los primeros cuatro dígitos en la columna 20-24).
2. Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dígitos que se encuentran yendo hacia la derecha, y que son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una línea y se procede al revés para obtener los otros números, o sea, 09,15,30 y 59.
4. Se toman los números de los elementos y se llevan a la tabla 4.1 para obtener las correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fríjoles marcados con 100 contenidos de grasa de leche, volviendo cada fríjol a la bolsa y mezclando bien los frijoles antes de cada extracción. Por esta razón, se dice que el muestreo es con reemplazo. Nótese que cada elemento puede sacarse cualquier número de veces
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 18 Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein durante un mes
Los datos originales se modificaron para que se aproximaran a una distribución normal con 𝜇=40 Ib y σ=12 Ib.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0 10 25 33 50 40 75 47 1 12 26 33 51 40 76 48 2 14 27 34 52 41 77 48 3 15 28 34 53 41 78 48 4 17 29 34 54 41 79 49 5 18 30 35 55 41 80 49 6 20 31 35 56 42 81 49 7 22 32 35 57 42 82 50 8 23 33 36 58 42 83 50 9 25 34 36 59 42 84 51 10 26 35 36 60 43 85 51 11 27 36 37 61 43 86 52 12 28 37 37 62 43 87 52 13 28 38 37 63 43 88 53 14 29 39 37 64 44 89 54 15 29 40 38 65 44 90 55 16 30 41 38 66 44 91 57 17 30 42 38 67 45 92 58 18 31 43 38 68 45 93 60 19 31 44 39 69 45 94 62 20 31 45 39 70 46 95 63 21 32 46 39 71 46 96 65 22 32 47 39 72 46 97 66 23 32 48 40 73 47 98 68 24 33 49 40 74 47 99 70
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 23
2.8. Mecanismos para presentar, tabular y graficar datos
La siguiente Tabla muestra el número de bushels (bu) de trigo y maíz producidos en la cooperativa PQR durante los años 1975-1985. Con referencia a esa tabla, determinar el año o años durante los cuales: (a) la producción de trigo fue mínima, (b) la de maíz fue máxima, (c) se dio el mayor descenso en la producción de trigo, (d) decreció la producción de maíz respecto del año anterior y creció la de trigo, (e) se produjo idéntica cantidad de trigo y (f) la producción conjunta de trigo y maíz fue máxima.
Año Número de bushels de trigo Número de bushels de maíz 1975 200 75 1976 185 90 1977 225 100 1978 250 85 1979 240 80 1980 195 100 1981 210 110 1982 225 105 1983 250 95 1984 230 110 1985 235 100 Solución (a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y 1983; (f) 1983.
Representar los datos del Problema anterior usando: (a) gráficos de trazos y (b) gráficos de barras.
Solución
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 24
(b) Gráfico de barras.
Gráfico de barras en componentes
0 50 100 150 200 250 300 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Número de bu shel s Año Trigo Maíz 0 50 100 150 200 250 300 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Número de bu shel s Año Trigo Maíz 0 50 100 150 200 250 300 350 400 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Número de bu shel s Año Maíz Trigo
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 25
(a) Expresar la cantidad anual de bushels de trigo y maíz del Problema como porcentajes de la producción total anual.
(b) Representar los porcentajes obtenidos en la parte (a). Solución
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maíz 100% — 72.7% = 27.5%; etc. Los porcentajes se indican en la Tabla 1.5.
Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Porcentaje de trigo 72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10% Porcentaje de maíz 27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%
(b) El gráfico de tales porcentajes, Figura 1.11, se llama gráfico de porcentajes en componentes. Puede usarse un gráfico similar al de la Figura 1.9.
Ejemplo: Las áreas de los continentes se recogen en la siguiente Tabla. Representar los datos gráficamente.
Tabla. Áreas de los continentes
Continente Área km2 % Asia 43810000 29% América 42330000 28% África 30370000 20% Antártida 13720000 9% Europa 10180000 7% Oceanía 9008500 6% Total 149418500 100% Solución Primer método
Gráfico de barras en el que las barras son horizontales.
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 Por cen taje Año Maíz Trigo
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 26 ÁREAS DE LOS CONTINENTES
Diagrama circular.
2.9. Distribución de frecuencias (Tablas de frecuencia)
a. Organización para variables cualitativas (nominal o jerárquica)
La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos valores (atributos) que toma la variable cualitativa.
Tabla de frecuencias Clase o categoría (f¡) (fri) (p¡) Atributo 1 f1 fr1 P1 Atributo 2 f2 fr2 P2 . . . Atributo k fk frk Pk n 1 100 0 10000000 20000000 30000000 40000000 50000000 Asia América África Antártida Europa Oceanía Área en km2 Conti ne ntes Asia, 29% América, 28% África, 20% Antártida, 9% Europa, 7% Oceanía, 6%
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 27
Donde:
k= Número de clases
n= Número de observaciones o unidades elementales
Frecuencia absoluta (fi). Es el número de observaciones que existen en la clase o categoría i. Se cumple: 1 k i i f n
Frecuencia relativa ( fri). Es la proporción o porcentaje de obaservaciones con respecto al total (n) que existen en l clase o categoría i.
i i f fr n Se cumple: 1 1 k i i fr
Frecuencia porcentual (pi). Es el porcentaje de observaciones con respecto al total (n) que esxisten en la clase o categoría i. se tiene:
100 i i p fr Se cumple: 1 100% k i i p
Tipo de gráficosSe pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de gráficos
• Gráfico de barras vertical u horizontal • Gráfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se obtuvo los siguientes resultados:
Caso Edad Ingreso Mensual (miles de S/.) N° de viajes (mensual) Tarjeta de crédito usada Lugar de uso de tarjeta de crédito Monto de deuda (miles de S/.) Sexo
1 29 3,00 3 Ta1 centros comerciales 1,80 F
2 34 1,99 3 Ta2 discotecas 1,10 F
3 61 2,90 2 Ta3 restaurantes 0,60 M
4 28 4,70 0 Ta2 grifos 2,70 M
5 41 3,00 1 Ta4 centros comerciales 1,30 F
6 57 5,80 2 Ta1 otros 0,80 F
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 28
8 43 7,09 0 Ta3 centro de estudios 0,90 F
9 45 4,40 1 Ta5 centros comerciales 1,40 M
10 35 6,82 0 Ta2 grifos 2,46 F 11 42 5,30 3 Ta1 restaurantes 1,10 F 12 28 5,80 2 Ta4 discotecas 0,20 M 13 28 5,70 1 Ta2 grifos 0,80 F 14 24 4,70 4 Ta4 restaurantes 0,50 M 15 35 6,60 1 Ta5 discotecas 0,40 F 16 42 6,60 2 Ta4 restaurantes 3,46 F 17 48 5,74 1 Ta1 discotecas 1,20 M
18 34 4,23 0 Ta5 centros comerciales 1,90 F
19 66 5,50 3 Ta1 restaurantes 2,35 M
20 36 6,60 1 Ta4 centros comerciales 1,90 F
21 59 3,85 1 Ta4 restaurantes 0,30 M
22 37 6,70 3 Ta6 centros comerciales 0,70 F
23 53 3,50 0 Ta5 restaurantes 0,67 F
24 35 8,80 1 Ta1 discotecas 0,50 F
25 63 10,00 4 Ta5 restaurantes 1,50 M
26 28 10,10 2 Ta1 centro de estudios 0,70 F
27 43 13,40 2 Ta2 discotecas 1,50 F
28 60 3,90 0 Ta5 otros 1,99 M
29 59 5,84 1 Ta5 restaurantes 0,60 M
30 63 3,50 1 Ta4 grifos 1,50 M
31 55 4,40 2 Ta2 centro de estudios 0,40 M
32 42 3,70 0 Ta5 centros comerciales 1,80 F
33 51 4,50 1 Ta1 otros 0,70 M 34 39 5,63 1 Ta1 otros 0,80 M 35 55 4,60 4 Ta1 discotecas 1,25 M 36 35 5,79 0 Ta5 discotecas 1,60 M 37 42 2,93 3 Ta5 grifos 0,20 M 38 36 6,60 1 Ta3 grifos 4,37 F
39 49 4,60 0 Ta3 centros comerciales 2,00 M
40 27 6,60 0 Ta4 grifos 0,90 F
41 36 2,90 4 Ta1 discotecas 0,47 M
42 42 4,69 2 Ta2 centros comerciales 0,80 F
43 25 3,99 1 Ta4 restaurantes 4,32 F
44 32 6,70 2 Ta1 centros comerciales 0,60 M
45 28 2,58 1 Ta4 otros 1,70 M
a.1 Organización de datos cualitativos nominales Tabla de frecuencia de tipo de tarjeta de crédito usada
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 29 N° de clase Tarjeta de crédito usada Frecuencia Absoluta Frecuencaia relativa Frecuencia porcentual 1 Ta1 12 0.27 26.67 2 Ta2 7 0.16 15.56 3 Ta3 4 0.09 8.89 4 Ta4 11 0.24 24.44 5 Ta5 10 0.22 22.22 6 Ta6 1 0.02 2.22 Total 45 1.00 100.00
f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crédito
Ta3
fr1 = 0.2667 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta de crédito
Ta1.
P2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de crédito Ta2.
Gráfico de barras
En el gráfico de barras, se aprecia que la tarjeta Tal es la de uso más frecuente.
Gráfico circular 0.00 5.00 10.00 15.00 20.00 25.00 30.00
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
% TARJETA DE CRÉDITO 27% 16% 9% 24% 22% 2%
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 30
En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos frecuente.
a.2 Organización de datos cualitativos ordinales
Ahora veamos un caso que involucre una variable cualitativa jerárquica u odinal, pero también veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos de la base de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (ficticias) de 60 pacientes postoperados, a quienes se solicitó calificar su percepción del dolor en una escala ordinal de cuatro puntos, como parte de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son básicamente no informativos en lo que se refiere a los patrones de respuesta. ¿Algunos niveles de dolor dominaron? ¿Era común el dolor severo? ¿Qué proporción de pacientes no tenía dolor? ¿Qué proporción sufría de dolor leve o de menor intensidad?
Con esta pequeña cantidad de datos usted puede pasar unos minutos observando la tabla para formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no sería efectiva con un gran conjunto de datos. Aun con este número limitado de respuestas sería conveniente reordenar los datos para facilitar la obtención de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes. Número de
paciente Nivel de dolor
Número de
paciente Nivel de dolor
Número de
paciente Nivel de dolor
Número de
paciente Nivel de dolor 1 moderado 16 leve 31 ninguno 46 severo
2 ninguno 17 leve 32 moderado 47 ninguno
3 leve 18 moderado 33 ninguno 48 ninguno
4 ninguno 19 ninguno 34 ninguno 49 leve
5 severo 20 ninguno 35 leve 50 leve
6 ninguno 21 leve 36 ninguno 51 leve
7 moderado 22 ninguno 37 moderado 52 ninguno
8 ninguno 23 ninguno 38 leve 53 leve
9 ninguno 24 leve 39 ninguno 54 severo
10 leve 25 moderado 40 ninguno 55 moderado
11 leve 26 moderado 41 ninguno 56 ninguno
12 ninguno 27 ninguno 42 ninguno 57 ninguno
13 leve 28 ninguno 43 ninguno 58 ninguno
14 leve 29 leve 44 ninguno 59 leve
15 ninguno 30 severo 45 ninguno 60 ninguno
Distribuciones de frecuencias absolutas
La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna lista las categorías de la escala de menor a mayor. La segunda muestra la frecuencia de respuesta para cada categoría, que se obtiene mediante el conteo del número de veces que ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el número de respuestas de cada tipo.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 31 Tabla 2.2. Distribuciones de mediciones de dolor percibido.
Categoría de dolor Frecuencia absoluta Frecuencia relativa Frecuencia absoluta acumulada Frecuencia relativa acumulada Severo 4 0.07 60 1.00 Moderado 8 0.13 56 0.93 Leve 17 0.28 48 0.80 Ninguno 31 0.52 31 0.52
Distribuciones de frecuencias relativas
La tercer columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se obtiene dividiendo cada frecuencia entre el número total de respuestas (en este caso 60). La frecuencia relativa, entonces, es la proporción de respuestas de cada tipo.
Usted puede percibir rápidamente a partir de las dos primeras columnas que el mayor número de pacientes (31) indicó no haber tenido dolor. Este número representa 0.52 (o 52%) del total de la muestra. El dolor severo fue menos común, pues únicamente 4 personas (0.07 de la muestra) eligieron esta categoría. En general, el número de respuestas en las categorías disminuyó conforme éstas representaban niveles más altos de dolor.
Distribuciones de frecuencias acumulativas
La columna de la frecuencia acumulativa muestra el número de pacientes que indicaron que su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17) clasificaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8) percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se obtiene mediante la suma de la frecuencia en una categoría dada con las categorías que indican un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el núme ro total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor era leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de menor intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la proporción de los pacientes que indicaron que su dolor fue menor que o igual que el nivel representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para una variable de nivel ordinal. Las primeras dos distribuciones también pueden utilizarse para una variable de nivel nominal. Obviamente las distribuciones acumulativas no serían apropiadas en este caso puesto que no hay un orden cuantitativo para una variable de nivel nominal.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 32 Figura. Representación en barras de las frecuencias absolutas, relativas, absolutas acumuladas y
relativas acumuladas.
b. Organización para variables cuantitativas discretas
La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos valores (números) que toma la variable cuantitativa discreta. Se usa cuando el conjunto de valores posible de la variable cuantitativa discreta es pequeño.
Tabla de frecuencias N° de clase Valor de la variable (fi) (fri) (p¡) 1 X1 f1 fr1 P1 2 X2 f2 fr2 P2 . . . k Xk fk frk Pk Total n 1 100 4 8 17 31 0 10 20 30 40
Severo Moderado Leve Ninguno
Frecuencia absoluta 0.07 0.13 0.28 0.52 0.00 0.10 0.20 0.30 0.40 0.50 0.60
Severo Moderado Leve Ninguno
Frecuencia relativa 60 56 48 31 0 20 40 60 80
Severo Moderado Leve Ninguno
Frecuencia absoluta acumulada
1.00 0.93 0.80 0.52 0.00 0.20 0.40 0.60 0.80 1.00 1.20
Severo Moderado Leve Ninguno
Frecuencia relativa acumulada
4 8 17 31 60 56 48 31 0 10 20 30 40 50 60 70
Severo Moderado Leve Ninguno
0.07 0.13 0.28 0.52 1.00 0.93 0.80 0.52 0.00 0.20 0.40 0.60 0.80 1.00
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 33 Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas, relativas o porcentuales.
Ejemplo 2. Organización de datos cuantitativos discretos
Tabla de frecuencias del número de viajes al mes N° de viajes al mes Frecuencia Absoluta No de clientes fi Frecuencia Relativa fri Frecuencia Porcentual Pi 0 10 0.2222 22.22 1 15 0.3333 33.33 2 9 0.2000 20.00 3 6 0.1333 13.33 4 5 0.1111 11.11 Total 45 1 100 Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes. p1 = 22.22 El 22.22% de los clientes no han realizado viajes.
Gráfico de bastones o varas
En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número 1 (un viaje al mes) es el más frecuente.
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 0 1 2 3 4 % VIAJES
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 34 c. Organización para variables cuantitativas continuas
El conjunto de datos es agrupado por intervalos de clase que conforman las clases o categorías de la tabla de frecuencias.
N° de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec. clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> X'i fi fri p¡ F¡ Fri Pi 1 [LI1-LS1> X'1 f1 fr1 p1 F1 Fr1 P1 2 [LI2-LS2> X'2 f2 fr2 p2 F2 Fr2 P2 . . . k [LIk-LSk] X'k fK frK pk Fk Frk Pk Total N 1 100 1 100 Donde: i
LI = Límite inferior de la clase i (Límite cerrado)
i
LS =Límite superior de la clase i (Límite abierto, salvo última clase que es cerrado)
Marca de clase (X ). Es el punto medio del intervalo de clase. Se considerará como el valor i'
representativo de los valores que pertenecen al intervalo de clase. Se calcula: '
2
i i
i
LI LS
X o Xi'Xi'1TIC, donde TIC es el tamaño del intervalo de clase Frecuencia porcentual (pi). Indica el porcentaje de observaciones o unidades elementales que hay en la clase i. Se cumple:
1 100% k i i p
Frecuencia acumulada absoluta (Fi). Indica el número de observaciones o unidades elementales que hay desde la primera clase hasta la clase i. se calcula por:
1 2 1 ... k k i k i F f f f f
Propiedad: 1 t t h i i h F F f
, h tFrecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o unidades elementales que hay desde la primera clase hasta la clase i. Se calcula por:
1 1 i j i j i j f Fi Fri fr n n
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 35 Propiedad: 1 t t h i i h Fr Fr fr
, h tFrecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades elementales que hay desde la primera clase hasta la clase i.
Propiedad: 1 t t h i i h p p p
, h tPasos para la construcción de una tabla de frecuencias: Paso 1. Hallar el rango o amplitud (r). r = Máximo-Mínimo
Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 + 3.3log(n). Eligiendo un valor: 3 ≤ k ≤ 15
Se aplica el redondeo normal a entero.
Si el primer dígito decimal: es ≥ 5, se redondea al entero Inmediato superior y si es < 5, se considera el entero obtenido.
Paso 3. Hallar el tamaño de Intervalo de Clase (TIC).
r TIC
k
El número de decimales debe ser igual al de las observaciones.
Se aplica el redondeo por exceso. Si la posición del decimal es ≥1, se redondea al valor inmediato superior, de lo contrario no se redondea.
Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase. LI1 = Mínimo LI2 = LI1 + TIC = LS1 LI3 = LI2 + TIC = LS2 … LIk = LIk-1 + TIC = LSk-1 LS1= LI1 + TIC LS2= LI2 + TIC LS3= LI3 + TIC LSk= LIk + TIC
Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada observación a alguno de los intervalos de clase. Luego completar la tabla hallando
'
, , , ,
i i i i i X f fr F Fr
Tipos de gráficos
• Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos de clase en el eje horizontal.
• Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase en el eje horizontal.
Ejemplo 3. Organización de datos cuantitativos continuos
Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de nuevos soles).
Paso 1. Calcule el rango ( R ). R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 36
k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556
Redondeo estadístico: Se toma en consideración el primer valor decimal, si es: ≥5 se redondea al entero inmediato superior < 5 se considera el entero obtenido
En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número de clases que se debe considerar es k=6.
Paso 3. Halle el tamaño de los intervalos de clase (TIC) 11.41 1.90167 6 r TIC k
Redondeo por exceso: se toma en consideración el número mayor de decimales que tienen las observaciones. Considerando la posición de este decimal, se presentan 2 casos:
• Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor inmediato superior
• Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza ningún redondeo
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC también se considerará con 2 decimales y como hay al menos un valor diferente de cero a la derecha de las centésimas se incrementa en una centésima quedando TIC = 1.91
Paso 4. Construya la tabla de frecuencias.
Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho. Tabla de frecuencias del ingreso mensual
N° de clases Ingreso mensual [LI-LS> Marca de clase ' i X Abs. fFrec. ¡ Frec. Rel. fri Frec. Porc. P¡ Frec. Acum. Abs. f¡ Frec. Acum. Rel. fri Frec. Acum. Porc. P¡ 1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44 2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88 3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10 4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32 5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76 6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100 45 1.0000 100 Interprete:
f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900 pero menos de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos S/. 7720 pero menos de S/. 9630
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 37 3 3 1 2 3 1 F i i f f f f
11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por lo menos S/. 1990 pero menos de S/. 7720. F5 - F2 = 44 - 31 =13 F5-F2 = 5 3 4 5 3 i i f f f f
10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/. 5810 pero menos de S/. 11540 Fr4 = 4 1 i i fr
= fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica que0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666 Fr5 - Fr3 = 5 4 i i fr
= fr4 + fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la proporción delos clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
P3 = 3 1 i i p
= pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los clientestienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720
P5 - P2 = 97.76 - 68.88 = 28.88 P5 - P2 = 5 3 i i p
=P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de losclientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos de S/. 11540.
'
3
X = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810 pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son representadas
por el valor S/. 6765.
Histograma de frecuencias
En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica que los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810. Polígono de frecuencias 0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00 2.945 4.855 6.765 8.675 10.585 12.495 % INGRESO
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 38
En el polígono de frecuencias se observa que son pocos los clientes con Ingresos mensuales altos.
Presentamos a continuación un nuevo caso, la tabla 2.3 presenta una distribución de frecuencias de las presiones sanguíneas sistólicas (ficticias) de 144 adolescentes moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la presión sanguínea más que con categorías discretas, como fue el caso en la tabla 2.2. Como resultado, hay un gran número de valores y sus frecuencias. Esto puede causar dificultades de interpretación, especialmente cuando las frecuencias individuales son pequeñas e incluyen el cero. En estos casos a veces es útil reducir el número de valores mediante la formación de grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos de valores en lugar de valores individuales.
La tabla 2.4 presenta distribuciones agrupadas para los datos de la presión sanguínea. Como puede observarse, los valores de presión sanguínea se colocaron en intervalos que técnicamente se conocen como intervalos de clase. Las diversas distribuciones se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de respuesta
24.44 44.44 22.22 2.22 4.44 2.22 0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00 2.945 4.855 6.765 8.675 10.585 12.495 % INGRESO 0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00 2.945 4.855 6.765 8.675 10.585 12.495 % INGRESO
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 39
se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad interpretativa es la pérdida de información.
Por ejemplo, mientras que es fácil ver que alrededor del 21.5% de los valores cae en el intervalo 135-139, no hay información acerca de los valores individuales en este intervalo. Al construir tablas de este tipo se deben responder dos preguntas relacionadas. ¿En cuántos intervalos se deben agrupar los valores y qué tan grandes deberán ser los intervalos? Muy pocos intervalos provocan la pérdida de mucha información, mientras que muchos intervalos hacen fracasar el propósito de resumir los datos. El tamaño de los intervalos dependerá del número de intervalos utilizados y viceversa. No existen reglas rígidas y rápidas al respecto. En esencia, usted deseará presentar los datos dándoles el mayor significado posible. Sin embargo, hay algunas reglas generales que sirven como guía. Una sugerencia común es que no debe haber menos de seis ni más de 15 intervalos. Otra regla útil es que, cuando sea posible, se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algún múltiplo de 10 para que el resumen de los datos sea más comprensible.
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Presiones sanguíneas 86 90 92 92 93 95 95 95 96 96 97 97 98 98 99 Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Presiones sanguíneas 100 100 100 100 102 103 105 105 106 107 107 109 110 110 110 Paciente 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Presiones sanguíneas 111 111 111 114 114 115 115 115 115 115 115 116 116 116 117 Paciente 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Presiones sanguíneas 118 118 119 119 120 120 120 121 122 122 122 123 123 124 124 Paciente 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 Presiones sanguíneas 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127 Paciente 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 Presiones sanguíneas 127 128 128 128 129 129 129 130 130 130 130 130 131 131 131 Paciente 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 Presiones sanguíneas 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134 Paciente 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 Presiones sanguíneas 134 134 135 135 135 135 135 135 135 135 136 136 136 137 137 Paciente 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 Presiones sanguíneas 137 137 137 137 137 137 137 137 137 138 138 138 139 139 139 Paciente 136 137 138 139 140 141 142 143 144 Presiones sanguíneas 139 139 139 140 140 140 140 143 143
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 40
TABLA 2.3: Distribución de frecuencias de las presiones sanguíneas de 144 adolescentes moderadamente obesos.
PS Frec. PS Frec. PS Frec. PS Frec.
143 2 128 3 113 0 98 2 142 0 127 3 112 0 97 2 141 0 126 7 111 3 96 2 140 4 125 4 110 3 95 3 139 6 124 4 109 1 94 0 138 3 123 2 108 0 93 1 137 11 122 3 107 2 92 2 136 3 121 1 106 1 91 0 135 8 120 3 105 2 90 1 134 5 119 2 104 0 89 0 133 8 118 2 103 1 88 0 132 4 117 1 102 1 87 0 131 3 116 3 101 0 86 1 130 5 115 6 100 4 129 3 114 2 99 1
Paso 1. Calcule el rango ( R ). R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57
Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k = 8
Paso 3. Halle el tamaño de los intervalos de clase (TIC) 57 7.125 8 R TIC k TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguíneas sistólicas utilizando 8 intervalos. N° de clases Presión sanguínea [LI-LS> Marca de clase ' i X Frec. Abs. fi Frec. Rel. fri Frec. Porc. Pi Frec. Acum. Abs. fi Frec. Acum. Rel. fri Frec. Acum. Porc. Pi 1 [86-94> 90 5 0.035 3.47 5 0.035 3 2 [94-102> 98 14 0.097 9.72 19 0.132 13 3 [102-110> 106 8 0.056 5.56 27 0.188 19 4 [110-118> 114 18 0.125 12.50 45 0.313 31 5 [118-126> 122 21 0.146 14.58 66 0.458 46 6 [126-134> 130 36 0.250 25.00 102 0.708 71 7 [134-142> 138 40 0.278 27.78 142 0.986 99 8 [142-150] 146 2 0.014 1.39 144 1.000 100 144 1 100
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 41 Figura. Histograma y polígono de frecuencias de la presión sanguínea.
El número y tamaño de los intervalos es flexible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando el número de valores no es muy grande, las distribuciones pueden basarse en datos no agrupados.
Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008 0.00 5.00 10.00 15.00 20.00 25.00 30.00 90 98 106 114 122 130 138 146 % PRESIÓN SANGUÍNEA