• No se han encontrado resultados

Probabilidad y Estadística

N/A
N/A
Protected

Academic year: 2021

Share "Probabilidad y Estadística"

Copied!
226
0
0

Texto completo

(1)

Probabilidad y Estadística

César Amarilla

(2)

Índice general

1. Estadística y tipos de estadística 8

1.1. Introducción . . . 8 1.2. Definiciones y ejemplos . . . 9 1.2.1. Estadística . . . 9 1.2.2. Estadística Descriptiva . . . 9 1.2.3. Estadística Inferencial . . . 9 1.2.4. Población y muestra . . . 9 1.3. Variables . . . 10 1.3.1. Tipos de variables . . . 10 1.3.2. Escalas de medición . . . 12 1.4. Problemas . . . 14 2. Distribuciones de Frecuencia 16 2.1. Estadística descriptiva . . . 16 2.2. Construcción . . . 16 2.2.1. Representación Gráfica . . . 20 2.3. Problemas . . . 22

3. Medidas de tendencia central 25 3.1. La Media . . . 25

3.1.1. La Media Geométrica . . . 25

3.1.2. La Media Aritmética . . . 26

3.1.3. Propiedades de la media aritmética . . . 26

3.1.4. Desventajas de la media aritmética . . . 26

3.1.5. La media para datos no agrupados . . . 26

3.1.6. La media para datos agrupados . . . 27

3.1.7. La media de la población . . . 28

3.2. La mediana . . . 28

3.2.1. Propiedades de la mediana . . . 29

3.2.2. La mediana para datos agrupados . . . 29

3.3. La moda . . . 31

3.3.1. Propiedades de la moda . . . 31

3.3.2. Desventajas de la moda . . . 31

3.3.3. La moda para datos agrupados . . . 31

3.3.4. Comparación entre medidas de tendencia central . . . 32

3.3.5. Relación entre las medidas de tendencia central . . . 33

3.4. Problemas . . . 33 1

(3)

ÍNDICE GENERAL 2

4. Medidas de Variabilidad 35

4.1. Introducción . . . 35

4.2. Variabilidad . . . 35

4.2.1. Rango y rango intercuartílico . . . 35

4.2.2. Desviación media . . . 36

4.2.3. Desviación media para datos agrupados . . . 36

4.2.4. Varianza y desviación estándar . . . 37

4.3. Problemas . . . 39

5. Probabilidad 41 5.1. Introducción . . . 41

5.2. Definiciones y ejemplos . . . 42

5.3. Operaciones entre eventos . . . 43

5.4. Definciones de probabilidad . . . 44

5.4.1. Concepto Clásico de Probabilidad . . . 45

5.4.2. Concepto frecuentista de probabilidad . . . 45

5.4.3. Probabilidad subjetiva . . . 46

5.4.4. Concepto axiomático de probabilidad . . . 46

5.5. Teoremas de Probabilidad . . . 47

5.5.1. Teorema 1: Regla de la Adición . . . 47

5.5.2. Teorema 2: Regla de la complementación . . . 48

5.5.3. Teorema 3: Regla de Diferenciación . . . 48

5.5.4. Probabilidad Condicional . . . 48

5.5.5. Teorema 4: Reglas de Multiplicación . . . 49

5.6. Problemas . . . 51

6. Variables aleatorias 63 6.1. Definiciones y ejemplos . . . 63

6.2. Distribución de probabilidad . . . 66

6.2.1. Propiedades de la función de probabilidad . . . 66

6.2.2. Propiedades de la función de densidad de probabilidad . . . 68

6.2.3. Distribuciones discretas . . . 72

6.2.4. Distribuciones continuas . . . 72

6.3. Esperanza, varianza y momentos . . . 72

6.3.1. Esperanza . . . 72

6.3.2. Varianza . . . 76

6.3.3. Momentos . . . 78

6.4. Función generadora de momentos . . . 80

6.5. Problemas . . . 83

7. Distribuciones de probabilidad 91 7.1. Distribuciones discretas de probabilidad . . . 91

7.1.1. Distribución Bernoulli . . . 91

7.1.2. Distribución binomial . . . 92

7.1.3. Distribución Poisson . . . 95

7.1.4. Distribución geométrica . . . 99

(4)

ÍNDICE GENERAL 3

7.1.6. Distribución hipergeométrica . . . 103

7.2. Distribuciones continuas de probabilidad . . . 107

7.2.1. Distribución uniforme continua . . . 107

7.2.2. Distribución Normal . . . 110

7.2.3. Aproximación normal a la binomial. . . 117

7.2.4. Distribución ji-cuadrada . . . 120

7.2.5. Distribución t de Student . . . 122

7.2.6. Distribución exponencial . . . 125

7.3. Problemas . . . 128

8. Muestras aleatorias y distribuciones de muestreo. 150 8.1. Introducción . . . 150

8.2. Muestras aleatorias y estadísticos muestrales . . . 150

8.3. Métodos de Muestreo . . . 151

8.3.1. Muestreo aleatorio simple . . . 152

8.3.2. Muestreo aleatorio sistemático . . . 153

8.3.3. Muestreo aleatorio estratificado . . . 154

8.3.4. Muestreo aleatorio por conglomerados . . . 155

8.3.5. Error de Muestreo . . . 155

8.4. Distribuciones Muestrales . . . 155

8.4.1. Distribución Muestral de Medias . . . 156

8.4.2. Teorema del Límite Central . . . 158

8.4.3. Distribución Muestral de Varianzas . . . 161

8.4.4. Distribución F . . . . 164

8.4.5. Distribución Muestral de Proporciones . . . 166

8.4.6. Distribución Muestral de Sumas y de Diferencias de medias . . . 169

8.4.7. Distribución Muestral de Relaciones de Varianzas . . . 173

8.4.8. Distribución Muestral de Diferencias de Proporciones . . . 173

8.5. Problemas . . . 174

9. Estimación 175 9.1. Introducción . . . 175

9.2. Estimadores y sus propiedades . . . 175

9.2.1. Propiedades de un buen estimador . . . 176

9.3. Estimación Puntual . . . 179

9.3.1. Estimadores de maxima verosimilitud . . . 179

9.3.2. Estimadores por el método de los momentos . . . 181

9.4. Estimación por Intervalos de Confianza . . . 182

9.4.1. Intervalos de confianza para estimar la media de una población . . . . 183

9.4.2. Intervalos de confianza para la varianza y la desviación típica de una población. . . 188

9.4.3. Intervalos de confianza para estimar Proporciones . . . 191

9.4.4. Intervalos de confianza para estimar Diferencias de Medias . . . 193

9.4.5. Intervalos de confianza para Relaciones de Varianzas . . . 196

9.4.6. Intervalos de confianza para Diferencias de Proporciones . . . 199

(5)

ÍNDICE GENERAL 4

10. Prueba de Hipótesis 208

10.1. Introducción . . . 208

10.2. Definiciones y ejemplos . . . 208

10.2.1. ¿Qué es una hipótesis? . . . 208

10.2.2. Hipotesis nula y alternativa . . . 209

10.2.3. Dos tipos de errores . . . 209

10.2.4. Región Crítica . . . 210

10.2.5. Función de Potencia . . . 210

10.2.6. Función Característica de Operación . . . 211

10.2.7. Hipótesis simples y compuestas . . . 212

10.2.8. Procedimiento de 4 pasos para contraste de hipótesis . . . 212

10.3. Pruebas de hipótesis para grandes muestras (n ≥ 30) . . . . 213

10.3.1. Prueba de hipótesis para Medias . . . 213

11. Análisis de la Varianza (ANOVA) 216 11.1. Suposiciones de ANOVA . . . 216

11.2. Procedimiento del análisis de la varianza . . . 216

12. Análisis de regresión y de correlación 218 12.1. Introducción . . . 218

12.2. Modelo Estadístico . . . 218

12.3. Modelo de regresión simple . . . 220

12.3.1. Ajuste de curva . . . 220

12.3.2. El método de los mínimos cuadrados . . . 221

12.3.3. Análisis de regresión simple . . . 224

12.4. Análisis de correlación . . . 224

(6)

Índice de figuras

2.1. Representación gráfica de un histograma de frecuencia . . . 20

2.2. Representación gráfica de un histograma de frecuencia relativa . . . 20

2.3. Representación gráfica de un polígono de frecuencia . . . 21

2.4. Representación gráfica de un polígono de frecuencia relativa . . . 21

2.5. Representación gráfica de una ojiva de frecuencia acumulada . . . 22

5.1. Representación gráfica de la intersección de dos eventos . . . 43

5.2. Representación gráfica de la unión de dos eventos . . . 43

5.3. Representación gráfica de complementos de eventos . . . 44

5.4. Representación gráfica de la diferencia de dos eventos . . . 44

6.1. Representación gráfica de la definición de una variable aleatoria . . . 63

6.2. Representación gráfica del espacio muestral del ejemplo 6.1.2 . . . 64

6.3. Representación gráfica de la función del ejemplo 6.2.1 . . . 67

6.4. Representación gráfica de la probabilidad como un aréa . . . 68

6.5. Representación gráfica de f (x) (ejemplo 6.2.3 . . . . 69

6.6. Representación gráfica de F(x) del ejemplo 6.2.5 . . . . 70

6.7. Representación gráfica de F(x) del ejemplo 6.2.6 . . . . 70

7.1. Gráfica de f (x) de la distribución Poisson . . . . 96

7.2. Gráfica de f (x) de la distribución exponencial . . . . 107

7.3. Gráfica de F(x) de la distribución exponencial . . . . 109

7.4. Gráfica de f (x) del ejemplo 7.2.1 . . . . 109

7.5. Gráfica de F(x) del ejemplo 7.2.1 . . . . 110

7.6. Representación gráfica de f (x) para ciertos valores de µ y σ2de una variable aleatoria normal. . . 111

7.7. Representación gráfica de f (x) de una variable aleatoria normal . . . . 112

7.8. Curvas normales que tienen medias iguales y desviaciones estándar diferentes 112 7.9. Curvas normales que tienen medias diferentes y desviaciones estándar iguales 113 7.10. Curvas normales que tienen medias diferentes y desviaciones estándar difer-entes . . . 113

7.11. Gráfica de f (x) cuando el parámetro k toma los valores 1,2,3,4 y 5 . . . . 121

7.12. Distribución t versus distribución normal . . . . 124

7.13. Gráfica de f (x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . . 126

7.14. Gráfica de F(x) cuando el parámetro λ toma los valores 0,5;1,0 y 1,5 . . . . . 126

8.1. Gráfica de f (x) cuando los parámetros m y n toman diferentes pares de valores.165

(7)

ÍNDICE DE FIGURAS 6

9.1. Gráfica del proceso de elección de los valores χ2c y χ2l. . . 189

9.2. Gráfica de la distribución acumulada de la χ2. . . 190

12.1. Gráfico de la relación entre el número de años que se estudió alemán y la calificación obtenida en la prueba. . . 223

(8)

Índice de cuadros

(9)

Capítulo 1

Estadística y tipos de estadística

1.1. Introducción

¿Qué significa la palabra estadística?

La encontramos frecuentemente en nuestro lenguaje cotidiano. En su uso más común, estadística se refiere a informaciones numéricas. Ejemplos serían; el salario inicial promedio de un graduado de una escuela superior, el número de decesos anuales debido al alcoholismo, el porcentaje de alumnos no graduados que estudian en la Universidad Nacional de Asunción, la variación de ayer a hoy de los precios de los productos de la canasta familiar, etc. En estos ejemplos la estadística consiste en números o porcentajes. A estos números se les denomina estadísticos.

La Estadística se divide en dos grandes áreas (descripción de datos y realización de infer-encias) que reflejan la propia historia del desarrollo de esta ciencia. La Estadística actual es el producto del encuentro de dos ramas distintas del saber, la antigua estadística y el cálculo de probabilidades, que se encontraron en el siglo XIX. Etimológicamente, la palabra estadística procede de la palabra estado, ya que desde la antigüedad los romanos hicieron recolecciones de datos que posteriormente tenían que resumir de una forma comprensiva y que permitiera proporcionar informaciones útiles. Este tipo de estudios dio lugar a la estadística descriptiva cuya misión consiste en describir situaciones y procesos dados; para ello se sirve de tablas, representaciones gráficas, proporciones, números índice y medidas típicas.

Sin embargo las conclusiones extraídas se agotan en el propio conjunto de datos obser-vados, pues el objetivo consistía en hacerse una idea clara de lo que había, y lo que había se contaba y se medía. Lo que posibilitó el cálculo de probabilidades fue, precisamente, el desar-rollo de un conjunto de métodos para extrapolar las conclusiones a entidades no observadas. Es decir, proporcionó el instrumento adecuado para poder hacer inferencias acerca de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales. Estas técnicas tuvieron su fundamento en el desarrollo de la curva normal por Gauss, en su apli-cación por Galton a los problemas de herencia, etc. Sin embargo los auténticos fundadores de estas técnicas fueron Karl Pearson (1857-1936) y Sir Ronald Fisher (1890-1962). Así se ha desarrollado la estadística analítica o inferencial basada en la teoría de probabilidades que trata de obtener leyes generales a partir de la observación de algunos datos. Precisamente este fundamento probabilístico condiciona el que los resultados obtenidos se vean sujetos a unos márgenes de error. Ahora se puede dar una definición de Estadística en la que aparecen algunos términos no definidos lo cual no impedirá entender su significado.

(10)

1.2. DEFINICIONES Y EJEMPLOS 9

1.2. Definiciones y ejemplos

1.2.1. Estadística

Definición 1.2.1 Es la ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas proceden. Es la ciencia que estudia los fenómenos aleatorios.

1.2.2. Estadística Descriptiva

La primer parte de la definición de estadísticas, es comúnmente conocida como Estadís-tica Descriptiva. La definición es la siguiente: “Es el conjunto de procedimientos utilizados para organizar, resumir y presentar grupos de datos numéricos”. Los grupos de datos numéri-cos no organizados son de poca utilidad. Sin embargo, técnicas estadísticas están disponibles para organizar estos datos en distribuciones de frecuencia, presentarlos en gráficas, resumir-los en promedios y medidas de variabilidad o dispersión.

1.2.3. Estadística Inferencial

Otra faceta de las estadísticas es la estadística inferencial también llamada estadística inductiva. La principal utilidad de la estadística inferencial es conocer algo acerca de una población basándose en una muestra tomada de esa población. La definición es la siguiente: Es el conjunto de métodos utilizados para obtener conclusiones relativas a una población, basándose en el conocimiento de las características de una muestra. Una población puede consistir de individuos, tales como todos los estudiantes de la universidad, todos los estudi-antes que estudian Estadísticas o todos los internos de la penitenciaria. Una población puede también consistir de objetos, tales como todos los motores producidos por la planta Ford o todas las truchas en un estanque. Una población también puede consistir en un grupo de medidas, tales como las estaturas equipo de básquetbol "Dorados de Chihuahua".

1.2.4. Población y muestra

Definición 1.2.2 : Individuo

Es cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

Definición 1.2.3 : Población

Es el conjunto de todos los individuos (personas, objetos, animales, etc.) que portan in-formación sobre el fenómeno que se estudia. Para inferir algo acerca de una población, usual-mente tomamos una muestra de ella.

Definición 1.2.4 : Muestra

(11)

1.3. VARIABLES 10

Por ejemplo una población en estudio podría ser el conjunto de todos los estudiantes que estudian administración en la Facultad de Ciencias Económicas de la Universidad Nacional de Asunción y una muestra podría consistir en el conjunto de estudiantes de primer año de dicha población.

1.3. Variables

Definición 1.3.1 : Variables

Es una característica que puede tomar diferentes valores. Las variables son características observables, susceptibles de adoptar distintos valores o ser expresados en categorías. Variable es un aspecto especifico de la realidad referido a la unidad del análisis y puede ser medidos o cuantificados. La variable adquiere un valor determinado en cada unidad de análisis. Si una característica, se encuentra que toma valores diferentes en personas, lugares o cosas diferentes, se dice que esta característica es variable, es decir la característica no es la misma cuando se observa en diferentes poseedoras de ellas.

Ejemplo 1.3.1 Las siguientes características son ejemplos de variables

Estatura de las personas Edad de los niños

El precio y la demanda de un producto

Definición 1.3.2 : Variables Aleatorias

Cuando los valores obtenidos de la variable son el resultado de factores fortuitos o al azar.

Ejemplo 1.3.2 Las siguientes características son ejemplos de variables aleatorias El número de caras obtenidas en tres lanzamientos de una moneda

El número de hijos en un matrimonio determinado

1.3.1. Tipos de variables

Definición 1.3.3 : Variable Cualitativa

Cuando la variable estudiada es no numérica es decir una característica que no puede ser medido sino solo catalogarse, esta es llamada variable cualitativa también llamada atributo.

Ejemplo 1.3.3 Las siguientes características son ejemplos de variables cualitativas lugar de nacimiento

religión color de ojos

(12)

1.3. VARIABLES 11 Definición 1.3.4 : Variable Cuantitativa

Cuando la variable estudiada puede expresarse en forma numérica es decir puede ser me-dido, esta es llamada variable cuantitativa. Las variables cuantitativas pueden ser discretas o continuas.

Ejemplo 1.3.4 Las siguientes características son ejemplos de variables cualitativas el saldo de una cuenta bancario,

la duración de una batería,

la velocidad de los automóviles en el periférico de la juventud

Definición 1.3.5 : Variables Discretas

Las variables discretas pueden asumir solo ciertos valores, y hay usualmente huecos entre los valores (valores puntuales).

Ejemplo 1.3.5 Las siguientes características son ejemplos de variables discretas

número de cuartos en una casa

número de carros en el estacionamiento del claustro número de estudiantes en la clase de estadísticas.

Note que cada una de estas variables puede valer un número entero (por ejemplo: 1,2,3, etc.) pero no puede valer números fraccionarios (por ejemplo: 1,5). Típicamente, las variables discretas resultan de un conteo.

Definición 1.3.6 : Variables Continuas

Las variables continuas pueden asumir todos los valores dentro de un rango específico (valores dentro de un intervalo)

Ejemplo 1.3.6 Las siguientes características son ejemplos de variables continuas presión del aire en una llanta

el tiempo que se toma en viajar de Itá a San Lorenzo el peso de los jugadores de fútbol del club Cerro Porteño

Típicamente, las variables continuas resultan de medir algo, y lógicamente dependen de la exactitud del instrumento de medición.

(13)

1.3. VARIABLES 12

1.3.2. Escalas de medición

La estadística no realiza sus funciones directamente sobre las modalidades observadas, sino que éstas se representan por valores numéricos, y la estadística realiza sus funciones sobre esos valores numéricos.

Se llama medición al proceso de atribuir números a las características. La medición es-tudia las condiciones de construcción de representaciones numéricas, y los modelos desar-rollados para la medición se llaman escalas. Por lo tanto los datos se pueden clasificar de acuerdo con niveles de medición. Hay cuatro escalas de medición que son: nominal, ordinal, de intervalo y de razón.

Definición 1.3.7 : Escala Nominal

El término nivel nominal es normalmente usado para referirse a datos que solamente pueden clasificarse en categorías. Es la escala de medición más bajo o más primitiva. Sin embargo, no hay mediciones y no hay escalas involucradas, solo hay conteo. En este tipo de nivel de medición el orden en que están acomodadas las categorías es totalmente arbitrario.

Ejemplo 1.3.7 Religiones en México (población con 5 años o más, censo del 2000)

Categoría Seguidores

Religión Católica 74 612 373 Religión no católica 3 483 593

Sin religión 2 982 929

total 81 078 895

Definición 1.3.8 : Escala Ordinal

Este tipo de nivel de medición tiene características similares al nivel nominal con la difer-encia de que en el nivel ordinal las categorías indican que unas son más que las otras.

Ejemplo 1.3.8 Evaluación de la atención médica en Uruguay en el año 2006

Categoría Calificación ( %)

Buena / muy buena 75,7

regular 17,1

mala / muy mala 2

no sabe / no contesta 5,2

total 100

Definición 1.3.9 : Escala cuantitativa intervalar

En este nivel de medición, las categorías están definidas por intervalos de valores, y están acomodadas en orden a la magnitud de los valores. El tamaño de los intervalos es el mismo.

Propiedades de la escala de intervalos

a) Las categorías de datos son mutuamente excluyentes y exhaustivas.

b) Las categorías de datos están ordenadas de acuerdo con la cantidad de la características que poseen.

(14)

1.3. VARIABLES 13

c) Diferencias iguales en la característica están representadas por diferencias iguales en los números asignados a las categorías

Ejemplo 1.3.9 Calificaciones de los aspirantes a la academia militar

Calificación Número de aspirantes

90 - 99 42

80 - 89 19

70 - 79 7

60 - 69 4

Definición 1.3.10 : Escala cuantitativa Racional

La escala de razón es el de nivel más alto. En este nivel al igual que en el nivel intervalar, las categorías son del mismo tamaño. La diferencia es que este nivel tiene un punto cero significativo y el valor de las categorías es en relación a ese punto, por lo que la relación entre dos números tiene sentido.

Propiedades de la escala de Razón

a) Las categorías de datos son mutuamente excluyentes y exhaustivas.

b) Las categorías de datos están ordenadas de acuerdo con la cantidad de las característi-cas que poseen.

c) Diferencias iguales en la característica están representadas por diferencias iguales en los números asignados a las categorías.

d) El punto cero refleja la ausencia de estas características.

Ejemplo 1.3.10 Ingreso de los empleados de la compañía en relación a la media de la indus-tria

Ingreso en relación a la media Número de empleados

2000 12 1000 25 0 32 -1000 17 -2000 10

Observación

En la escala de medición de una variable; sea cualitativa o cuantitativa; las categorías deben ser mutuamente excluyentes. Esto significa que un individuo ó medición pertenece únicamente a una de las categorias. Además las categorías deben ser exhaustivas, esto es cada individuo ó medición debe pertenecer a una de las categorías.

(15)

1.4. PROBLEMAS 14

1.4. Problemas

1. ¿Cuál es el nivel de medición de cada una de las siguientes variables?

a) Distancia que recorren los estudiantes para llegar a clases

b) Calificaciones de los estudiantes en la primera prueba de estadística

c) Una clasificación de los estudiantes según el departamento en que nacieron

d) El número de horas que estudia por semana un estudiante

2. ¿Cúal es el nivel de medición de estos incisos relacionados con la industria periodísti-ca?

a) El número de periódicos vendidos cada domingo durante el año 2010

b) El número de empleados en cada departamento, editorial, propaganda, deportes, etcétera.

c) Un resumen, por ciudad, del número de periódicos vendidos

d) El número de años que lleva cada empleado en el periódico

3. En cada uno de los siguientes puntos determine si el grupo es una muestra o una población

a) Los participantes en un estudio de un nuevo medicamento para la diabetes

b) Todos los automovilistas que fueron multados por exceso de velocidad en la ciu-dad de San Lorenzo el mes pasado.

c) Todos los que reciben asistencia médica en el Hospital Nacional de Itaugua

d) Número de artículos defectuosos encontrados en los embarques.

4. Las diferentes variables cuantitativas, ¿A qué tipo de datos corresponden?

a) Número de clientes que llegan en un Banco antes del medio día

b) Sueldos que se pagan a los diferentes jubilados Bancarios

c) Superfice de tierra que corresponden a los Campesinos de San Pedro

d) Nivel de presión arterial de los varones mayores a 30 años

5. En los ejemplos a continuación establezca la muestra o población

a) 50 ama de casa que utilizan determinada marca de detergentes en una ciudad de 800 habitantes.

b) Los montos de sueldos de cada uno de los trabajadores de una compañía

c) 100 estudiantes de la Universidad Nacional de Asunción con sus respectivas cal-ificaciones en Estadística.

6. Diga cuál es la variable y a qué naturaleza corresponde

a) Un estudiante recorre una distancia de 25 km para llegar a la Universidad

(16)

1.4. PROBLEMAS 15

c) Preferencia de color de cabello en las mujeres en tiempo de verano

d) Estado de ánimo de los trabajadores de una compañia en horas de la siesta

e) Precios de los calzados de vestir masculino en una ciudad

f) Número de niños que no acuden diariamente en la semana en una escuela

7. Explique la diferencia entre variables cualitativas y cuantitativas.

8. Explique la diferencia entre población y muestra

9. Defina el término mutuamente excluyentes

10. Defina el término mutuamente exhaustivo

11. A una muestra aleatoria de 500 clientes se le pidió probar una nueva pasta dental. De los 500, 400 dijeron que era excelente, 32 pensaron que era buena y el resto de los clientes no dieron ninguna opinión. Basandose en lo encontrado en la muestra haga una diferencia de la reacción de todos los clientes a la nueva pasta dental.

12. Una muestra aleatoria de 300 ejecutivos de los 2500 empleados en una empresa grande mostró que 270 se mudarían a otro sitio si ello significara un ascenso importante. Basándose en los hallazgos en la muestra describa la reacción de todos los ejecuti-vo de la empresa.

13. Explique la diferencia entre variables discretas y continuas.

14. Defina el término escala

15. Cita los tipos de niveles de medición

16. Identificar las escalas de medición de las siguientes variables

a) Número de jugadores de fútbol

b) Ansiedad c) Presión arterial d) Estado de conciencia e) Dolor f) Grupo saguíneo g) Temperatura

(17)

Capítulo 2

Distribuciones de Frecuencia

2.1. Estadística descriptiva

Como su nombre lo indica, la estadística descriptiva es la parte de la estadística que describe y resume una serie de datos. La estadística descriptiva hace énfasis en tres aspectos:

1. La forma de la distribución. Para describir como están distribuidos los datos utiliza una herramienta llamada “distribución de frecuencia” y presenta la información por medio de tablas y gráficas.

2. Las medidas de tendencia central: que resumen la información a una cifra que es rep-resentativa de la serie de datos.

3. Las medidas de variabilidad: que nos indican que tan variables son los datos respecto a las medidas de tendencia central.

En este capítulo se presenta una manera de elaborar una distribución de frecuencia, en las secciones siguientes se abordarán los temas de medidas de tendencia central y medidas de variabilidad.

2.2. Construcción

Una distribución de frecuencias es una serie de datos agrupados en categorías, en las cuales se muestra el número de observaciones que contiene cada categoría.

Los pasos para la construcción de una distribución de frecuencias son mejor explicados con un ejemplo.

Ejemplo 2.2.1 Los siguientes datos son el número de meses de duración de una muestra de 40 baterías para coche.

22 41 35 45 32 37 30 26 34 16 31 33 38 31 47 37 25 43 34 36 29 33 39 31 33 31 37 44 32 41 19 34 47 38 32 26 39 30 42 35 16

(18)

2.2. CONSTRUCCIÓN 17

1. Ordenación de datos, que puede ser en orden ascendente o descendente

16 19 22 25 26 26 29 30 30 31 31 31 31 32 32 32 33 33 33 34 34 34 35 35 36 37 37 37 38 38 39 39 41 41 42 43 44 45 47 47 2. El rango (amplitud)

Rango = Dato mayor - Dato menor = 47 - 16 = 31

3. Número tentativo de los intervalos de clase (nic)

El número de intervalos (nic) puede ser como mínimo 5 y como máximo 15 de acuerdo a la fórmula : 2nic

Número de intervalos (nic) Número máximo de datos (2nic)

5 32 6 64 7 128 8 256 9 512 10 1024

En este ejercicio, puesto que tenemos 40 datos el nic sería de 6. También al nic le podemos calcular de la siguiente manera:

nic = 1 + 3, 322log10N = 1 + 3, 3222log1040 = 6, 32 ' 6

4. Tamaño de los intervalos de Clase (tic) tic = Rangonic = 316 = 5,16 que se redondea a 6

Para facilitar la clasificación de los datos, el tic se redondea siempre al entero posterior.

5. Límite inferior (LI)

Usualmente, el límite inferior del primer intervalo de clase es el dato más chico, que en este ejemplo es 16.

El límite inferior de los siguientes intervalos se calcula sumando el tic al límite inferior del intervalo anterior hasta llegar a un número no mayor al dato más grande.

6. Límite superior (LS)

(19)

2.2. CONSTRUCCIÓN 18 LI LS 16 21 22 27 28 33 34 39 40 45 46 51

7. Límite Superior Real (LSR)

Los límites anteriores son los límites nominales pero no son los reales. Los límites reales son el punto medio entre el límite superior (LS) y el límite inferior del siguiente intervalo (LIsig), entonces

³ LSR = LS + LIsig 2 ´ LI LS LSR 16 21 21,5 22 27 27,5 28 33 33,5 34 39 39,5 40 45 45,5 46 51 51,5 8. Marca de clase (X)

La marca de clase, también llamada punto medio del intervalo es la mitad de la distancia entre los límites inferior y superior de cada intervalo. La marca de clase es el valor más representativo de los valores del intervalo. Con lo cual X = LI + LS

2 LI LS LSR X 16 21 21,5 18,5 22 27 27,5 24,5 28 33 33,5 30,5 34 39 39,5 36,5 40 45 45,5 42,5 46 51 51,5 48,5

9. Clasificación de los datos y conteo de frecuencias

Clasificar las observaciones en los intervalos. La práctica usual es marcar con una línea ( / ) que representa una observación. En el ejemplo la observación 22 se clasifica en el intervalo 20 - 24 porque se encuentra entre el 20 y el 24 inclusive. Una vez clasificados todos los datos se cuentan las líneas de cada intervalo y el resultado es la frecuencia de cada intervalo de clase.

(20)

2.2. CONSTRUCCIÓN 19 LI LS LSR X cuenta F 16 21 21,5 18,5 // 2 22 27 27,5 24,5 //// 4 28 33 33,5 30,5 ///// ///// /// 13 34 39 39,5 36,5 ///// ///// /// 13 40 45 45,5 42,5 ///// / 6 46 51 51,5 48,5 // 2

10. Distribución de frecuencia relativa (FR)

Se pueden convertir las frecuencias de clase en frecuencias relativas de clase para mostrar los porcentajes de observaciones en cada intervalo de clase. Para convertir una distribución de frecuencia en una distribución de frecuencia relativa cada una de las frecuencias de clase se dividen entre el número total de observaciones

³ FR = F n ´ LI LS LSR X cuenta F FR 16 21 21,5 18,5 // 2 2/40 = 0, 05 22 27 27,5 24,5 //// 4 4/40 = 0, 1 28 33 33,5 30,5 ///// ///// /// 13 13/40 = 0, 325 34 39 39,5 36,5 ///// ///// /// 13 13/40 = 0, 325 40 45 45,5 42,5 ///// / 6 6/40 = 0, 15 46 51 51,5 48,5 // 2 2/40 = 0, 05

11. Distribuciones de frecuencia acumulada

Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuan-tas observaciones, o que porcentaje de observaciones están debajo de cierto valor.

La distribución de frecuencia acumulada (FA) de cierto intervalo se calcula sumando las frecuencias de clase desde el primer intervalo hasta la frecuencia de clase del inter-valo de interés. Si queremos la frecuencia acumulada del interinter-valo 25 - 29, sumamos las frecuencias de clase 2 + 1 + 4 = 7.

La distribución de frecuencia relativa acumulada (FAR) de cierto intervalo se calcula dividiendo la frecuencia acumulada entre el número total de observaciones

FRA = FA n LI LS LSR X cuenta F FR FA FRA 16 21 21,5 18,5 // 2 0,05 2 0,05 22 27 27,5 24,5 //// 4 0,1 6 0,15 28 33 33,5 30,5 ///// ///// /// 13 0,325 19 0,475 34 39 39,5 36,5 ///// ///// /// 13 0,325 32 0,8 40 45 45,5 42,5 ///// / 6 0,15 38 0,95 46 51 51,5 48,5 // 2 0,05 40 1

(21)

2.2. CONSTRUCCIÓN 20

2.2.1. Representación Gráfica

Tres gráficas que nos ayudarán a representar gráficamente una distribución de frecuencias son el histograma, el polígono de frecuencia y la ojiva de frecuencia acumulada.

El histograma

El histograma es una de las gráficas más ampliamente utilizadas y una de las mas fáciles de entender. Un histograma describe una distribución de frecuencia utilizando una serie de rectángulos adyacentes donde la altura de cada rectángulo es proporcional a la frecuencia de clase que representa.

Figura 2.1: Representación gráfica de un histograma de frecuencia

(22)

2.2. CONSTRUCCIÓN 21

Polígono de frecuencia

El polígono de frecuencia consiste de segmentos de línea conectando los puntos formados por la intersección de las marcas de clase y las frecuencias de clase.

Figura 2.3: Representación gráfica de un polígono de frecuencia

El polígono de frecuencia relativa

Es similar al anterior solo que en este se muestran porcentajes, es decir las frecuencias relativas de cada clase.

(23)

2.3. PROBLEMAS 22

Ojivas de Frecuencia Acumulada

Las distribuciones de frecuencia acumulada y frecuencia relativa acumulada se presentan gráficamente con las ojivas de frecuencia acumulada y frecuencia relativa acumulada, que es una gráfica de segmentos de línea que une los puntos donde se cruzan los límites reales con las frecuencias acumuladas y relativas acumuladas de cada intervalo de clase.

Figura 2.5: Representación gráfica de una ojiva de frecuencia acumulada

2.3. Problemas

Elabore la distribución de frecuencias de las siguientes series de datos, con sus respectivas gráficas:

1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental. 23 60 79 32 57 74 52 70 82 36 80 77 81 95 41 65 92 85 55 76 52 10 64 75 78 25 80 98 81 67 41 71 83 54 64 72 88 62 74 43 60 78 89 76 84 48 84 90 15 79 34 67 17 82 69 74 63 80 85 61

2. Una compañía de cambio de aceite tiene varias sucursales en la zona metropolitana. El número de cambios de aceite en la sucursal de la calle Roble en los pasados 20 días son:

66 98 55 62 79 59 51 90 72 56 70 62 66 80 94 79 63 73 71 85

(24)

2.3. PROBLEMAS 23

3. El gerente de una firma especializada en renta de condominios para vacacionistas, quiere saber como están distribuidas los montos de las rentas mensuales de los de-partamentos de la firma. Seleccionó una muestra de dede-partamentos cuyas muestras son mostradas abajo.

Rentas mensuales de los condominios

1170 1207 1581 1277 1305 1472 1077 1319 1537 1849 1332 1418 1949 1403 1744 1532 1219 896 1500 1671 1471 1399 1041 1379 821 1558 1118 1533 1510 1760 1826 1309 1426 1288 1394 1545 1032 1289 695 803 1440 1421 1329 1407 718 1457 1449 1455 2051 1677 1119 1020 1400 1442 1593 1962 1263 1788 1501 1668 1352 1340 1459 1823 1451 1138 1592 982 1981 1091

4. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible similares.

24 36 4 40 16 5 18 6 30 60 3 72 66 78 3 28 67 72 15 3 18 48 71 22 57 9 54 4 12 72

5. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado.

17 20 10 9 23 13 12 19 18 24 12 14 6 9 13 6 7 10 13 7 16 18 8 13 3 32 9 7 10 11 13 7 18 7 10 4 27 19 16 8

7 10 5 14 15 10 9 6 7 15

6. Se aplicó una encuesta donde se les pide indicar el número de amigos o parientes que visitan cuando menos una vez al mes. Los resultados son los siguientes:

3 5 2 3 3 4 1 8 4 2 4 2 5 3 3 3 0 3 5 6 4 3 2 2 6 3 5 4 14 3 5 6 3 4 2 4 9 4 1 4 2 4 3 5 0 4 3 5 7 3 5 6 2 2

7. El gerente de un negocio de comida rápida esta interesado en el número de veces que un cliente compra en su tienda durante un periodo de dos semanas. Las respuestas de los 51 clientes fueron:

5 3 3 1 4 4 5 6 4 2 6 6 6 7 1 1 14 1 2 4 4 4 5 6 3 5 3 4 5 6 8 4 7 6 5 9 11 3 12 4 7 6 5 15 1 1 10 8 9 2 12

(25)

2.3. PROBLEMAS 24

8. El presidente de una agencia de viajes, quiere información sobre las edades de la gente que toma cruceros por el Caribe. Una muestra de 40 clientes que tomaron un crucero el año pasado reveló estas edades:

77 18 63 84 38 54 50 59 54 56 36 26 50 34 44 41 58 58 53 51 62 43 52 53 63 62 62 65 61 52 60 45 66 83 71 63 58 61 71 60

9. Una cadena de tiendas de artículos deportivos al servicio de esquiadores principiantes, planea hacer un estudio de cuanto gasta un esquiador principiante en su primera com-pra de equipo. Una muestra de recibos de sus cajas registradoras reveló esas comcom-pras iniciales.

140 82 265 168 90 114 172 230 142 86 125 235 212 171 149 156 162 118 139 149 132 105 162 126 216 195 127 161 135 172 220 229 129 87 128 126 175 127 149 126 121 118 172 126

10. Se conduce un estudio de los efectos de fumar sobre los patrones de sueño. La medición que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos datos:

69 56 22 28 41 28 47 53 48 30 34 13 52 34 60 25 21 37 43 23 13 31 29 38 26 36 30

11. Un banco seleccionó una muestra de 40 cuentas de cheques de estudiantes. Abajo aparecen sus saldos de fin de mes.

404 74 234 149 279 215 123 55 43 321 87 234 68 489 57 185 141 758 72 863 703 125 350 440 37 252 27 521 302 127 968 712 503 498 327 608 358 425 303 203

12. Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los sigu-ientes datos son las cuentas que se les facturó el mes pasado:

54 48 58 50 25 47 75 46 60 70 67 68 39 35 56 66 33 62 65 67

13. Una muestra de suscriptores de una compañía telefónica reveló los siguientes números de llamadas recibidas en la última semana.

52 43 30 38 30 42 12 46 39 37 34 46 32 18 41 5

(26)

Capítulo 3

Medidas de tendencia central

Promedios

A las medidas de tendencia central con frecuencia se les llama promedios. El propósito de una medida de tendencia central es indicar con toda precisión el centro de un conjunto de observaciones.

3.1. La Media

3.1.1. La Media Geométrica

La media geométrica es útil para encontrar el promedio de porcentajes, proporciones, índices, o tasas de crecimiento. Tiene mucha aplicación en el comercio y la economía porque nos interesa encontrar el porcentaje de cambio en ventas, salarios o datos económicos como el producto nacional bruto. La media geométrica de un conjunto de "n"números enteros positivo se define como la n-ésima raíz del producto de los n valores es decir:

n

p

X1, X2, . . . , Xn

Ejemplo 3.1.1 Suponga que usted recibe un 5 % de aumento en su salario este año y un

15 % de aumento el año próximo y quiere saber cual es el incremento porcentual promedio.

Si tiene un aumento del 5 % entonces su salario es 1,05 y si tiene un aumento del 15 % su salario es de 1,15 entonces calculando la media geométrica se obtienep(1, 05)(1, 15) = 1, 09886, por lo que el aumento promedio anual es del 9, 886 %.

Ejemplo 3.1.2 Las ganancias obtenidas por Atkins Construction Company en cuatro proyec-tos recientes fueron 3 %, 2 %, 4 % y 6 %. ¿ Cuál es la media de las ganancias?

Por lo que la media de ganancias obtenidas por Atkins Construction Company en los cuatro proyectos esta dada por

4

p

(0, 03)(0, 2)(0, 4)(0, 6) = 0, 03464

o sea 3,464 %

(27)

3.1. LA MEDIA 26

3.1.2. La Media Aritmética

La medida de tendencia central mas ampliamente usada es la media aritmética, usual-mente abreviada como media.

La media aritmética de un conjunto de n valores (observaciones) es el resultado de la suma de todos ellos dividido entre n.

3.1.3. Propiedades de la media aritmética

1. Puede ser calculada en distribuciones con escala relativa e intervalar.

2. Todos los valores son incluidos en el cómputo de la media.

3. Una serie de datos solo tiene una media.

4. Es una medida muy útil para comparar dos o más poblaciones.

5. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.

3.1.4. Desventajas de la media aritmética

1. Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos.

2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

3.1.5. La media para datos no agrupados

Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores dividido entre el número total de valores. Para encontrar la media de una muestra se usa la siguiente fórmula: X = n

i=1 Xi n Donde: X : es la media de la muestra n

i=1

Xi: es la suma de todos los valores de la muestra

n : es el número de elementos de la muestra

Ejemplo 3.1.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la media aritmética de estas observaciones?

(28)

3.1. LA MEDIA 27 X = n

i=1 Xi n = 85, 4 + 85, 3 + 84, 9 + 85, 4 + 84, 0 5 = 85, 0

3.1.6. La media para datos agrupados

Frecuentemente los datos estás agrupados y presentados en forma de distribución de fre-cuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base a la distribución de frecuencias.

La media aritmética de una muestra de datos organizados en una distribución de frecuen-cias se calcula de la siguiente manera:

X = ∑ fiXi n

Donde:

X : simboliza la media de la muestra

Xi: es la marca de clase del intervalo i-ésimo

fi: es la frecuencia de clase del intervalo i-ésimo

fiXi: es la suma de los productos de fipor Xi

n =

f : es la suma de las frecuencias de clase

Ejemplo 3.1.4 Calcular la media aritmética de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.

duración de las baterías (meses) Número de baterías

15 - 19 2 20 - 24 1 25 - 29 4 30 - 34 15 35 - 39 10 40 - 44 5 45 - 49 3

Damos como un hecho que ya sabemos elaborar una distribución de frecuencias, si se quiere ver como se elaboró vaya a la sección de ese tema en este mismo sitio.

Primeramente, de la distribución de frecuencias que ya tenemos, utilizaremos las mar-cas de clases y la frecuencias de clases, para después calcular el producto fiXi y proceder

(29)

3.2. LA MEDIANA 28

finalmente a calcular la sumatoria

fiXiy aplicar la fórmula.

LI LS Xi fi fiXi 15 19 17 2 34 20 24 22 1 22 25 29 27 4 108 30 34 32 15 480 35 39 37 10 370 40 44 42 5 210 45 49 47 3 141 n =40

fiXi= 1365 X = ∑ fiXi n = 1365 40 = 34, 12

3.1.7. La media de la población

Las medidas características de una muestra son llamadas estadísticos y las medidas car-acterísticas de una población se denominan parámetros. La media de la población se calcula de la misma manera que la media de la muestra, que calculamos arriba, pero tiene diferente notación: µ = N

i=1 Xi N Donde: µ : es la media de la población N

i=1

Xi: es la suma de todos los valores de la población

N : es el número de elementos de la población

3.2. La mediana

Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana.

La mediana es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos.

Ejemplo 3.2.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la mediana de las observaciones muestreadas?

(30)

3.2. LA MEDIANA 29 85,9 85,4 85,4 ↓→↓ ˜X 84,3 84,0

Por lo que la mediana es ˜X = 85, 4

Ejemplo 3.2.2 Una muestra de los honorarios de paramédicos cargados por la clínica Balti-more reveló las siguientes cantidades: 35,29, 30,25, 32,35. ¿Cuál es la mediana?

25 29 30 ↓→↓ ˜X 32 35 35

En este caso la mediana se calcula obteniendo la media de las dos observaciones centrales

˜

X = 30 + 32

2 = 31

3.2.1. Propiedades de la mediana

1. Hay solo una mediana en una serie de datos.

2. No es afectada por los valores extremos ( altos o bajos )

3. Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto.

4. Puede ser calculada en distribuciones con escala relativa, intervalar, y ordinal.

3.2.2. La mediana para datos agrupados

Cuando los datos se encuentran agrupados en una distribución de frecuencia no conoce-mos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos:

1. Calcular el valor n 2

2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n

(31)

3.2. LA MEDIANA 30

3. Aplicando la siguiente fórmula con los valores del intervalo mediano: ˜ X = LRI +( n 2− FA)tic F Donde: ˜ X : mediana de la muestra

LRI : Limite real inferior del intervalo mediano

FA : frecuencia acumulada anterior a la frecuencia del intervalo mediano

tic : tamaño de los intervalos de clase

F : frecuencia del intervalo mediano

Ejemplo 3.2.3 Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.

Duración de las baterías (meses) Número de baterías

15 - 19 2 20 - 24 1 25 - 29 4 30 - 34 15 35 - 39 10 40 - 44 5 45 - 49 3

Para calcular la mediana de una distribución de frecuencias necesitamos obtener el in-tervalo el inin-tervalo mediano para luego obtener el límite superior real (LSR), la frecuencia acumulada anterior a la frecuencia de la mediana (FA) y la frecuencia absoluta de la mediana (F).

Procedamos entonces a localizar el intervalo mediano a través de los siguientes pasos

1. El valor de n

2 = 40

2 = 20

2. El intervalo mediano es:

LI LS LSR X F FA 15 19 19,5 17 2 2 20 24 24,5 22 1 3 25 29 29,5 27 4 7 30 34 34,5 32 15 22 ↓→↓ intervalo mediano 35 39 39,5 37 10 32 40 44 44,5 42 5 37 45 49 49,5 47 3 40

(32)

3.3. LA MODA 31

Aplicar la fórmula con los datos del intervalo mediano:

˜ X = LRI +( n 2− FA)tic F = 29, 5 + (20 − 7)(5) 15 = 33, 83

3.3. La moda

La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. Es el valor de la observación que aparece más frecuentemente.

3.3.1. Propiedades de la moda

1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, in-tervalar, y relativa).

2. La moda tiene la ventaja de no ser afectada por valores extremos.

3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

3.3.2. Desventajas de la moda

1. En muchas series de datos no hay moda porque ningún valor aparece más de una vez.

2. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?

Ejemplo 3.3.1 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3 ; 84,9 ; 85,4 ; y 84,0. ¿Cuál es la moda de las observaciones muestreadas?

La moda de esta secuencia de observaciones es ˆX=85,4

3.3.3. La moda para datos agrupados

Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada sigu-iendo los siguientes pasos:

1. Localizar la clase del intervalo que contenga la frecuencia de clase más grande.

2. Aplicando la siguiente fórmula con los valores del intervalo de la moda: ˆ X = LRI + ³ 1 ∆1+ ∆2 ´ tic Donde: ˆ

X : la moda de los datos de la muestra

(33)

3.3. LA MODA 32

∆1: diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.

∆2: diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.

tic : tamaño de los intervalos de clase

Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clases. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serán las marcas de clases de dichos intervalos.

Ejemplo 3.3.2 Calcular las modas de las siguientes distribuciones de frecuencia:

X F 5 4 10 3 15 15 X= 15ˆ 20 9 25 10 30 7

X F hay dos moda

5 4 10 8 X= 10ˆ 15 6 20 7 25 8 X =ˆ (25+30)2 = 27, 5 30 8 X F no hay moda 5 4 10 4 15 4 20 4 25 4 30 4

3.3.4. Comparación entre medidas de tendencia central

Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos razones para apoyar esta norma general. La primera es que en ella se basan otros estadísticos y la segunda es que es mejor estimador de su parámetro que la mediana y la moda.

Hay al menos tres situaciones en las que se preferirá la mediana a la media: Cuando la variable esté medida en escala ordinal

(34)

3.4. PROBLEMAS 33

Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de límite superior, el intervalo inferior carece de límite inferior o ambos.

La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas supone un cambio en la media aritmética, mientras que la mediana sólo se vería alterada por cambios en los valores centrales.

La mediana será la segunda candidata para representar la tendencia central y se preferirá la mediana a la moda, a menos de que:

a) Se trate de una variable medida en escala nominal

b) Haya intervalos abiertos y la mediana pertenezca a uno de ellos.

3.3.5. Relación entre las medidas de tendencia central

1. Para una distribución simétrica los valores de la media, la mediana y la moda coinciden es decir: X = ˜X = ˆX, con lo cual la distribución de datos no presenta sesgo.

Observación : Esta igualdad no es exacta, sino que se cumple con mayor o menor aproximación en función del grado de simetría de la curva que represente gráficamente la distribución.

2. Para una distribución asimétrica negativa se tiene que: X < ˜X < ˆX, con lo cual la distribución de datos presenta un sesgo negativo.

3. Para una distribución asimétrica positiva se tiene que: ˆX < ˜X < X, con lo cual la

dis-tribución de datos presenta un sesgo positivo.

Observación: La regla empírica se acepta como válida siempre que el grado de curva no sea muy acentuado.

3.4. Problemas

1. El departamento de agricultura, tiene los siguientes datos que representan el crecimien-to mensual (en pulgadas) de muestras de maíz recien plantados

0,4 1,9 1,5 0,9 0,3 1,6 0,4 1,5 1,2 0,8 0,9 0,7 0,9 0,7 0,7 1,5 0,5 1,5 1,7 1,8

a) Organice los datos en un ordenamiento ascendente

b) calcula las medidas de tendencia central considerando los a datos como simples

2. Un fabricante de neumáticos quiere determinar el diámetro interior de cierto grado de los neumáticos. Idealmente el diámetro sería 570mm. Los datos son los siguientes:

572 572 573 568 569 575 565 570

(35)

3.4. PROBLEMAS 34

3. A continuación presentamos los datos de una muestra de la tasa de producción diaria de de botes de fibra de vidrio de la Hidrosport Lt. Un fabricante de Miami.

17 21 18 27 17 21 20 22 18 23

a) Calcule las mediadas de tendencia central e interprete los resultados

b) Compare las mediadas de tendencia central

4. Dada la distribución de frecuencia de rentas mensuales de 200 departamentos (en miles de pesos)

Renta mensual (en miles de pesos) No de departamentos

350-379 3 380-409 8 410-439 10 440-469 13 470-499 33 500-529 40 530-559 35 560-589 30 590-619 16 620-649 12 Total 200

Determine las medidas de tendencia central y analice la relación entre ellas

5. las edades de 60 personas que trabajan en una fábrica textil se han tabulado dando la siguiente tabla de frecuencias:

Edades Node personas 13-17 2 18-22 6 23-27 10 28-32 13 33-37 18 38-42 6 43-47 2 48-52 2 53-57 16 Total 60

a) Hallar las mediadas de tendencia central

b) Interpretar los resultados de la parte a)

(36)

Capítulo 4

Medidas de Variabilidad

4.1. Introducción

¿Qué son las medidas de variabilidad?

Las medidas de variabilidad de una serie de datos, muestra o población, permiten iden-tificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de tendencia central.

Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos.

Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones. Por ejemplo, la calificación promedio de dos estudiantes, A = {90, 80, 75, 75} y B = {90, 55, 85, 90}, es de 80. Basados en esto podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el detalle de sus calificaciones vemos que esta conclusión no es correcta.

4.2. Variabilidad

4.2.1. Rango y rango intercuartílico

Definición 4.2.1 : Amplitud o Rango

Es la diferencia entre observaciones extremas, es decir la diferencia entre el mayor y el menor valor. Es muy sensible a los valores extremos.

Ejemplo 4.2.1 Dadas las siguientes observaciones 2,1,4,3,8,4. Calcular el rango

R = 8 − 1 = 7

Definición 4.2.2 : Rango intercuartílico

(37)

4.2. VARIABILIDAD 36

Es parecida al rango, pero eliminando las observaciones más extremas o sea las inferiores y superiores. Por lo que no es tan sensible a valores extremos. Es la distancia entre primer y tercer cuartil.

Rango intercuartil = Q3− Q1 (4.2.1)

4.2.2. Desviación media

La desviación media mide la cantidad promedio que varían los datos respecto a su media. Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media. La fórmula de la desviación media ( Dm ) es:

Dm = n

i=1 |Xi− X| n (4.2.2)

Ejemplo 4.2.2 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4 ; 85,3; 84,9 ; 85,4 y 84,0. ¿Cuál es la desviación media de las observaciones muestreadas?

X X − X |X − X| 85,4 + 0.4 0.4 85,4 + 0.4 0.4 85,3 + 0.3 0.3 84,9 - 0.1 0.1 84,0 - 1.0 1.0 Dm = n

i=1 |Xi− X| n = 2, 2 5 = 0, 44

4.2.3. Desviación media para datos agrupados

En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es :

Dm =

fi|Xi− X|

n (4.2.3)

Ventajas y desventajas de la desviación media

La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente.

Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos:

(38)

4.2. VARIABILIDAD 37

Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin embargo en ambos casos la desviación media es cero.

4.2.4. Varianza y desviación estándar

La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media.

Varianza

Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media. Desviación estándar

Es la raíz cuadrada de la varianza.

Varianza y desviación estándar para datos no agrupados

Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas son:

σ2= N

i=1 (Xi− µ)2 N = N

i=1 Xi2 N − µ 2 (4.2.4)

para la varianza de una población y

S2= n

i=1 (Xi− X)2 n = n

i=1 Xi2 n − X 2 (4.2.5) para la varianza de una muestra.

Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a la respectiva varianza.

σ =pσ2 (4.2.6)

desviación estándar de una población y

S =√S2 (4.2.7)

desviación estándar de una muestra

Ejemplo 4.2.3 El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85,4; 85,3; 84,9; 85,4; y 84,0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas?

(39)

4.2. VARIABILIDAD 38 X X2 85,4 7293,16 85,3 7276,09 84.9 7208,01 85.4 7293.16 84.0 7056.00 ∑ Xi= 425, 0 ∑X2= 36126, 42

Con lo cual la media de la muestra es

X = 425, 0

5 = 85

entonces la varianza está dada por

S2= n

i=1 Xi2 n − X 2 =36126, 42 5 − 85 2= 0, 284

la cual arroja una desviación estándar muestral de S = 0, 595818764

Varianza y desviación estándar para datos agrupados

Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo S fiXi2por SXi2y S fiXipor SXi. Las

fórmulas quedarían de la siguiente manera:

σ2= N

i=1 fi(Xi− µ)2 N = N

i=1 fiXi2 N − µ 2 (4.2.8)

para la varianza de una población, en donde µ =

N

i=1 fiXi N , y S2= n

i=1 fi(Xi− X)2 n = n

i=1 fiXi2 n − X 2 (4.2.9)

para la varianza de una muestra, en donde X =

n

i=1

fiXi n

Al igual que en la situación anterior las desviaciones estándar de la población y muestra se calculan sacando la raíz cuadrada a la respectiva varianza.

σ =pσ2 (4.2.10)

(40)

4.3. PROBLEMAS 39

S =√S2 (4.2.11)

desviación estándar de una muestra

Ejemplo 4.2.4 Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.

duración de las baterías (meses) Número de baterías

15 - 19 2 20 - 24 1 25 - 29 4 30 - 34 15 35 - 39 10 40 - 44 5 45 - 49 3

Primeramente, calculamos la marca de clase, para después calcular los productos fiXi y

fiXi2para proceder finalmente a calcular las sumatorias ∑ fiXiy ∑ fiXi2y aplicar las fórmulas.

LI LS X fi fiXi fiXi2 15 19 17 2 34 588 20 24 22 1 22 484 25 29 27 4 108 2916 30 34 32 15 480 15360 35 39 37 10 370 13690 40 44 42 5 210 8820 45 49 47 3 141 6627 n =40 ∑ fiXi= 1365 fiXi2= 48475

Entonces la media de la muestra es

X =1365

40 = 34, 125

con lo cual la varianza muestral es

S2= n

i=1 fiXi2 n − X 2 = 48475 40 − (34, 125) 2= 47, 359375

que arroja una desviación estándar de

S = 6, 881814804

4.3. Problemas

1. Se conduce un estudio de los efectos de fumar sobre los patrones de sueños. La medi-ción que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtiene

(41)

4.3. PROBLEMAS 40

estos datos:

Fumadores 69,3 56,0 22,1 47,6 53,2 48,1 52,7 34,4 60,2 43,8 No fumadores 28,6 25,1 26,4 34,9 29,8 38,5 30,2 30,6 31,8 41,6

a) Encuentre las medidas de tendencia central para cada grupo

b) Encuentre la varianza y desviación estándar de cada grupo

c) Diga cual de los dos grupos de datos está más concentrada

2. La compañía National Tire tiene fondos de reserva en valores negociable a corto plazo. El saldo diario de cierre (en millones de dólares) de la cuenta de valores negociables en lapso de dos semanas es el que mostramos a continuación

Semana 1 1973 1970 1972 1975 1976 Semana 2 1969 1892 1893 1887 1895

a) Calcula las mediadas de tendencia central para cada grupo e interprete los resul-tados obtenidos.

b) Calcula la desviación media, la varianza, la desviación típica y el coeficiente de variación de cada grupo.

(42)

Capítulo 5

Probabilidad

5.1. Introducción

La teoría de probabilidad tuvo como uno de sus primeros puntos de partida el intentar resolver un problema particular concerniente a una apuesta de juego de dados entre dos per-sonas. El problema al que nos referimos involucraba una gran cantidad de dinero y puede plantearse de la siguiente forma: Dos jugadores escogen cada uno de ellos un número del 1 al 6, distinto uno del otro, y apuestan 32 doblones de oro a que el número escogido por uno de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente un dado. Suponga que el número de uno de los jugadores ha aparecido dos veces y el número del otro una sola vez. ¿Cómo debe dividirse el total de la apuesta si el juego se suspende?

Uno de los apostadores, Antonio de Gombaud, popularmente conocido como el caballero De Mere, deseando conocer la respuesta al problema plantea a Blaise Pascal (1623-1662) la situación. Pascal a su vez consulta con Pierre de Fermat (1601-1665) e inician un intercambio de cartas a propósito del problema. Esto sucede en el año de 1654. Los historiadores de la matemática éstan generalmente de acuerdo en considerar este hecho como el origen del estudio de las probabilidades. Con lo anteriormente mencionado se inician algunos esfuerzos por dar solución a éste y otros problemas similares que se plantean. Con el paso del tiempo se sientan las bases y las experiencias necesarias para la búsqueda de una teoría matemática que sintetice los conceptos y los métodos de solución de los muchos problemas particulares resueltos a lo largo de varios años.

Las ideas de probabilidades permanecen circunscritas a los problemas de juegos de azar hasta que Pierre Laplace (1749-1827) y Friedrich Gauss (1777-1855) hacen notar que las teorias desarrolladas son aplicables también a otras actividades diferentes de los juegos de azar. En el segundo congreso internacional de matemáticas, celebrado en la ciudad de Paris en el año 1900, el matemático David Hilbert (1862-1943) plantea 23 problemas matemáticos de importancia. Uno de estos problemas es el de encontrar axiomas o postulados a partir de los cuales se pueda construir una teoría matemática de la probabilidad. Aproximada-mente treinta años después, en 1933, el matemático ruso Andrei Nikolaevich Kolmogorov (1903-1987) propone ciertos axiomas basados en la teoría de la medida desarrollada por H. Lebesgue(1875-1941), que a la postre resultaron adecuados para la construcción de una teoría de la probabilidad. Esta teoría prevalece hoy en día y ha adquirido el calificativo de teoría clásica. Actualmente la teoría clásica de la probabilidad se ha desarrollado y

Referencias

Documento similar

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

En este sentido, puede defenderse que, si la Administración está habilitada normativamente para actuar en una determinada materia mediante actuaciones formales, ejerciendo

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

Proporcione esta nota de seguridad y las copias de la versión para pacientes junto con el documento Preguntas frecuentes sobre contraindicaciones y

[r]

Contraindicaciones: El uso de la mascarilla está contraindicado para los pacientes y los miembros de sus familias, profesionales sanitarios y compañeros de