Estadistica i

(1)

ESTADISTICA I

INTRODUCCION

CONCEPTOS BASICOS

Cuando se habla de Estadística, se suele pensar en conjuntos de datos númericos presentados de forma ordenada y sistemática. Esta idea hace referencia a la acepción popular que existe sobre el término y que cada vez está más extendida.

La Estadística es la ciencia que estudia cómo debe emplearse la información y pretende dar una guía de acción en situaciones prácticas que entrañan incertidumbre.

Con el fin de ver de una manera más específica la forma conque trabaja esta ciencia, introduciremos los siguientes conceptos:

POBLACIÓN

Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos interesados en estudiar al menos una característica común y observable de dichos elementos en un determinado lugar y en un momento dado.

Observación: La población en estudios debe estar definida sin ambigüedad de manera que no de lugar a confusiones. Los elementos consideramos que se encuentran localizados en un determinado lugar o región geográfica y en un periodo de tiempo dado.

EJEMPLO

El conjunto de todos los estudiantes matriculados en el RUCFA en el presente año. Elementos: estudiantes.

Características : sexo, Nº asignaturas que lleva, estatura, edad, año que lleva, turno,procedencia,etc.

VARIABLES

Utilizaremos variables como X, Y, Z, etc. para representar las características de los elementos Existen básicamente 2 tipos de variables:

Variables cualitativas: Son las que producen respuestas categóricas. ( atributos o modalidades ) Variables cuantitativas : Son las que producen respuestas numéricas. (valores)

Si X representa la edad entonces X es cuantitativa. Si Y representa el sexo entonces Y es cualitativa.

Las variables cuantitativas pueden considerarse como variables discretas y variables contínuas. Variables discretas: Son aquellas cuyos valores posibles tienen interrupción ( esto es, se separan sin haber valores intermedios ) Por lo general provienen de un proceso de conteo.

Si Z representa el número de asignaturas que lleva entonces Z es discreta.

Variables contínuas: Son aquellas cuyos valores posibles no tienen interrupción. Por lo general

provienen de un proceso de medición.

(2)

DATOS ESTADISTICOS

Loa valores posibles de una característica X los denotaremos por x , mientras que los valores realmente observados de esa característica X , los llamaremos datos y los denotaremos por xi donde

el valor del subíndice i nos indica que es la i-ésima observación de X.

Con frecuencia usaremos el término población para referirnos a la totalidad de datos que podrían recopilarse en una situación dada.

x1 , x2 , … , xN

PARAMETROS

Es una medida que proviene de todos los datos de la población. Los parámetros son constantes que representan por lo general características de la población. Generalmente se representan por letras griegas.

Por ejemplo, la media poblacional es un parámetro que se denota y define como N x N x ... x x μ N . i N 2 1+ + + ₌

∑

=

Si X representa la edad entonces μ representa la edad promedio

MUESTRA

Es una parte de la población que se espera sea representativa de ella.

Con frecuencia usaremos el término muestra para referirnos a los datos muestrales x1 , x2 , … , xn

Población tamaño N X x1 muestra tamaño n x2 . x1, x2,….xn . xN datos muestrales ESTIMACION DE UN PARAMETRO

Es una medida que proviene de los datos muestrales. Las estimaciones varían de una muestra a otra y representan características de las muestras.

Por ejemplo, la media muestral de un conjunto de datos x1 , x2 , … , xn se denota y define como

n x n x ... x x x n . i n 2 1 + + + ₌

∑

=

Si X representa la edad entonces x representa la edad promedio y se considera una estimación o estimado de µ.

(3)

MUESTREO Y CENSO

Como el fin de la Estadística es llegar a conocer un parámetro esto podemos lograrlo haciendo: Un muestreo: un examen sobre una parte de la población. Un Censo: un examen sobre toda la población.

¿ QUE ES LA ESTADISTICA ?

La Estadística estudia los métodos y procedimientos para recopilar, organizar, presentar y analizar datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínsica de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

DIVISION DE LA ESTADISTICA

ESTADÍSTICA DESCRIPTIVA

Es la parte de la estadística que estudia los métodos de recopilación, organización, presentación y caracterización o análisis de un conjunto de datos.

ESTADÍSTICA INFERENCIAL

Estudia los métodos que hacen posible la estimación de un parámetro en base a datos muestrales.

APLICACIONES DE LA ESTADISTICA A LA ECONOMIA, LA ADMINISTRACION

DE EMPRESA Y LA CONTABILIDAD.

Mostraremos como las técnicas estadísticas pueden servir al economista, al administrador de empresa y al contador para obtener un conocimiento amplio sobre su realidad económica y social. Es obvio que toda persona que se dedique al mundo de los negocios, industria, empresa, comercio, etc., necesita información sobre las características del ambiente en que realiza su actividad.

Cualquier información cualitativa o cuantitativa debidamente tratada, puede servir para el conocimiento, desarrollo y control de los principales subsistemas funcionales de la empresa. Si analizamos algunos de estos subsistemas es posible encontrar ejemplos en los que la Estadística puede constituir un auténtico elemento de ayuda.

Recursos humanos

Para la selección del personal los empresarios suelen usar cada vez con más frecuencia resultados obtenidos en tests de aptitudes y conocimientos deseables en la persona a contratar. Las técnicas descriptivas son intrumentos adecuados para el tratamiento de las puntuaciones númericas alcanzadas en dichos tests.

Auditoria

Uno de los nuevos instrumentos de que disponen los auditores de hoy, es el empleo de métodos de muestreo, a fin de reducir la cantidad de revisión detallada que se necesita.

Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar. Un auditor puede utilizar algún método de muestreo estadístico para seleccionar una muestra de cuentas y a partir de ella estimar el saldo total de las cuentas. Si la cantidad que aparece en los libros de la empresa no cae dentro de los límites de la estimación, el auditor puede considerar la posibilidad de hacer un asiento de ajuste al valor en libros.

(4)

Marketing

Los estudios de mercado dirigidos al conocimiento de la demanda de productos, productos competidores, efectos de campañas publicitarias, etc., se llevan a cabo con regularidad en la empresa. Antes de sacar un producto al mercado se suele realizar una investigación al respecto mediante muestreo con objeto de obtener alguna información. Las técnicas estadísticas permiten en estas situaciones inferir valores de parámetros a partir de la información muestral. Por supuesto, a partir de una muestra no se puede conocer con exactitud y precisión las características de toda la población, siempre habrá un grado de incertidumbre sobre el verdadero valor del parámetro, el cual puede ser cuantificado en términos de probabilidad.

Producción

En el proceso de fabricación de un producto intervienen innumerables factores (materias primas, maquinarias, obreros, etc.) que afectan a las características de calidad de ese producto. En muchas fábricas es corriente ver cómo los productos llegan a una banda transportadora en cuyo final hay una máquina empacadora que los envía al almacen. Entre la banda transportadora y la máquina de empacar suele haber un operario que observa atentamente los productos que llegan y ocacionalmente arroja alguno a un cesto cercano. Está eliminando productos defectuosos.

Hoy día el control de calidad de la producción es básico para que los artículos producidos cumplan los requisitos de calidad establecidos por las normas tanto nacionales como internacionales. Los métodos estadísticos son una herramienta eficaz en esta área para mejorar los procesos de producción y reducir sus defectos.

Finanzas

Resulta evidente que cualquier profesional de la empresa o los negocios debe adquirir una formación básica en estadística en un proceso de aprendizaje, que le permita moverse con soltura en el mundo que le rodea. Si ha de tomar decisiones en un entorno de fluctuaciones y riesgos, no bastará con entender la terminología estadística, necesitará conocerla lo suficiente como para aplicarla y hacer de ella una herramienta eficaz en el ejercicio de su actividad.

Las decisiones de una empresa de invertir en nuevos productos, locales, maquinarias, etc.,vendrán condicionadas por los beneficios esperados del dinero. Para ello son de gran utilidad las técnicas de predicción, que constituyen una auténtica necesidad en el mundo de los negocios.

(5)

TEMA 1 : ESTADISTICA DESCRIPTIVA

OBJETIVOS

.

1. Conocer procedimientos para organizar datos en una distribución de frecuencias. 2. Construir e interpretar tablas y gráficas estadísticas.

3. Calcular e interpretar medidas de posición, dispersión, asimétria y apuntamiento de datos.

1.1 INTRODUCCION

Este tema pretende introducir al estudiante en el manejo de datos numéricos, enseñarle a organizar y presentar datos obtenidos de un estudio mediante la construcción de tablas y gráficas estadísticas. También será de vital importancia poder condensar la información en medidas que la representen en forma clara, por tal razón, trataremos de encontrar valores para esas medidas (estadísticos o parámetros ) que logren sintetizar la información. Estas medidas expresarán la posición, dispersión, asimetría y forma de los datos.

1.2 RECOPILACIÓN DE DATOS

Consiste en la utilización adecuada de técnicas que permitan recoger la información de la manera más eficiente.

Los datos pueden ser recopilados de: a) Registros internos

b) Publicaciones c) Encuestas

Cuando a) y b) no son apropiados para el estudio que estamos haciendo utilizamos la encuesta, esto es, un instrumento que nos permite recopilar la información necesaria.

La encuesta está limitada por factores: tiempo,dinero,recursos materiales y humanos disponibles. Se puede llevar a cabo por dos formas:

a) Por muestreo b) Por censo.

1.3 ORGANIZACIÓN (RESUMEN) DE LOS DATOS

Aquí la información se resume con el fin de facilitar su presentación y análisis posterior.

1.3.1 DATOS AGRUPADOS EN CLASES

Introduciremos primero algunos conceptos:

Un intervalo de clase o simplemente clase se denota y define como: Li ---- Ls : Más de Li hasta Ls

donde Li el límite inferior y Ls es el límite superior de la clase.

Una clase de extremo abierto es la que no especifica uno de sus límites y la denotaremos así:

Hasta Ls Más de Li

(6)

Amplitud o tamaño de un intervalo de clase

c = Ls – Li

 Punto medio de un intervalo de clase o marca de clase j 2 Ls Li m_j = + j = 1, 2, ..., g EJEMPLO 1.1

Los siguientes datos corresponden a consumos mensuales registrados (en cienes de córdobas) en 30 familias del barrio Costa Rica.

Tabla 1.1 Datos originales de los consumos mensuales

24 16 26 31 17 25 17 23 23 19 21 17 13 20 30 24 19 22 21 18 25 14 29 20 26 15 27 21 22 23 Fuente: Encuesta realizada por INEC

Organice los datos recopilados anteriormente en 5 clases 1. Ordenar los datos

13 14 15 16 17 17 17 18 19 19 20 20 21 21 21 22 22 23 23 23 24 24 25 25 26 26 27 29 30 31 2. Determinar el rango

R = xmayor – xmenor = Dato mayor - Dato menor R = 31 - 13 = 18

3. Determinar N° clases '' g '' y tamaño de clase ''c''. Si g es dado , g R c> pero cercano a c > 5 18 = 3.6 tomaré C = 4 4. Escribir las clases.

El límite inferior de la primera clase debe ser un número menor y cercano al dato menor. El límite superior de la última clase debe ser mayor o igual, pero cercano, al dato mayor.

(7)

Tabla 1.2 Organización de los datos de la tabla 1.1 del ejemplo 1.1

N° familias Ls última clase = Li primera clase + gc 12 --- 16 4 Ls última clase = 12 + 5 ( 4 ) = 32 16 --- 20 8 20 --- 24 10 24 --- 28 5 28 --- 32 3 30 5. Contar los datos

1.4 PRESENTACION DE DATOS

Una vez organizados los datos debemos presentarlos de una forma fácil de entender, esto es que podamos percibir fácilmente los hechos esenciales de la información.

Los datos serán presentados en una tabla que contendrá básicamente : un título, un cuerpo y una fuente.

También presentaremos los datos por gráficas, en las cuales tomaremos en el eje horizontal la característica de interés x y en el eje vertical las frecuencias.

Debemos tener cuidado en la selección de las unidades en los ejes:

Regla de los 3/4

La altura del punto correspondiente a la mayor frecuencia debe ser aproximadamente igual a los 3/4 del eje horizontal.

1.4.1 DATOS CUANTITATIVOS

Cuando la característica de interés de los elementos sea una variable cuantitativa, se obtendrán de ella lo que llamaremos datos cuantitativos, que pueden ser presentados en tablas o gráficas.

1.4.1.1 DATOS REPETIDOS

Cuando los datos están muy repetidos es útil contar el número de veces que se repite cada dato. Supongamos que fi representa la frecuencia conque se presenta el dato xi de una variable de interés

X.

Podemos presentar este conjunto de datos en lo que llamaremos una distribución de frecuencias de X, mediante una tabla o una gráfica.

TABLA DE FRECUENCIAS DE UNA VARIABLE DISCRETA EJEMPLO 1.2

Supongamos que los siguientes datos representan número de días de atraso en el pago de 10 cuentas de crédito.

(8)

Si X representa el número de días de atraso en el pago de las cuentas, podemos presentar esta información en la siguiente tabla:

Tabla 1.3 Título: Distribución de frecuencias del número de días de atraso en el pago de 10 cuentas de crédito. xi fi N° días N° cuentas 0 2 1 3 2 4 3 1 10 Fuente: BANPRO

GRAFICO DE FRECUENCIAS DE UNA VARIABLE DISCRETA EJEMPLO 1.3

Con los datos de la tabla 1.3 del ejemplo 1.2 obtenemos la siguiente figura.

Figura 1.1 Distribución de frecuencias del número de dias de atraso en el pago de 10 cuentas de crédito.

1.4.1.2 DATOS AGRUPADOS EN CLASES

Para presentar datos agrupados en clases necesitaremos introducir los siguientes conceptos: fj : frecuencia ( absoluta ) de la clase j. Número de datos en la clase j

faj : frecuencia acumulada hasta la clase j. Número de datos cuyos valores son inferiors o iguales al

límite superior de la clase j . faj = f1 + f2 + … + fj 0 1 2 3 4 5 -1 0 1 2 3 4

X

f

(9)

frj : frecuencia relativa de la clase j. Proporción de datos que corresponde a la clase j . n f fr j j = j = 1 , 2 , … , g

fraj : frecuencia relativa acumulada hasta la clase j. Proporción de datos cuyos valores son

inferiores o iguales al límite superior de la clase j . n fa fra j j = j = 1 , 2 , … , g

Cuando los datos están agrupados en clases diremos que forman una distribución de frecuencias , la cual, puede ser presentada por una tabla estadística o una gráfica estadística.

TABLA DE FRECUENCIAS ( ABSOLUTAS, RELATIVAS, ACUMULADAS, RELATIVAS ACUMULADAS )

EJEMPLO 1.4

Con los datos de la tabla 1.2 del ejemplo 1.1 obtenemos la siguiente tabla.

Tabla 1.4 TITULO : Distribuciones de frecuencias de los consumo mensuales de 30 familias del barrio Costa Rica.

fj frj faj fraj

Niveles de N° familias Prop. Familias N° familias Prop. familias Consumo hasta clase j hasta clase j mj 10 12 --- 16 14 4 0.13 4 0.13 16 --- 20 18 8 0.27 12 0.40 20 --- 24 22 10 0.33 22 0.73 24 --- 28 26 5 0.17 27 0.90 28 --- 32 30 3 0.10 30 1.00 34 30 1.00 Conteste las siguientes preguntas :

1. ¿ Cuántas familias tienen un consumo entre 16 y 24 ?

2. ¿ Qué proporción de familias tienen un consumo entre 20 y 24 ? 3. ¿ Cuántas familias tienen un consumo inferior a o igual 28 ?

(10)

HISTOGRAMA DE FRECUENCIAS / HISTOGRAMA DE FRECUENCIAS RELATIVAS

Ubicamos en el eje horizontal los límites inferiores y superiores de cada clase.

Dibujamos rectángulos tales que las longitudes de las bases correspondan a los tamaños de las clases y las alturas sean las correspondientes frecuencias de las clases.

EJEMPLO 1.5

Con datos de la tabla 1.4 del ejemplo 1.4 obtenemos la siguiente figura.

.

Figura 1.2 Histrograma de frecuencias de los consumos mensuales de 30 familias del barrio Costa Rica.

POLÍGONO DE FRECUENCIAS

Se forman haciendo que cada marca de clase represente los datos de esa clase. Luego se toman las frecuencias correspondientes a cada marca de clase para después unir los puntos resultantes con segmentos. Algunos prolongan el polígono hasta las marcas de clase imaginarias inferior y superior inmediata

EJEMPLO 1.6

Con datos de la tabla 1.4 del ejemplo 1.4 se ha dibujado el polígono de frecuencias de los consumos mensuales de las 30 familias. Ver figura 1.3

4 8 1 0 5 3 0 2 4 6 8 1 0 1 2 X f 1 2 1 6 2 0 2 4 2 8 3 2

(11)

Figura 1.3

POLÍGONO DE FRECUENCIAS ACUMULADAS (OJIVA) / POLÍGONO DE FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA PORCENTUAL)

Ubicamos en el eje horizontal los límites superiores de todas las clases. Algunos prolongan el polígono hasta el límite superior imaginario de la clase imaginaria inferior inmediata

EJEMPLO 1.7

Con datos de la tabla 1.4 del ejemplo 1.4 obtenemos la siguiente figura.

Figura 1.4 Polígono de frecuencias acumuladas ( Ojiva ) de los consumos mensuales de 30 familias del barrio Costa Rica.

0

5

10

15

20

25

30

35

12

16

20

24

28

32 fa

X

0 2 4 6 8 10 12 10 14 18 22 26 30 34

X

f

(12)

1.4.1.3 DATOS RELACIONADOS CON EL TIEMPO EJEMPLO 1.8

Tabla 1.5 Costo de la canasta básica en córdobas a nivel nacional durante el período 1991 – 2000. Años 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

Costo 750 780 820 880 1100 1200 1350 1550 1600 1700 Fuente. Banco Central de Nicaragua.

GRAFICO DE LINEAS

Consiste en un conjunto de líneas o segmentos de recta que muestran los cambios que experimenta una determinada variable, generalmente en función del tiempo. Las coordenadas se pueden graficar en el centro del período de tiempo.

EJEMPLO 1.9

Figura 1.5 Gráfico de líneas del costo de la canasta básica en córdobas a nivel nacional durante el período 1991 – 2000.

Observe que el costo de la canasta básica siempre crece durante el período 1991 – 2000, ocurriendo un crecimiento a un ritmo mayor a partir de 1995.

7 0 0 8 0 0 9 0 0 1 0 0 0 1 1 0 0 1 2 0 0 1 3 0 0 1 4 0 0 1 5 0 0 1 6 0 0 1 7 0 0 1 8 0 0 1 9 9 1 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 1 9 9 9 2 0 0 0 A ñ os Costo

(13)

EJEMPLO 1.10

Tabla 1.6 Salario mínimo del sector industrial a nivel nacional para el período 1991 – 2000. Años 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

Salarios 400 500 600 700 800 850 900 950 1000 1050 Fuente: Banco Central de Nicaragua.

COMPARACION DE GRAFICOS LINEALES

Estos gráficos generalmente se utilizan para comparar aspectos contrapuestos tales como ingresos – gastos, exportación – importación, etc.

EJEMPLO 1.11

Con los datos de la tabla 1.6 y 1.5 de los ejemplos 1.8 y 1.10 respectivamente obtenemos la siguiente figura.

Figura 1.6 Comparación del costo de la canasta básica y el salario mínimo del sector industrial para el período 1991 – 2000.

Observe que el costo de la canasta básica siempre es mayor que el salario mínimo, ocurriendo la diferencia más pequeña de C$ 180 en el año 1994.

De 1991 a 1994 el salario creció a un ritmo mayor que el costo de la canasta básica, pero de 1995 a 2000 el costo de la canasta básica creció a un ritmo mucho mayor que el salario.

De la figura anterior podemos comentar que el aparato industrial nicaragüense tiene poco desarrollo.

300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Años Costo / Salario Costo Salario

(14)

1.4.2 DATOS CUALITATIVOS

Cuando la característica de interés de los elementos sea una variable cualitativa, se obtendrán de ella lo que llamaremos datos cualitativos.

En los fenómenos cualitativos, las respuestas categóricas se pueden clasificar en tablas o gráficas.

EJEMPLO 1.12

Tabla 1.7 Importaciones realizadas por Nicaragua de 545.3 millones de dólares en bienes intermedios en el año 2000 según la actividad ecónomica.

ACTIVIDAD ECONOMICA MONTO % ANGULO

Agricultura 78.7 14.4 52° Industria 353.7 64.9 233° Construcción 112.9 20.7 75°

Total 545.3 100.0 360°

Fuente: Banco Central

GRAFICA DE PASTEL O SECTORES

Se construyen en base a un círculo que representa el valor total de las distintas categorías en que se divide un atributo, dividido este círculo en tantos sectores circulares como categorías tenga el atributo. La magnitud del ángulo de los sectores se calcula con la siguiente fórmula:

Valor de la categoría

Angulo del sector = x 360° Valor total de las categorías

EJEMPLO 1.13

Figura 1.7 Gráfica de pastel que ilustra las importaciones realizadas por Nicaragua según la actividad ecónomica. 14% 65% 21% A gric ultura Indus tria Cons truc c ión

(15)

GRAFICA DE BARRAS

Este gráfico está constituido por un conjunto de barras o rectángulos , separados por distancias iguales , cuyas alturas son el valor de los datos correspondientes al atributo que señalan sus bases.

EJEMPLO 1.14

Figura 1.8 Gráfica de barras que ilustra las importaciones realizadas por Nicaragua según la actividad ecónomica.

EJEMPLO 1.15

Tabla 1.8 Precios promedios en dólares de los tres principales productos de consumo: frijol, pollo y leche a nivel centroamericano.

PRODUCTOS Costa Rica El Salvador Guatemala Honduras Nicaragua Frijol 0.50 0.55 0.39 0.48 051 Pollo 0.94 1.02 0.93 0.72 0.80 Leche 0.40 0.87 0.59 0.47 0.42 Fuente: Banco Central de Nicaragua, Septiembre de 2000

7 8. 7 35 3. 7 112.9 0 10 0 20 0 30 0 40 0

A g ric u ltu ra Ind us tria C on s t ruc c ión

A ctiv id a d e c ó n o m ica

(16)

EJEMPLO 1.16

Figura 1.9 Gráfica de barras que ilustra los precios promedios en dólares de los tres principales productos de consumo:Frijol, Pollo y Leche.

Observando el gráfico anterior conteste las siguientes preguntas: ¿ Cuál es el menor precio del pollo a nivel centroamericano ? ¿ Cuál el el mayor precio de la leche a nivel centroamericano ? ¿ En qué país centroamericano la leche tiene menor precio ? ¿ En qué país centroamericano el pollo tiene mayor precio ?

¿ En Guatemala qué producto tiene menor precio ? ¿En Nicaragua qué producto tiene mayor precio?

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

C.R.

E.S.

G

H

N

Precios

(17)

1.5 CARACTERIZACION ( ANÁLISIS ) DE LOS DATOS

Aquí el investigador trata de resumir la información disponible en algunas expresiones, esto es, valores o medidas que nos fijen el comportamiento global del fenómeno.

El análisis de los datos consiste básicamente en la determinación de dos medidas que representan características de los datos.

• Medidas de posición

Nos indican las posiciones o lugares alrededor de los cuales se distribuyen los datos. • Medidas de dispersión

Nos informan sobre la variabilidad de los datos alrededor de las medidas de posición. Existen otras medidas que serán estudiadas posteriormente.

Figura 1.10 Puntos sobre la recta real correspondientes a dos conjuntos de datos. ¿ Cómo se dispersan los datos y alrededor de qué posición lo hacen ?

1.5.1 MEDIDAS DE POSICION

1.5.1.1 MEDIDAS DE POSICIÓN CENTRAL

Son valores representativos que tienden a situarse en el centro de un conjunto de datos ordenados según su magnitud.

1.5.1.1.1 LA MEDIA ARITMÉTICA DATOS NO AGRUPADOS EN CLASES

Si x1, x2,...,xn representan datos muestrales entonces su media muestral se denota y define así

n x x n . i

∑

=

Si x1, x2,...,xN representan todos los datos poblacionales entonces su media poblacional se

denota y define así N x μ N . i

∑

=

0

1

2

3

4

5

6

7

8 9 10 11 12 13 14 15 16 17 18 19

x

Posición Posición

(18)

EJEMPLO 1.17

Los siguientes datos representan saldos en miles de córdobas de 5 cuentas de ahorro.

20, 10, 15, 25, 20 Calcule el saldo promedio de las 5 cuentas Elementos: cuentas X : saldo n = 5 18 5 90 5 20 25 15 10 20 x = + + + + = = (en miles de C$ )

Datos repetidos

Si los datos forman una distribución de frecuencias de la variable X utilizaremos para la media muestral la siguiente fórmula:

n f x x . i i

∑

= EJEMPLO 1.18

Dada la distribución de frecuencias de la tabla 1.3 del ejemplo 1.2 , calcule el número promedio de días de atraso en el pago de las cuentas.

Tabla 1.9 xi fi xifi 0 2 0 1 3 3 2 4 8 3 1 3 10 14 1.4 10 14 x = = días

(19)

DATOS AGRUPADOS EN CLASES

Si los datos representados por la variable de interés X están agrupados en “g “ clases consideraremos que los valores de X serán las marcas de clase, motivo por el cual escribiremos:

Para una muestra:

n f m x g . j j

∑

= mj: marca de la clase j fj: frecuencia de la clase j

Para una población: N f m μ g . j j

∑

= EJEMPLO 1.19

La distribución de frecuencias de gastos en energía eléctrica en córdobas durante el mes de Julio en 50 casas del barrio la Primavera de Managua es dada por la siguiente tabla

.

Tabla 1.10

fj

Gastos mj No. casas mjfj uj ujfj 75 --- 100 87.5 4 350 -2 -8 100 ---- 125 112.5 8 900 -1 -8 125 ---- 150 137.5 15 2062.5 0 0 150 ---- 175 162.5 13 2112.5 1 13 175 ---- 200 187.5 7 1312.5 2 14 200 ---- 225 212.5 3 637.5 3 9 50 7375.0 20

Calcule el gasto promedio en energía eléctrica de las casas.

Método ordinario:

147.50 50

7375

x = =

Método por codificación:

Usaremos una variable de codificación uj que sólo tomará valores enteros, de tal forma que a cada

marca de clase le corresponderá un entero. La marca de clase que tenga asignado el 0 será representada por m0. La fórmula que usaremos será la siguiente:

(20)

)c n f u ( m x g . j j 0

∑

+ = (25) 137.5 10 147.50 50 20 5 . 137 x = + = + =

Coloque el código 0 a la marca de clase que Ud. quiera, luego calcule x

PROPIEDADES DE LA MEDIA ARITMÉTICA i. Todo conjunto de datos tiene una media y es única.

ii. La suma algebraica de las desviaciones de un conjunto de datos con respecto a su media es cero.

∑

n − = . i x) 0 (x EJEMPLO 1.20

Comprobación de que la suma algebraica de las desviaciones de los números 1, 3, 5, 7 con respecto a su media es cero. Tabla 1.11 xi xi - 4 1 -3 3 -1 5 1 7 3 16 0 = =4 4 16 x Figura 1.11 DESVENTAJAS DE LA MEDIA ARITMÉTICA

i. Es muy sensible a las observaciones extremas cuando éstas no están equilibradas en ambos lados. ii. Es inadecuada si hay clases de extremo abierto.

0 1 2 3 4 5 6 7 8

X x

(21)

1.5.1.1.2 LA MEDIANA

Para datos que contienen valores extremos es recomendable utilizar la mediana porque ésta no es sensible a las observaciones extremas.

La mediana es el valor que se encuentra en el centro de una secuencia ordenada de datos.

DATOS NO AGRUPADOS EN CLASES

Si un conjunto de datos están ordenados según su magnitud en orden creciente o decreciente entonces la mediana la determinamos así:

i. Si n es impar entonces la mediana es el valor central Posición:

2 1 n+

ii. Si n es par la mediana es el promedio de los dos valores centrales

Posiciones: 2 n y 1 2 n + EJEMPLO 1.21

Consideremos el costo en córdobas de la canasta básica de 5 ciudades: 1300, 1000, 1100, 1350, 1200 Determine la mediana.

El arreglo ordenado es: 1000, 1100, 1200, 1300, 1350

Me = 1200 Posición: 3

EJEMPLO 1.22

En 10 días un Banco tuvo 18, 13, 15, 12, 8, 3, 7, 14, 16 y 3 transacciones en moneda extranjera. Determine la mediana.

El arreglo ordenado es: 3, 3, 7, 8, 12, 13, 14, 15, 16, 18

Posiciones: 5 y 6 Me = 12.5 2 13 12 = + NOTA: La mediana siempre existe y es única.

(22)

1. Identificar la clase mediana ( k )

Es la primera clase con una frecuencia acumulada ≥ n / 2 2. Aplicar la fórmula )c f fa 2 n ( Li Me k 1 k k − − + = donde:

fa k-1 es la frecuencia acumulada de la clase que precede a la clase mediana.

Lik es el límite inferior de la clase mediana.

fk es la frecuencia de la clase mediana.

n es el número de datos.

EJEMPLO 1.23

Dada la distribución de frecuencias de la tabla 1.10 del ejemplo 1.19, calcule el gasto mediano en energía eléctrica de las 50 casas.

fj

Gastos No. casas faj

75 ---- 100 4 4 100 ---- 125 8 12 125 ---- 150 15 27 150 ---- 175 13 40 175 ---- 200 7 47 200 ---- 225 3 50 50

1. n / 2 = 25 La primera clase con una fa. ≥ 25 es k = 3

2. Me (25) 146.6667 15 13 125 25 ) 15 12 25 ( 125+ − = + = =

(23)

EJEMPLO 1.24

Los siguientes datos representan ventas anuales registradas en millones de córdobas en 80 tiendas Tabla 1.12

Ventas anuales N° tiendas faj

Hasta 10 8 8 10 ---- 20 18 26 20 ---- 30 32 58 30 ---- 40 15 73 40 ---- 50 6 79 Más de 50 1 80 80

Calcule la venta anual mediana de las tiendas. 1.

2 n

= 40 La primera clase con una fa ≥ 40 es k = 3

2. Me = 20 + )10 32 26 40 ( − = 20 + 20 4.375 24.375 32 140 = + = 1.5.1.1.3 LA MODA

La moda de un conjunto de datos es aquel valor que se presenta con más frecuencia.

La moda no es afectada por valores extremos. Sin embargo sólo se utiliza para propósitos descriptivos porque es más variable para distintas muestras que las demás medidas de posición.

DATOS NO AGRUPADOS EN CLASES EJEMPLO 1.25

Los siguientes datos corresponden a ventas mensuales de una empresa registradas en millones de córdobas durante el año pasado.

100, 80, 150, 60, 100, 90, 130, 100, 90, 100, 120, 100 ¿Cuál fue la venta mensual modal de la empresa?

Mo = 100 La moda puede no existir, incluso si existe puede no ser única.

EJEMPLO 1.26

(24)

EJEMPLO 1.27

50, 60, 70, 60, 50, 40, 80, 50, 60, 45 Mo = 50 y Mo = 60

1. Identificar la clase modal ( k )

Es la clase con la más alta frecuencia. 2. Aplicar la fórmula )c Δ Δ Δ ( Li Mo 2 1 1 k+ ₊ = donde:

Lik es el límite inferior de la clase modal.

Δ1 es la diferencia absoluta entre la frecuencia de la clase modal y la frecuencia de la clase

precedente.

Δ2 es la diferencia absoluta entre la frecuencia de la clase modal y la frecuencia de la clase

siguiente.

EJEMPLO 1.28

Dada la distribución de frecuencias de la tabla 1.10 del ejemplo 1.19, calcule el gasto modal en energía eléctrica de las 50 casas.

fj

GASTOS No. casas 75 ---- 100 4 Δ₁ =15−8=7 100 ---- 125 8 125 ---- 150 15 Δ₂ =15−13=2 150 ---- 175 13 175 ---- 200 7 200 ---- 225 3 50

1. La clase con la mayor frecuencia es la tercera, esto es, k = 3 2. 144.4444 19.4444 125 )25 2 7 7 ( 125 Mo = + = + + =

(25)

1.5.1.2 MEDIDAS DE POSICION NO CENTRAL 1.5.1.2.1 PERCENTILES

Son medidas que dividen a una distribución en cien partes iguales.

El percentil r, denotado por Pr, donde r = 1, 2, ..., 99 es el valor por debajo del cual queda el r%

de los datos.

1. Identificar la clase que contiene al Pr (k)

Es la primera clase con una frecuencia acumulada ≥ ) 100 r n( 2. Aplicar la fórmula )c f fa ) 100 r n( ( Li P k 1 k k r − − + = donde n es el número de datos

Lik es el límite inferior de la clase que contiene al Pr

) 100

r

n( es el r% de n

fk es la frecuencia de la clase que contiene al Pr

fak-1 es la frecuencia acumulada de la clase que precede a la clase que contiene al Pr.

EJEMPLO 1.29

Dada la distribución de frecuencias de la tabla 1.10 del ejemplo 1.19, ¿ Por debajo de qué gasto en energía eléctrica está el 90% de las casas ?

GASTOS fj fa 75 --- 100 4 4 100 --- 125 8 12 125 --- 150 15 27 150 --- 175 13 40 175 --- 200 7 47 200 --- 225 3 50 50 1. ) 45 100 90 ( 50 ) 100 r

n( = = La primera clase con una fa. ≥ 45 es k = 5

2 175 17.8571 192.8571 7 125 175 25 ) 7 40 45 ( 175 P₉₀ = + − = + = + =

(26)

1.5.2 MEDIDAS DE DISPERSION

Considere que los siguientes puntos sobre la recta real son los correspondientes a dos conjuntos de datos.

Figura 1.12

¿ Cómo se dispersan los datos y alrededor de qué posición lo hacen ? ¿ Qué conjunto de datos tendría la menor variación?

Cuando la dispersión de los datos se considera pequeña en comparación a la magnitud de los datos decimos que la medida de posición es confiable, esto es, representativa de los datos.

1.5.2.1 LA VARIANZA , LA DESVIACION ESTANDAR Y EL COEFICIENTE DE VARIACION.

DATOS NO AGRUPADOS EN CLASES

Si x1, x2,...,xN representan todos los datos poblacionales entonces su varianza poblacional se

denota y define así

N μ) (x σ N . 2 i 2

∑

− =

La desviación estandar poblacional se denota y define así

2

σ σ =

Si x1, x2,...,xn representan datos muestrales entonces su varianza muestral se denota y define

así Fórmula abreviada 1 n ) x (x s n . 2 i 2 − − =

∑

1 n n ) x ( x s n . n . 2 i 2 i 2 − − =

∑

La desviación estándar muestral se denota y define así _s₌ _s2

0

1

2

3

4

5

6

7

8 9 10 11 12 13 14 15 16 17 18 19

X

(27)

El coeficiente de variación es una medida relativa de dispersión. Se expresa como porcentaje y es útil cuando se compara la variabilidad de dos o más conjuntos de datos expresados en diferentes o iguales unidades de medición.

Para una muestra (100) x s

CV_mtra = Para una población (100) μ σ CV_pob =

EJEMPLO 1.30

Los siguientes datos representan saldos en miles de córdobas de 5 cuentas de ahorro. 20, 10, 15, 25, 20

Determine:

a) El saldo promedio de las cuentas

b) La varianza y la desviación estandar de los saldos c) El coeficiente de variación xi (xi −x)2 x 2 i 20 4 400 10 64 100 15 9 225 25 49 625 20 4 400 90 130 1750 a) 18 5 90 x = = b) 32.50 4 130 s2 ₌ ₌ 32.50 4 130 4 1620 1750 4 5 ) 90 ( 1750 s 2 2 ₌ − ₌ − ₌ ₌ _⇒_s₌ ₃₂_,₅₀ ₌₅_.₇₀₀₉

Tanto la varianza como la desviación estándar de un conjunto de datos son medidas de variabilidad de los datos alrededor de la media.

La desviación estándar puede interpretarse como una desviación promedio de los datos alrededor de la media, en otras palabras, cuánto se alejan en promedio los datos de la media.

Para el ejemlo 1.30, podemos decir que la desviación promedio de los saldos de las cuentas alrededor de C$ 18 es C$ 5.7009 o bien que los saldos se alejan en promedio C$ 5.7009 de la media. c) (100) 31.6717% 18 7009 . 5 CV= =

Este valor no tendrá sentido a menos que lo comparemos con otro conjunto de cuentas.

(28)

Consideremos otro conjunto de cuentas: xi (x_i −x)2 xi2 21 2.25 441 15 56.25 225 25 6.25 625 29 42.25 841 90 107.00 2132 a) 22.50 4 90 x = = b) 35.6667 3 107 3 2025 2132 3 4 ) 90 ( 2132 s 2 2 ₌ − ₌ − ₌ ₌ _⇒_s₌ ₃₅_.₆₆₆₇ ₌₅_.₉₇₂₂ c) (100) 26.5431% 50 . 22 9722 . 5 CV= =

¿Qué conjunto de cuentas tiene el saldo más uniforme?

Datos repetidos

Si los datos forman una distribución de frecuencias de la variable X, la varianza muestral se define así 1 n f ) x (x s . i 2 i 2 − − =

∑

EJEMPLO 1.31

Para la distribución de frecuencias de la tabla 1.3 del ejemplo 1.2 , calcule la desviación estándar del número de días de atraso en el pago de las cuentas.

Recordemos que x =1.4 días.

xi fi (x x) fi 2 i − 0 2 3.92 1 3 0.48 2 4 1.44 3 1 2.56 10 8.40 0.9333 s 0.9661 9 40 . 8

(29)

La varianza poblacional se denota y define como

mj es la marca de la clase j g es en número de clases N f μ) (m σ g . j 2 j 2

∑

− = fj es la frecuencia de la clase j

La desviación estándar poblacional se denota y define como

_σ ₌ _σ2

La varianza muestral se denota y define como

Fórmula abreviada. 1 n f ) X (m s g . j 2 j 2 − − =

∑

1 n n ) f m ( f m s g . g . 2 j j j 2 j 2 − − =

∑

La desviación estándar muestral se denota y define como

_s₌ _s2

El coeficiente de variación se denota y define así

Para una muestra (100) x s

CV_mtra = Para una población C _pob (100)

μ σ

=

V

EJEMPLO 1.32

En la siguiente tabla se dan los rendimientos en qq / mz. obtenidos en 60 plantaciones de algodón. Tabla 1.13 Rendimientos N° Plantaciones 20 ---- 28 4 28 ---- 36 20 36 ---- 44 30 44 ---- 52 5 52 ---- 60 1 60

(30)

1. ¿Cuál es el rendimiento promedio de las 60 plantaciones?

2. ¿Cuál es la varianza y la desviación estandar del rendimiento de las plantaciones? 3. Calcule el coeficiente de variación.

mj fj mjfj mj2fj 24 4 96 2304 32 20 640 20480 40 30 1200 48000 48 5 240 11520 56 1 56 3136 60 2232 85440 1. 37.20 qq/mz. 60 2232 x = = 2. 40.8407 59 6 . 2409 59 4 . 83030 85440 59 60 ) 2232 ( 85440 s 2 2 ₌ − ₌ − ₌ ₌

s

=

40.8407

=

6.3907qq/m

z.

¿ Cómo interpretaría este resultado ? 3. (100) 17.1793% 20 . 37 3907 . 6 CV = =

Aplicando la otra fórmula

mj fj (m_j−x)2f_j 24 4 696.96 32 20 540.80 40 30 235.20 48 5 583.20 56 1 353.44 60 2409.60 40.8407 59 60 . 2409 s2 ₌ ₌ EJERCICIO 1.1

Para la distribución de frecuencias de gastos de energía eléctrica en córdobas, del ejemplo 1.19, verifique que la desviación estándar del gasto de energía eléctrica es s = C$ 32.73

(31)

1.5.3 MEDIDAS DE ASIMETRIA

1.5.3.1 RELACION ENTRE MEDIA , MEDIANA Y MODA.

Las diferencias entre los valores de la media, la mediana y la moda permiten saber la forma de la distribución de frecuencias

DISTRIBUCIONES SIMETRICAS

Si en una distribución de frecuencias, la media, la mediana y la moda coinciden entonces decimos que la distribución es simétrica. Ver figura 1.13

Figura 1.13 DISTRIBUCIONES ASIMETRICAS

Si los valores de la media , la mediana y la moda no coinciden entonces decimos que la distribución es asimétrica.

Para distribuciones asimétricas unimodales las posiciones relativas de las tres medidas serán tales que la mediana estará siempre entre la media y la moda. Ver figuras 1.14 y 1.15

Distribución asimétrica a la izquierda o negativa.

Figura 1.14

La cola mayor se extiende a la izquierda o dirección negativa y por tanto la media es la menor de las tres medidas.

x < Me < Mo 5 10 15 10 5 0 5 10 15 20 5 7 15 20 28 34 25 0 10 20 30 40 Media Me Mo

(32)

Distribución asimétrica a la derecha o positiva.

Figura 1.15

La cola mayor se extiende a la derecha o dirección positiva motivo por el cual la media es la mayor de las tres medidas.

Mo < Me < x

RELACION EMPIRICA ENTRE LA MEDIA , LA MEDIANA Y LA MODA

Para distribuciones moderadamente asimétricas la mediana se aleja aproximadamente de la media un tercio de la distancia entre la media y la moda.

⎜ x - Mo ⎜ = 3 ⎜ x - Me ⎜ ⇒ Mo = 3Me - 2 x

EJEMPLO 1.33

Retomando los datos de la tabla 1.10 del ejemplo 1.19 tenemos que:

x =147.50 Me =146.6667 Mo =144.4444

Por lo tanto la distribución tiene una asimetría a la derecha. Verifiquemos ahora la relación empírica determinando la moda: Mo = 3 (146.6667) – 2 ( 147.50 ) = 440.0001 – 295 =145.0001

La diferencia puede deberse a errores de redondeo o bien a que la distribución no es tan moderamente asimétrica. 28 40 33 26 18 10 5 0 10 20 30 40 50 Mo Me Media

(33)

1.5.3.2. COEFICIENTE DE ASIMETRIA DE PEARSON

Un indicador posible de la asimetría de una distribución es la diferencia (x−Mo) dividida por s, esto es,

s

Mo x−

Una medida adimensional,es decir, invariable ante cambios de escala y de origen. Pero como (x−Mo)=3(x−Me) consideraremos, para distribuciones moderamente asimétricas y

en forma de campana, el siguiente indicador que llamaremos coeficiente de asimetría de Pearson.

s Me) x 3(

P = − para una muestra

σ Me) 3(μ

P = − para una población Apoyándonos en este coeficiente diremos que:

Si P = 0 entonces la distribución es simétrica.

Si P < 0 entonces la diatribución tiene asimetría negativa. Si P > 0 entonces la distribución tiene asimetría positiva.

EJEMPLO 1.34

Para la distribución de frecuencias de gastos de energía eléctrica en córdobas durante el mes de Julio en 50 casas del barrio la Primavera del ejemplo 1.19 tenemos que:

0.0764 73 . 32 ) 6667 . 146 50 . 147 ( 3 − ₌ = P

Por lo tanto la distribución tiene asimetría positiva.

1.5.3.3 MOMENTOS CON RESPECTO A LA MEDIA

El momento de orden r de una variable X se denota y define como

n ) x (x m n . r i r

∑

− = , r = 0, 1, 2, ...

Si los datos forman una distribución de frecuencias de la variable X, la expresión anterior es equivalente a: n f ) x (x m . i r i r

∑

− = , r = 0, 1, 2, ...

Dando valores a r tenemos:

m0 = 1 , m1 = 0 ¿Por qué? , m2 = n 1 n− s2 , m3 = n f ) x (x n . i 3 i

∑

−

(34)

1.5.3.4 COEFICIENTE DE ASIMETRIA DE FISHER

El coeficiente de asimetría de Fisher se denota y define como:

₃3 s m

=

F para una muestra m₃3

σ =

F para una población Hemos dividido m3 por s3 para que F sea un número sin dimensiones

Apoyándonos en este coeficiente diremos que: Si F = 0 , la distribución es simétrica.

Si F < 0 , la distribución tiene asimetría negativa. Si F > 0 , la distribución tiene asimetría positiva.

EJEMPLO 1.35

El número de empleados de 10 pequeñas empresas fue el siguiente: 2, 3, 3, 4, 4, 4, 4, 5, ,5, 6

Calcular el coeficiente de asimetría de Fisher. xi fi xifi (x x) fi 2 i − (x x) fi 3 i − (xi −x)4fi 2 1 2 4 -8 16 3 2 6 2 -2 2 4 4 16 0 0 0 5 2 10 2 2 2 6 1 6 4 8 16 10 40 12 0 36 4 10 40 x = = empleados 1.3333 s 1.1547 9 12 s2 ₌ ₌ _⇒ ₌ empleados 0 10 0 m₃ = = 0 5396 . 1 0 1547 . 1 0 s3 3 3 ₌ ₌ ₌ = m

F Por lo tanto la distribución es simétrica.

La regla empírica

En un conjunto de datos moderamente asimétricos aproximadamente el 67% de los datos (la mayoría de los datos) están comprendidos dentro de la distancia de una desviación estándar en torno a la media, y aproximadamente entre un 90% y 95% de los datos están comprendidos dentro de la distancia de dos desviaciones estándar en torno a la media.

Para el ejemplo 1.35 podemos decir que aproximadamente un 67% de las pequeñas empresas (la mayoría de las pequeñas empresas) tienen un número de empleados que varían entre 4 – 1.1547 = 2.8453 empleados y 4 + 1.1547 = 5.1547 empleados.

(35)

1.5.4 MEDIDAS DE CURTOSIS

Una vez que la asimetría ha sido determinada, podremos preguntarnos si la distribución es más o menos apuntada. Este apuntamiento habrá que medirlo comparándolo con cierta distribución de frecuencias que consideramos normal.

1.5.4.1 COEFICIENTE DE APLASTAMIENTO DE FISHER

Denotamos y definimos el coeficiente de Fisher como

3 s m 4 4 ₋ =

K para una muestra m₄4 ₋3 σ =

K para una población donde m4 es el momento de cuarto orden y K es también una medida adimensional

Atendiendo al valor de K se clasifican las distribucioes de frecuencias en:

Mesocúrtica: cuando K = 0 , es decir si es tan apuntada como la normal. Platicúrtica: cuando K < 0 , es decir es menos apuntada que la normal. Leptocúrtica: cuando K > 0 , es decir es más apuntada que la normal.

Ver figura 1.16

EJEMPLO 1.36

Para el número de empleados de las 10 pequeñas empresas tenemos que

9750 . 0 3 0250 . 2 3 7778 . 1 6 . 3 3 1547 . 1 6 . 3 3 ₄ 4 4 ₋ ₌ ₋ ₌ ₋ ₌ ₋ ₌₋ = s m K

La distribución es levemente platicúrtica.

Leptocúrtica Mesocúrtica Platicúrtica μ Figura 1.16

(36)

EJERCICIOS PROPUESTOS DEL TEMA 1:ESTADISTICA DESCRIPTIVA

1. Escriba la letra correspondiente a la par de cada enunciado en el paréntesis. 1.1. Identifique cual es la muestra (M) y cual es la población (P).

a) Se extrae 100 tornillos de los que produce determinada fábrica en un día determinado ( ) b) Obtenemos las calificaciones de todos los estudiantes de la Facultad de Ciencias

Económicas ( ) c) Obtenemos la información de las horas trabajadas en un día por los obreros de la

Zona Franca. ( ) d) Extraemos dos galones de gasolina de un tanque de 500 galones para que sean

examinados ( ) 1.2. Señale con una A las series constituidas por datos cualitativos (o atributos) y con una V los

datos cuantitativos.

a) Preferencia políticas (izquierda, derecha o centro). ( ) b) Marcas de galletas ( ) c) El peso en libras ( ) d) Velocidad en km/h ( ) e) Nivel educativo (primario, secundario, universitario) ( ) f) Número de empleados de una empresas. ( ) g) Años de antigüedad laboral. ( ) h) La clase social (bajo, media o alta) ( )

1.3. Señale cual de las siguientes variables son continuas ( C ) y cuales son discretas ( D ). a) Cantidad de quintales de café cortados . ( )

b) Cantidad de cajas de fósforos en un determinado conteo físico ( ) c) Galones de gasolina consumidos por un automóvil en una semana ( ) d) Cantidad de camisas vendidas diariamente ( ) e) Tiempo de vida de los bombillos eléctricos ( )

2. Un cobrador de una empresa ha registrado el número de días que tarda en cobrar cada una de sus cuentas de créditos. Se han obtenido los siguientes 30 registros:

17 57 10 35 26 3 21 11 7 72 5 86 6 20 95 40 14 42 12 32 28 13 19 28 45 8 19 21 38 20

a) Construya una distribución de frecuencias que contenga 5 clases. b) Grafique el histograma, el polígono de frecuencias y la ojiva.

c) Calcule la media aritmética, la mediana, la moda, la desviación estándar y el coeficiente de variación. Interprete los resultados.

(37)

3. La gran variedad de factores a considerar en la compra de una vivienda, lugar, precio, tasa de amortización, tipo de construcción y otros hacen que el tiempo que un comprador tarda en llegar a su decisión final sea muy variable. Los siguientes datos representan la duración de la búsqueda (en semanas) de 25 compradores de vivienda en cierta población.

a) Construya un histograma de frecuencias que contenga 6 clases.

b) ¿Qué le dice a usted esta descripción gráfica acerca del tiempo de búsqueda que invierten los compradores de vivienda?

4. Los siguientes datos representan las declaraciones mensuales de impuestos sobre ventas (en miles de córdobas) que los 30 establecimientos comerciales de la ciudad A presentaron ante el correspondiente contralor.

a) Organice los datos anteriores en una distribución de frecuencias que contenga 5 clases. b) Grafique el histograma de frecuencias y la ojiva.

5. La revisión de 8 documentos reveló el siguiente número de equivocaciones en cada uno: 2, 4, 2, 3, 2, 0, 1, 0

Determine:

a) El número promedio de equivocaciones. b) El número mediano de equivocaciones. c) El número modal de equivocaciones.

d) La desviación estándar del número de equivocaciones. 15 17 7 15 20 5 3 19 10 3 11 10 4 8 13 9 15 6 2 8 12 1 2 13 4 9.0 10.3 11.1 9.6 14.5 13.0 6.7 11.0 8.4 10.3 13.0 11.2 7.3 5.3 12.5 8.0 11.8 8.7 10.6 9.5 11.1 10.2 9.9 9.8 11.6 15.1 12.5 14.0 8.6 5.3

(38)

6. Una empresa industrial agrupó sus fábricas de acuerdo con el valor de la producción anual de cada una; se obtuvo la siguiente distribución:

Producción (en millones de C$) No. de fábricas

40-45 7 45-50 10 50-55 11 55-60 9 60-65 8 65-70 7 a) Determine la producción anual promedio de las fábricas. b) Determine la desviación estándar de las producciones. c) Calcule el coeficiente de variación.

d) ¿Por debajo de qué valor producen el 70% de las fábricas?

e) Calcule el coeficiente de asimetría de Pearson y diga qué tipo de asimetría tiene la distribución

7. Durante un período de 15 años, los precios promedios de cierto producto fueron de C$ 125, con una desviación estándar de C$ 25. En un período posterior de 12 años, tuvieron un precio promedio de C$ 80 con una varianza de C$ 100. ¿En qué período hubo mayor estabilidad de precios?.

8. Los salarios por día en dólares de 5 obreros son dados a continuación: 2.50 3.90 3.20 4.20 y 3.70

a) Calcule la suma algebraica de las desviaciones de cada salario con respecto a la media aritmética.

b) Calcule el salario mediano.

9. Dos países A y B venden la misma materia prima en el mercado mundial a los siguientes precio por kilogramo, en el transcurso de 6 meses:

Cotizaciones en C$ por país

M e s A B 1 4.9 2.9 2 5.0 3.8 3 2.6 3.0 4 4.5 3.5 5 2.3 3.7 6 4.1 5.0 Realice un análisis de los precios de este producto para ambos países.

Sugerencia : Compare los coeficientes de variación y diga a qué país se le presentan condiciones de mercado más favorable.

(39)

10. La tabla siguiente muestra la distribución por edades de cabezas de familia en un país dado durante el año 2000.

Edad de años Número (en millones)

Hasta 25 2.22 25 a 30 4.05 30 a 35 5.08 35 a 40 10.45 40 a 45 9.47 45 a 50 6.63 50 a 55 4.16 Más de 55 1.66 a) Determine la edad mediana y modal.

b) ¿Por qué la mediana es una medida más adecuada que la media aritmética en este caso?

11. El contador de un almacén desea estimar el balance promedio, en dólares de las 10,000 cuentas de crédito que maneja el almacén. La distribución de frecuencias se representa en la tabla y fue construida a partir de una muestra de 100 cuentas seleccionadas al azar en los archivos de crédito del almacén.

Balance de la Cuenta N° de cuentas

0 – 20 10 20 – 40 15 40 – 60 40 60 – 80 22 80 – 100 13 100 a) Grafique:

Histograma, Polígono de frecuencias relativa, Polígono de frecuencia acumulada. b) Calcule:

La media aritmética, La mediana, La moda

La varianza, desviación estándar y coeficiente de variación.

c) Calcule el coeficiente de asimetría de Pearson, y diga que tipo de asimetría tiene la distribución.

12. El resultado del ordeño de 100 vacas durante una semana computadas las cantidades diarias de leche obtenidas por cada vaca, fue agrupada según la siguiente distribución.

Cantidad de litros semanales Número de vacas

60-62 5 62-64 18 64-66 42 66-68 27 68-70 8

(40)

Calcule:

1. El rendimiento promedio semanal de leche por vaca. 2. El rendimiento mas frecuente.

3. La cantidad de leche por debajo de la cual produce el 80% de las vacas. 4. La desviación estándar del rendimiento semanal de leche.

5. Calcule el coeficiente de asimetría de Pearson, luego diga que tipo de asimetría tiene la distribución.

13. La tabla de distribución de frecuencia de la tasa de desempleo en una muestra de 20 grandes ciudades en 1999 se presenta a continuación.

Tasa de desempleo N° de ciudades

7.0-7.5 2 7.5-8.0 4 8.0-8.5 5 8.5-9.0 4 9.0-9.5 3 9.5-10 2 20

a) construya el histograma y el polígono de frecuencia acumuladas (ojiva )

b) calcule la media aritmética, la mediana, la moda, la desviación estándar y el coeficiente de variación. Interprete los resultados.

14. Se ha recogido el número de hoteles de lujo en 20 ciudades de un país, obteniéndose la siguiente tabla:

N° de hoteles 0 1 2 3 N° Ciudades 2 3 10 5 a) Represente gráficamente la distribución.

b) Calcule el número promedio de hoteles y la desviación estándar del número de hoteles. c) Calcule el coeficiente de asimetría de Fisher y diga que tipo de asimetría tiene la

distribución.

d) Diga que tan apuntada es la distribución.

15. Los siguientes datos representan el número de interrupciones en 15 días de trabajo debidas a fallas mecánicas en una planta procesadora de alimentos:

3 0 5 1 3 1 3 2 2 0 2 1 2 4 3 a) Resuma los datos en una distribución de frecuencias.

b) Calcule el número promedio de interrupciones y la desviación estándar del número de interrupciones.

c) Calcule el coeficiente de asimetría de Fisher y diga que tipo de asimetría tiene la distribución.

(41)

16. Una autoridad urbana desea diseñar una gráfica que muestre a los contribuyentes que asiten a la próxima reunión, lo que sucede con el dinero que pagan por impuestos. El monto total recolectado es de C$ 2 millones (de córdobas). Los gastos fueron: C$ 440,000 para escuelas, C$ 1160,000 para caminos, C$ 320,000 para administración y C$ 80,000 para suministros. Una gráfica de sectores parece ideal para mostrar el porcentaje de los impuestos que se dedica a caminos, escuelas, administración y suministros. Convierta las cantidades totales a porcentajes del total general y represente los porcentajes en una gráfica de pastel.

17. En el Anuario Estadístico 1997 se señala que el valor total de todos los bienes y servicios producidos en Nicaragua, era de 21 mil millones de córdobas incluyendo todos los sectores de la economía.

Sector económico Porcentaje del PIB de Nic. En 1997

Primarios 21.67 Secundarios 30.48 Terciarios 47.85 T O T A L 100.00 a) Construya una gráfica de barras.

b) Construya una gráfica de pastel.

18. La siguiente tabla refleja el valor de las exportaciones e importaciones en millones de US $ realizadas por Nicaragua de 1993 a 1997.

Años Concepto 1993 1994 1995 1996 1997 Exportaciones 452 412 305 257 295 Importaciones 807 826 892 761 824 a) Construya una gráfica de barras.

(42)

TEMA 2. PROBABILIDADES

OBJETIVOS.

1. Construir espacios muestrales y eventos asociados a un experimento aleatorio.

2. Interpretar el concepto de probabilidad de que ocurra un evento y describir los enfoques de probabilidad.

3. Calcular probabilidades aplicando las reglas de complemento, adición y multiplicación.

4. Calcular probabilidades aplicando los conceptos de probabilidad condicional, regla de la multiplicación e independencia de eventos.

5. Resolver problemas aplicando el teorema de Bayes.

2.1 INTRODUCCION

Debido a l a tolerancia de varias formas de juegos para recreación de la nobleza de Francia e Inglaterra a mediados del XVII, se suscitó un interés intenso por los juegos de azar, lo cual permitió que matemáticos como Blaise Pascal, Pierre de Fermat, Jacob Bernoulli, Abraham de Moire y Thomas Bayes desarrollaran la teoría de las probabilidades.

Como vivimos en un mundo donde somos incapaces de pronosticar el futuro con absoluta certeza, la necesidad de sortear la incertidumbre nos lleva a estudiar la teoría de probabilidades para conocer las reglas que nos permitirán estudiar los fenómenos aleatorios.

En la actualidad la teoría de la probabilidad constituye el fundamento de la Estadística Inferencial, una rama de la Estadística con importantes aplicaciones a situaciones en que interviene la incertidumbre. En tales circunstancias la Estadística Inferencial permitirá hacer estimaciones de parámetros basados en la información muestral. Ver aplicaciones de la Estadística en Auditoría, marketing y Control de calidad.

Comenzaremos este tema estudiando la terminología que usaremos

EXPERIMENTO ALEATORIO (ε)

Es aquel que al repetirse bajo condiciones aproximadamente idénticas el resultado no es necesariamente el mismo.

Podríamos decir que todos los juegos de azar son experimentos aleatorios

Lanzar un dado y observar el número de puntos que aparecen en la cara superior. Elegir al azar un naipe de la baraja común de 52 naipes.

Lanzar una moneda y observar la cara superior.

La característica principal de estos experimentos es la existencia de incertidumbre en el resultado que se puede obtener al realizar el fenómeno.

También existen otros experimentos que son considerados de naturaleza aleatoria:

EJEMPLO 2.1

ε1: Un contador revisa 10 facturas de una empresa. Luego cuenta el número de facturas con algún

error en su valor total.

EJEMPLO 2.2

ε2: De una lista formada por todas las cuentas de ahorro de un Banco, seleccionar al azar una y luego

(43)

EL ESPACIO MUESTRAL ( S ) ASOCIADO A UN EXPERIMENTO

Es el conjunto de todos los resultados posibles del experimento. A cada elemento de este conjunto le llamaremos punto muestral. Para el ejemplo 2.1

S1 = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

Aquí decimos que S1 es un espacio muestral discreto porque sus resultados están representados por

valores que tienen interrupción. Para el ejemplo 2.2

Supongamos una vida máxima registrada en el Banco de 15 años

S2 = ( 0, 15 ]

Aquí S2 es un espacio muestral contínuo porque sus resultados están representados por valores que

no tienen interrupción, es decir , que entre dos resultados posibles siempre existe otro.

EVENTOS

Un evento A respecto a espacio muestral S es un conjunto de resultados posibles del experimento, esto es, A⊆ S

Figura 2.1 Para el ejemplo 2.1

Consideremos que el evento A representa “cuenta a lo más 3 facturas con algún error.” Entonces A = { 0, 1, 2, 3 }

Decimos que un evento A ha ocurrido si el resultado del experimento es un elemento de A. ¿De cuántas maneras puede ocurrir un evento A?

Si #A representa el número de maneras que puede ocurrir el evento A, entonces #A = 4 NOTA. Si S tiene k elementos entonces hay 2k eventos respecto a S

TIPOS DE EVENTOS

Evento imposible

(φ )

Es un evento que nunca ocurre. φ ⊂ S Para el ejemplo 2.1

Supongamos que el evento F representa “cuenta 12 facturas con algún error” , entonces F = φ

S

(44)

Evento seguro

(S )

Es un evento que siempre ocurre. Para el ejemplo 2.1

El evento S1 es un evento seguro.

Evento simple

Es el que describe solamente una carácterística. Para el ejemplo 2.1

El evento A es simple.

Evento conjunto

Es el que describe dos o más características.

El evento conjunto de A y B denotado por A∩B ocurre cuando A y B ocurren juntos. Para el ejemplo 2.1

Supongamos que el evento B representa “cuenta un número impar de facturas con algún error”, esto es,

B = { 1, 3, 5, 7, 9 } Entonces

A∩B representa “cuenta a lo más 3 y un número impar de facturas con algún error.” A∩B = { 1, 3 } es un evento conjunto y #(A∩B) = 2

Figura 2.2

Evento unión

El evento unión de A y B denotado por A∪B es aquel que ocurre si A ocurre ó B ocurre ó si ocurren ambos.

Para el ejemplo 2.1

A∪B representa “cuenta a lo más 3 ó un número impar de facturas con algún error.”

A∪B = { 0, 1, 2, 3, 5, 7, 9 } y #(A∪B) = 7

S

A _B A ∩ B

(45)

Evento complementario

El evento complementario de A denotado por A’ es aquel que ocurre si A no ocurre.

Figura 2.3 Para el ejemplo 2.1

A’ representará lo contrario de A, esto es, A’ representa “cuenta al menos 4 facturas con algún error.”

A = { 4, 5, 6, 7, 8, 9, 10 }

NOTA: A∩A’ = φ y A∪A’ = S

EVENTOS MUTUAMENTE EXCLUYENTES

Dos eventos A y B son mutuamente excluyentes si no pueden ocurrir simultáneamente , esto es, si

A∩B = φ Para el ejemplo 2.2

Supogamos que el evento M representa “la cuenta tiene más de 3 años y 4 meses” y el evento R representa “ la cuenta tiene menos de 5 años.”

Son los eventos M y R mutuamente excluyentes? No porque M∩R ≠ φ

EVENTOS COLECTIVAMENTE EXHAUSTIVOS

Los eventos A1, A2, ..., An son colectivamente exhaustivos si A1∪A2∪ ...∪An = S

Esto es, si por lo menos uno de ellos debe ocurrir durante un experimento. Para el ejemplo 2.2

Supongamos que el evento A1 representa “ la cuenta tiene menos de 1 año” y que el evento

A2 representa “la cuenta tiene por lo menos 1 año.”

Estos eventos son mutuamente excluyentes y colectivamente exhaustivos.

2.2 ENFOQUES DE PROBABILIDAD

El propósito de la teoría de probabilidad es asignar un número a cada evento A, el cual llamaremos probabilidad de que ocurra A y lo denotaremos así

P ( A )

La probabilidad de cualquier evento indicará que tan factible es que ocurra el evento, entre mayor sea la probabilidad, más grande será la factibilidad de que ocurra el evento.

Ahora estaremos interesados en cómo obtener P(A) A’