Conceptos Generales de Estadística (Statistics)

(1)

La Estadística: Es una colección de métodos para planear experimentos, obtener datos y

luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con base en esos datos.

- Se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

- Es el arte y la ciencia de reunir, analizar, presentar e interpretar datos.

Es un cuerpo de métodos y teorías que es aplicado con evidencia numérica, cuando se toman decisiones en presencia o situaciones de incertidumbre.

Estadística Descriptiva (Desciptive Statistics): Es el proceso de recopilación, organización y

presentación de datos de alguna manera que describa con rapidez y facilidad.

- Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

- La estadística descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma seria poco manejable. Esta incluye la tabulación, representación y descripción de conjuntos de datos.

- La estadística es descriptiva cuando los resultados del análisis estadístico no pretende ir más allá del conjunto de datos investigados.

Estadística Inferencial (Inferential Statistics): Implica la utilización de una muestra para

extraer alguna inferencia o conclusión sobre la población correspondiente.

- Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.

La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados.

(2)

Estadística Descriptiva

Obtener datos o recopilación Organizar y resumir Presentar Estadística Inferencial Analizar Interpretar Llegar a conclusiones

Uso de la Estadística en:

- Mercadeo.

- Investigación de mercado. - Encuestas

- Combinación de productos y existencias. - Publicidad.

- Gerencia de Operaciones. - Pronósticos.

- Gestión de Calidad Total (TQM). - Minimización de costos. - Eliminación de desperdicios. - Localización. - Ruta crítica. - Productividad. - Simulación. - Teorías de colas. - Finanzas - Análisis financieros. - Economía. - Análisis económicos.

- Impuestos y Gastos públicos. - Producción nacional.

- Inflación.

- Macroeconomía. - Comercio internacional.

(3)

Conceptos Elementales de Estadística.

Población (Population): Es la colección completa de todos los elementos (puntajes, personas, mediciones, etc.) que se van a estudiar.

- Es una colección completa de todas las observaciones de interés para el investigador. Censo (Census): Es la colección de datos de cada elemento de una población.

Muestra (Sample): Es un subconjunto de elementos extraídos de una población.

- Es una porción representativa de la población, que se selecciona para su estudio porque la población es demasiado grande para analizarla en su totalidad.

Parámetro (Parameter): Es una medición numérica que describe alguna característica de una población.

- Medida descriptiva de la población completa de observaciones que tienen interés para el investigador.

Estadístico (Statistic): Es una medición numérica que describe alguna característica de una muestra.

Variable: Característica de la población que se analiza en el estudio estadístico.

- Característica observable de un aspecto discernible en un objeto de estudio que puede adoptar diferentes valores o expresarse en varias categorías.

Clasificación de las variables.

Según el modo como se presentan estas características o propiedades las variables se pueden clasificar de esta forma:

- Cualitativas o Cuantitativas

- Continuas o discontinuos (discretas) - Dependientes o independientes - Explicadoras o externas

- Generales, intermedias o empíricas

(4)

Se pueden dividir en diferentes categorías que se distinguen por alguna característica no numérica.

Una variable cualitativa se mide por medios no numéricos.

Los datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos o numéricos.

Si la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir los datos cualitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al calcular la proporción de observaciones en cada categoría cualitativa.

Los datos cualitativos son descripciones detalladas de situaciones, eventos, personas, interacciones, conductas observadas y sus manifestaciones.

Variables cuantitativas (Quantitative Data): Son aquellas cuyas características o propiedades pueden presentarse en diversos grados o intensidad y tienen un carácter numérico, como por ejemplo nivel de ingresos, deserción escolar, las calificaciones que los estudiantes reciben en el examen final, el número de kilómetros que recorren los que asisten a la universidad, etc.

Según el número de valores que pueden tomar las variables cuantitativas se distingue variables continuas y discontinuas.

Variables continuas (Continuos – numerical – Data): Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo.

Se pueden obtener de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones.

Variables discontinuas o discretas (Discrete Data): Son las que no pueden tomar valores intermedios entre otros dos valores dados, han de hacerlo siempre con valores enteros, por ejemplo el número de alumnos de una escuela, los socios de una cooperativa, etc.

Se obtienen de un número finito de posibles valores o bien de un número de posibles valores que pueden contarse.

(5)

Consideradas conforme a la posición que une a las variables entre sí, se distingue entre variables dependientes e independientes.

Variables dependientes (Y): Reciben este nombre las variables a explicar, o sea, el objeto de la investigación, que se trata de explicar en función de otros elementos.

Variables independientes (X): Son las variables explicativas, o sea, los factores o elementos susceptibles de explicar las variables dependientes (en un experimento son las variables que se manipulan).

Variables explicadoras: Son las propiedades que interesan directamente al investigador en términos de su modelo.

Variables externas: Son las que están fuera del interés teórico inmediato y que pueden afectar los resultados de la investigación empírica.

Variables generales: Se refieren a realidades no inmediatamente medibles.

Variables intermedias o intervinientes: Expresan algunos aspectos parciales de las variables generales, pero más concretos y cercanos a la realidad.

En algunos casos de análisis de relación causa-efecto, se introducen una o más variables de enlace interpretativo entre las variables dependientes e independientes. Se trata de variables vinculadas funcionalmente a la variable dependiente y a la variable independiente y que producen un efecto en la relación existente entre esas variables.

Variables empíricas: Representan aspectos directamente medibles y observables.

Clasificación de las Variables según el Nivel de Medición

Los datos se reúnen mediante una de las siguientes escala de medición: nominal, ordinal, intervalo y de razón. La escala o nivel de medición permite determinar la cantidad de información que contienen los datos e indica el resumen de los datos y el análisis estadístico más apropiado.

La escala para medir una característica tiene implicaciones en la forma de presentar y resumir la información; también determina el método estadístico escogido para analizar los datos.

Nivel de medición nominal (Nominal level of measurement):

(6)

Nombres o clases que se utilizan para organizar los datos en categorías separadas y distintas.

La escala de medición para una variable es nominal cuando los datos son etiquetas o nombres que se emplean para identificar un atributo del elemento.

Ejemplos:

El sexo de los estudiantes de esta clase de estadística.

Las bebidas gaseosas refrescantes se pueden clasificar en: Coke, Pepsi, 7-Up o Country Club.

La escala de medición es nominal aun cuando los datos son mostrados como valores numéricos.

1. Coke 2. Pepsi 3. 7-Up

4. Country Club

El partido político al que pertenecen los miembros de las cámaras de senadores y diputados del país.

Los datos evaluados en escala nominal en ocasiones suelen llamarse observaciones cualitativas, porque describen una cualidad de la persona o casa estudiada, y observaciones categóricas, si los valores caen en categorías. En general, los datos nominales o cualitativos se describen en términos de porcentajes o proporciones. A menudo se utilizan las tablas de contingencia y las gráficas de barras para mostrar este tipo de información.

Nivel de medición ordinal (Ordinal level of measurement).

La escala de medición para una variable es ordinal si los datos tienen propiedades de datos nominales y el orden de los datos es significativa.

Mediciones que jerarquizan los datos en categorías, ordenadas en virtud de un determinado criterio.

Implica datos que pueden acomodarse en algún orden, pero no es posible determinar diferencias entre los valores de los datos, o tales diferencias carecen de significado.

Los datos para una escala ordinal podrían ser no numéricos o numéricos.

(7)

Ejemplos:

Los productos de un determinado almacén pueden ser clasificados como "buenos", "mejores" y "óptimos".

Un editor califica algunos manuscritos como "excelentes", otros como "buenos" y algunos como "malos". (No podemos encontrar una diferencia cuantitativa específica entre "bueno" y "malo").

La Revista Money clasificación las inversiones a partir de los niveles de riesgos "bajo", "alto" y "muy alto".

Nivel de medición de intervalos (Interval level of measurement).

La escala de medición para una variable es una escala de intervalo si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos.

Es como el nivel ordinal, con la propiedad adicional de que podemos determinar magnitudes de diferencias entre los datos que tienen algún significado. Sin embargo, no hay un punto de partida o cero inherente (natural) en el que la cantidad este totalmente ausente.

Mediciones respecto de una escala numérica en la cual el valor del cero es arbitrario, pero la diferencia de valores es importante.

La escala Fahrenheit de temperaturas es un ejemplo de escala de intervalos: 70 grados no sólo significan una temperatura mayor que 60 grados, sino que existe la misma diferencia de 10 grados que entre 100 y 90 grados Fahrenheit.

Las temperaturas promedian anuales (en grados Celsius) de las capitales de todos los estados de los Estados Unidos.

Los años 1000, 2000, 1776 y 1944.

Nivel de medición de proporción o de razón (Ratio level of measurement).

La Escala de medición para una variable es una escala de razón si los datos tienen todas las propiedades de los datos de intervalos y el cociente de los dos valores es significativo. Variables como distancia, peso, altura y tiempo emplean la escala de razón. Un requisito de esta escala es que puede contener un valor cero que indica que no existe nada para una variable en el punto cero.

(8)

Es el nivel de intervalo modificado para incluir el punto de partida o cero inherente (donde cero indica que nada de la cantidad está presente). Para los valores de este nivel, tanto las diferencias como las razones tienen significado.

De los cuatro niveles de medición, sólo la escala de proporción o de razón se basa en un sistema numérico en el cual el cero tiene sentido. Por consiguiente, las operaciones aritméticas de multiplicación y división también adquieren una interpretación racional.

Mediciones tales como el peso, el tiempo y la distancia se miden en escala de proporción, puesto que el cero ocupa un lugar natural.

Ejemplo:

Distancia (en kilómetros) recorridas por automóviles en una prueba de consumo de combustible.

Longitudes (en minutos) de películas de cine.

Los valores de cada una estas colecciones de datos se pueden acomodar en orden, las diferencias pueden calcularse y existe un punto de partida o cero inherente. Este nivel se denomina "razón" porque el punto de partida hace que las razones o cocientes tengan significado.

Nivel Resumen Ejemplo Observación

Nominal Sólo categorías.

Los datos no pueden acomodarse en un esquema de ordenamiento. Autos de estudiantes: 10 Mercedes Benz 20 BMW 40 Toyota Sólo categorías o nombres

Ordinal Las categorías

están ordenadas, pero no es posible determinar diferencias, o éstas carecen de significado. Vehículos de los estudiantes: 10 compactos 20 medianos 40 grandes Se determina un orden con “compactos, medianos y grandes”.

De Intervalo Se pueden calcular diferencias entre valores, pero no existe un punto de partida inherente. Los cocientes no tienen significado. Temperaturas: 45º C 80º C 90º C 90º no es dos veces más caliente que 45º C.

De Razón Igual que el

(9)

Estudio Experimental: En este estudio primero se identifican las variables de interés. Luego se identifican o controlan una o más variables, de modo que se puedan obtener datos de cómo influyen en la variable de interés. Por ejemplo, a una empresa farmacéutica le puede interesar un experimento para determinar la forma en que una nueva medicina afecta la presión sanguínea.

Es cuando aplicamos algún tratamiento y luego procedemos a observar su efecto sobre los sujetos.

Estudio estadístico No Experimentales u Observacionales: No se trata de controlar las variables de interés, ni de influir sobre ellas. Quizás el tipo más común de estudio observacional es la encuesta. Por ejemplo, para una encuesta personal se identifican primero las preguntas de investigación; a continuación se diseña un cuestionario y se administra a una nuestra de individuos.

En este estudio observamos y medimos características específicas, pero no intentamos manipular ni modificar los sujetos que estamos estudiando.

Muestra: Es un subconjunto de elementos extraídos de una población.

- Es una porción representativa de la población, que se selecciona para su estudio porque la población es demasiado grande para analizarla en su totalidad.

Muestra Aleatoria o Probabilística: Se seleccionan los miembros de la población de modo que cada uno tenga la misma probabilidad de ser escogido.

Son muestras en que los elementos a seleccionar se obtienen con base en la probabilidad. Cada elemento de una población tiene cierta probabilidad de ser elegido como parte de la muestra.

Muestra Aleatoria Simple (Random Sample): Una muestra es seleccionada de modo que todos los elementos de la población tienen la misma probabilidad de ser elegidos. De igual manera, todas las muestras de tamaño n tienen la misma posibilidad de ser elegidas. Las muestras aleatorias simples se obtienen por muestreo con reemplazo en una población finita o por muestreo sin reemplazo en una población sin reemplazo.

Una muestra aleatoria simple de n sujetos se selecciona de tal manera que toda posible muestra de tamaño n tenga la misma probabilidad de ser escogida.

Muestreo Estratificado (Stratified Sampling): Subdividimos la población en por lo menos dos subpoblaciones (o estratos) distintas que comparten categorías (como genero), y luego sacamos una muestra de cada estrato.

(10)

Si los tamaños de muestra de los distintos estratos reflejan la población general, decimos que tenemos un muestreo proporcional.

Muestra que se obtienen al estratificar el marco muestral y luego seleccionar un número fijo de elementos de cada uno de los estratos pro promedio de una técnica de muestreo aleatorio simple.

Muestreo Proporcional: Muestra que se obtienen al estratificar el marco muestral y luego seleccionar de cada estrato un número de elementos en proporción al tamaño de los estratos, por medio de una técnica de muestreo aleatorio simple.

Cuando se extrae una muestra aleatoria proporcional, el marco muestral se subdivide en varios estratos y luego de cada estrato se extrae una sub muestra. Una forma conveniente de expresar el concepto de muestreo proporcional es establecer una proporción. Por ejemplo, “uno de cada 150”, le induce a seleccionar un (1) elemento por cada 150 elementos en el estrato.

Muestreo sistemático (Systematic Sampling): Seleccionamos un punto inicial y luego seleccionamos cada k-ésimo (digamos, cada quincuagésimo) elemento de la población.

La técnica sistemática es fácil de describir y ejecutar; no obstante, conlleva algunos peligros cuando el marco muestral es repetitivo o de naturaleza cíclica. En estas condiciones, puede que los resultados no se aproximen a una muestra aleatoria simple.

Este procedimiento de selección es muy útil e implica elegir dentro de una población N un número n de elementos a partir de un intervalo K. Este último (K) es un intervalo que se va a determinar por el tamaño de la población y el tamaño de la muestra. De manera que tenemos que K = N/n, en donde K = un intervalo de selección sistemática, N = la población y n = la muestra.

Muestreo por cúmulos o conglomerados (Cluster Sampling): Muestreo que se obtiene al muestrear algunas, pero no todas, las subdivisiones posibles que hay dentro de una población. Estas subdivisiones, denominadas conglomerados, a menudo ocurren de manera natural dentro de la población.

Primero dividimos el área de la población en secciones (o cúmulos) y luego seleccionamos aleatoriamente unas cuantas de esas secciones escogiendo todos los miembros de las secciones seleccionadas.

Una diferencia importante entre el muestreo por cúmulos y el estratificado es que en el muestreo por cúmulos se usan todos los miembros de cúmulos seleccionados, mientras que en el muestreo estratificado se usa una muestra de miembros de cada estrato.

(11)

Las muestras son elegidas con base en el hecho de que son típicas.

Cuando se obtiene una muestra de juicio, la persona que elabora la muestra elige unidades que considera representativas de la población. La validez de los resultados de una muestra de juicio refleja la solidez del juicio del recolector de datos.

Error de muestreo: Es la diferencia entre el resultado de una muestra y el verdadero resultado de la población; tal error es consecuencia de las fluctuaciones aleatorias de las muestras.

Error de muestreo: Este error ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma incorrecta. Tal error es consecuencia de una equivocación y no de una fluctuación aleatoria y predispuesta, cuando se usa un instrumento de medición defectuoso, cuando se hacen preguntas predispuestas en una encuesta, cuando mucha gente se niega a responder o cuando se cometen errores al copiar los datos de la muestra.

Sesgo muestral: Tendencia a favorecer la elección de unos determinados elementos de la muestra en detrimento de otros.

(12)

Tabla de Frecuencias y Gráficos Estadísticos (Frequency Tables – Frequency Distribuitions)

Herramientas estadísticas que resultan de particular utilidad para organizar los datos.

Tabla de frecuencia es un resumen tabular de un conjunto datos donde se muestra la frecuencia (o cantidad) del objeto de estudio en cada una de varias clases.

Distribución de Frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías y generalmente se presenta como una tabla.

(13)

TABLA DE FRECUENCIA

CLASES FREC. FREC. FREC .

FREC. MARCA FREC.

LI LS ABS. REL. ABS. REL. DE X MARCA

(14)

Gráficos.

Los Gráficos que pueden proporcionar una representación visual de los datos. HISTOGRAMA (Histogram).

Consiste en una escala horizontal para valores de los datos que se están representando, una escala vertical para las frecuencias, y barras que representan la frecuencia de cada clase de valores.

En el eje horizontal pueden ser colocadas las marcas de clase.

Coloca las clases de una distribución de frecuencia en el eje horizontal y las frecuencias en el eje vertical.

FREC. MARCA FREC.

(15)

HISTOGRAMA DE FRECUENCIA RELATIVA (Relative Frequency Histogram).

Tiene la misma forma y escala horizontal que un histograma, pero la escala vertical se marcara con frecuencias relativas en lugar de frecuencias reales o absolutas.

FREC. MARCA FREC.

(16)

DIAGRAMA DE BARRAS.

Este puede mostrar cantidades o porcentajes para dos o más valores sobre el eje vertical.

Es una forma de gráfica de representar datos cualitativos que se han resumido en una distribución de frecuencias, de frecuencias relativas o porcentuales. Para los datos cualitativos, las barras deben estar separadas para enfatizar el hecho de que cada clase (categoría) es separada.

ANALISIS DE PUNTO DE EQUILIBRIO

CANTIDAD COSTO PRECIO COSTO COSTO PRECIO

UNIDADES UNITARIO FIJO VARIABL

E TOTAL UNITARI O INGRESOS BENEFICI O 10 60 7.500 600 8.100 130 1.300 -6.800 20 60 7.500 1.200 8.700 130 2.600 -6.100 30 60 7.500 1.800 9.300 130 3.900 -5.400 40 60 7.500 2.400 9.900 130 5.200 -4.700 50 60 7.500 3.000 10.500 130 6.500 -4.000 60 60 7.500 3.600 11.100 130 7.800 -3.300 70 60 7.500 4.200 11.700 130 9.100 -2.600 80 60 7.500 4.800 12.300 130 10.400 -1.900 90 60 7.500 5.400 12.900 130 11.700 -1.200 100 60 7.500 6.000 13.500 130 13.000 -500 110 60 7.500 6.600 14.100 130 14.300 200 120 60 7.500 7.200 14.700 130 15.600 900 130 60 7.500 7.800 15.300 130 16.900 1.600 140 60 7.500 8.400 15.900 130 18.200 2.300 150 60 7.500 9.000 16.500 130 19.500 3.000 160 60 7.500 9.600 17.100 130 20.800 3.700 170 60 7.500 10.200 17.700 130 22.100 4.400 180 60 7.500 10.800 18.300 130 23.400 5.100 190 60 7.500 11.400 18.900 130 24.700 5.800 Relacion Ingresos/Costos 0 10000 20000 30000 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200

Unidades Producidas y Vendidas

(17)

DIAGRAMA DE TALLO Y HOJAS (Steam-and-Leaf Plots).

Frequency Stem Leaf

(18)

POLIGONOS DE FRECUENCIA Y POLIGONO DE PORCENTAJE (Frequency Poligon). El proceso de construcción de un polígono de frecuencias es similar al del histograma excepto que sólo un punto sobre el punto medio de cada intervalo se utiliza para indicar la frecuencia y los puntos adyacentes se conectan mediante segmentos de líneas.

FREC. MARCA FREC.

(19)

GRAFICA DE SERIES DE TIEMPO (The Time Series Plot).

Es una gráfica de línea en la que la línea base representa el tiempo.

ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR, POR INSTITUCION.

(20)

CURVA DE OJIVA (Ogive for cumulative relative frequency).

Es una gráfica de una distribución acumulada. Los valores de los datos están en el eje horizontal y las frecuencias acumuladas, frecuencias relativas acumuladas se muestran en el eje vertical.

FREC. MARCA FREC.

(21)

DIAGRAMA DE PARETO.

Es una gráfica de barras en la que las barras se acomodan en orden según la frecuencia. Al igual que los histogramas, las escalas verticales de los diagramas de Pareto pueden representar frecuencias o frecuencias relativas.

En este la barra más alta queda a la izquierda, y la más pequeña a la derecha.

Problemas o defectos en Botas

Razón de defecto Total % Acumulado Porcentaje

Reventado de Piel 369 50.00 0.50

Costuras fallas 135 68.29 0.18

Mal montada 135 86.59 0.18

Piel arrugada 99 100.00 0.13

(22)

DIAGRAMA CIRCULAR, DE SECTORES O TORTAS (Pie Chart).

Es de especial utilidad para mostrar proporciones (porcentajes) relativas de una variable. Se utiliza para representar variables cualitativas.

Por ejemplo si una determinada categoría representa el 57.8% del total de los datos u observaciones, el ángulo central deberá ser de 0.578 x 360º = 208º.

FREC. MARCA FREC.

(23)

PICTOGRAMA (Pictographs).

Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado en diferentes escalas un mismo dibujo.

La escala de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Se utiliza para representar variables cualitativas.

DIAGRAMA DE DISPERSION O DISPERSIOGRAMA (Scatter Diagram).

Hay ocasiones en que tenemos datos apareados de manera que se establece una correspondencia entre cada valor de un conjunto de datos y un valor de un segundo conjunto de datos.

Un diagrama de dispersión es una gráfica de los datos (x,y) apareados con un eje "x" horizontal y un eje "y" vertical.

En un diagrama de dispersión cada marca (punto o raya) representa la intersección de dos valores - hay una marca para cada par de observaciones de los temas. El propósito principal de la gráfica es mostrar de manera gráfica la relación entre dos. La relación no es lineal sino curvilínea.

CAMPAÑA PUBLICITARIA PARA VENTAS DE PASAJES AEREOS

(24)

Pasajes Aereos vendidos en base a la publicidad

(25)

Medidas de Tendencias Central (Measure of Central Tendency)

Una medida de tendencia central es un valor que está en el centro o punto medio de un conjunto de datos.

Es una medida que ubica e identifica el punto alrededor del cual se centran los datos. Es un valor numérico que localiza, de alguna manera el centro de un conjunto de datos.

La Media Aritmética (Mean)

La Media Aritmética o Promedio de un conjunto de puntajes es el valor que se obtiene sumando los puntajes y dividiendo el total entre el número de puntajes.

La media es el punto que menos dista de todas las observaciones. Por esta razón a veces se le considera como el centro de gravedad de los datos.

La media es una medida más confiable que la mediana y la moda, porque tiene un menor error de muestreo. Además la media también tiene más facilidad para un tratamiento estadístico posterior que la mediana o la moda.

Es una medida que toma en consideración todos los valores de la distribución. Esto es positivo, pero por la misma razón es muy sensible a la presentación de observaciones extremas que hacen que la media se desplace hacia ellas. En consecuencia no es recomendable usar la media como medida de tendencia central en estos casos, pues la cantidad obtenida no es representativa del total de los datos.

Tiene la ventaja de que es la única y siempre se puede calcular. Pero cuando se trabaja con datos agrupados, la división en intervalos influye en el valor resultante de la media.

La media es el estadístico de centralización más utilizado para realizar inferencias debido a una buena propiedad matemática que posee: es el centro de gravedad de la distribución. Depende de todas y cada una de las observaciones.

El valor de la media puede no coincidir con uno de los valores de la variable. Si consideramos una variable discreta, por ejemplo, “número de hijos en las familias de un barrio” el valor de la media puede resultar x’=2.5 hijos, que no pertenece al conjunto de valores de la variable.

La media es el promedio más utilizado. Para datos no agrupados:

(26)

Para datos agrupados:

Media  = *M/n=M/=(1*M1+2*M2+...n*Mn)/

La Mediana o Media Posicional (Median)

La Mediana o Media Posicional de un conjunto de puntajes es el valor que está en medio, cuando los puntajes se acomodan en orden de magnitud creciente (o decreciente).

La mediana deja a un lado y al otro lado de la distribución el mismo número de observaciones.

Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello, es adecuado su uso en distribuciones que presentan observaciones extremadamente grandes o pequeñas.

La mediana es la medida de localización que se utiliza con más frecuencia para datos de ingreso anual y valores catastrales, pues con unos pocos ingresos o con propiedades extremadamente grandes se puede inflar la media. En esos casos, la mediana es una mejor medida de la tendencia central.

La mediana es el valor de la variable que deja por encima y por debajo la misma cantidad de datos (una vez que éstos han sido ordenados de menor a mayor). Al contrario de la media, en su cálculo no interviene más que el valor (o valores centrales). Esta particularidad ofrece:

Ventajas: No se ve afectada por la aparición de observaciones anómalas. Por ello, en tales casos la podemos considerar como una medida más representativa de la mayor parte de los datos que la media.

Inconvenientes: No utiliza toda la información de los datos (sólo los valores centrales). Para datos no agrupados:

Posición de la Mediana = (n + 1)/2

1.- Si el número de puntajes es impar, la mediana es el número que está situado exactamente a la mitad de la lista.

(27)

Para datos agrupados:

Me = LImd + [(n/2 - F)/fmd] (C) md = clase mediana

Clase Mediana es la clase cuya frecuencia acumulada es mayor que o igual a n/2. LImd = límite inferior de la clase de la mediana.

F = frecuencia acumulada de la clase que antecede a la clase de la mediana.

fmd = es la frecuencia de la clase de la mediana.

C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).

La Moda (Mode)

La Moda de un conjunto de datos es el puntaje que ocurre con más frecuencia. La observación modal es la observación que ocurre con mayor frecuencia. Es el punto donde se concentra el mayor número de observaciones.

Se puede calcular para todo tipo de variables, incluidas las cualitativas.

Puede no ser única. Cuando hay dos o más modas hablamos de distribuciones bimodales o plurimodales respectivamente.

Para datos no agrupados: Mo = Mayor Frecuencia Para datos agrupados:

Mo = LImo + [1/(2+1)]*(C) mo = clase modal

Clase Modal es la clase que tiene la mayor frecuencia. LImo = límite inferior de la clase modal

1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede. 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue.

(28)

La Media Ponderada

Media Ponderada: Media de una colección de puntajes a los que se asignado diferentes grados de importancia.

Media Ponderada w = (X*W)/W

W = es el peso o ponderación asignada a cada Observación. La Media Geométrica

Media Geométrica puede utilizarse para mostrar los cambios porcentuales en una serie de números positivos.

La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de números.

MG = X1*X2*X3*...Xn

La media geométrica se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a través del tiempo.

TAREA: RELACION ENTRE LA MEDIA, MEDIANA Y MODA. VENTAJAS Y DESVENTAJAS

OBSERVACIONES PARA EL USO DE LAS MISMAS. Observaciones:

1. La media se usa para datos numéricos y distribuciones simétricas (no sesgadas o cargadas).

2. La mediana se utiliza para datos ordinales o para datos numéricos si la distribución está cargada o sesgada.

3. La moda se utiliza principalmente para distribuciones bimodales.

Elección de los procedimientos estadísticos o pruebas:

Datos nominales Moda

Datos ordinales Mediana, moda

(29)

MEDIA ARITMETICA: Para datos no agrupados:

Media Poblacional  = Xi/N =(X1 + X2 + X3...XN)/N _

Media Muestral  = Xi/n=(X1 + X2 + X3...XN)/n Para datos agrupados:

_

Media  = *M/n=M/=(1*M1+2*M2+...n*Mn)/ MEDIANA

Para datos no agrupados:

Posición de la Mediana = (n + 1)/2 Para datos agrupados:

Me = LImd + [(n/2 - F)/fmd] (C) md = clase mediana

Clase Mediana es la clase cuya frecuencia acumulada es mayor que o igual a n/2. LImd = límite inferior de la clase de la mediana.

F = frecuencia acumulada de la clase que antecede a la clase de la mediana. fmd = es la frecuencia de la clase de la mediana.

C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).

MODA

Para datos no agrupados: Mo = Mayor Frecuencia Para datos agrupados:

Mo = LImo + [1/(2+1)]*(C) mo = clase modal

Clase Modal es la clase que tiene la mayor frecuencia. LImo = límite inferior de la clase modal

1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede. 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue.

(30)

Medidas de Dispersión o Variabilidad (Measures of Variation).

Las medidas de dispersión miden que tanto se dispersan las observaciones alrededor de su media. El propósito de estas es cuantificar el grado de variación entre el conjunto de valores de una distribución.

La variabilidad se refiere a que tan grandes son las diferencias entre los valores evaluados.

EL RANGO O RECORRIDO – INTERVALO (Range).

Es la medida de dispersión más simple y menos útil. Esta se obtiene de la diferencia entre la observación más alta y la más baja.

Re = X máx – X mín VALORES DE DESVIACION.

Para la variabilidad, se consideran las diferencias entre la media y cada valor. Estas diferencias se llaman valores de desviación.

Valores de desviación = X- _

Valores de desviación = X-X

VARIANZA (Variance). Es el promedio de las observaciones respecto a su media elevadas al cuadrado.

Es la media de las diferencias cuadráticas de N puntuaciones en relación a su media aritmética.

La varianza es útil para comparar la dispersión, o variabilidad, de dos conjuntos de tatos. Al comparar conjuntos de datos, el que tiene mayor varianza tiene mayor dispersión o variabilidad.

La Varianza para una Población (² = suma de cuadrados). ²=[(Xi-)²]/N

²  0

Procedimiento para calcular La Varianza para una Población (² = suma de cuadrados) 1. Encuentre la desviación de cada valor de la media: Valores de desviación = X- 2. Eleve al cuadrado cada valor de desviación: (Xi-)²

3. Realice la sumatoria de cada valor de desviación elevado al cuadrado: (Xi-)² 4. Encuentre la varianza dividiendo la sumatoria anterior entre N (totalidad de las

observaciones).

La Varianza para una muestra de datos no agrupados (s²). _

(31)

La Varianza de la muestra de datos agrupados (s²). _

s²=[M²-nX²]/n-1

LA DESVIACION ESTANDAR (Standard Deviation). Es el promedio de desviación de las puntuaciones con respecto a la media. Esta medida se expresa en las unidades originales de medición de la distribución. Cuanto mayor sea la dispersión de los datos alrededor de la media, mayor será la desviación estándar.

Es la raíz cuadrada de la varianza. Es una medida importante de la dispersión de los datos.

Esta regresa a la medición de los valores originales, así tiene más valor descriptivo directo.

La desviación estándar es más útil para describir la variabilidad de un conjunto de datos que la varianza. La desviación estándar lleva las mismas unidades que los valores originales.

La Desviación Estándar para una población. =²

La Desviación Estándar para una muestra. s=s²

La Desviación Media o Absoluta (Mean Deviation).

Se define como el promedio de la suma de las diferencias en valor absoluto de los valores de la variable con respecto a la media.

_ Desviación media= |Xi-X|/n Coeficiente de Variación.

Este sirve como medida relativa de dispersión. Determina el grado de dispersión de un conjunto de datos relativo a su media.

(32)

Los Cuantiles (Measures of Position).

Cuando los valores ordenados de una variable han de ser divididos en grupos homogéneos en cuanto al tamaño, se suelen utilizar los cuantiles.

Entre los cuantiles más utilizados se encuentran: Los cuartiles Q (Quartiles)

Los deciles D (Deciles) Los percentiles P (Percentiles) Cuartiles.

Así como la mediana divide los datos en dos partes iguales, los tres cuartiles, denotados por Q1, Q2 y Q3, dividen los puntajes clasificados en cuatro partes iguales. (Los puntajes se clasifican cuando se acomodan en orden). A grandes rasgos:

Q1 separa el 25% inferior de los puntajes clasificados del 75% superior; - al menos el 25% de los datos es <= Q1

- al menos el 75% de los datos es >= Q1 - N/4 = 25

- Q1 = P25

Q2 es la mediana; - 2N/4 = 50 - Q2 = P50

Q3 separa el 25% superior del 75% inferior - al menos el 75% de los datos es <= Q3 - al menos el 25% de los datos es >= Q3 - 3N/4 = 75

- Q3 = P75 Los Deciles.

Hay nueve deciles, denotados por D1, D2, D3, D4, D5, D6, D7, D8, D9, que dividen los datos en 10 grupos con aproximadamente el 10% de los datos en cada grupo.

El primer decil es la observación debajo de la cual se encuentra el 10% de las observaciones, mientras que el 90% restante se encuentra encima de este.

(33)

D1 = P10 D2 = P20 D3 = P30 : . D9 = P90 Los Percentiles.

Hay 99 percentiles (P1, P2, P3 ... P99), que dividen los datos en 100 grupos con aproximadamente el 1% de los puntajes en cada grupo.

- al menos el 1% de los datos es <= P1 - al menos el 99% de los datos es >= P1 Ubicación de un Percentil.

Lp = (n + 1) (P/100)

Lp es el sitio del percentil deseado en una serie ordenada. n es el número de observaciones

P es el percentil deseado Percentil de un puntaje.

Percentil del puntaje x = número de puntajes menores que x . 100 número total de puntajes

Otras Medidas de Tendencia Central con los Cuantiles. intervalo intercuartiles = Q3 - Q1

intervalo semiintercuartiles = Q3 - Q1 (desviación del cuartil) 2 cuartil medio = Q3 + Q1

2

(34)

Los cuartiles (Q) para datos agrupados

FREC. MARCA FREC.

(35)

CUARTILES Q1 VALOR QUE OCUPA N/4 Q2 VALOR QUE OCUPA 2N/4 Q3 VALOR QUE OCUPA 3N/4

DECILES D1 VALOR QUE OCUPA N/10

D2 VALOR QUE OCUPA 2N/10 D9 VALOR QUE OCUPA 9N/10

PERCENTILES P1 VALOR QUE OCUPA N/100

(36)

Usos frecuentes de la desviación estándar.

Teorema de Chebyshev (matemático ruso P.L. Chebyshev 1821-1894)

La proporción (o fracción) de cualquier conjunto de datos que queda a menos de K desviaciones estándar de la media siempre es al menos 1 - 1/K², donde K es cualquier numero positivo mayor que 1. Para K = 2 y K = 3, obtenemos los dos resultados específicos siguientes:

- Al menos 3/4 (o el 75%) de todos los puntajes quedan a menos de 2 desviaciones estándar de la media (x-2s a x+2s).

(37)

La distribución normal (o gaussiana) y la regla empírica.

La distribución normal es una distribución de datos continuos (*) (no discretos) que produce una curva simétrica en forma de campana.

La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812.

La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por:

- Es unimodal.

- Es simétrica (la simetría es perfecta).

- La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha.

- La asimetría de la distribución es cero.

- Las colas de la curva se aproximan más, pero nunca tocan, el eje horizontal. - La media, la mediana y la moda son iguales.

- La mitad de las observaciones está por encima de la media y la mitad está por debajo. - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá.

(*) Variables continúas:

Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo.

Se pueden obtener de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones.

La Regla Empírica o Regla 68-95-99. Esta regla solo aplica a un conjunto de datos cuya distribución tiene aproximadamente forma de campana. Esta afirma que:

- Cerca del 68.26% de todos los puntajes u observaciones queda a menos de una desviación estándar de la media.

- Cerca del 95.44% de todos los puntajes u observaciones queda a menos de dos desviaciones estándar de la media.

(38)

Distribuciones de Datos Sesgadas (Skewness).

Una distribución de datos esta sesgada, si no es simétrica y se extiende más hacia un lado que hacia otro.

Sesgo describe la falta de simetría en una distribución.

Los datos sesgados a la izquierda se dice que tienen sesgo negativo; la media y la mediana están a la izquierda de la moda. Generalmente tiene la media a la izquierda de la mediana.

Sesgo negativo (Negatively Skewed Distribution) describe distribuciones asimétricas en la que la mediana excede a la media; la cola de la distribución es hacia los valores bajos.

Los datos sesgados a la derecha se dice que tienen sesgo positivo; la media y la mediana están a la derecha de la moda.

Sesgo positivo (Positively Skewed Distribution) describe distribuciones asimétricas en las que la media excede la mediana; los valores se alargan hacia los valores altos.

En ambos casos, la moda es por definición la observación que ocurre con mayor frecuencia, por tanto esta en el pico de la distribución.

Observaciones:

1. Si la media y la mediana son iguales, la distribución de los resultados suele ser simétrica.

2. Si la media es mayor que la mediana, la distribución se carga a la derecha. 3. Si la media es menor que la mediana, la distribución se carga a la izquierda. Coeficiente de Sesgo de Pearson.

P = 3 (Media - Mediana) s

Si P < 0, los datos están sesgados a la izquierda. Si P > 0, los datos están sesgados a la derecha. Si P = 0, los datos están distribuidos normalmente.

(39)

SPSS Statistics Base 17/22

Pasos para construir una tabla de Frecuencia en SPSS 17/22.

1. Crear la Base de Datos o Conjuntos de observaciones o puntajes que desea agrupar. (Leer el Capítulo 5 del Manual de SPSS Statistics Base 17. 2. Opción del menú Transformar.

3. Opción Agrupación Visual.

4. Seleccionar la Variable a transformar. => SALARIOS 5. Crear nueva “Variable agrupada”. => SALARIOS1

6. Establecer los Límites Superiores (Intervalos cerrados o abiertos – Incluidos <= o Excluidos <).

7. Crear puntos de corte.

 Posición del primer punto de corte. Min+Anchura-1 o Min.+Anchura. Primer LS => 209

 Número de puntos de corte, Número de Clases – 1. #Clases = 10 => #Cortes = 10 – 1.

 Anchura.

8. Crear etiquetas – Crear las clases. 9. Aceptar.

10. Se visualiza la nueva “Variable agrupada” SALARIOS1 Pasos para visualizar una tabla de Frecuencia en SPSS 17/22.

1. Después de crear la “Variable agrupada”. 2. Seleccionar la opción del Menú Analizar. 3. Seleccionar la opción Estadísticos descriptivos. 4. Seleccionar la opción Frecuencias.

5. Seleccionar la Variable agrupada SALARIOS1.

6. Seleccionar los Estadísticos… Todos y Percentiles deseados. 7. Seleccionar los gráficos…

Tomar como ejemplo el archivo (file) demo_cs que se encuentra en:

(40)

Ejercicios Propuestos. Calcule los modelos de tendencia central, represente gráficamente cada situación e interprete los resultados.

Caso I.

El precio que acostumbran a pagar 500 usuarias de un determinado producto aparece en la siguiente tabla:

NUMERO DE

PRECIOS PRECIOS USUARIAS

5.05 10.05 38 10.05 15.05 167 15.05 20.05 143 20.05 25.05 92 25.05 30.05 37 30.05 35.05 17 35.05 40.05 6

1. Construya una tabla de frecuencia. 2. ¿Cuál es el precio más representativo?

3. ¿Cuál es el precio que representa al sector socioeconómico que está equidistante de los sectores extremos?

4. ¿Cuál fue el precio que más pagaron estas usuarias? 5. Grafique un diagrama circular.

6. Grafique un Histograma. Caso II.

Se considera la distribución de los ingresos mensuales de una muestra de directores de enseñanza básica, según muestra la siguiente tabla:

NUMERO DE INGRESOS DIRECTORES 7,000.00 7,999.00 6 8,000.00 8,999.00 6 9,000.00 9,999.00 10 10,000.00 10,999.00 18 11,000.00 11,999.00 30 12,000.00 12,999.00 25 13,000.00 13,999.00 40 14,000.00 14,999.00 80 15,000.00 15,999.00 15

1. Construya una tabla de frecuencia.

2. ¿Cuál es el ingreso más representativo de estos directores?

3. ¿Cuál es el ingreso que representa a los directores están equidistantes de los extremos? 4. ¿Cuál es el ingreso que más recibieron los directores?

5. Grafique una curva de ojiva.

(41)

Caso III.

Una organización está por revisar el monto que los estudiantes invierten en textos cada semestre. Cincuenta estudiantes reportaron las cantidades aproximadas en dólares:

DOLARES NUMERO DE INVERTIDOS ESTUDIANTES 100 124 8 125 149 11 150 174 8 175 199 6 200 224 10 225 249 6 250 274 1 TOTALES 50

2. ¿Cuál es la cantidad de dinero invertida que más representa a todos los estudiantes? 3. ¿Cuál es la inversión más común entre los estudiantes?

4. ¿Cuál sería la cantidad que representa la mitad de la inversión de todos los estudiantes?

5. Grafique un diagrama circular. 6. Grafique un Histograma. 7. Grafique una curva de ojiva. Caso IV.

Un analista de la Secretaría de Estado de Trabajo está evaluando los sueldos de los empleados dominicanos para recomendar un reajuste salarial. Para esto tomo una muestra de 140 empleados, en base a la siguiente tabla:

SUELDOS

USA$ USA$ EMPLEADOS

305 609 65 610 914 30 915 1,219 22 1,220 1,524 10 1,525 1,829 5 1,830 2,134 3 2,135 2,439 2 2,440 2,744 2 2,745 3,049 1 TOTALES 140

2. ¿Cuál es el sueldo más representativo de estos empleados? 3. ¿Cuál es el sueldo que representa la mitad?

(42)

6. Grafique un Polígono de frecuencia.

7. Usando el coeficiente de sesgo de Pearson determine si está sesgada. 8. ¿Cómo está sesgada? ¿Por qué?

9. ¿Es simétrica? ¿Por qué?

10. ¿Es una distribución normal? ¿Por qué? Caso V.

Un estudiante de quinto semestre de administración de empresas está cursando 5 asignaturas, y estos estiman obtener las siguientes calificaciones:

ASIGNATURA NOTA LETRA CREDITOS

CONTABILIDAD DE COSTOS 80 B = 3 5

INTR. AL DERECHO LABORAL 90 A = 4 3

METODOS CUANTITATIVOS 85 B = 3 4

METODOG. DE LA INVESTIGACION 95 A = 4 3

MERCADEO II 90 A = 4 3

Determine cuál será el índice académico del semestre. Caso VI.

Un fabricante de circuitos eléctricos ha producido el siguiente número de unidades en los siguientes años:

1995 1996 1997 1998 1999

12,500 13,250 14,310 15,741 17,630

1. Calcule el incremento porcentual de cada año con relación al anterior.

2. Determine la media tomando en consideración los incrementos porcentuales. Caso VII.

Un inversionista extranjero está interesado en ingresar en algún sector económico de la República Dominicana, para ello seleccionó 4 sectores y así evaluar su comportamiento. Este se basó en los datos del Banco Central de la R. D. según el informe de la economía dominicana ene-dic 1999 del producto interno bruto (PIB) durante los años 1995-1999. Estos sectores crecieron de la siguiente manera:

SECTORES 1995 1996 1997 1998 1999

MANUFACTURA 839.4 866.4 929.9 987.5 1053.6

COMERCIO 554.8 603.9 661.9 733.4 800.1

COMUNICACIONES 159.7 185.7 221.5 267 308.7

HOTELES, BARES Y REST. 259.4 292.6 343.6 359.7 395.6

1. Tomando como base la tasa de crecimiento porcentual promedio de cada sector, ¿en cuál sector usted le recomendaría invertir?

2. Haga un diagrama de serie de tiempo que represente simultáneamente todos los sectores.

Caso VIII.

Calcule la desviación estándar de los siguientes tiempos de espera (en minutos) de los clientes del Banco BHD, basados en una muestra. Calcule la Mediana y la Moda.

(43)

Caso IX.

Se utilizan dos procesos para producir discos de computadoras, pero han surgido problemas respecto a la variación en los tamaños de tales discos. Con base en los datos de muestra aquí presentados de ocho tamaños de discos en pulgadas para cada proceso. Explique en cuál proceso aconsejaría usted si su objetivo es minimizar la desviación en el tamaño de los discos. PROCESO I PROCESO II 3.41 3.22 3.81 3.26 3.74 3.06 3.26 3.79 3.89 3.65 3.07 3.14 3.65 3.33 3.35 3.51 Caso X.

Los salarios en miles de dólares de los directores ejecutivos de las mejores corporaciones de los Estados Unidos de América reportados por la edición de la revista Forbes de la edición del 24 de mayo de 1997 aparecen en la siguiente tabla de frecuencias:

SALARIOS DIRECTORES

(EN MILES DE US$) EJECUTIVOS

90 439 6 440 789 8 790 1,139 10 1,140 1,489 12 1,490 1,839 10 1,840 2,189 8 2,190 2,539 6 TOTALES 1. Haga un Histograma.

2. ¿Cuál es el salario más común de los directores ejecutivos? 3. Haga un Diagrama Circular e Interprételo.

4. Determine si está sesgada.

5. ¿Cuál es el salario que está equidistante de los dos extremos? 6. ¿Es una distribución normal? ¿Por qué?

7. Represente gráficamente si es normal o el sesgo. 8. Compruebe si se cumple la regla empírica. Caso XI.

(44)

BANCO CENTRAL DE LA REPUBLICA DOMINICANA

Departamento de Cuentas Nacionales y Estadísticas Económicas

PRODUCTO INTERNO BRUTO POR SECTORES DE ORIGEN 1996-2002 Millones de RD$ Sectores 1996 1997 1998 1999 2000 2001* 2002* CONSTRUCCIÓN 702.1 826.2 872.8 876.9 904.9 COMERCIO 603.9 664.2 743.3 805.7 875.8 885.0 915.1 COMUNICACIONES 185.7 221.5 266.7 308.3 355.7 442.0 518.9 ELECTRICIDAD 106.0 120.7 130.5 139.5 165.1 178.0 FINANZAS 228.8 236.2 245.7 256.0 264.4 271.9 279.7 TASAS DE CRECIMIENTO (%) SECTORES 97/ 96 98/97 99/98 00/99 01/00* 02/01* CONSTRUCCIÓN 17.7 5.6 0.5 3.2 COMERCIO 10.0 11.9 8.4 8.7 1.1 3.4 COMUNICACIONES 19.3 20.4 15.6 15.4 24.2 17.4 ELECTRICIDAD 13.8 8.1 7.0 18.3 7.8 FINANZAS 3.2 4.0 4.2 3.2 2.8 2.9

1. Tomando como base la tasa de crecimiento porcentual promedio de cada sector, ¿en cuáles sectores usted le recomendaría invertir?

2. Haga un diagrama de serie de tiempo que represente simultáneamente todos los sectores.

Caso XII.

Un analista de la Secretaría de Estado de Trabajo está evaluando los sueldos de los empleados dominicanos en la rama “Industrias y Manufactureras” para recomendar un reajuste salarial. Para esto tomo una muestra de 464 empleados, en base a la siguiente tabla:

Ingresos por rama de actividad económica según el Banco Central Fuente: Encuesta Nacional de Fuerza de Trabajo, Abril 2002. Ingresos por Hora

(RD$) Empleados 6 9 18 10 13 35 14 17 60 18 21 61 22 25 64 26 29 53 30 33 48 34 37 49 38 41 36 42 45 40

(45)

3. ¿Cuál es el sueldo que representa la mitad? 4. ¿Cuál es el sueldo más común?

5. Grafique un Polígono de frecuencia

6. Usando el coeficiente de sesgo de Pearson determine si está sesgada. 7. ¿Cómo está sesgada? ¿Por qué?

8. ¿Es una distribución normal? ¿Por qué? Diga 5 razones. Caso XIII.

El informe Nielsen sobre Tecnología Domestica (20 de febrero de 1996) describió las tecnologías caseras y su empleo por parte de personas de 12 años o más. Los datos siguientes son las horas de empleo de computadoras personales durante una semana, para una muestra de 50 personas. 4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7 3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5 4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6 10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7 7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1 Resuma estos datos formando:

a. Construya una tabla de distribución de frecuencias, empleando anchura de clase igual a 3 horas.

b. Un histograma. c. Una Ojiva.

d. Un diagrama circular. e. Un Polígono de Frecuencia.

f. Haga comentarios acerca de lo que indican los datos respecto al uso de computadoras en el hogar.

g. ¿Cuál es el tiempo más empleado? h. ¿Qué tiempo está a la mitad?

(46)

Caso XIV.

Los sueldos de los dominicanos expresados en dólares USA$ oscilan dentro de la siguiente distribución de valores: 105 305 505 705 905 1,105 1,305 1,505 1,705 1,905 2,105 2,305 145 345 545 745 945 1,145 1,345 1,545 1,745 1,945 2,145 2,345 185 385 585 785 985 1,185 1,385 1,585 1,785 1,985 2,185 2,385 225 425 625 825 1,025 1,225 1,425 1,625 1,825 2,025 2,225 2,425 265 465 665 865 1,065 1,265 1,465 1,665 1,865 2,065 2,265 2,465

1. Determine los cuartiles Q1, Q2 y Q3 2. Determine el percentil 70

3. Determine el sexto decil

4. Determine la desviación del cuartil

5. Determine el percentil del valor US$1,425 6. Determine la mediana

Caso XV.

Los salarios inicial para recién graduados de licenciatura en contabilidad, durante 1996 y 1997, fue US$30,393 (US Online, U.S. News and World Report, diciembre 1997). A continuación vemos una muestra de salarios iniciales, en miles de dólares.

30.7 28.8 29.1 31.1 30.1 29.7 30.7 30.0 30.6 30.5 31.2 32.1 30.2 30.3 32.9 32.2 29.9 28.9 30.6 31.8 32.2 30.3 30.4 32.3 33.3 32.7 29.3 30.3 30.9 30.3

a. ¿Cuál es el salario promedio inicial para datos no agrupados? b. ¿Cuál es la mediana de salario inicial para datos no agrupados? c. ¿Cuál es la moda de salario inicial para datos no agrupados? d. ¿Cuál es el primer cuartil?

e. ¿Cuál es el segundo cuartil?

f. ¿Condicen estos resultados con lo que afirma U.S. News & World Report? Caso XVI.

Dos modos que usan los empleados para ir a trabajar diariamente son el transporte público y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras son en minutos.

Transporte

público 28.0 29.0 32.0 37.0 33.0 25.0 29.0 32.0 41.0 34.0 Automóvil 29.0 31.0 33.0 32.0 34.0 30.0 31.0 32.0 35.0 33.0

a. Calcule la media de la muestra del tiempo que se lleva en cada modo de transporte. b. Calcule la desviación estándar de la muestra para cada modo de transporte.

(47)

Caso XVII.

Como estadístico residente en Air Santo Domingo, el director de análisis estadístico le pide recolectar y agrupar los datos sobre el número de pasajeros que han decidido viajar con Air Santo Domingo. Tales datos correspondientes a los últimos 50 días aparecen en la tabla siguiente. Sin embargo, con estos datos en bruto, es improbable que el director pueda obtener información útil y significativa respecto a las operaciones de vuelo. Los datos no están organizados y es difícil llegar a una conclusión significativa simplemente revisando una serie de números anotados en un papel. Es preciso agrupar y presentar los datos de manera concisa y reveladora para facilitar el acceso a la información que contienen.

68 71 77 83 79 72 74 57 67 69 50 60 70 66 76 70 84 59 75 94 65 72 85 79 71 83 84 74 82 97 77 73 78 93 95 78 81 79 90 83 80 84 91 101 86 93 92 102 80 69 9. Haga un Histograma.

10. ¿Cuál es el número de pasajeros que ocurre con más frecuencia? 11. ¿Qué tan dispersos están los datos?

12. Haga un Diagrama Circular e Interprételo. 13. Determine si está sesgada.

14. ¿Qué cantidad de pasajeros está equidistante de los dos extremos? 15. ¿Es una distribución normal? ¿Por qué?

16. Represente gráficamente si es normal o el sesgo. Caso XVIII.

En Aeromar se aceptaron reservaciones telefónicas de vuelos. En la tabla siguiente vemos las duraciones de las llamadas en minutos, para una muestra de reservaciones telefónicas.

2.1 4.8 5.5 10.4 3.3 3.5 4.8 5.8 5.3 5.5 2.8 3.6 5.9 6.6 7.8 10.5 7.5 6.0 4.5 4.8

a) ¿Qué tan dispersos están los tiempos de estas llamadas? b) ¿Cuál es el tiempo que está equidistante de los extremos? c) Determine el primer Cuartil.

d) Determine el quinto Decil.

(48)

g) Determine si está sesgada analíticamente.

h) ¿Es una distribución normal? ¿Por qué? Diga 5 razones.

i) Represente gráficamente el comportamiento de esta distribución. j) Haga una curva de ojiva.

k) Construya un diagrama circular e interprételo. l) Se puede comprobar la Regla Empírica.

Caso XIX.

Los siguientes datos representan el tiempo, en segundos, para pasar de 0 a 60 mi/h para una muestra de 15 automóviles hechos en Alemania y 20 hechos en Japón:

Automóviles Alemanes Automóviles Japoneses 10.0 10.9 4.8 9.4 9.5 7.1 8.0 6.4 7.9 8.9 8.9 7.7 10.5 6.5 8.5 6.9 7.1 6.7 9.3 5.7 12.5 5.5 6.4 8.7 7.2 9.1 8.3 8.2 5.1 6.0 7.5 8.5 6.8 9.5 9.7

Compare y describa las diferencias en tiempos de aceleración de automóviles alemanes y japoneses, en términos de sus estadísticas de tendencia central, estadísticas de dispersión y los cuartiles.

Caso XX.

5 compras de una materia prima en los últimos 3 meses: Costo por libra Cantidad

Compra Dólares de libras

1 3.00 1,200

2 3.40 500

3 2.80 2,500

4 2.90 1,000

5 3.25 800

Observe que el costo por libra cambió de 3.4 a 2.80 dólares, ya que la cantidad comprada varió de 500 a 2,500 libras. Suponga que un administrador pidió información sobre el costo promedio por libra de la materia prima.

Caso XXI.

El Colmado Gazcue vende cinco tipos de limpiadores para desagües. En la tabla se muestra cada tipo junto con la utilidad por lata y el número de latas vendidas:

Utilidad Volumen de

Limpiador por lata ventas en latas

Glunk Out 2.00 3

Bubble Up 3.50 7

Dream Drain 5.00 15

Clear More 7.50 12

(49)

Determine la utilidad promedio por lata.

Caso XXII.

Los miembros de un Club deben pagar cuotas con base en su peso promedio. De los 60 miembros, 12 pesan 110 libras, 25 pesaron 120 libras, 18 hicieron girar la balanza hasta 150 y el resto registraron 180 libras. Si los miembros deben pagar US$5 por cada libra que pesan en promedio, ¿cuánto debe desembolsar cada uno?

Número de Libras Miembros 110 12 120 25 150 18 180 5 Caso XXIII.

Aplicando el Teorema de Chebyshev.

La media de una línea aérea es de 78.7 pasajeros por día, con una desviación estándar de 12.14. Para programar los tiempos de para una nueva ruta que abrió, la gerencia desea saber con qué frecuencia los pasajeros están dentro de K = dos desviaciones estándar de la media, y cuál es dicho intervalo.

Caso XXIV.

Suponga que las calificaciones del examen de aptitudes de 100 candidatos a las posiciones vacantes en su organización, tuvieron un promedio de 70 y una desviación estándar de 5. ¿Cuántos candidatos tuvieron calificaciones entre 60 y 80? ¿cuántos entre 58 y 82?

Caso XXV.

Wageweb lleva a cabo encuesta de salarios y presenta resúmenes en su sitio de la red. Con los datos de salarios, Wageweb informó que los salarios de los gerentes de beneficios variaron entre 50,935 a 79,577 dólares. Suponga que los datos siguientes son una muestra de los salarios anuales para 30 gerentes de beneficios (los datos están en miles de dólares).

57.7 64.4 62.1 69.1 71.1 63.0 64.7 61.2 66.8 61.8 64.2 63.3 62.2 61.2 59.4 63.0 66.7 60.3 74.0 62.8 68.7 63.8 59.2 60.3 56.6 59.3 69.5 61.7 58.9 63.1 17. Haga un Histograma.

18. ¿Cuál es el número de pasajeros que ocurre con más frecuencia? 19. ¿Qué tan dispersos están los datos?

20. ¿Qué representa esta dispersión?

21. Haga un Diagrama Circular e Interprételo. 22. Determine si está sesgada.

(50)

25. Represente gráficamente si es normal o el sesgo por pedio de un poligono de frecuencia.

26. Determine el tercer Cuartil. 27. Determine el octavo Decil.

28. Demuestre y diga si se cumple la regla empírica.

29. Utilice el Teorema de Chebyshev para determinar el porcentaje de los gerentes con un salario anual entre 53,000 y 71,000 dólares.

30. Utilice la regla empírica para determinar el porcentaje de gerentes con un salario anual entre 50,000 y 71,000 dólares. Compare sus resultados con el punto anterior.

(51)

Introducción a las Probabilidades (Probability)

Gran parte de la vida del hombre se caracteriza por la incertidumbre. Muchos fenómenos del mundo parecen estar dominados por el comportamiento aleatorio. Casi todas las decisiones se toman en un entorno caracterizado por la ausencia de un conocimiento completo de la situación. Así, una decisión acerca de la cantidad de unidades a fabricar se basa en las estimaciones del número de unidades que se espera vender. Si se conociera este último con anticipación, la decisión sería elaborar exactamente esa cantidad, sin que hubiera ni escasez ni excedentes. Con todo, en las situaciones concretas de la toma de decisiones rara vez puede recabarse información tan precisa.

Estadística Inferencial:

Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente.

- Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.

La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados. Experimento.

Experimento es cualquier proceso que permite a los investigadores obtener observaciones.

Es el proceso que produce un evento o suceso.

Experimento se refiere a un estudio en el que se manipulan intencionalmente una o más variables independientes (supuestas causas-antecedentes), para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos-consecuentes), dentro de una situación de control para el investigador.

Experimento situación de control en la cual se manipulan, de manera intencional, una o más variables independientes (causas) para analizar las consecuencias de tal manipulación sobre una o más variables dependientes (efectos).

Experimento Resultados experimentales

Lanza una moneda Cara, cruz

Seleccionar una parte para inspección Defectuosa, no defectuosa

Lanzar un dado 1, 2, 3, 4, 5, 6