CURSO DE ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

150  35  Descargar (6)

Texto completo

(1)

CURSO DE ESTADÍSTICA DESCRIPTIVA Y

ANÁLISIS DE DATOS CON LA HOJA DE

CÁLCULO EXCEL

D. Francisco Parra Rodríguez. Jefe de Servicio de Estadísticas Económicas y

Sociodemográficas. Instituto Cántabro de Estadística.

Dª. Mª Paz Moral Zuazo. Profesora Titular de Universidad. Universidad del

(2)
(3)

ÍNDICE

1. El Método Estadístico

1.1. Introducción 5

1.2. El Método Estadístico 5

1.3. Conceptos y definiciones básicas 7

2. Introducción a las funciones estadísticas en Excel

2.1. Funciones en Excel 9

2.2. Gráficos 10

2.3. Tablas y gráficos dinámicos 13

2.4. Las macros “Análisis de datos” para el tratamiento estadístico 17

3. Análisis de distribuciones

3.1. Introducción 23

3.2. Distribuciones de frecuencias unidimensionales 23

3.3. Medidas de posición en una distribución de frecuencias unidimensional 31

3.4. Características de las medidas de dispersión 44

3.5. Distribuciones de frecuencias bidimensionales 47

3.6. Distribuciones de probabilidad. Algunas distribuciones de interés 51

4. Medidas de desigualdad y concentración

4.1. Medidas de forma 55

4.2. Medidas de concentración: índice de Gini y Curva de Lorenz 57

4.3. Cálculo e interpretación de los índices de concentración 57

5. Modelo de regresión lineal

5.1. El método de los mínimos cuadrados ordinarios 61

5.2. Bondad del ajuste 65

5.3. Inferencia acerca de los estimadores 66

5.4. Predicción en el modelo de regresión 68

5.5. Violación de los supuestos del modelo lineal de regresión 69

6. Regresión lineal múltiple

6.1. Introducción 79

6.2. Deficiencias muestrales: multicolinealidad y errores de medida 82

6.3. Modelo con variables cuantitativas y cualitativas como regresores 84

6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 88

6.5. El modelo probabilístico lineal 92

7. Números índices

7.1. Introducción 95

7.2. Índices simples y complejos 96

7.3. Índices ponderados 97

7.4. Índices de precios 98

7.5. Enlaces y cambios de base 99

7.6. Deflactación de series económicas 101

7.7. Principales índices de precios españoles 102

8. Series temporales

8.1. Introducción a las series temporales 107

8.2. Componentes de una serie temporal 110

8.3. Análisis de la tendencia 111

8.4. Análisis de la estacionalidad 121

Anexo I: Análisis de regresión con Excel 131

Anexo II: Acceso a datos externos desde Excel 141

(4)
(5)

1.- El método estadístico

1.1.- Introducción

Aunque la palabra Estadística proviene del latín “status” o “estado”, esta palabra sólo describe en parte su significado real, es decir, solo describe la función de la Estadística de llevar registros ordenados de datos para describir el “estado” de las cosas. Sin embargo, la Estadística va más allá de esta simple función.

En forma más general, la Estadística es la ciencia que se ocupa de la colección, clasificación, organización, análisis, síntesis e interpretación de datos. En palabras sencillas podríamos decir que la Estadística es la ciencia de los datos

En términos generales la Estadística aborda dos tipos de problemas:

• Resumir, describir y explorar datos.

• Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se

escogió la muestra.

Así, la Estadística se divide en dos partes íntimamente relacionadas:

Estadística Descriptiva: Esta es la parte de la Estadística que se dedica a la organización,

síntesis y descripción de conjuntos de datos.

Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es

necesario resumirlos o representarlos de manera clara, simplificada o reducida.

Estadística Inferencial: Esta rama de la Estadística trata el problema de inferir la naturaleza

de un conjunto de datos a partir de una muestra de dichos datos.

El conjunto de individuos o entidades que se desea describir se denomina población, mientras que una muestra es un subconjunto de individuos seleccionados de la población.

1.2.- El método estadístico

Según el diccionario de la RAE el significado de la palabra Ciencia es (en su primera acepción):

CIENCIA: Conjunto de conocimientos obtenidos mediante la observación y el razonamiento,

sistemáticamente estructurados y de los que se deducen principios y leyes generales.

Según esta definición podemos fácilmente comprender la razón de catalogar la Estadística como ciencia, ya que como se puede ver la estadística se adapta perfectamente a esta definición.

Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigación estadística o lo que es lo mismo, vamos a ver en que consiste el método estadístico, que es un método científico.

(6)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

y universales. Es el método propio a la ciencia, el Método Científico, el que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos.

En el método científico podríamos distinguir en forma esquemática, y con las limitaciones que esto supone, las siguientes etapas:

Elección y enunciado del problema

La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y económicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la descripción de la situación problema o mediante el planteamiento de una pregunta.

Formulación de una Hipótesis

La hipótesis es una explicación de la situación problema o una respuesta posible a la pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes.

Deducción de consecuencias verificables de la hipótesis

Siendo la hipótesis una explicación o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lógica consecuencias particulares de la hipótesis

Verificación de la hipótesis

La verificación puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones teóricas basadas en relaciones aceptadas en el estado actual del conocimiento.

Interpretación de los resultados

Con los datos obtenidos en la etapa anterior se decide si se ha rechazar o no la hipótesis en estudio.

Poniendo todo lo anterior en relación a lo que nos ocupa en el curso podemos ver cuales son las etapas del Método Estadístico.

Podemos decir que es un conjunto de procedimientos aplicados en secuencia lógica a la obtención y análisis de datos. Es el método estadístico el que nos proporciona las técnicas necesarias para recolectar y analizar la información requerida. Podríamos distinguir en él una etapa de Planificación y otra de Ejecución

Etapa de Planificación

En esta etapa debemos considerar las siguientes fases:

- Definición de objetivos: Corresponde formalmente a la descripción del problema

que da origen a la investigación. Se debe señalar detalladamente lo que se pretende investigar, es decir, el qué, cómo, donde, cuando y por qué.

- Definición del Universo: Se debe definir el grupo del cual se extraerá la información

y a la cuál se referirán los resultados.

- Diseño de la muestra: La teoría del Muestreo o de Diseño y Análisis de

Experimentos pueden garantizarnos que la información que generaremos nos permitirá proyecciones válidas al universo de interés.

- Definición de las unidades de observación, escalas de clasificación y unidades de medida: En una misma investigación puede haber varios objetivos parciales que requieran

estudiar unidades de observación diferentes.

- Preparación del plan de tabulación y análisis: El cuidado en este aspecto nunca

(7)

Etapa de Ejecución

En esta etapa podemos reconocer las siguientes fases:

- Recolección de la información: En esta fase se recogen los datos de acuerdo a los

planes establecidos anteriormente. Generalmente es lo que se conoce como Trabajo de Campo.

Es importante garantizar la obtención correcta de la información, para lo cual hay que establecer los correspondientes procesos encaminados al control de calidad del proceso.

- Tratamiento y Elaboración de la información: Una vez que se tienen los datos

estos han de pasar por procesos de validación y depuración, que garanticen que la información obtenida es correcta (sin datos imposibles o inconsistentes).

Asimismo hay que garantizar una correcta codificación de los datos, para un tratamiento correcto.

Con los datos verificados, y generalmente en un soporte informático, se procede a la elaboración de tablas, informes y de todos los procedimientos estadísticos necesarios para lograr un mejor análisis de los mismos.

En esta fase es donde intervienen las técnicas de estadística descriptiva que se van a estudiar.

- Análisis de los resultados: El análisis de los resultados es la última fase del

proceso, que en general depende del tipo de estudio que estemos realizando, que puede ser descriptivo, inferencial, confirmatorio, …

1.3.- Conceptos y definiciones básicas

En esta sección se presentan algunas nociones básicas sobre lo que se va a tratar en el curso:

Estadística descriptiva: Conjunto de métodos de descripción, análisis y representación de

conjuntos numerosos de datos. Utiliza métodos numéricos y gráficos con el fin de resumir, ordenar y simplificar la información contenida en los datos.

Población estadística: Conjunto de elementos que poseen una o varias características

comunes y sobre los cuales se va a realizar el estudio. Debe estar perfectamente determinada, sin ningún tipo de ambigüedad, de forma que se pueda distinguir fácilmente si un elemento pertenece o no a la misma. Por ejemplo: varones mayores de 25 años, productos alimenticios, ciudades con más de cincuenta mil habitantes, etc.

Una población puede ser finita o infinita, según el número de elementos que la compongan. Los elementos de la población se denominan unidades estadísticas o individuos y al número total de individuos que constituyen la población se le denomina tamaño de la población. Un individuo es, por tanto, cualquier ente observable que posee características medibles o clasificables.

Muestra: A menudo, es imposible o poco práctico realizar un estudio exhaustivo de la

población, por lo que se hace necesario seleccionar un subconjunto representativo de la misma, llamado muestra, cuyo estudio permite extraer conclusiones generalizables a toda la población. El número de elementos de la muestra se denomina tamaño de la muestra. Como ya hemos indicado, la estadística descriptiva trata únicamente de recoger, clasificar y resumir los datos obtenidos a partir del estudio de una muestra, sin pretender obtener conclusiones o hacer inferencias acerca de la población completa (objetivo de la inferencia estadística).

Caracteres: Cualidades o características comunes de los individuos de la población, que se

desean estudiar en dicha población. Por ejemplo, en la población formada por los estudiantes matriculados en la Diplomatura de Estadística para el curso actual, los caracteres pueden ser sexo, edad, color de ojos, estatura, peso, etc.

(8)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

de un carácter han de ser exhaustivas y excluyentes, es decir, cada individuo de la población debe presentar una y sólo una de esas modalidades.

Los caracteres se pueden clasificar en cualitativos y cuantitativos:

Caracteres cualitativos o atributos son aquellos cuyas modalidades no son medibles, por

ejemplo, el sexo, el color de ojos, el nivel de estudios, la profesión, el estado civil, el grupo sanguíneo, la nacionalidad, el nivel socio-económico, etc. serían caracteres cualitativos de una persona.

Aunque los caracteres cualitativos no se pueden medir numéricamente, su información puede venir dada en escala nominal o en escala ordinal. Se dice que la información relativa a un carácter viene dada en escala nominal si entre las distintas modalidades o categorías (no numéricas) no se puede establecer ningún orden natural, por ejemplo: sexo, color de ojos, profesión, estado civil, grupo sanguíneo, nacionalidad, etc. Por el contrario, en una escala

ordinal sí es posible establecer un orden o graduación entre las distintas modalidades del

carácter, por ejemplo: nivel de estudios (primaria-secundaria-bachillerato-universitarios-postgrado), nivel socio-económico (bajo-medio-alto), etc.

Caracteres cuantitativos son aquellos cuyas modalidades son medibles numéricamente, es

decir, a cada modalidad se le asigna un número de forma natural. Por ejemplo, la edad, la estatura o el peso de una persona, el número de empleados de una empresa, el tamaño de un municipio, etc.

Variable estadística o aleatoria. En general, una variable estadística es la representación

matemática de un carácter. Las variables estadísticas se suelen representar mediante las letras X, Y, Z, etc. El término “variable” se refiere a que cambia de valor según el individuo que se observe y el término “aleatoria” a que el valor observado varía en función de una función de distribución de probabilidad, que puede ser conocida o no.

Una variable estadística podrá tomar tantos valores como modalidades presente el carácter

correspondiente. Los valores de una variable X se representarán mediante {x1;x2;…} los de una

variable Y mediante {y1;y2;…}, y así sucesivamente.

Atendiendo a la clasificación de los caracteres establecida anteriormente, las variables estadísticas se clasifican asimismo en:

Variables estadísticas cualitativas: representan caracteres cualitativos y tienen un

tratamiento bastante especial. Su información puede venir dada en escala nominal u ordinal.

Variables estadísticas cuantitativas: representan caracteres cuantitativos y pueden ser: Discretas: son aquellas que sólo pueden tomar valores aislados (en número finito o

infinito numerable), normalmente enteros (por ejemplo: número de hijos de una familia, número de alumnos en una facultad, etc.).

Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un

intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un cuerpo, la velocidad de un móvil, etc.)

Notemos que, con frecuencia, la distinción entre estos dos tipos de variables es más teórica que práctica, en el sentido de que una misma variable puede ser considerada discreta o continua, dependiendo de la precisión de los aparatos de medida. Así, muchas variables continuas serán tratadas como discretas y viceversa.

Probabilidad: si un suceso puede ocurrir de

n

maneras mutuamente excluyentes e igualmente

verosímiles, y si

n

a de éstas poseen un atributo

A,

la probabilidad de

A

es la fracción

n

a

/n

(9)

2. Introducción a las funciones estadísticas en

EXCEL.

En este tema se van a introducir un conjunto de aplicaciones de Excel útiles para realizar ejercicios de Estadística: funciones estadísticas, gráficos, tablas dinámicas y las herramientas para el análisis de datos.

2.1. Funciones en Excel

Una función es una fórmula definida en Excel, que usaremos para realizar operaciones complejas sobre valores numéricos, de texto o de otro tipo. Podremos aplicar funciones a datos ubicados en celdas individuales o conjuntos de datos (filas, columnas, matrices). Una función siempre devuelve un valor, que puede ser un texto, un número o un valor lógico. Podemos

utilizar funciones escribiendo directamente una expresión o bien utilizando el asistente , una

vez posicionados en la celda en la que deseamos que aparezca el resultado de la función. Veamos un ejemplo de escritura directa de una función: supongamos que deseamos calcular la

suma de las cantidades que figuran en la columna A, fila 10, columna B desde la fila 5 hasta la 10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello,

hacemos clic sobre la celda A20 y escribimos

=SUMA(A10;B5:B10;50;37)

Los argumentos de una función pueden ser constantes, variables, rangos de celdas u otras funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el argumento requerido. Los argumentos de una función se separan por punto y coma.

(10)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Una vez seleccionada la función, en la siguiente pantalla introduciremos los argumentos de la misma, escribiéndolos directamente o seleccionando rangos de celdas

Excel 2003 dispone de 80 funciones estadísticas para cálculo de medidas de tendencia central, dispersión y forma, para series de datos, así como distribuciones de probabilidad, recuentos y valores del estadístico en contrastes de hipótesis. En este curso veremos como aplicar las más habituales para obtener una descripción de nuestros datos.

2.2. Gráficos

Excel permite crear gráficos a partir de los datos contenidos en un libro. Los gráficos permiten visualizar la información de la hoja para poder comparar datos y deducir conclusiones.

TIPOS DE GRÁFICOS

COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un

período de tiempo.

BARRAS: Ilustran las comparaciones entre elementos individuales.

LÍNEAS: Muestran las tendencias de los datos a intervalos temporales y compara

categorías.

CIRCULAR: Muestran el tamaño proporcional de los elementos que conforman un todo.

GRÁFICO XY O DIAGRAMA DE DISPERSIÓN: Muestran las relaciones entre valores

numéricos de varias series de datos.

ÁREAS: Destacan la magnitud de los datos en el transcurso del tiempo.

ANILLOS: Al igual que un gráfico circular muestra la relación de las partes con un todo,

aunque puede contener más de una serie de datos.

RADIALES: Compara los valores de series de datos. Cada categoría tiene su propio eje de

valores. Las líneas conectan todos los valores de las mismas series.

SUPERFICIE: Son útiles para conocer las combinaciones óptimas (máximos o mínimos)

entre dos conjuntos de datos.

BURBUJAS: Es un gráfico de dispersión pero con tres variables.

COTIZACIONES: Se utiliza para ilustrar la cotización de acciones. Requieren entre tres y

cinco series de datos (máximo, mínimo y cierre; apertura, máximo, mínimo y cierre; volumen, máximos, mínimos y cierre; volumen, apertura, máximo, mínimo y cierre).

CÓNICOS, CILÍNDRICOS Y PIRAMIDALES: Son equivalentes a los gráficos de columnas

(11)

ELEMENTOS DE UN GRÁFICO

CREAR UN GRÁFICO

Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de gráficos o en el menú “Insertar” seleccionamos “Gráfico”. Seleccionamos el tipo de gráfico, para cada categoría de gráfico se nos ofrece un subtipo.

En la ficha Tipos personalizados podemos encontrar gráficos combinación de dos tipos de gráficos, por ejemplo, líneas y columnas, y gráficos con diseños más vistosos.

En el 2º paso del asistente si no he especificado el rango de datos o está mal podemos

seleccionarlo en la ficha Rango de datos pulsando el icono , que contrae el cuadro de

diálogo para poder seleccionar de la hoja el rango de datos y seleccionamos si los datos queremos representarlos en filas o columnas. En la ficha Serie seleccionamos el rango donde se encuentran los datos y nombres de las series de datos y el rango de los rótulos de los ejes de categoría.

Resumen de gastos

5.500

2.000

9.246

2.000 4.139

1.488

9.735

1.500 0

2.000 4.000 6.000 8.000 10.000 12.000

Personal A lquiler Viajes Suminist ros

Est e año Pasado año Eje de valores

Área del gráfico

Líneas de división

Eje de categorías

Leyenda

Rótulos de datos

Título del

gráfico

Área de trazado Marca de graduación

(12)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

En el 3er paso del asistente añadimos y damos formato a Títulos, Eje, Líneas de división,

(13)

En el último paso del asistente elegimos la ubicación del gráfico.

2.3. Tablas y gráficos dinámicos

Una tabla dinámica consiste básicamente en una agrupación de una o varias series de datos desagregados, de forma que obtengamos una vista resumida de los mismos. Con las tablas dinámicas no solamente podremos elaborar casi cualquier tipo de informe que necesitemos, sino que además podremos actualizar automáticamente los mismos a medida que dispongamos de nuevos datos. Los informes de tablas y gráficos dinámicos constituyen potentes herramientas para la elaboración de publicaciones o informes.

(14)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

El Asistente nos guiará en tres pasos en el proceso de creación del informe. En primer lugar especificaremos la ubicación de los datos y el tipo de informe que vamos a generar.

A continuación, marcamos el rango de celdas que contienen los datos

Por último indicamos donde vamos a situar la tabla dinámica

(15)

Destacar que la opción Área Página nos permite seleccionar otro campo, de forma que la tabla mostrará los datos para cada valor del campo que se ha especificado en Página, pero sólo uno cada vez.

Hay un botón por cada título o campo de la base, esos botones se arrastran a: Página: Si queremos que el elemento se presente de manera individual, por páginas. Fila: Muestra los datos como cabecera de las filas.

Columnas: muestra los datos como cabecera de columna.

Área de datos: Siempre serán las columnas o campos que tengan datos numéricos, ya que con ellos se realizan los cálculos, por defecto la suma.

Disponemos de las siguientes funciones de agregación de los datos: - Suma

- Cuenta - Promedio - Máximo - Mínimo - Producto - Contar números - Desviación típica

- Desviación típica de la población - Varianza

- Varianza poblacional

(16)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Una vez creada la tabla, podemos modificarla mediante las siguientes acciones, disponibles en el menú que aparece cuando hacemos clic con el botón derecho del ratón sobre la tabla:

- Crear un gráfico dinámico, a partir de los datos de la tabla

- Ejecutar el asistente para modificar el diseño o las opciones de la tabla

- Actualizar los datos desde el origen. Esta opción es especialmente útil si los datos proceden de una base de datos externa, puesto que nos permitirá actualizar el informe sin tener que realizar los pasos previos de importar los datos desde la fuente

- Seleccionar un conjunto de filas o columnas para ocultar/mostrar el detalle o agregar y

desagregar elementos

(17)

- Opciones generales de tabla: título, formato, totales sí o no, tratamiento de valores erróneos o nulos, etc.

-- Ocultar/mostrar la barra de herramientas y la lista de campos de la tabla dinámica

2.4. Las macros “Análisis de datos” para el tratamiento

estadístico

(18)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Una vez cargada la macro las posibilidades de efectuar análisis y operaciones estadísticas son numerosas. Muchas de estas posibilidades que se irán desarrollando a lo largo del curso.

A continuación ofrecemos una breve descripción de los componentes de la macro Análisis de Datos, esta es la que aparece en la opción ayuda que incorpora la hoja de cálculo EXCEL:

a) Análisis de varianza de un factor

Realiza un análisis simple de varianza para comprobar la hipótesis según la cual dos o más muestras son iguales (extraídas de poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por R.A. Fisher en 1925 para resolver diversos problemas agrícolas, tiene por objetivo

descomponer la variabilidad de los datos asociados a un experimento en componentes independientes, las cuales son asignables a distintas causas.

b)Análisis de varianza de dos factores con varias muestras de grupo

(19)

c) Análisis de varianza de dos factores con una sola muestra por grupo

Realiza un análisis de dos factores con una sola muestra por grupo que comprueba la hipótesis según la cual las medias de dos o más muestras son iguales (extraídas de

poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medidas como, por ejemplo, la prueba t.

d) Coeficiente de correlación

Mide la relación entre dos conjuntos de datos que han sido calculados en escala para ser independientes de la unidad de medida. El cálculo de la correlación de población devuelve la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estándar.

Podrá utilizar la herramienta Coeficiente de correlación para determinar si dos conjuntos de datos varían conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están relacionados (correlación tiende a cero).

Covarianza

Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de las medias respectivas. La covarianza es una medida de la relación entre dos rangos de datos.

Podrá utilizar la herramienta Covarianza para determinar si dos rangos de datos varían conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están relacionados (correlación tiende a cero).

Estadística descriptiva

Genera un informe de estadísticas de una sola variable para datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos.

Suavización exponencial

Predice un valor basándose en el pronóstico correspondiente al período anterior, ajustado al error de dicho pronóstico. Utiliza la constante de suavización a, cuya magnitud determina la exactitud con la que los pronósticos responden a errores del pronóstico anterior.

Prueba F para varianzas de dos muestras

Realiza una prueba F de dos muestras para comparar las varianzas de dos

poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una carrera de atletismo difieren en la varianza de las muestras de dos corredores.

Análisis de Fourier

Resuelve problemas de sistemas de líneas y analiza datos periódicos,

transformándolos mediante el método Fast Fourier Transform (FFT). Esta herramienta también realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve los datos originales.

Histograma

(20)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

calificaciones mediante una categoría de puntuación por letras. Una tabla de histograma presentará los límites de las calificaciones por letras así como el número de calificaciones que hay entre el límite más bajo y el actual. La calificación más frecuente es la moda de los datos.

Media móvil

Proyecta valores en el período pronosticado, basándose en el valor promedio de la variable calculada durante un número específico de períodos anteriores.

Una media móvil proporciona información de tendencias que quedaría enmascarada por una simple media de todos los datos históricos. Utilice esta herramienta para pronosticar ventas, inventarios u otras tendencias.

Generación de números aleatorios

Llena un rango con números aleatorios independientes extraídos de uno de varias distribuciones. Podrá utilizar esta herramienta para caracterizar a los sujetos de una población con una distribución de probabilidades. Por ejemplo, puede utilizar una distribución normal para caracterizar la población de estatura de las personas, o utilizar una distribución de Bernoulli con dos resultados posibles para caracterizar la población de resultados cuando se lanza una moneda al aire.

Jerarquía y percentil

Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un conjunto de datos. Podrá utilizar este procedimiento para analizar la importancia relativa de los valores en un conjunto de datos.

Regresión

Realiza un análisis de regresión lineal utilizando el método de mínimos cuadrados para ajustar una línea a un conjunto de observaciones. Podrá utilizar esta herramienta para analizar la forma en que una sola variable dependiente se ve afectada por los valores de una o más variables independientes, por ejemplo, varios factores inciden en el rendimiento de un atleta, entre ellos la edad, la altura y el peso. Basándose en un conjunto de datos acerca del rendimiento, la regresión determina la parte de cada uno de los factores en las medidas de rendimiento. Los resultados de la regresión podrán utilizarse entonces para predecir el rendimiento de un atleta nuevo no sometido a prueba.

Muestra

Crea una muestra de la población tomando los datos del rango de entrada como población. Es posible utilizar una muestra en lugar de toda la población cuando ésta sea demasiado grande para procesarla o para presentarla gráficamente. Además, si cree que los datos de entrada son periódicos, puede crear una muestra que contenga sólo los valores de una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de ventas trimestrales, la muestra realizada con una tasa periódica de 4 permitirá colocar los valores del mismo trimestre en la tabla de resultados.

Prueba t para medias de dos muestras emparejadas

(21)

Prueba t para dos muestras suponiendo varianzas iguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t homoscedástica. Se emplea para determinar si las medias de dos muestras son iguales.

Prueba t para dos muestras suponiendo varianzas desiguales

Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t heteroscedástica. Utilícela para determinar si las medias de dos muestras son iguales y a partir de qué momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada cuando exista un grupo antes del tratamiento y después de él.

Prueba z para medias de dos muestras

(22)
(23)

3.- Análisis de distribuciones

3.1.- Introducción

En este tema y los siguientes se van a introducir técnicas estadísticas para una sola variable,

es decir, que con lo que se va a tratar es una serie de valores {x1, x2, … , xn}que se habrán

obtenido de medir una variable en una serie de individuos. Si la serie corresponde a una variable medida en un individuo a lo largo del tiempo tendremos una “serie temporal”, y si es una variable medida en diversas localizaciones geográficas tendremos una “serie espacial”. Estas dos últimas, aunque se les puede aplicar algunas de las técnicas explicadas, no constituyen el objetivo de este capítulo.

3.2.- Distribuciones de frecuencias unidimensionales

3.2.1.- Tablas de Frecuencias en variables cualitativas o cuantitativas

discretas.

Una vez que se tienen los datos de una variable hay que ordenarlos y resumirlos. Una forma de hacerlo es agrupar los valores iguales y contar las veces que se repite cada uno de ellos. En variables cualitativas o cuantitativas discretas esta es la forma habitual de proceder, en variables cuantitativas continuas se procederá primero a una agrupación de los datos.

Las definiciones de los distintos tipos de frecuencias se dan a continuación:

Frecuencia absoluta: Llamaremos así al número de repeticiones que presenta una

observación. Se representa por ni.

Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos, se

suele representar por fi.

n

n

f

i

i

====

Propiedad:

La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.

Si la variable que se está tratando es cualitativa ordinal o bien cuantitativa se pueden definir otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe un orden natural para los valores de este tipo de datos.

Frecuencia absoluta acumulada: Es la suma de los distintos valores de la frecuencia

absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al nº de casos:

Suponiendo que hay k valores distintos N1 = n1

N2 = n1+ n2

Nk = n1 + n2 + . . . . + nk-1 + nk=n

Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta

(24)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La última frecuencia relativa acumulada es igual a la unidad.

Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será:

xi ni Ni fi Fi

x1 n1 N1 f1 F1

x2 n2 N2 f2 F2

x3 n3 N f3 1

Σni=N 1

3.2.2.- Tabla de frecuencias para variable continua: recorrido, intervalo,

amplitud, marca de clase, densidad de frecuencia.

Cuando nos encontramos con una distribución con un gran número de valores, se suelen agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio un inconveniente: se pierde información sobre la propia distribución.

[Li-1 , Li)

Se indica por Li-1 al extremo inferior del intervalo y por Li al extremo superior. Cerramos el

intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo ser al contrario.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los extremos, y dividir entre 2.

La amplitud del intervalo, sería la longitud del intervalo, se representa por: a = Li - Li-1

NOTA: ¿Cómo obtener, a partir de los datos, una tabla de frecuencias agrupada?

Nº de intervalos: A partir de la raíz cuadrada del número de datos

redondeando podemos obtener el número de intervalos.

Recorrido: Valor mayor, menos valor menor de los datos. Re= xn-x1

Amplitud: División entre el Recorrido y el número de intervalos que hayamos

decidido. Se puede redondear también.

N de ervalos

ai

int º

Re ====

NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de

frecuencia del intervalo -iésimo, como el cociente entre el número total de observaciones de

un intervalo y la amplitud del mismo

i

a

i

n

i

d

====

3.2.3.- Ejemplos

Ejemplo 1

El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4

2

1i iiL

(25)

3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Se pide:

a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es?

d) Construir la tabla de frecuencias?

e) ¿Cuál es el número de familias que tiene como máximo 2 hijos? f) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3? ¿Qué porcentaje de familias tiene más de 3 hijos?

Solución:

a) La población objeto de estudio es el conjunto de familias de un determinado país.

b) La variable que estamos estudiando es el número de hijos por familia

c) El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados valores enteros (es imposible tener medio o un cuarto de hijo).

d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un

determinado número de hijos. Podemos ver que el número de hijos, toma los valores existentes entre 0 hijos, los que menos y 6 hijos, los que más y tendremos:

xi ni Ni fi Fi

0 2 2 0,04 0,04

1 4 6 0,08 0,12

2 21 27 0,42 0,54

3 15 42 0,30 0,84

4 6 48 0,12 0,96

5 1 49 0,02 0,98

6 1 50 0,024 1

N = 50 1

e) El número de familias que tienen dos o menos hijos es: 2+4+21 = 27

f) El número de familias que tienen más de un hijo pero tres como máximo es: 21 + 15 = 36

Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que tienen 4; 5 y 6 es decir 6+1+1= 8

El porcentaje será el tanto por uno multiplicado por cien es decir, la frecuencia relativa de dichos valores multiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0,16 + 100 = 16 %

Ejemplo 2

Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la misma categoría de esa ciudad. Los datos obtenidos en euros fueron

23,4 28,2 22,2 33,6 25,8 29,4 30 36,6 30,6 27

31,8 23,4 25,8 30 36 28,2 30,6 25,2 26,4 34,8

19,8 25,8 24,6 34,8 26,4 28,8 36,6 25,8 31,8 27

24 32,4 23,4 28,2 19,8 27 28,2 25,2 27 28,8

(26)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es?

d) ¿Qué problema plantea la construcción de la tabla de frecuencias? e) ¿Cuánto hoteles tienen un precio entre 19 y 22 euros?

f) ¿Cuánto hoteles tienen un precio superior a 28? g) ¿Qué porcentaje de hoteles cuestan como mucho 25?

SOLUCIONES:

a) La población objeto de estudio son los hoteles de una ciudad. b) La variable que estamos estudiando es el precio.

c) El tipo de variable es continua.

d) El problema que plantea es que existen muchos valores diferentes. Por tanto es conveniente agrupar la serie en intervalos.

La manera de hacerlo sería la siguiente: primero, calculamos el recorrido Re = xn– x1= 36,6 – 19,8 = 16,8

Cuando no se nos dice nada sobre el nº de intervalos a tomar, éste se suele obtener

calculando la raíz cuadrada del nº de datos observado. Veremos que la raíz cuadrada de 40 es igual a 6,32 por lo tanto tomaremos 6 intervalos, que es el entero más próximo.

Como el recorrido es 16,8, si lo dividimos por el nº de intervalos tendremos la amplitud de cada uno de ellos y así: 16,8/6 = 2,8. Tomaremos 3 como amplitud del intervalo, puesto que resulta más sencillo y claro operar con enteros y, puesto que la elección del número y amplitud de los intervalos se deja a criterio del investigador, siempre preferiremos la opción más simple.

[Li-1,, Li) ni Ni fi Fi

[19 - 22) 2 2 0,05 0,05

[22 - 25) 6 8 0,15 0,2

[25 - 28) 12 20 0,3 0,5

[28 - 31) 11 31 0,275 0,775

[31 - 34) 4 35 0,1 0,875

[34 - 37) 5 40 0,125 1

N= 40

e) 2 f) 20

g) %=F2*100=0,2*100=20

3.2.4.- Primeros Gráficos estadísticos.

Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una representación gráfica, los sistemas de gráficos más usuales son:

Diagrama de puntos

Este tipo de representación se suele utilizar con variables cuantitativas continuas, y consiste en representar sobre una recta los valores obtenidos.

Permite apreciar la distribución de los datos a lo largo de su recorrido.

-2 -1 0 1 2 3 4 5

Diagrama de tallo-hojas

Este tipo de diagrama permite visualizar la distribución de una variable numérica. Si se tienen los datos:

(27)

53 34 40 18 26 32 54 35 21 23 62 31 59 21 53 27

16 24 38 54 52 44 53 64 18 52 14 65 56 69 62 27

25 55 29 64 52 28 45 49 31 22 62 45 24 44 55 68

El diagrama es el siguiente:

1246888

011233445667789 11245688

003445569 222233344455679 22244589

En la parte izquierda está el primer dígito de los datos (pueden ser 2 o más dígitos). En la parte derecha se encuentra el dígito final, de forma que cada dígito corresponde a un valor (podrían ser también grupos de dos o más dígitos).

Diagrama de barras

Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable. En el eje horizontal, situaremos los diferentes valores de la variable. En el eje vertical la frecuencia. Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia adecuada.

0 2 4 6 8 10 12 14 16 18

a b c d e

Las barras se podrían dibujar en horizontal.

0 5 10 15 20

a b c d e

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases.

Diagrama de sectores

El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta o relativa.

Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente proporción: ni/N=α/360

(28)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 20%

36% 24%

9% 11%

a b c d e

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases.

Histograma

Cuando la variable es continua se puede utilizar un histograma para su representación. En este caso se dibujan rectángulos cuya base corresponde a la amplitud del intervalo (clase) y de forma que el área del rectángulo corresponde a la frecuencia relativa de la clase.

x

F

re

c

u

e

n

c

ia

-4 -2 0 2 4

0

5

0

1

0

0

1

5

0

2

0

0

(29)

x

F

re

c

u

e

n

c

ia

-4 -2 0 2 4

0

.0

0

0

.0

5

0

.1

0

0

.1

5

0

.2

0

0

.2

5

0

.3

0

Polígono de frecuencias

Es la recta que une los extremos superiores de un diagrama de barras (que no se dibuja normalmente), o bien los puntos centrales de la base superior de los rectángulos de un histograma.

0 2 4 6 8 10 12 14 16 18

a

b

c

d

e

Diagramas con frecuencias acumuladas

Son diagramas de barras o polígonos de frecuencias en los que se emplean las frecuencias acumuladas.

0 1 2 3 4 5 6

(30)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 0

1 2 3 4 5 6

1 2 3 4 5

Pictograma

Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la variable (ejemplo un pez) y su tamaño suele guardar relación con la frecuencia

Cartograma

Se representa la información mediante un diagrama convencional insertado en un mapa. Este tipo se aplica a variables en la que los individuos son regiones geográficas.

(31)

hasta 1 ( 1 3 ] ( 3 7 ] ( 7 9 ] Más de 9

(1) (2) (4) (2) (0)

Se pueden también representar barras con las frecuencias en cada una de las zonas,o bien diagramas de sectores o cualquier otro.

3.3.- Medidas de posición en una distribución de frecuencias

unidimensional

3.3.1.- Introducción

En este tema y el siguiente vamos a obtener unos números que cuantifiquen las propiedades fundamentales de la distribución de frecuencias. Estos números podemos clasificarlos en:

Medidas de localización (posición). Son coeficientes de tipo promedio que tratan de

representar la situación una determinada distribución, pueden ser de dos tipos:

(32)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

-Medias: Aritmética Geométrica Armónica -Medianas -Moda

2.-No centrales:

-Cuantiles: Cuartiles Deciles

Centiles o percentiles

Medidas de dispersión: Son complementarias de las de posición en el sentido que señalan la

dispersión en conjunto de todos los datos de la distribución respecto de la medida o medidas de localización adoptadas.

Medidas de forma: Estudian la asimetría-simetría y deformación (apuntamiento,

aplastamiento) respecto de una distribución modelo denominada distribución NORMAL

Medidas de concentración: Estudian la concentración de una distribución frente a la

(33)

3.3.2.- Medidas de centralización.

MEDIA ARITMÉTICA: Es la suma de todos los valores de la variable dividida entre el número

total de elementos.

1 2 3

....

1 1

n

i

n n i

x

x

x

x

x

x

X

n

n

− =

+

+ +

+

=

=

Si el valor xi de la variable X se repite ni veces, aparece en la expresión de la media

aritmética de la forma:

i i

x n

X

n

=

,

Como

f

i

n

i

N

=

otra posible expresión será

1

n

i i i

X

x f

=

=

Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.

xi ni xi ni

54 2 108

59 3 177

63 4 252

64 1 64

10 601

601

60,1

10

i i

x n

X

n

=

=

=

kg

NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribución.

Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos indistintamente ci = xi

Ejemplo:

[Li-1,Li) xi = ci ni ci ni

[30 , 40) 35 3 105

[40 , 50) 45 2 90

[50 , 60) 55 5 275

10 470

470

47

10

i i

x n

X

n

(34)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

MEDIA ARITMÉTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el

mismo peso. Esta importancia que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en tantas veces como consideremos su peso.

Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una

ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable

Se la suele representar como: i i i

i i

x w n

X w

w n

=

Siendo wi la ponderación de la variable xi y

w

i la suma de todas las ponderaciones.

Ejemplo: Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes resultados: 5, 8 y 7.

El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media.

Xi ni Wi xi wi

5 1 1 5

8 1 2 16

7 1 3 21

3 N = 6 42

Si calculamos la media aritmética tendremos que :

5 8 7

6, 67

3

i i

x n

X

n

+ +

=

=

=

.

Ahora bien, si calculamos la media ponderada, obtendremos:

( ) ( ) ( )

(

)

5 1

8 2

7 3

5 16

21

42

7

1 2

3

6

6

w

x

x

x

x

=

+

+

=

+ +

=

=

+ +

Propiedades de la media aritmética

PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0.

Veamos que resulta al operar la siguiente expresión:

1

(

)

n i i

x

X

=

. Tendremos que

(

) (

) (

)

1

1

1

1

1

(

)

(

)

1

1

.

0

0

n

i

i i i i i i i i i i i i

i i i i i i

i i i i

i i

n

x

X

x n

X n

x n

X n

x n

X

n

x n

X n

n

n

n

n

n

x n

x n

n

n

n

n

=

=

=

=

=

=

=

=

PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la media aritmética (Teorema de KÖRING).

( )

(

)

(

)

2 2

1

0

0

i i

i i

x

x

n

i

x

k

n

n

D k

prop

n

n

n

=

=

=

=

=

(35)

PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda aumentada en dicha cantidad:

Supongamos que tenemos una variable x de la que conocemos su media.

Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la

siguiente forma:

y

i

= +

x

i

k

. Si ahora queremos calcular la media de esta segunda variable:

(

)

(

)

1

n

i i

i i i i i i i i i i i

i

i i i i

y n

x

k n

x n

kn

x n

kn

x n

kn

y

n

n

n

n

n

n

x n

kn

x n

k

n

n

n

=

+

+

+

=

=

=

=

=

+

=

=

+

=

+

como

x n

i i

X

n

=

si sustituimos tendremos

Y

= +

X

k

PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma constante la media aritmética queda multiplicada por dicha constante. La demostración se realizaría de manera análoga a la anterior.

NOTA: De las dos propiedades anteriores se deduce que la resta y la división se realizarían de igual manera para la propiedad 3 y 4 respectivamente.

Corolario: Si una variable es transformación lineal de otra variable (suma de un número

y multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación lineal con respecto a la media aritmética de la 2ª variable, siendo

yi = a xi + b , donde a y b son números reales:

(

)

(

)

i i i i i i i i i i

y n

ax

b n

ax n

bn

a

x n

b

n

y

a x

b

n

n

n

n

n

+

+

=

=

=

=

+

=

+

Podemos utilizar esta metodología para calcular la media de la siguiente distribución.

Xi ni

38432 4

38432 8

38436 4

38438 3

38440 8

Si efectuamos un cambio de variable

38436

2

i i

x

y

=

tomando como nueva variable el

valor más centrado, tendremos:

xi ni yi yi ni

38432 4 (38432 - 38436)/2 = -2 -8

38432 8 (38432 - 38436)/2 = -1 -8

38436 4 (38436 - 38436)/2 = 0 0

38438 3 (38438 - 38436)/2 = 1 3

38440 8 (38440 - 38436)/2 = 2 16

n = 27 3

3

1

27

9

i i

y n

y

n

(36)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

Como

38436

2

x

y

=

, entonces

2

38436

2

1

38436

0, 222

38436

38436, 222

9

x

=

y

+

=

+

=

+

=

PROPIEDAD 5: - Si en un conjunto de valores se pueden obtener 2 ó más

subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media aritmética de cada uno de los subconjuntos disjuntos de la siguiente forma:

1 N i i I

x N

X

n

=

=

Siendo

x

i la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto.

Veamos la demostración de la propiedad: Sea la distribución x1, x2,…, xn, xn+1, xn+2,…,xk,

observando que habrían como dos subconjuntos de n y k-n elementos cada uno. Si

consideramos la media aritmética de la distribución:

i i

x n

X

n

=

y calculamos los sumatorios

para los dos subconjuntos, la expresión de la media quedaría:

1 1 1 1

n k n k

j j r r j j r r

j r n j r n

x n

x n

x n

x n

X

n

n

n

= = + = = +

+

=

=

+

Si multiplicamos numerador y denominador de cada una de las fracciones por una misma

cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número

de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la

expresión quedará: n N n x N n N n x N n N n x N n N n x N X n j j j n j j j k n r r r n j j j               ++++               ==== ++++ ====

==== ==== ++++ ==== ==== 2 1 2 1 1 1 2 1 2 1 1 1

como 1 1

1 n j j j

x n

x

N

=

=

y 1 2 2 kn rj jr r n

x n

x

N

= +

=

son la media del primer y segundo subconjunto, la expresión la podemos

expresar de la siguiente manera:

X

X

1

N

1

X

2

N

2

X N

1 1

X N

2 2

n

n

n

+

=

+

=

que es lo que

queríamos demostrar ya que si las frecuencias se multiplican o dividen por un mismo número, la media no varía

(37)

MEDIA GEOMÉTRICA Y ARMÓNICA.

Media geométrica: Responde a la siguiente expresión

1 2 2

1 2 3

...

k

n n n n n

k

G

=

x x x

x

y se la puede define, como la raíz n-ésima del producto de todos los valores de la variable. También la podemos representar como:

3

1 2

1

1 2 3

(

n n n

...

nk

)

n

k

G

=

x x x

x

NOTA: En muchas ocasiones, los valores de la distribución nos impiden poder efectuar los cálculos al exceder la capacidad de la calculadora.

Utilizaremos las propiedades de los logaritmos:

lg (a.b) = lg a + lg b

lg an = n lg a

3 3

1 2 1 2

1

1 2 3 1 2 3

1

lg

lg(

n n n

...

nk

)

n

lg(

n n n

...

nk

)

k k

G

x x x

x

x x x

x

n

=

=

=

3

1 2

1 2 3

1

(lg

n

lg 2

n

lg

n

.... lg

nk

)

k

x

x

x

x

n

=

+

+

+ +

sabiendo que lo podemos expresar en notación compacta:

1 1 2 2 3 3

lg

1

(

lg

lg

lg

...

k

lg

k

)

i i

lg

n

x

n

x

n

x

n

x

n

x

G

n

+

+

+

+

=

n

=

, por lo que podemos

decir que

G = anti lg

n

i

lg

x

i

n

El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo.

Suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes.

Ejemplo: Hallar la media geométrica de la siguiente distribución:

xi Ni

100 10

120 5

125 4

140 3

n = 22

lg

lg

G

n

i

x

i

n

=

por lo tanto será conveniente ampliar la tabla con lo que nos quedará

xi ni lg xi ni lg xi

100 10 lg 100 = 2 20

120 5 lg 120 = 2.079 10,396

125 4 lg 125 = 2.097 8,387

140 3 lg 140 = 2.146 6,438

(38)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01

lg

45, 221

lg

2, 056

22

i i

n

x

G

n

=

=

=

G = anti lg. 2,0555 = 113,632

Media armónica. La representaremos como H: Es la inversa de la media aritmética de las

inversas de los valores de la variable, responde a la siguiente expresión:

3

1 2

1 21 3

....

i

i

n

n

H

n

n

n

n

x

x

x

x

=

=

+

+

+

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños).

Su problema: cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.

Ejemplo: calcular la media armónica de la siguiente distribución:

xi Ni

100 10

120 5

125 4

140 3

Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos la tabla con 2 columnas adicionales:

xi ni 1/xi ni/xi Xini

100 10 1/100 0.1 1000

120 5 1/120 0.042 600

125 4 1/125 0.032 500

140 3 1/140 0.021 420

N= 22 0.195 2520

82 , 112 195 , 0

22 ==== ==== ====

i i

x n n

H 114,545

22 2520

==== ==== ====

n n x

X i i

Entre la media aritmética la media geométrica y media armónica se da siempre la siguiente relación:

H

≤ ≤

G

X

MEDIANA: Me

La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden dentro de la ordenación.

El lugar que ocupa se determina dividiendo el nº de valores entre 2:

2

Figure

Fig. 6.1.  Consumo Trimestral de Electricidad
Fig. 6.1. Consumo Trimestral de Electricidad p.91
Figura 8.2. Esquema multiplicativo.

Figura 8.2.

Esquema multiplicativo. p.111
Figura 8.1. Esquema aditivo

Figura 8.1.

Esquema aditivo p.111

Referencias

Actualización...