1
00 – Introducción a la estadística y
teoría de probabilidades
Diego Andrés Alvarez Marín Profesor Asistente
Universidad Nacional de Colombia Sede Manizales
2
Contenido
● Qué es la estadística?
● Qué es la teoría de probabilidades? ● Qué es la estadística descriptiva? ● Qué es la estadística inferencial
Estadística
● Es la rama matemática relacionada con la
colección, el análisis, la interpretación (o explicación) y la representación de datos.
Teoría de probabilidades vs
Estadística
● La teoría de probabilidades es la rama de la
matemática relacionada con el análisis de
fenómenos aleatorios; esta se desarrolló como un modelo abstracto y sus conclusiones y
deducciones están basados en axiomas.
● La estadística se basa en la aplicación de la
teoría de probabilidad a problemas reales y sus conclusiones son inferencias basadas en
Ramas de la estadística
La estadística se divide en dos ramas:
● Estadística descriptiva ● Estadística inferencial
6
Estadística descriptiva
La estadística descriptiva se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos en forma numérica y/o gráfica.
7
Estadística inferencial
Esta comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión).
8
Estadística descriptiva vs.
Estadística inferencial
La diferencia entre la estadística descriptiva y la estadística inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones sobre la población que está representada por los datos recopilados.
9
01 – Estadística descriptiva
Diego Andrés Alvarez Marín Profesor Asistente
Universidad Nacional de Colombia Sede Manizales
10
Contenido
●Definiciones básicas
●Medidas de tendencia no central ●Medidas de tendencia central
●Medidas de dispersión ●Momentos
●Representación gráfica de la información
Definiciones
●Se quiere estudiar una población. Sin embargo
por razones prácticas se analiza una muestra de la población. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular
ciertas características de la muestra llamadas
● Población: es el conjunto de elementos de
referencia sobre el que se realizan todas las
observaciones. La población es la colección de toda la información que caracteriza un
fenómeno.
● Muestra estadística (o aleatoria): es un
subconjunto representativo de individuos de la población
● Muestreo: es la técnica por la cual se
selecciona una muestra a partir de una población
● Una estadística es el resultado de aplicar una
Información básica de un conjunto
de datos
● Mínimo y máximo ● Percentil ● Tendencia central ● Dispersión ● MomentosMedidas de posición no central
Un percentil es el valor de una variable bajo el cual un cierto porcentaje de las observaciones caen. De este modo el percentil 20 es el valor bajo el cual el 20% de las observaciones pueden ser encontradas.
Algunos tipos de percentiles importantes son:
● Los cuartiles: percentil 25, 50 (mediana) y 75 ● Los quintiles: percentil 20, 40, 60 y 80
Ejemplo usando la definición 1
Calcule el percentil 70 de los datos 1200, 11, 23, 27, 25, 29
Primero que todo se deben organizar los datos en orden ascendente
11, 23, 25, 27, 29, 1200
Percentiles con MATLAB
Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos
Percentiles con MS EXCEL
Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos
21
Medidas de tendencia central
Las medidas de tendencia central miden la localización del centro de los datos
● Media aritmética (o promedio) ● Mediana
● Moda
● Media geométrica ● Media armónica
22
23
24
25
26
27
Media geométrica
La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los números son de naturaleza exponencial, como por ejemplo el crecimiento de la población mundial o las tasas de interés de una inversión financiera.
La media geométrica es menos sensible que la media aritmética a los valores extremos.
28
29
Propiedades de la media
geométrica
30
31
32
33
34
35
36
Medidas de tendencia central en
MS EXCEL
Observe que MATLAB y MS EXCEL utilizan diferentes
37
MEDIA.ACOTADA(datos;porcentaje)
Calcula la media de un conjunto de datos después de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta función cuando desee excluir del análisis los valores extremos.
porcentaje es el número fraccionario de puntos de datos que se excluyen del cálculo. Por ejemplo, si porcentaje = 0,2, se eliminarán cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior.
38
Medidas de tendencia central en
MATLAB
Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda
39
Otras medidas de tendencia central
● Media generalizada – http://en.wikipedia.org/wiki/Generalized_mean ● Media ponderada – http://en.wikipedia.org/wiki/Weighted_mean ● Punto medio – http://en.wikipedia.org/wiki/Midrange
● Root mean square (RMS)
40
Notas varias
● La media armónica es siempre inferior a la
media geométrica, que a su vez es siempre inferior a la media aritmética.
Ver:
● http://en.wikipedia.org/wiki/Inequality_of_arithm
etic_and_geometric_means
41
Medidas de dispersión
La dispersión de los datos se puede atribuir a pequeñas diferencias de construcción, a mano de obra deficiente, errores humanos, variabilidad inherente al material, así como a errores en las observaciones y en las mediadas.
Las medida de dispersión miden la variabilidad de un conjunto de datos. Una medida de dispersión es un número real no negativo, que es cero si todos los dátos son idénticos, y se incrementa a medida que las observaciones son más diversas.
42
Medidas de dispersión
● Varianza ● Desviación estándar ● Desviación media ● Desviación mediana ● Rango (o recorrido)● Rango (o recorrido) intercuartil ● Rango (o recorrido) interdecil
43
Varianza y desviación estándar
muestral
Use siempre estas fórmulas para calcular la varianza y la desviación estándar, a menos que se indique lo contrario. Ver: http://en.wikipedia.org/wiki/Variance http://en.wikipedia.org/wiki/Standard_deviation44
Varianza y desviación estándar
poblacional
45
Corrección de Bessel
Aunque intuitivamente la fórmula de la desviación estándar (varianza) poblacional es la que se debe usar (denominador n), SIEMPRE que se quieren hacer inferencias acerca de una población, se debe utilizar la desviación estándar (varianza) muestral (denominador n-1). Las razones de esto se entenderán en el Capítulo ***.
46
47
48
Desviación media (mean absolute deviation - MAD) Desviación mediana (median absolute deviation)
49
Coeficiente de variación
(coefficient of variation - C.O.V.)
No confundir
con la
50
Nota final
A pesar que la media aritmética y la desviación estándar han sido empleadas de manera extensa como medidas de tendencia central y dispersión respectivamente, estas no son siempre las medidas más deseables. Su uso es popular por su varias propiedades teóricas que las hacen muy manipulables desde el punto de vista matemático.
51
Otras medidas de dispersión
● Momento central de cualquier orden
– http://en.wikipedia.org/wiki/Moment_(mathematics)
● Diferencia media
– http://en.wikipedia.org/wiki/Mean_difference
● Desviación estándar geométrica
52
53
Como la función para calcular la desviación mediana no
existe en MS EXCEL 2007, debemos crear la función usando Visual Basic for Applications (VBA)
Haga Alt+F11 para ingresar el código Insertar →Módulo Copy+Paste código Grabar como .xlsm
54
55
Valor atípico (outlier)
Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25ºC, pero hay un horno a 350°C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.
56
Valor atípico (outlier)
Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.
No existe una definición matemática de lo que constituye un valor atípico; este es un ejercicio subjetivo.
57
Sensibilidad de las medidas de
tendencia central a valores atípicos
58
Sensibilidad de las medidas de
dispersión a los valores atípicos
59
Momentos
● Coeficiente de asimetría – Ver: http://en.wikipedia.org/wiki/Skewness ● Curtosis – Ver: http://en.wikipedia.org/wiki/KurtosisCurtosis y coeficiente de asimetría
en MS EXCEL
Curtosis y coeficiente de asimetría
en MATLAB
MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular estos parámetros
Histogramas
Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.
Datos
2298 4188 4536 4737 4905 5041 3205 4289 4565 4763 4908 5058 3325 4363 4591 4784 4923 5142 3609 4377 4657 4816 4941 5152 3918 4448 4666 4817 4993 5152 3992 4450 4670 4852 4998 5330 4057 4524 4724 4887 5035 5535Suponga que los siguientes números representan el consumo en m3 de agua por día de una población (observe que están ordenados ascendentemente). Elabore el histograma de dichos datos.
1. Determine el rango de los datos
● Rango es igual al dato mayor menos el dato
menor. Rango = 5535 - 2298 = 3237 2298 4188 4536 4737 4905 5041 3205 4289 4565 4763 4908 5058 3325 4363 4591 4784 4923 5142 3609 4377 4657 4816 4941 5152 3918 4448 4666 4817 4993 5152 3992 4450 4670 4852 4998 5330 4057 4524 4724 4887 5035 5535
2. Obtener el número de clases
Una clase (bin) es ...
Supongamos por el momento que Entonces
3. Establecer la longitud de las
clases/intervalos (bins)
Establecer la longitud de clase: es igual al rango dividido entre el número de clases
4. Construir los intervalos de las clases
Los intervalos resultan de dividir el rango de los datos en relación al resultado del paso 3 en intervalos iguales.
4. Graficar el histograma de conteo
Consultar la ayuda de la función FRECUENCIA de MS EXCEL para entender su uso
Tenga en cuenta...
● La normalización del histograma
● La frecuencia relativa refleja la proporción de la
observaciones contenidas en una clase
● Cuando los intervalos de clase son idénticos, el
área de los rectángulos representa las
frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las áreas no
representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectángulos para que
5. Graficar el histograma de
frecuencias relativas
El eje Y tiene unidades de frecuencia por m3/día
Histograma de frecuencia de clase
con MATLAB
Histograma de frecuencia de clase
con MATLAB
El eje Y tiene unidades de frecuencia por m3/día
Histogramas con MS EXCEL
MS EXCEL 2003:
http://www.bloggpro.com/creating-histograms-in-excel/
MS EXCEL 2007:
http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/
or just GOOGLE IT!
6. Graficar la distribución de
frecuencia relativa acumulada
● Se obtiene graficando en el eje vertical la
frecuencia relativa acumulada de una clase contra el límite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.
Percentil 80 El eje Y tiene unidades
Número de clases
● No existe una forma única de escoger el
número de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen
algunas recomendaciones (las cuales
generalmente hacen suposiciones sobre la forma de los datos):
● El número de clases depende del número total
Número de intervalos (k)
● k – número de intervalos (clases) ● h – ancho del intervalo
● Fórmula de Sturges (1926): su rendimiento es
pobre si n<30
● Fórmula de Scott (1979): s es la desviación
estándar muestral
● Fórmula de Freedman-Diaconis (1981): IQR es
Referencias bibliográficas
● Sturges, H. A. (1926). “The choice of a class interval”.
J. American Statistical Association: 65–66.
● Scott, D. W. (1979). “On optimal and data-based
histograms”. Biometrika. 66 (3): 605–610
● Freedman, D. and Diaconis, P. (1981). “On the
histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57 (4): 453–476
● Shimazaki H. and Shinomoto S. (2007), “A method for
selecting the bin size of a time histogram” Neural Computation. 19(6), 1503-1527
Ejemplo con clases de tamaños
diferentes
Considere el siguiente ejemplo del Censo de USA en el año 2000:
Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf
U.S. Census Bureau – tiempo de viaje al trabajo. El censo
[0,5) 5 4180 836 [5,10) 5 13687 2737 [10,15) 5 18618 3723 [15,20) 5 19634 3926 [20,25) 5 17981 3596 [25,30) 5 7190 1438 [30,35) 5 16369 3273 [35,40) 5 3212 642 [40,45) 5 4122 824 [45,60) 15 9200 613 Intervalo (minutos) Ancho (minutos) Cantidad (miles) Cantidad (miles)/ Ancho (minutos)
.
Histograma del tiempo de viaje
(censo USA, 2000)
El área bajo la curva es igual al número de casos = 124 millones.Este diagrama usa cantidad/ancho de la tabla.
[0,5) 5 4180 0.01 [5,10) 5 13687 0.02 [10,15) 5 18618 0.03 [15,20) 5 19634 0.03 [20,25) 5 17981 0.03 [25,30) 5 7190 0.01 [30,35) 5 16369 0.03 [35,40) 5 3212 0.01 [40,45) 5 4122 0.01 [45,60) 15 9200 0 Intervalo (minutos) Ancho (minutos) Cantidad (miles) Cantidad/Total/A ncho (minutos)
.
Histograma de frecuencia relativa del
tiempo de viaje (censo USA, 2000)
El área bajo la curva es igual a 1
Este diagrama usa cantidad/total/ancho de la tabla.
Generalización del histograma
● Kernel smoothing methods (tambien llamado
ventanas de Parzen (Parzen windows). El
comando de MATLAB asociado es ksdensity.
Generalización de histograma
Existen otro métodos basados en la utilización de polinomios ortogonales de Legendre. Ver por ejemplo:
X.B. Li y F.Q. Gong (2009). A method for fitting probability distributions to engineering properties of rock masses using Legendre orthogonal polynomials. Structural Safety. Volume 31, Issue 4, July 2009, Pages 335-343
Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the