FUNDAMENTOS DE ESTADÍSTICA
1 - INTRODUCCIÓN Y EST. DESCRIPTIVA
2017-2
¿Qué es la estadísEca?
¿Qué es la estadísEca?
ROSS: “EstadísEca es el arte de aprender de los datos. Trata de la adquisición de datos, su descripción y su análisis (el cual frecuentemente lleva a la toma de decisiones).
WACKERLY, MENDENHAL: “EstadísEca es una teoría de la información con la inferencia como objeEvo. Para esto se requiere obtener datos, tomando un subconjunto de ellos de una
ESTADÍSTICA
DESCRIPTIVA
(O EXPLORATORIA)
INFERENCIAL
NUMÉRICA
GRÁFICA
FENÓMENO DETERMINISTA
mismas condiciones à mismos resultados
FENÓMENO ALEATORIO (O ESTOCÁSTICO)
mismas condiciones à diferente resultado (variabilidad) y = f (x)
y = f (x) + ✏
CATEGÓRICAS
NUMÉRICAS
Nominales
Ordinales
De intervalo
De razón (el 0 indica ausencia)
Absoluta (variables discretas, conteos) - Epo de variable - - escala de medición -
POBLACIÓN:
todos los elementos que presentan una caracterísEca en común (de interés) acerca de la cual intentamos sacar alguna conclusión.
- Puede ser finita o infinita MUESTRA:
subconjunto de elementos de la población.
- Finitas
¿CÓMO SELECCIONAR A LA MUESTRA?
¿CÓMO MEDIR QUE TAN BUENA ES
SELECCIÓN PROBABILISTA DE LA MUESTRA.
x X P [X x] = F (x)
Muestra Modelo
Dato
(real) VARIABLE
ALEATORIA
)
Describir el()
fenómeno Describir el modelo DISTRIBUCIÓN DE PROBABILIDAD
--- idea intuiEva de inferencia ---
PARÉNTESIS DE NOTACIÓN
X = X = {X
1, X
2, .., X
n}
x = x = {X
1= x
1, X
2= x
2, .., X
n= x
n} = {x
1, x
2, ..., x
n}
{X
(1), X
(2), ..., X
(n)}
X
(1)= minX = min {X
1, X
2, .., X
n} X
(n)= maxX = max {X
1, X
2, .., X
n}
n N
Muestra (sin observar):
Muestra observada:
Muestra ordenada:
Tamaño de la muestra:
Tamaño de la población:
RECORDATORIO DE PROBABILIDAD
Espacio muestral (todos los posibles resultados):
⌦
E ✓ ⌦
Una probabilidad es una función que asigna un número en el intervalo [0,1] a cada subconjunto del espacio muestral.
Evento:
X : ⌦ ! R
Variable aleatoria:
Discreta ConEnua
… conNnuando con el ejemplo del DADO
para diferenciar los conceptos
TIPO DE FENÓMENO / VARIABLES
POBLACIÓN
MUESTRA
ESPACIO MUESTRAL EVENTO
VARIABLE ALEATORIA
PROBABILIDAD
ESTADÍSTICA DESCRIPTIVA
PROBABILIDAD EMPRÍRICA
PROBABILIDAD EMPÍRICA O FRECUENCIA RELATIVA
f
n(x
i) = n
in n
ix
ià Frecuencia (número de veces que se obtuvo) del “resultado”
(Variable discreta)
PROBABILIDAD EMPRÍRICA
FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA O FRECUENCIA ACUMULADA
F
n(x) = 8 >
<
> :
0 si x 2 ( 1, X
(1))
u/n si x 2 [X
(u), X
(u+1)]
1 si x 2 [X
(n), 1)
PROBABILIDAD EMPRÍRICA
NUMÉRICA:
MEDIDAS DE TENDENCIA CENTRAL
resumir la localización de los datos
MEDIA MUESTRAL:
X = ¯ 1 n
X
n i=1X
iMEDIANA:
X = ˜ X
(n2 )
+ X
(n2+1)
2
X = X ˜
(n+12 )
(muestra par) (muestra impar)
MODA: valor o categoría más frecuente (no existe para variables conEnuas)
CUANTILES O PERCENTILES: es el valor tal que un α% de los datos son menores que él y un (1-α)% son mayores que él
NUMÉRICA:
MEDIDAS DE TENDENCIA CENTRAL
resumir la localización de los datos
NUMÉRICA:
MEDIDAS DE DISPERCIÓN
resumir qué tan variables son los datos, medir el grado de dispersión
VARIANZA MUESTRAL:
DESVIACIÓN ESTANDARD:
S = p S
2RANGO:
R = X
(n)X
(1)RIC = p
0.75sp
0.25cv = S
X ¯ ⇥ 100
RANGO INTERCUARTÍLICO:COEFICIENTE DE VARIACIÓN:
S
2=
n 11P
ni=1
(X
iX) ¯
2NUMÉRICA:
MEDIDAS DE DISPERCIÓN
resumir qué tan variables son los datos, medir el grado de dispersión
NUMÉRICA:
MEDIDAS DE DISPERCIÓN
resumir qué tan variables son los datos, medir el grado de dispersión
NUMÉRICA:
MEDIDAS DE FORMA
resumir las caracterísEcas de la distribución de la población
COEFICIENTE DE ASIMETRÍA:
(de Fisher)
CA
F=
P
ni=1
(x
ix) ¯
3nS
3CA
F2 ( 1, 1)
NUMÉRICA:
MEDIDAS DE FORMA
resumir las caracterísEcas de la distribución de la población
COEFICIENTE DE CURTOSIS:
Curtosis =
P
ni=1
(x
ix) ¯
4nS
43
Curtosis 2 [ 2, 1)
Curtosis = 0 Curtosis > 0
Curtosis < 0
mesocúrEca leptocúrEca
plaEcúrEca
ALGUNAS REPRESENTACIONES GRÁFICAS
• HISTOGRAMA
• QQ-PLOT
• BOX PLOT
• DIAGRAMA DE TALLO Y HOJAS
ALGUNAS REPRESENTACIONES GRÁFICAS
ALGUNAS REPRESENTACIONES GRÁFICAS
¿Puedo suponer NORMALIDAD?
DIAGRAMA DE CAJA (BOXPLOT)
Mediana (Q2) Q1
Q3
Q3 + 1.5(RIC)
Q1 - 1.5(RIC)
DATOS ATÍPICOS (OUTLIERS)
hyp://flowingdata.com/2017/01/24/
one-dataset-visualized-25-ways/