1
Estadística con R
. Nivel Básico
Vanesa Jordá
Departamento de Economía Universidad de Cantabria 11 de octubre de 2017
2 Índice
u
Datos univariantes:
I. Medidas de posición
II. Medidas de dispersión
III. Representación grá9ica de los datos
IV. Medidas de forma
u
Datos bivariantes:
I. Coe9iciente de correlación
II. Grá9ico de dispersión
3
Conceptos previos
La estadística descriptiva se emplea para resumir la información proporcionada por un determinado conjunto de datos. (Vanesa)
La inferencia estadística emplea modelos para describir una determinada variable aleatoria (X), considerando el conjunto de datos a estudiar una muestra de observaciones idéntica e independientemente distribuidas (i.i.d) con la misma distribución de X. (José María)
Se puede estudiar una o varias variables simultáneamente, siendo interesante analizar en este último caso la relación entre ellas.
4 Partimos de un conjunto de n datos:
x1,…, xn
Correspondientes al valor de una determinada variable, e.g. renta, edad, número de hijos, etcétera.
En esta parte del curso vamos a emplear el conjunto de datos contenido en el archivo datos2.txt, que contiene la renta per cápita de los países
del mundo en dólares internacionales de 2011 y los años promedio de educación (World Development Indicators, 2016).
Nuestro objetivo será resumir la información contenida en este conjunto de datos.
5
Medidas de posición
NOTA: Es muy sensible a los valores atípicos y observaciones extremas.
Media aritmética
Es una medida de tendencia central (me indica en torno a qué valor se sitúan mis datos)
Ejemplo: Cálculo de la media de los datos de renta de datos2.txt.
mean(renta)
6
Medidas de posición
n impar: x([n+1]/2)
n par: media de x(n/2), x([n/2+1)
NOTA: Es menos sensible que la media a valores atípicos y valores
extremos.
Mediana
Considerando los datos ordenados de menor a mayor, la mediana es el valor que deja a izquierda y derecha el mismo número de observaciones.
Ordenamos en primer lugar los datos: x(1),…, x(n)
Ejemplo: Cálculo de la mediana de los datos de renta de datos2.txt.
median(renta)
7
Medidas de posición
NOTA: Es menos sensible que la media a valores atípicos y valores
extremos
Mediana
Ejemplo: Cálculo de la media y la mediana de los datos de renta de datos2.txt menos su máximo.
mean(renta2) median(renta2)
[1] 14823.54 [1] 9460.94
mean(renta) median(renta)
8
Medidas de posición
El cuantil de orden p (qp) el el valor que deja a la izquierda un p% de las observaciones (i.e. p% de los datos menores que ese valor).
Cuantiles
Casos particulares:
Cuartiles: dividen los datos en cuatro bloques.
Q1: deja a la izquierda el 25% de las observaciones.
Q2 – mediana: deja a la izquierda el 50% de las observaciones. Q3: deja a la izquierda el 75% de las observaciones.
Q4 – máximo: deja a la izquierda el 100% de las observaciones.
Deciles: dividen los datos en diez bloques.
9
Medidas de posición
Para calcular el cuantil de orden p (qp) descomponemos la observación
x(p[n-‐1]+1) en su parte entera y decimal:
p(n-‐1)+1= j+k
donde j es la parte entera y k la parte decimal [0,1], siendo el cuantil qp
qp = (1-‐k) x(j) + k x(j+1)
Cuantiles
Ejemplo: Cálculo la mediana de los datos de renta de datos2.txt. >quantile(renta,0.1) 1318.772 >0.9*rentaord[14]+0.1*rentaord[15] 1318.772
10
Medidas de dispersión
La varianza mide la distancia de los datos a la media:
La desviación típica es la raíz positiva de la varianza, siendo su principal ventaja con respecto a ésta que viene representada en las mismas unidades que la variable.
NOTAS
• Ambas medidas de dispersión son muy sensibles a los valores extremos.
• No es posible comparar la dispersión de dos variables en diferentes unidades
de medida con estos estadísticos.
11
Medidas de dispersión
Es una medida de dispersión relativa, que permite la comparación de la dispersión de dos variables medidas en distintas unidades.
Coe9iciente de variación (CV)
Ejemplo: Cálculo de varianza, desv. típica y CV de ingreso y educación.
> var(renta) var(educacion) [1] 309647374 9.676187 > sd(renta) sd(educacion) [1] 17596.8 3.110657 > sd(renta)/mean(renta) sd(educacion)/mean(educacion) [1] 1.129124 0.3777431
12
Medidas de dispersión
Estas dos medidas de dispersión emplean la relaciones entre los cuartiles:
La principal diferencia entre ambas es que la segunda nos permite comparar la dispersión de dos variables independientemente de la escala.
Recorrido intercuartílico y semi-‐intercuartílico
Ejemplo: Recorrido intercuartílico y semi-‐intercuartílico de la renta per cápita RI<-‐quantile(renta,0.75)-‐quantile(renta,0.25) 19485.99 RSI<-‐RI/(quantile(renta,0.75)+quantile(renta,0.25)) 0.7380748
13
Representación grá9ica
Diagrama de caja (box plot)
0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 Q3 Q1 Q2 Q1-‐1.5RI Q3+1.5RI Observaciones atípicas
14
Representación grá9ica
Histograma
Sea a1<…<ai<ai+1<…, deeinimospara t perteneciente al intervalo (ai, ai+1]. La amplitud del intervalo se deeine como hn= ai+1-‐ai, mientras que I(ai, ai+1] es un indicador que vale 1 si la observación se encuentra en dicho intervalo y cero en caso contrario.
Ejemplo: Histograma para la variable ingreso.
hist(renta)
15
Representación grá9ica
Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80Es algo simple!
16
Representación grá9ica
Histograma del PIB per cápita
PIB per cápita
F re cu en ci a 0 20000 40000 60000 80000 100000 0 20 40 60 80 100
17
Representación grá9ica
Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 100 120 Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 Histogram of muestra muestra F re qu en cy0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
0
5
10
18
Representación grá9ica
Estimadores núcleo o kernel
Es una forma soeisticada de representar la distribución de los datos.
Se puede generalizar este método reemplazando la densidad uniforme por una función de densidad determinada que denominamos kernel o núcleo.
El más utilizado (y el que se emplea por defecto en R) es el núcleo gaussiano.
19
Representación grá9ica
Estimadores núcleo o kernel
fn
(
t
) f(tn
20
Representación grá9ica
Estimadores núcleo o kernel
El estimador kernel viene dado por:
Ejemplo: Estimación kernel de la función de densidad de la variable ingreso.
21
Representación grá9ica
0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 522
Representación grá9ica
Histogram of muestra muestra D en si ty 0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 6e -0 523
Representación grá9ica
0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel triangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel rectangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel gaussiano N = 167 Bandwidth = 4264 D en si ty24
Representación grá9ica
0e+00 5e+04 1e+05
0. 0e +0 0 5. 0e -0 6 1. 0e -0 5 1. 5e -0 5 2. 0e -0 5 2. 5e -0 5 3. 0e -0 5 density.default(x = muestra, bw = 8000) N = 167 Bandwidth = 8000 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 density.default(x = muestra) N = 167 Bandwidth = 4264 D en si ty
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
0e +0 0 2e -0 5 4e -0 5 6e -0 5 8e -0 5 density.default(x = muestra, bw = 1000) N = 167 Bandwidth = 1000 D en si ty
25
Medidas de forma
§ g1 = 0, la distribución es simétrica.
§ g1 < 0, la distribución es asimétrica negativa.
§ g1 > 0, la distribución es asimétrica positiva.
Coe9iciente de asimetría
Ejemplo:
library(moments)
skewness(renta) [1] 2.346271
26
Medidas de forma
-1e+05 -5e+04 0e+00 5e+04 1e+05
0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 density.default(x = sampleP, bw = 4000) N = 1000 Bandwidth = 4000 D en si ty
27
Medidas de forma
Mide el grado de apuntamiento de la distribución con respecto a la distribución normal estándar
§ g2 = 0, la distribución es mesocúrtica.
§ g2 < 0, la distribución es platicúrtica.
§ g2 > 0, la distribución es leptocúrtica.
Coe9iciente de curtosis
Ejemplo:
library(moments)
kurtosis(renta)-‐3 [1] 8.320581
28
Medidas de forma
-20 -10 0 10 20 0.00 0.05 0.10 0.15 0.20 density.default(x = sampleN, bw = 2) N = 1000 Bandwidth = 2 D en si ty
29
Análisis de datos bivariantes
En este caso observamos dos variables de cada uno de los componentes de la muestra.
Ejemplo: Relación entre el capital humano de un país y su nivel de renta.
Los objetivos del análisis de bivariante (multivariante, en términos generales) es entender la relación que existe entre las variables. Para ello empleamos:
1. Estadísticos resumen. La covarianza y el coeeiciente de correlación.
30
Covarianza entre las variables X e Y
Ejemplo:
cov(renta,educacion)
[1] 32489.33
Análisis de datos bivariantes
La covarianza determina el tipo de relación lineal entre las variables X e Y
La magnitud de este estadístico no es informativa, dado que depende de la unidad de medida de la variable, lo que es relevante es su signo.
31 Proporciona una medida del grado de relación lineal entre las variables.
§ rXY = 0, no existe relación lineal entre las variables.
§ rXY = 1, relación lineal positiva perfecta entre las variables.
§ rXY = -‐1, relación lineal negativa perfecta entre las variables.
§ 0< rXY < 1, relación lineal positiva entre las variables.
§ -‐1< rXY < 0, relación lineal negativa entre las variables.
Ejemplo:
cor(renta,educacion)
[1] 0.5750804
Análisis de datos bivariantes
Y
Coe9iciente de correlación entre las variables X e Y
32
Análisis de datos bivariantes
rXY = 0,575 2 4 6 8 10 12 14 0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 educacion re nt a
33
Análisis de datos bivariantes
rXY = 0,786 2 4 6 8 10 12 14 6 7 8 9 10 11 educacion lo g(re nt a)
34
Análisis de datos bivariantes
-3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6
Correlación positiva perfecta
X Y -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6
Correlación negativa perfecta
X
35
Análisis de datos bivariantes
rXY = 0,96 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6 rXY = 0,4736
Análisis de datos bivariantes
Un rXY cercano a 0 se interpreta como una débil asociación lineal
0 1 2 3 4 5 6 3.0 3.5 4.0 4.5 5.0 5.5 Correlación débil X Y 0 1 2 3 4 5 6 -2 0 2 4 6 8 sampleS + 3 3 + sa mp le N ^3 rXY = 0,03 rXY = -‐0,01
37
1. Ejemplo de datos tabulados
Nota 2 3 4 5 6 7 8 9 10
Alumnos 2 2 6 18 15 9 7 3 1
Calcular:
a) Nota media.
b) Nota mínima del 10 por ciento de los mejores alumnos .
c) Varianza de las calieicaciones de Estadística II.
d) Diagrama de caja. ¿Hay algún valor atípico?
e) Histograma de las calieicaciones anteriores.
Los siguientes datos recogen una muestra de notas de la asignatura de Estadística II del Grado en Economía:
38
2. Ejemplo de datos tabulados
Nº accidentes\años de carnet 2 5 10 15
0 3 2 15 20
1 7 10 12 13
2 15 9 5 2
La siguiente tabla recoge información sobre el número de accidentes en el último año y los años de carnet de conducir de una muestra de clientes de una aseguradora:
a) Calcular la covarianza y el coeeiciente de correlación entre el número
de años de carnet y el número de accidentes.
b) Representar gráeicamente la relación entre ambas variables por