Estadística con R. Nivel Básico

(1)

1

Estadística con R

. Nivel Básico

Vanesa Jordá

Departamento de Economía Universidad de Cantabria 11 de octubre de 2017

(2)

2 Índice

u 

Datos univariantes:

I.  Medidas de posición

II.  Medidas de dispersión

III.  Representación grá9ica de los datos

IV.  Medidas de forma

u 

Datos bivariantes:

I.  Coe9iciente de correlación

II.  Grá9ico de dispersión

(3)

3

Conceptos previos

La estadística descriptiva se emplea para resumir la información proporcionada por un determinado conjunto de datos. (Vanesa)

La inferencia estadística emplea modelos para describir una determinada variable aleatoria (X), considerando el conjunto de datos a estudiar una muestra de observaciones idéntica e independientemente distribuidas (i.i.d) con la misma distribución de X. (José María)

Se puede estudiar una o varias variables simultáneamente, siendo interesante analizar en este último caso la relación entre ellas.

(4)

4 Partimos de un conjunto de n datos:

x₁,…, x_n

Correspondientes al valor de una determinada variable, e.g. renta, edad, número de hijos, etcétera.

En esta parte del curso vamos a emplear el conjunto de datos contenido en el archivo datos2.txt, que contiene la renta per cápita de los países

del mundo en dólares internacionales de 2011 y los años promedio de educación (World Development Indicators, 2016).

Nuestro objetivo será resumir la información contenida en este conjunto de datos.

(5)

5

Medidas de posición

NOTA: Es muy sensible a los valores atípicos y observaciones extremas.

Media aritmética

Es una medida de tendencia central (me indica en torno a qué valor se sitúan mis datos)

Ejemplo: Cálculo de la media de los datos de renta de datos2.txt.

mean(renta)

(6)

6

Medidas de posición

n impar: x_([_n_+1]/2)

n par: media de x₍_n_/2), x_([_n_/2+1)

NOTA: Es menos sensible que la media a valores atípicos y valores

extremos.

Mediana

Considerando los datos ordenados de menor a mayor, la mediana es el valor que deja a izquierda y derecha el mismo número de observaciones.

Ordenamos en primer lugar los datos: x₍₁₎,…, x_(n)

Ejemplo: Cálculo de la mediana de los datos de renta de datos2.txt.

median(renta)

(7)

7

Medidas de posición

NOTA: Es menos sensible que la media a valores atípicos y valores

extremos

Mediana

Ejemplo: Cálculo de la media y la mediana de los datos de renta de datos2.txt menos su máximo.

mean(renta2) median(renta2)

[1] 14823.54 [1] 9460.94

mean(renta) median(renta)

(8)

8

Medidas de posición

El cuantil de orden p (q_p) el el valor que deja a la izquierda un p% de las observaciones (i.e. p% de los datos menores que ese valor).

Cuantiles

Casos particulares:

Cuartiles: dividen los datos en cuatro bloques.

Q₁: deja a la izquierda el 25% de las observaciones.

Q₂– mediana: deja a la izquierda el 50% de las observaciones. Q₃: deja a la izquierda el 75% de las observaciones.

Q₄– máximo: deja a la izquierda el 100% de las observaciones.

Deciles: dividen los datos en diez bloques.

(9)

9

Medidas de posición

Para calcular el cuantil de orden p (q_p) descomponemos la observación

x₍_p_[_n_-‐1]+1) en su parte entera y decimal:

p(n-‐1)+1= j+k

donde j es la parte entera y k la parte decimal [0,1], siendo el cuantil q_p

q_p = (1-‐k) x_(j) + k x_(j+₁₎

Cuantiles

Ejemplo: Cálculo la mediana de los datos de renta de datos2.txt. >quantile(renta,0.1) 1318.772 >0.9*rentaord[14]+0.1*rentaord[15] 1318.772

(10)

10

Medidas de dispersión

La varianza mide la distancia de los datos a la media:

La desviación típica es la raíz positiva de la varianza, siendo su principal ventaja con respecto a ésta que viene representada en las mismas unidades que la variable.

NOTAS

•  Ambas medidas de dispersión son muy sensibles a los valores extremos.

•  No es posible comparar la dispersión de dos variables en diferentes unidades

de medida con estos estadísticos.

(11)

11

Medidas de dispersión

Es una medida de dispersión relativa, que permite la comparación de la dispersión de dos variables medidas en distintas unidades.

Coe9iciente de variación (CV)

Ejemplo: Cálculo de varianza, desv. típica y CV de ingreso y educación.

> var(renta) var(educacion) [1] 309647374 9.676187 > sd(renta) sd(educacion) [1] 17596.8 3.110657 > sd(renta)/mean(renta) sd(educacion)/mean(educacion) [1] 1.129124 0.3777431

(12)

12

Medidas de dispersión

Estas dos medidas de dispersión emplean la relaciones entre los cuartiles:

La principal diferencia entre ambas es que la segunda nos permite comparar la dispersión de dos variables independientemente de la escala.

Recorrido intercuartílico y semi-‐intercuartílico

Ejemplo: Recorrido intercuartílico y semi-‐intercuartílico de la renta per cápita RI<-‐quantile(renta,0.75)-‐quantile(renta,0.25) 19485.99 RSI<-‐RI/(quantile(renta,0.75)+quantile(renta,0.25)) 0.7380748

(13)

13

Representación grá9ica

Diagrama de caja (box plot)

0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 Q₃ Q₁ Q2 Q₁-‐1.5RI Q₃+1.5RI Observaciones atípicas

(14)

14

Representación grá9ica

Histograma

Sea a₁<…<a_i<a_i₊₁<…, deeinimos

para t perteneciente al intervalo (a_i, a_i₊₁]. La amplitud del intervalo se deeine como h_n= a_i₊₁-‐a_i, mientras que I₍_ai_,_ai_+1] es un indicador que vale 1 si la observación se encuentra en dicho intervalo y cero en caso contrario.

Ejemplo: Histograma para la variable ingreso.

hist(renta)

(15)

15

Representación grá9ica

Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80

Es algo simple!

(16)

16

Representación grá9ica

Histograma del PIB per cápita

PIB per cápita

F re cu en ci a 0 20000 40000 60000 80000 100000 0 20 40 60 80 100

(17)

17

Representación grá9ica

Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 100 120 Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 Histogram of muestra muestra F re qu en cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0

5

10

(18)

18

Representación grá9ica

Estimadores núcleo o kernel

Es una forma soeisticada de representar la distribución de los datos.

Se puede generalizar este método reemplazando la densidad uniforme por una función de densidad determinada que denominamos kernel o núcleo.

El más utilizado (y el que se emplea por defecto en R) es el núcleo gaussiano.

(19)

19

Representación grá9ica

Estimadores núcleo o kernel

fn

(

t

) f(tn

(20)

20

Representación grá9ica

Estimadores núcleo o kernel

El estimador kernel viene dado por:

Ejemplo: Estimación kernel de la función de densidad de la variable ingreso.

(21)

21

Representación grá9ica

0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5

(22)

22

Representación grá9ica

Histogram of muestra muestra D en si ty 0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 6e -0 5

(23)

23

Representación grá9ica

0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel triangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel rectangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel gaussiano N = 167 Bandwidth = 4264 D en si ty

(24)

24

Representación grá9ica

0e+00 5e+04 1e+05

0. 0e +0 0 5. 0e -0 6 1. 0e -0 5 1. 5e -0 5 2. 0e -0 5 2. 5e -0 5 3. 0e -0 5 density.default(x = muestra, bw = 8000) N = 167 Bandwidth = 8000 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 density.default(x = muestra) N = 167 Bandwidth = 4264 D en si ty

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0e +0 0 2e -0 5 4e -0 5 6e -0 5 8e -0 5 density.default(x = muestra, bw = 1000) N = 167 Bandwidth = 1000 D en si ty

(25)

25

Medidas de forma

§  g₁ = 0, la distribución es simétrica.

§  g₁ < 0, la distribución es asimétrica negativa.

§  g₁ > 0, la distribución es asimétrica positiva.

Coe9iciente de asimetría

Ejemplo:

library(moments)

skewness(renta) [1] 2.346271

(26)

26

Medidas de forma

-1e+05 -5e+04 0e+00 5e+04 1e+05

0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 density.default(x = sampleP, bw = 4000) N = 1000 Bandwidth = 4000 D en si ty

(27)

27

Medidas de forma

Mide el grado de apuntamiento de la distribución con respecto a la distribución normal estándar

§  g₂ = 0, la distribución es mesocúrtica.

§  g₂ < 0, la distribución es platicúrtica.

§  g₂ > 0, la distribución es leptocúrtica.

Coe9iciente de curtosis

Ejemplo:

library(moments)

kurtosis(renta)-‐3 [1] 8.320581

(28)

28

Medidas de forma

-20 -10 0 10 20 0.00 0.05 0.10 0.15 0.20 density.default(x = sampleN, bw = 2) N = 1000 Bandwidth = 2 D en si ty

(29)

29

Análisis de datos bivariantes

En este caso observamos dos variables de cada uno de los componentes de la muestra.

Ejemplo: Relación entre el capital humano de un país y su nivel de renta.

Los objetivos del análisis de bivariante (multivariante, en términos generales) es entender la relación que existe entre las variables. Para ello empleamos:

1.  Estadísticos resumen. La covarianza y el coeeiciente de correlación.

(30)

30

Covarianza entre las variables X e Y

Ejemplo:

cov(renta,educacion)

[1] 32489.33

Análisis de datos bivariantes

La covarianza determina el tipo de relación lineal entre las variables X e Y

La magnitud de este estadístico no es informativa, dado que depende de la unidad de medida de la variable, lo que es relevante es su signo.

(31)

31 Proporciona una medida del grado de relación lineal entre las variables.

§  r_XY = 0, no existe relación lineal entre las variables.

§  r_XY = 1, relación lineal positiva perfecta entre las variables.

§  r_XY= -‐1, relación lineal negativa perfecta entre las variables.

§  0< r_XY < 1, relación lineal positiva entre las variables.

§  -‐1< r_XY < 0, relación lineal negativa entre las variables.

Ejemplo:

cor(renta,educacion)

[1] 0.5750804

Análisis de datos bivariantes

Y

Coe9iciente de correlación entre las variables X e Y

(32)

32

Análisis de datos bivariantes

r_XY= 0,575 2 4 6 8 10 12 14 0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 educacion re nt a

(33)

33

Análisis de datos bivariantes

r_XY= 0,786 2 4 6 8 10 12 14 6 7 8 9 10 11 educacion lo g(re nt a)

(34)

34

Análisis de datos bivariantes

-3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6

Correlación positiva perfecta

X Y -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6

Correlación negativa perfecta

X

(35)

35

Análisis de datos bivariantes

r_XY= 0,96 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6 rXY = 0,47

(36)

36

Análisis de datos bivariantes

Un r_XY cercano a 0 se interpreta como una débil asociación lineal

0 1 2 3 4 5 6 3.0 3.5 4.0 4.5 5.0 5.5 Correlación débil X Y 0 1 2 3 4 5 6 -2 0 2 4 6 8 sampleS + 3 3 + sa mp le N ^3 r_XY= 0,03 r_XY= -‐0,01

(37)

37

1. Ejemplo de datos tabulados

Nota 2 3 4 5 6 7 8 9 10

Alumnos 2 2 6 18 15 9 7 3 1

Calcular:

a)  Nota media.

b)  Nota mínima del 10 por ciento de los mejores alumnos .

c)  Varianza de las calieicaciones de Estadística II.

d)  Diagrama de caja. ¿Hay algún valor atípico?

e)  Histograma de las calieicaciones anteriores.

Los siguientes datos recogen una muestra de notas de la asignatura de Estadística II del Grado en Economía:

(38)

38

2. Ejemplo de datos tabulados

Nº accidentes\años de carnet 2 5 10 15

0 3 2 15 20

1 7 10 12 13

2 15 9 5 2

La siguiente tabla recoge información sobre el número de accidentes en el último año y los años de carnet de conducir de una muestra de clientes de una aseguradora:

a)  Calcular la covarianza y el coeeiciente de correlación entre el número

de años de carnet y el número de accidentes.

b)  Representar gráeicamente la relación entre ambas variables por

Estadística con R. Nivel Básico