• No se han encontrado resultados

Estadística con R. Nivel Básico

N/A
N/A
Protected

Academic year: 2021

Share "Estadística con R. Nivel Básico"

Copied!
38
0
0

Texto completo

(1)

1

Estadística con R

. Nivel Básico

Vanesa Jordá

Departamento de Economía Universidad de Cantabria 11 de octubre de 2017

(2)

2 Índice  

u 

 Datos  univariantes:  

I. Medidas  de  posición  

II. Medidas  de  dispersión  

III.  Representación  grá9ica  de  los  datos  

IV.  Medidas  de  forma  

u 

 Datos  bivariantes:  

I. Coe9iciente  de  correlación  

II. Grá9ico  de  dispersión  

(3)

3

Conceptos  previos  

La   estadística   descriptiva   se   emplea   para   resumir   la   información   proporcionada  por  un  determinado  conjunto  de  datos.  (Vanesa)  

 

La   inferencia   estadística   emplea   modelos   para   describir   una   determinada  variable  aleatoria  (X),  considerando  el  conjunto  de  datos  a   estudiar    una  muestra  de  observaciones  idéntica  e  independientemente   distribuidas  (i.i.d)  con  la  misma  distribución  de  X.  (José  María)  

 

Se   puede   estudiar   una   o   varias   variables   simultáneamente,   siendo   interesante  analizar  en  este  último  caso  la  relación  entre  ellas.  

(4)

4 Partimos  de  un  conjunto  de  n  datos:  

 

x1,…,  xn  

 

Correspondientes  al  valor  de  una  determinada  variable,  e.g.  renta,  edad,   número  de  hijos,  etcétera.  

 

En  esta  parte  del  curso  vamos  a  emplear  el  conjunto  de  datos  contenido   en  el  archivo  datos2.txt,  que  contiene  la  renta  per  cápita  de  los  países  

del  mundo  en  dólares  internacionales  de  2011  y  los  años  promedio  de   educación  (World  Development  Indicators,  2016).  

 

Nuestro   objetivo   será   resumir   la   información   contenida   en   este   conjunto  de  datos.  

(5)

5

Medidas  de  posición  

NOTA:  Es  muy  sensible  a  los  valores  atípicos  y  observaciones  extremas.  

Media  aritmética

 

Es   una   medida   de   tendencia   central   (me   indica   en   torno   a   qué   valor   se   sitúan  mis  datos)  

Ejemplo:  Cálculo  de  la  media  de  los  datos  de  renta  de  datos2.txt.    

mean(renta)  

(6)

6

Medidas  de  posición  

n  impar:  x([n+1]/2)  

n  par:    media  de  x(n/2),  x([n/2+1)  

NOTA:  Es  menos  sensible  que  la  media  a  valores  atípicos  y  valores  

extremos.  

Mediana

 

Considerando   los   datos   ordenados   de   menor   a   mayor,   la   mediana   es   el   valor  que  deja  a  izquierda  y  derecha  el  mismo  número  de  observaciones.    

Ordenamos  en  primer  lugar  los  datos:    x(1),…,  x(n)  

Ejemplo:  Cálculo  de  la  mediana  de  los  datos  de  renta  de  datos2.txt.    

median(renta)  

(7)

7

Medidas  de  posición  

NOTA:  Es  menos  sensible  que  la  media  a  valores  atípicos  y  valores  

extremos    

Mediana

 

Ejemplo:   Cálculo   de   la   media   y   la   mediana   de   los   datos   de   renta   de   datos2.txt  menos  su  máximo.  

 

mean(renta2)      median(renta2)  

[1]  14823.54        [1]  9460.94  

mean(renta)        median(renta)  

(8)

8

Medidas  de  posición  

El  cuantil  de  orden  p  (qp)  el  el  valor  que  deja  a  la  izquierda  un  p%  de  las   observaciones  (i.e.  p%  de  los  datos  menores  que  ese  valor).  

Cuantiles

 

Casos  particulares:    

 

Cuartiles:  dividen  los  datos  en  cuatro  bloques.  

 Q1:  deja  a  la  izquierda  el  25%  de  las  observaciones.  

 Q2  –  mediana:  deja  a  la  izquierda  el  50%  de  las  observaciones.    Q3:  deja  a  la  izquierda  el  75%  de  las  observaciones.  

 Q4  –  máximo:  deja  a  la  izquierda  el  100%  de  las  observaciones.  

 

Deciles:  dividen  los  datos  en  diez  bloques.  

 

(9)

9

Medidas  de  posición  

Para   calcular   el   cuantil   de   orden  p  (qp)   descomponemos   la   observación  

x(p[n-­‐1]+1)  en  su  parte  entera  y  decimal:  

 

p(n-­‐1)+1=  j+k  

 

donde  j  es  la  parte  entera  y  k  la  parte  decimal  [0,1],  siendo  el  cuantil  qp    

 

qp    =  (1-­‐k)  x(j)  +  k  x(j+1)  

   

Cuantiles

 

Ejemplo:  Cálculo  la  mediana  de  los  datos  de  renta  de  datos2.txt.     >quantile(renta,0.1)    1318.772     >0.9*rentaord[14]+0.1*rentaord[15]    1318.772          

(10)

10

Medidas  de  dispersión  

La  varianza  mide  la  distancia  de  los  datos  a  la  media:    

       

La  desviación  típica  es  la  raíz  positiva  de  la  varianza,  siendo  su  principal  ventaja   con   respecto   a   ésta   que   viene   representada   en   las   mismas   unidades   que   la   variable.  

 

NOTAS  

•  Ambas  medidas  de  dispersión  son  muy  sensibles  a  los  valores  extremos.  

•  No  es  posible  comparar  la  dispersión  de  dos  variables  en  diferentes  unidades  

de  medida  con  estos  estadísticos.    

   

   

(11)

11

Medidas  de  dispersión  

Es  una  medida  de  dispersión  relativa,  que  permite  la  comparación  de  la   dispersión  de  dos  variables  medidas  en  distintas  unidades.  

 

Coe9iciente  de  variación  (CV)

 

Ejemplo:  Cálculo  de  varianza,  desv.  típica  y  CV  de  ingreso  y  educación.  

  >  var(renta)      var(educacion)   [1]  309647374      9.676187   >  sd(renta)      sd(educacion)   [1]  17596.8      3.110657     >  sd(renta)/mean(renta)  sd(educacion)/mean(educacion)   [1]  1.129124      0.3777431  

(12)

12

Medidas  de  dispersión  

Estas  dos  medidas  de  dispersión  emplean  la  relaciones  entre  los  cuartiles:    

     

La   principal   diferencia   entre   ambas   es   que   la   segunda   nos   permite   comparar  la  dispersión  de  dos  variables  independientemente  de  la  escala.    

Recorrido  intercuartílico  y  semi-­‐intercuartílico

 

Ejemplo:  Recorrido  intercuartílico  y  semi-­‐intercuartílico  de  la  renta  per   cápita     RI<-­‐quantile(renta,0.75)-­‐quantile(renta,0.25)   19485.99     RSI<-­‐RI/(quantile(renta,0.75)+quantile(renta,0.25))   0.7380748      

(13)

13

Representación  grá9ica  

Diagrama  de  caja  (box  plot)

 

0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 Q3   Q1   Q2   Q1-­‐1.5RI   Q3+1.5RI   Observaciones     atípicas  

(14)

14

Representación  grá9ica  

Histograma  

Sea  a1<…<ai<ai+1<…,  deeinimos          

para  t  perteneciente  al  intervalo  (ai,  ai+1].    La  amplitud  del  intervalo  se   deeine  como  hn=  ai+1-­‐ai,  mientras  que  I(ai,  ai+1]  es  un  indicador  que  vale  1  si   la  observación  se  encuentra  en  dicho  intervalo  y  cero  en  caso  contrario.  

Ejemplo:  Histograma  para  la  variable  ingreso.  

 

hist(renta)    

(15)

15

Representación  grá9ica  

Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80

Es  algo  simple!  

(16)

16

Representación  grá9ica  

Histograma del PIB per cápita

PIB per cápita

F re cu en ci a 0 20000 40000 60000 80000 100000 0 20 40 60 80 100

(17)

17

Representación  grá9ica  

Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 100 120 Histogram of muestra muestra F re qu en cy 0 20000 40000 60000 80000 120000 0 20 40 60 80 Histogram of muestra muestra F re qu en cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0

5

10

(18)

18

Representación  grá9ica  

Estimadores  núcleo  o  kernel  

Es  una  forma  soeisticada  de  representar  la  distribución  de  los  datos.    

   

Se   puede   generalizar   este   método   reemplazando   la   densidad   uniforme   por   una   función   de   densidad   determinada   que   denominamos   kernel   o   núcleo.  

 

El   más   utilizado   (y   el   que   se   emplea   por   defecto   en   R)   es   el   núcleo   gaussiano.  

(19)

19

Representación  grá9ica  

Estimadores  núcleo  o  kernel  

fn

(

t

) f(tn

(20)

20

Representación  grá9ica  

Estimadores  núcleo  o  kernel  

 

El  estimador  kernel  viene  dado  por:  

Ejemplo:   Estimación   kernel   de   la   función   de   densidad   de   la   variable   ingreso.  

 

(21)

21

Representación  grá9ica  

0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5

(22)

22

Representación  grá9ica  

Histogram of muestra muestra D en si ty 0 20000 40000 60000 80000 100000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 6e -0 5

(23)

23

Representación  grá9ica  

0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel triangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel rectangular N = 167 Bandwidth = 4264 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 Kernel gaussiano N = 167 Bandwidth = 4264 D en si ty

(24)

24

Representación  grá9ica  

0e+00 5e+04 1e+05

0. 0e +0 0 5. 0e -0 6 1. 0e -0 5 1. 5e -0 5 2. 0e -0 5 2. 5e -0 5 3. 0e -0 5 density.default(x = muestra, bw = 8000) N = 167 Bandwidth = 8000 D en si ty 0 20000 40000 60000 80000 120000 0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 density.default(x = muestra) N = 167 Bandwidth = 4264 D en si ty

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0e +0 0 2e -0 5 4e -0 5 6e -0 5 8e -0 5 density.default(x = muestra, bw = 1000) N = 167 Bandwidth = 1000 D en si ty

(25)

25

Medidas  de  forma    

§  g1  =  0,  la  distribución  es  simétrica.  

§  g1  <  0,  la  distribución  es  asimétrica  negativa.  

§  g1  >  0,  la  distribución  es  asimétrica  positiva.  

Coe9iciente  de  asimetría

 

Ejemplo:  

 

library(moments)  

skewness(renta)   [1]  2.346271  

(26)

26

Medidas  de  forma  

-1e+05 -5e+04 0e+00 5e+04 1e+05

0e +0 0 1e -0 5 2e -0 5 3e -0 5 4e -0 5 5e -0 5 density.default(x = sampleP, bw = 4000) N = 1000 Bandwidth = 4000 D en si ty

(27)

27

Medidas  de  forma  

Mide  el  grado  de  apuntamiento  de  la  distribución  con  respecto  a  la   distribución  normal  estándar    

§  g2  =  0,  la  distribución  es  mesocúrtica.  

§  g2  <  0,  la  distribución  es  platicúrtica.  

§  g2  >  0,  la  distribución  es  leptocúrtica.  

Coe9iciente  de  curtosis

 

Ejemplo:  

 

library(moments)  

kurtosis(renta)-­‐3   [1]  8.320581  

(28)

28

Medidas  de  forma  

-20 -10 0 10 20 0.00 0.05 0.10 0.15 0.20 density.default(x = sampleN, bw = 2) N = 1000 Bandwidth = 2 D en si ty

(29)

29

Análisis  de  datos  bivariantes  

En  este  caso  observamos  dos  variables  de  cada  uno  de  los  componentes   de  la  muestra.  

 

Ejemplo:  Relación  entre  el  capital  humano  de  un  país  y  su  nivel  de  renta.  

 

Los   objetivos   del   análisis   de   bivariante   (multivariante,   en   términos   generales)   es   entender   la   relación   que   existe   entre   las   variables.   Para   ello  empleamos:  

 

1.  Estadísticos  resumen.  La  covarianza  y  el  coeeiciente  de  correlación.    

(30)

30

Covarianza  entre  las  variables  X  e  Y

 

Ejemplo:  

 

cov(renta,educacion)    

[1]  32489.33  

Análisis  de  datos  bivariantes  

La  covarianza  determina  el  tipo  de  relación  lineal  entre  las  variables  X  e  Y    

     

 

La  magnitud  de  este  estadístico  no  es  informativa,  dado  que  depende  de   la  unidad  de  medida  de  la  variable,  lo  que  es  relevante  es  su  signo.  

(31)

31 Proporciona  una  medida  del  grado  de  relación  lineal  entre  las  variables.  

§  rXY  =  0,  no  existe  relación  lineal  entre  las  variables.  

§  rXY  =  1,  relación  lineal  positiva  perfecta  entre  las  variables.  

§  rXY  =  -­‐1,  relación  lineal  negativa  perfecta  entre  las  variables.  

§  0<  rXY  <  1,  relación  lineal  positiva  entre  las  variables.  

§  -­‐1<  rXY  <  0,  relación  lineal  negativa  entre  las  variables.  

Ejemplo:  

 

cor(renta,educacion)    

[1]  0.5750804  

Análisis  de  datos  bivariantes  

Y

Coe9iciente  de  correlación  entre  las  variables  X  e  Y

 

     

(32)

32

Análisis  de  datos  bivariantes  

rXY  =  0,575   2 4 6 8 10 12 14 0e +0 0 2e +0 4 4e +0 4 6e +0 4 8e +0 4 1e +0 5 educacion re nt a

(33)

33

Análisis  de  datos  bivariantes  

rXY  =  0,786   2 4 6 8 10 12 14 6 7 8 9 10 11 educacion lo g(re nt a)

(34)

34

Análisis  de  datos  bivariantes  

-3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6

Correlación positiva perfecta

X Y -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6

Correlación negativa perfecta

X

(35)

35

Análisis  de  datos  bivariantes  

rXY  =  0,96   -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -6 -4 -2 0 2 4 6 rXY  =  0,47  

(36)

36

Análisis  de  datos  bivariantes  

Un  rXY    cercano  a  0  se  interpreta  como  una  débil  asociación  lineal  

0 1 2 3 4 5 6 3.0 3.5 4.0 4.5 5.0 5.5 Correlación débil X Y 0 1 2 3 4 5 6 -2 0 2 4 6 8 sampleS + 3 3 + sa mp le N ^3 rXY  =  0,03   rXY  =  -­‐0,01  

(37)

37

1.  Ejemplo  de  datos  tabulados  

Nota   2   3   4   5   6   7   8   9   10  

Alumnos   2   2   6   18   15   9   7   3   1  

Calcular:  

 

a)  Nota  media.  

b)  Nota  mínima  del  10  por  ciento  de  los  mejores  alumnos  .  

c)  Varianza  de  las  calieicaciones  de  Estadística  II.  

d)  Diagrama  de  caja.  ¿Hay  algún  valor  atípico?  

e)  Histograma  de  las  calieicaciones  anteriores.  

Los  siguientes  datos  recogen  una  muestra  de  notas  de  la  asignatura  de   Estadística  II  del  Grado  en  Economía:  

(38)

38

2.  Ejemplo  de  datos  tabulados  

Nº  accidentes\años  de  carnet   2   5   10   15  

0   3   2   15   20  

1   7   10   12   13  

2   15   9   5   2  

La  siguiente  tabla  recoge  información  sobre  el  número  de  accidentes  en   el  último  año  y  los  años  de  carnet  de  conducir  de  una  muestra  de  clientes   de  una  aseguradora:  

a)  Calcular  la  covarianza  y  el  coeeiciente  de  correlación  entre  el  número  

de  años  de  carnet  y  el  número  de  accidentes.  

b)  Representar  gráeicamente  la  relación  entre  ambas  variables  por  

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Como medida de precaución, puesto que talidomida se encuentra en el semen, todos los pacientes varones deben usar preservativos durante el tratamiento, durante la interrupción

 En el apartado 4.6 de la Ficha Técnica y 6 del Prospecto se añade la frase “En muy raras ocasiones se han notificado reacciones de hipersensibiliad, incluyendo anafilaxia (en

Además de aparecer en forma de volumen, las Memorias conocieron una primera difusión, a los tres meses de la muerte del autor, en las páginas de La Presse en forma de folletín,

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

Se definió como “gestante candidata a la aplicación de la GPCAPN”, a una gestante con parto hospitalario, sin patología gravídica (materna, del líquido amniótico o

• Objetivo: Prevenir o disminuir las discapacidades y conseguir un mayor grado de funcionalidad e independencia, mejorando así la calidad de vida de los pacientes.. Rol de