ANALISIS EXPLORATORIO

(1)

ESTAD´ISTICA

Grado en CC. de la Alimentaci´on

Tema 1:

(2)

Estructura del Tema 1

• Tipos de variables

• Distribuci´on de una variable

• Representación gráfica de la distribución

• Medidas num´ericas para resumir la distribuci´on

• Correlaci´on

(3)

Introducci´

on

Queremos estudiar una caracter´ıstica ovariable en unapoblaci´on.

Ejemplos:

• Contenido en grasa de una hamburguesa de una cierta marca

• Cantidad de alb´umina por litro de suero sangu´ıneo de una persona

• Longitud de los peces de una cierta especie en un lago

• Marca de e-book preferida por un comprador

• Porcentaje de una vitamina perdida al irradiar una fruta

A veces es imposible o demasiado caro observar la variable en toda la poblaci´on (censo), as´ı que se extrae una muestra. Llamamos

individuoo elemento a cada miembro de la poblaci´on o de la muestra.

(4)

• Población: Conjunto de elementos objeto de estudio (niños menores de 6 meses; personas con ´ındice de masa corporal superior a 25; piñas exportadas por la India; pepinos ecológicos producidos en Andaluc´ıa; etc.).

• Muestra: Subconjunto de la poblaci´on en el que se observa la variable de inter´es.

• Tama˜no muestral: Cardinal de la muestra (se suele denotarn).

(5)

Pregunta:¿Por qu´e necesitamos de una muestra y no estudiamos toda la poblaci´on (censo)?

1 En poblaciones infinitas (o de tama˜no muy grande) es

materialmente imposible efectuar un censo.

2 Coste econ´omico m´as reducido.

3 Menor tiempo empleado.

4 En ocasiones los elementos muestreados se destruyen o

modifican en el proceso. Por ejemplo, pruebas de airbag o de armamento explosivo.

5 Precisi´on: En muchos casos, la recogida de la informaci´on

muestral se puede realizar de forma m´as fiable y controlada

(6)

Clases importantes de variables estad´ısticas

Variables cualitativas

Soncualidadeso atributos de los individuos. No son un n´umero: no podemos operar con sus valores.

Ejemplos:

• Sexo de un individuo: hombre o mujer

• Grado de reacciones secundarias a un tratamiento oncol´ogico (alto,

medio, bajo)

• Tiempo (soleado, lluvioso, parcialmente cubierto, ...) en una zona

A veces se asigna un n´umero a cada una de las cualidades. Por ej.,

si la v. cualitativa es el sexo de un paciente, podemos asignar a

(7)

Tenemos una muestra de tama˜non: hemos observado n datos, que

agrupamos enK categor´ıas o clases.

Ejemplo 1.1:Variable = Estado de una pieza de fruta recolectada en una huerta

Categor´ıa= Perfecta, aceptable, pasada, verde, podrida⇒ K =

Llamamosfrecuencia absolutaal n´umero de frutas observados en

cada una de las categor´ıas:

n1 = 23, n2 = 5, n3= 20, n4 = 7, n5 = 15 ⇒n=

La proporci´on de datos observados en cada clasefi =

ni n se

denominafrecuencia relativa. Observemos que siempre fi ≥0 y

f1+f2+. . .+fK = 1.

f1= , f2 = , f3= , f4 = , f5= .

Representaciones gr´aficas: diagrama de barras, diagrama de Pareto

(8)

Variables cuantitativas

Miden algocuantificable en cada individuo. Toman valores

num´ericos. Las denotamos por X,Y,Z, ...

Si la variable cuantitativa s´olo puede tomar una cantidad finita o

numerable de valores entonces es unavariable discreta.

Ejemplos:Número de hijos de una familia, número de goles de un equipo en cada partido, número de accesos diarios a una página web.

Lasvariables continuas pueden tomar una cantidad infinita no numerable de valores.

Ejemplos:La estatura de una persona, el nivel de alcohol en sangre de un individuo, el contenido en hierro de un mineral.

(9)

Descripci´

on gr´

afica de variables cuantitativas

Variables discretas: diagrama de barras

Ejemplo 1.2:Se realiza un examen tipo test con 5 preguntas a un grupo de estudiantes.

No _respuestas

correctas N

o _{estudiantes (}_n

i) Frecuencia_relativa_f i

Frecuencia

acumulada Fi

0 3

1 11

2 9

3 20

4 5

5 2

(10)

Respuestas

5 4

3 2

1 0

Recuento

20

15

10

5

0

(11)

Variables continuas: histograma

Se agrupan los datos en una serie de clases o intervalosA1, . . . ,Ak.

Calculamos la frecuencia absolutani de cada intervalo Ai (no _de

observaciones enAi). Cada dato debe pertenecer a s´olo una clase.

Se representan los l´ımites de los intervalos sobre el eje de abscisas. Luego se dibujan rect´angulos cuya base es el intervalo y cuyo ´area es la frecuencia absoluta de cada intervalo (ni).

En la pr´actica, dadas unas observaciones, elegimos nosotros el

l´ımite inferior del primer intervalo y la amplitud.

Por ejemplo, se determina primero elrangode valores de los datos

(m´aximo - m´ınimo de las observaciones).

Luego se subdivide el rango enm intervalos iguales. Es habitual

tomarm'√n, siendon el n´umero total de observaciones.

A veces se utiliza la frecuencia relativafi en lugar de la frecuencia

(12)

Ejemplo 0 (contaminaci´on por mercurio en el pescado):

M´ınimo = 0,11 M´aximo = 3,60 Rango = 3,49

n= 171→√n'13→Rango/√n '0,27

CONC

4 3

2 1

0

Frecuencia

50

40

30

20

10

0

(13)

Aspectos a tener en cuenta para interpretar un histograma

• Normalmente la base de todos los rect´angulos es la misma por

lo que la altura es proporcional a la frecuencia.

• Identificar si se han usado frecuencias absolutas o relativas.

• ¿Cu´antas modas hay?

• ¿Hay alg´un dato at´ıpico en relaci´on al resto?

• ¿Es sim´etrica la distribuci´on?

• En caso de asimetr´ıa, ¿es asim´etrica a la izquierda o a la derecha

• ¿En torno a qu´e valor aproximado est´an centrados los datos?

• ¿Est´an muy dispersos los datos en torno a este centro o muy

(14)

0 10 20 30 40 50

Distribución simétrica unimodal 0 10 20 30 40

Distribución simétrica bimodal

0 20 40 60 80 100

Distribución asimétrica a la derecha 0 20 40 60 80 100

(15)

La forma del histograma depende del n´umero de intervalos:

1,00 2,00 3,00

CONC 0 25 50 75 R e c u e n to

1,00 2,00 3,00

(16)

Ejemplo 1.3 (ars´enico en u˜nas):

En Karagaset al. (1996) se estudia el contenido en ars´enico (en

p.p.m.) de las uñas de los pies como indicador de la presencia de arsénico en el agua de bebida. La muestra está formada por 21 libaneses que utilizaban pozos particulares (ilegales):

Edad _{(1=V, 2=M)}Sexo Uso en_bebida _comidaUso en As en agua As en u˜nas

44 2 5 5 .00087 .119

45 2 4 5 .00021 .118

44 1 5 5 0 .099

66 2 3 5 .00115 .118

37 1 2 5 0 .277

45 2 5 5 0 .358

47 1 5 5 .00013 .08

38 2 4 5 .00069 .158

41 2 3 2 .00039 .31

49 2 4 5 0 .105

72 2 5 5 0 .073

45 2 1 5 .046 .832

53 1 5 5 .0194 .517

86 2 5 5 .137 2.252

8 2 5 5 .0214 .851

32 2 5 5 .0175 .269

44 1 5 5 .0764 .433

63 2 5 5 0 .141

42 1 5 5 .0165 .275

62 1 5 5 .00012 .135

(17)

(18)

Resumen num´

erico de datos cuantitativos

Medidas de centralización, posición o localización

Informan acerca de la posici´on alrededor de la cual se “centran” o

distribuyen los datosx1, . . . ,xn (muestra aleatoria).

media muestral= ¯x= x1+x2+. . .+xn

n =

Pn

i=1xi n Ejemplo 1.3 (cont.):

(19)

(20)

La mediana es el dato que ocupa el lugar central respecto a los datos ordenadosx₍₁₎,x₍₂₎, . . . ,x₍_n₎.

Si el tamaño muestral es impar (n = 2m+ 1), med =xm+1. Ejemplo 1.3 (arsénico en uñas):Calcular la media y la mediana.

La mediana esm´as robusta que la media pero hace un uso menos

eficiente de la informaci´on contenida en los datos.

(21)

Si el tama˜no muestral es par (n = 2m), med = xm+xm+1

2 .

Ejemplo 1.4:Contaminaci´on por metilmercurio (p.p.m.) en el sushi de at´un obtenido en 10 tiendas:

0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58

(22)

Medidas de dispersi´on o variabilidad

Dispersi´on respecto a la media

La media es un valor representativo de la variable de interés en la población o en la muestra. Por tanto, es útil para comparar poblaciones o muestras entre s´ı.

Sin embargo, lo bien o lo mal que la media represente a la muestra depende de la dispersi´on de ´esta.

Si los datos están agrupados cerca de la media, ésta será muy representativa de la localización de los datos.

Por el contrario, si los datos est´an muy dispersos, la media no

(23)

Ejemplo 1.5:

Nota obtenida

2 3 4 5 6 7 8 9 10

No _{alumnos grupo A} ₀ ₀ ₀ ₄₀ ₆₀ ₀ ₀ ₀ ₀

No _{alumnos grupo B} ₁ ₅ ₁₅ ₂₄ ₃₁ ₁₈ ₄ ₁ ₁

No _{alumnos grupo C} ₆ ₁₂ ₁₄ ₁₈ ₂₄ ₉ ₃ ₅ ₉

Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo A Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo B Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo C

(24)

Podemos medir las discrepancias de los individuos respecto a la media mediante las diferencias

x1−x¯, x2−¯x, . . . ,xn−¯x.

Desventaja: La suma de estas discrepancias es cero.

Por ello definimos las discrepancias de los individuos respecto a la media como las diferencias al cuadrado

(x1−x¯)2, (x2−x¯)2, . . . ,(xn−x¯)2.

Cuantificamos la dispersi´on de la muestra x1, . . . ,xn en torno a la

media mediante lavarianza muestral

vx = 1

n n

X

i=1

(xi−¯x)2 = 1

n n

X

i=1

(25)

Ejemplo 1.5 (notas en grupos A, B y C):

(26)

Lacuasivarianza muestrales

s2 = 1

n−1

n

X

i=1

(xi −¯x)2 = n n−1vx.

Es lo que muchos programas estad´ısticos llaman varianza muestral.

Ejemplo 1.4 (metilmercurio en sushi):

Una medida más conveniente de la dispersión es ladesviación t´ıpica, que se define como la ra´ız cuadrada de la varianza y se

expresa en las misma unidades queX y ¯x:

(27)

Para comparar la dispersi´on de variables de magnitudes distintas a

veces se usa elcoeficiente de variaci´on CV = √

vx

¯

x . El CV no

depende de las unidades de medida de la variableX (es

adimensional). A mayor CV, menos representativa es la media ¯x.

Ejemplo 1.3 (ars´enico en u˜nas):Sabiendo que

21

X

i=1

xi= 0,34186,

21

X

i=1

yi = 7,695,

21

X

i=1

xi2= 0,02815,

21

X

i=1

yi2= 7,560,

(28)

Dispersi´on respecto a la mediana

Ordenamos las observacionesx1,x2, . . . ,xn de menor a mayor: x(1),x(2), . . . ,x(n).

Q1 = Primer cuartil= La observaci´onx(i) que ocupa el lugar n+ 1

4

Q2 = Mediana= La observaci´onx(i) que ocupa el lugar

2(n+ 1) 4

Q3 = Tercer cuartil= La observaci´onx(i) que ocupa el lugar

3(n+ 1) 4 Cuandon+ 1 no es múltiplo de 4, los cuartiles se pueden calcular por interpolación lineal. En este caso el cuartil será una media

ponderada de la observaci´on ordenada inmediatamente anterior e

inmediatamente posterior.

(29)

(30)

De acuerdo con las anteriores definiciones, responde a las siguientes cuestiones:

¿Qu´e porcentaje de datos hay...

(a) ... entreQ1 yQ3? (b) ... a la izquierda de Q1? (c) ... a la derecha de Q3? (d) ... entre el m´ınimo y Q3?

Una descripción útil de un conjunto de datos viene dada por los cinco números siguientes:

(31)

Elrango intercuart´ılico(RI) es la diferencia entre el primer y el tercer cuartil: RI =Q3−Q1.

Si separamos los datos ordenados en cuatro grupos del mismo tama˜no, el RI mide la distancia entre los grupos m´as extremos.

Para visualizar estas medidas de dispersi´on respecto a la mediana

se utiliza eldiagrama de caja(box plot).

Para construir el diagrama de caja de la muestra, calculamosQ1,

Q2,Q3, RI y los l´ımites inferior y superior del diagrama

LI = La menor observaci´on en el intervalo

[Q1−1,5·RI,Q3+ 1,5·RI]

LS = La mayor observaci´on en el mismo intervalo

Consideramos que un datoxi que se salga del intervalo [LI,LS] es

(32)

Ejemplo 1.3 (ars´enico en u˜nas):

Concentración de As en uñas 2,5

2,0

1,5

1,0

0,5

0,0

14

15 12

(33)

Los diagramas de caja son especialmente ´utiles para comparar varios conjuntos de datos.

Ejemplo 0 (contaminaci´on por mercurio en el pescado):

1,00 ,00

RIO

4,00

2,00

0,00

CONC

162 70

66

(34)

15,00 14,00 13,00 12,00 11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 ,00 ESTACION 4,00 2,00 0,00 CO N C 76 82 24 25 66 138 75 123

(35)

Relaciona cada histograma con su diagrama de cajas

−1

0

1

2

● ●

4

5

6

7

● ● ●

1

2

3

4

(36)

El concepto depercentilo cuantiles una generalizaci´on del de cuartil:Q1 es el percentil 25 (cuantil 0.25 o 25 %), la mediana es el

percentil 50 yQ3 es el percentil 75 (cuantil 0.75 o 75 %).

El percentil 100·p o cuantilp, con 0<p<1, es el punto que deja a la izquierda una proporci´onp de los individuos.

Sip·n no es un número entero, entonces se interpola entre las observaciones ordenadas que están en la posiciónbp·ncy

bp·nc+ 1, dondebzcdenota el mayor entero menor o igual que z.

(37)

Estad´ıstica descriptiva de dos variables (bivariante)

Ahora estamos interesados endos variables estad´ısticasX eY o

un vector bidimensional (X,Y) en cada individuo de una poblaci´on.

X −→ x1,x2, . . . ,xn

Y −→ y1,y2, . . . ,yn

−→(x1,y1), . . . ,(xn,yn)

A partir de la informaci´on muestral deseamos encontrar una

relación funcional aproximada entre Y yX:Y 'g(X). A g la llamamos lafunción de regresióndeY sobre X.

(38)

Ejemplo 1.6 (sabor del queso cheddar)(Moore y McCabe 1989,

Introduction to the Practice of Statistics):

A medida que el queso se a˜neja, se producen procesos qu´ımicos

que determinan el sabor del producto final. En 30 porciones de queso cheddar curado se evalu´o el sabor (Y) y se midi´o la

concentración de ácido láctico (X). La variable sabor resulta de la

combinaci´on de puntuaciones dadas por varios degustadores.

Caso 1 2 3 4 5 6 7 8 9 10

Sabor 12,3 20,9 39,0 47,9 5,6 25,9 37,3 21,9 18,1 21,0 Ac. L´actico 0,86 1,53 1,57 1,81 0,99 1,09 1,29 1,78 1,29 1,58

Caso 11 12 13 14 15 16 17 18 19 20

Sabor 34,9 57, 2 0,7 25,9 54,9 40,9 15,9 6,4 18,0 38,9 Ac. L´actico 1,68 1,90 1,06 1,30 1,52 1,74 1,16 1,49 1,63 1,99

Caso 21 22 23 24 25 26 27 28 29 30

(39)

Ácido láctico

2,2 2,0

1,8 1,6

1,4 1,2

1,0 0,8

Sabor

60

50

40

30

20

10

0

(40)

Interpretaci´on de un diagrama de dispersi´on:

• ¿Se observa alguna asociaci´on entre las variables?

• ¿C´omo es de estrecha la asociaci´on entre las variables?

• ¿Qué forma tiene la asociación entre variables (recta, cuadrática, ...)?

• ¿Cuál es la “dirección” de la asociación entre las variables?

(41)

El modelo más sencillo es el deregresión lineal, en el que Y es función lineal deX, es decir,g(x) =a+bx, recta de pendiente b

y ordenada en el origena.

Covarianzamuestral entre X eY:

covx,y =

1

n n

X

i=1

(xi −x¯)(yi−y¯) =

1

n n

X

i=1

xiyi −x¯y¯

Depende de las unidades en que se midanx e y.

(42)

Larecta de regresi´onde Y sobre X es la recta g(x) =a+bx que minimiza el error cuadr´atico medio

ECM = 1

n n

X

i=1

(yi−a−bxi)2.

b = covx,y

vx a= ¯y−b¯x

(43)

Ácido láctico

2,2 2,0

1,8 1,6

1,4 1,2

1,0 0,8

Sabor

60

50

40

30

20

10

0

(44)

Elcoeficiente de correlaci´on

r= √covx,y

vxvy

mide el grado de relaci´on lineal entre X e Y. S´olo puede tomar valores entre -1 y 1.

No depende de las unidades (es adimensional).

Un valor der cercano a 0 indica ausencia de relaci´on lineal.

3.2 3.4 3.6 3.8 4

−1 −0.8 −0.6 −0.4 −0.2 0

x

(45)

r

xy

=

‐

1 r

xyy

=

1

(46)

A menudo la relación lineal g(x) =a+bx no será la que mejor describa la relación entre X eY, o simplemente no tendrá sentido.

Ejemplo 1.7 (alcalinidad y mercurio en lagos):En 1990 y 1991 se tomaron muestras de percas y agua en 53 lagos de Florida para estudiar los factores ambientales relacionados con la contaminación por mercurio de estos peces. Se midió, por ejemplo, la alcalinidad del agua (mg CaCO3 l−1). El gráfico representa los valores medios

de alcalinidad frente a la concentraci´on media de mercurio (ppm)

para los 53 lagos.

0 20 40 60 80 100 120 140

0 0.2 0.4 0.6 0.8 1 1.2 1.4

(47)

Ejemplo 1.7 (alcalinidad y mercurio en lagos):

Lago Alcalinidad Mercurio Lago Alcalinidad Mercurio Alligator 5.9 1.23 Lochloosa 55.4 0.34

Annie 3.5 1.33 Louisa 3.9 0.84

Apopka 116.0 0.04 Miccasukee 5.5 0.50 Blue Cypress 39.4 0.44 Minneola 6.3 0.34

Brick 2.5 1.20 Monroe 67.0 0.28

Bryant 19.6 0.27 Newmans 28.8 0.34

Cherry 5.2 0.48 Ocean Pond 5.8 0.87

Crescent 71.4 0.19 Ocheese Pond 4.5 0.56 Deer Point 26.4 0.83 Okeechobee 119.1 0.17

Dias 4.8 0.81 Orange 25.4 0.18

Dorr 6.6 0.71 Panasoffkee 106.5 0.19

Down 16.5 0.50 Parker 53.0 0.04

Eaton 25.4 0.49 Placid 8.5 0.49

East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10

Farm-13 128.0 0.05 Rodman 114.0 0.16

George 83.7 0.15 Rousseau 97.5 0.10

Griffin 108.5 0.19 Sampson 11.8 0.48

Harney 61.3 0.77 Shipp 66.5 0.21

Hart 6.4 1.08 Talquin 16.0 0.86

Hatchineha 31.0 0.98 Tarpon 5.0 0.52

Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65 Istokpoga 17.3 0.56 Trafford 81.5 0.27

Jackson 12.6 0.41 Trout 1.2 0.94

Josephine 7.0 0.73 Tsala Apopka 34.0 0.40

Kingsley 10.5 0.34 Weir 15.5 0.43

(48)

Si modelizamos la relaci´on entreX eY incorrectamente, nuestro

modelo no dar´a predicciones fiables de valores desconocidos de Y

en funci´on de valores conocidos deX.

Una soluci´on sencilla es transformar las variablesY y/o X

mediante una funci´on no lineal (logx,x2,ex, . . . ) y calcular la recta de regresi´on entre las variables transformadas.

0 20 40 60 80 100 120 140

−4 −3 −2 −1 0 1 x log(y)

0 1 2 3 4 5

−4 −3 −2 −1 0 1 log(x) log(y)

0 0.2 0.4 0.6 0.8 1

−4 −3 −2 −1 0 1 log(y)

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1 1.2 1.4 y

(49)

Transformar una variable tiene efectos sobre su media, su varianza, su simetr´ıa, ...

Mercurio 1,25 1,00 0,75 0,50 0,25 0,00 Frecuencia 8 6 4 2 0 Media =0,53 Desviación típica =0,341

N =53 LogMercurio 1 0 -1 -2 -3 -4 Frecuencia 10 8 6 4 2 0 Media =-0,91 Desviación típica =0,839

N =53

(50)

Ejemplo 1.8:Peso del cerebro (en g) en funci´on del peso corporal (en kg) para 62 especies de mam´ıferos (Fuente: Allison &

Sacchetti 1976,Science)

0 2000 4000 6000 8000

0 1000 2000 3000 4000 5000 6000

Peso cuerpo (en kg)

Peso cerebro (en g)

Elefante africano

Elefante asiático

Humano

−5 0 5 10

−2 0 2 4 6 8 10

Log(Peso cuerpo)

(51)

Ejemplo 1.6 (sabor del queso cheddar):An´alisis con SPSS Varianza Desv. típ. Media Suma Máximo Mínimo Rango N Sabor Ác. Lactico

N válido (según lista) 30

,092 ,30349 1,4420 43,26 2,01 ,86 1,15 30 264,237 16,2554 24,533 736,0 57,2 ,7 56,5 30 Estadísticos descriptivos Página 1 Ác. Láctico Sabor Correlación de Pearson

Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N

Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Sabor Ác. Láctico 30 30 ,092 3,474 2,671 100,753 ,000 1 ,704** 30 30 3,474 264,237 100,753 7662,887 ,000 ,704** 1 Correlaciones

**. La correlación es significativa al nivel 0,01 (bilateral).

(52)

Ejemplo 1.6 (sabor del queso cheddar):An´alisis con SPSS Regresión Método Variables eliminadas Variables introducidas

1 Ac. Lacticoa . Introducir Modelo

Modelo

Variables introducidas/eliminadasb

a. Todas las variables solicitadas introducidas. b. Variable dependiente: Sabor

Error típ. de la estimación R cuadrado

corregida R cuadrado

R

1 ,704a ,496 ,478 11,7450 Modelo

Modelo

Resumen del modelo

a. Variables predictoras: (Constante), AcLactico

Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 29 7662,887 137,946 28 3862,489 ,000a 27,550 3800,398 1 3800,398 Modelo Modelo ANOVAb

a. Variables predictoras: (Constante), AcLactico b. Variable dependiente: Sabor

Error típ.

B Beta t Sig.

Coeficientes tipificados Coeficientes no estandarizados

(Constante) AcLactico 1 ,000 5,249 ,704 7,186 37,720 ,009 -2,822 10,582 -29,859 Modelo Modelo Coeficientesa

a. Variable dependiente: Sabor