ESTAD´ISTICA
Grado en CC. de la Alimentaci´on
Tema 1:
Estructura del Tema 1
• Tipos de variables
• Distribuci´on de una variable
• Representaci´on gr´afica de la distribuci´on
• Medidas num´ericas para resumir la distribuci´on
• Correlaci´on
Introducci´
on
Queremos estudiar una caracter´ıstica ovariable en unapoblaci´on.
Ejemplos:
• Contenido en grasa de una hamburguesa de una cierta marca
• Cantidad de alb´umina por litro de suero sangu´ıneo de una persona
• Longitud de los peces de una cierta especie en un lago
• Marca de e-book preferida por un comprador
• Porcentaje de una vitamina perdida al irradiar una fruta
A veces es imposible o demasiado caro observar la variable en toda la poblaci´on (censo), as´ı que se extrae una muestra. Llamamos
individuoo elemento a cada miembro de la poblaci´on o de la muestra.
• Poblaci´on: Conjunto de elementos objeto de estudio (ni˜nos menores de 6 meses; personas con ´ındice de masa corporal superior a 25; pi˜nas exportadas por la India; pepinos ecol´ogicos producidos en Andaluc´ıa; etc.).
• Muestra: Subconjunto de la poblaci´on en el que se observa la variable de inter´es.
• Tama˜no muestral: Cardinal de la muestra (se suele denotarn).
Pregunta:¿Por qu´e necesitamos de una muestra y no estudiamos toda la poblaci´on (censo)?
1 En poblaciones infinitas (o de tama˜no muy grande) es
materialmente imposible efectuar un censo.
2 Coste econ´omico m´as reducido.
3 Menor tiempo empleado.
4 En ocasiones los elementos muestreados se destruyen o
modifican en el proceso. Por ejemplo, pruebas de airbag o de armamento explosivo.
5 Precisi´on: En muchos casos, la recogida de la informaci´on
muestral se puede realizar de forma m´as fiable y controlada
Clases importantes de variables estad´ısticas
Variables cualitativas
Soncualidadeso atributos de los individuos. No son un n´umero: no podemos operar con sus valores.
Ejemplos:
• Sexo de un individuo: hombre o mujer
• Grado de reacciones secundarias a un tratamiento oncol´ogico (alto,
medio, bajo)
• Tiempo (soleado, lluvioso, parcialmente cubierto, ...) en una zona
A veces se asigna un n´umero a cada una de las cualidades. Por ej.,
si la v. cualitativa es el sexo de un paciente, podemos asignar a
Tenemos una muestra de tama˜non: hemos observado n datos, que
agrupamos enK categor´ıas o clases.
Ejemplo 1.1:Variable = Estado de una pieza de fruta recolectada en una huerta
Categor´ıa= Perfecta, aceptable, pasada, verde, podrida⇒ K =
Llamamosfrecuencia absolutaal n´umero de frutas observados en
cada una de las categor´ıas:
n1 = 23, n2 = 5, n3= 20, n4 = 7, n5 = 15 ⇒n=
La proporci´on de datos observados en cada clasefi =
ni n se
denominafrecuencia relativa. Observemos que siempre fi ≥0 y
f1+f2+. . .+fK = 1.
f1= , f2 = , f3= , f4 = , f5= .
Representaciones gr´aficas: diagrama de barras, diagrama de Pareto
Variables cuantitativas
Miden algocuantificable en cada individuo. Toman valores
num´ericos. Las denotamos por X,Y,Z, ...
Si la variable cuantitativa s´olo puede tomar una cantidad finita o
numerable de valores entonces es unavariable discreta.
Ejemplos:N´umero de hijos de una familia, n´umero de goles de un equipo en cada partido, n´umero de accesos diarios a una p´agina web.
Lasvariables continuas pueden tomar una cantidad infinita no numerable de valores.
Ejemplos:La estatura de una persona, el nivel de alcohol en sangre de un individuo, el contenido en hierro de un mineral.
Descripci´
on gr´
afica de variables cuantitativas
Variables discretas: diagrama de barras
Ejemplo 1.2:Se realiza un examen tipo test con 5 preguntas a un grupo de estudiantes.
No respuestas
correctas N
o estudiantes (n
i) Frecuenciarelativaf i
Frecuencia
acumulada Fi
0 3
1 11
2 9
3 20
4 5
5 2
Respuestas
5 4
3 2
1 0
Recuento
20
15
10
5
0
Variables continuas: histograma
Se agrupan los datos en una serie de clases o intervalosA1, . . . ,Ak.
Calculamos la frecuencia absolutani de cada intervalo Ai (no de
observaciones enAi). Cada dato debe pertenecer a s´olo una clase.
Se representan los l´ımites de los intervalos sobre el eje de abscisas. Luego se dibujan rect´angulos cuya base es el intervalo y cuyo ´area es la frecuencia absoluta de cada intervalo (ni).
En la pr´actica, dadas unas observaciones, elegimos nosotros el
l´ımite inferior del primer intervalo y la amplitud.
Por ejemplo, se determina primero elrangode valores de los datos
(m´aximo - m´ınimo de las observaciones).
Luego se subdivide el rango enm intervalos iguales. Es habitual
tomarm'√n, siendon el n´umero total de observaciones.
A veces se utiliza la frecuencia relativafi en lugar de la frecuencia
Ejemplo 0 (contaminaci´on por mercurio en el pescado):
M´ınimo = 0,11 M´aximo = 3,60 Rango = 3,49
n= 171→√n'13→Rango/√n '0,27
CONC
4 3
2 1
0
Frecuencia
50
40
30
20
10
0
Aspectos a tener en cuenta para interpretar un histograma
• Normalmente la base de todos los rect´angulos es la misma por
lo que la altura es proporcional a la frecuencia.
• Identificar si se han usado frecuencias absolutas o relativas.
• ¿Cu´antas modas hay?
• ¿Hay alg´un dato at´ıpico en relaci´on al resto?
• ¿Es sim´etrica la distribuci´on?
• En caso de asimetr´ıa, ¿es asim´etrica a la izquierda o a la derecha
• ¿En torno a qu´e valor aproximado est´an centrados los datos?
• ¿Est´an muy dispersos los datos en torno a este centro o muy
0 10 20 30 40 50
Distribución simétrica unimodal 0 10 20 30 40
Distribución simétrica bimodal
0 20 40 60 80 100
Distribución asimétrica a la derecha 0 20 40 60 80 100
La forma del histograma depende del n´umero de intervalos:
1,00 2,00 3,00
CONC 0 25 50 75 R e c u e n to
1,00 2,00 3,00
Ejemplo 1.3 (ars´enico en u˜nas):
En Karagaset al. (1996) se estudia el contenido en ars´enico (en
p.p.m.) de las u˜nas de los pies como indicador de la presencia de ars´enico en el agua de bebida. La muestra est´a formada por 21 libaneses que utilizaban pozos particulares (ilegales):
Edad (1=V, 2=M)Sexo Uso enbebida comidaUso en As en agua As en u˜nas
44 2 5 5 .00087 .119
45 2 4 5 .00021 .118
44 1 5 5 0 .099
66 2 3 5 .00115 .118
37 1 2 5 0 .277
45 2 5 5 0 .358
47 1 5 5 .00013 .08
38 2 4 5 .00069 .158
41 2 3 2 .00039 .31
49 2 4 5 0 .105
72 2 5 5 0 .073
45 2 1 5 .046 .832
53 1 5 5 .0194 .517
86 2 5 5 .137 2.252
8 2 5 5 .0214 .851
32 2 5 5 .0175 .269
44 1 5 5 .0764 .433
63 2 5 5 0 .141
42 1 5 5 .0165 .275
62 1 5 5 .00012 .135
Resumen num´
erico de datos cuantitativos
Medidas de centralizaci´on, posici´on o localizaci´on
Informan acerca de la posici´on alrededor de la cual se “centran” o
distribuyen los datosx1, . . . ,xn (muestra aleatoria).
media muestral= ¯x= x1+x2+. . .+xn
n =
Pn
i=1xi n Ejemplo 1.3 (cont.):
La mediana es el dato que ocupa el lugar central respecto a los datos ordenadosx(1),x(2), . . . ,x(n).
Si el tama˜no muestral es impar (n = 2m+ 1), med =xm+1. Ejemplo 1.3 (ars´enico en u˜nas):Calcular la media y la mediana.
La mediana esm´as robusta que la media pero hace un uso menos
eficiente de la informaci´on contenida en los datos.
Si el tama˜no muestral es par (n = 2m), med = xm+xm+1
2 .
Ejemplo 1.4:Contaminaci´on por metilmercurio (p.p.m.) en el sushi de at´un obtenido en 10 tiendas:
0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58
Medidas de dispersi´on o variabilidad
Dispersi´on respecto a la media
La media es un valor representativo de la variable de inter´es en la poblaci´on o en la muestra. Por tanto, es ´util para comparar poblaciones o muestras entre s´ı.
Sin embargo, lo bien o lo mal que la media represente a la muestra depende de la dispersi´on de ´esta.
Si los datos est´an agrupados cerca de la media, ´esta ser´a muy representativa de la localizaci´on de los datos.
Por el contrario, si los datos est´an muy dispersos, la media no
Ejemplo 1.5:
Nota obtenida
2 3 4 5 6 7 8 9 10
No alumnos grupo A 0 0 0 40 60 0 0 0 0
No alumnos grupo B 1 5 15 24 31 18 4 1 1
No alumnos grupo C 6 12 14 18 24 9 3 5 9
Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo A Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo B Nota 10 9 8 7 6 5 4 3 2 Frecuencia 60 50 40 30 20 10 0 Grupo C
Podemos medir las discrepancias de los individuos respecto a la media mediante las diferencias
x1−x¯, x2−¯x, . . . ,xn−¯x.
Desventaja: La suma de estas discrepancias es cero.
Por ello definimos las discrepancias de los individuos respecto a la media como las diferencias al cuadrado
(x1−x¯)2, (x2−x¯)2, . . . ,(xn−x¯)2.
Cuantificamos la dispersi´on de la muestra x1, . . . ,xn en torno a la
media mediante lavarianza muestral
vx = 1
n n
X
i=1
(xi−¯x)2 = 1
n n
X
i=1
Ejemplo 1.5 (notas en grupos A, B y C):
Lacuasivarianza muestrales
s2 = 1
n−1
n
X
i=1
(xi −¯x)2 = n n−1vx.
Es lo que muchos programas estad´ısticos llaman varianza muestral.
Ejemplo 1.4 (metilmercurio en sushi):
Una medida m´as conveniente de la dispersi´on es ladesviaci´on t´ıpica, que se define como la ra´ız cuadrada de la varianza y se
expresa en las misma unidades queX y ¯x:
Para comparar la dispersi´on de variables de magnitudes distintas a
veces se usa elcoeficiente de variaci´on CV = √
vx
¯
x . El CV no
depende de las unidades de medida de la variableX (es
adimensional). A mayor CV, menos representativa es la media ¯x.
Ejemplo 1.3 (ars´enico en u˜nas):Sabiendo que
21
X
i=1
xi= 0,34186,
21
X
i=1
yi = 7,695,
21
X
i=1
xi2= 0,02815,
21
X
i=1
yi2= 7,560,
Dispersi´on respecto a la mediana
Ordenamos las observacionesx1,x2, . . . ,xn de menor a mayor: x(1),x(2), . . . ,x(n).
Q1 = Primer cuartil= La observaci´onx(i) que ocupa el lugar n+ 1
4
Q2 = Mediana= La observaci´onx(i) que ocupa el lugar
2(n+ 1) 4
Q3 = Tercer cuartil= La observaci´onx(i) que ocupa el lugar
3(n+ 1) 4 Cuandon+ 1 no es m´ultiplo de 4, los cuartiles se pueden calcular por interpolaci´on lineal. En este caso el cuartil ser´a una media
ponderada de la observaci´on ordenada inmediatamente anterior e
inmediatamente posterior.
De acuerdo con las anteriores definiciones, responde a las siguientes cuestiones:
¿Qu´e porcentaje de datos hay...
(a) ... entreQ1 yQ3? (b) ... a la izquierda de Q1? (c) ... a la derecha de Q3? (d) ... entre el m´ınimo y Q3?
Una descripci´on ´util de un conjunto de datos viene dada por los cinco n´umeros siguientes:
Elrango intercuart´ılico(RI) es la diferencia entre el primer y el tercer cuartil: RI =Q3−Q1.
Si separamos los datos ordenados en cuatro grupos del mismo tama˜no, el RI mide la distancia entre los grupos m´as extremos.
Para visualizar estas medidas de dispersi´on respecto a la mediana
se utiliza eldiagrama de caja(box plot).
Para construir el diagrama de caja de la muestra, calculamosQ1,
Q2,Q3, RI y los l´ımites inferior y superior del diagrama
LI = La menor observaci´on en el intervalo
[Q1−1,5·RI,Q3+ 1,5·RI]
LS = La mayor observaci´on en el mismo intervalo
Consideramos que un datoxi que se salga del intervalo [LI,LS] es
Ejemplo 1.3 (ars´enico en u˜nas):
Concentración de As en uñas 2,5
2,0
1,5
1,0
0,5
0,0
14
15 12
Los diagramas de caja son especialmente ´utiles para comparar varios conjuntos de datos.
Ejemplo 0 (contaminaci´on por mercurio en el pescado):
1,00 ,00
RIO
4,00
2,00
0,00
CONC
162 70
66
15,00 14,00 13,00 12,00 11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 ,00 ESTACION 4,00 2,00 0,00 CO N C 76 82 24 25 66 138 75 123
Relaciona cada histograma con su diagrama de cajas
−1
0
1
2
● ●
4
5
6
7
● ● ●
1
2
3
4
El concepto depercentilo cuantiles una generalizaci´on del de cuartil:Q1 es el percentil 25 (cuantil 0.25 o 25 %), la mediana es el
percentil 50 yQ3 es el percentil 75 (cuantil 0.75 o 75 %).
El percentil 100·p o cuantilp, con 0<p<1, es el punto que deja a la izquierda una proporci´onp de los individuos.
Sip·n no es un n´umero entero, entonces se interpola entre las observaciones ordenadas que est´an en la posici´onbp·ncy
bp·nc+ 1, dondebzcdenota el mayor entero menor o igual que z.
Estad´ıstica descriptiva de dos variables (bivariante)
Ahora estamos interesados endos variables estad´ısticasX eY o
un vector bidimensional (X,Y) en cada individuo de una poblaci´on.
X −→ x1,x2, . . . ,xn
Y −→ y1,y2, . . . ,yn
−→(x1,y1), . . . ,(xn,yn)
A partir de la informaci´on muestral deseamos encontrar una
relaci´on funcional aproximada entre Y yX:Y 'g(X). A g la llamamos lafunci´on de regresi´ondeY sobre X.
Ejemplo 1.6 (sabor del queso cheddar)(Moore y McCabe 1989,
Introduction to the Practice of Statistics):
A medida que el queso se a˜neja, se producen procesos qu´ımicos
que determinan el sabor del producto final. En 30 porciones de queso cheddar curado se evalu´o el sabor (Y) y se midi´o la
concentraci´on de ´acido l´actico (X). La variable sabor resulta de la
combinaci´on de puntuaciones dadas por varios degustadores.
Caso 1 2 3 4 5 6 7 8 9 10
Sabor 12,3 20,9 39,0 47,9 5,6 25,9 37,3 21,9 18,1 21,0 Ac. L´actico 0,86 1,53 1,57 1,81 0,99 1,09 1,29 1,78 1,29 1,58
Caso 11 12 13 14 15 16 17 18 19 20
Sabor 34,9 57, 2 0,7 25,9 54,9 40,9 15,9 6,4 18,0 38,9 Ac. L´actico 1,68 1,90 1,06 1,30 1,52 1,74 1,16 1,49 1,63 1,99
Caso 21 22 23 24 25 26 27 28 29 30
Ácido láctico
2,2 2,0
1,8 1,6
1,4 1,2
1,0 0,8
Sabor
60
50
40
30
20
10
0
Interpretaci´on de un diagrama de dispersi´on:
• ¿Se observa alguna asociaci´on entre las variables?
• ¿C´omo es de estrecha la asociaci´on entre las variables?
• ¿Qu´e forma tiene la asociaci´on entre variables (recta, cuadr´atica, ...)?
• ¿Cu´al es la “direcci´on” de la asociaci´on entre las variables?
El modelo m´as sencillo es el deregresi´on lineal, en el que Y es funci´on lineal deX, es decir,g(x) =a+bx, recta de pendiente b
y ordenada en el origena.
Covarianzamuestral entre X eY:
covx,y =
1
n n
X
i=1
(xi −x¯)(yi−y¯) =
1
n n
X
i=1
xiyi −x¯y¯
Depende de las unidades en que se midanx e y.
Larecta de regresi´onde Y sobre X es la recta g(x) =a+bx que minimiza el error cuadr´atico medio
ECM = 1
n n
X
i=1
(yi−a−bxi)2.
b = covx,y
vx a= ¯y−b¯x
Ácido láctico
2,2 2,0
1,8 1,6
1,4 1,2
1,0 0,8
Sabor
60
50
40
30
20
10
0
Elcoeficiente de correlaci´on
r= √covx,y
vxvy
mide el grado de relaci´on lineal entre X e Y. S´olo puede tomar valores entre -1 y 1.
No depende de las unidades (es adimensional).
Un valor der cercano a 0 indica ausencia de relaci´on lineal.
3.2 3.4 3.6 3.8 4
−1 −0.8 −0.6 −0.4 −0.2 0
x
r
xy=
‐
1
r
xyy=
1
A menudo la relaci´on lineal g(x) =a+bx no ser´a la que mejor describa la relaci´on entre X eY, o simplemente no tendr´a sentido.
Ejemplo 1.7 (alcalinidad y mercurio en lagos):En 1990 y 1991 se tomaron muestras de percas y agua en 53 lagos de Florida para estudiar los factores ambientales relacionados con la contaminaci´on por mercurio de estos peces. Se midi´o, por ejemplo, la alcalinidad del agua (mg CaCO3 l−1). El gr´afico representa los valores medios
de alcalinidad frente a la concentraci´on media de mercurio (ppm)
para los 53 lagos.
0 20 40 60 80 100 120 140
0 0.2 0.4 0.6 0.8 1 1.2 1.4
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Lago Alcalinidad Mercurio Lago Alcalinidad Mercurio Alligator 5.9 1.23 Lochloosa 55.4 0.34
Annie 3.5 1.33 Louisa 3.9 0.84
Apopka 116.0 0.04 Miccasukee 5.5 0.50 Blue Cypress 39.4 0.44 Minneola 6.3 0.34
Brick 2.5 1.20 Monroe 67.0 0.28
Bryant 19.6 0.27 Newmans 28.8 0.34
Cherry 5.2 0.48 Ocean Pond 5.8 0.87
Crescent 71.4 0.19 Ocheese Pond 4.5 0.56 Deer Point 26.4 0.83 Okeechobee 119.1 0.17
Dias 4.8 0.81 Orange 25.4 0.18
Dorr 6.6 0.71 Panasoffkee 106.5 0.19
Down 16.5 0.50 Parker 53.0 0.04
Eaton 25.4 0.49 Placid 8.5 0.49
East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10
Farm-13 128.0 0.05 Rodman 114.0 0.16
George 83.7 0.15 Rousseau 97.5 0.10
Griffin 108.5 0.19 Sampson 11.8 0.48
Harney 61.3 0.77 Shipp 66.5 0.21
Hart 6.4 1.08 Talquin 16.0 0.86
Hatchineha 31.0 0.98 Tarpon 5.0 0.52
Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65 Istokpoga 17.3 0.56 Trafford 81.5 0.27
Jackson 12.6 0.41 Trout 1.2 0.94
Josephine 7.0 0.73 Tsala Apopka 34.0 0.40
Kingsley 10.5 0.34 Weir 15.5 0.43
Si modelizamos la relaci´on entreX eY incorrectamente, nuestro
modelo no dar´a predicciones fiables de valores desconocidos de Y
en funci´on de valores conocidos deX.
Una soluci´on sencilla es transformar las variablesY y/o X
mediante una funci´on no lineal (logx,x2,ex, . . . ) y calcular la recta de regresi´on entre las variables transformadas.
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
0 20 40 60 80 100 120 140
−4 −3 −2 −1 0 1 x log(y)
0 1 2 3 4 5
−4 −3 −2 −1 0 1 log(x) log(y)
0 0.2 0.4 0.6 0.8 1
−4 −3 −2 −1 0 1 log(y)
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8 1 1.2 1.4 y
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Transformar una variable tiene efectos sobre su media, su varianza, su simetr´ıa, ...
Mercurio 1,25 1,00 0,75 0,50 0,25 0,00 Frecuencia 8 6 4 2 0 Media =0,53 Desviación típica =0,341
N =53 LogMercurio 1 0 -1 -2 -3 -4 Frecuencia 10 8 6 4 2 0 Media =-0,91 Desviación típica =0,839
N =53
Ejemplo 1.8:Peso del cerebro (en g) en funci´on del peso corporal (en kg) para 62 especies de mam´ıferos (Fuente: Allison &
Sacchetti 1976,Science)
0 2000 4000 6000 8000
0 1000 2000 3000 4000 5000 6000
Peso cuerpo (en kg)
Peso cerebro (en g)
Elefante africano
Elefante asiático
Humano
−5 0 5 10
−2 0 2 4 6 8 10
Log(Peso cuerpo)
Ejemplo 1.6 (sabor del queso cheddar):An´alisis con SPSS Varianza Desv. típ. Media Suma Máximo Mínimo Rango N Sabor Ác. Lactico
N válido (según lista) 30
,092 ,30349 1,4420 43,26 2,01 ,86 1,15 30 264,237 16,2554 24,533 736,0 57,2 ,7 56,5 30 Estadísticos descriptivos Página 1 Ác. Láctico Sabor Correlación de Pearson
Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N
Correlación de Pearson Sig. (bilateral) Suma de cuadrados y productos cruzados Covarianza N Sabor Ác. Láctico 30 30 ,092 3,474 2,671 100,753 ,000 1 ,704** 30 30 3,474 264,237 100,753 7662,887 ,000 ,704** 1 Correlaciones
**. La correlación es significativa al nivel 0,01 (bilateral).
Ejemplo 1.6 (sabor del queso cheddar):An´alisis con SPSS Regresión Método Variables eliminadas Variables introducidas
1 Ac. Lacticoa . Introducir Modelo
Modelo
Variables introducidas/eliminadasb
a. Todas las variables solicitadas introducidas. b. Variable dependiente: Sabor
Error típ. de la estimación R cuadrado
corregida R cuadrado
R
1 ,704a ,496 ,478 11,7450 Modelo
Modelo
Resumen del modelo
a. Variables predictoras: (Constante), AcLactico
Sig. F Media cuadrática gl Suma de cuadrados Regresión Residual Total 1 29 7662,887 137,946 28 3862,489 ,000a 27,550 3800,398 1 3800,398 Modelo Modelo ANOVAb
a. Variables predictoras: (Constante), AcLactico b. Variable dependiente: Sabor
Error típ.
B Beta t Sig.
Coeficientes tipificados Coeficientes no estandarizados
(Constante) AcLactico 1 ,000 5,249 ,704 7,186 37,720 ,009 -2,822 10,582 -29,859 Modelo Modelo Coeficientesa
a. Variable dependiente: Sabor