Estadística Grado en Nutrición Humana y Dietética

(1)

Estad´ıstica

Grado en Nutrici´

on Humana y Diet´

etica

Tema 2: Modelos de regresi´

on estad´ıstica

Francisco M. Oca˜na Peinado http://www.ugr.es/local/fmocan

(2)

Tema 2: Modelos de regresi´

on estad´ıstica

1

_Introducci´

_on

2

_Asociaci´

_{on y causalidad}

3

_{Criterio de m´ınimos cuadrados}

4

_Regresi´

_{on polin´}

_omica

5

_Regresi´

_{on no polin´}

_omica

6

_Predicci´

_{on: interpolaci´}

_{on y extrapolaci´}

_on

7

_Problemas

(3)

Introducci´

on

Or´ıgenes del t´ermino Regresi´on

Galton y Pearson a finales del siglo XIX: trabajaron con m´as de 1.000 registros para establecer relaciones entre alturas de padres e hijos

Galton estableci´o la ley de regresi´on universal: Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor

Conclusi´on de Pearson

(4)

Introducci´

on

Objetivo en regresi´on

Obtener una funci´on matem´atica sencilla que describa el comportamiento esperado de una variable (denominada variable dependiente o variable explicada) dados los valores de otra u otras variables (denominadas variables independientes o explica-tivas)

Tipos de regresi´on

Seg´un el n´umero de variables independientes:

Regresión simple: con una única variable independiente Ej: Expresar el colesterol en función del consumo de grasas Regresión múltiple: con varias variables independientes

(5)

Introducci´

on

Tipos de regresi´on simple

Seg´un el papel que juega cada variable:

Regresi´on de Y sobre X , se representa como Regresi´on Y /X , si Y es la variable dependiente y X es la variable independiente ⇒ Y = f (X )

Regresi´on de X sobre Y , se representa como Regresi´on X /Y , si X es la variable dependiente e Y es la variable independiente ⇒ X = g (Y )

Regresi´on simple Y /X

El problema es obtener una función matemática que exprese Y en función de X a partir de n pares de observaciones (x1, y1), . . . , (xn, yn)

(6)

Asociaci´

on y causalidad

Asociaci´on y causa-efecto

La asociación entre dos variables (X e Y ) no implica necesariamente que una sea la causa de la otra, debiendo venir la demostración de su causalidad de otras fuentes no matemáticas

Causas de asociaci´on entre variables

A que el valor de X sea realmente la causa del valor de Y A que ambas variables X e Y , se influyen mutuamente A que ambas variables X e Y , dependen de una causa com´un

A que exista una dependencia entre X e Y fruto de la casualidad (dependencia al azar o correlaci´on espuria)

(7)

(8)

(9)

(10)

¿C´

omo seleccionar el tipo de funci´

on de

regresi´

on?

Aspecto clave en regresi´on simple

Selección del tipo de función matemática a utilizar:

Regresi´on Y /X donde Y = f (X ) ⇒ ¿C´omo seleccionar f ?

Funciones de regresi´on a estudiar

Polin´omicas:

Polinomio de grado 1 (Recta) Polinomio de grado 2 (Par´abola)

No polin´omicas: Exponencial, Potencial, Logar´ıtmica, Hiperb´olica y Michaeliana

(11)

¿C´

omo seleccionar el tipo de funci´

on de

regresi´

on?

Diagrama de dispersi´on

Importante: Representar gr´aficamente un conjunto de datos antes de analizar-los

Muy conveniente construir el conocido como diagrama de dispersi´on o nube de puntos

Representaci´_{on en R}2_{, del conjunto de puntos {(x}

i, yi)}i =1,2,...,n

Observar la tendencia de los puntos y pensar qu´e tipo de funci´on puede recoger bien esa tendencia

(12)

(13)

¿C´

omo calcular los coeficientes de f en

sentido ´

optimo?

Criterio de m´ınimos cuadrados (CMC)

Idea: De entre todas las posibles funciones de un determinado tipo, se desea hallar los coeficientes de tal forma que el ajuste de la funci´on a los datos sea el mejor posible

CMC: Calcular la combinación de los coeficientes de regresión que haga m´ınima la suma de los cuadrados de las diferencias entre los valores observados y la función de regresión

Minimizar la siguiente cantidad:

n X i =1 [yi− f (xi)]2= n X i =1 e_i2

(14)

(15)

Varianza residual

Necesidad de evaluar la bondad del ajuste:

s_e2= 1 n n X i =1 [yi− f (xi)]2= 1 n n X i =1 e_i2 se2acotada y no negativa 0 ≤ se2≤ sy2

se2permite hacer comparativa entre varias funciones de regresi´on

Inconveniente: Medida absoluta y no permite decidir a partir de qu´e valores es suficientemente peque˜na o grande para admitir que se tiene un buen o un mal ajuste.

(16)

(17)

Regresi´

on polin´

omica

Regresi´on polin´omica

Regresi´on simple Y /X de tipo polin´omica:

y = f (x ) = a0+ a1x + a2x2+ a3x3+ . . . + apxp

Casos a estudiar:

p = 1 ⇒ Regresi´on lineal:

y = f (x ) = a0+ a1x

p = 2 ⇒ Regresi´on parab´olica:

(18)

Regresi´

on lineal

Regresi´on lineal

Regresi´on lineal simple Y /X : y = f (x ) = a + bx Interpretaci´on coeficientes:

a, ordenada en el origen: representa el valor que toma la variable dependiente cuando la independiente toma el valor 0

b, pendiente de la recta: incremento en la variable dependiente cuando la variable independiente aumenta una unidad

¿C´omo calcular a y b? Aplicando C.M.C. ⇒ Minimizar: n X i =1 [yi− f (xi)]2= n X i =1 [yi− a − bxi]2= F (a, b)

(19)

Regresi´

on lineal

CMC en regresi´on lineal

Sistema de ecuaciones normales Fa0= −2 n X i =1 [yi− a − bxi] = 0 ⇔ ⇔ n X i =1 [yi− a − bxi] = 0 ⇔ n X i =1 yi− na − b n X i =1 xi = 0 F_b0 = −2 n X i =1 [yi− a − bxi]xi= 0 ⇔ ⇔ n X i =1 [yi− a − bxi]xi= 0 ⇔ n X i =1 xiyi− a n X i =1 xi− b n X i =1 xi2= 0

(20)

Regresi´

on lineal

CMC en regresi´on lineal

Soluci´on del sistema b = sxy s2 x a = y − bx Resumen Recta Y /X y = a + bx ⇒ b = sxy s2 x a = y − bx Recta X /Y x = c + dy ⇒ d = sxy s2 y c = x − d y

(21)

Regresi´

on lineal

Propiedades de las rectas de regresi´on

El punto de corte de las dos rectas de regresi´on es el punto (x , y ), denominado centro de gravedad

Ambas rectas tienen pendientes de igual signo, que es el signo de la sxy, por

lo que las 2 rectas ser´an crecientes en el caso de dependencia directa entre las variables, o decrecientes en el caso de dependencia inversa

En caso de independencia entre las variables, (sxy = 0), las ecuaciones de la

recta quedar´ıan reducidas a las rectas x = x y la recta y = y

En el caso de que r = ±1 (habr´ıa dependencia lineal exacta), las dos rectas de regresi´on estar´ıan superpuestas (ser´ıan coincidentes), y rec´ıprocamente

(22)

Regresi´

on lineal

Calculo de se2 en regresi´on lineal

s_e2= 1 n n X i =1 [yi− f (xi)]2 Desarrollando n P i =1 [yi− f (xi)]2se tiene que: s_e2= s_y2−s 2 xy s2 x = s_y2− r2_s2 y = s 2 y(1 − r 2₎ por lo que: s_e2= s_y2(1 − r2)

(23)

Regresi´

on lineal

Coeficiente de determinaci´on

Coeficiente de determinaci´on, R2_{: cuadrado del coeficiente de correlaci´}_on

⇒ r2_{= R}2

Solventar los inconvenientes de s2 e

0 ≤ R2_{≤ 1 , es adimensional y frecuentemente aparece expresado en}

(24)

Regresi´

on lineal

R2 : Interpretaci´on A partir de s2 e = sy2(1 − R2), se tiene que: (i) R2_{= 1 −}s 2 e s2 y (ii) s2 e ≤ sy2

Cuanto menor sea la correlaci´on lineal, entonces:

n X i =1 e_i2 elevada ⇒ s2 e elevada ⇒ s 2 e ∼= s 2 y ⇒ R 2_∼ = 0

Cuanto mayor sea la correlaci´on lineal, entonces:

n X i =1 [yi− f (xi)]2 peque˜na ⇒ se2peque˜na ⇒ s2 e s2 y ∼ = 0 ⇒ R2∼= 1

(25)

Regresi´

on lineal

R2: Interpretaci´on

Cuanto m´as se acerca a 1 mejor es el ajuste lineal, y cuanto m´as se acerque a 0, peor es la bondad del ajuste. Si R2toma sus valores extremos:

R2_{= 1, se tendr´}_{a que s}2

e = 0 ⇒ todos los puntos est´an sobre la recta. Habr´ıa una relaci´on funcional perfecta.

R2= 0, se tendr´a que se2= s 2

y ⇒ la recta no explica nada de la variaci´on total de la variable Y .

Consideraciones acerca de R2

R2_´_{unicamente mide el grado de ajuste, pero no implica que la recta tenga buen} car´acter predicitivo

(26)

Regresi´

on lineal

Consideraciones acerca de R2 X1 Y1 X2 Y2 X3 Y3 X4 Y4 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 12.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.26 11 7.81 8 8.47 14 9.96 14 8.1 14 8.84 8 7.04 6 7.24 6 6.13 6 6.08 8 5.25 4 4.26 4 3.1 4 5.39 19 12.5 12 10.84 12 9.13 12 8.15 8 5.56 7 4.82 7 7.26 7 6.42 8 7.91 5 5.68 5 4.74 5 5.73 8 6.8 Ajuste y valor de R2

(27)

(28)

Regresi´

on parab´

olica

Función de regresión parábolica

Regresi´on Y /X y = f (x ) = a0+ a1x + a2x2

CMC en regresi´on parab´olica

Resolver el sistema para hallar a0, a1, a2:

na0+ a1 n X i =1 xi+ a2 n X i =1 xi2= n X i =1 yi a0 n X i =1 xi+ a1 n X i =1 x_i2+ a2 n X i =1 x_i3= n X i =1 xiyi a0 n X i =1 x_i2+ a1 n X i =1 x_i3+ a2 n X i =1 x_i4= n X i =1 x_i2yi

(29)

Regresi´

on no polin´

omica

Funciones de regresi´on a estudiar

Exponencial: f (x ) = y = aebx _{(a > 0 , y} i > 0) Potencial: f (x ) = y = axb _{(a > 0 , x} i > 0 , yi> 0) Logar´ıtmica: f (x ) = y = a + blnx (xi > 0) Hiperb´olica: f (x ) = y = a +b_x (xi 6= 0) Michaeliana: f (x ) = y = ax x + b (xi 6= 0 , yi 6= 0) Linealizaci´on Minimizar n P i =1

[yi− f (xi)]2conduce a sistemas irresolubles por m´etodos directos, por

(30)

Regresi´

on exponencial

Funci´on de regresi´on a ajustar

y = aebx (a > 0 , yi> 0) 0 50 100 150 200 250 300 0 5 10 15 20 25 30 35

(31)

Regresi´

on exponencial

Linealizaci´on y = aebx⇒ lny |{z} y∗ = ln(aebx) = lna |{z} A +bx ⇒ y∗= A + bx Por tanto:

Se resuelve la regresi´on lineal y∗/X : b = sxy∗

s2 x

A = y∗− bx

Se deshace el cambio que afect´o al coeficiente a: lna = A ⇒ a = eA

(32)

Regresi´

on potencial

y = axb (a > 0 , xi> 0 , yi > 0) 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 5 10 15 20 25 30 35

(33)

Regresi´

on potencial

Linealizaci´on y = axb⇒ lny |{z} y∗ = ln(axb) = lna |{z} A +b lnx |{z} x∗ ⇒ y∗= A + bx∗ Por tanto:

Se resuelve la regresi´on lineal y∗/x∗: b = sx∗y∗

s2 x∗

A = y∗− bx∗

Se deshace el cambio que afect´o al coeficiente a: lna = A ⇒ a = eA

(34)

Regresi´

on logar´ıtmica

y = a + blnx (xi> 0) 0 2 4 6 8 10 12 14 16 0 5 10 15 20 25 30 35

(35)

Regresi´

on logar´ıtmica

Linealizaci´on y = a + blnx ⇒ y = a + b lnx |{z} x∗ ⇒ y = a + bx∗ Por tanto:

Se resuelve la regresi´on lineal Y /x∗: b = sx∗y

s2 x∗

a = y − bx∗

(36)

Regresi´

on hiperb´

olica

y = a +b_x (xi6= 0) 5,75 6 6,25 6,5 6,75 7 7,25 7,5 7,75 8 8,25 0 5 10 15 20 25 30 35

(37)

Regresi´

on hiperb´

olica

Linealizaci´on y = a +b x ⇒ y = a + b 1 x |{z} x∗ ⇒ y = a + bx∗ Por tanto:

Se resuelve la regresi´on lineal Y /x∗ (en este caso x∗= 1 x): b = sx∗y

s2 x∗

a = y − bx∗

(38)

Regresi´

on Michaelis-Menten

y = ax x + b (xi6= 0 yi6= 0) 2 2,5 3 0 0,5 1 1,5 0 2 4 6 8 10 12

(39)

Regresi´

on Michaelis-Menten

Linealizaci´on y = ax x + b ⇒ 1 y |{z} y∗ =x + b ax = 1 a |{z} A + b a |{z} B 1 x |{z} x∗ ⇒ y∗= A + Bx∗ Por tanto:

Se resuelve la regresi´on lineal y∗/x∗: B = sx∗y∗

s2 x∗

A = y∗− Bx∗

Se deshacen los cambios que afectaron a los coeficientes a y b: b = aB a = 1

(40)

Predicci´

on

Predicción: interpolación y extrapolación

Consiste en determinar, a partir de la función de regresión seleccionada, el valor de la variable dependiente para un valor dado de la variable independiente Una de las más importantes aplicaciones de la regresión

2 tipos:

Cuando la estimación se hace para un valor de la variable independiente situado dentro de su rango observado se demonina interpolación Cuando la estimación se hace para un valor de la variable independiente situado fuera de su rango observado se demonina extrapolación

(41)

(42)

Ejercicio 13

Cant. Sal Tensi´on Arterial Cant. Sal Tensi´on Arterial

4.1 115.1 4.6 118.1 4.4 115.2 4.4 115.3 5.1 118.5 4.4 116.1 5.2 120.9 4.5 116.1 3.2 112.9 2.6 109.9 3.3 113.1 2.9 111.6 3.3 113.7 5.5 122 3.9 113.8 2.3 109.1 3.9 114.3 3.2 111.6 4.5 116.8 3.2 112.3

(43)

Ejercicio 13

(a) Si el objetivo del estudio es expresar matem´aticamente la tensi´on arterial en

función de la cantidad de sal consumida, identifique el papel de las variables en el análisis de regresión

(b) Estudie la posible correlaci´on existente entre ambas variables

(c) Determine por m´ınimos cuadrados la recta que mejor se ajuste a las obser-vaciones dadas y la varianza residual. Obtenga e interprete el coeficiente de determinaci´on

(d) Compare la regresi´on lineal con las regresiones estudiadas de tipo no polin´omico.

Razone si existe alguna función no polinómica que mejore a la regresión lineal

(e) Obtenga una estimaci´on de la tensi´on arterial para un paciente con cantidad

(44)

Ejercicio 13: papel de las variables

La variable dependiente es la variable objetivo en la investigación, será la Tensión arterial, siendo la variable independiente la Cantidad de sal consumida.

Por tanto, y siguiendo la notación del caso de regresión de Y /X , se tendr´ıa que: Y ≡ Tensión arterial X ≡ Cantidad de sal consumida

El estudio ser´a por ello en el sentido siguiente:

(45)

Ejercicio 13: diagrama dispersi´

on

114,5 116,5 118,5 120,5 122,5 T E N S IÓ N A R T E R IA L 106,5 108,5 110,5 112,5 114,5 2 2,5 3 3,5 4 4,5 5 5,5 T E N S IÓ N A R T E R IA L CANTIDAD DE SAL

(46)

Ejercicio 13: c´

alculo de r

Se calcula el coeficiente de correlaci´on lineal:

Para el c´alculo de r , se necesitan los valores de sxy y las dos varianzas sx2y sy2.

Para el cálculo de las varianzas, también es necesario el cálculo de las medias. Los resultados son:

sxy = 2.7683 sx2= 0.7559 s 2

y = 10.7785 x = 3.925 y = 114.85

por lo que r = 0.9698.

La interpretación ser´ıa que existe fuerte correlación lineal directa entre las variables, puesto que el valor obtenido sea acerca al valor máximo de la correlación directa, que es el valor 1.

(47)

Ejercicio 13: rectas de regresi´

on

Recta Y /X : y = a + bx . Teniendo en cuenta los resultados del anterior apartado se tiene que:

b = 2.7683

0.7559 = 3.6623 a = y − bx = 100.4754

La mejor recta de entre todas las posibles para expresar la Tensi´on arterial en funci´on de la Cantidad de sal es:

Tensi´on arterial = 100.4754 + 3.6623 · Cantidad de sal consumida R2 se obtiene como el cuadrado del coeficiente de correlaci´on r , por lo que se tiene que R2= 0.9406

(48)

Ejercicio 13: interpretaci´

on de R

2

Interpretaci´on de R2

La recta de regresi´on calculada se ajusta en un porcentaje del 94.06% a los datos observados

R2_{= 94.06% representa el porcentaje de la variabilidad de la Tensi´}_on

arterial que es explicado por la variable Cantidad de sal consumida La varianza residual s2

e en el caso de la regresi´on lineal se calcula como:

(49)

Ejercicio 13: regresi´

on potencial

Se ajustan las funciones no polin´omicas y se calculan sus varianzas residuales. En el caso de la regresi´on potencial:

y = axb⇒ lny |{z} y∗ = ln(axb) = lna |{z} A +b lnx |{z} x∗ ⇒ y∗= A + bx∗ xi yi yi∗ xi∗ x∗ 2 i xi∗yi∗ 4.1 115.1 4.7458 1.411 1.9909 6.69063 4.4 115.2 4.7467 1.4816 2.1952 7.0327 5.1 118.5 4.7749 1.6292 2.6544 7.7795 5.2 120.9 4.795 1.6487 2.7181 7.9053 . . . ... ... ... ... ... . . . ... ... ... ... ... 3.2 112.3 4.7212 1.1632 1.3529 5.4914 94.8644 26.825 37.0629 127.3637

(50)

Ejercicio 13: regresi´

on potencial

A partir de los datos de la tabla se calculan las medidas estad´ısticas en la regresi´on y∗/x∗:

x∗= 1.3413 y∗= 4.7432 sx∗_y∗= 0.0064 s_x2∗= 0.0541

Se determinan los coeficientes de la funci´on potencial, A y b: b = Sx∗y∗ s2 x∗ =0.0064 0.0541 = 0.1167 A = y∗− bx∗= 4.7432 − 0.1167 · 1.3413 = 4.5866 por lo que la funci´on potencial ajustada es:

(51)

Ejercicio 13: regresi´

on potencial

C´alculo de s2

e: se calculan las predicciones y las diferencias al cuadrado entre las

observaciones y los valores predichos.

xi yi f (xi) [yi− f (xi)]2 4.1 115.1 115.7422 0.4124 4.4 115.2 116.7006 2.2519 5.1 118.5 118.7302 0.0530 5.2 120.9 118.9997 3.6110 . . . ... ... ... . . . ... ... ... 3.2 112.3 112.4402 0.0197 19.3237 Se obtiene que s2

e = 0.9661, por lo que se concluye que el ajuste potencial no

(52)

Trabajo aut´

onomo

El alumno debe obtener los restantes ajustes no polin´omicos, y sus varianzas residuales asociadas:

Exponencial: y = 101.3289e0.0318x _{con s}2

e = 0.6078

Logar´ıtmica: y = 96.8531 + 13.4181 lnx con s2

e = 1.0226

Hiperb´olica: y = 127.2038 − 45.9388/x con s2

e = 1.6403

Michaelis-Menten: y = 128.6402x x + 0.4499 con s

2

(53)

Ejercicio 13: predicci´

on

Para llevar a cabo la estimación, se usará la función exponencial, que es la que mejor representa la tendencia de las observaciones.

Para X = 4.8, se tiene que el valor predicho de Y es: b

(54)

Ajuste lineal y exponencial

y = 3,6623x + 100,4754 114,5 116,5 118,5 120,5 122,5 T E N S IÓ N A R T E R IA L y = 101,3289e0,0318x 106,5 108,5 110,5 112,5 114,5 2 2,5 3 3,5 4 4,5 5 5,5 T E N S IÓ N A R T E R IA L CANTIDAD DE SAL

(55)

Ejercicio 14

Pa´ıs Tasa Mort. C´ancer Mama Grasa animal Grasa vegetal

Japan 5.2 38.1 41.8 Greece 14.3 57.9 88 Spain 14.1 64.2 64.9 Poland 14 91.3 25.2 Portugal 14.5 48 54.7 Finland 14.9 107.8 25.5 Italy 18.5 70.1 65.8 Ireland 26.9 106.8 34.7 Austria 18.7 101.9 70.3 United Kingdom 28.1 97 44.3 Netherlands 26.5 127.1 55.6 Belgium 26 125.3 52.4 Denmark 24.5 132.2 36.3 New Zealand 24 129.2 26.8 Switzerland 23.1 109.7 47.5 Israel 23.5 45.8 61.4 Canada 23.5 102.3 50.9 United States 21.8 101.1 65.7 Germany 20.2 99.9 45 France 18.3 108.5 46.3 Sweden 18.3 110.4 41.8 Norway 19 91.5 52.9 Australia 18.3 73.6 27.9 Chile 11.8 27.8 26.3 Venezuela 9.1 32.7 32.1

(56)

(57)

(58)

Ejercicio 14

(a) A partir de los gráficos, comente cuál es la relación que existe entre el consumo de

grasas de origen y animal y vegetal y la tasa de mortalidad por cancer de mama. ¿En qué casos tendr´ıa sentido plantear el análisis de regresión?

(b) Obtenga y comente las medidas estad´ısticas apropiadas que validen las conclusiones del apartado anterior.

(c) En el caso de la regresi´on con las variables consumo de grasa animal y tasa de

mortalidad por c´ancer de mama, obtenga la ecuaci´on de la recta que relaciona ambas variables, as´ı como las medidas de bondad de ajuste.

(d) ¿En qué medida la variación existente entre pa´ıses en la tasa de mortalidad de cáncer de mama es explicada por el consumo de grasa animal?

(e) Estudie si ser´ıa preferible una funci´on de tipo exponencial a la lineal calculada en el apartado (c).

(f) Si se sabe que en China el consumo de grasa animal al d´ıa per c´apita es de 47

(59)

Ejercicio 14: soluciones

Soluciones:

(b) r = 0.7287 cuando se estudia la asociaci´on entre la tasa de mortalidad de

cáncer de mama y el consumo de grasa animal. r = 0.09001 cuando se estudia la asociación entre la tasa de mortalidad de cáncer de mama y el consumo de grasa vegetal

(c) y = 7.2303 + 0.1346x con R2= 53.1126% y se2= 15.4239

(d) En un porcentaje del 53.1126%

(e) y = 8.3369e0.0088x con se2= 16.318

(60)

Ejercicio 15

Pa´ıs Consumo Fruta y Verdura % de Muertes por c´ancer colon

Austria 413 2.5 Belgium 343 3 Bulgaria 280 3.4 Czech Republic 309 2.9 Denmark 316 3.1 Estonia 359 2.9 Finland 256 3.9 France 342 3.1 Germany 442 2.9 Greece 425 2.6 Netherlands 300 3 Hungary 371 3.2 Ireland 350 3 Iceland 196 4.8 Italy 452 2.1 Luxembourg 425 2.7 Norway 259 3.4 Poland 577 2.3 Portugal 305 3.5 Romania 298 3.2 Spain 275 3.7 Slovakia 280 3 Sweden 237 3 United Kingdom 258 3.3

(61)

(62)

Ejercicio 15

(a) A partir del diagrama de dispersión, comente cuál es la relación que existe entre el porcentaje de muertes debidas a cáncer de colon y el consumo de fruta y verdura. ¿Tendr´ıa sentido el análisis de regresión en este caso? Razone las respuestas.

(b) Obtenga y comente las medidas estad´ısticas apropiadas que validen las conclusiones del apartado anterior.

(c) Obtenga la ecuación de la recta que exprese la relación existente entre el porcentaje de muertes debidas a cáncer de colon y el consumo de fruta y verdura, as´ı como las medidas de bondad de ajuste.

(d) ¿En qu´e medida la variaci´on existente entre pa´ıses en la el porcentaje de mortalidad

por cancer de colon es explicada por el consumo de fruta y verdura?

(e) Estudie si ser´ıa preferible una funci´on de tipo potencial o logar´ıtmica a la lineal calculada en el apartado (c).

(f) Si se sabe que en Canadá el consumo de fruta y verdura al d´ıa per cápita es de 600 gramos, obtenga una estimación del porcentaje de muertes por cácer de colon. Comente la fiabilidad de dicha estimación.

(63)

Ejercicio 15: soluciones

Soluciones:

(b) r = −0.784033 indica correlaci´on lineal en sentido inverso en un grado

mod-eradamente alto. (c) y = 4.7835 + 0.0005x con R2= 61.4708% y se2= 0.1103 (d) En un porcentaje del 61.4708% (e) y = 89.013x−0.5822 con se2= 0.0859 y = 13.7139 − 1.8329 lnx con s2 e = 0.0926 (f) by (600) = 2.14748

(64)

Bibliograf´ıa

´

Alvarez R. (2007): Estad´ıstica aplicada a las Ciencias de la Salud. D´ıaz de los Santos, Madrid (2007). (Cap´ıtulo XIX)

Mart´ın-Andr´es A. y Luna del Castillo J.D. (2004): Bioestad´ıstica para las ciencias de la Salud. Norma, Madrid. (Cap´ıtulo XII)

Milton J.S. (2007): Estad´ıstica para Biolog´ıa y Ciencias de la Salud. 3a edición ampliada. McGraw-Hill Interamericana, Madrid. (Cap´ıtulo XI) Peña D. (2002): Regresión y Diseño de Experimentos. Alianza Editorial, Madrid.