1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

(1)

MODELO DE REGRESI ´

ON SIMPLE

Juli´

an de la Horra

Departamento de Matem´

aticas U.A.M.

1 Introducci´

on

Los modelos de regresión sirven, en general, para tratar de expresar una vari-able respuesta (numérica) en función de una o más variables explicativas (también numéricas). En este tema, vamos a abordar el modelo más sencillo: el modelo de re-gresión simple en el que consideramos una única variable explicativa. Este modelo es especialmente interesante por motivos pedagógicos, ya que permite abordar muchos de los aspectos interesantes de la regresión con una notación y una metodolog´ıa rel-ativamente sencillas. En concreto, dedicaremos la mayor parte del tiempo al modelo de regresión lineal simple.

Ejemplos

Podemos estar interesados en expresar el peso de las personas en funci´on de su estatura.

Podemos estar interesados en expresar el peso de los ejemplares de cierta especie de aves en funci´on de su envergadura.

Podemos estar interesados en expresar el nivel de cierto contaminante en funci´on de la densidad industrial.

2 Modelo. Hip´

otesis del modelo

Disponemos de los siguientes elementos para el estudio estad´ıstico:

En primer lugar, una variable respuesta (o dependiente),Y, que será una variable numérica (o cuantitativa): es la variable que se quiere analizar. Formalmente, será una variable aleatoria de tipo continuo.

En segundo lugar, una variable explicativa (o independiente), X, que será una variable numérica (o cuantitativa). Recuérdese que los factores en el modelo de diseño de experimentos eran siempre variables cualitativas.

En tercer lugar, necesitamos datos. Supondremos que disponemos den pares de datos:

(x1, y1)...,(xi, yi), ...,(xn, yn)

Obs´ervese que aqu´ı es absolutamente necesario que los datos vayan emparejados, es decir, que (xi, yi) representa los valores deX eY en el i-´esimo individuo o unidad

muestral.

El modelo de regresi´on lineal simple es de la siguiente forma:

Yi =β0+β1xi+ui para i= 1, ..., n

Significado de los par´ametros:

β0= Valor medio de la variable respuesta cuandoX = 0.

(2)

β1= Mide la variaci´on media que experimenta la variable respuesta cuando X

aumenta una unidad.

La interpretaci´on intuitiva de β1 siempre es muy interesante.

ui= T´ermino de error = Efecto adicional debido a otras variables que no se

incluyen en el modelo por no ser consideradas relevantes.

Para poder obtener y utilizar herramientas estad´ısticas que nos permitan tomar decisiones objetivas y razonadas, necesitamos que el modelo se ajuste a unas deter-minadas hip´otesis. Estas hip´otesis iniciales del modelo son las siguientes:

Normalidad: Las observacionesYi siguen una distribuci´on Normal,

Linealidad: Los valores medios de la variable respuesta dependen linealmente del valor de X: E[Yi] =β0+β1xi,

Homogeneidad o igualdad de varianzas (homocedasticidad): V(Yi) =σ2,

Las observaciones son independientes.

Todas estas hip´otesis se pueden expresar abreviadamente de la siguiente forma:

Yi ∼N(β0+β1xi;σ2) independientes.

Es importante que estas hip´otesis iniciales del modelo se cumplan (aproximada-mente) para que las conclusiones que obtengamos no sean una barbaridad.

Llegados a este punto, se puede abordar la cuestión de si tenemos suficientes datos (suficiente información muestral) para abordar el análisis estad´ıstico de este modelo. La regla básica para responder a esto es muy fácil de recordar (y de enten-der): en general, necesitaremos al menos tantos datos como parámetros queremos estimar en el modelo. En este modelo, tenemos:

Número de datos= n Número de parámetros= 3

Por lo tanto, necesitamos, al menos,n = 3 pares de datos.

3 Metodolog´ıa

La metodolog´ıa o plan de trabajo que seguiremos en el an´alisis estad´ıstico de un modelo de regresi´on simple es el siguiente:

(1) Diagnosis de las hip´otesis del modelo.

Se llevará a cabo mediante un análisis de los residuos. Si las hipótesis iniciales (Normalidad, Linealidad y Homocedasticidad) no se cumplen ni siquiera aproxi-madamente, habr´ıa que replantearse el modelo de alguna forma. En muchos casos, una transformación de los datos (por ejemplo, trabajando con sus logaritmos nepe-rianos) soluciona el problema.

Al final del cap´ıtulo, se indicar´an las herramientas estad´ısticas que se pueden utilizar para llevar a cabo la diagnosis de las hip´otesis del modelo.

(3)

(2) Estimaci´on puntual de los par´ametros del modelo.

(3) Intervalos de confianza para estimar los par´ametros del modelo. (4) Contraste de la regresi´on.

El contraste de la regresión dará respuesta a la pregunta más importante que nos planteamos en un modelo de regresión lineal simple:

¿Encontramos diferencias significativas en los valores medios de la variable re-spuesta para diferentes valores de X? O dicho de otra manera, ¿la variable explica-tiva tiene una influencia relevante sobre la variable respuesta?

(5) Evaluación del ajuste proporcionado por la recta de regresión. (6) Estimación de valores medios e individuales de la variable respuesta.

Observaci´on: Para llevar a cabo todo este plan de trabajo, necesitaremos so-lamente el c´alculo de los siguientes estad´ısticos:

Media muestral deX: ¯x= _n1 Pn i=1xi Media muestral deY: ¯y= _n1 Pn i=1yi Varianza muestral deX: vx = _n1 Pni=1(xi−x¯)2 = _n1 (Pni=1x2i −nx¯2) Varianza muestral deY: vy = _n1 Pni=1(yi−y¯)2 = 1_n(Pni=1y2i −ny¯2)

Covarianza muestral entre X e Y:

covx,y = 1_nPni=1(xi−x¯)(yi−y¯) = 1_n(Pni=1xiyi−nx¯y¯)

4 Estimaci´

on puntual de los par´

ametros

La metodolog´ıa estad´ıstica para obtener estimadores puntuales de los par´ametros es la siguiente:

Se aplica el m´etodo de m´axima verosimilitud, y el estimador obtenido se corrige (en caso necesario) para que sea insesgado.

Con este procedimiento, se obtienen las siguientes estimaciones: ˆ β0 = y¯− covx,y vx ¯ x ˆ β1 = covx,y vx ˆ σ2 = S_R2 = 1 n−2 X i (yi−yˆi)2 = 1 n−2 X i (yi−β0ˆ −β1xˆ i)2

Las estimaciones de β0 y β1 que obtenemos por m´axima verosimilitud coinciden

con las estimaciones que se obtienen mediante la técnica de m´ınimos cuadrados utilizada en Estad´ıstica Descriptiva. Por lo tanto, los coeficientes de la recta de regresión se pueden obtener tanto por máxima verosimilitud como por m´ınimos

(4)

cuadrados: y= ˆβ0 + ˆβ1x= ¯y− covx,y vx ¯ x+ covx,y vx x ⇒ y−y¯= covx,y vx (x−x¯) El estimador de σ2_, _S2

R, recibe habitualmente el nombre de varianza residual y

merece alg´un comentario adicional. El nombre de varianza residual obedece a que es una varianza que calculamos a partir de los residuos de cada dato. El residuo

de cada dato depende del modelo estad´ıstico que estemos utilizando, pero responde siempre a la misma filosof´ıa:

“Residuo” = “Valor observado” - “Estimaci´on del valor esperado” =yi−yˆi =yi−βˆ0 −βˆ1xi

5 Intervalos de confianza

Los estimadores puntuales son muy interesantes, pero son demasiado r´ıgidos. Cuando decimos que estimamos que el par´ametroβ1 vale, por ejemplo, 1,15, lo que estamos

diciendo en realidad es que pensamos que vale, aproximadamente, 1,15. La forma en que los métodos estad´ısticos cuantifican este “aproximadamente” de forma au-tomática y objetiva es a través de los intervalos de confianza.

A continuación, damos los intervalos de confianza que se obtienen, aplicando el método de la cantidad pivotal, para estimar los diferentes parámetros involucrados en este modelo: IC1−α(β0) =  βˆ₀ ±t_n−2;α/2 SR s 1 n + ¯ x2 nvx  = ˆ β0±tn−2;α/2(error t´ıpico de ˆβ0) IC1−α(β1) = βˆ1±tn−2;α/2 SR s 1 nvx ! =βˆ1±tn−2;α/2 (error t´ıpico de ˆβ1) IC1−α(σ2) =   (n−2)S2 R χ2 n−2;α/2 ;(n−2)S 2 R χ2 n−2;1−α/2  

A continuación, hacemos algunos comentarios sobre el intervalo obtenido para estimar β1, que es el parámetro más interesante:

(a) Cuando aumentamos el nivel de confianza 1−α(es decir, cuando aumentamos la probabilidad de que la estimaci´on sea “buena”), tn−2;α/2 aumenta, y la amplitud

del intervalo tambi´en aumenta (es decir, nuestra estimaci´on se hace “menos pre-cisa”).

(b) Cuando aumentamos el tamaño de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace “más precisa”).

(c) Cuando aumentamos la varianzavx correspondiente a los datos de la variable

explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimación se hace “más precisa”). Por este motivo, conviene diseñar el experimento de modo que los valores de X que obtenemos estén lo más separados posibles, siempre que esto sea posible.

(5)

6 Constraste de la regresi´

on

En el modelo de regresión lineal simple, la cuestión más importante a la que hay que responder es la siguiente:

¿Disponemos de suficiente evidencia muestral para afirmar que X tiene una in-fluencia significativa sobre Y? O dicho de otra manera, ¿disponemos de suficiente evidencia muestral para asegurar que X es realmente una variable explicativa?

Teniendo en cuenta que la posible influencia deX desaparecer´ıa si su coeficiente

β1 se anulase, esto nos lleva a elegir entre las posibilidades β1 = 0 y β1 6= 0 y, por

tanto, al siguiente contraste de hip´otesis:

H0 :β1 = 0 (X no influye) H1 :β1 6= 0 (X s´ı influye)

Este contraste de hipótesis suele recibir el nombre decontraste de la regresión. Elegiremos, como siempre, un nivel de significación α para tomar una decisión al final del estudio. Esta decisión la podemos tomar de dos formas:

(a) Podemos utilizar el intervalo de confianza IC1−α(β1) que hemos estudiado

en la secci´on anterior.

Si el valor cero est´a contenido en IC1−α(β1), aceptaremos H0, y concluiremos

que no hay suficiente evidencia estad´ıstica para afirmar que X influye sobreY. Si por el contrario, el valor cero no est´a contenido en IC1−α(β1), rechazaremos H0, y concluiremos que X tiene una influencia significativa sobre Y.

(b) También podemos utilizar el Análisis de la Varianza (ANOVA), que vuelve a tener una gran importancia en el modelo de regresión lineal. Se puede utilizar, como veremos a continuación, en el modelo de regresión lineal simple, pero alcanza toda su importancia en el modelo de regresión lineal múltiple.

La descomposición de la variabilidad o análisis de la varianza en el caso del modelo de regresión lineal simple es de la siguiente forma:

“Variabilidad total de los datos”= SCT= P

i(yi−y¯)2

=P

i(yi−yˆi+ ˆyi−y¯)2 =Pi(ˆyi−y¯)2+Pi(yi−yˆi)2

= SCE + SCR

En la regresi´on lineal, la variabilidad total se descompone siempre en dos partes, tanto en la simple como en la m´ultiple:

SCE =P

i(ˆyi−y¯)2 que es la variabilidad asociada al modelo (o explicada por el

modelo). SCR =P

i(yi−yˆi)2que es la variabilidad residual (o no explicada por el modelo).

La decisi´on de aceptar o rechazar H0 se va a tomar en base al estad´ıstico que se

obtiene a partir de este an´alisis de la varianza:

F = SCE/1

(6)

Este estad´ıstico tiene una distribucion F1;n−2 (bajo H0) y, por tanto, la la regla

de decisi´on es de la siguiente forma:

Rechazaremos H0, al nivel de significaci´on α, cuando

F = SCE/1

SCR/(n−2) > F1;n−2;α

También podemos alcanzar una decisión razonando con el p-valor de los datos. La manera más sencilla de “interpretar” y utilizar el p-valor es entendiendo el p-valor como el “apoyo que los datos dan a H0”. De este modo:

Si el p-valor< α, el apoyo a H0 es insuficiente, y rechazaremos H0 (al nivel de

significaci´onα).

Si el p-valor> α, el apoyo a H0 es suficiente, y aceptaremos H0 (al nivel de

significaci´onα).

Por supuesto, obtendremos la misma decisi´on, tanto si trabajamos con el es-tad´ıstico F como si trabajamos con el p-valor.

Es tradicional, y as´ı lo podemos ver en libros y salidas de ordenador, organizar los c´alculos correspondientes a un an´alisis de la varianza en una tabla ANOVA, que suele ser del siguiente tipo:

Sumas de cuadrados G.l. Med. cuad. Estad´ıstico

SCE =P i(ˆyi−y¯)2 1 SCE₁ F = _SCR/SCE/₍_n₋1₂₎ SCR=P i(yi−yˆi)2 n−2 SCR_n₋₂ SCT =P i(yi−y¯)2 n−1

Finalmente, hay que señalar que la decisión que alcancemos sobre el contraste de hipótesis

H0 :β1 = 0 H1 :β1 6= 0

siempre será la misma (una vez fijado el nivel de significación), tanto si trabajamos con el intervalo de confianza IC1−α(β1), como si trabajamos con el análisis de la

varianza, ya que es sencillo probar que los contrastes obtenidos son equivalentes. Una vez estudiado todo esto, es importante hacer un par de comentarios: (a) En la regresión lineal múltiple, el intervalo de confianza IC1−α(β1) servirá

para una cosa, y la tabla ANOVA para otra. Por eso, se explican las dos t´ecnicas estad´ısticas.

(b) En la regresión lineal múltiple es cuando será especialmente importante de-terminar si una variable explicativa tiene una influencia significativa o no sobre la variable respuesta. El motivo es sencillo: en principio, introducimos en el modelo varias presuntas variables explicativas y, posteriormente, los datos se encargarán de decirnos cuáles son realmente relevantes.

(7)

7 Evaluaci´

on del ajuste

A partir de los datos (x1, y1)...,(xi, yi), ...,(xn, yn), podemos obtener siempre la recta

de regresi´on:

y= ˆβ0+ ˆβ1x

Esta recta, en algunos casos se ajustará muy bien a los pares de datos que tenemos, y en otros casos se ajustará peor. Cuando el ajuste sea bueno, tendremos una cierta seguridad de que esa recta representa razonablemente bien la relación entre X eY.

Por supuesto, siempre se puede y se debe echar un vistazo al diagrama de dis-persión de Y sobre X, donde añadiremos la recta de regresión estimada, y esta inspección visual nos dará mucha información sobre la situación. Pero también es ´

util disponer de alguna medida numérica que nos evalúe, de manera sencilla, si el ajuste es bueno o no. Para hacer ésto, disponemos de dos posibles herramientas:

Coeficiente de correlación lineal.- Este coeficiente procede de la Estad´ıstica Descriptiva y está basado en el error cuadrático medio que se comete al sustituir la nube de puntos por la recta de regresión:

E.C.M. = 1 n n X i=1 yi−y¯+ covx,y vx ¯ x− covx,y vx xi 2 = 1 n n X i=1 (yi−y¯)2+ _cov x,y vx 2 n X i=1 (xi−x¯)2−2 covx,y vx n X i=1 (xi−x¯)(yi−y¯) ! = vy− (covx,y)2 vx =vy " 1− (covx,y) 2 vxvy #

El cociente que aparece en la última expresión motiva la definición del coefi-ciente de correlación lineal entre X e Y:

“Coeficiente de correlaci´on lineal” =r= √covx,y

vxvy

Por lo tanto, el error cuadrático medio cometido con la recta de regresión puede escribirse también de la siguiente manera:

E.C.M.=vy(1−r2)

El coeficiente de correlacion muestral toma siempre un valor entre -1 y 1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). Es f´acil dar algunas pautas para interpretar el valor de r:

¶Si r está próximo a +1, el E.C.M. es pequeño, lo cual significa que el ajuste es bueno. Además, al ser la covx,y positiva, la pendiente de la recta de regresión es

positiva, y se dice que existe una asociaci´on positiva entre X eY.

¶Sir está próximo a -1, el E.C.M. es pequeño, lo cual significa que el ajuste es bueno. Además, al ser la covx,y negativa, la pendiente de la recta de regresión es

negativa, y se dice que existe una asociaci´on negativa entre X e Y.

(8)

Coeficiente de determinación.- El concepto de coeficiente de determi-nación procede del Analisis de la Varianza y tiene una definición y una inter-pretación muy sencillas:

“Coeficiente de determinaci´on” =R2 = SCE

SCT

El coeficiente de determinaci´on toma siempre un valor entre 0 y 1, y su significado es obvio: R2 _{mide la proporci´}_{on de variabilidad explicada por el modelo.}

Las pautas para interpretar el valor de R2 _tambi´_{en son obvias:}

¶CuandoR2 _{toma un valor pr´}_{oximo a cero, la proporci´}_{on de variabilidad}

expli-cada por el modelo es peque˜na, y el ajuste es malo.

¶CuandoR2 _{toma un valor pr´}_{oximo a uno, la proporci´}_{on de variabilidad}

expli-cada por el modelo es grande, y el ajuste es bueno.

Hay que insistir en la idea de que, tanto el coeficiente de correlación lineal como el coeficiente de determinación, siempre hay que considerarlos con cuidado, ya que están resumiendo toda una nube de puntos en un solo número.

Es conveniente hacer un par de observaciones sobre estos coeficientes:

¶En la regresión lineal simple, podemos utilizar indistintamente el coeficiente de correlación lineal o el coeficiente de determinación, ya que existe una relación muy estrecha entre ambos:

R2 =r2

¶En la regresión lineal múltiple, sin embargo, el único coeficiente que tiene sen-tido para evaluar el ajuste del modelo es el coeficiente de determinación.

8 Estimaci´

on de valores medios e individuales de

la variable respuesta

En esta secci´on, abordamos dos problemas muy relacionados pero no exactamente iguales:

Valores medios de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor medio que tendr´a la variable respuestaY para todos aquellos casos o individuos en la poblaci´on para los cuales X =x0.

Si nos conformamos con una estimaci´on puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresi´on:

ˆ

y0 = ˆβ0+ ˆβ1x0

Por el contrario, si deseamos hacer una estimaci´on con un nivel de confianza 1−α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:

(9)

IC1−α(Valor medio de Y) =  yˆ₀±t_n−2;α/2 SR s 1 n + (x0−x¯)2 nvx  

Sobre este intervalo se pueden hacer algunas observaciones interesantes:

(d) Cuandox0 se aleja de ¯x, la amplitud del intervalo aumenta (es decir, nuestra

estimaci´on se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio de Y son “m´as precisas” para valores cercanos a la media muestral de X.

Valores individuales de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor individual que tendr´a la variable respuesta Y para un nuevo caso o individuo para el cual X =x0.

Si nos conformamos con una estimaci´on puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresi´on:

ˆ

y0 = ˆβ0+ ˆβ1x0

Por el contrario, si deseamos hacer una estimaci´on con un nivel de confianza 1−α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:

IC1−α(Valor individual de Y) =  yˆ₀±t_n−2;α/2 SR s 1 + 1 n + (x0−x¯)2 nvx  

Sobre este intervalo se pueden hacer algunas observaciones interesantes:

(10)

(d) Cuandox0 se aleja de ¯x, la amplitud del intervalo aumenta (es decir, nuestra

estimaci´on se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio de Y son “m´as precisas” para valores cercanos a la media muestral de X.

(e) El intervalo para estimar valores individuales siempre es mayor que el inter-valo para estimar inter-valores medios. La explicaci´on intuitiva es que resulta m´as dif´ıcil acertar con las individualidades y, por eso, el intervalo es “menos preciso”.

9 Diagnosis de las hip´

otesis del modelo

Como se indicó en la Sección 3 (Metodolog´ıa), es conveniente hacer una diagnosis previa de las hipótesis del modelo: Normalidad, Linealidad y Homogeneidad de Varianzas. Este diagnóstico se puede llevar a cabo nuevamente utilizando unos análisis gráficos sencillos de los residuos. Para llevar a cabo este análisis gráfico, necesitamos dos cosas:

¶Guardar los residuos de cada dato, que en este modelo son de la forma: “Residuo” = yi−yˆi =yi−βˆ0−βˆ1xi

¶Guardar los valores pronosticados o estimados para cada dato, que en este modelo son de la forma:

“Valor pronosticado” = ˆyi = ˆβ0+ ˆβ1xi

Con los residuos y los valores pronosticados podemos hacer un an´alisis visual de los siguientes gr´aficos:

(a) Histograma de los residuos.

La hip´otesis de Normalidad de los datos ser´a aceptable cuando este histograma muestre un razonable parecido con la curva Normal.

(b) Gráfico de probabilidades normales de los residuos (probability plot). La hipótesis de Normalidad de los datos será aceptable cuando los puntos del gráfico estén razonablemente cerca de la diagonal del cuadrado.

(c) Gr´afico de dispersi´on de los residuos sobre los valores pronosticados (o sobre los valores de la variable explicativa).

La hipótesis de Homocedasticidad (o igualdad de varianzas) de los datos será aceptable cuando la anchura vertical del gráfico de dispersión se mantenga razon-ablemente constante.

La hipótesis de Linealidad de los datos será aceptable cuando la l´ınea central del gráfico de dispersión sea razonablemente recta.

(11)

La gran ventaja de estos análisis gráficos es su sencillez. Sus grandes inconve-nientes son que con pocos datos (como suele ser frecuente) no nos dicen prácticamente nada, y aunque dispongamos de muchos datos, las conclusiones son inevitablemente subjetivas (salvo situaciones muy claras que no son demasiado frecuentes con los datos reales).

10 Extensi´

on a otros modelos

Una de las grandes utilidades del modelo de regresión lineal es que es fácilmente ex-portable a varios modelos que no son lineales, pero que se pueden linealizar mediante sencillos cambios de variable. Vemos a continuación dos modelos muy interesantes que pueden ser linealizados, aunque no son los únicos.

Modelo de regresi´on logar´ıtimica.-En algunas situaciones, es muy adecuado pensar en un modelo de regresi´on logar´ıtmica,

Y =a+blnX

El modelo logar´ıtmico sirve, por ejemplo, para describir emp´ıricamente la relación entre el tamaño, Y, alcanzado por una planta y su concentración, X, de hormona del crecimiento.

El modelo de regresión logar´ıtmico se puede reducir fácilmente a un modelo de regresión lineal. Los pasos que tenemos que dar son los siguientes:

Y =a+blnX ⇒ Definimos la nueva variableZ = lnX: Y =a+bZ

⇒ Obtenemos la recta de regresión deY sobre Z, y deshacemos el cambio. Podemos confirmar de dos formas la validez del modelo de regresión logar´ıtmica: (a) Desde un punto de vista gráfico, el diagrama de dispersión de Y sobre Z = lnX deber´ıa tener un aspecto razonablemente lineal.

(b) Desde un punto de vista num´erico, el coeficiente de correlaci´on lineal entre

Y y Z = lnX deber´ıa ser razonablemente pr´oximo a +1.

Modelo de regresi´on exponencial.- En otras situaciones, es muy adecuado pensar en un modelo de regresi´on exponencial,

Y =aebx

El modelo exponencial sirve, por ejemplo, para describir emp´ıricamente la evolución del tamaño de una población que crece (o decrece) un porcentaje fijo cada unidad de tiempo.

El modelo de regresión exponencial se puede reducir fácilmente a un modelo de regresión lineal. Los pasos que tenemos que dar son los siguientes:

Y = aebX _⇒ _{Tomamos logaritmos neperianos: ln}_Y _{= ln}_a₊_bX ₌

a0 +bX ⇒ Definimos la nueva variable Z = lnY: Z = a0 + bX

⇒ Obtenemos la recta de regresi´on de Z sobre X, deshacemos el cambio, y tomamos exponenciales.

(12)

Podemos confirmar de dos formas la validez del modelo de regresión exponencial: a) Desde un punto de vista gráfico, el diagrama de dispersión deZ = lnY sobre

X deber´ıa tener un aspecto razonablemente lineal.

b) Desde un punto de vista num´erico, el coeficiente de correlaci´on lineal entre