• No se han encontrado resultados

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

N/A
N/A
Protected

Academic year: 2021

Share "1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M."

Copied!
12
0
0

Texto completo

(1)

MODELO DE REGRESI ´

ON SIMPLE

Juli´

an de la Horra

Departamento de Matem´

aticas U.A.M.

1

Introducci´

on

Los modelos de regresi´on sirven, en general, para tratar de expresar una vari-able respuesta (num´erica) en funci´on de una o m´as variables explicativas (tambi´en num´ericas). En este tema, vamos a abordar el modelo m´as sencillo: el modelo de re-gresi´on simple en el que consideramos una ´unica variable explicativa. Este modelo es especialmente interesante por motivos pedag´ogicos, ya que permite abordar muchos de los aspectos interesantes de la regresi´on con una notaci´on y una metodolog´ıa rel-ativamente sencillas. En concreto, dedicaremos la mayor parte del tiempo al modelo de regresi´on lineal simple.

Ejemplos

Podemos estar interesados en expresar el peso de las personas en funci´on de su estatura.

Podemos estar interesados en expresar el peso de los ejemplares de cierta especie de aves en funci´on de su envergadura.

Podemos estar interesados en expresar el nivel de cierto contaminante en funci´on de la densidad industrial.

2

Modelo. Hip´

otesis del modelo

Disponemos de los siguientes elementos para el estudio estad´ıstico:

En primer lugar, una variable respuesta (o dependiente),Y, que ser´a una variable num´erica (o cuantitativa): es la variable que se quiere analizar. Formalmente, ser´a una variable aleatoria de tipo continuo.

En segundo lugar, una variable explicativa (o independiente), X, que ser´a una variable num´erica (o cuantitativa). Recu´erdese que los factores en el modelo de dise˜no de experimentos eran siempre variables cualitativas.

En tercer lugar, necesitamos datos. Supondremos que disponemos den pares de datos:

(x1, y1)...,(xi, yi), ...,(xn, yn)

Obs´ervese que aqu´ı es absolutamente necesario que los datos vayan emparejados, es decir, que (xi, yi) representa los valores deX eY en el i-´esimo individuo o unidad

muestral.

El modelo de regresi´on lineal simple es de la siguiente forma:

Yi =β0+β1xi+ui para i= 1, ..., n

Significado de los par´ametros:

β0= Valor medio de la variable respuesta cuandoX = 0.

(2)

β1= Mide la variaci´on media que experimenta la variable respuesta cuando X

aumenta una unidad.

La interpretaci´on intuitiva de β1 siempre es muy interesante.

ui= T´ermino de error = Efecto adicional debido a otras variables que no se

incluyen en el modelo por no ser consideradas relevantes.

Para poder obtener y utilizar herramientas estad´ısticas que nos permitan tomar decisiones objetivas y razonadas, necesitamos que el modelo se ajuste a unas deter-minadas hip´otesis. Estas hip´otesis iniciales del modelo son las siguientes:

Normalidad: Las observacionesYi siguen una distribuci´on Normal,

Linealidad: Los valores medios de la variable respuesta dependen linealmente del valor de X: E[Yi] =β0+β1xi,

Homogeneidad o igualdad de varianzas (homocedasticidad): V(Yi) =σ2,

Las observaciones son independientes.

Todas estas hip´otesis se pueden expresar abreviadamente de la siguiente forma:

Yi ∼N(β0+β1xi;σ2) independientes.

Es importante que estas hip´otesis iniciales del modelo se cumplan (aproximada-mente) para que las conclusiones que obtengamos no sean una barbaridad.

Llegados a este punto, se puede abordar la cuesti´on de si tenemos suficientes datos (suficiente informaci´on muestral) para abordar el an´alisis estad´ıstico de este modelo. La regla b´asica para responder a esto es muy f´acil de recordar (y de enten-der): en general, necesitaremos al menos tantos datos como par´ametros queremos estimar en el modelo. En este modelo, tenemos:

N´umero de datos= n N´umero de par´ametros= 3

Por lo tanto, necesitamos, al menos,n = 3 pares de datos.

3

Metodolog´ıa

La metodolog´ıa o plan de trabajo que seguiremos en el an´alisis estad´ıstico de un modelo de regresi´on simple es el siguiente:

(1) Diagnosis de las hip´otesis del modelo.

Se llevar´a a cabo mediante un an´alisis de los residuos. Si las hip´otesis iniciales (Normalidad, Linealidad y Homocedasticidad) no se cumplen ni siquiera aproxi-madamente, habr´ıa que replantearse el modelo de alguna forma. En muchos casos, una transformaci´on de los datos (por ejemplo, trabajando con sus logaritmos nepe-rianos) soluciona el problema.

Al final del cap´ıtulo, se indicar´an las herramientas estad´ısticas que se pueden utilizar para llevar a cabo la diagnosis de las hip´otesis del modelo.

(3)

(2) Estimaci´on puntual de los par´ametros del modelo.

(3) Intervalos de confianza para estimar los par´ametros del modelo. (4) Contraste de la regresi´on.

El contraste de la regresi´on dar´a respuesta a la pregunta m´as importante que nos planteamos en un modelo de regresi´on lineal simple:

¿Encontramos diferencias significativas en los valores medios de la variable re-spuesta para diferentes valores de X? O dicho de otra manera, ¿la variable explica-tiva tiene una influencia relevante sobre la variable respuesta?

(5) Evaluaci´on del ajuste proporcionado por la recta de regresi´on. (6) Estimaci´on de valores medios e individuales de la variable respuesta.

Observaci´on: Para llevar a cabo todo este plan de trabajo, necesitaremos so-lamente el c´alculo de los siguientes estad´ısticos:

Media muestral deX: ¯x= n1 Pn i=1xi Media muestral deY: ¯y= n1 Pn i=1yi Varianza muestral deX: vx = n1 Pni=1(xi−x¯)2 = n1 (Pni=1x2i −nx¯2) Varianza muestral deY: vy = n1 Pni=1(yi−y¯)2 = 1n(Pni=1y2i −ny¯2)

Covarianza muestral entre X e Y:

covx,y = 1nPni=1(xi−x¯)(yi−y¯) = 1n(Pni=1xiyi−nx¯y¯)

4

Estimaci´

on puntual de los par´

ametros

La metodolog´ıa estad´ıstica para obtener estimadores puntuales de los par´ametros es la siguiente:

Se aplica el m´etodo de m´axima verosimilitud, y el estimador obtenido se corrige (en caso necesario) para que sea insesgado.

Con este procedimiento, se obtienen las siguientes estimaciones: ˆ β0 = y¯− covx,y vx ¯ x ˆ β1 = covx,y vx ˆ σ2 = SR2 = 1 n−2 X i (yi−yˆi)2 = 1 n−2 X i (yi−β0ˆ −β1xˆ i)2

Las estimaciones de β0 y β1 que obtenemos por m´axima verosimilitud coinciden

con las estimaciones que se obtienen mediante la t´ecnica de m´ınimos cuadrados utilizada en Estad´ıstica Descriptiva. Por lo tanto, los coeficientes de la recta de regresi´on se pueden obtener tanto por m´axima verosimilitud como por m´ınimos

(4)

cuadrados: y= ˆβ0 + ˆβ1x= ¯y− covx,y vx ¯ x+ covx,y vx x ⇒ y−y¯= covx,y vx (x−x¯) El estimador de σ2, S2

R, recibe habitualmente el nombre de varianza residual y

merece alg´un comentario adicional. El nombre de varianza residual obedece a que es una varianza que calculamos a partir de los residuos de cada dato. El residuo

de cada dato depende del modelo estad´ıstico que estemos utilizando, pero responde siempre a la misma filosof´ıa:

“Residuo” = “Valor observado” - “Estimaci´on del valor esperado” =yi−yˆi =yi−βˆ0 −βˆ1xi

5

Intervalos de confianza

Los estimadores puntuales son muy interesantes, pero son demasiado r´ıgidos. Cuando decimos que estimamos que el par´ametroβ1 vale, por ejemplo, 1,15, lo que estamos

diciendo en realidad es que pensamos que vale, aproximadamente, 1,15. La forma en que los m´etodos estad´ısticos cuantifican este “aproximadamente” de forma au-tom´atica y objetiva es a trav´es de los intervalos de confianza.

A continuaci´on, damos los intervalos de confianza que se obtienen, aplicando el m´etodo de la cantidad pivotal, para estimar los diferentes par´ametros involucrados en este modelo: IC1−α(β0) =  βˆ0 ±tn−2;α/2 SR s 1 n + ¯ x2 nvx  = ˆ β0±tn−2;α/2(error t´ıpico de ˆβ0) IC1−α(β1) = βˆ1±tn−2;α/2 SR s 1 nvx ! =βˆ1±tn−2;α/2 (error t´ıpico de ˆβ1) IC1−α(σ2) =   (n−2)S2 R χ2 n−2;α/2 ;(n−2)S 2 R χ2 n−2;1−α/2  

A continuaci´on, hacemos algunos comentarios sobre el intervalo obtenido para estimar β1, que es el par´ametro m´as interesante:

(a) Cuando aumentamos el nivel de confianza 1−α(es decir, cuando aumentamos la probabilidad de que la estimaci´on sea “buena”), tn−2;α/2 aumenta, y la amplitud

del intervalo tambi´en aumenta (es decir, nuestra estimaci´on se hace “menos pre-cisa”).

(b) Cuando aumentamos el tama˜no de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”).

(c) Cuando aumentamos la varianzavx correspondiente a los datos de la variable

explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”). Por este motivo, conviene dise˜nar el experimento de modo que los valores de X que obtenemos est´en lo m´as separados posibles, siempre que esto sea posible.

(5)

6

Constraste de la regresi´

on

En el modelo de regresi´on lineal simple, la cuesti´on m´as importante a la que hay que responder es la siguiente:

¿Disponemos de suficiente evidencia muestral para afirmar que X tiene una in-fluencia significativa sobre Y? O dicho de otra manera, ¿disponemos de suficiente evidencia muestral para asegurar que X es realmente una variable explicativa?

Teniendo en cuenta que la posible influencia deX desaparecer´ıa si su coeficiente

β1 se anulase, esto nos lleva a elegir entre las posibilidades β1 = 0 y β1 6= 0 y, por

tanto, al siguiente contraste de hip´otesis:

H0 :β1 = 0 (X no influye) H1 :β1 6= 0 (X s´ı influye)

Este contraste de hip´otesis suele recibir el nombre decontraste de la regresi´on. Elegiremos, como siempre, un nivel de significaci´on α para tomar una decisi´on al final del estudio. Esta decisi´on la podemos tomar de dos formas:

(a) Podemos utilizar el intervalo de confianza IC1−α(β1) que hemos estudiado

en la secci´on anterior.

Si el valor cero est´a contenido en IC1−α(β1), aceptaremos H0, y concluiremos

que no hay suficiente evidencia estad´ıstica para afirmar que X influye sobreY. Si por el contrario, el valor cero no est´a contenido en IC1−α(β1), rechazaremos H0, y concluiremos que X tiene una influencia significativa sobre Y.

(b) Tambi´en podemos utilizar el An´alisis de la Varianza (ANOVA), que vuelve a tener una gran importancia en el modelo de regresi´on lineal. Se puede utilizar, como veremos a continuaci´on, en el modelo de regresi´on lineal simple, pero alcanza toda su importancia en el modelo de regresi´on lineal m´ultiple.

La descomposici´on de la variabilidad o an´alisis de la varianza en el caso del modelo de regresi´on lineal simple es de la siguiente forma:

“Variabilidad total de los datos”= SCT= P

i(yi−y¯)2

=P

i(yi−yˆi+ ˆyi−y¯)2 =Pi(ˆyi−y¯)2+Pi(yi−yˆi)2

= SCE + SCR

En la regresi´on lineal, la variabilidad total se descompone siempre en dos partes, tanto en la simple como en la m´ultiple:

SCE =P

i(ˆyi−y¯)2 que es la variabilidad asociada al modelo (o explicada por el

modelo). SCR =P

i(yi−yˆi)2que es la variabilidad residual (o no explicada por el modelo).

La decisi´on de aceptar o rechazar H0 se va a tomar en base al estad´ıstico que se

obtiene a partir de este an´alisis de la varianza:

F = SCE/1

(6)

Este estad´ıstico tiene una distribucion F1;n−2 (bajo H0) y, por tanto, la la regla

de decisi´on es de la siguiente forma:

Rechazaremos H0, al nivel de significaci´on α, cuando

F = SCE/1

SCR/(n−2) > F1;n−2;α

Tambi´en podemos alcanzar una decisi´on razonando con el p-valor de los datos. La manera m´as sencilla de “interpretar” y utilizar el p-valor es entendiendo el p-valor como el “apoyo que los datos dan a H0”. De este modo:

Si el p-valor< α, el apoyo a H0 es insuficiente, y rechazaremos H0 (al nivel de

significaci´onα).

Si el p-valor> α, el apoyo a H0 es suficiente, y aceptaremos H0 (al nivel de

significaci´onα).

Por supuesto, obtendremos la misma decisi´on, tanto si trabajamos con el es-tad´ıstico F como si trabajamos con el p-valor.

Es tradicional, y as´ı lo podemos ver en libros y salidas de ordenador, organizar los c´alculos correspondientes a un an´alisis de la varianza en una tabla ANOVA, que suele ser del siguiente tipo:

Sumas de cuadrados G.l. Med. cuad. Estad´ıstico

SCE =P i(ˆyi−y¯)2 1 SCE1 F = SCR/SCE/(n12) SCR=P i(yi−yˆi)2 n−2 SCRn2 SCT =P i(yi−y¯)2 n−1

Finalmente, hay que se˜nalar que la decisi´on que alcancemos sobre el contraste de hip´otesis

H0 :β1 = 0 H1 :β1 6= 0

siempre ser´a la misma (una vez fijado el nivel de significaci´on), tanto si trabajamos con el intervalo de confianza IC1−α(β1), como si trabajamos con el an´alisis de la

varianza, ya que es sencillo probar que los contrastes obtenidos son equivalentes. Una vez estudiado todo esto, es importante hacer un par de comentarios: (a) En la regresi´on lineal m´ultiple, el intervalo de confianza IC1−α(β1) servir´a

para una cosa, y la tabla ANOVA para otra. Por eso, se explican las dos t´ecnicas estad´ısticas.

(b) En la regresi´on lineal m´ultiple es cuando ser´a especialmente importante de-terminar si una variable explicativa tiene una influencia significativa o no sobre la variable respuesta. El motivo es sencillo: en principio, introducimos en el modelo varias presuntas variables explicativas y, posteriormente, los datos se encargar´an de decirnos cu´ales son realmente relevantes.

(7)

7

Evaluaci´

on del ajuste

A partir de los datos (x1, y1)...,(xi, yi), ...,(xn, yn), podemos obtener siempre la recta

de regresi´on:

y= ˆβ0+ ˆβ1x

Esta recta, en algunos casos se ajustar´a muy bien a los pares de datos que tenemos, y en otros casos se ajustar´a peor. Cuando el ajuste sea bueno, tendremos una cierta seguridad de que esa recta representa razonablemente bien la relaci´on entre X eY.

Por supuesto, siempre se puede y se debe echar un vistazo al diagrama de dis-persi´on de Y sobre X, donde a˜nadiremos la recta de regresi´on estimada, y esta inspecci´on visual nos dar´a mucha informaci´on sobre la situaci´on. Pero tambi´en es ´

util disponer de alguna medida num´erica que nos eval´ue, de manera sencilla, si el ajuste es bueno o no. Para hacer ´esto, disponemos de dos posibles herramientas:

Coeficiente de correlaci´on lineal.- Este coeficiente procede de la Estad´ıstica Descriptiva y est´a basado en el error cuadr´atico medio que se comete al sustituir la nube de puntos por la recta de regresi´on:

E.C.M. = 1 n n X i=1 yi−y¯+ covx,y vx ¯ x− covx,y vx xi 2 = 1 n n X i=1 (yi−y¯)2+ cov x,y vx 2 n X i=1 (xi−x¯)2−2 covx,y vx n X i=1 (xi−x¯)(yi−y¯) ! = vy− (covx,y)2 vx =vy " 1− (covx,y) 2 vxvy #

El cociente que aparece en la ´ultima expresi´on motiva la definici´on del coefi-ciente de correlaci´on lineal entre X e Y:

“Coeficiente de correlaci´on lineal” =r= √covx,y

vxvy

Por lo tanto, el error cuadr´atico medio cometido con la recta de regresi´on puede escribirse tambi´en de la siguiente manera:

E.C.M.=vy(1−r2)

El coeficiente de correlacion muestral toma siempre un valor entre -1 y 1 (ya que el E.C.M., al ser una suma de cuadrados, no puede ser negativo). Es f´acil dar algunas pautas para interpretar el valor de r:

¶Si r est´a pr´oximo a +1, el E.C.M. es peque˜no, lo cual significa que el ajuste es bueno. Adem´as, al ser la covx,y positiva, la pendiente de la recta de regresi´on es

positiva, y se dice que existe una asociaci´on positiva entre X eY.

¶Sir est´a pr´oximo a -1, el E.C.M. es peque˜no, lo cual significa que el ajuste es bueno. Adem´as, al ser la covx,y negativa, la pendiente de la recta de regresi´on es

negativa, y se dice que existe una asociaci´on negativa entre X e Y.

(8)

Coeficiente de determinaci´on.- El concepto de coeficiente de determi-naci´on procede del Analisis de la Varianza y tiene una definici´on y una inter-pretaci´on muy sencillas:

“Coeficiente de determinaci´on” =R2 = SCE

SCT

El coeficiente de determinaci´on toma siempre un valor entre 0 y 1, y su significado es obvio: R2 mide la proporci´on de variabilidad explicada por el modelo.

Las pautas para interpretar el valor de R2 tambi´en son obvias:

¶CuandoR2 toma un valor pr´oximo a cero, la proporci´on de variabilidad

expli-cada por el modelo es peque˜na, y el ajuste es malo.

¶CuandoR2 toma un valor pr´oximo a uno, la proporci´on de variabilidad

expli-cada por el modelo es grande, y el ajuste es bueno.

Hay que insistir en la idea de que, tanto el coeficiente de correlaci´on lineal como el coeficiente de determinaci´on, siempre hay que considerarlos con cuidado, ya que est´an resumiendo toda una nube de puntos en un solo n´umero.

Es conveniente hacer un par de observaciones sobre estos coeficientes:

¶En la regresi´on lineal simple, podemos utilizar indistintamente el coeficiente de correlaci´on lineal o el coeficiente de determinaci´on, ya que existe una relaci´on muy estrecha entre ambos:

R2 =r2

¶En la regresi´on lineal m´ultiple, sin embargo, el ´unico coeficiente que tiene sen-tido para evaluar el ajuste del modelo es el coeficiente de determinaci´on.

8

Estimaci´

on de valores medios e individuales de

la variable respuesta

En esta secci´on, abordamos dos problemas muy relacionados pero no exactamente iguales:

Valores medios de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor medio que tendr´a la variable respuestaY para todos aquellos casos o individuos en la poblaci´on para los cuales X =x0.

Si nos conformamos con una estimaci´on puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresi´on:

ˆ

y0 = ˆβ0+ ˆβ1x0

Por el contrario, si deseamos hacer una estimaci´on con un nivel de confianza 1−α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:

(9)

IC1−α(Valor medio de Y) =  yˆ0±tn−2;α/2 SR s 1 n + (x0−x¯)2 nvx  

Sobre este intervalo se pueden hacer algunas observaciones interesantes:

(a) Cuando aumentamos el nivel de confianza 1−α(es decir, cuando aumentamos la probabilidad de que la estimaci´on sea “buena”), tn−2;α/2 aumenta, y la amplitud

del intervalo tambi´en aumenta (es decir, nuestra estimaci´on se hace “menos pre-cisa”).

(b) Cuando aumentamos el tama˜no de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”).

(c) Cuando aumentamos la varianzavx correspondiente a los datos de la variable

explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”). Por este motivo, conviene dise˜nar el experimento de modo que los valores de X que obtenemos est´en lo m´as separados posibles, siempre que esto sea posible.

(d) Cuandox0 se aleja de ¯x, la amplitud del intervalo aumenta (es decir, nuestra

estimaci´on se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio de Y son “m´as precisas” para valores cercanos a la media muestral de X.

Valores individuales de la variable respuesta.- En muchas situaciones, es muy interesante saber estimar (o predecir o pronosticar) el valor individual que tendr´a la variable respuesta Y para un nuevo caso o individuo para el cual X =x0.

Si nos conformamos con una estimaci´on puntual, la respuesta es muy sencilla, ya que basta con utilizar la recta de regresi´on:

ˆ

y0 = ˆβ0+ ˆβ1x0

Por el contrario, si deseamos hacer una estimaci´on con un nivel de confianza 1−α, recurriremos a un intervalo de confianza que, en este caso, es de la forma:

IC1−α(Valor individual de Y) =  yˆ0±tn−2;α/2 SR s 1 + 1 n + (x0−x¯)2 nvx  

Sobre este intervalo se pueden hacer algunas observaciones interesantes:

(a) Cuando aumentamos el nivel de confianza 1−α(es decir, cuando aumentamos la probabilidad de que la estimaci´on sea “buena”), tn−2;α/2 aumenta, y la amplitud

del intervalo tambi´en aumenta (es decir, nuestra estimaci´on se hace “menos pre-cisa”).

(b) Cuando aumentamos el tama˜no de la muestra n, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”).

(10)

(c) Cuando aumentamos la varianzavx correspondiente a los datos de la variable

explicativa, la amplitud del intervalo disminuye (es decir, nuestra estimaci´on se hace “m´as precisa”). Por este motivo, conviene dise˜nar el experimento de modo que los valores de X que obtenemos est´en lo m´as separados posibles, siempre que esto sea posible.

(d) Cuandox0 se aleja de ¯x, la amplitud del intervalo aumenta (es decir, nuestra

estimaci´on se hace “menos precisa”). Por lo tanto, las estimaciones del valor medio de Y son “m´as precisas” para valores cercanos a la media muestral de X.

(e) El intervalo para estimar valores individuales siempre es mayor que el inter-valo para estimar inter-valores medios. La explicaci´on intuitiva es que resulta m´as dif´ıcil acertar con las individualidades y, por eso, el intervalo es “menos preciso”.

9

Diagnosis de las hip´

otesis del modelo

Como se indic´o en la Secci´on 3 (Metodolog´ıa), es conveniente hacer una diagnosis previa de las hip´otesis del modelo: Normalidad, Linealidad y Homogeneidad de Varianzas. Este diagn´ostico se puede llevar a cabo nuevamente utilizando unos an´alisis gr´aficos sencillos de los residuos. Para llevar a cabo este an´alisis gr´afico, necesitamos dos cosas:

¶Guardar los residuos de cada dato, que en este modelo son de la forma: “Residuo” = yi−yˆi =yi−βˆ0−βˆ1xi

¶Guardar los valores pronosticados o estimados para cada dato, que en este modelo son de la forma:

“Valor pronosticado” = ˆyi = ˆβ0+ ˆβ1xi

Con los residuos y los valores pronosticados podemos hacer un an´alisis visual de los siguientes gr´aficos:

(a) Histograma de los residuos.

La hip´otesis de Normalidad de los datos ser´a aceptable cuando este histograma muestre un razonable parecido con la curva Normal.

(b) Gr´afico de probabilidades normales de los residuos (probability plot). La hip´otesis de Normalidad de los datos ser´a aceptable cuando los puntos del gr´afico est´en razonablemente cerca de la diagonal del cuadrado.

(c) Gr´afico de dispersi´on de los residuos sobre los valores pronosticados (o sobre los valores de la variable explicativa).

La hip´otesis de Homocedasticidad (o igualdad de varianzas) de los datos ser´a aceptable cuando la anchura vertical del gr´afico de dispersi´on se mantenga razon-ablemente constante.

La hip´otesis de Linealidad de los datos ser´a aceptable cuando la l´ınea central del gr´afico de dispersi´on sea razonablemente recta.

(11)

La gran ventaja de estos an´alisis gr´aficos es su sencillez. Sus grandes inconve-nientes son que con pocos datos (como suele ser frecuente) no nos dicen pr´acticamente nada, y aunque dispongamos de muchos datos, las conclusiones son inevitablemente subjetivas (salvo situaciones muy claras que no son demasiado frecuentes con los datos reales).

10

Extensi´

on a otros modelos

Una de las grandes utilidades del modelo de regresi´on lineal es que es f´acilmente ex-portable a varios modelos que no son lineales, pero que se pueden linealizar mediante sencillos cambios de variable. Vemos a continuaci´on dos modelos muy interesantes que pueden ser linealizados, aunque no son los ´unicos.

Modelo de regresi´on logar´ıtimica.-En algunas situaciones, es muy adecuado pensar en un modelo de regresi´on logar´ıtmica,

Y =a+blnX

El modelo logar´ıtmico sirve, por ejemplo, para describir emp´ıricamente la relaci´on entre el tama˜no, Y, alcanzado por una planta y su concentraci´on, X, de hormona del crecimiento.

El modelo de regresi´on logar´ıtmico se puede reducir f´acilmente a un modelo de regresi´on lineal. Los pasos que tenemos que dar son los siguientes:

Y =a+blnX ⇒ Definimos la nueva variableZ = lnX: Y =a+bZ

⇒ Obtenemos la recta de regresi´on deY sobre Z, y deshacemos el cambio. Podemos confirmar de dos formas la validez del modelo de regresi´on logar´ıtmica: (a) Desde un punto de vista gr´afico, el diagrama de dispersi´on de Y sobre Z = lnX deber´ıa tener un aspecto razonablemente lineal.

(b) Desde un punto de vista num´erico, el coeficiente de correlaci´on lineal entre

Y y Z = lnX deber´ıa ser razonablemente pr´oximo a +1.

Modelo de regresi´on exponencial.- En otras situaciones, es muy adecuado pensar en un modelo de regresi´on exponencial,

Y =aebx

El modelo exponencial sirve, por ejemplo, para describir emp´ıricamente la evoluci´on del tama˜no de una poblaci´on que crece (o decrece) un porcentaje fijo cada unidad de tiempo.

El modelo de regresi´on exponencial se puede reducir f´acilmente a un modelo de regresi´on lineal. Los pasos que tenemos que dar son los siguientes:

Y = aebX Tomamos logaritmos neperianos: lnY = lna+bX =

a0 +bX ⇒ Definimos la nueva variable Z = lnY: Z = a0 + bX

⇒ Obtenemos la recta de regresi´on de Z sobre X, deshacemos el cambio, y tomamos exponenciales.

(12)

Podemos confirmar de dos formas la validez del modelo de regresi´on exponencial: a) Desde un punto de vista gr´afico, el diagrama de dispersi´on deZ = lnY sobre

X deber´ıa tener un aspecto razonablemente lineal.

b) Desde un punto de vista num´erico, el coeficiente de correlaci´on lineal entre

Referencias

Documento similar

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

(1886-1887) encajarían bien en una antología de textos históricos. Sólo que para él la literatura es la que debe influir en la historia y no a la inversa, pues la verdad litera- ria

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

dente: algunas decían que doña Leonor, &#34;con muy grand rescelo e miedo que avía del rey don Pedro que nueva- mente regnaba, e de la reyna doña María, su madre del dicho rey,

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y