• No se han encontrado resultados

Definici´ on de modelos estad´ısticos F´ ormulas

In document R Development Core Team (página 61-64)

El ejemplo b´asico de un modelo estad´ıstico es un modelo de regresi´on lineal con errores independientes y homosced´asticos

yi= p X

j=0

βjxij+ei, ei ∼NID(0, σ2), i= 1, . . . , n

En notaci´on matricial puede escribirse

y =Xβ+e

dondey es el vector de respuesta, yX es lamatriz del modelo omatriz de dise˜no, formada por las columnas x0, x1, . . . , xp, que son las variables predictoras. Muy a menudo x0 ser´a

una columna de unos y definir´a el punto de corte o t´ermino independiente.

Ejemplos

Antes de dar una definici´on formal, algunos ejemplos ayudar´an a centrar las ideas. Supongamos quey,x,x0,x1,x2, . . . son variables num´ericas, queXes una matriz y que

A, B, C, . . . son factores. Las f´ormulas que aparecen en la parte izquierda de la siguiente tabla, especifican los modelos estad´ısticos descritos en la parte de la derecha.

y∼x

y∼1 + x Ambos definen el mismo modelo de regresi´on lineal de y sobre x. El primero contiene el t´ermino independiente impl´ıcito y el segundo, expl´ıcito.

y∼0 + x y∼-1 + x

y∼x - 1 Regresi´on lineal de y sobre x sin t´ermino independiente, esto es, que pasa por el origen de coordenadas.

log(y)∼x1 + x2

Regresi´on m´ultiple de la variable transformada, log(y), sobre x 1 yx 2 (con un t´ermino independiente impl´ıcito).

y∼poly(x,2) y∼1 + x + I(x^2)

Regresi´on polinomial dey sobrex de segundo grado. La primera forma utiliza polinomios ortogonales y la segunda utiliza potencias de modo expl´ıcito.

y∼X + poly(x,2)

Regresi´on m´ultiple de y con un modelo matricial consistente en la matrizX y t´erminos polinomiales enx de segundo grado.

y∼A An´alisis de varianza de entrada simple dey, con clases determinadas porA.

y∼A + x An´alisis de covarianza de entrada simple dey, con clases determinadas porA, y con covariante x.

y∼A*B

y∼A + B + A:B y∼B %in% A

y∼A/B Modelo no aditivo de dos factores de y sobre A y B. Los dos primeros es- pecifican la misma clasificaci´on cruzada y los dos ´ultimos especifican la misma clasificaci´on anidada. En t´erminos abstractos, los cuatro especifican el mismo subespacio de modelos.

y∼(A + B + C)^2 y∼A*B*C - A:B:C

Experimento con tres factores con un modelo que contiene efectos principales e interacciones de dos factores solamente. Ambas f´ormulas especifican el mismo modelo.

y∼A * x y∼A/x

y∼A/(1 + x) - 1

Modelos de regresi´on lineal simple separados de y sobre x para cada nivel de A. La ´ultima forma produce estimaciones expl´ıcitas de tantos t´erminos inde- pendientes y pendientes como niveles tiene A.

y∼A*B + Error(C)

Un experimento con dos factores de tratamiento, A y B, y estratos de error determinados por el factor C. Por ejemplo, un experimento split plot, con gr´aficos completos (y por tanto tambi´en subgr´aficos) determinados por el factor C.

El operador ∼ se utiliza para definir una f´ormula de modelo en R. La forma, para un modelo lineal ordinario es

respuesta ∼ op 1 term 1 op 2 term 2 op 3 term 3 . . .

donde

respuesta es un vector o una matriz (o una expresi´on que eval´ue a un vector o matriz) que definen, respectivamente, la o las variables respuesta

op i es un operador, bien+, bien-, que implica la inclusi´on o exclusi´on, respectiva- mente, de un t´ermino en el modelo. El primero, +, es opcional.

• una expresi´on vectorial, una expresi´on matricial, o el n´umero1; o • un factor; o

• unaexpresi´on de f´ormulaconsistente en factores, vectores o matrices conec- tados medianteoperadores de f´ormula.

En todos los casos, cada t´ermino define una colecci´on de columnas que deben ser a˜nadidas o eliminadas de la matriz del modelo. Un 1 significa un t´ermino independiente y est´a incluido siempre, salvo que se elimine expl´ıcitamente. Losoperadores de f´ormula son similares a la notaci´on de Wilkinson y Rogers utilizada en los programas Glim y Genstat. Un cambio inevitable es que el operador ‘.’ se ha sustituido por ‘:’ puesto que el punto es un car´acter v´alido para nombres de objetos en R. Un resumen de la notaci´on se encuentra en la siguiente tabla (basada en Chambers & Hastie, 1992, p.29).

Y ∼M Y se modeliza como M.

M 1 +M 2

Incluye M 1 yM 2.

M 1 -M 2

Incluye M 1 exceptuando los t´erminos de M 2.

M 1 :M 2

El producto tensorial de M 1 y M 2. Si ambos son factores, corresponde al factor “subclases”.

M 1 %in% M 2

Similar aM 1:M 2, pero con diferente codificaci´on.

M 1 *M 2

M 1 +M 2 +M 1:M 2.

M 1 /M 2

M 1 +M 2 %in% M 1.

M^n Todos los t´erminos de M junto a las “interacciones” hasta el orden n

I(M) A´ıslaM. Dentro deM todos los operadores tienen su sentido aritm´etico habitual y este t´ermino aparece en la matriz del modelo.

Advierta que, dentro de los par´entesis que habitualmente rodean los argumentos de una funci´on, todos los operadores tienen su sentido aritm´etico habitual. La funci´on I() es la funci´on identidad, utilizada solamente para poder introducir t´erminos en las f´ormulas, defini´endolos mediante operadores aritm´eticos.

En particular, cuando las f´ormulas especifican columnas de la matriz del modelo, la especificaci´on de los par´ametros es impl´ıcita. Este no es el caso en otros contextos, por ejemplo en la especificaci´on de modelos no lineales.

11.1.1 Contrastes

Es necesario conocer, aunque sea someramente, el modo en que las f´ormulas del modelo determinan las columnas de la matriz del modelo. Esto es sencillo si las variables son

continuas, ya que cada una constituir´a una columna de dicha matriz. Del mismo modo, si el modelo incluye un t´ermino independiente, contribuir´a con una columna de unos.

En el caso de un factor, A, con kniveles, la respuesta depende de si el factor es nominal u ordinal. En el caso de un factor nominal, se generan k−1 columnas correspondien- tes a los indicadores desde el segundo hasta el k-´esimo nivel del factor. (Por tanto, la parametrizaci´on impl´ıcita consiste en contrastar la respuesta del primer nivel frente a cada uno de los restantes niveles.) En el caso de un factor ordinal, las k−1 columnas son los polinomios ortogonales sobre 1, ..., k, omitiendo el t´ermino constante.

Esta situaci´on puede parecerle complicada, pero a´un hay m´as. En primer lugar, si el t´ermino independiente se omite en un modelo que contiene alg´un t´ermino de tipo factor, el primero de dichos t´erminos se codifica en kcolumnas correspondientes a los indicadores de todos los niveles del factor. En segundo lugar, todo este comportamiento puede cambiarse mediante el argumentocontrasts de options. Los valores predeterminados son:

options(contrasts = c("contr.treatment", "contr.poly"))

La raz´on por la que se indican estos valores es que los valores predeterminados en R son distintos de los de S en el caso de factores nominales, ya que S utiliza los contrastes de Helmert. Por tanto, para obtener los mismos resultados que enS-Plus, deber´a escribir:

options(contrasts = c("contr.helmert", "contr.poly"))

Esta diferencia es deliberada, ya que entendemos que los contrastes predeterminados de R son m´as sencillos de interpretar para los principiantes.

Caben a´un m´as posibilidades, ya que el esquema de contraste a utilizar puede fijarse para cada t´ermino del modelo utilizando las funcionescontrasts yC.

Tampoco hemos considerado los t´erminos de interacci´on, que generan los productos de las columnas introducidas por los t´erminos de sus componentes.

Pese a que los detalles son complicados, las f´ormulas de modelos en R generan habi- tualmente los modelos que un estad´ıstico experto podr´ıa esperar, supuesto que se preserve la marginalidad. Por ejemplo, el ajuste de un modelo con interacci´on y, sin embargo, sin los correspondientes efectos principales conducir´a en general a resultados sorprendentes, y debe reservarse s´olo a los especialistas.

In document R Development Core Team (página 61-64)

Documento similar