Definici´ on de modelos estad´ısticos F´ ormulas

El ejemplo básico de un modelo estad´ıstico es un modelo de regresión lineal con errores independientes y homoscedásticos

yi= p X

j=0

βjxij+ei, ei ∼NID(0, σ2), i= 1, . . . , n

En notaci´on matricial puede escribirse

y =Xβ+e

dondey es el vector de respuesta, yX es lamatriz del modelo omatriz de dise˜no, formada por las columnas x0, x1, . . . , xp, que son las variables predictoras. Muy a menudo x0 ser´a

una columna de unos y definir´a el punto de corte o t´ermino independiente.

Ejemplos

Antes de dar una definición formal, algunos ejemplos ayudarán a centrar las ideas. Supongamos quey,x,x0,x1,x2, . . . son variables numéricas, queXes una matriz y que

A, B, C, . . . son factores. Las f´ormulas que aparecen en la parte izquierda de la siguiente tabla, especifican los modelos estad´ısticos descritos en la parte de la derecha.

y∼x

y∼1 + x Ambos definen el mismo modelo de regresi´on lineal de y sobre x. El primero contiene el t´ermino independiente impl´ıcito y el segundo, expl´ıcito.

y∼0 + x y∼-1 + x

y∼x - 1 Regresi´on lineal de y sobre x sin t´ermino independiente, esto es, que pasa por el origen de coordenadas.

log(y)∼x1 + x2

Regresión múltiple de la variable transformada, log(y), sobre x 1 yx 2 (con un término independiente impl´ıcito).

y∼poly(x,2) y∼1 + x + I(x^2)

Regresi´on polinomial dey sobrex de segundo grado. La primera forma utiliza polinomios ortogonales y la segunda utiliza potencias de modo expl´ıcito.

y∼X + poly(x,2)

Regresión múltiple de y con un modelo matricial consistente en la matrizX y términos polinomiales enx de segundo grado.

y∼A An´alisis de varianza de entrada simple dey, con clases determinadas porA.

y∼A + x An´alisis de covarianza de entrada simple dey, con clases determinadas porA, y con covariante x.

y∼A*B

y∼A + B + A:B y∼B %in% A

y∼A/B Modelo no aditivo de dos factores de y sobre A y B. Los dos primeros especifican la misma clasificación cruzada y los dos últimos especifican la misma clasificación anidada. En términos abstractos, los cuatro especifican el mismo subespacio de modelos.

y∼(A + B + C)^2 y∼A*B*C - A:B:C

Experimento con tres factores con un modelo que contiene efectos principales e interacciones de dos factores solamente. Ambas f´ormulas especifican el mismo modelo.

y∼A * x y∼A/x

y∼A/(1 + x) - 1

Modelos de regresión lineal simple separados de y sobre x para cada nivel de A. La última forma produce estimaciones expl´ıcitas de tantos términos independientes y pendientes como niveles tiene A.

y∼A*B + Error(C)

Un experimento con dos factores de tratamiento, A y B, y estratos de error determinados por el factor C. Por ejemplo, un experimento split plot, con gráficos completos (y por tanto también subgráficos) determinados por el factor C.

El operador ∼ se utiliza para definir una f´ormula de modelo en R. La forma, para un modelo lineal ordinario es

respuesta ∼ op 1 term 1 op 2 term 2 op 3 term 3 . . .

donde

respuesta es un vector o una matriz (o una expresi´on que eval´ue a un vector o matriz) que definen, respectivamente, la o las variables respuesta

op i es un operador, bien+, bien-, que implica la inclusión o exclusión, respectivamente, de un término en el modelo. El primero, +, es opcional.

• una expresión vectorial, una expresión matricial, o el número1; o • un factor; o

• unaexpresión de fórmulaconsistente en factores, vectores o matrices conec- tados medianteoperadores de fórmula.

En todos los casos, cada término define una colección de columnas que deben ser añadidas o eliminadas de la matriz del modelo. Un 1 significa un término independiente y está incluido siempre, salvo que se elimine expl´ıcitamente. Losoperadores de fórmula son similares a la notación de Wilkinson y Rogers utilizada en los programas Glim y Genstat. Un cambio inevitable es que el operador ‘.’ se ha sustituido por ‘:’ puesto que el punto es un carácter válido para nombres de objetos en R. Un resumen de la notación se encuentra en la siguiente tabla (basada en Chambers & Hastie, 1992, p.29).

Y ∼M Y se modeliza como M.

M 1 +M 2

Incluye M 1 yM 2.

M 1 -M 2

Incluye M 1 exceptuando los t´erminos de M 2.

M 1 :M 2

El producto tensorial de M 1 y M 2. Si ambos son factores, corresponde al factor “subclases”.

M 1 %in% M 2

Similar aM 1:M 2, pero con diferente codificaci´on.

M 1 *M 2

M 1 +M 2 +M 1:M 2.

M 1 /M 2

M 1 +M 2 %in% M 1.

M^n Todos los t´erminos de M junto a las “interacciones” hasta el orden n

I(M) A´ıslaM. Dentro deM todos los operadores tienen su sentido aritm´etico habitual y este t´ermino aparece en la matriz del modelo.

Advierta que, dentro de los paréntesis que habitualmente rodean los argumentos de una función, todos los operadores tienen su sentido aritmético habitual. La función I() es la función identidad, utilizada solamente para poder introducir términos en las fórmulas, definiéndolos mediante operadores aritméticos.

En particular, cuando las fórmulas especifican columnas de la matriz del modelo, la especificación de los parámetros es impl´ıcita. Este no es el caso en otros contextos, por ejemplo en la especificación de modelos no lineales.

11.1.1 Contrastes

Es necesario conocer, aunque sea someramente, el modo en que las f´ormulas del modelo determinan las columnas de la matriz del modelo. Esto es sencillo si las variables son

continuas, ya que cada una constituirá una columna de dicha matriz. Del mismo modo, si el modelo incluye un término independiente, contribuirá con una columna de unos.

En el caso de un factor, A, con kniveles, la respuesta depende de si el factor es nominal u ordinal. En el caso de un factor nominal, se generan k−1 columnas correspondientes a los indicadores desde el segundo hasta el k-ésimo nivel del factor. (Por tanto, la parametrización impl´ıcita consiste en contrastar la respuesta del primer nivel frente a cada uno de los restantes niveles.) En el caso de un factor ordinal, las k−1 columnas son los polinomios ortogonales sobre 1, ..., k, omitiendo el término constante.

Esta situación puede parecerle complicada, pero aún hay más. En primer lugar, si el término independiente se omite en un modelo que contiene algún término de tipo factor, el primero de dichos términos se codifica en kcolumnas correspondientes a los indicadores de todos los niveles del factor. En segundo lugar, todo este comportamiento puede cambiarse mediante el argumentocontrasts de options. Los valores predeterminados son:

options(contrasts = c("contr.treatment", "contr.poly"))

La raz´on por la que se indican estos valores es que los valores predeterminados en R son distintos de los de S en el caso de factores nominales, ya que S utiliza los contrastes de Helmert. Por tanto, para obtener los mismos resultados que enS-Plus, deber´a escribir:

options(contrasts = c("contr.helmert", "contr.poly"))

Esta diferencia es deliberada, ya que entendemos que los contrastes predeterminados de R son m´as sencillos de interpretar para los principiantes.

Caben aún más posibilidades, ya que el esquema de contraste a utilizar puede fijarse para cada término del modelo utilizando las funcionescontrasts yC.

Tampoco hemos considerado los términos de interacción, que generan los productos de las columnas introducidas por los términos de sus componentes.

Pese a que los detalles son complicados, las fórmulas de modelos en R generan habitualmente los modelos que un estad´ıstico experto podr´ıa esperar, supuesto que se preserve la marginalidad. Por ejemplo, el ajuste de un modelo con interacción y, sin embargo, sin los correspondientes efectos principales conducirá en general a resultados sorprendentes, y debe reservarse sólo a los especialistas.

In document R Development Core Team (página 61-64)