• No se han encontrado resultados

3.8. Diseño experimental eficiente: encuesta final

3.8.2. Metodología para el desarrollo de diseños eficientes

La referencia principal empleada para este tipo de diseño es la revisión realizada por Rose y Bliemer (2009). Existen multitud de publicaciones que tratan diferentes aspectos relacionados con este tema mediante estudios de casos en diferentes ámbitos, como por ejemplo, Lancsar y Louviere (2003) en el campo de la salud; Kessels, Goos y Vandebroek (2006) en el marketing; Hensher y Rose (2007) estudian

su aplicación en la toma de decisiones relacionadas con infraestructuras de transporte; Louviere, Street, Burgess, Wasi, Islam y Marley (2008) se centran en la importancia de la información previa al diseño, ilustrándola con un estudio basado en viajes transcontinentales; y Bliemer y Rose (2011) analizan la influencia del tamaño de muestra en los resultados a través de un estudio en el que se consideran viajes en avión. En todas ellas se tratan ciertas características de las diferentes fases del proceso de generación de diseños eficientes, que se presentan a continuación.

3.8.2.1. Matriz de covarianza

En una estimación convencional de la elección modal con datos PD se conocen los valores de los atributos (X), puesto que es una decisión tomada por el analista a la hora de diseñar el experimento. Posteriormente se obtienen los resultados de elección de la encuesta (Y), y con ellos es posible estimar los coeficientes (β) incluidos en la modelización.

El procedimiento a seguir para generar un diseño eficiente es precisamente el inverso, es decir, se asumen unos valores previos para los coeficientes estimados (que pueden ser fijos o variables), y se calculan los valores de los atributos que minimizan los errores estándar de los estimadores. Este procedimiento inverso de obtención de un diseño eficiente es más complejo que el proceso de estimación (Bliemer & Rose, 2010, p. 723).

Estos errores estándar pueden calcularse mediante la determinación de la matriz asintótica de covarianza (Asymptotic Variance Covariance, AVC). Debido a lo indicado anteriormente, esta matriz depende de los valores de los atributos en el diseño experimental (X), de los valores de los parámetros (β) y de los resultados de la encuesta (Y ). Dado que los valores de los parámetros reales β no son conocidos, se emplean valores previos aproximados de los parámetros (𝛽̃) asociados a los atributos. Por este motivo cualquier información respecto a estos valores previos es útil (aunque solamente se trate de una predicción del signo que estos deberían presentar). Para este propósito suele emplearse información obtenida en investigaciones previas, estudios piloto o cualquier otro tipo de hipótesis relacionadas con el problema de estudio particular.

La matriz de covarianza para Q individuos (ΩQ) se construye como la inversa de la

matriz de información de Fisher (IQ), que se define como el Hessiano previsto de la

función de log-verosimilitud para el modelo logit correspondiente (Train, 2009, p. 186).

1 2

, ,

, ,

, ,

´

Q Q Q

LL

X Y

X Y

E I

X Y

 



 

 

 

(3.12)

IQ es la matriz de información de Fisher para Q individuos, mientras que LLQ(X, 𝛽̃) es la

función de log-verosimilitud para Q individuos y que se define de la siguiente forma:

 

1 1 1

, ,

log

,

Q S J Q jqs jqs q s j

LL

X Y

y

P

X

  



(3.13)

Donde Pjqs es la probabilidad de que el individuo j elija la alternativa q en la situación s

e yjqs vale 1 si la alternativa j ha sido elegida por el individuo q en la situación de

elección s y cero en otro caso.

Esta formulación es válida y se mantiene para todos los modelos de la familia logit empleados en esta tesis (MNL, NL y ML), variando solamente el término de la probabilidad (Pjqs) en función del modelo considerado.

3.8.2.2. Medidas de eficiencia

En la literatura se han propuesto diferentes medidas de eficiencia que tienen como objetivo calcular un valor denominado habitualmente error de eficiencia. Dado que estos valores o errores de eficiencia constituyen realmente un indicador de la “ineficiencia”, el objetivo perseguido con el diseño es el de minimizar este error (y por lo tanto maximizar la eficiencia). La medida más utilizada es la denominada como

D-error, del cual existen diferentes tipos en función de la información previa disponible de los valores de los parámetros (Rose, Bliemer, Hensher & Collins, 2008). En todos los casos suele tomarse el determinante de la matriz AVC para un único individuo (Ω1)

por simplicidad operativa, aunque puede emplearse la matriz AVC para cualquier otro tamaño de muestra sin que se produzca ningún tipo de consecuencias negativas. Considerando K como el número de parámetros estimados se definen los diferentes tipos de D-error:

Dz-error: se utiliza cuando no existe información previa disponible de los

parámetros (z corresponde a la palabra zero).

1 1

-

det

, 0

k z

D

error

X

(3.14)

Dp-error: se utiliza cuando existe información previa disponible de los

parámetros, relativamente precisa y que se acepta como cierta, por lo que se considera un valor constante para los parámetros previos (p corresponde a la palabra priors).

 

1 1

-

det

,

k p

D

error

X

(3.15)

Db-error: se utiliza cuando existe información previa disponible de los

parámetros, aunque esta presenta cierta incertidumbre (enfoque bayesiano, b

corresponde a la palabra bayesian). En este caso el valor previo de los parámetros se supone como una variable aleatoria con función de densidad de probabilidad conjunta ϕ(·) con parámetros subyacentes ς dados.

 

1

 

1

-

det

,

k b

D error

X

   d

(3.16)

Existen otras medidas de eficiencia aunque no se han utilizado tanto en la práctica (Kessels et al., 2006), como por ejemplo: el A-error, que es sensible a los cambios en el parámetro de escala y solamente emplea la traza de la matriz AVC; el S-error, empleado para comparar diseños con diferentes tamaños de muestra; y el C-error, útil a la hora de trabajar con ratios de 2 parámetros.

3.8.2.3. Importancia de la información previa sobre los valores de los

parámetros

Un diseño en el que se tenga en cuenta el D-error es sensible a los valores previos que se suponen en los parámetros (o en la posible distribución de los mismos). Rose y Bliemer (2009) estudian la influencia de estos valores en la eficiencia finalmente obtenida, comparando los resultados alcanzados para varios tipos de diseños experimentales. La conclusión más destacable es que los diseños experimentales

eficientes siempre se muestran más robustos que los diseños experimentales ortogonales, siendo esto cierto aunque se considere el óptimo2 de los diseños factoriales fraccionales equivalentes.

A la hora de realizar un estudio del reparto modal basado en un diseño experimental eficiente, es preferible utilizar una muestra de tamaño más limitado pero teniendo cierta confianza en los valores previos para los parámetros utilizados (Dp-error), que el

emplear una muestra más grande pero sin información respecto a los valores previos de los parámetros (Dz-error). Una medida que puede desarrollarse cuando no se tiene

excesiva confianza en uno o varios de los valores previos de los parámetros, es la de realizar un análisis de sensibilidad. Posteriormente puede optarse por recopilar más información relativa a aquellos parámetros que hayan mostrado una influencia elevada en la eficiencia del diseño, o bien puede realizarse un diseño totalmente nuevo con el objetivo de ganar robustez en el diseño experimental, aunque esto pueda derivar en una pérdida parcial de eficiencia. Kanninen (2002) propone un enfoque intermedio en el que se considera un proceso continuo de actualización, una vez que se han recogido algunos datos en el trabajo de campo, estimando parámetros más precisos a medida que se prosigue con la recogida de datos de forma simultánea.

Otra forma de minimizar en la medida de lo posible los efectos de no disponer de un conocimiento exhaustivo de los valores de los parámetros es adoptar un enfoque bayesiano (Db-error). Con esta estrategia debe evaluarse la eficiencia del diseño para

los posibles valores de los parámetros mediante simulación, calculándola a partir de extracciones tomadas de las distribuciones que se han supuesto a priori para los mismos. Bliemer, Rose y Hess (2008) realizan una revisión de estos métodos de extracción (simulación de Monte Carlo, extracciones pseudo-aleatorias, series Halton, series Sobol, cuadratura de Gauss, etc.). El número de extracciones que deben realizarse para obtener resultados robustos depende del método empleado. Si este número de extracciones es muy elevado, el tiempo de computación puede resultar innecesariamente alto (Kessels et al., 2006).

2

Un diseño se considera como óptimo cuando presenta la mayor eficiencia posible considerando el fenómeno estudiado y todos los aspectos que lo caracterizan (alternativas, atributos, niveles de atributo, balance en los niveles, especificación de las funciones de utilidad, tipo de modelo, etc.)

3.8.2.4. Tipo de modelo de elección discreta empleado

Los modelos de elección discreta más empleados en la investigación relacionada con el ámbito de estudio, y que además han sido considerados en la presente investigación (MNL, NL y ML), tienen estructuras de correlación muy diferentes por lo que darán lugar a distintas matrices AVC. Los diseños generados a partir de un modelo tipo logit concreto perderán eficiencia de forma general si posteriormente la estimación se realiza con otro modelo logit diferente, por lo que se obtendrán mayores errores estándar asociados a los parámetros estimados. Entre los estudios que analizan esta problemática cabe destacar el de Bliemer et al. (2009), en el que se realiza una comparación de diseños optimizados a partir de un modelo NL frente a diseños en los que se emplean modelos MNL para dicha optimización. Sandor y Wedel (2002), también realizan una interesante revisión de la formulación del modelo ML teniendo en cuenta datos de sección transversal a partir de diseños optimizados con diferentes modelos logit.

Aunque es preferible conocer la tipología de modelo que va a emplearse en la estimación posterior, esto no siempre es posible debido a las propias características que definen todo proceso investigador. Rose y Bliemer (2009, p. 612), basándose en otras investigaciones así como en su propia experiencia, concluyen que los diseños eficientes basados en un modelo MNL se ajustan bien a posteriores modelizaciones NL o ML con datos de panel. Sin embargo si se estiman modelos ML con datos de sección transversal, un diseño eficiente basado en un modelo MNL no es recomendable.

8.3.2.5. Balance en la utilidad

Cuando los encuestados eligen cada una de las alternativas de transporte en las diferentes situaciones de elección están proporcionando al analista la información necesaria para estimar modelos de reparto modal. Cada una de estas respuestas supone una pequeña pieza de información que aporta al modelo cierta capacidad para explicar el fenómeno estudiado. Esta capacidad explicativa se relaciona con la utilidad de cada una de las alternativas, que como se ha visto en apartados anteriores, es un escalar cuyo valor determina cuál será la alternativa elegida en función de los valores considerados para los atributos.

El concepto balance en la utilidad de las alternativas está directamente ligado con los valores de los atributos que se muestran a los encuestados en cada situación de elección, y por lo tanto, a la variabilidad en los valores de los atributos presentados en la encuesta. Por ejemplo, cuando un encuestado elige una alternativa dominante, la información que proporciona esa situación de elección no es relevante para la estimación de los parámetros asociados a los atributos influyentes del modelo. En este caso la utilidad de la alternativa elegida es muy superior a la del resto de las alternativas (en lo que a ese encuestado se refiere). En el caso contrario, es decir, cuando todas las alternativas tienen la misma utilidad observada, tampoco se obtiene una información especialmente valiosa para la modelización, puesto que los encuestados no pueden manifestar una preferencia clara hacia una de las alternativas, pudiendo realizar su elección de forma aleatoria.

Por lo tanto, tal y como sucede en otros aspectos de los diseños experimentales, debe encontrarse un equilibrio entre la búsqueda del objetivo último en el diseño y el realismo mostrado a los encuestados en las situaciones de elección. Estos hechos son especialmente relevantes en el caso de experimentos no etiquetados, ya que para experimentos etiquetados existe la posibilidad de incorporar constantes específicas de alternativa que se encargarían de representar parte de esta capacidad explicativa. Existen en la literatura estudios detallados de la importancia del balance en la utilidad, como por ejemplo los realizados por Hubber y Zwerina (1996) y Kanninen (2002).

La forma de cuantificar el balance en la utilidad (UBs) para una situación de elección s

se define como: 1

100%

1

I js s j

P

UB

J

(3.17)

Siendo j cada una de las J alternativas disponibles y Pjs la probabilidad de elegir la

alternativa j en la situación s. El balance de utilidad de todo el diseño (UB) se calcula como la media del balance de utilidad de todas las situaciones de elección (Kessels et al., 2006).

8.3.2.6. Algoritmos para la generación de diseños eficientes

A la hora de realizar la búsqueda sistemática del diseño de forma eficiente se recurre a una serie de algoritmos, que pueden ser de 2 tipos diferentes:

 Algoritmos basados en filas: se extraen situaciones de elección de un subconjunto predefinido de las mismas (por ejemplo, un diseño ortogonal). Localizan y desechan rápidamente las situaciones inapropiadas en cada extracción, aunque empleándolos resulta difícil mantener el balance en los niveles de atributos.

 Algoritmos basados en columnas: se seleccionan los niveles de atributo de entre todas las situaciones de elección para cada atributo. Con estos algoritmos resulta más fácil mantener el balance de los niveles de atributo y al tratarse de algoritmos más flexibles son más adecuados para diseños más complejos. Sin embargo no son recomendables cuando se requiere generar diseños con alternativas no etiquetadas.

El algoritmo basado en filas más empleado es el algoritmo modificado de Federov (Cook & Natchsheim, 1980). Extrae situaciones de forma aleatoria generando diferentes diseños eficientes y calcula la eficiencia para cada uno de ellos. En problemas pequeños puede emplearse como conjunto de extracción un diseño ortogonal completo, mientras que si el problema tiene una dimensión mayor se recomienda emplear un diseño factorial fraccional. El algoritmo se detiene cuando se han evaluado todas las situaciones de elección, o bien después de que se alcance un número predeterminado de iteraciones.

En cuanto a los algoritmos basados en columnas, los más empleados son los del tipo RSC (Relabelling, Swapping y Cycling), bien sea de forma independiente o considerándolos conjuntamente (Sandor & Wedel, 2001). En cada iteración se generan columnas diferentes para cada atributo y se evalúa la eficiencia de los nuevos diseños. Si el error en el nuevo diseño es menor que el del anterior, este se toma como base para la siguiente iteración. El procedimiento para generar nuevas columnas puede ser de varios tipos, y viene determinado por el tipo de algoritmo. Las columnas se generan intercambiando 2 o más niveles de 2 atributos (relabelling), permutando 2 de los niveles de 2 atributos (swapping) o con una permutación cíclica de todos los niveles de 2 atributos (cycling).

3.8.2.7 Resumen de etapas en la generación de diseños eficientes

A continuación se muestra el orden cronológico de las decisiones que deben adoptarse para generar un diseño eficiente (Rose et al., 2008, p. 404).

 FASE 1: Especificación de las funciones de utilidad del modelo que se quiere estimar con los datos recopilados, incluyendo los valores previos de los parámetros y el modelo elegido.

 FASE 2: Completar de forma aleatoria la matriz del diseño o matriz de los valores de los atributos implicados (X), en al menos tantas filas como grados de libertad y tantas columnas como atributos se consideren.

 FASE 3: Calcular las probabilidades de elección de cada alternativa.

 FASE 4: Calcular la matriz de covarianza (AVC) mediante simulación de Monte Carlo o determinando directamente las segundas derivadas de la función log-verosimilitud.

 FASE 5: Evaluar la eficiencia estadística del diseño mediante las medidas de eficiencia consideradas: D-error, A-error, etc.

 FASE 6: Tomar el diseño obtenido como base de partida y repetir los pasos englobados de la fase 3 a la fase 5, empleando algoritmos basados en filas o en columnas. Tras comprobar todas las posibilidades, o bien tras un número de iteraciones predeterminado, se obtiene el diseño con mayor eficiencia teniendo en cuenta las restricciones impuestas a priori.