TREBALL FINAL DE GRAU

(1)

Trabajo realizado por:

Idoia Salaverria Guezala

Dirigido por:

Manel Grifoll Colls

Grado en:

Ingeniería civil

Barcelona, 26 de septiembre de 2018

Departamento de infraestructuras del transporte

y del territorio TREBALL FINAL DE GRAU

Sistema de predicción de tráfico

portuario

(2)

i

Abstract

The merchandise ports are places that need to be adapted for time to time, both because of the evolution of the ships that arrive there and the volume of the containers that they must accept. For this reason, it is important to know the commercial tendency suffered by these ports to be able to enlarge and modify them to make them more efficient.

Along this work, an analysis of the most important ports of Spain (Barcelona, Valencia and Algeciras) has been done before creating a model that allows us to predict the volume of the containers that each port will have to receive. To accomplish this, some models have been created by using linear regressions that relate the traffic of these ports with some econometrical variables: GDP, unemployment rate and the oil price.

After shaping both the univariate models and the multiple ones, it has been detected that the last ones stick much better to the reality and therefore they guarantee a more reliable result with a smaller error range. Through different verification tests it has been detected that these models have relatively low errors, as the MAPE of the majority of them is around 1-10%. Only three of the models that have been created would not be convenient to implement since their absolute error rate reaches 35%. This is the case of the total traffic in Algeciras, the transhipment in Barcelona and the import-export traffic of Algeciras. By using other prediction methods, such as a regression of higher order, a better result could be achieved.

The most trusted model, whose implementation would guarantee a very good prediction of the volume of the containers that will be received, is the one that predicts the transhipment of the port of Algeciras. The regression obtained using the worldwide GDP and the traffic of this port creates a model whose error rate is lower than 1,5%.

This said, we can see that even using a simple empirical method, like the linear regression, it is possible to adjust several models to the reality and guarantee a good model of container volume prediction.

(3)

ii

Resumen

Los puertos de mercancías son lugares que deben ir adaptándose a cada época, tanto por la evolución de los barcos que llegan a él como por volumen de contenedores que tiene que ser capaz de admitir. Por este motivo es importante conocer la tendencia comercial que sufren estos puertos y así poder modificarse y ampliarse convirtiéndose en lugares eficientes.

A lo largo de este trabajo se ha querido hacer un análisis de los puertos estatales más importantes (Barcelona, Valencia y Bahía de Algeciras) para poder después crear un modelo que nos permita predecir el volumen de contenedores que van a tener que ser capaces de recibir cada uno de ellos. Para ello, se han creado unos modelos mediante el uso de regresiones lineales tanto univariantes como múltiples que relacionan el tráfico de estos puertos con algunas variables económicas: PIB, tasa de desempleo y precio del petróleo.

Tras conformar tanto modelos univariantes como múltiples se ha detectado que los segundos se ajustan mucho mejor a la realidad y que por tanto nos garantizan unos resultados más similares a los verdaderos con un menor margen de error. Mediante diferentes tests de validación se ha detectado que estos modelos tienen unos errores relativamente bajos, puesto que todos ellos tienen un MAPE del orden del 1-10%. Solo tres de los modelos que se han creado no serían convenientes para ponerlos en práctica ya que su error porcentual absoluto llega a alcanzar el 35%. Este es el caso del tráfico total de la Bahía Algeciras, tráfico en tránsito del puerto de Barcelona y el tráfico en import-export de Algeciras. Con la utilización de otros métodos de predicción, como podría ser una regresión de mayor orden, sería posible alcanzar mejores resultados.

El modelo de mayor confianza, cuya implementación nos aseguraría una muy buena predicción del volumen de contenedores que recibirá es el tránsito en el puerto de Algeciras. La regresión creada con el PIB mundial junto con el tráfico de este puerto crea un modelo cuyo error porcentual es inferior al 1,5%.

Dicho esto, se ve que incluso utilizando un método empírico sencillo, como lo es la regresión lineal, es posible ajustar varios modelos a la realidad y así asegurar un buen modelo de predicción del volumen de contenedores.

(4)

iii

Agradecimientos

En primer lugar quiero dar las gracias a mi tutor, Manel Grifoll, por haberme motivado a realizar este trabajo, haberme ayudado a orientarlo y resulto todas los problemas que no he sido capaz de averiguar por mí misma.

Por otro lado, agradecer a Maribel Ortego que, posiblemente sin haber sido consciente de ello, me ha aclarado muchísimas de las dudas que he tenido del ámbito estadístico a la hora de realizar este trabajo. La que con un breve email ha sido capaz de resolverme cuestiones para las que llevaba días investigando.

Por supuesto, quiero dejar un importante hueco para mis padres y hermanas. Mis padres han sabido darme el empujón que he necesitado en varios momentos, y qué decir de mi hermana Ana, mi ejemplo a seguir, la persona que más capacidad para motivarme tiene y seguramente quien más ha creído nunca en mí.

Los amigos siempre han sido muy importantes en mi vida y realmente es fácil tenerlos cuanto todo va bien, pero haberlos tenido también en mis días malos es lo más importante. Agradezco tanto a las amigas con las que he compartido casa cada día (especialmente a Claudia y a Pilar) por haber aguantado mis quejas sobre mundo y sacarme a pasear cuando lo he necesitado, como a las que no tenía cerca. A mis lagunas porque, incluso estando separadas la mayoría del año, me habéis sacado una sonrisa aunque fuera con un abrazo virtual y porque la mayoría de vosotras sois las que mejor me habéis entendido durante este último año.

Gracias también a mis compañeros de clase, con quienes he compartido gran parte de las horas de este último curso, por haber podido compartido nuestras dudas sobre cómo plantear y planificar un TFG y, sobre todo, por hacer que las largas horas en la uni hayan sido menos intensas. En especial agradecer a mi compañera y amiga Ester, por centrar un poco mi cabeza cuando se me olvida la magnitud de lo que estaba haciendo.

Por último, dar las gracias a todos y cada uno de los profesores que he tenido a lo largo de la carrera por haberme enseñado que la ingeniería civil es lo que quiero hacer y así ver el claro objetivo de terminar este TFG en los momentos en los que quería dejarlo todo.

(5)

iv

Índice

Abstract ... i

Resumen ... ii

Agradecimientos ... iii

Índice ...iv

1. Introducción y objetivos ... 1

2. Metodología ... 4

2.1 Series temporales de los puertos españoles ... 4

2.2 Variables econométricas ... 7

2.3 Descripción del método ... 8

2.4 Correlación entre variables ... 10

2.5 Métrica de los errores ... 11

3. Resultados ... 13

3.1 Correlación entre series temporales ... 13

3.2 Estacionalidad de las variables ... 16

3.3 Test de cointegración ... 20

3.4 Regresión lineal univariante ... 23

3.5 Regresión lineal múltiple ... 25

4. Validación de los modelos e intercomparación ... 29

5. Discusión ... 32

6. Conclusiones... 36

7. Referencias ... 38

APÉNDICES ... 40

Apéndice A ... 40

Apéndice B... 43

Apéndice C ... 46

Apéndice D ... 49

Apéndice E ... 55

Apéndice F ... 58

Apéndice G ... 61

(6)

1

1. Introducción y objetivos

En una época en la que debido a la globalización el volumen de transporte ha aumentado en gran medida se ha buscado el medio más barato para hacerlo. El coste del transporte marítimo es el más bajo en comparación con otros medios de transporte y es especialmente efectivo para desplazamientos de larga distancia.

Dentro del transporte marítimo, el comercio mediante el uso contenedores es el que más rápido ha crecido en los últimos años y por tanto el espacio dedicado a la carga y descarga de los puertos ha tomado gran importancia. Los puertos tienen una labor fundamental para que el comercio marítimo sea efectivo y éste afecta directamente en la economía de la zona.

A lo largo de las últimas décadas, se ha comprobado que el precio del viaje por TEU (acrónimo del término en inglés Twenty-foot Equivalent Unit) se reduce mediante el incremento de la capacidad de las embarcaciones. El problema es que debido al crecimiento del tamaño de los barcos es necesario hacer el trasbordo de un mayor número de contenedores en el menor tiempo posible. Esto crea la necesidad de mejorar las instalaciones y equipamientos de los puertos e intentar reducir la congestión de embarcaciones con el fin de hacerlos más atractivos para las compañías y que no decidan embarcar en los puertos con los que compiten.

Muchos puertos están iniciando diferentes planes de expansión para hacer frente con este gran número de contenedores por barco y reducir la congestión. Pero para evaluar estas expansiones es necesario hacer una previsión del número de embarcaciones y del incremento de comercio de los próximos años para tomar la decisión correcta sobre su tamaño.

Hoy en día contamos con diferentes estudios y métodos empíricos para hacer un análisis de predicción del rendimiento de contenedores, tales como el modelo autorregresivo integrado de media móvil (ARIMA), el modelo de medias móviles (MA), la regresión lineal, el suavizamiento exponencial, entre otros (González Casimiro, 2009).

Algunos estudios disponibles revelan que hay una relación entre el volumen de contenedores y algunas variables macroeconómicas del país y región donde se encuentra el puerto, tales como el PIB, el precio del petróleo o la población. Sin embargo, el elemento más importante para hacer un modelo de predicción preciso es seleccionar las variables independientes adecuadas.

Cada puerto tiene unas características diferentes y por tanto las variables a considerar deberán ser diferentes. Por ejemplo, un puerto con que se dedica principalmente a importar y exportar

(7)

2

estará más correlacionado con el PIB de la región donde se encuentra el puerto, mientras que uno más dedicado al tránsito dependerá más de factores globales.

Según el artículo 2 del texto refundido de la Ley de Puertos del Estado y de la Marina Mercante, "se denomina puerto marítimo al conjunto de espacios terrestres, aguas marítimas e instalaciones que, situado en la ribera de la mar o de las rías, reúna condiciones físicas, naturales o artificiales y de organización que permitan la realización de operaciones de tráfico portuario, y sea autorizado para el desarrollo de estas actividades por la Administración competente".

Los puertos tienen notables impactos en la economía de los países en los que se sitúan, tanto positivos como negativos. Los efectos positivos se relacionan principalmente con el crecimiento económico de los países y su PIB, además de crear puestos de trabajo tanto directa como indirectamente. No obstante, sigue habiendo algunos aspectos negativos alrededor del comercio marítimo. La principal consecuencia negativa es el deterioro del medio ambiente y la congestión causada por el gran volumen de embarcaciones.

Los puertos juegan un papel muy importante en cuanto al transporte marítimo, por tanto las mejoras técnicas, las infraestructuras y las superestructuras están previstas para cargar y descargar diferentes cargamentos de distintos tipos de barcos. De todas maneras, no todos los puertos tienen las mismas características y por tanto juegan papeles muy diferentes.

En cuanto al tipo de puertos de contendores, se pueden clasificar dos clases dependiendo de la función que tienen: los puerto de tránsito o dedicados a import-export. El tránsito consiste en que la mercancía que llega en los barcos se desembarca para distribuirla en diferentes embarcaciones y estos sigan su curso, mientras que el import-export se refiere a los casos en el que el puerto es el punto de origen o destino de una ruta marítima. Generalmente, un puerto puede realizar ambas acciones, pero es habitual que cada uno esté más especializada en una de las dos tareas.

En el transporte marítimo es habitual usar un modelo hub and spoke que consiste en que algunos puertos (hub) son los encargados de recibir la mercancía para después enviarlo a puertos de menor tamaño. Considerando la clasificación previa, los hub son puertos de tránsito mientras que los puertos secundarios de destino son denominados de import-export.

A su vez, los hub se pueden distinguir entre hub globales y regionales, en función de cuales sean sus puertos de origen y destino.

(8)

3

El objetivo principal de este trabajo es predecir el tráfico de contenedores en los puertos españoles con un modelo de ajuste econométrico. Las variables que se han seleccionado para este análisis son el tráfico de contenedores de los tres puertos a estudiar, separado por tránsito e importación-exportación, el producto interior bruto (tanto regional como nacional y mundial), el precio del petróleo por barril y la tasa de desempleo local y global. Con el fin de evaluar la relación entre las variables explicadas y generar el modelo de predicción se ha elegido un método regresivo. Dicho estudio se centra en los principales puertos mediterráneos del Estado español: Barcelona, Valencia y Bahía de Algeciras.

A nivel personal, los objetivos que me he propuesto con este trabajo es por un lado entender en mayor medida el funcionamiento de los puertos españoles y el tráfico de mercancías marinas. Por otro lado, para realizar este estudio es necesario ampliar el conocimiento de herramientas estadísticas y del soporte informático MatLab, puesto que antes de comenzarlo mi nivel de conocimiento era básico.

Este documento constará de diversos capítulos, comenzando por una apartado donde se ha hecho una pequeña introducción y se han expuesto los objetivos del trabajo. Incluyendo, al mismo tiempo las características de los puertos y una clasificación de los distintos puertos con los que nos encontramos dependiendo de la función que tomen.

Puesto que este trabajo se centra en tres puertos españoles, en el segundo apartado, se realiza también un análisis del sistema portuario del Estado español, haciendo hincapié en los tres puertos que se analizarán después: Barcelona, Bahía de Algeciras y Valencia. Así mismo, se describen las variables econométricas que se han considerado relevantes para este estudio y se resume esquemáticamente el método a utilizar para crear el modelo.

El siguiente capítulo, se divide en 6 apartados, a través de los cuales se procede a la explicación detallada de los pasos a seguir con el fin de alcanzar los modelos deseados y comprobar su confiabilidad. Además de la explicación de los diferentes test a realizar, se muestran los resultados obtenidos.

En el capítulo 4 se realiza una verificación del modelo obtenido en el anterior capitulo. A continuación se explica con más detalle este procedimiento que consiste en calcular los errores de los modelos creados utilizando distintos métodos y ver de esta manera si los resultados que se obtienen con el modelo se asemejan a los reales.

Tras haber realizado las comprobaciones necesarias, en los últimos apartados habrá una discusión sobre los modelos creados con el fin de concluir con el mejor modelo para cada puerto. Al mismo tiempo, se resumen los resultados más sorprendentes con los que nos hemos encontrado a los largo del estudio.

(9)

4

2. Metodología

2.1 Series temporales de los puertos españoles

España, debido a su forma peninsular es uno de los países con mayor longitud de costa, siendo el más costero de la Unión Europea con 8000km. Por ese motivo y por su buena ubicación es un país que cuenta con un gran número de puertos de interés general, exactamente 46 gestionados por el ente Puertos del Estado.

Al igual que ocurre de forma general, en España la mayor parte de las mercancías se transporta en contenedores alcanzando el 71% del total de la mercancía del país en 2016 según datos obtenidos de Puertos del Estado. Tal y como se puede ver en la Figura 1, entre las mercancías distribuidas en contenedores (TEUs) en España, más de tres cuartas partes lo hacen desde los tres principales puertos del país: Algeciras, Valencia y Barcelona. Este es el motivo por el que estos son los tres puertos seleccionados para el estudio.

Figura 1. Distribución por puertos de los contenedores totales en TEUs en España en 2016.

Fuente: Puertos del Estado (2016). Elaboración propia

Los tres puertos principales tienen características muy diferentes sobre todo en cuanto a su función, tal y como muestra la Figura 2. El puerto de Barcelona se dedica principalmente a la importación y exportación mientras que el puerto de la Bahía de Algeciras es mayoritariamente un punto intermedio entre rutas marítimas actuando como hub. El puerto de Valencia es un hub mixto puesto que casi la mitad de sus mercancías tienen como origen y destino el propio puerto. A pesar de que su fracción de import-export no llegue al 50%, es el puerto español por donde entra y sale la mayor parte de las mercancías del país y debido a su importante hinterland (que incluye Madrid) se considera el principal puerto de España.

(10)

5

Figura 2. Distribución entre tránsito e import-export de los principales puertos de España en 2017.

Fuente: Port de Barcelona, Puerto de Algeciras y Valenciaport. Elaboración propia

Como se ha mencionado con anterioridad, existen hubs globales y regionales. El puerto de Algeciras es un claro ejemplo de hub global mientras que el puerto de Valencia lo podríamos clasificar como hub regional.

 Puerto de Valencia: Es un puerto gestionado por la Autoridad Portuaria de Valencia junto con los de Sagunto y Gandia y cuenta con 13230 metros para el atraque de barcos distribuidos a lo largo de 15 muelles. Es un puerto conectado directamente con redes nacionales e internacionales vía carretera y ferrocarril. Sus instalaciones son de alto rendimiento y adecuadas para cualquier tipo de tráfico y tiene por ello diferentes tipos de terminales: terminales de contenedores, de automóviles, de graneles sólidos y líquidos y de pasajeros. A su vez dispone de tres terminales dedicados exclusivamente a la gestión de contenedores con calados de entre 14 y 16 metros. Los sectores económicos en los que destaca este puerto son la construcción, muebles y madera, químico, alimentario y textil, entre otros.

 Puerto de Barcelona: Este puerto está dividido entre el puerto comercial, el ciudadano, el energético y el puerto logístico. El puerto comercial transporta principalmente carga en contenedores y por ello dispone de un espacio e instalaciones adecuadas con personal especializado para llevar a cabo su actividad. Como puerto de pasajeros es el más transitado de todo el Mediterráneo y el cuarto a nivel mundial y dispone de 9 terminales. Por otro lado, este puerto cuenta con cuatro terminales de contenedores incluyendo uno con un calado de 18 metros y un total de 4,5 kilómetros de atraque.

Gracias al Plan Estratégico del 2003-2015 y con la desviación de dos kilómetros de la

(11)

6

desembocadura del río Llobregat se pudo hacer una ampliación del mismo y así poder instalar nuevos muelles en el puerto. A su vez, se va a realizar una importante mejora de conexión ferroviaria mediante la implementación de vías con ancho internacional.

 Puerto de la bahía de Algeciras: El puerto de la bahía de Algeciras es el puerto del mar Mediterráneo y de España con mayor tráfico total de mercancías, lo que lo convierte en el 25º puerto con mayor número de mercancías del mundo. Durante los siglos XX y XXI ha sufrido una gran evolución y crecimiento, contando a día de hoy con 17114 metros de atraque. Gracias a su localización, junto al estrecho de Gibraltar, permite que las embarcaciones puedan hacer labores de trasbordo sin apenas desviarse de la ruta principal. El puerto cuenta con dos terminales donde uno de los muelles tiene 18,5 metros de calado, lo que da lugar a que grandes embarcaciones puedan atracar.

En los últimos años el tráfico marino ha crecido a gran velocidad a nivel mundial y como no podría ser de otra manera en España también (Figura 3). En los puertos de Algeciras y Barcelona, en tan solo 20 años se ha triplicado y en el de Valencia esta evolución ha sido aun más representativa. Hoy en día, el puerto de valenciano tiene 5 veces el tráfico que tenía 20 años atrás, debido en gran medida a las decisiones tomadas por parte de las compañías durante la crisis económica. La decisión de trasladar las embarcaciones que habitualmente atracaban en el puerto Barcelona a Valencia provocó que este segundo no se viera afectado por la mala época económica del país mientras que Barcelona sufrió negativas consecuencias.

Durante el estudio y la creación del modelo de predicción se tendrá muy en cuenta esta decisión del puerto de Valencia, ya que su progresión no ha estado tan relacionada con los factores económicos que habitualmente se consideran.

Figura 3. Evolución de tráfico de mercaderías de los principales puertos de España entre 1996 y 2017.

Fuente: Port de Barcelona, Puerto de Algeciras y Valenciaport. Elaboración propia

(12)

7

Durante este último año 2017, los puertos de Valencia y especialmente de Algeciras han sufrido la conocida crisis de la estriba tras la instauración por parte del Gobierno de la liberación del sector estibador a exigencias de la Comisión Europea. Esto ha provocado un conflicto entre los trabajadores del sector y el Gobierno, llevándoles a ponerse en huelga.

Debido a las huelgas la productividad de ambos puertos ha disminuido a gran velocidad y ha ahuyentado a muchas navieras internacionales. Las consecuencias de esta crisis se pueden ver de manera cualitativa en la Figura 3, donde se ve un importante descenso del tráfico en el principal puerto del país. Por otro lado, el puerto de catalán ha sabido beneficiarse de esta crisis atrayendo a muchas de las navieras que se han visto afectadas y por tanto su tráfico ha incrementado un 32% en un solo año.

2.2 Variables econométricas

La evolución del tráfico portuario está muy relacionado con factores económicos tanto a nivel regional como a nivel global, por ello, para hacer el modelo de predicción se utilizaran diferentes variables econométricas. En primer lugar se han seleccionado algunas variables que en función de su orden de correlación se tomaran o no como buenas a la hora de hacer la regresión lineal. Las variables seleccionadas para testar han sido tres: el PIB, la tasa de desempleo y el precio del petróleo. De las dos primeras variables se obtendrán los datos para las tres comunidades autónomas a las que pertenecen los puertos, pero también para España y a nivel mundial.

 Producto interior bruto (PIB): El PIB es un indicador macroeconómico que refleja el valor monetario de los bienes y servicios de demanda final de una región o país. Puede determinarse para cualquier periodo de tiempo, pero lo más habitual es hacerlo para un año. Es un indicador que se utiliza pare medir la riqueza de un país y por eso puede resultar interesante para ver la evolución del transporte de mercancías, ya que en principio a mayor riqueza mayor cantidad de importaciones y exportaciones debería haber. El problema que suele atribuir al PIB es que no sirve para compara diferentes países, ya que depende mucho del número de habitantes. Por este motivo, es muy habitual es uso del PIB per capita, pero en este estudio se hará servir el PIB total. Estos valores se ofrecen en diferentes fuentes o webs autonómicas y globales como el Banco Mundial o Idescat (en el caso de Cataluña).

(13)

8

 Precio del petróleo: Cuando se habla del precio del petróleo, lo más habitual es ofrecer el valor del precio medio del barril de la OPEP. La OPEP es la Organización de los Países Exportadores del Petróleo formado por 14 países en los que se encuentran más del 80% de las reservas mundiales de petróleo. Este precio considera la media de los precios del petróleo producido por estos 14 países y es el utilizado como referencia para los precios del petróleo. En este caso, los datos se han obtenido de la web datosmacro.com perteneciente al periódico económico Expansión.

 Tasa de desempleo o paro: La tasa de desempleo es un indicador que se calcula como el número de personas con desempleo entre la población activa de un país o región, expresando este valor en forma de porcentaje. Esto significa que no se divide por la población total, sino entre las económicamente activa que considera las personas mayores de 16 años que se encuentran ocupadas o desempleadas, es decir, no cuenta a los estudiantes, jubilados, personas que realizan tareas domésticas y enfermas. Otro valor que se hubiera podido tener en cuenta para este estudio es la tasa de empleo.

Sin embargo, no suele ser un indicador tan representativo para la economía de un país ya que se calcula dividiendo el número de personas ocupadas entre la población que se encuentra en edad de trabajar (16-65 años) y no solo la población activa. Estos valores se han obtenido de las mismas fuentes que el PIB.

2.3 Descripción del método

A continuación se hará una breve explicación del método a utilizar para crear el modelo de predicción esperado. La Figura 4 muestra un diagrama de flujo que resume los pasos a seguir.

En primer lugar se realiza una hipótesis te las posibles variables económicas que se consideraran a la hora de realizar la regresión. Una vez decididas las variables más interesantes para el estudio, habrá que obtener el mayor número de datos posibles de los últimos años y así poder crear las series temporales.

Tras haber recogido los datos y creado las series temporales tanto de las variables económicas como de los tráficos, se calculan los coeficientes de correlación entre las distintas variables, con el fin de ver si existe una relación entre ellas. Todas las combinaciones cuyo coeficiente de correlación sea menor a 0,75 quedarán excluidas de los modelos y trabajaremos solo con el resto de combinaciones.

(14)

9

Como se explicará a lo largo del documento es necesario saber si las series con las que se trabajan son estacionarias o no para poder crear un modelo adecuado. Por este motivo, se pasa el test de Dickey-Fuller aumentado (ADF) y de autocorrelación a las variables necesarias.

En caso de que estas variables sean estacionarias podremos utilizarlas para hacer la regresión.

Figura 4. Diagrama de flujo del método a seguir para obtener el modelo de regresión Fuente: Elaboración propia

En caso de que no sean estacionarias, podremos tomar dos caminos. Por un lado, mediante el test de cointegración, podremos ver si la combinación lineal entre dos variables no estacionarias es estacionaria y por tanto, crear con ellas un modelo que nos asegura su eficacia. Por otro lado, se puede utilizar la diferenciación y si tras aplicar la segunda diferenciación seguimos sin tener una serie estacionaria, esta quedará excluida del modelo. Si por el contrario obtenemos que la serie pasa a ser estacionaria, podremos crear el modelo pero no nos aseguramos de que la obtenida sea una correlación espuria. Esto dará lugar a dos tipos de modelo: (A) Modelos creados con series no estacionarias y (B) creados con series

(15)

10

cointegradas. A lo largo del documento se concretará la diferencia entre los dos tipos de modelos y sus garantías.

Con las combinaciones adecuadas y las series estacionarias, se procederá a crear los diferentes modelos mediante la regresión lineal, tanto univariante como múltiple. Tras esta operación se habrán creado varios modelos para cada uno de los puertos y será necesario decidir cuál es el más adecuado para cada caso. Para tomar esta decisión se emplearan distintas técnicas de verificación y cálculo de errores.

2.4 Correlación entre variables

El primera paso una vez hecha la recolecta de datos es ver si existe algún tipo de correlación entre ellas. Existen distintas maneras de comprobar esta medida tanto de manera visual como cuantitativa, por ejemplo el coeficiente de determinación R² y el diagrama de dispersión.

2.4.1 Diagrama de dispersión

El diagrama de dispersión es una técnica para identificar una posible relación entre dos variables. La dispersión puede dar una idea visual sobre la relación entre dos variables y es habitual utilizarlo antes de calcular un coeficiente de correlación ya que ayuda a su futura interpretación. Estos diagramas pueden tener tres formas diferentes según el grado de correlación que haya entre las variables, tal y como muestran la Figura 5.

Los diagramas de dispersión se pueden obtener mediante la función scatter(x,y) de MatLab y es así como se han realizado con el fin de tener una idea sobre la correlación entre nuestras variables econométricas y el número total de contenedores que llegan a cada uno de los tres puertos. En el Apéndice A - Series temporales se muestran algunos de los diagramas más significativos realizados con los datos de las series temporales.

Figura 5. Diferentes diagramas de dispersión según el grado de relación de las variables Fuente: F. Gullerme Neria Duran, Control Estadístico

(16)

11 2.4.2 Coeficiente de determinación R²

Este coeficiente estadístico que muestra el grado de asociación lineal entre dos variables independientes se obtiene haciendo el cuadrado del coeficiente de correlación de Pearson.

El valor del coeficiente de correlación de Pearson pertenece siempre al intervalo [-1,1] donde decimos que no existe relación lineal si toma el valor 0 y en cambio hay una correlación perfecta cuando su valor es 1 o -1. El coeficiente se simboliza con la letra rxy y se calcula mediante la siguiente expresión:

MatLab cuenta con una función que calcula este coeficiente de manera rápida y haciendo después su cuadrado, se obtiene el valor de R². Los valores obtenidos tras este cálculo pertenecen al rango [0,1] y cuanto mayor sea su magnitud mejor correlacionado estará. Por este motivo, se tiene que tomar un valor límite a partir del cual consideraremos que existe una relación entre ambas variables.

2.5 Métrica de los errores

Una vez se hayan creado los modelos univariantes y múltiples para hacer la predicción del volumen de contenedores que llegan a cada puerto es necesario calcular su error, tal y como se muestra en el diagrama de flujo de la Figura 4. Para ello existen distintos tests y, puesto que no todos ofrecen los mismos resultados, en este estudio se realizaran tres de ellos: la raíz del error cuadrático medio, el error medio absoluto y el error porcentual absoluto medio.

La raíz del error cuadrático medio (RMSE) es una medida de uso habitual que calcula la diferencia entre los valores predichos por un modelo y los valores observados. El RMSE sirve para agregar las magnitudes de los errores en las predicciones o los modelos y se representa de la siguiente manera:

(17)

12

El error medio absoluto (MAE) es un estadístico que describe una información similar al anterior y su cálculo se hace por tanto de manera semejante:

Por último, contamos con el llamado error absoluto porcentual medio (MAPE) que mide la magnitud del error absoluto en términos porcentuales. Este último tiene la ventaja de permitirnos comparar la precisión de modelos con distinto volumen, como ocurre entre el caso del tráfico de Barcelona y su tránsito. Su valor se obtiene mediante la siguiente fórmula:

(18)

13

3. Resultados

3.1 Correlación entre series temporales

A la hora de hacer un modelo de regresión con el fin de hacer un modelo de predicción de datos, resulta útil trabajar basándose en series temporales, ya que estas permiten trabajar con secuencias de datos ordenados de manera cronológica. Como se ha mencionado anteriormente, se hará uso de multitud de series temporales con el fin de escoger la regresión que mejor se adapte a la realidad.

En primer lugar, se ha realizado la recopilación de datos referentes al tráfico de los tres puertos de estudio, considerando tanto el tráfico total te mercancías, como el tránsito y el import-export por separado.

Una vez se han obtenido estos datos, se ha procedido a conseguir los valores de las variables econométricas seleccionadas para el máximo número de años posible y que de esta manera el modelo sea más adecuado. En algunos de los casos, los datos obtenidos eran trimestrales y se han tenido que homogeneizar con el fin de que todas las series temporales con las que se contaba estuvieran espaciadas con intervalos de tiempo iguales, en esta caso, de un año.

Las series temporales económicas con las que finalmente se cuenta son el PIB de las tres comunidades autónomas, el PIB mundial, el PIB español, la tasa de desempleo para las cinco mismas situaciones que el PIB y el precio de los barriles de petróleo. En definitiva, para este análisis contamos con 20 series temporales de diferentes periodos, todos ellos entre 1973 y 2017. En el Apéndice A - Series temporales se muestran las series temporales.

Tras haber recogido toda la información, y del mismo modo que se ha mencionado anteriormente, se procede a calcular la correlación entre las distintas variables. Para calcular el valor de R² se emplea como soporte MatLab.

Para este estudio el valor a partir del cual se ha considerado que las variables están relacionadas es el 0,75. En la Tabla 1 se han recogido todos los coeficientes de determinación R² y se han sombreado de color verde las relaciones que se tomaran como buenas. Los valores comprendidos entre 0,7 y 0,75 son considerables, por este motivo, estos valores aparecen también sombreados de color ámbar en la Tabla 1.

Tras analizar la Tabla 1 se ve como entre el número total de contenedores y el PIB, tanto regional como global, existe una alta correlación. Exceptuando el puerto de Algeciras, en todos los casos el coeficiente supera el 0,8 tanto en relación con el PIB de la comunidad a la que

(19)

14

Tabla 1. Tabla que muestra el coeficiente de correlación entre las variables Fuente: Elaboración propia

(20)

15

pertenecen como con el PIB español y mundial. El hecho de que el puerto de Algeciras no esté tan relacionado con el PIB de Andalucía no es totalmente sorprendente, puesto que es un puerto dedicado mayoritariamente al tránsito, por tanto no depende mucho de la economía autonómica, pero si mundial. Tanto en el caso del puerto andaluz como el valenciano, el coeficiente de correlación entre el número de contenedores y el PIB mundial es cercano al 0,95. Este dato es esperable puesto que ambos puertos tienen un mayor porcentaje de tránsito que de import-export lo que hace que dependa más de la economía mundial.

Figura 6. Evolución de tráfico total en los tres puertos y el precio del barril de petróleo en los años 2003-2017 Fuente: Elaboración propia

Por otro lado, el hecho de que no exista ningún tipo de correlación entre el tráfico de contenedores y el precio del petróleo es un tema a analizar. Por un lado el precio del petróleo es un buen indicador de la economía mundial, lo que debería estar relacionado con el movimiento de mercancías. Además, las embarcaciones usan derivados del petróleo como combustible, por tanto el coeficiente obtenido sorprende. Si observamos la Figura 6 vemos que efectivamente en los últimos años no hay ninguna relación entre el número de contenedores y la dicha variable económica. Sin embargo, si calculásemos el coeficiente R² para un periodo de tiempo menor, sin incluir los datos a partir del 2013, probablemente obtendríamos un valor mucho mayor. Especialmente el puerto de Barcelona sigue una línea muy parecida a la del precio del petróleo, destacando el descenso del año 2009.

De la misma manera, podemos ver que el volumen de contenedores no está prácticamente relacionada con la tasa de desempleo. Solo existe una alta correlación entre el tráfico de import-export de Barcelona y la tasa de desempleo mundial. Puesto que parece una variable econométrica interesante, se tomara como buena también la correlación entre el tránsito de

(21)

16

Valencia y la tasa de desempleo de la comunidad a la que pertenece y de España, donde el coeficiente supera el 0,7.

3.2 Estacionalidad de las variables

Los coeficientes de correlación permiten ver si dos variables están suficientemente correlacionados como para poder relacionarlos mediante una regresión lineal. Sin embargo, hay veces en las que dos series pueden tener un alto valor del coeficiente de correlación pero no ser estacionarias. Esta no estacionariedad provoca que la regresión no sea adecuada y nos dé como resultado lo que se conoce como regresión espuria. Las regresiones espuria ocurren al relacionar variables no estacionarias, salvo que ambas estén cointegradas. (Granger &

Newbold, 1974)

Una serie estacionaria es aquella cuya varianza y media se mantiene constante en el tiempo.

En el caso de las series económicas es muy habitual que estas medidas varíen con el tiempo, igual que ocurre con el número de contenedores, ya que con los años ha ido aumentando.

Si se utilizan datos no estacionarios, se pueden obtener valores muy altos de R cuadrado incluso si las dos variables no están relacionadas. Esta situación suele existir cuando las dos variables son tendencias en el tiempo. Por ejemplo, la tendencia del número de faldas vendidas y el ratio de ahogados en una piscina municipal pueden tener la misma tendencia en el tiempo porque el calor es la variable que los une, y sin embargo, no tienen ningún tipo de relación real entre ellas. Basta que dos variables tengan algo de tendencia para que aparezca una aparente relación entre ellas. Cuando se elimina esta tendencia, por ejemplo, diferenciando los datos, esta relación espuria desaparece.

La herramienta habitual para comprobar la estacionariedad son los test de raíz unitaria, tales como la prueba de Dickey-Fuller Aumentada (ADF), el test de Phillip-Perron (PP) o la observación del correlograma.

3.2.1 Test de Dickey-Fuller Aumentado (ADF)

El test de Dickey-Fuller Aumentado es una test de raíz unitaria que supone la hipótesis nula (H0) de que el modelo es no estacionario y para probarlo se estima el siguiente modelo:

(22)

17

Realizando el test con el soporte de MatLab se puede obtener su valor donde lo más interesante es saber el p-valor del estadístico. El p-valor se define como la probabilidad que tiene el estadístico de cumplir la hipótesis nula. Puesto que en el caso del test ADF la hipótesis nula es que la serie sea no estacionaria, si el valor de p es bajo podemos suponer que se rechaza H0 y que por tanto la serie es estacionara. En consecuencia, hay que poner un límite del p-valor a partir del cual aceptamos que la serie sea estacionaria, generalmente 0,05 o 0,01.

En este trabajo se toman como estacionarias aquellas series cuyo p-valor sea menor a 0,05.

ADF Autocorrelación

p-value ¿Estacionario? RESULTADO

Tráfico Barcelona 0.0031 si No estacionario

Tráfico Algeciras 0.001 si No estacionario

Tráfico Valencia 0.001 si No estacionario

Tránsito Barcelona 0.0594 no No estacionario

Tránsito Algeciras 0.1972 no No estacionario

Tránsito Valencia 0.0171 si No estacionario

Imp/exp Barcelona 0.0346 si No estacionario

Imp/exp Algeciras 0.4982 no No estacionario

Imp/exp Valencia 0.2105 no Estacionario*

PIB Cataluña 0.001 si No estacionario

PIB Andalucía 0.0035 si No estacionario

PIB Com. Valenciana 0.0042 si No estacionario

PIB España 0.1109 no No estacionario

PIB Mundial 0.001 si No estacionario

Precio Petróleo 0.3889 no No estacionario

Paro Cataluña 0.7122 no No estacionario

Paro Andalucía 0.7725 no No estacionario

Paro Com. Valenciana 0.6438 no No estacionario

Paro España 0.7306 no No estacionario

Paro Mundial 0.7944 no No estacionario

(*) Se cuenta con pocos valores en la serie temporal y la interpretación del la FAS puede ser errónea

Tabla 2. Test ADF e interpretación de las funciones de autocorrelación de las series iniciales Fuente: Elaboración propia

3.2.2 Visualización del correlograma

En la Tabla 2 se puede ver que muchas de las series son estacionarias según el test ADF. Sin embargo, en los gráficos de las series temporales mostrados en el Apéndice A - Series

(23)

18

temporales observamos que estas tienen una tendencia creciente en el tiempo y por tanto no los consideraremos así para nuestro estudio.

Para complementar la decisión de tomar una serie como estacionaria o no estacionaria, se ha decidido hacer una verificación utilizando la autocorrelación. La autocorrelación, también conocida como dependencia secuencial, es la correlación de una serie temporal (yt) con una versión desplazada en el tiempo de la misma (yt+k). Este desplazamiento, habitualmente llamado desfase, se identifica con la letra k.

La función de autocorrelación (FAS) muestra el coeficiente de correlación en función del retardo k que se le introduce a la serie y se representa mediante un correlograma. El valor que toma el primer pico es 1, puesto que la correlación entre dos series iguales obtiene este valor (como es lógico, están totalmente correlacionadas). A partir del primer retardo está correlación debería reducir considerablemente y mantenerse con un valor pequeño para poder decir que es estacionario. Si la disminución del coeficiente de correlación es lenta estaremos en el caso en que la serie a estudiar no es estacionaria. Un correlograma que desciende rápidamente o de manera aleatoria es típico de variables estacionarias. En la Figura 7 se muestran dos ejemplos de FAS. De la primera se interpreta que la serie en la que trabaja no es estacionaria, mientras que la segunda sí.

Figura 7. Ejemplos de funciones de autocorrelación (FAS) según la estacionalidad de la serie Fuente: Elaboración propia

Del mismo modo que se había supuesto de manera visual, algunas de las series que se han considerado como estacionarias tras pasar el test de ADF no son tan estables como se precisa para nuestro cálculo. Los gráficos del Apéndice C - Autocorrelación de las series temporales nos muestrean que la disminución del coeficiente de correlación en todas las series ocurre de

(24)

19

manera lenta y por tanto no se van a considerar estacionarias para crear el modelo. Por lo cual, se deben trabajar las series con el fin de poder considerarlas estacionarias. Este procedimiento se realizara de dos maneras, tal y como se ha explicado inicialmente en la metodología a utilizar.

3.2.3 Diferenciación

Tras justificar en el anterior apartado que la correlación de las series no estacionarias nos darían como resultado una regresión espuria, se va a aplicar la diferenciación con tal de hacer que la serie pierda su tendencia y pase a ser estacionaria. Diferenciar una serie temporal consiste en calcular la diferencia entre cada dato y su anterior, siempre perdiendo el primero de los datos. De forma numérica se hace de la siguiente forma:

El proceso para quitar la tendencia consiste en crear un operador retardo (Lag Operator) de diferenciación y utilizarlo para filtrar la serie inicial. En el caso que tras hacer esta operación las series aun pueden tener una tendencia restante y por tanto hará falta tomar la segunda diferencia en las series que sigan sin ser estacionarias. La segunda diferencia de la serie se obtiene de la siguiente manera:

Observando los gráficos de las nuevas series temporales, incluidas en el Apéndice D - Series temporales tras la primera y segunda diferenciación, se puede ver como la tendencia ha desaparecido en gran medida y por tanto la serie ha pasado a ser estacionaria.

Para asegurarnos que efectivamente las series no estacionarias han pasado a serlo, se ha vuelto a realizar el test ADF con las series transformadas. A su vez, se ha vuelto a calcular la función de autocorrelación para todos los casos y así poder contrastar los resultados obtenidos con el test de Dickey-Fuller Aumentado. La Tabla 3 muestra los p-valores referentes a las series tras haber pasado la primera y segunda diferencia, y la interpretación de los gráficos de autocorrelación. Al mismo tiempo se han coloreado de verde las celdas que aseguran que la series pasan a ser estacionarias. En general se puede ver como el p-valor reduce tras hacer la diferenciación y en el caso de las series no estacionarias tras la primera diferencia, estas pasan a serlo tras la segunda. Las FAS tras haber realizado la primera diferenciación están incluidas en el Apéndice E - Funciones de autocorrelación tras la primera diferenciación, mientras que

(25)

20

el Apéndice F - Funciones de autocorrelación tras la segunda diferenciación incluye las funciones de autocorrelación tras pasar el filtro de la segunda diferencia.

En definitiva, en la Tabla 3 vemos que todas las series pasan a ser estacionarias al menos tras la segunda diferenciación y que por tanto no hará falta excluir ninguna de las series para crear el modelo.

Tras la primera diferencia Tras la segunda diferencia

p-value Resultado ADF Autocorrelación p-value Resultado ADF Autocorrelación

Tráfico Barcelona 0.001 si Estacionario - - -

Tráfico Algeciras 0.001 si Estacionario - - -

Tráfico Valencia 0.0028 si No estacionario 0.001 si Estacionario

Tránsito Barcelona 0.001 si Estacionario - - -

Tránsito Algeciras 0.0096 si Estacionario - - -

Tránsito Valencia 0.0827 no Estacionario* 0.001 si Estacionario

Imp/exp Barcelona 0.0027 si Estacionario - - -

Imp/exp Algeciras 0.0208 si Estacionario* 0.001 si Estacionario

Imp/exp Valencia 0.0039 si Estacionario - - -

PIB Cataluña 0.0148 si No estacionario 0.001 si Estacionario

PIB Andalucía 0.1867 no No estacionario 0.001 si Estacionario

PIB Com. Valenciana 0.1331 no No estacionario 0.001 si Estacionario

PIB España 0.001 si Estacionario - - -

PIB Mundial 0.001 si Estacionario - - -

Precio Petróleo 0.0067 si Estacionario - - -

Paro Cataluña 0.0184 si No estacionario 0.001 si Estacionario

Paro Andalucía 0.0276 si No estacionario 0.001 si Estacionario

Paro Com. Valenciana 0.0221 si No estacionario 0.001 si Estacionario

Paro España 0.0273 si No estacionario 0.001 si Estacionario

Paro Mundial 0.0030 si Estacionario - - -

(*) Se cuenta con pocos valores en la serie temporal y la interpretación del la FAS puede ser errónea

Tabla 3. Test de ADF e interpretación de las FAS tras aplicar la primera y segunda diferenciación Fuente: Elaboración propia

3.3 Test de cointegración

En los apartados anteriores se ha comentado que el procedimiento más habitual para hacer que una serie temporal pase a ser estacionaria es la diferenciación, ya que permite eliminar la tendencia que tienen la mayoría de las variables econométricas. Este procedimiento es adecuado cuando contamos con muestras muy grandes, pero puesto que las series temporales

(26)

21

suelen tener una longitud limitada su uso no garantiza la eliminación de espurias, como ocurre en este estudio. Algunas de las series con las que se cuenta no son especialmente largas, por tanto, es más adecuado utilizar otros métodos.

El premio Nobel Clive Granger demostró en su artículo Spurious regressions in econometrics (1974) que haciendo combinaciones específicas de series temporales variables se puede conseguir que se comporten como series constantes para obtener resultados correctos. De esta manera, Granger introdujo el concepto de cointegración.

Para comprobar la cointegración entre varias series temporales se debe asegurar que las series sean integradas del mismo orden. Después, si la combinación lineal de estas variables es integrada de orden 0 I(0) decimos que la serie está cointegrada. Es decir, si (X, Y, Z) son series de igual orden y existen coeficientes a,b y c, tales que aX + bY + cZ es de orden 0, entonces X, Y y Z están cointegradas.

Existen varios métodos para comprobar la cointegración pero uno de los métodos más conocidos es el método de dos pasos de Engle y Granger. Para realizarlo simplemente se hace una combinación lineal de dos series no estacionarias:

donde ut es estacionaria. Si ut fuese un conocido podríamos comprobar su estacionariedad mediante los test mencionados anteriormente, por ejemplo, el test ADF. No obstante, puesto que no es conocido, debemos estimarlo, generalmente mediante el uso de mínimos cuadrados ordinarios y después ejecutar el test de estacionariedad.

MatLab permite realizar el test de cointegración Engle-Granger con el uso de la función egcitest y es así como se ha realizado. El test de cointegración se debe pasa solo a las variables con series no estacionarias. Tras realizar los test ADF y la autocorrelación, como se ve en la Tabla 2, hemos concluido con que todas las series lo son y por tanto realizaremos el test de cointegración entre todas las variables.

Se debe tener en cuenta que en este estudio no todas las variables están relacionadas entre sí ya que se está trabajando con 3 puertos diferentes y trabajar conjuntamente con ellas no tiene interés práctico. Por tanto, se ha realizado una reagrupación con las variables más interesantes dependiendo del puerto que estemos estudiando en cada situación (mostrada en la Tabla 4). Por otro lado, puede ser de utilidad ver la relación entre los datos de tráfico de unos puertos y otros y, puesto que las series no son estacionarias, se ha realizado también el test de

(27)

22

cointegración entre ellos. Así mismo, hay que tener en cuenta que el test de cointegración se realiza solo para las variables que tienen un alto coeficiente de correlación entre ellos, ya que son las variables con potencial para realizar una regresión entre ambas.

Puerto de Barcelona Puerto de Bahía de Algeciras Puerto de Valencia Datos

de tráfico

Tráfico de Barcelona Tráfico de Algeciras Tráfico de Valencia Tránsito de Barcelona Tránsito de Algeciras Tránsito de Valencia Import-export de Barcelona Import-export de Algeciras Import-export de Valencia

Variables Econométricas

PIB de Cataluña PIB de Andalucía PIB de Com. Valenciana

PIB de España PIB de España PIB de España

PIB mundial PIB mundial PIB mundial

Precio del petróleo Precio del petróleo Precio del petróleo Desempleo de Cataluña Desempleo de Andalucía Desempleo de Com. Valenciana

Desempleo de España Desempleo de España Desempleo de España Desempleo mundial Desempleo mundial Desempleo mundial

Tabla 4. Agrupación de variables en función del puerto al que pertenecen Fuente: Elaboración propia

Una vez realizado el test de cointegración Engle-Granger con MatLab obtenemos la nueva serie (ut) y al mismo tiempo el resultado del test de estacionalidad:

 h = 0 ↔ Serie no estacionaria. Variables no cointegradas.

 h = 1 ↔ Serie estacionaria. Variables cointegradas.

En caso de que la nueva serie ut sea estacionaria, será posible hacer una regresión correcta entre ambas variables. En caso contrario, será necesario recurrir a la diferenciación de las dos series iniciales.

En la

Tabla 5 se muestran los resultados obtenidos del test de Engle-Granger, incluyendo su p-valor.

Se ve que para la mayoría de los casos el test da como resultado una serie no estacionaria, es decir, que las variables no están cointegradas. Únicamente la combinación entre el tráfico total del puerto de Barcelona y el PIB de España resulta con una serie estacionaria. Por tanto, al realizar la regresión sólo ambas variables podrán combinarse sin la necesidad de realizar la diferenciación. Los valores positivos, es decir los que representan variables cointegradas se muestran en la tabla sombreadas de color verde, mientras que las que resultan como variables no cointegradas se muestran de color rojo.

(28)

23

Tráfico Barcelona

Tráfico Algeciras

Tráfico Valencia

Tránsito Barcelona

Tránsito Algeciras

Tránsito Valencia

Imp/exp Barcelona

Imp/exp Algeciras

Imp/exp Valencia

Tráfico Barcelona - 0.1292 0.5974 0.9011 0.6224

Tráfico Algeciras 0.1292 - 0.5500 0.8071 *

Tráfico Valencia 0.5974 0.5500 - 0.1450 0.4083

Tránsito Barcelona 0.9011 -

Tránsito Algeciras 0.8071 -

Tránsito Valencia 0.1450 -

Imp/exp Barcelona 0.6224 * ^-

Imp/exp Algeciras -

Imp/exp Valencia 0.4083 -

PIB Cataluña 0.2640. * * 0.4938

PIB Andalucía * ^0.7939 *

PIB Com. Valenciana * * 0.8380

PIB España 0.0182 0.4836 0.2628 0.3577

PIB Mundial 0.4127 0.5511 0.6467 0.6604 0.4698

Precio Petróleo Desempleo Cataluña

Desempleo Andalucía *

Desempleo Com. Valenciana 0.3681

Desempleo España 0.3835

Desempleo Mundial 0.2099

(*) No se ha realizado el test puesto que las variables no están relacionadas (mostrado en la Tabla 4)

Tabla 5. Resultados del test de cointegración. Incluye el p-valor de cada combinación.

Fuente: Elaboración propia

3.4 Regresión lineal univariante

La regresión lineal es un método estadístico que modeliza la relación que existe entre dos variables, donde una de las dos variables depende de la otra. Esta regresión se suele hacer con el fin de predecir datos de la serie dependiente conocido el valor de la variable independiente.

(29)

24

En este estudio las variables econométricas son las que se consideraran independientes (X), mientras que los datos de tráfico dependen de las anteriores (Y).

Como se ha comentado a lo largo del documento, para que el modelo sea matemáticamente correcto, es necesario que las series sean estacionarias, o en caso contrario, que ambas variables estén cointegradas, ya que si no las relaciones podrán ser espuria. Sin embargo, desde un punto de vista práctico, se van a considerar también adecuadas las series con un alto grado de correlación para no tener que excluir la mayoría de los modelos de estudio.

Para conseguir un equilibrio entre la formalidad matemática y la practicidad de la regresión se han creado dos tipos de modelos según la garantía que estas ofrecen:

 Modelo tipo A: Son los modelos creados con series no estacionarias y que no pasan el test de cointegración. Por tanto, estos pueden dar como resultado correlaciones espuria y no garantizan una conexión lógica entre ambas series.

 Modelo tipo B: Estas series son las creadas con series cointegradas, lo que significa, que además de ser modelos prácticos tienen una garantía matemática. Teniendo en cuenta las series con las que contamos, solo será posible crear un modelo de tipo B entre el Tráfico de Barcelona y el PIB de España puesto que son las únicas variables cointegradas.

Un modelo de regresión lineal univariante tiene una estructura determinada, mostrada en la siguiente ecuación y el valor de los coeficientes se obtiene mediante el uso de MatLab. Los valores de los coeficientes se muestran en la Tabla 6.

Como era de suponer, todas las variables tienen un alto valor de R² (superior a 0,7) puesto que solo se han creado modelos entre las series que anteriormente se había concluido con que están correlacionadas. Sin embargo hay algunas correlaciones mayores que otras, es decir, algunos modelos más adecuados que otros. Estos modelos tenderán a tener menor error a la hora de darles uso.

En cuanto a la información que se puede extraer de estos resultados, es la misma que se ha obtenido en el apartado 3.1, donde se han analizado los distintos grados de correlación que tienen las variables. Los modelos con un mayor nivel de correlación (R²=0,986) son el que muestra el tráfico de Algeciras en función de su tránsito y el tráfico de Valencia en función del tránsito de este mismo puerto. Si nos centramos en la relación entre las variables de tráfico y

(30)

25

las econométricas, que son las que realmente aportan información relevante, se observa que hay un modelo muy adecuado que calcula el tráfico de Valencia conociendo el PIB mundial.

Este modelo tiene un coeficiente de correlación cercano a 0,96.

Tipo de modelo β0 β1 R²

Tráfico de Barcelona - Tráfico de Algeciras A -87802 1,7181 0,884

Tráfico de Barcelona - Tráfico de Valencia A -348390 1,7989 0,815

Tráfico de Barcelona - Tránsito de Barcelona A -440710 0,51107 0,785

Tráfico de Barcelona - Imp/exp de Barcelona A 441020 0,4887 0,769

Tráfico de Barcelona - PIB de Cataluña A 39814 0,071647 0,832

Tráfico de Barcelona - PIB de España B 175,55 5,0806e-04 0,890

Tráfico de Barcelona - PIB mundial A 6,889 2,4692e-05 0,817

Tráfico de Algeciras - Tráfico de Valencia A -267710 1,0533 0,934

Tráfico de Algeciras - Tránsito de Algeciras A 81922 0,89835 0,986

Tráfico de Algeciras - PIB de Andalucía A 35474 0,02639 0,748

Tráfico de Algeciras - PIB de España A 251,27 2,7212e-04 0,807

Tráfico de Algeciras - PIB mundial A 7,4937 1,474e-05 0,949

Tráfico de Valencia - Tránsito de Valencia A -1344500 0,82639 0,986 Tráfico de Valencia - Imp/exp de Valencia A 1,343500 0,17395 0,753 Tráfico de Valencia - PIB de Com. Valenciana A 41244 0,014244 0,867

Tráfico de Valencia - PIB de España A 362,69 2,4234e-04 0,827

Tráfico de Valencia - PIB mundial A 11,579 1,3678e-05 0,957

Tránsito de Algeciras - PIB mundial A 5,8427 1,6945e-05 0,725

Tránsito de Valencia - PIB mundial A 32,465 1,6991e-05 0,904

Tránsito de Valencia - Desempleo Com. Valen. A 1,8373 9,01e-06 0,710

Tránsito de Valencia - Desempleo España A 2,1409 8,1442e-06 0,727

Imp/exp de Barcelona - PIB de Cataluña A 7738,3 0,12348 0,752

Imp/exp de Barcelona - Desempleo mundial A 7,3662 -1,126e-06 0,753

Imp/exp de Algeciras - PIB de España A 1735,1 -0,0012467 0,705

Tabla 6. Modelos de regresión univariantes Fuente: Elaboración propia

3.5 Regresión lineal múltiple

En el anterior apartado se han realizado regresiones lineales simples, donde para predecir un volumen concreto de contenedores solo se consideraba una única variable econométrica. Este

(31)

26

estudio se puede reforzar haciendo regresiones múltiples, ya que cada variable puede depender de varias al mismo tiempo.

Para crear las regresiones múltiples, en primer lugar, se consideran para cada variable de tráfico las distintas variables con las que tiene un alto grado de correlación (Tabla 1) y que a su vez son datos pertenecientes al mismo puerto o región (Tabla 4). Al realizar la regresión múltiple, la función fitlm de Matlab nos permite conocer el p-valor de cada una de las variables y así ver si estas tienen un impacto significativo en el modelo. En el caso en que el p-valor sea alto, esta variable se puede eliminar para simplificar el cálculo. El valor límite del p-valor a partir del cual se ha decidido eliminar la variable es 0,05.

Un ejemplo claro de los beneficios de eliminar variables con un bajo p-valor se ve en el modelo del tráfico de Algeciras. En el primer modelo (Modelo 1) se han incluido todas las variables que estaban altamente correlacionadas con el número de contenedores del puerto andaluz: PIB de Andalucía, PIB de España y PIB mundial. Tras realizar una regresión lineal incluyendo las tres variables observamos que dos de ellas tienen un p-valor elevado y que el valor de R² es 0,892.

En el segundo modelo (Modelo 2) se han excluido el PIB de Andalucía y de España, y observando los valores de P y de R cuadrado se puede decir que el modelo es de mejor o similar calidad.

Al mismo tiempo, se han hecho comprobaciones utilizando variables que no están correlacionadas y la hipótesis inicial realizada se considera correcta, ya que estas variables obtienen valores de p muy altos, y por tanto, se sacan del modelo.

Se muestran a continuación los resultados obtenidos en MatLab para el Modelo 1 y Modelo 2 donde es posible ver la mejora que obtiene el modelo tras la eliminación de las variables con un alto valor de P. Sin embargo, aunque con los parámetros utilizados (RMSE y R²) se concluya que el Modelo 2 sea más ajustado que el Modelo 1, es necesario realizar otros tests y comparar distintos parámetros que nos garanticen el buen funcionamiento del modelo. Esta comparación entre parámetros que calculen el error del modelo se realizará más adelante.