1.5 TRATAMIENTO DE DATOS - Aplicación de las técnicas de Espectroscopia Vis/NIR y de imágenes d

El término ‘Quimiometría’, desde hace 30 años aproximadamente, quiere resumir el concepto que engloba la medida en química. La Quimiometría trata, específicamente, de todos aquellos procesos que transforman señales analíticas y datos más o menos complejos en información. La Quimiometría empezó utilizando métodos ya existentes de origen matemático y/o estadístico y otros procedentes del campo de la lógica formal para conseguir sus fines de reducción de datos, métodos que se han ido ampliando con el paso del tiempo. Por todo ello, la Quimiometría tiene usos interdisciplinares (Massart et al, 1997; Wold and Sjöström, 1998).

La gran superposición de las bandas de absorción de los diferentes constituyentes presentes en la muestra, la gran cantidad de datos registrados y la elevada información redundante (colinealidad) provocan una escasa selectividad de los datos con los que se trabaja. Todo esto implica que sea necesario recurrir a métodos estadísticos de análisis multivariante. El análisis multivariante podría definirse como el conjunto de métodos, matemáticos, estadísticos o gráficos, empleados en el análisis de datos siempre y cuando se consideren varias variables de forma simultánea (Martens and Naes, 1989; Martens and Martens, 2001; Naes et al, 2002). En el caso de las tecnologías ópticas, el análisis multivariante se utiliza para estimar cualquier propiedad de la muestra a partir de múltiples variables espectrales o de análisis digital de imagen.

En estos datos suelen aparecer contribuciones o efectos no deseados, conocidos como ruido, que son debidos bien al proceso de registro de la señal, bien a la naturaleza misma de la muestra o bien al ruido ambiental.

Con el fin de extraer la información química más relevante de cada muestra se hace necesario recurrir a pretratamientos de la señal espectral, ya que permiten separar la información meramente química de las variaciones de origen físico.

Los pretratamientos más tradicionalmente utilizados se suelen dividir en cuatro grupos (Gaitán-Jurado, 2009):

 Reducción de ruido

 Corrección de la línea base: buscan minimizar o eliminar los efectos multiplicativos y aditivos. Los métodos más utilizados para ello son:

o Derivadas; método Norris (Norris and Williams, 1984) y el de Savitzky-Golay (SG) (Savitzky and Golay, 1964).

o Multiplicative Scatter Correction (MSC) (Geladi et al, 1985) o Standard Normal Variate (SNV) y Detrending (DT) (Barnes

et al, 1989)

o Orthogonal Signal Correction (OSC) (Wold et al, 1998)

 Mejora de resolución spectral: buscan eliminar el solape entre bandas espectrales. Destacan las derivadas y las sustracciones espectrales (Ozaki et al, 2007)

 Métodos de centrado y normalización: los primeros buscan realizar un ajuste al conjunto de datos para reposicionar el centroide de los mismos en el origen de coordenadas y la normalización trata de igualar los valores de las diferentes variables de cada muestra (Downey et al, 1992)

Después de estos métodos de pretratamiento, para completar el estudio de los datos se realiza un Análisis de Componentes Principales (PCA: Principal Components Analysis), que es uno de los métodos más empleados como etapa inicial de cualquier análisis multivariante para estudiar la población de muestras con la que se va a trabajar (Martens and Martens, 2001). La finalidad más importante del PCA es intentar reducir la dimensionalidad de la matriz X de datos. Para ello, busca las direcciones ortogonales que expliquen la máxima

variabilidad de las muestras y las utiliza como nuevos ejes de coordenadas. Estos nuevos ejes se llaman Componentes Principales (CPs) (Jackson, 1991). El primer CP es el que explica la máxima variabilidad. El segundo se escoge de tal forma que sea perpendicular al primero y que explique la máxima variabilidad una vez eliminada la explicada por el primer CP y así sucesivamente. Para poder definir matemáticamente estos nuevos ejes se usan las cargas (loadings), que son las coordenadas de los nuevos ejes en la antigua base y las coordenadas de las muestras en estos nuevos ejes se denominan puntuaciones (scores).

El PCA también se utiliza para detectar muestras anómalas (outliers), obtener información sobre las variables más importantes y detectar posibles agrupamientos entre las muestras.

1.5.1.- Métodos de regresión

Tras los procesos matemáticos de pretratamiento de la señal espectral, los siguientes pasos están orientados a desarrollar una ecuación de calibración capaz de predecir parámetros de otras muestras con características similares a las incluidas en el colectivo de aprendizaje.

Después, se procede a calcular una ecuación de calibración capaz de predecir parámetros de otras muestras con características similares a las incluidas en el colectivo de calibración (Shenk and Westerhaus, 1995 y 1996; Williams and Sobering, 1992).

Un buen método de calibración debe satisfacer estos requerimientos:

 Los modelos matemáticos deben realizar una buena estimación

 Resolver el problema de colinealidad, que aparece cuando se trabaja con información espectral NIRS, la que provoca inestabilidad en las predicciones (Naes, 1992; Pérez-Marín et al, 2007).

Una etapa importante en la obtención de la ecuación de calibración es la selección de muestras para el colectivo de calibración. Cuanto mayor sea el

número de muestras en este colectivo mayor será la capacidad de predicción de la ecuación resultante, aunque un número excesivo puede producir sobreajuste e inutilizar los modelos de predicción. Además del número, es importante que la variabilidad físico-química y óptica cubra el rango de variación de la población de la que se toman las muestras. Los datos de referencia de las muestras obtenidos en el laboratorio deben ser lo más precisos posibles, ya que los resultados obtenidos mediante un método secundario como las técnicas ópticas tendrán, como mucho, una precisión similar al del método de análisis convencional usado como referencia.

La selección de muestras para constituir el colectivo de calibración puede ser realizada a través del uso de herramientas matemáticas diseñadas para la estructuración de la población y la elección de muestras representativas del colectivo.

Para el desarrollo de una calibración se han descrito distintos métodos de regresión siendo los más utilizados:

1.5.1.1.- Métodos lineales

- Regresión Lineal Múltiple (RLM) (Shenk and Westerhaus, 1995, 1996; Puigdomenech, 1998) lleva a cabo una regresión a partir de un pequeño número de variables seleccionadas de entre todo el conjunto inicial.

- Regresión por Componentes Principales (RCP), combinación lineal de los datos espectrales obtenidos mediante PCA y empleo de estas nuevas variables en el desarrollo de la ecuación de regresión.

- Regresión por Mínimos Cuadrados Parciales (PLS)

El método de regresión por mínimos cuadrados parciales se introdujo hace unos ochenta años por Wold (Wold, 1982) y actualmente se utiliza en Espectroscopia, para extraer información de espectros complejos. El

PLS es especialmente útil para el análisis de datos multivariantes con un gran número de variables independientes. Varios trabajos describen el algoritmo básico PLS y las propiedades de los factores PLS como Geladi and Kowalski, 1986; Naes et al, 1986. El próposito del análisis PLS es encontrar un relación matemática entre un conjunto de variables independientes, la matriz X, y conjunto de variables dependientes, la matriz Y. El modelo resultante tiene la forma:

Y=XB+E

Donde B es la matriz de los coeficientes de regresión obtenida del análisis PLS y E es una matriz de residuales

En el caso de que exista colinealidad o redundancia entre las variables, la matriz B se usa para reducir dichas variables o sintetizarlas. Estas variables latentes son calculadas como combinaciones lineales de las variables de independientes.

A partir de este momento, PLS se puede convertir en una herramienta de predicción en la que se utiliza el modelo construido en la fase de entrenamiento junto con nuevas variables de entrada para predecir las variables dependientes.

1.5.1.2.- Métodos no lineales

- Least squares support vector machine (LS-SVM)

Es un método de regresión muy utilizado en los últimos años para predecir parámetros relacionados con la madurez de la fruta y otras propiedades físicas y químicas. Tiene la capacidad de trabajar con las relaciones lineales y no lineales que se establecen entre las variables de estudio y resolver estos problemas de forma rápida (Suykens and Vandewalle, 1999). Estudios previos han demostrado el potencial de este método de regresión no lineal para determinaciones cuantitativas en

productos agrarios (Sun et al., 2009, Shao et al., 2011 and Chauchard et al., 2004).

- Artifical Neural Networks (ANN)

o ANN es otro método de regresión no lineal Se puede definir como un sistema iterativo de cálculo que intenta reproducir, de forma simple y sencilla, el sistema de conexiones que existe entre las neuronas del cerebro humano.

o Un proceso llevado a cabo con ANN consta de dos etapas: la de aprendizaje (learning) y la de respuesta. Durante el aprendizaje, la red neuronal ‘aprende’ a partir de los ejemplos que se le presentan, adaptando los pesos de las conexiones en respuesta a las señales que le llegan de la capa de entrada y, opcionalmente, de la respuesta deseada. La etapa de respuesta se refiere a cómo la red procesa globalmente las señales que llegan a su capa de entrada y proporciona la respuesta en la capa de salida.

o Hay diferentes tipos de redes neuronales y se utilizan unas u otras dependiendo del tipo de problema que se desee resolver. (Pérez- Marín et al, 2007; Taghadomi-Saberi et al, 2013).

1.5.2.- Selección de variables

En las técnicas ópticas, especialmente en Espectroscopia de Infrarrojo Cercano, se trabaja con un gran número de variables. Es por eso, que para la obtención de los modelos de calibración se utilizan métodos de regresión multivariante. El más utilizado es el método Partial Least Squares (PLS) que tiene la habilidad de reducir problemas de colinealidad y solapamiento de bandas (Xiaobo et al, 2012). Pero éste no evita la influencia de las variables que aportan información irrelevante en la construcción del modelo.

Por tanto, la selección de variables es muy importante en los métodos multivariantes, ya que la eliminación de las variables que aportan ruido y poca

información, así como las redundantes, ayudará a la obtención de modelos de calibración más precisos y sencillos y desarrollo de sistemas de medida más baratos (Andersen y Bro, 2010)

Los métodos de selección de variables están basados en la elección de un pequeño número de variables, para así obtener un conjunto con el que el error sea mínimo en la obtención del modelo (Xiabo et al, 2012).

La selección de variables comenzó teniendo en cuenta sólo el espectro medido y viendo cuales eran las más importantes mediante los coeficientes de regresión. En los últimos años se han desarrollado estrategias estadísticas y heurísticas diversas para esta elección. Todo método de selección de variables sigue un proceso de dos pasos: primero es detectar un conjunto óptimo de variables relevantes, y luego desarrollar un algoritmo de calibración que permita la optimización del modelo.

Existen diferentes estrategias para la selección de variables:

 Univariante: selecciona las variables que tienen la correlación mayor con la variable respuesta. Sin embargo esta estrategia no considera el fenómeno de la colinealidad.

 Selección multivariante: las variables de entrada son eliminadas progresivamente de un modelo.

◦ Selección hacia adelante ◦ Selección hacia atrás

◦ Selección paso a paso (mezcla de las anteriores)

Estas estrategias son genéricas, pudiéndose encontrar algoritmos híbridos entre estas diferentes estrategias, y no son únicos, existiendo estrategias específicas distintas de estas.

Muchos son los métodos de selección de variables desarrollados: Successive Projections Algorithm (SPA), Uninfomative Variable Elimination (UVE), Genetics Algorithm (GA), Interval Partial Least Square (iPLS), Competitive Adaptive

Reweighted Sampling (CARS), siendo sin embargo la Información Mutual (MI) un criterio muy utilizado para el diseño de algoritmos de selección de variables. Esta medida, proveniente de la Teoría de la Información de Shannon, es una medida de correlación no lineal entre grupos de variables, que pretende medir el nivel de información que tiene una variable (o grupo de variables) respecto de otra variable (o grupo).

In document Aplicación de las técnicas de Espectroscopia Vis/NIR y de imágenes de retrodifusión de luz láser a la evaluación del estado de madurez de melocotón, manzana y cereza (página 46-54)