Capítulo 3. Procesado de Datos
4.3 REGRESIÓN PLS (Partial Least Square)
4.3.3 Proceso de Cálculo de PLS
Antes de realizar la descomposición en factores, las matrices X e Y se centran o autoescalan como en el caso del PCA. Cada una las matrices se descompone simultáneamente en una suma de a factores de forma que:
F q u F UQ Y E p t E TP X a i T i i T a i T i i T + = + = + = + =
∑
∑
= = 1 1donde T es la matriz de scores, P la de loadings y E la matriz de residuales para la matriz de datos (matriz X); U es la matriz de scores, Q la matriz de loadings y F la matriz de residuales para la matriz de la propiedad a determinar (matriz Y). Si tenemos m muestras, a factores, k variables y p analitos, la dimensionalidad de la matriz es la siguiente: T y U (m x a), PT (a x k) y QT (a x p). En este caso, los loadings no coinciden exactamente con la dirección de máxima variabilidad de las muestras como en el caso de PCA, ya que están corregidas para obtener la máxima capacidad para la matriz Y.
ûa=bata
donde el símbolo ^ indica que es un valor calculado (estimado) y ba es el
coeficiente de regresión para cada uno de los componentes. A partir de aquí se calcula el valor de Y utilizando la relación interna ûa
Y = T B QT+F
Donde B es la matriz de los regresores ba, de dimensiones (a x a), y F la matriz de
los residuos de Y.
En el caso de calcular una sola propiedad de la matriz Y el algoritmo recibe el nombre de PLS1 y se determina simultáneamente varias propiedades recibe el nombre de PLS2.
Una vez establecido el modelo de calibración se puede realizar la predicción de la propiedad modelada en un nuevo conjunto de muestras según la expresión:
B x b y T i T o T i = ˆ + )
Siendo xi el vector que define la señal analítica de la muestra, yi el vector de
concentraciones o propiedades a determinar, y boT un vector que permite realizar la
predicción de una muestra sin necesidad de descomponerla en matrices scores y loadings.
5 VALIDACIÓN
En las secciones anteriores de este capítulo se ha realizado un repaso de algunas de las técnicas de reconocimiento de patrones que se suelen utilizan en las lenguas electrónicas. En el último punto de la cadena de procesos de datos, se plantean los criterios para la selección del modelo y la estimación del resultado.
Cuando se realiza una nueva aplicación se deben determinar, no solo cuál es el modelo apropiado entre una amplia variedad de algoritmos de proceso de datos, sino también establecer el modelo que logre el resultado óptimo. La validación de modelo se basa en su capacidad para predecir nuevos resultados. El modelo de predicción debe
tener la cualidad de aprovechar la fase de entrenamiento para extraer de los datos sólo su estructura fundamental y no fijarse en aspectos accidentales (por ejemplo el ruido) que den lugar a posteriores predicciones erróneas. Este hecho ocurre cuando el modelo es “sobre-entrenado” con los datos disponibles, con un número irrazonablemente grande de parámetros del modelo o por un exceso de iteraciones de entrenamiento. Encontrar un modelo de predicción que aproveche los datos de entrenamiento pero sin llegar a excederse es el objetivo de la validación.
Para evitar el sobreentrenamiento existen diversos métodos: el más inmediato es repartir los datos disponibles en datos para el entrenamiento y en datos para la validación. El conjunto de datos de entrenamiento se utiliza para enseñar a varios modelos con diferentes estructuras. El modelo de entrenamiento que logra la mejor validación de los datos es el seleccionado como modelo final. Esta técnica de validación sencilla es conocida como el método holdout. Aunque la técnica holdout funciona bien en muchas situaciones, posee dos inconvenientes. Primero, en problemas con número limitado de datos no es conveniente permitirse el lujo de desprenderse de un conjunto de datos para la validación. Segundo, siendo la técnica holdout un simple experimento de entrenamiento y validación, la estimación del resultado puede ser errónea si se realiza un desafortunado reparto de datos. Los defectos de este método pueden solucionarse a expensas de una adicional computación, por medio de múltiples particiones del conjunto de datos.
La validación cruzada K-fold es una técnica que realiza K particiones de los datos de forma que cada ejemplo es utilizado tanto para el entrenamiento como para la validación. En cada de los K repartos se utilizan N/K ejemplos para la validación y el resto N(K-1)/K se utilizan para el entrenamiento, donde N es el número total de ejemplos. Por ejemplo, si se posee un total de 60 ejemplos (N=60) y se realizan 5 particiones (K=5) cada partición posee 12 elementos, el entrenamiento se realiza con los ejemplos de 4 particiones (48 ejemplos) y la validación con la partición restante (12 restantes). Posteriormente, se toma otra partición para la validación y las 4 restantes como entrenamiento y así sucesivamente hasta que todas las particiones hayan realizado la función de validación. En este caso se ha tenido una validación cruzada de orden 5. Cuando el número de grupos es igual al número de ejemplos (K=N), el método es
La validación final de la red consiste en determinar primeramente la tasa de éxito de cada partición de validación respecto a sus correspondientes particiones de entrenamiento y posteriormente realizar un promedio de todas las tasas de éxito, para así obtener una tasa de éxito promedia.
El parámetro importante a determinar es el número óptimo de particiones (K). En general para un conjunto de datos grande, un valor pequeño de K (≅3) será suficiente. Para conjuntos de datos escasos, es preferible el uso de la validación cruzada de orden uno (LOO) para así obtener el mayor número de ejemplos posibles. Los contrastes de los recursos computacionales también pueden tenerse en consideración ya que el número de ejecuciones del programa se incrementará de forma considerable con el aumento de K.
6 PERPECTIVAS DEL PROCESADO DE DATOS
Aunque las técnicas más apropiadas dependen de los tipos de sensores y de las aplicaciones, en general se pueden resumir las técnicas expuestas en este capítulo. Otras técnicas que no han sido expuestas en los puntos anteriores pero que presentan un futuro prometedor en los sistemas de narices y lenguas electrónicas son: lógica difusa, técnicas adaptativas y paradigmas cibernéticos biológicos.
La lógica difusa (Fuzzy) suele ser particularmente relevante en la imitación de la percepción organoléptica de los olores y sabores por parte de los seres humanos, se puede decir que es el objetivo último de una máquina de olfato o de gusto108. La utilización de las técnicas Fuzzy han sido publicadas en la literatura de las narices electrónicas109,110, incluyendo aproximaciones híbridas como fuzzy C-means/RBFs111 y fuzzy MLPs112,113. Las técnicas adaptativas han sido exploradas para el aprendizaje en
108
L. A. Zadeh. Fuzzy sets. Inform. Contr, 8 (1965) 338-353.
109 P. Wide, F. Winquist, D. Driankov. An air-quality sensor system with fuzzy classification. Meas. Sci.
Technol, 8 (1997) 138-146.
110 G. Bargagna, B. Lazzerini, A.C,Partridge. Fuzzy logic classification of olive oils. Electronic Noses
and Olfaction 2000, J. Gardner, Eds. Bristol U.K: IOP, 2000.
111
F. Marcelloni. Recognition of olfactory signals based on supervised fuzzy C-means and k-NN algorithms. Pattern Recognition. Lett. 22 (2001) 1007-1019.
112
D. Vlachos, J. Avaritsiotis. Fuzzy neural networks for gas sensing. Sensors and Actuators A, 33
línea en entornos no estacionarios. La teoría de la resonancia adaptativa (ART) proporciona un mecanismo que resuelve la inhabilidad de la mayoría de los sistemas de aprendizaje para adaptarse a los cambios del entorno sin previo compromiso con los conocimientos adquiridos, es decir resolver el dilema estabilidad - plasticidad. Por esta razón, la familia de los algoritmos ART ha sido propuesta como un buen mecanismo para las narices electrónicas114. Como este tipo de análisis se ha utilizado en diversas experiencias a lo largo de la tesis doctoral, se expondrá con más detalle sus características en los puntos siguientes del presente capítulo.
Finalmente, es de destacar el estudio de los mecanismos de procesado de señal en los sistemas de olfato biológico constituye una prometedora dirección de futuros trabajos115. La riqueza de los modelos computacionales del sistema olfativo desarrollado por la cibernética biológica y la neurociencia computacional puede servir como punto de partida para imitar el proceso biológico del olfato y el gusto116.
7 REDES FUZZY ARTMAP
Las redes de tipo ARTMAP son una clase de redes neuronales que implementan un aprendizaje supervisado y una posterior clasificación de vectores multidimensionales de entrada en una serie de categorías de salida.