Desarrollo de un método de selección de variables para
datos espectroscópicos en el infrarrojo cercano.
Índice
1
Objetivos y contenidos del proyecto
1
2
Espectroscopia en el infrarrojo próximo (NIR)
2
2.1 Introducción. 2
2.2 Modos de registro en NIR. 4
2.2.1 Medidas por Transmisión. 4
2.3 Origen de la absorción de la radiación NIR. 5
2.4 Interpretación del espectro NIR. 6
2.5 Instrumentación. 7
2.5.1 Fuentes de radiación. 9
2.5.2 Detectores. 9
2.5.3 Funcionamiento del espectrofotómeto FT-NIR. 10
2.5.3.1 Interferómetro de Michelson. 12
2.5.3.2 Retardo óptico. 13
2.5.4 Fuente de radiación emisora monocromática. 14
2.5.5 El interferograma. 15
2.5.6 El escáner. 17
2.5.7 Transformada de Fourier. 18
2.6 Ventajas e inconvenientes de la espectroscopia NIR. 19 2.7 Espectroscopia NIR en el control de procesos. 21
3
Quimiometría en espectroscopia NIR.
23
3.1 Introducción. 23
3.2 Etapas del proceso de modelado. 24
3.2.1 Selección del conjunto de calibración. 24
3.2.2 Métodos de referencia. 25
3.2.3 Obtención de la señal analítica. 25
3.2.4 Cálculo del modelo. 25
3.2.5 Validación del modelo. 26
3.2.7 Transferencia del modelo. 26
3.3 Reducción de variables (PCA). 27
3.3.1 Tratamiento previo de los datos. 27
3.3.2 Análisis en componentes principales. 28
3.4 Técnicas quimiométricas en el análisis cuantitativo. 30
3.4.1 Clasificación de los métodos de calibración. 30
3.4.2 Métodos basados en la reducción de variables. 31
3.4.2.1 Regresión en componentes principales. 32
3.4.2.2 Regresión parcial por mínimos cuadrados. 34
3.4.3 Evaluación de la capacidad predictiva del modelo. 37
3.4.4 Elección del número de componentes principales. 38
3.5 Selección de variables. 39
3.5.1 Criterio de la varianza. 40
3.5.2 Algoritmo genético. 44
3.5.2.1 Características de los algoritmos genéticos. 44
3.5.2.2 Creación del algoritmo genético. 45
3.5.2.3 Función de aptitud. 46
3.5.2.4 Medida de la población. 46
3.5.2.5 Técnicas de selección de individuos. 46
3.5.2.6 Técnicas de cruzamiento. 47 3.5.2.7 Técnicas de mutación. 47
4
Metodología experimental.
49
4.1 Introducción. 49 4.2 Instrumentación. 49 4.3 Programa de cálculo. 504.4 Módulos utilizados en el registro de los espectros NIR. 52
4.5 Fibra óptica. 54
5
Desarrollo de los métodos.
56
5.1 Introducción. 56
5.3 Descripción de los métodos de referencia. 58
5.3.1 Descripción general. 58
5.3.2 Procedimiento de análisis del ácido clorhídrico. 59
5.3.3 Desarrollo de métodos de cuantificación del HCl y H2O. 60
5.3.3.1 Muestras. 60
6
Estudio y discusión de los resultados
62
6.1 Introducción. 62
6.2 Estudio de los modelos PLSR y PCR para la matriz de datos inicial. 62 6.2.1 Estudio de los modelos PLSR y PCR para el caso del H2O. 63 6.2.2 Estudio de los modelos PLSR y PCR para el caso del HCl. 68 6.2.3 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O
y del HCl. 72
6.2.4 Conclusiones. 76
6.3 Estudio de los modelos PLSR y PCR a partir del desarrollo de método de selección de variables basado en el criterio de la varianza. 77
6.3.1 Introducción. 77
6.3.2 Estudio de los modelos PLSR y PCR para el caso del H2O. 77 6.3.3 Estudio de los modelos PLSR y PCR para el caso del HCl. 82 6.3.4 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O
y del HCl. 85
6.3.5 Conclusiones. 89
6.4 Estudio de los modelos PLSR y PCR a partir del desarrollo de
un método de selección de variables basado en un algoritmo genético. 90
6.4.1 Introducción. 90
6.4.2 Estudio de los modelos PLSR y PCR para el caso del H2O. 91 6.4.3 Estudio de los modelos PLSR y PCR para el caso del HCl. 100 6.4.4 Evaluación de la linealidad de los métodos de cuantificación para los casos del H2O
y del HCl. 107
6.4.5 Conclusiones. 112
Referencias.
1
Objetivos y contenido del proyecto
La industria química necesita disponer de métodos analíticos rápidos y fiables para poder controlar de forma eficiente tanto las materias primas como los productos intermedios o finales, y, en un sentido amplio, el proceso de fabricación.
El objetivo del presente proyecto es hacer un estudio comparativo de los resultados obtenidos, al utilizar distintos métodos de selección de variables para datos espectroscópicos, y probar estos algoritmos en modelos de calibración multivariable, los cuales podrían ser aplicables a las distintas necesidades que existen en el control de calidad de la industria química, ya sea aplicado a analizar las materias primas, o partes del proceso de producción.
Para llevar a cabo este objetivo, hemos utilizado la espectroscopia en el infrarrojo cercano (NIR), en concreto para la aplicación a estudiar, se ha escogido un espectrofotómetro NIR de transformada de Fourier, el cual utiliza un interferómetro de Michelson para modular la información espectral. Es un lazo analítico on line, es decir la medición de la muestra se realiza en la misma línea por la que circula la muestra a analizar. Este lazo analítico, que se describirá en detalle en el capítulo 4 de esta memoria, está formado por un espectrofotómetro FT-NIR, fibra óptica y una sonda de medición on line. Se ha propuesto esta técnica espectroscópica debido a las ventajas que presenta respecto a otras técnicas analíticas, como la rápida obtención de espectros, la posibilidad de determinar el valor de varios parámetros físico-químicos de una misma muestra a partir de un único espectro y la posibilidad de emplear dicha técnica en la misma línea de proceso.
2
Espectroscopia en el infrarrojo próximo (NIR)
2.1 Introducción.
La región infrarroja del espectro está comprendida entre las longitudes de onda de 700 a 106 nm. Tanto por razones instrumentales como por las características de la interacción de la radiación con la materia, se divide en tres zonas tabla 2.1: infrarrojo próximo (NIR, Near Infrared), infrarrojo medio (MIR, Middle Infrared) e infrarrojo lejano (FIR, Far Infrared).
Región Longitud de onda (nm) Origen de la absorción
NIR 700 - 2500 Sobretonos y bandas de combinación de vibraciones moleculares fundamentales MIR 2500-50000 Vibraciones moleculares fundamentales
FIR 50000-106 Rotaciones moleculares
Tabla 2.1. División de la región infrarroja del espectro [1]
La radiación en la zona del infrarrojo cercano fue descrita en los inicios del siglo XIX por William Hersche [2], aunque la aplicación de la espectroscopia NIR, een el ámbito de la química analítica, es reciente. De hecho, el primer registro fotográfico documentado de un espectro de líquidos orgánicos en la zona de 700 a 1200 nm tiene fecha de 1881 y fue realizado por Abney i Festing. Las características especiales de la amplia zona del infrarrojo, hizo que durante la primera mitad del siglo XX, los espectroscopistas se interesaran por la zona media del espectro (MIR) a la hora de buscar aplicaciones analíticas, experimentando la zona del infrarrojo cercano un cierto olvido.
El primer impulso importante fue en la década de los 60, cuando Karl Norris, líder de un grupo de investigación de la USDA (United States Department of Agriculture), empezó a experimentar sus posibilidades en el estudio de matrices complejas de origen natural [5][6]. Sus trabajos estaban orientados al campo del análisis agroalimentario e hizo que a partir de ese momento, el interés por la espectroscopia NIR creciera notablemente.
Hasta finales de los años 70 los instrumentos comerciales fueron principalmente instrumentos de filtros diseñados para aplicaciones específicas. Es a partir de este momento cuando se empiezan a desarrollar nuevos equipos con diseños mejorados y mayores prestaciones. Así, se construyen los primeros espectrofotómetros que permiten registrar espectros de forma rápida y altamente reproducible.
El desarrollo que experimentó la informática también ayudó a la expansión de la técnica. Se puso al alcance del usuario una capacidad de cálculo inexistente hasta el momento, haciendo que a partir de entonces se pudieran utilizar algoritmos relativamente complejos para superar uno de los principales inconvenientes de la técnica: la falta de especificación de las bandas de absorción.
Gracias a todos estos avances tecnológicos, el número de aplicaciones NIR en los diferentes campos ha crecido enormemente en los últimos años, tal y como se muestra en el artículo de McClure [7] de 1994. Actualmente se pueden encontrar aplicaciones de esta técnica en el análisis de alimentos, de productos farmacéuticos [8], de fibras textiles [9], de polímeros o de derivados del petróleo[10][11], entre otras.
2.2 Modos de registro en NIR.
En el intervalo espectral del infrarrojo próximo se realizan medidas de reflectancia, transmitancia o transflectancia. La diferencia básica entre los tres tipos de medidas es la posición de la muestra en el instrumento, como se muestra en la figura 2.2.1.
Figura 2.2.1 Diseños instrumentales en espectroscopia NIR.
S.L.O.*: Selección de longitudes de onda
En todos los casos, la señal analítica que se obtiene en espectroscopia NIR es una función compleja, que habitualmente se expresa como absorbancia aparente a=log(1/R), o unidades de Kubelka-Munk cuando las medidas se realizan en modo reflectancia, o como absorbancia A=log(1/T) cuando las medidas se realizan por transmisión.
2.2.1 Medidas por transmisión.
La absorción de la radiación NIR sigue la ley de Beer y, por tanto, las medidas de transmisión pueden utilizarse con fines cuantitativos. Así pues, se puede definir la absorbancia como: T I I A o log log =− = (1)
Sin embargo, de manera análoga a lo que sucede en las regiones del visible y del MIR, se pueden producir desviaciones del cumplimiento de la ley por causas tales como cambios en los enlaces por puente de hidrógeno, complejación o procesos químicos.
Cuando se analizan muestras sólidas por transmisión, no puede asumirse directamente que cualquier sistema siga la ley de Beer, ya que por efecto de la dispersión parte de la radiación puede sufrir reflectancia difusa y en este caso log 1/T no representa la atenuación de la radiación por absorción. Desde un punto de vista práctico, para realizar análisis mediante medidas de transmisión se procede del mismo modo que en reflectancia, es decir, utilizando una A aparente. De todos modos, la instrumentación utilizada en este tipo de medidas está diseñada para minimizar los efectos de la dispersión de radiación y, por tanto, la señal analítica depende fundamentalmente de la absorbancia de la muestra.
La medida por transmisión presenta como principales ventajas respecto a medidas por reflectancia, la mayor sensibilidad y homogeneidad espectral, debido a que, para registrar el espectro, se utiliza una porción mayor de muestra, pero tiene como principal inconveniente que componentes muy sensibles a la radiación (termo-sensibles), puedan ser afectados por la gran cantidad de energía que atraviesa la muestra.
Una variación de esta metodología son las medidas por transflectancia figura2.2.1. En este caso se mide la transmitancia después que la radiación haya atravesado dos veces la muestra, la segunda después que un reflector colocado al lado de la muestra provoque que el haz de luz pase una segunda vez por la misma antes de llegar al detector.
2.3 Origen de la absorción de la radiación NIR.
Aunque teóricamente son posibles las transiciones a cualquier nivel, en la realidad, esto no ocurre así. Como efecto derivado de la ley de Maxwell-Boltzmann, la probabilidad que se lleve a cabo una transición a niveles superiores a ∆i =±1, disminuye rápidamente y a efectos prácticos, únicamente las transiciones con ∆i =±1,±2,±3 son observables. Mientras la primera es conocida como la absorción fundamental, las otras dos reciben el nombre de primer y segundo sobretodo.
Para definir la región espectral del NIR, se puede recurrir a la transición IR más energética. Ésta se da a 4000 cm-1, con lo que podemos decir, que la región NIR queda establecida en el intervalo 4000-14300 cm-1 (700- 2500 nm). Es precisamente en esta zona, donde se dan las absorciones correspondientes a la absorción fundamental, además de la absorción del primer y segundo sobretodo. Hay que tener en cuenta, que también son posibles los movimientos vibracionales de combinación y de diferencia, que presentan las moléculas excitadas y por lo tanto son muy poco probables a temperatura ambiente.
2.4 Interpretación del espectro NIR.
2.5 Instrumentación.
Los primeros espectrofotómetros comerciales NIR aparecieron en la década de los 50. El esquema básico de estos instrumentos era el mismo que el utilizado en los espectrofotómetros UV-Visible o infrarrojo medio (fuente de radiación, sistema de selección de longitudes de onda, compartimento para la muestra y detector) pero modificando solamente los materiales de ciertos componentes para optimizar la respuesta del instrumento.
El primer espectrofotómetro comercial capaz de registrar en la zona NIR fue el Cary Model (fabricado por Applied Physics Corporation, Monrovia, California), el cual se construyó en 1954. El sistema de selección de longitudes de onda estaba integrado por un doble monocromador formado por un prisma de sílice fundida y una red con 600 líneas/mm, siendo el detector de PbS. Este instrumento era capaz de registrar hasta 2650nm.
Después de esta etapa inicial, se desarrollaron espectrofotómetros basados en diversas técnicas ópticas, introduciendo nuevos sistemas de selección de longitudes de onda y detección, consiguiendo registrar espectros de forma más rápida y fiable.
Dependiendo del sistema que utilizan en la generación de la radiación monocromática, los instrumentos de infrarrojo, se pueden clasificar básicamente en dispersivos y no
dispersivos.
En general, los instrumentos dispersitos, son aquellos que utilizan redes de difracción para generar la radiación monocromática. En espectrofotometría acostumbran a ser instrumentos de doble haz, los cuales son menos exigentes con las características de las fuentes y los detectores y permiten la compensación de la absorción de la radiación por parte de los gases de la atmósfera.
Por otro lado, también se dispone de instrumentos multicanal (o multiplex). En estos sistemas, la señal se registra de forma simultánea y posteriormente se decodifica con la ayuda de un algoritmo matemático. Básicamente, se han aplicado dos procedimientos de decodificación. Son los llamados Transformada de Fourier [12] y de Hadamard. Aunque las dos son alternativas válidas, sólo la primera se ha consolidado, aplicándose a diferentes campos de la espectrofotometría, como la resonancia magnética nuclear (RMN) y la espectrometría de masas (MS).
En este tipo de instrumentos no se utiliza un sistema monocromador para dispersar la radiación y medir la transmitancia en cada una de las longitudes de onda, sino que está formado por un haz policromático con ciertas características. Este hecho supone diferentes ventajas, respecto a los monocromadores [12], las cuales se resumen brevemente:
• Ventaja de Jaquinot (Rendimiento): Supone una elevación considerable de la relación señal-ruido, respecto a los instrumentos dispersitos, al ser sistemas que presentan un menor número de elementos ópticos y no utilizan ranuras para atenuar la radiación.
• Exactitud de longitud de onda: Los sistemas basados en láser de He-Ne, presentan una elevada exactitud y precisión en la selección de la longitud de onda, (inferior a 0.01 cm-1 en el intervalo entre 4800 y 400 cm-1). Esto hace posible el promediado de espectros con el consecuente incremento de la relación señal-ruido. Los efectos debidos a las radiaciones parásitas son minimizados al tratarse de una señal modulada.
• Ventaja del Felguett: Se consigue ya que al llegar todas las componentes del espectro a la vez (codificadas), el tiempo entre un espectro y otro puede ser sensiblemente pequeño (1 segundo). Este aspecto favorece el promediado de un elevado número de espectros que también aumenta la relación señal-ruido del espectro.
Para poder disponer de un inteferograma, hace falta un sistema que module la señal de alta frecuencia, que conserve las características en lo que respecta al tiempo, es decir, que sea proporcional, y que permita su registro por parte de los transductores actuales. Este sistema recibe el nombre de interferómetro [13]. Existen dos interferómetros muy populares: El interferómetro de Michelson y el interferómetro de prismas. En el apartado 2.5.3.1 describiremos detalladamente el funcionamiento del interferómetro de Michelson ya que realizaremos nuestro proyecto con uno de ellos.
2.5.1 Fuentes de radiación NIR.
Actualmente las fuentes de radiación utilizadas en espectroscopia NIR se pueden clasificar en dos tipos: las de espectro completo y las de intervalo reducido.
En un primer grupo se encuentra lámpara halógena con filamento de Tungsteno y con ventana de cuarzo. Sigue siendo la fuente de radiación más utilizada. Se trata de una fuente de elevada intensidad de emisión y que cubre ampliamente la zona NIR del espectro electromagnético, proporcionando una radiación continua en el intervalo 320-2500nm. Es la fuente de radiación con la que vamos a trabajar en el espectofotrómetro utilizado en el presente proyecto.
En el segundo grupo se encuentran los diodos de luz emisora o LEDs (Light Emission Diodes)18-20. Se trata de dispositivos semiconductores que emiten radiación NIR en un intervalo estrecho de longitudes de onda. Entre los semiconductores más utilizados se encuentran los de GaAs, que emiten en la región entre 900 y 970nm y los de InGaAs que permiten llegar a longitudes de onda más largas (1600nm).
2.5.2 Detectores.
Otro tipo de detectores más modernos son los FPA (Focal Point Array) que son los equivalentes en el infrarrojo cercano de los CCD (Charged-Coupled Devices), utilizados en la región UV-Vis. Son detectores multicanal que permiten mayor rapidez en el registro y mejor relación señal/ruido cuando se comparan con los detectores monocanales tradicionales. Sin embargo, el principal problema para su uso es el coste de adquisición, dado que pueden llegar a ser tan caros como el espectrofotómetro. Un aspecto especialmente importante es la disposición de los sistemas detectores.
Para medidas de transmitancia, es suficiente con situar el detector en línea con la muestra y el haz incidente. No obstante, para medidas de reflectancia, especialmente en sólidos, lo que se quiere es captar la radiación reflejada por la muestra. En estos casos, se acostumbra a trabajar con más de un detector, los cuales se sitúan en posiciones determinadas, no alineadas con el haz incidente.
2.5.3 Funcionamiento del espectrofotómetro FT-NIR.
A continuación vamos a explicar detalladamente el funcionamiento del espectrofotómetro por Transformada de Fourier [13] en el infrarrojo cercano, así como cada una de las partes que lo forman.
El haz producido por la fuente NIR (lámpara halógena con filamento de Tungsteno), pasa a través de una apertura, y eventualmente a través de un filtro óptico, y penetra en el interferómetro. Cuando el haz de luz policromática, entra en contacto con el interferómetro, éste es modulado por un escáner (espejo móvil). Es a partir de aquí cuando se conduce el haz de luz hacia la muestra, donde éste será transmitido o reflejado, y donde finalmente llegará al detector.
En la figura 2.5.1 se puede observar de forma esquemática el principio de funcionamiento del espectrofotómetro.
2.5.3.1 El interferómetro de Michelson.
En líneas generales el interferómetro de Michelson [14] es un dispositivo óptico, que divide un haz de luz policromática en dos mitades aproximadamente iguales. Estos haces se reflejan en dos espejos internos, uno fijo y otro móvil de velocidad perfectamente conocida. La diferencia de distancias recorridas por los haces a los espejos fijos y móvil recibe el nombre de retardo. La recombinación de los dos haces con un desfase entre ellos provoca interferencias constructivas y destructivas que se reflejan en la potencia radiante que recibe el detector. Cuando se representa la potencia radiante en función del retardo, se dispone del interferograma.
Podemos decir, que el interferómetro es el corazón del espectrofotómetro. Como se puede observar en la figura 2.5.2, el haz de luz que entra al interferómetro, es dividido a su vez en dos haces: el primero se transmite al espejo móvil (T), mientras que el segundo es reflejado hacia el espejo fijo (R).
La parte del haz transmitida, se refleja en el espejo móvil, modulándose de este modo en función de la velocidad del escáner, y retornando hacia el separador de haz (beamsplitter), donde de nuevo, parte del haz será transmitido de vuelta hacia la fuente emisora NIR (lámpara de tungsteno) (TT), mientras que la otra parte es reflejada hacia la muestra (TR).
Figura 2.5.2 Interferómetro de Michelson.
Esto significa que a la salida del interferómetro, tendremos dos haces los cuales se dirigen hacia la muestra de una forma combinada (TR+RT).
Dependiendo de la posición del espejo móvil, estos dos haces se combinarán de una manera constructiva o destructiva, y de esta forma se construirá el interferograma.
2.5.3.2 Retardo óptico.
La parte reflejada del haz producido por la fuente emisora NIR, se dirige hacia el espejo fijo FM (distancia OF) donde se refleja, y vuelve a incidir en el beamsplitter de nuevo, recorriendo una distancia de 2*OF. Este efecto se puede observar en la figura 2.5.3.
La parte transmitida del haz producido por la fuente emisora NIR, es reflejada por el espejo móvil (distancia OM). Este espejo se mueve a velocidad constante. El valor de la distancia recorrida por esta parte del haz es 2*OM.
Los dos haces (reflejado y transmitido), se recombinan de nuevo en el beamsplitter, donde interfieren con una diferencia de trayectoria. A esta diferencia la llamamos retardo óptico y equivale a 2*(OM-OF)=d.
Figura 2.5.3 Retardo óptico.
2.5.4 Fuente de radiación emisora monocromática.
Para poder entender de una forma más clara lo que ocurre en el interferómetro, vamos a explicar un ejemplo utilizando una fuente emisora de luz monocromática.
Cuando el espejo móvil y el fijo, está equidistante con el beamsplitter (esto significa retardo óptico cero), los dos haces se encuentran perfectamente en fase después de la recombinación que se produce al incidir ambos nuevamente en el beamsplitter. En este punto, los haces interfieren de una manera constructiva, siendo la intensidad del haz incidente en el detector, la suma de las intensidades de los dos haces que pasan a través de los dos espejos, figura 2.5.4.
Figura 2.5.4 Interferencia constructiva.
Después de la recombinación que se produce al incidir ambos haces en el beamsplitter, éstos están desfasados e interfieren de una forma destructiva. Este efecto se puede observar en la siguiente figura.
Figura 2.5.5 Interferencia destructiva.
Un nuevo desplazamiento del espejo móvil de 1/4?, hará que el retardo sea de ?. Los dos haces estarán nuevamente en fase cuando se recombinen en el beamsplitter.
2.5.5 El interferograma.
Como ya hemos explicado anteriormente, el espejo móvil se mueve a una velocidad constante (?) lo que hace que la señal en el detector sea una onda senoidal cambiante, y en el que se registrará un máximo cada vez que el retardo sea un múltiplo de ?.
El retardo puede expresarse pues de la siguiente forma: vt 2 = δ (2) donde: d: retardo (cm)
?: velocidad del escáner (cm/s)
La intensidad del haz medida por el detector expresada en función del retardo será: ) / 2 cos 1 ){ ( ) ( ' δ =Bυ + πδ λ I (3) donde:
I’(d): intensidad del haz
B(?): intensidad de la fuente a un determinado número de onda ?
modificado según las características del instrumento (eficiencia del beamsplitter, respuesta del detector, amplificador...)
?: número de onda (?=1/?)
La componente AC de I’(d) hace referencia al interferograma.
2.5.6 El escáner
La velocidad del escáner (así como la posición del espejo móvil) es controlada de una forma muy precisa a través del haz emitido por un láser de HeNe, el cual produce una luz monocromática a 632,8 nm.
El haz del láser se envía hacia el interferómetro, donde es modulado del mismo modo que lo son los haces de la fuente emisora de luz NIR. A la salida del interferómetro, se encuentran dispuestos a 90º dos detectores, los cuales detectan el movimiento de los dos haces del láser.
Como podemos observar en la figura 2.5.6, las señales Laser A y Laser B, se envían hacia la zona electrónica, controladora del escáner, vía una tarjeta electrónica llamada Interferometer board, la cual forma parte del espectrofotómetro.
2.5.7 Transformada de Fourier.
Cuando usemos como fuente luminosa NIR una lámpara de Tungsteno, esto quiere decir que van a ser emitidas al mismo tiempo muchas longitudes de onda (o frecuencias) al mismo tiempo.
Una señal registrada en el dominio del tiempo se podrá representar como una combinación de funciones periódicas. Podemos decir por tanto, que el análisis de Fourier es el proceso matemático que permite la descomposición de una curva cualquiera en una suma de términos seno y coseno, llamada serie de Fourier.
La potencia de la señal del interferograma se puede llegar a describir con la siguiente expresión: ) 2 cos( ) ( ) ( B v ft P δ = π (5)
Donde el término B(?), está relacionado con la potencia de la fuente de radiación, en nuestro caso la lámpara de Tungsteno para la región del espectro NIR, la división del haz por parte del interferómetro y la respuesta del detector con la frecuencia.
Si tenemos en cuenta conceptos como el número de onda y el retardo óptico, la expresión anterior se puede rescribir de esta forma:
) 2 cos( ) ( ) ( B v v P δ = πδ (6)
Por lo tanto, el interferograma que mediremos en el detector, será la resultante de todos los interferogramas correspondientes a cada número de onda. De forma matemática podemos expresar el interferograma completo con la siguiente expresión:
∫
−+∞∞= υ π δ υ
δ B v d
I( ) ( )cos2 (7)
2.6 Ventajas e inconvenientes de la espectroscopia NIR.
Las principales ventajas de la espectroscopia NIR como herramienta de análisis cuantitativo son:
• La técnica no es destructiva ni invasiva.
• La medida se realiza con rapidez. La posibilidad de realizar medidas tanto en estado sólido como líquido ha permitido minimizar la manipulación previa de la muestra por parte del analista y realizar un número elevado de análisis, aspecto muy importante en el análisis de control de calidad.
• Es posible realizar análisis on-line, es decir en la misma tubería de proceso. Esto conlleva rapidez a la hora de conocer los resultados analíticos de la muestra, pudiendo por este motivo implementar el lazo analítico en el sistema de control de la planta de producción, mejorando así el control del proceso.
• Por el anterior motivo, la resistencia de los materiales utilizados y la ausencia de partes móviles en el sistema de detección, hacen que sea una técnica idónea para procesos de control en planta. Esta aplicación se ve favorecida por la gran tendencia a la miniaturización y compactación que está sufriendo esta instrumentación.
• Se obtiene en gran medida un aumento de la seguridad. Si se realiza un análisis on-line, no hará falta tomar muestras continuamente del proceso, evitando así la manipulación, por parte de los analistas u operadores de planta, de la muestra, ya que esta puede contener productos nocivos para la salud, tóxicos, corrosivos, etc.
• Por otra parte el análisis presenta un bajo coste. La ausencia de reactivos y otro tipo de materiales para la preparación de muestras hace que los costes de aplicación de la técnica sean mínimos. Por otro lado, al ser un análisis automático y de gran rapidez produce un aumento de la capacidad analítica del laboratorio. Estas razones hacen que la inversión inicial sea rápidamente amortizada.
• La técnica permite la determinación de varios analitos de la muestra sin tener que seguir un procedimiento analítico diferente para cada uno de ellos. Esta posibilidad implica invertir mucho tiempo cuando se ponen a punto las calibraciones, pero permite la posterior automatización del análisis.
• En muchos campos de aplicación, la exactitud de la técnica NIR es comparable a otras técnicas analíticas y, generalmente, su precisión es mayor debido a la falta de tratamiento de la muestra.
Pero como toda técnica también tiene sus inconvenientes:
• La adquisición del espectrofotómetro NIR es caro a corto plazo. Aunque como hemos observado en el estudio económico explicado anteriormente, no resulta una inversión cara la adquisición del espectrofotómetro a medio plazo.
• La complejidad de la señal NIR obliga a aplicar técnicas quimiométricas, que permitan modelar los datos para identificar y cuantificar muestras problema.
• La preparación del calibrado es dificultosa, ya que es necesario disponer de muestras para ampliar el intervalo de concentración de las muestras problema (habitualmente representan un intervalo de concentración demasiado estrecho). Además, éstas deben presentar características físicas y químicas similares a las reales.
• No es posible analizar muestras problema que presenten una variabilidad (física o química) no contemplada en la calibración.
2.7 Espectroscopia NIR en el control de procesos.
El objetivo de la química analítica de procesos es proporcionar información cualitativa y cuantitativa del proceso químico [15]. Esta información puede ser utilizada no sólo para monitorizar y controlar el proceso, sino también para optimizar el eficiente uso de energía, tiempo y materias primas. En este mismo trabajo se describen las diferentes eras de la química analítica de procesos, desde que la muestra era tomada en la línea de producción y llevada al laboratorio para su posterior análisis (off-line), hasta que la medida analítica es hecha en la misma línea de producción sin necesidad de haber contacto físico con la muestra (non-invasive).
La evolución de los métodos espectroscópicos desde la era off-line a la era on-line, se ha llevado a cabo al cambiar el concepto de llevar la muestra a la luz por el de llevar la luz a la muestra. En los métodos espectroscópicos implantados en control de procesos, la radiación se conduce a la muestra mediante sondas de fibra óptica, las cuales tendrán diferentes diseños según su función. Éstas pueden insertarse directamente en la línea de proceso o pueden llegar a una celda de flujo por la que se hace pasar parte de la muestra desviada de la línea de producción.
Las medidas de reflectancia se pueden realizar a través de una ventana en la línea de procesos, mientras que las medidas de transmitancia pueden ser realizadas insertando una sonda en la misma línea de producción, compuesta de dos fibras ópticas, de manera que por una fibra llegue la luz y la otra recoja la radiación que no ha absorbido la muestra. Existe otro tipo de sondas con las que se realizan medidas de transflectancia, en las que la radiación llega a través de la fibra óptica, atraviesa la muestra y después de reflejarse la radiación va al detector a través de la misma fibra.
Con el uso de multiplexores se pueden dirigir diferentes sondas a distintos puntos de la producción. Además, la utilización de las fibras ópticas permite que tanto el instrumento como el operador puedan estar lejos del ambiente agresivo de la planta de producción.
3
Quimiometría y procesado de la señal en espectroscopia NIR.
3.1 Introducción
Un método de análisis instrumental proporciona un conjunto de datos, más o menos complejo, al que se denomina señal analítica. Dicha señal es una magnitud física que incorpora información química y/o física de la muestra analizada. Para obtener dicha información, se debe correlacionar la señal obtenida con la propiedad analítica que se pretende medir. Este proceso no siempre es directo, ya que la señal obtenida suele ser contribución de más de una especie o propiedad. Por ejemplo, en métodos cromatográficos, hay una separación previa de los componentes de la muestra, por lo que cada señal analítica obtenida corresponde a analitos discretos, no así en métodos espectroscópicos, donde la señal proporcionada por el instrumento no es exclusiva de un solo componente de la muestra.
Los avances instrumentales, la automatización y la incorporación de los ordenadores en el control y adquisición de señales de instrumentos, permite obtener gran cantidad de información analítica en tiempos muy cortos. Poder extraer la información útil de la que no lo es, y ser capaz de interpretar los datos para que puedan ser utilizados y relacionados con el parámetro a determinar, se convierte en una tarea compleja dado el gran volumen de información. Esta problemática ha propiciado el desarrollo de métodos quimiométricos, basados en cálculos matemáticos, estadísticos y de lógica formal, que permiten diseñar o seleccionar procedimientos de medida óptimos y obtener la máxima información relevante de los datos analíticos [16].
La palabra quimiometría, inventada hace aproximadamente treinta años, quiere resumir el concepto que engloba la medida en química. Se podría argumentar que, ciertamente, la medida en química siempre ha sido el campo de actuación de la química analítica.
La quimiometría se ha convertido así en una parte muy importante de la química analítica y su uso ha ido en aumento aplicándose al tratamiento de todo tipo de datos espectroscópicos, cromatográficos, polarográficos, etc.
Por otra parte, no debemos olvidar que la aplicación de técnicas quimiometricas requiere un preprocesado previo de los datos, mediante el que se extraiga y normalice la información relevante que suministra la matriz de datos espectroscópicos. Este paso puede ser crucial en el éxito de la aplicación y debe ser tratado con sumo cuidado.
Por este motivo se ha incluido en esta memoria, un apartado en el que se explican con detalle todos los pasos previos a la aplicación de técnicas quimiométricas, que incluyen desde la extracción de parámetros relevantes, la selección de variables y métodos de calibración multivariable que hagan posible relacionar la señal analítica con la propiedad a determinar.
3.2 Etapas del proceso de modelado.
El proceso de modelado de un conjunto de datos, ya sea para clasificación o bien para determinación cuantitativa de un parámetro determinado, tiene como finalidad obtener un modelo capaz de predecir propiedades de nuevas muestras. Para la obtención de un modelo robusto se deben seguir las siguientes etapas: selección de un conjunto de calibración, determinación de la propiedad o identidad por métodos de referencia adecuados, obtención de la señal analítica, cálculo del modelo, validación del modelo, aplicación del modelo al análisis de muestras desconocidas, análisis de rutina y monitorización y por último transferencia de modelos. A continuación se explica más detalladamente cada una de las etapas implicadas en el modelado de datos.
3.2.1 Selección del conjunto de calibración.
El conjunto de calibración (o training set) deberá incorporar variabilidad de distinta naturaleza según la finalidad del modelo. Así, para una calibración multivariable, las muestras deberán ser representativas de todo el intervalo del parámetro a determinar (p.ej: cubrir todo el intervalo de concentraciones en la determinación de un principio activo), mientras que en modelos de clasificación las muestras deben incorporar toda la posible variabilidad que pueda darse para cada tipo de muestras (proveedor, tamaño de partícula, grados de pureza...).
3.2.2 Métodos de referencia.
Se determinan las concentraciones o propiedades de las muestras o bien las identidades de las mismas mediante métodos de referencia adecuados. Estos métodos de referencia deben proporcionar valores precisos y exactos, ya que de ello dependerá la exactitud del modelo multivariable obtenido.
3.2.3 Obtención de la señal analítica.
Para obtener la señal analítica se debe someter a las muestras al procedimiento instrumental que se haya elegido. Si se trata de técnicas espectroscópicas se deben registrar los espectros de las muestras. Una vez el sistema instrumental proporciona los datos resultantes, éstos son almacenados y quedan disponibles para su posterior tratamiento.
3.2.4 Cálculo del modelo.
La construcción del modelo implica una serie de tratamientos previos de la señal para a continuación hallar la relación más simple entre la señal analítica y la propiedad a determinar, ya sea estableciendo la relación con la concentración de un analito o con parámetros físicos de la muestra, o bien estableciendo las características que definen una clase y fijando las fronteras que la separan de otra u otras clases.
Una vez corregidos los efectos del ruido, el modelo puede ser construido teniendo en cuenta las bases teóricas que explican la relación entre la magnitud física de la señal analítica con la propiedad a medir (Ley de Lambert-Beer en absorción, ecuación de Nernst en potenciometría...) o bien por relaciones totalmente empíricas. En calibración multivariable para el cálculo del modelo se utilizan gran variedad de algoritmos matemáticos, así como técnicas estadísticas para evaluar la calidad del mismo y optimizarlo.
3.2.5 Validación del modelo.
Se trata de aplicar el modelo calculado a un número limitado de muestras de las cuales se conoce la propiedad que el modelo predice. Estas muestras son externas al conjunto de calibración (test set). Los resultados obtenidos mediante el modelo se comparan estadísticamente con los valores de referencia, comprobando que ambos resultados no son distintos, es decir que el modelo predice correctamente y por lo tanto es válido para la determinación de la propiedad que queremos predecir.
3.2.6 Aplicación del modelo.
Una vez validado el modelo, éste se aplica a la predicción de muestras desconocidas. Los resultados obtenidos para estas muestras son generalmente aceptables, por lo que esta fase es tan sólo una segunda comprobación de la capacidad predictiva del modelo.
-
3.2.7 Transferencia del modelo.
3.3 Reducción de variables (PCA).
Debido al gran volumen de información que proporcionan los métodos instrumentales, a los que hemos hecho referencia al inicio del capítulo, uno de los campos de estudio de la quimiometría ha sido el desarrollo de métodos de cálculo capaces de reducir este gran volumen de información para que ésta quede contenida, sin pérdidas relevantes, en un número reducido de variables. Uno de los métodos más utilizados para reducción de variables, es la descomposición de los datos en componentes principales (PCA, Principal Component Analysis) [17]. Las técnicas quimiométricas utilizadas en este proyecto se basan en un análisis en componentes principales previo al modelado de los datos, por lo que a continuación se explicarán los fundamentos de este tratamiento.
3.3.1 Tratamiento previo de los datos.
Los procedimientos de reducción de variables no suelen ser aplicados a los datos originales, sino que estos son previamente tratados para eliminar posibles efectos que puedan afectar a la descomposición. Los dos tratamientos habituales son el centrado y el auto escalado, cuyos efectos han sido discutidos en la bibliografía [18].
Considerando la matriz X de datos donde cada fila corresponde al espectro de una muestra y cada columna corresponde a una longitud de onda (variable), el centrado y el auto escalado transforman esta matriz de la siguiente forma:
• Centrado: se calcula el valor medio de cada variable ( x ) del conjunto de k calibración (de cada columna de la matriz), y se resta este valor a cada punto (x ) de la columna.ik k ik centrado ik x x x = − (8)
• Auto escalado: consiste en, después de centrar cada columna, dividir el resultado por la desviación estándar de la misma s ; de esta forma la k varianza de cada variable vale la unidad.
k k ik do autoescala ik s x x x = − (9)
Geométricamente es equivalente a cambiar la longitud de los ejes de coordenadas; todos los ejes tienen la misma longitud y cada variable tiene la misma influencia en el cálculo.
Si los datos son espectros de muestras, puede ser más interesante no escalarlo, ya que al escalar se daría igual importancia a las variables con baja absorbancia, o con principalmente solo ruido, que a los máximos de absorción. Por otra parte, el escalar puede favorecer la determinación de compuestos minoritarios en presencia de absorbentes mayoritarios. Para cada problema en concreto hay que adoptar la solución más conveniente.
3.3.2 Análisis en componentes principales.
El espectro de una muestra registrado a k longitudes de onda puede describirse como un vector con k coeficientes. Se puede construir un espacio de k dimensiones de forma que cada una de ellas sea la señal a cada una de las longitudes de onda, y se puede representar la muestra como un punto en este espacio. Si se tienen m muestras, cada una de ellas se puede representar como un punto en el espacio de k dimensiones. Si estas muestras no tienen nada en común aparecerán dispersadas en el espacio. Si por el contrario tienen algo en común o están relacionadas los m puntos aparecerán agrupados.
El objetivo del PCA es hallar las direcciones que explican la máxima variabilidad de las muestras y utilizarlas como nuevos ejes de coordenadas, denominados componentes principales (PC’s). De esta forma, se reduce la dimensionalidad de un espacio de k dimensiones a un espacio de a dimensiones (a<k), manteniendo intacta la información relevante del sistema. Geométricamente, un PCA es un cambio de ejes, representando las muestras en un nuevo sistema de coordenadas con un número inferior de ejes al utilizado inicialmente.
El primer componente principal es combinación lineal de las k variables que explica la máxima variabilidad de las muestras. El segundo PC se escoge de forma que sea ortogonal al primero y que explique la máxima variabilidad de las muestras una vez restada la explicada por el primer PC. Para definir matemáticamente estos nuevos ejes se utilizan los loadings, que son los cosenos de los ángulos que forman los nuevos ejes con los originales. Los scores son las coordenadas de las muestras en estos nuevos ejes.
Numéricamente, la matriz de datos X (datos espectrales) se descompone en el producto de dos matrices: una matriz de scores T y una matriz de loadings P, quedando un residual representado por la matriz E:
E TP
X = t + (10)
El PCA tiene la propiedad de que la matriz de loadings P puede encontrarse mediante un ajuste por mínimos cuadrados de X en la matriz de scores T, del mismo modo que T se puede encontrar por un ajuste de mínimos cuadrados de X en P. Esto ha llevado al desarrollo de algoritmos de cálculo para la obtención de T y P.
El más conocido es el algoritmo NIPALS [19] (Nonlinear Iterative Partial Least Squares), que permite obtener sólo los primeros PC’s sin necesidad de calcular todos los vectores propios de una matriz.
Cada componente principal contiene información de diferente relevancia. Los primeros PC’s describen la fuente de variación más importante de los datos. La representación completa de la matriz X implica k vectores de loadings y scores. Sin embargo, puesto que la finalidad de la descomposición es la reducción de la dimensionalidad del sistema, se representa la matriz original con un número menor de vectores a de la forma:
E p t p t p t X a at t t + + + + = 1 1 2 2 .... (11)
3.4 Técnicas quimiométricas en el análisis cuantitativo.
Los métodos instrumentales de análisis son métodos relativos, en los que para determinar la cantidad de analito presente en la muestra es necesario comparar la propiedad medida con la de un conjunto de patrones de composición conocida.
Uno de los objetivos de los métodos quimiométricos es transformar la señal obtenida en el análisis instrumental (sin significación química) en información útil para el analista a través de lo que se conoce como calibración. Es por ello que la calibración, como etapa integrante del proceso analítico, es de gran importancia y sólo podrá obtenerse una buena precisión y exactitud en los resultados si se aplica el tipo de calibración adecuado y, evidentemente, de forma correcta.
En el ámbito de la química analítica se define calibración como el proceso que permite establecer la relación entre la respuesta instrumental y una propiedad determinada de la muestra, que en determinaciones cuantitativas suele ser la concentración. Esta relación matemática que relaciona la señal analítica con la concentración se denomina modelo o ecuación de calibración y la representación gráfica que los relaciona recibe el nombre de curva de calibración.
3.4.1 Clasificación de los métodos de calibración.
Los métodos de calibración pueden clasificarse de diferentes maneras, en función del criterio que se utilice. Los más habituales se muestran en la tabla 3.4.1.
Criterio Método de calibración
Dependiendo del número de variables
Univariable Multivariable Dependiendo del tipo de función matemática Lineal
No lineal Dependiendo de la obtención de los parámetros
de calibración
Directa Inderecta Dependiendo de cuál sea la variable
independiente
Clásica Inversa
En la calibración univariable se establece la relación matemática entre una única variable dependiente y una única variable independiente. Cuando intervienen más de una variable se denomina calibración multivariable. Las calibraciones lineales son las que relacionan las variables dependientes con funciones lineales de las variables independientes, o bien con funciones polinómicas que son lineales en los coeficientes. Cuando las funciones no son de este tipo se trata de calibraciones no lineales. Cuando los parámetros de calibración se conocen directamente a partir de la señal de cada uno de los analitos de forma individual la calibración es directa. Cuando los parámetros se conocen a partir de las señales analíticas de mezclas de los componentes, la calibración es indirecta.
En la calibración clásica la variable independiente es la concentración y la variable dependiente la señal analítica. En caso contrario estamos hablando de calibración inversa.
Dentro de la calibración multivariable, los modelos pueden clasificarse en dos grandes grupos: métodos rígidos, en los que es necesario tener información de todas las especies presentes que pueden contribuir a la señal, y métodos flexibles, en los que únicamente es necesario tener información de los analitos que se desea cuantificar, aunque hayan otras especies o fenómenos físicos que contribuyan a la señal registrada.
También se distingue entre métodos de espectro completo, donde se utilizan tantas longitudes de onda como sea posible sin ninguna selección previa, o de selección de
variables en los cuales sólo se utilizan un número reducido de variables. Dentro de los
métodos de espectro completo deben mencionarse los métodos de compresión de variables, basados en la descomposición de los datos en componentes principales.
3.4.2 Métodos basados en reducción de variables.
Estos métodos se basan en que la información contenida en las variables de la señal puede estar contenida en un número menor de variables sin que haya pérdida de información relevante (ver punto 3.3). El proceso calibración se realiza, no sobre los datos originales, sino sobre estas nuevas variables, simplificando el modelo y la interpretación de los resultados.
Este tipo de métodos de calibración son de espectro completo, no presentan problemas de colinealidad ni las consecuencias derivadas de ella. Por estas razones, la tendencia actual es la utilización de métodos de calibración basados en una reducción de variables previa al cálculo del modelo, a través de métodos de selección de variables.
Generalmente, los procedimientos de reducción de variables no son realizados sobre los datos originales sino que éstos se centran o auto escalan previamente.
3.4.2.1 Regresión en componentes principales (PCR).
La Regresión en Componentes Principales (PCR, Principal Component Regression) aprovecha las propiedades de la descomposición en componentes principales (PCA), realizando una regresión múltiple inversa (ILS) de la propiedad a determinar sobre los scores obtenidos en el PCA en lugar de realizarla sobre los datos originales. No existe pérdida de información útil, ya que los scores contienen la misma información que los datos originales pero habiendo eliminado el ruido.
El primer paso del PCR consiste en realizar una descomposición de la matriz X en sus componentes principales, de la forma indicada en el punto 3.3.2.
∑
= + = + = A a t a a t E p t E TP X 1 (12)Una vez elegido el número de A componentes principales que se considere como óptimo para describir la matriz X (ver procedimientos de elección de componentes principales en el punto 3.4.1.4), ésta se puede representar por su matriz de scores T.
TP
X = (13)
Hasta aquí lo que se ha realizado es un PCA, obteniendo a partir de la matriz de datos X la matriz de scores T y la de loadings P. A continuación, la matriz de datos Y se puede calcular según la expresión:
Y =TB+E (14)
siendo B la matriz de regresores que se halla por mínimos cuadrados conociendo los valores de Y del conjunto de calibración:
B TtT 1TtY
^
)
( −
El símbolo ^ indica valores calculados. Una vez calculados los regresores, y por lo tanto establecido el modelo de calibración, se pueden realizar los cálculos para predecir un conjunto de nuevas muestras. En primer lugar, la matriz de datos espectroscópicos del conjunto de muestras de predicción X*, se centra o autoescala utilizando los valores calculados a partir de la matriz de datos X empleada en la calibración. A partir de la matriz de loadings calculada en la calibración, para el número A de componentes principales óptimo, se calculan los scores de las muestras de predicción, T*
P X
T* = * (16)
y se utiliza la matriz de regresores calculada también en la calibración, junto con los scores de estas muestras, para el cálculo de la propiedad a determinar en las muestras desconocidas. ^ * B T Y = (17)
Uno de los principales problemas con PCR es que los componentes principales que mejor representan la matriz de los datos espectroscópicos, X, pueden no ser los más apropiados para la predicción de las propiedades de los analitos que queremos determinar. Por este motivo se ha desarrollado otra técnica de calibración que intenta concentrar el máximo poder predictivo en los primeros componentes principales. Este nuevo método es la regresión parcial por mínimos cuadrados.
3.4.2.2 Regresión parcial por mínimos cuadrados (PLSR)
Una vez centradas o autoescaladas las matrices X e Y, cada una de las matrices se descompone en una suma de A factores, calculando simultáneamente:
∑
= + = + = A a t a a t E p t E TP X 1 (18)∑
= + = + = A a t a a t F q u F UQ Y 1 (19)La ecuación (13) es la descomposición de la matriz de datos espectroscópicos X, siendo T es la matriz de scores, P la de loadings y E la matriz de residuales. En la ecuación (14), que es la descomposición de la matriz de la propiedad a determinar Y, U es la matriz de scores,
Q la matriz de loadings y F la matriz de residuales. Si tenemos M muestras, A factores, K
variables y P analitos, la dimensionalidad de las matrices es la siguiente: T y U (M x A), Pt (A x K) y Qt (A x P). En este caso los loadings no coinciden con las direcciones de máxima variabilidad de las muestras como en el caso de PCA, ya que están corregidos para obtener la máxima capacidad predictiva para la matriz Y.
La descomposición de ambas matrices no es independiente, sino que se realiza de forma simultánea, estableciéndose una relación interna entre los scores de los bloques X e Y de forma que para cada componente a se cumpla:
a a a b t
u = (20)
donde el símbolo ^ indica que es una cantidad calculada y ba es el coeficiente de regresión
Calibración
Una vez se tienen los datos centrados (Xo ) para cada factor a=1,2,...,A se realizan los
pasos del 1 al 5:
Paso 1
Se calculan los llamados “pesos” (weights) wa por mínimos cuadrados, utilizando la variabilidad restante en y expresada como vector ya-1:
E w y
Xa−1 = a−1 aT +
escalando a continuación el vector wa:
1 1 − − = a a T T a cX y W
siendo c un factor de escalado que hace que la longitud del vector final wa sea igual a 1.
Paso 2
Se estiman los scores ta utilizando los pesos obtenidos en el modelo local: E
w t Xa−1 = a aT +
siendo los scores calculados por mínimos cuadrados: a
a
a X w
t = −1
Paso 3
Con los scores calculados, se estiman los loadings pa de los datos espectroscópicos. Con el
modelo local: E p t Xa−1 = a aT +
de nuevo por mínimos cuadrados se calcula: a T a a T a a X t t t p = −1 / Paso 4
Lo siguiente es calcular el loading de concentración qa utilizando a tal efecto el modelo: f
q t ya−1 = a aT +
lo que da como solución: a T a a T a a y t t t q = −1 / Paso 5
Se crean una matriz Xa-1 nueva y un residual ya-1 sustrayendo el efecto de este factor.
Ahora a habrá aumentado en una unidad (a=a+1): T a a a nueva a X t p X −1( ) = −1− T a a a nueva a y t q y −1( ) = −1− Paso 6
Se determina el número A de factores PLS y se calculan los predictores b0 y b para ser
utilizados en la predicción de nuevas muestras: q W P W b T 1 ) ( − = b x y bo = − T Predicción
La concentración y de una muestra desconocida cuyo espectro es x se calcula utilizando los regresores obtenidos en el paso 6 de la forma:
b x b y= o − T
3.4.3 Evaluación de la capacidad predictiva del modelo.
El objetivo de la calibración es obtener unos parámetros que permitan calcular la propiedad a determinar en futuras muestras de forma que los valores obtenidos difieran lo menos posible de los valores reales. En modelos de clasificación la capacidad predictiva se evalúa por los aciertos en la clasificación de muestras que no hayan formado parte de la calibración.
En modelos de cuantificación, se realizan estudios cuantitativos de los resultados obtenidos. Se debe utilizar un parámetro que permita evaluar el error medio de toda la población, no sólo de una muestra. Para ello, se puede utilizar el sumatorio del cuadrado de los residuales ( ( )2)
ij ij y
y −
∑
, denominado habitualmente PRESS (Predicted Residual Error Sum of Squares) o su valor medio obtenido dividiendo el PRESS por el número de muestras de predicción (np), conocido como MSEP (Mean Square Error of Prediction)) / ) ( (
∑
yij −yij 2 np .También se puede utilizar la raíz cuadrada del MSEP, denominada RMSEP (Root Mean Square Error of Prediction).
Para la construcción de un modelo se suelen utilizar dos conjuntos de muestras: de calibración y de validación (o test set). Si se procede de esta forma, se calcula el MSEP o el RMSEP para cada componente principal. De igual forma, también se pueden calcular estos parámetros para el conjunto de calibración (MSEC, RMSEC).
Si el número de muestras disponibles es relativamente pequeño, la metodología a seguir es la validación cruzada (cross validation) [12], la cual utiliza, para comprobar el ajuste del modelo, muestras del conjunto de calibración. Mediante este método, el conjunto de calibración se divide en varios bloques o segmentos. El modelo se construye tantas veces como número de segmentos se ha elegido, utilizando un segmento como bloque de datos para comprobar resultados y el resto para construir el modelo, de forma que se deja un segmento fuera cada vez. Cuando el número de segmentos es igual que el número de muestras de calibración, se le denomina leave one out (LOO). Este procedimiento deja cada vez una muestra fuera, utilizando el resto para el cálculo del modelo, repitiendo el proceso un número de veces igual al número de muestras.
∑
∑
= = − = M i ij M j ij ij y y y RSEP 1 2 1 2 ) ˆ ( (21)donde M es el número de muestras, yij es la concentración del analito j-ésimo en la
muestra i-ésima e yij es el estimado. Este error estándar relativo de predicción, RSEP, se
calcula tanto para las muestras de calibración como para las muestras del conjunto externo, obteniéndose el RSEP(C) y el RSEP(P) respectivamente.
3.4.4 Elección del número de componentes principales.
La elección del número de componentes principales o factores que configura el modelo óptimo es el punto clave en la utilización de cualquier técnica de calibración que realice reducción de variables. Se han propuesto formas para reducir el número de variables latentes (LV’s) para PLSR y de componentes principales (PC’s) para PCR, que se basan, en general, en el análisis del error de predicción al utilizar distinto número de éstos. Puesto que el método más usual de construcción del modelo es el de validación cruzada, una forma muy popular de seleccionar el número de factores óptimo es la sugerida por Wold [21], consistente en representar el valor de PRESS frente al número de componentes y elegir como óptimo el mínimo de la curva. Se parte de que el error disminuye al aumentar el número de componentes que se utilizan en el modelo, hasta que llega un momento en que los nuevos componentes únicamente explican ruido y el PRESS aumenta debido al sobre ajuste del modelo.
El método determina el número óptimo de variables latentes realizando una validación cruzada en la que calcula el sumatorio del error del cuadrado de los residuales (PRESS) con un número creciente de variables latentes. La figura 3.4.4 muestra un gráfico típico de resultados en el que se observa que, para el ejemplo en cuestión, el modelo óptimo queda creado con 7 variables latentes (LV’s).
3.5 Selección de variables.
En todo estudio de viabilidad en el que se pretende determinar si un método espectroscópico es capaz de realizar satisfactoriamente una determinada función, se debe realizar una cuidadosa selección de las variables que formarán la matriz reducida de datos espectroscópicos. Tal y como hemos visto en apartados anteriores, la espectrofotometría NIR genera una señal espectral que habitualmente es compleja y que a menudo necesita ser tratada con métodos quimiométricos específicos. La finalidad de realizar una selección de variables, no es otra que la de simplificar esta señal espectral, con la intención de obtener calibraciones más estables y una mayor capacidad predictiva.
Dicho esto, vemos que el disponer de una gran cantidad de información no es garantía de obtener mejores resultados. Hay variables que aportan información útil y otras que sólo aportan ruido. Por ese motivo es necesario escoger cuidadosamente las variables que los diferentes algoritmos de reconocimiento de patrones van a utilizar.
De este modo resulta interesante utilizar algún criterio de selección de variables que permita reducir la dimensionalidad de los datos sin eliminar información útil y minimizando, a la vez, las interferencias que aporten las variables con ruido.
Dentro de los diferentes métodos existentes podemos destacar las dos filosofías que se han considerado en este proyecto:
• El criterio de la varianza
3.5.1 Criterio de la Varianza.
La varianza empírica de una muestra se puede definir como la media de los cuadrados de los datos de la muestra centrados. Es decir, la varianza proporciona un valor de dispersión (inercia) de la variable alrededor de su media (centro de gravedad). Se calcula según hemos dicho, como la media de las desviaciones de las observaciones a la media. Se elevan al cuadrado las desviaciones alrededor de la media para que no se compensen las diferencias negativas y positivas, ya que de no hacerlo, se demuestra que la media de las desviaciones de las observaciones a la media es de cero.
Las nociones de varianza y desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media.
Definimos la media empírica de una muestra como la suma la suma de sus elementos dividida por el número de ellos, es decir sea la muestra (x1,...,xn) su media empírica es:
n x x x x n x n i i n
∑
= = ⇒ + + = 1 1 ... ) ( 1 (22)Por tanto la media es el centro de gravedad de los datos, dando el mismo peso a todos los elementos.
Volviendo a la definición anterior de varianza de una muestra se puede expresar como la cantidad denotada por s2, definida por:
2 1 2 ) ( 1 1 x x n s n i i − − =
∑
= (23)Para muestras con muchos datos hay que prestar atención a la imprecisión de las sumas acumuladas. Es más fácil y más estable numéricamente calcular en primer lugar, la media de los valores de la muestra y, posteriormente la varianza de ésta.
Por tanto si consideramos una serie de datos de tamaño n cuyos valores se dividen en k muestras de tamaño n1,..., nk respectivamente, con n1+....+ nk=n. Denotamos que:
• ( 1(h),..., n(h))
h
x
x los datos de la h-ésima clase. • (h)
x la media empírica de la h-ésima clase. • (h)
v la varianza empírica de la h-ésima clase. • x la media de los valores de la muestra total.
• ( ) 1 int h k h h ra v n n v
∑
== la media de las varianzas (varianza intraclase).
• ( ) 2 1 int (x x) n n v k h h h
er =
∑
= − la varianza de las medias (varianza interclase). • S2la varianza de la muestra total.
En el caso que vamos a desarrollar en este proyecto, los datos recogidos son muestras de datos espectroscópicos en el infrarrojo cercano, cuyos espectros corresponden a varias concentraciones de un compuesto a analizar. Dividimos estas concentraciones en 3 clases distintas, concentración baja, concentración media y concentración alta. Cada una de estas clases contiene un número j de variables.
Lo que queremos saber es si la variabilidad observada en los datos se debe exclusivamente al azar, o si existen efectivamente diferencias significativas entre cada una de las clases.
Vamos a desarrollar lo explicado anteriormente de manera matemática para poder entenderlo mejor: er ra n i h h k h h h h n i h i h k h h h n i h i h k h h h n i h h i h k h h k h n i h i V V x x n n n x x x x n n n x x n n n x x x x n n n x x n s h h h h h int int 2 1 ) ( 1 ) ( ) ( 1 ) ( 1 2 ) ( 1 ) ( 1 2 ) ( 1 ) ( ) ( 1 2 1 1 ) ( 2 0 ) ( 1 ) )( ( 1 2 ) ( 1 ) ( 1 ) ( 1 + + = − + + − − + − = = − + − = − =
∑
∑
∑
∑
∑
∑
∑
∑
∑∑
= = = = = = = = = = (24)Entonces definimos el factor FM, como factor de mérito para cada una de las variables y que se corresponde con la siguiente expresión:
raclase V erclase V FMj int . int . = (25)
De la expresión anterior obtendremos tantos factores de mérito como variables (j) se les haya calculado la varianza intraclase.
Como conclusión se obtiene que, a mayor factor de mérito, mejor discriminación de clases nos ofrece esa variable.