Comparación de estrategias TEM-CLD en el manejo de outliers

Capítulo 5. Comparación de estrategias basadas en Clustering para análisis de procesos

5.5 Análisis comparativo de estrategias de clustering

5.5.3 Comparación de estrategias TEM-CLD en el manejo de outliers

En las estrategias que se discuten en la sección 5.4 y para la etapa de análisis se asume que los datos históricos utilizados solo contienen información de operaciones normales o bien no están contaminados por valores atípicos (outliers). En la comparación de la sección anterior se trabajó bajo esta suposición. En esta sección se vuelven a analizar los mismos casos de

estudio pero ahora con datos que contienen algunos outliers. Para esta comparación solo se utilizan las estrategias que en la sección precedente arrojaron resultados satisfactorios, esto es, las que utilizan FCM con GK, CFCM con GK y FPCM con GK.

5.5.3.1 La identificación de los outliers

En los trabajos de Yoo et al., se hace una breve discusión teórica sobre la ventaja de utilizar el

CFCM en caso de presencia de outliers en los datos (Choi et al., 2003; Yoo et al., 2003). No obstante, ni describe como hacer el tratamiento de éstos ni mucho menos presenta casos afectados por este tipo de anormalidades. Para la comparación que se muestra en esta sección se propone el siguiente procedimiento de identificación de outliers (etiquetado como OutM1):

1. Se toma la matriz de datos de proceso Y. Se calcula el correspondiente modelo ACP. 2. Se aplica el clustering sobre los scores del modelo ACP que se obtuvo en el paso

anterior. Se utiliza como técnica clustering o el FCM con GK, el CFCM con GK o el

FPCM con GK.

3. Se toman los diferentes valores de μi, y se calcula la siguiente medición (Choi et al.,

2003):

,1 ,2 ,

i i i i c

up =_{μ μ}⋅ ⋅ ⋅… _μ (5.47)

donde up es el producto de las pertenencias asignadas a la muestra i.

4. Se calcula un límite para up (limup) de manera similar a como se calculan los límites

para los SPE y T2 (ver sección 4.3.1.1), esto es, se calcula un límite al 99 % de confianza donde dicho límite se basa en la distribución empírica de los up.

5. Se evalúan los valores de up respecto de limup. Las correspondientes observaciones a

las que up supera a limup se consideran outliers y se eliminan de los datos.

En el procedimiento anterior el uso de μi,k, obedece a que con ésta se reduce el análisis de c

vectores (μi,k) a solo uno (up) conteniendo la misma información. Asimismo, ya se ha visto en

trabajos precedentes de la literatura (Choi et al., 2003) que el análisis del up puede arrojar información valiosa sobre desviaciones del proceso (outliers, transiciones por cambios de operación, etc.).

En el presente trabajo se ha comprobado que dicha medición (up), dentro del procedimiento anterior, puede llegar a ser útil para la detección de outliers. No obstante, también se vio que la medición anterior estimada según la ecuación 5.47 solo es útil para los casos de las técnicas

FCM-GK y FPCM-GK. Para el caso del método CFCM-GK se estableció mediante experimentación que era más útil la siguiente medición:

1 ( 0.01)

i i

up = _ψ + (5.48)

En este caso, el up es función inversa de los valores de la credibilidad ψi de cada muestra i. En

los valores de ψi los outliers se reflejan como puntos tendientes a 0. Si se hace el inverso, la

medición resultante para el caso de los outliers se podría ver como un pico hacia arriba muy pronunciado. Al sumarle a la ψi una constante tan pequeña como 0.01 se busca que cuando se

tenga un outlier, el valor de up sea mucho mayor al resto de los datos no outliers.

Asimismo, se llegó a ver que utilizando el vector de distancias dik, que se calcula una vez se

tiene definido el modelo de cluster mediante cualquiera de las técnicas CLD que se consideran en esta sección, se pueden generar mediciones similares a las anteriores up que pueden llegar a conducir a tanta o más eficiencia en identificación de outliers mediante la estrategia descrita al inicio de esta sección. Así, se proponen las siguientes variantes de up: - Para el caso de los métodos FCM-GK y FPCM-GK:

,1 ,2 ,

i i i i c

up =d ⋅d ⋅ ⋅… d (5.49)

- Para el caso de los métodos CFCM-GK:

, 1 1 ( c 0.01) i i k k up d = =

∑

+ (5.50)

Con esto se tienen los 6 procedimientos de identificación de outliers que se listan en la tabla 5.8.

Tabla 5.8. Métodos de identificación de outliers. Método Estrategia TEM-CLD Ecuación para up

OutM1 ACP – FCM-GK up_i =_{μ μ}_i_,1⋅ _i_,2⋅ ⋅… _μ_{i c}_, OutM2 ACP – CFCM-GK ₍ _0.01) 1 i i up ₌ _ψ ₊ − OutM3 ACP – FPCM-GK up_i =_{μ μ}_i_,1⋅ _i_,2⋅ ⋅… _μ_{i c}_, OutM4 ACP – FCM-GK up_i =d_i_,1⋅d_i_,2⋅ ⋅… d_{i c}_, OutM5 ACP – CFCM-GK ₁ , 1 ( c 0.01) i i k k up d − = =

∑

+ OutM6 ACP – FPCM-GK up_i =d_i_,1⋅d_i_,2⋅ ⋅… d_{i c}_,

5.5.3.2 Medidas de evaluación de la comparación

Para poder hacer una comparación se propone primeramente tomar un método de referencia. Para tal fin se selecciona al método basado en ACP que se describe en el anexo D y se etiqueta como OutMr. Adicionalmente, se propone utilizar las siguientes mediciones:

Eficiencia de Detección de Outliers (EDO):

(%) Nodr *100% EDO Not ⎛ ⎞ =_⎜ _⎟ ⎝ ⎠ (5.51)

Porcentaje de Datos Normales Eliminados (DNE): (%) Nod Nodr *100% DNE m − ⎛ ⎞ =⎜ ⎟ ⎝ ⎠ (5.52)

En las anteriores expresiones Nodr representa el número de outliers identificados mediante un método aplicado y Not representa al número real (total) de outliers en el caso considerado (ver tabla 5.9). Si el método detecta todos los outliers la eficiencia EDO será máxima (100%). Para el caso del DNE, Nod representa el número de observaciones detectadas como atípicas

mediante un método aplicado. Dicho número puede ser mayor a Nodr debido a identificaciones erróneas, esto es, una técnica dada podría identificar valores normales como atípicos. Así, cuando Nod>Nodr, el método aplicado ha detectado observaciones normales como atípicas llegando así a eliminarse datos que no se deberían eliminar. Luego, el DNE se mide en relación al porcentaje real de outliersPot en los datos:

• Si DNE > Pot, la técnica en uso erróneamente esta identificando datos correspondientes a operaciones normales como outliers.

• Si DNE = Pot, entonces la técnica en uso solo detectan outliers y por tanto no habrá peligro de eliminar datos correspondientes a operaciones normales.

5.5.3.3 Los casos de estudio

Como se indicó al inicio de esta sección, los casos que se utilizan son los mismos de la sección 5.5.1. No obstante, en este caso se añaden un número variable de outliers a cada caso para poder establecer la comparación en presencia de valores atípicos (ver tabla 5.9).

Tabla 5.9. Valores atípicos (outliers) añadidos a cada caso Caso Pot Nº total de Observaciones Pot

E1 3 176 1.7

E2 1 31 3.3

E3 4 614 0.7

E4 2 1123 0.2

5.5.3.4 Comparación de estrategias

Aquí se comparan las estrategias descritas en la sección 5.5.3.1, más la OutMr que se describe en el anexo D. Para cada caso se aplican las estrategias anteriores y como resultado se obtiene la tabla 5.10.

Tabla 5.10. Métodos de identificación de outliers.

E1 E2 E3 E4

Método EDO

(%) DNE (%) EDO (%) DNE (%) EDO (%) DNE (%) EDO (%) DNE (%)

OutMr 100 1.1 100 6.5 50 1.5 100 1.7 OutM1 33 1.1 0 0 25 2.3 100 1.6 OutM2 66 0.6 100 0 25 0.8 50 0.1 OutM3 66 1.1 100 0 50 2 100 1.7 OutM4 100 0.6 0 3.3 100 0 100 0.1 OutM5 0 1.7 0 6.5 0 0.8 0 1.5 OutM6 100 0.6 0 3.3 100 0 100 0.1

Se puede ver que ninguno de los métodos logra identificar todos los outliers presentes en cada conjunto de datos, esto es, ningún método OutMi alcanza valores de EDO iguales al 100 % para todos los casos de estudio. En este sentido el OutMr es el que obtiene mejores resultados ya que en 3 casos (E1, E2 y E4) logra identificar todos los outliers presentes con valores de

EDO = 100%, y en el caso de E3 identifica la mitad de los outliers presentes. No obstante, de la tabla se observa que por los valores de DNE asociados, el OutMr elimina en todos los casos datos normales tras haberlos identificado incorrectamente como outliers. Incluso, en 2 casos (E2 y E4) es el que elimina más datos erróneos por lo que debe cuidarse este aspecto a la hora de usar esta técnica. Luego, si el sistema resultante se utiliza para monitorizar, la considerable eliminación de datos normales podría provocar valores más bajos para los límites de control del SPE y el T2 en los casos en los que estos se quieran utilizar junto con las pertenencias. Esto indudablemente conducirá a generar más falsas alarmas de las que se producirían si se hubiesen descargado menos datos normales.

Otro de los resultados que más saltan a la vista, tras un primer vistazo a la tabla 5.10, es el hecho de que el método OutM5 produce valores de EDO = 0 en todos los casos, mientras los

DNE son siempre mayores a 0. Esto indica que dicho método no es capaz de identificar ningún outlier y, por el contrario, llega a clasificar valores normales como atípicos. En consecuencia el up utilizado, basado en un inverso de la suma de las distancias que se obtienen de la técnica clustering en uso, es un criterio totalmente inaceptable para intentar identificar outliers.

El método OutM3 alcanza valores altos de EDO en todos los casos con 100 % para los casos de E2 y E4. No obstante, al igual que el OutMr obtiene valores muy significativos de DNE en todos los casos lo que se traduce en la eliminación de muchos valores normales de cada conjunto de datos.

De los métodos restantes, lo más destacables es que el OutM4 y el OutM6 obtienen valores de

EDO = 100 % en 3 de los 4 casos (E1, E3 y E4), siendo los únicos que logran identificar todos los outliers en el caso con más atípicos (E4). Además, comparativamente son los que brindan valores más bajos de DNE. No obstante, en el caso con menos muestras disponibles y menos outliers (E2) no logran identificar el outlier presente. Esto indica que pese a la buena relación EDO – DNE que brindan para la mayoría de los casos, se debe tener cautela si se llega a adoptar alguno de estos métodos (el OutM4 o el OutM6) para el análisis de un conjunto de datos.

Por último, se observa que el OutMr podría complementarse con el OutM4 o el OutM6 de cara a asegurar detección en cada caso y con DNE no significativamente altos lo cual sería una opción valida de tratamiento de outliers cuando ellos estén presentes. Algo similar se podría deducir para OutMr junto con OutM3 o OutM5. Sin embargo, OutM3 o OutM5 no son buenos en la detección del caso E3, que es el mismo donde falla OutMr de modo que la combinación probablemente no supere esta carencia. Así, se hace la prueba de detectar combinando OutMr con Outm4 (etiquetada como OutMC1) y OutMr con OutM6 (etiquetada como OutMC2). Los resultados se muestran en la tabla 5.11.

Tabla 5.11. Métodos de identificación de outliers.

Caso E1 Caso E2 Caso E3 Caso E4

Método EDO

(%) DNE (%) EDO (%) DNE (%) EDO (%) DNE (%) EDO (%) DNE (%)

OutMC1 100 1.1 100 6.5 100 1.3 100 1.4

OutMC2 100 1.1 100 6.5 100 1.3 100 1.4

Se muestra que dichas combinaciones logran acertar en la detección de outliers de todos los casos junto valores de DNE aceptables en todos los casos, por lo cual se propone que para aplicar estrategias de análisis de datos basadas en TEM-CLD, lo mejor sería usar cualquiera de las 2 combinaciones ACP-FCMGK o ACP-FPCM-GK y utilizar para el manejo de outliers

o bien la estrategia OutMC1 o bien OutMC2. La técnica CFCM-GK no se recomienda ya que con los up asociados (ver resultados de OuMr2 y OutMr5 en la tabla 5.10) no se obtienen buenos resultados de detección de outliers.

In document Estrategias de análisis y exploración de datos como soporte a la operación y supervisión deprocesos químicos (página 131-135)