• No se han encontrado resultados

Cuantizaci´ on

4. Metodolog´ıas 23

4.4. Miner´ıa de reglas de asociaci´ on en datos de tipo mixto

4.4.1. Cuantizaci´ on

La necesidad de cuantizaci´on es usual a la hora de llevar a cabo ejercicios de pre- dicci´on e inferencia con base en estad´ıstica, aprendizaje de m´aquina y miner´ıa de datos puesto que es com´un que se usen m´etodos que no manejan variables num´ericas; m´as recurrente a´un es la necesidad de cuantizar las se˜nales an´alogas de la realidad para

poder capturarlas en fotograf´ıas, sonidos y videos digitales.

Por si fuera poco, la cuantizaci´on no s´olo permite el almacenamiento de se˜nales an´alogas si no, desde mediados del siglo pasado, la transmisi´on de las mismas a trav´es de tecnolog´ıa.

La cuantizaci´on de las magnitudes de una se˜nal de voz es una innovaci´on bastante reciente. Aqu´ı no permitimos una selecci´on de un rango continuo de valores si no s´olo de un n´umero reducido y discreto de ellos. Esto quiere decir que la se˜nal de voz ori- ginal es reemplazada por una onda construida con valores cuantizados, elegidos con base en un cierto criterio de minimizaci´on de error. Claramente, si elegimos valores lo suficientemente cercanos, la onda cuantizada ser´a indistinguible al o´ıdo de la original (Bennett, 1948, p. 446-447) .

De aqu´ı que la cuantizaci´on ha recibido much´ısima atenci´on desde diversas pers- pectivas (Dongju and Jian, 2009; Chmielewski and Grzymala-Busse, 1996; Fayyad and Irani, 1993). La cuantizaci´on se divide en dos grandes grupos:

La cuantizaci´on escalar La cuantizaci´on vectorial

Pensemos en una imagen digital para simplificar nuestra explicaci´on. Las im´agenes que se distribuyen en internet a menudo tienen 3 canales (rojo, verde y azul), cada uno constituido por n´umeros de 8-bits sin signo. Esto es, cada canal se encuentra en el rango [0,255], ver figura 4.6.

La cuantizaci´on escalar se basa en la determinaci´on de puntos de corte sobre el rango de una variable para obtener sobre ese rango un conjunto de intervalos que man- tengan buena coherencia de clase.

La cuantizaci´on m´as simple posible se denomina uniforme, consiste en escoger un par´ametro de especiamiento s de manera que se pueda computar una secuencia de valores que sirvan de puntos de corte, 0, s,2s, ..., ks,255 tal que (k + 1)s > 255 y ks ≤ 255 (Salomon, 2004, p. 39-40). Por ejemplo para s = 4 se tendr´ıa la secuencia 0,4,8,12, ...,252,255.

´ITULO4.METODOLOG´IAS40

Figura 4.6:Frecuencias en los tres canales de fotograf´ıa de Dipodomys ordii,© Horacio V. Barcenas.

Sea X una conjunto de datos con valores en [0,255], el efecto de cuantizar X se observa hasta hacer un mapeo del tipo:

Xcuant=









4, si 0≤X ≤4 8, si 5≤X ≤8 ...

255, si 252≤X ≤255









La fotograf´ıa de Dipodomys ordii presentada en la figura 6.2 tiene 3 canales de color, por tanto una cuantizaci´on escalar uniforme s´olo se puede llevar a cabo sobre cada uno de los canales por separado. Se llev´o a cabo este proceso sobre el canal rojo para ob- tener en vez de 256 valores posibles, 8 y 32, estos resultados se muestran en la figura 4.7.

Figura 4.7:Ejemplo de cuantizaci´on escalar uniforme

Existen numerosos m´etodos de cuantizaci´on escalar que sirvan para distintos prop´osi- tos. Por ejemplo se puede querer minimizar la p´erdida de informaci´on donde haya mayor frecuencia de datos. Esto se puede lograr (incluso sin aumentar la cantidad total de in- tervalos) utilizando intervalos m´as peque˜nos en las zonas de alta probabilidad. Eviden- temente esto generar´ıa una cuantizaci´on no uniforme. Distintas maneras de cuantizar acent´uan distintas caracter´ısticas de los datos y dependiendo de cu´al sea la intenci´on del proceso de discretizaci´on, unas ser´an m´as apropiadas que otras. Por poner otro ejemplo de cuantizaci´on escalar com´un se puede querer tener una cuantizaci´on uniforme en la cantidad de datos por intervalo, no en el rango de los mismos; por lo que se pueden utilizar percentiles (e.g.P10, P20, ..., P90) para encontrar los puntos de corte.

La cuantizaci´on vectorial es una generalizaci´on de la cuantizaci´on escalar. Tam- bi´en se puede usar para cuantizar variables y se˜nales de m´ultiples tipos como im´agenes y sonido. Este tipo de cuantizaci´on trabaja sobre bloques de datos, por ejemplo de

manera simult´anea sobre los 3 canales de color de una imagen digital, ver figura 4.8.

En la cuantizaci´on escalar, se genera una secuencia de valores que permite hacer un mapeo de un rango grande de valores a uno mucho m´as peque˜no manteniendo la mayor cantidad de informaci´on posible de los datos originales. Luego cada uno de estos valores modelo “representan” a un conjunto de los valores originales. Cuando se tienen bloques de datos se tienen que generar vectores de valores que sirvan como buenos represen- tantes de los datos originales, este conjunto de vectores modelo se denomina codebook (Salomon, 2004, p. 274). Por ejemplo, en una imagen con 3 canales, una cuantizaci´on requiere de un codebook que sirva para mapear cada pixel con 3 colores a un vector modelo de longitud 3.

Figura 4.8: Un pixel con 3 canales de color asociados, representado por un vector de 3 colores.

Hay diversas t´ecnicas para generar codebooks para cuantizaci´on vectorial. Uno ilus- trativo es el ya mencionado popular m´etodo de clusteringK-medias. Este es un m´etodo en el que se escoge a priori la cantidad de clases o clusters que se desean encontrar en los datos (pueden ser multivariados como una imagen de 3 canales). Se inicializa con base en una cantidad K de centros y luego K-medias iterativamente actualiza tales centros hasta minimizar la varianza al interior de las clases. El algoritmo logra esto alternando dos pasos (Hastie et al., 2009, p. 409):

Para cada centro se identifican las observaciones m´as cercanas a ´el.

El centro de cada cluster se actualiza reemplaz´andolo por la media de las obser- vaciones que quedaron dentro de ´ese cluster.

Esto sucede hasta que el cambio en los centros de una iteraci´on a la siguiente sea menor a una cierta tolerancia. En este contexto K representa la cantidad de vectores modelo que se tendr´an en el codebook y los centros de los clusters encontrados ser´an los vectores modelo. Un ejemplo sobre la imagen de la rata Dipodomys ordii de este proceso se presenta en la figura 4.9.

Figura 4.9: Ejemplo de cuantizaci´on conK-medias, K= 32.

4.5. Miner´ıa de reglas de asociaci´ on para aprendi-