DISENO E IMPLEMENTACION DE UN SISTEMA DE DETECCION AUTOMATICA DE TEXTOS EN MEDIOS DE COMUNICACION IMPRESOS

115  Descargar (0)

Texto completo

(1)

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA

UNIDAD PROFESIONAL “ADOLFO LOPÉZ MATEOS”

“DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE

DETECCIÓN AUTOMÁTICA DE TEXTOS EN MEDIOS DE

COMUNICACIÓN IMPRESOS”

TESIS

QUE PARA OBTENER EL TÍTULO DE

INGENIERO EN COMUNICACIONES Y ELÉCTRONICA

PRESENTA:

JULIO CÉSAR GUERRERO LOZADA

ASESORES DE TESIS:

Dr. Raúl Ruiz Meza

Dr. Marco A. Moreno Armendáriz

(2)
(3)

Agradecimientos

A mi padre por ser un incansable ejemplo de lo que debo y no debo hacer.

A mi madre por darme todo su amor y enseñarme que la vida es un devenir

semejante a una inagotable espiral ascendente.

A mis asesores Dr. Raúl Ruiz Meza y Dr. Marco A. Moreno

Armendáriz por su persistente guía.

A Monitoreo y Análisis de Medios por su invaluable generosidad y apoyo.

(4)

Introducción...   

1. Planteamiento del sistema de detección...     

Introducción... 

       

Antecedentes...   

Sistema propuesto... 

  6 

1.3.1   Preparación y carga de la información...  6 

1.3.2   Procesamiento automático de la información...  6 

1.3.3   Evaluación de los resultados entregados por el sistema...  8 

1.3.4   Selección y síntesis de la información entregada por el sistema...  9 

1.3.5   Almacenamiento y presentación de los resultados...    10  Alcance...    10  2.  Marco teórico...      13  2.1 Introducción...      13  2.2 Estadística utilizada...    15  2.2.1   Desviación estándar...  15 

2.2.2   Curtosis...    15  2.3 Procesamiento digital de imágenes...    16  2.3.1   Procesamiento y manipulación del color...    16  2.3.1.1   Importancia del color...  16 

2.3.1.2   El ojo humano y el color...  16 

2.3.1.3   El modelo de color RGB...  17 

2.3.1.4   Escala de grises...  18 

2.3.1.5   Transformación a escala de grises...    18  2.3.2   Imagen binaria...    18  2.3.2.1   Histograma...  18 

2.3.2.2   Umbralización...  19 

2.3.2.3   Una descripción general sobre  algunos métodos de umbraliza‐ ción...    20  2.3.2.3   Método de Otsu...  21 

(5)

2.4   Agrupación por longitud de series...   

26 

2.5   Rectángulos límite... 

  28 

2.6   Un panorama general sobre los conceptos y herramientas utilizadas en el desarrollo 

del sistema...   

 

29 

2.6.1 Elección de la plataforma de desarrollo...   

29 

2.6.2 Referencias técnicas...   

30 

3.  Solución propuesta e implementación...   

33 

3.1   Introducción...   

33 

3.2   Desarrollo... 

  35 

3.2.1   Normalización de la imagen...   

35 

3.2.2   Transformación del color...   

35 

3.2.2.1   Escala de grises...  36 

3.2.2.2   Histograma...  37 

3.2.2.3   Método Otsu...    39  3.2.3   Erosión...  41 

3.2.4   Agrupación por longitud de series...  42 

3.2.5   Rectángulos límite...  44 

3.2.6   Tipificación de zonas...    49  4. Resultados experimentales...    57  4.1   Introducción...    57  4.2   Planteamiento...    58  4.3   Pruebas...    60  4.3.1   Muestra 1: Proceso...  60 

4.3.2   Muestra 2: El Universal...  70 

4.3.3   Muestra 3: Reforma...  75 

4.3.4   Muestra 4 La Jornada...  78 

4.3.5   Muestra 5: Páginas genéricas...   

81 

4.4   Resultados finales... 

  86 

Conclusiones y líneas futuras...   

88 

Apéndice.  Código desarrollado para la implementación clases...   

(6)

 

Anexo 2.  Cotización de la compañía NewBase sobre una aplicación especializada en el monitoreo 

de medios impresos... 

 

 

103 

Referencias...   

105 

Bibliografía...   

106 

Índice de figuras... 

 

109 

Índice de funciones y segmentos de código... 

 

113 

        

(7)

   

Actualmente  el  campo  del  procesamiento  digital  de  imágenes  se  ha  desarrollado  ampliamente,  desde  la  visión  artificial  utilizada  en  máquinas  o  robots,  hasta  las  últimas  aplicaciones médicas, el campo de acción de esta materia cada día se incrementa más abarcando  nuevos terrenos y dando soluciones a problemas que hasta hace poco tiempo parecían muy  difíciles de lograr.  

 

Procesos tan complejos como antes era la segmentación de páginas en la actualidad son  más accesibles. Esto permite que no sea necesario contar con grandes equipos de trabajo para  crear e implementar sistemas con características de este tipo. El análisis y monitoreo de medios de  comunicación impresos es uno de los campos en el que los sistemas utilizados hacen uso de  procesos  como  el mencionado anteriormente.  Aunque  actualmente  existen en  el mercado  sistemas especializados para ese campo estos sistemas tienen la desventaja de ser escasos y  sumamente costosos además de que su implementación y mantenimiento implica riesgos y costos  extra por ser sistemas desarrollados en el extranjero. Estos problemas crean la necesidad de  producir un sistema económico capaz de implementar la funcionalidad requerida para apoyar el  proceso productivo de una empresa de ese campo. 

 

 Debido a esta necesidad es que esta tesis vuelve la mirada hacia el campo de análisis y  monitoreo de medios impresos descubriendo en éste amplias oportunidades de desarrollo de  aplicaciones que requieren de funcionalidades como la antes mencionada. El tener conocimiento  de estos inconvenientes y descubrir la posibilidad de crear un sistema de menor costo que diera  solución a esas complicaciones es la razón que motiva el desarrollo de la presente tesis. 

 

Sin embargo la creación de un sistema capaz de apoyar en el proceso productivo de una  empresa dedicada al monitoreo de medios impresos es una tarea muy grande que incluye  procesos que aun hoy no son lo suficientemente accesibles por su alto grado de complejidad. Uno  de estos procesos es el reconocimiento óptico de caracteres (OCR por sus siglas en ingles).  

  

Con la finalidad de dar los primeros pasos hacia un sistema de tales dimensiones y teniendo  en cuenta las complicaciones antes mencionadas fue que se decidió proponer para esta tesis como  objetivo principal el desarrollar e implementar un sistema capaz de detectar de forma automática  bloques de texto en imágenes digitales de medios de comunicación impresos. Para poder llevar a  cabo esa tarea esta tesis se encuentra dividida en 4 capítulos donde se detalla ampliamente las  características del proyecto y su contexto. A continuación se da una breve explicación del  contenido de cada uno de ellos. 

 

En el capítulo 1 se describe los orígenes y el marco sobre el cual el proyecto ha sido  concebido y los motivos que generaron el interés en desarrollarlo, además se hace una propuesta  general sobre la forma en que un sistema especializado en el monitoreo de medios impresos  puede operar y el lugar que ocupa la presente tesis dentro del sistema.  

(8)

para el desarrollo del presente trabajo. Procesos y métodos del campo del procesamiento digital  de  imágenes  tales  como:  transformación  a  escala  de  grises,  binarización,  operaciones  morfológicas, agrupación por longitud de series, rectángulos límite; la utilización de algunas  medidas de dispersión tomadas del campo de la matemática estadística como: la desviación  estándar y la curtosis; fueron algunos de los usados para cumplir el objetivo fundamental del  presente proyecto.  

 

El capítulo 3 describe el proceso general del sistema, las fases que lo componen y la forma  en la que fueron implementados y utilizados cada uno de los algoritmos y procesos descritos en el  capítulo dos. 

 

El capítulo 4 explica detalladamente el método usado para realizar la evaluación del  sistema, el número de muestras y la cantidad de pruebas realizadas en cada una de ellas. Se  comentan algunos de los errores y aciertos más frecuentes producidos por el sistema y finalmente  se presenta un conglomerado de los resultados obtenidos.  

 

Finalmente esta tesis concluye con la sección de conclusiones y líneas futuras en la cual se  comentan los resultados obtenidos en el capitulo cuatro y se hace una recopilación de los  principales problemas presentados en el desarrollo de esta tesis. Respecto al tema de líneas  futuras se realizan propuestas para solucionar los problemas mencionados en la sección de  conclusiones y se hace mención de los trabajos futuros que surgirán a partir de esta tesis. 

(9)

   

Planteamiento del sistema de detección

 

   

1

1.1

Introducción

 

 

El objetivo de este capítulo es proporcionar al lector un panorama general sobre el marco  en el cual se desarrolla la presente tesis. Se mencionan algunas de las características del sector  hacia el cual va dirigida la tesis. Los principales problemas a los que se enfrenta dicho sector, las  razones que motivaron el desarrollo de la tesis, la propuesta que se hace para resolver estos  problemas y finalmente los alcances y objetivos de dicha propuesta.  

 

1.2

Antecedentes

 

 

Actualmente son muchas las organizaciones sociales (empresas, instituciones públicas o  privadas) que se enfrentan a la creciente necesidad de distinguir o seleccionar, de una avalancha  de mensajes en flujo continuo, aquella información que resulte significativa para ser procesada en  su interior y definir estrategias publicitarias o de mercado. 

 

(10)

conocer el pulso de la opinión pública a través de las informaciones emitidas por los medios de  comunicación social. 

 

Anteriormente, con pocos medios realmente masivos, particularmente impresos, bastaba  la lectura de una o dos ediciones para tener una imagen del estado de la opinión pública, pero hoy  esto ya no es posible.  

 

Sólo en la ciudad de México, existen más de 30 publicaciones impresas que pueden influir  en la opinión pública (dentro de un universo de cientos). Es aquí donde los servicios especializados  de monitoreo y análisis de medios de comunicación pueden ayudar a la función social de las  organizaciones, o al desempeño de los profesionales de la información. 

 

Como se puede suponer incluso para una empresa especializada, el monitoreo de más de  30 publicaciones puede llegar a ser una tarea de grandes proporciones, difícil de llevar a acabo y  que consuma una gran cantidad de recursos humanos y técnicos. Por esta razón se vuelve muy  importante el desarrollo de herramientas especializadas que puedan apoyar esta tarea.  

 

Aunque en la actualidad existen sistemas especializados en el monitoreo de medios es muy  importante señalar que existen problemas constantes en ellos por sus características. Algunos de  sus principales inconvenientes son los siguientes: 

 

ƒ La cantidad de proveedores de ese tipo de servicios es muy bajo.  ƒ Su costo es excesivamente elevado. 

ƒ Debido a que los sistemas son desarrollados en el extranjero sus  costos de  implantación y mantenimiento son muy elevados. 

ƒ La posibilidad de una falla en el sistema que implique el paro de la producción  puede ser de repercusiones fatales para la empresa debido al que el tiempo de  latencia en una solicitud de servicio y la atención de la misma puede llegar a ser  muy elevada. 

 

Respecto a los puntos mencionados anteriormente es importante señalar algunos datos de  interés: 

 

ƒ Actualmente existe en México solo un proveedor1 de este tipo de sistemas que  ofrece sus servicios a través de un distribuidor llamada grupo Zago2.  

ƒ En el caso de que una empresa este interesada en la adquisición del sistema el  proveedor  requiere  la  entrega  de  un  análisis  detallado  sobre  la  operación  productiva de la empresa, la carga y el volumen de trabajo, la cartera de clientes  que la empresa maneja y el estado financiero de la misma. Todo esto con la  intención  de  conocer  si  la  capacidad  productiva  de  la  empresa y  su  poder  adquisitivo es suficiente para poder llevar a buen termino un financiamiento para el  sistema  en  cuestión.  En el  anexo 1 se  presenta  una copia del  cuestionario  preliminar que el proveedor solicita. 

ƒ Respecto al costo de la aplicación en el anexo 2 se presenta una cotización sobre un  paquete  que actualmente  ofrece  la  compañía  NewBase.  En este  paquete  la        

1 NEWBASE Intelligent media Solutions (www.newbase.de) 

(11)

empresa proporciona las herramientas necesarias para llevar a cabo un ligero  proceso de análisis de medios periodísticos. Entre las aplicaciones que el paquete  ofrece las más importantes son: 

 

Scanner‐Driver.‐ Software, manejador del escáner, de suma importancia  ya  que  es  el  encargado  de  capturar  las  imágenes  de  los  medios  periodísticos y añadir las imágenes al sistema. 

Cut + Paste.‐ Aplicación  que  permite la selección  de la información 

importante para el cliente, para una descripción más detallada de cómo  funciona esta aplicación diríjase ala sección 1.3.4 del presente capítulo. 

OCR.‐  Aplicación encargada  de ejecutar  el  reconocimiento óptico de  caracteres a las imágenes capturadas, proceso necesario para la ejecución  de un sistema ICR. 

Press  review  modul.‐  Aplicación  encargada  de  la  evaluación  de  los  resultados entregados por el modulo de OCR. Este modulo es detallado  más ampliamente en la sección 1.3.3 de este capítulo. 

Print‐Administrator.‐ Modulo capaz de realizar impresión masiva de los  documentos generados. La impresión puede ser en forma física o digital y  con los una amplia gama de formatos a elegir (pdf, png, jpg). 

 

Antes de iniciar el análisis del paquete propuesto por el proveedor es necesario  hacer énfasis en algunas condiciones que este maneja: 

 

1. El paquete solo incluye una licencia de cada una de las aplicaciones.  

2. El paquete esta sujeto a las siguientes restricciones de producción:  a. Solo puede ser usado por un periodo máximo de 3 hrs por día.   b. Solo puede escanear un máximo de 15 periódicos de 30 páginas 

cada uno. 

c. Solo puede producir un máximo de 100 artículos por día.   

Para poder tener una idea de lo que esas restricciones significan es de utilidad conocer los  siguientes datos de una empresa de mediano tamaño dedicada al  monitoreo de medios impresos: 

 

i. Se analiza un promedio de 37 periódicos al día.  ii. Los 37 periódicos equivalen a 863 páginas. 

iii. Semanalmente se evalúan un promedio de 56 revistas que equivalen a más de  5000 páginas.  

iv. Se generan un promedio de 1010 notas por día. 

v. La mayor carga de trabajo se produce en un horario de la 1 Hrs., hasta las 8 Hrs.,  (7 Hrs., de trabajo continuo)  llegándose a producir hasta un 80 % de los artículos.  vi. Durante el transcurso del día se continúan realizando evaluaciones de revistas y 

periódicos foráneos (provincia) hasta las 18 hrs.   

Como se puede observar en los datos anteriores la producción que podría abarcar el  paquete que ofrece la compañía solo cumpliría con aproximadamente el 10% de la producción  total que la empresa requiere.  

(12)

 

1.3

Sistema

 

propuesto

 

 

Aunque el desarrollo de un sistema especializado en el monitoreo de medios impresos  supera por mucho a la presente tesis a continuación se realiza una propuesta sobre los procesos y  características principales que conformarían a un sistema de este tipo. Esto se realiza con la  finalidad de poder sentar las bases para la definición de los alcances, objetivos y líneas de  investigación futura del presente proyecto. Las secciones básicas propuestas para el sistema son  las siguientes: 

 

ƒ Preparación y carga de la información.  ƒ Procesamiento automático de la información  

ƒ Evaluación de los resultados entregados por el sistema. 

ƒ Selección y síntesis de la información entregada por el sistema.  ƒ Almacenamiento y presentación de los resultados.  

 

La figura 1.1 muestra el esquema general del sistema y el flujo de la información a través de  las  diferentes  secciones  previamente  mencionadas.  De  acuerdo  a  las  fases  propuestas,  a  continuación se dará una explicación sobre los procesos que deberá llevar a acabo cada una de  ellas. 

1.3.1

Preparación

 

y

 

carga

 

de

 

la

 

información.

 

 

En esta fase el objetivo será proporcionar al sistema la información necesaria para  iniciar el proceso. Las etapas propuestas para esta fase son las siguientes: 

 

ƒ Escaneado de los medios impresos.  ƒ Carga manual de las imágenes al sistema.  ƒ Captura de la información del medio impreso.   

En la última etapa, los datos que podrían ser capturados en el sistema son: fecha de  publicación y nombre del medio impreso. 

 

1.3.2

Procesamiento

 

automático

 

de

 

la

 

información.

 

 

Se puede afirmar que este es el núcleo del sistema debido a que los procesos más  robustos y complejos serán llevados acabo dentro de esta fase. Las principales etapas de  esta fase son las siguientes: 

(13)

Figura  1.1    Diagrama 

propuesto  de  un 

sistema especializado 

en  el  monitoreo  de 

(14)

   

ƒ Segmentación de imágenes.   

En  esta  fase  el  objetivo  es  la  identificación  de  las diferentes  zonas  que  componen a la imagen tales como: fotografías, bloques de texto y encabezados.   

ƒ Obtención de las áreas de texto.   

Después de realizar la identificación de todas las áreas presentes en la imagen,  el siguiente paso será seleccionar solo los bloques de texto de mayor tamaño,  especialmente aquellos que representan columnas de texto. La importancia de  identificar estas zonas radica en el hecho de que toda la información referente a  la noticia se encuentra condensada en dichas columnas, por esta misma razón es  posible despreciar los encabezados y suplementos agregados en las noticias.    

ƒ ICR   

Una vez que se han ubicado las columnas de texto, el siguiente paso es cortar  esas secciones de la imagen principal y procesarlas por medio de un sistema ICR  (Intelligent character recognition), el cual con ayuda de un catalogo de clientes  ubicado en una base de datos buscará palabras clave definidas por el cliente.  Cada vez que el sistema encuentre una coincidencia se creará una marca que  indique la posición física de la palabra dentro de la imagen y el cliente al que  corresponde. Un ejemplo de un cliente y sus palabras clave puede ser: 

   

    Cliente: Nestle 

Palabras  clave:  “Kraft”,  “Chocolates”,  “Cacao”,  “Maizoro”, 

“Kellogg’s”, “lácteos”, ”Liconsa”, “Bimbo”, “Jumex”, “Unilever”.   

   

   

1.3.3

Evaluación

 

de

 

los

 

resultados

 

entregados

 

por

 

el

 

sistema.

 

 

Después de que una imagen haya sido procesada, el siguiente paso será mostrar al  Evaluador (usuario del sistema, ver figura 1.1) las coincidencias encontradas en dicha  imagen de tal forma que él pueda realizar una evaluación y determinar si la nota continúa  en el flujo del sistema o es desechada. Esta fase es muy importante debido a la posibilidad  de que las palabras encontradas no tengan ninguna relación con el cliente, por ejemplo la  palabra “Bimbo” puede ser de interés para el cliente Nestlé sin embargo si la nota no esta  relacionada con la industria de los alimentos, esta pierde interés para Nestlé y será  desechada en este paso del proceso. 

(15)

             

   

Figura  1.2  Ejemplo  de  las  marcas  que 

deberá  mostrar  el  sistema  y  su 

evaluación. 

                 

Retomando el ejemplo de las palabras clave para el cliente Nestlé usado en la  sección ICR de la página anterior, podemos ver que la palabra Bimbo aparece resaltada con  un fondo amarillo en la figura 1.2, en este caso la imagen pasará a la siguiente fase debido a  que la nota habla sobre Bimbo, empresa que es competencia directa para el cliente en  cuestión y además habla sobre alimentos (galletas) el cual es uno de los principales  mercados de la compañía Nestlé. 

  

1.3.4

Selección

 

y

 

síntesis

 

de

 

la

 

información

 

entregada

 

por

 

el

 

sistema.

 

 

Una vez que las notas fueron evaluadas, el siguiente paso es separar la información  de la nota en un formato amigable al cliente. Tenemos que recordar que las imágenes  representan páginas de periódicos, esto hace que las imágenes sean muy grandes (más de  2000 píxeles de ancho y hasta 6800 pixeles de alto), además una noticia muy raramente  abarca una página completa en un periódico. Por estas razones es necesario que el sistema  proporcione las herramientas que permitan a un usuario realizar cortes de las secciones de  interés en las imágenes de los periódicos. Los recortes digitales que se realicen serán  agregados en un machote predefinido que deberá contener información relacionada al  medio del cual fueron extraídos. La figura 1.3 (a) muestra la imagen de una página de  periódico completa, los bloques negros representan a su vez el área que la noticia ocupo  originalmente en la hoja de periódico. Por otro lado la figura 1.3 (b) muestra un ejemplo de  un machote donde la nota fue colocada. Es importante señalar que el tamaño de las  imágenes no tiene ninguna relación entre si, en la práctica la imagen de machote (figura 1.3  (b)) debería ser mucho menor a la imagen del periódico (figura 1.3(a)).  

(16)

 (a)    (b) 

   

Figura 1.3 Muestra de una página completa de periódico(a) y muestra de una nota 

recortada de la hoja de periódico puesta en un machote. 

 

     

1.3.5

Almacenamiento

 

y

 

presentación

 

de

 

los

 

resultados.

  

 

Como última fase las noticias generadas deberán ser almacenadas por el sistema en  una base de datos y servidores de archivos con la finalidad de que esta información pueda  ser después publicada por diferentes medios tales como servicios de File Transfer Protocol  (FTP), páginas Web o el envió de correos electrónicos hacia los clientes indicados en el  proceso de evaluación. 

 

      

1.4

Alcance

 

 

Como se observó en el desarrollo del tema anterior, la creación de un sistema especializado  en el monitoreo de medios impresos incluye procesos tan complicados como puede llegar a ser un  ICR. Por esta razón se vuelve importante delimitar el alcance que la presente tesis abarcará.  Teniendo en cuenta esto y considerando que el objetivo de esta tesis es la detección automática  de bloques de texto se concluye que el trabajo desarrollado dará solución a las etapas enlistadas a  continuación pertenecientes a la sección 1.3.2 del presente capítulo 

(17)

 

ƒ Segmentación de imágenes.  ƒ Obtención de bloques de texto.    

 

Para concluir es importante hacer énfasis en el hecho de que la fase Segmentación de  imágenes solo se resolverá en la medida que resulte necesario para alcanzar el objetivo principal  de esta tesis. En el caso de que este proceso se implementara por completo sería necesario que el  sistema identificara todos los objetos presentes en una imagen, objetos para nuestro caso tales  como: fotografías, figuras, graficas, bloques de texto o encabezados de noticias.  

       

(18)

2

Marco

teórico

 

   

2

2.1

Introducción.

 

 

El presente capítulo proporciona la base teórica requerida para la realización del sistema de  detección automática de textos. Los temas abarcados en este capítulo se encuentran divididos en  las siguientes secciones principales:  

 

ƒ Estadística utilizada.  

ƒ Procesamiento de imágenes digitales. 

 

Del campo de la estadística se utilizaron las mediciones desviación estándar y curtosis con  la finalidad de caracterizar y poder interpretar los valores obtenidos en el proceso de rectángulos  límite.  

Los temas descritos en la sección de Procesamiento de imágenes digitales en este capítulo  se presentan en los siguientes subtemas: 

 

Procesamiento y manipulación del color. 

 

(19)

algunas  de  las  diferentes  formas  en  es  representado  por  una  computadora.  Los  temas  involucrados en esta categoría son: 

 

ƒ Importancia del color.  ƒ El ojo humano y el color.  ƒ El modelo de color RGB.  ƒ Escala de grises. 

ƒ Transformación a escala de grises.   

Imagen binaria. 

 

 En esta categoría se enumeran los conceptos y procesos utilizados para obtener una  imagen binaria a partir de una imagen a color. La imagen binaria resultante se utilizará en los  subsecuentes procesos. Los temas involucrados en esta categoría son los siguientes:  

 

ƒ Histograma.  ƒ Umbralización.  ƒ Método de Otsu.   

Operaciones morfológicas y RLS.   

 En esta categoría se definen las operaciones morfológicas utilizadas en la tesis. Estos  procesos son utilizados para preparar y poner a punto la imagen para las siguientes etapas. Los  temas tratados en esta categoría son:  

 

ƒ Erosión.  ƒ Dilatación. 

ƒ Agrupación por longitud de series.   

 

Análisis de la imagen.   

 Esta categoría se compone de un único tema que se encuentra enfocados a la obtención  de características de los bloques presentes en la imagen tales como tamaño, ubicación y número  de bloques.  

 

ƒ Rectángulos límite.   

 

Un panorama general sobre los conceptos y herramientas utilizadas en el desarrollo del  sistema. 

 

Finalmente  este tema  del  capítulo  describe  las razones por  las que el  sistema  fue  desarrollado con la tecnología .Net y proporciona algunas referencias técnicas sobre las clases  utilizadas. 

(20)

 

2.2

Estadística

 

utilizada.

 

2.2.1

Desviación

 

estándar.

 

 

La desviación estándar es el promedio de desviaciones o dispersiones de las puntuaciones  respecto a la media o promedio. Es decir, la desviación estándar permite medir el grado de  homogeneidad o heterogeneidad de los datos de la población objeto de medición. Cuanto mayor  sea la dispersión de los datos respecto a la media, mayor será la desviación estándar, lo cual  significa mayor heterogeneidad en las mediciones.  

 

La expresión para calcular la desviación estándar de una muestra de observaciones es:   

1

)

(

1

2

=

=

n

X

x

n

i i

σ

           (2.1) 

Donde:   

    σ = desviación estándar. 

xi = valor de cada una de las mediciones.  X = promedio de la muestra de mediciones.  n = tamaño de la muestra. 

   

2.2.2

Curtosis.

 

 

La curtosis es una medida estadística que determina la elevación o la uniformidad de los  datos relativos de una distribución comparados con una distribución normal. Para un caso práctico  de alta curtosis la distribución tendrá picos o elevaciones, cerca de la media, que decrecen  rápidamente. Por el lado contrario una distribución con una baja curtosis no presentará esas  características y tendrá una distribución más uniforme. La figura 2.1 muestra dos graficas que  ejemplifican el concepto. 

 

   

Figura 2.1 Graficas que ejemplifican el comportamiento de una distribución con 

alta y baja curtosis respectivamente. 

(21)

La curtosis se encuentra definida por la siguiente expresión:     

4 1

4

)

1

(

)

(

σ

=

=

n

X

x

k

n

i i

        (2.2) 

  Donde:   

    k = curtosis. 

xi = valor de cada una de las mediciones.  X = promedio de la muestra de mediciones.  n = tamaño de la muestra. 

σ = desviación estándar.   

 

2.3

Procesamiento

 

digital

 

de

 

imágenes.

 

2.3.1

Procesamiento

 

y

 

manipulación

 

del

 

color.

 

 

2.3.1.1 Importancia del color. 

 

Hasta hace algunos años en la mayoría de los medios impresos era común el uso de solo  una tinta (negro en la mayoría de los casos) en el proceso de impresión, con el avance de la  tecnología en este campo cada vez es más común encontrar periódicos, revistas y folletos que son  publicados a todo color. Dentro del mercado de monitoreo de medios impresos esto repercute  ampliamente debido a la necesidad de implementar sistemas más robustos, complejos y costosos  que sean capaces de procesar imágenes con esas características.  

 

2.3.1.2 El ojo humano y el color. 

 

Aunque hablar sobre el ojo humano es un tema que se encuentra fuera del alcance de esta  tesis es importante mencionar que el ojo es un órgano sensible a una estrecha gama de  frecuencias del espectro electromagnético. 

En el proceso que el ojo realiza para percibir la luz y el color el ojo hace uso de un tipo  especial de células denominadas conos que se encuentran ubicadas en la retina. 

Este tipo de células están divididas en tres tipos los cuales ofrecen un nivel de respuesta  diferente a una excitación producida por la luz visible en los siguientes niveles del espectro  electromagnético: rojo: 630‐700 nm, verde: 480‐530 nm y azul: 440‐480 nm. 

Otro punto importante a considerar es que el ojo humano no tiene el mismo nivel de  respuesta para cada uno de los colores. Aproximadamente de toda la cantidad de luz que percibe  el ojo, el 11.4% corresponde al azul, el 29.4% al Rojo y el 58.7% al verde. La figura 2.2 ejemplifica  este concepto. 

(22)

    

Sen

s

ibil

idad

 

Figura 2.2 Respuesta del ojo humano 

a  3  niveles  de longitud de 

onda  en  el  espectro 

electromagnético. 

   

2.3.1.3 El modelo de color RGB. 

   

El modelo RGB (del ingles Red, Green, Blue) que es utilizado ampliamente en monitores,  pantallas y televisiones se basa en la teoría de que cualquier color visible por el ser humano puede  ser producido por la mezcla en mayor o menor medida de los tres colores de luz primarios: rojo,  verde y azul.  

Para el caso de las imágenes digítales estas son representadas por puntos minúsculos  llamados píxeles que almacenan información acerca del color que representan. Cada uno de los  colores primarios será representado por medio de 1 byte de información. Si se considera que 1  byte es equivalente a 8 bits es posible determinar que el espacio muestreal de cualquiera de los  colores primarios estará definido por los valores comprendidos entre 0‐255., de tal forma que el  número total de colores que puede representar un píxel en el modelo 24bit‐RGB es 16,777,216  representado por la figura 2.3. 

 

Figura 2.3 Cubo de color del modelo    

(23)

2.3.1.4 Escala de grises. 

 

Se le denomina escala de grises al intervalo de color monocromático con el cual es  representada una imagen. Comúnmente este intervalo esta definido en un rango desde 0 que  representa el color negro hasta el nivel 255 que es considerado como el color blanco. Es  importante mencionar que cada uno de los posibles valores dentro de una escala de grises es  conocido como un nivel de gris. En las imágenes digitales en escala de grises cada uno de los  píxeles toma un nivel de gris especifico dando a la imagen dicha clasificación o característica. La  figura 2.4 muestra un ejemplo de una imagen convertida a escala de grises. 

   

   

Figura 2.4 Equivalente de una 

imagen  a  color  en 

escala de grises. 

         

2.3.1.5 Transformación a escala de grises.  

 

Para poder definir la forma en que es realizada la transformación de una imagen a color a  una imagen en escala de grises es necesario tener en cuenta que lo que un píxel representa en una  imagen en escala de grises es un nivel de intensidad de luz, recordando lo expuesto en el tema: El  ojo humano y el color. Sobre la forma que el ojo humano percibe los colores y la intensidad con la  que percibe cada uno de esos colores es posible definir que la intensidad de un píxel “n” estada  dada por la siguiente expresión: 

   

NA

NV

NR

I

n

=

.

299

+

.

587

+

.

114

      (2.3)   

Donde:  

In = Intensidad del píxel n.  NR = Nivel de rojo. 

NV = Nivel de verde.    NA = Nivel de azul.   

 

Para realizar la transformación de cualquier imagen a color al modelo de escala de grises es  necesario aplicar la expresión 2.3 para cada uno de los píxeles de la imagen, de esta manera se  obtiene como resultado un equivalente de la imagen original en escala de grises. 

 

2.3.2

Imagen

 

binaria.

 

2.3.2.1 Histograma. 

 

(24)

representados. Para el caso de una imagen digital con niveles de gris en el rango [0,L‐1] el  histograma se representa de la siguiente forma: 

 

k

k

n

r

h

(

)

=

      (2.4) 

 

Donde rk representa un k‐enésimo nivel de gris y nk es el número de píxeles en la imagen 

que tienen un nivel de gris igual a rk

 

La figura 2.5 muestra una imagen y su histograma resultante:   

0 1 2 3 4 5 6 7 8

40 54 59 64 69 74 79 84 89 94 99 117 122 127 132 137 142 147 152 157 162 167 172 177 182 187 192 197 202 207 212 223 228 233

M

illa

re

s

    Figura 2.5 Imagen de prueba  e histograma resultante. 

     

2.3.2.2 Umbralización. 

 

También conocido como binarización este proceso consiste en reducir la cantidad de  información (colores) que dispone para su visualización una imagen de tal manera que solo existan  dos valores posibles: blanco o negro.  

 

Este proceso se realiza a través de la determinación de un “umbral”‐(T) es decir un nivel de  gris  que  determina el  límite entre los  píxeles pertenecientes a un objeto y aquellos que  pertenecen al fondo de la imagen. La expresión 2.5 define el modelo matemático de dicho  proceso:  

     

                     (2.5) 

1

si

F

(

x ,y

) > T

G

(

x ,y

)=

0

si

F

(

x y

) < T

 

(25)

Donde:   

0 = Valor que representa el color blanco en la imagen.  1 = Valor que representa el color negro en la imagen.  T = Umbral propuesto.  

F(x, y) = Es la función inicial que representa la imagen a color.  G(x, y) = Es la función resultante que representa a la imagen binaria.   

 

Es importante mencionar que la obtención del valor de umbral es un tema de mucha  importancia en el proceso de la umbralización ya que será este valor será el que determine la  cantidad de información que contenga la imagen resultante.  

   

(a)  (b) 

 

(c)   (d) 

       

Figura 2.6 Imagen original (a) e imágenes resultantes para valores de T = 60 (b), 100(c) y 140(d). 

 

Como se puede observar en la figura 2.6 el valor de umbral repercute directamente en el  resultado del proceso. En el siguiente tema se mencionaran algunos de los principales métodos  desarrollados hasta ahora con el objetivo de determinar dicho valor de umbral, se mencionaran  algunas de sus características, ventajas y desventajas, todo esto con el objetivo de determinar cual  es el algoritmo más adecuado a utilizar en la presente tesis. 

   

2.3.2.3 Una descripción general sobre  algunos métodos de umbralización.  

 

Muchos métodos han sido desarrollados y propuestos con la finalidad de transformar una  imagen de escala de grises a su equivalente en blanco y negro sin embargo antes de iniciar un  análisis de ellos es necesario delimitar el campo sobre el que serán usados estos métodos.  

(26)

documentos. Este tema es un campo muy importante en el procesamiento de imágenes digitales  debido a los amplios beneficios que implica el uso de medios digitales (sistemas de archivos, bases  de datos y servidores) en contra de los medios físicos (cajones, archiveros y bodegas)   para el  almacenamiento de documentos. Por esta razón se han realizado numerosos estudios sobre la  efectividad de muchos métodos de binarización en esta área en particular. 

 

Trier y Jain [1] realizaron una comparación de los métodos de binarización más conocidos y  exitosos hasta el momento de su realización. Ellos clasificaron los métodos en globales y locales de  acuerdo a la forma en que realizan la determinación del umbral óptimo. En sus resultados ellos  concluyeron que el método Otsu [2] es el método global más exitoso seguido por el método Kittler  and Illingworth [3]. Trier and Jain mencionan además que el método Niblack [4] mostró mejores  resultados que cualquier otro método local, sin embargo también aclaran que éste método tiene  una importante desventaja debido a que utiliza el concepto de pixeles vecinos en su proceso, esto  implica que el tamaño de la ventana usada deberá ser lo suficientemente pequeña para localizar  los pequeños detalles de la imagen y a la vez lo suficiente mente grande para eliminar el ruido  presente en la imagen. 

 

Otra importante evaluación de métodos propuestos para la umbralización de imágenes fue  el  desarrollado  por Sezgin y Sankur  [5]. Ellos realizaron  la evaluación  de 40 métodos de  umbralización usando 40 imágenes de documentos y 40 imágenes de diferentes aplicaciones o  “nondestructive” (como ellos les llamaron). Sezgin y Sankur conluyen que el método de Kittler‐ Illingworth logro obtener los mejores resultados en ambos tipos de imágenes.  

 

De acuerdo a los resultados proporcionados por los artículos [1] y [5] es posible concluir  que los métodos: Otsu, Kittler‐Illingworth y Niblack, pueden ser considerados como los métodos  más eficientes para la binarización de imágenes, existiendo una ligera tendencia hacia el método  Kittler‐Illingworth como el mejor de ellos.  

 

Antes  de  elegir uno  de los métodos  es necesario mencionar que una  característica   importante de las imágenes a tratar es su gran tamaño. Esta característica influye directamente en  el tiempo que el método utilizará para su ejecución. De acuerdo con el artículo [6] el método Otsu  y Kittler‐Illingworth utilizan tiempos similares sin embargo la fecha de publicación de dicho artículo  es de 1995 es decir 6 años antes de la publicación del articulo [7] que presenta un nuevo enfoque  matemático del método Otsu mejorando su tiempo de proceso. Por esta razón es que en esta tesis  se decide utilizar el método Otsu para la binarización de las imágenes.   En el siguiente tema se  realizará una descripción completa de dicho método. 

 

2.3.2.4 Método de Otsu. 

 

Aunque fue desarrollado hace ya algún tiempo este método continúa siendo utilizado por  muchas aplicaciones debido a su efectividad. Una de las características más importantes consiste  en  que  no  es  necesario  alimentarlo  con  ningún  parámetro,  es  decir,  es  completamente  automático.  

 

(27)

objetos de interés. Con la finalidad de determinar el umbral óptimo Otsu se basa en el siguiente  análisis: 

 

En una imagen de dos dimensiones que contenga N cantidad de píxeles con un rango de  niveles de gris desde 1 hasta L. El número de píxeles con un nivel de gris i es denotado por fi dando 

una probabilidad del nivel de gris de:    

       

N

f

p

i

i

=

                         (2.6) 

 

Tomando en cuenta que la imagen será dividida en 2 clases con niveles de gris [1…t] y  [t+1….L] su distribución de probabilidad estará dada por: 

   

)

(

,..,

)

(

:

1 1 1 1

t

p

t

p

C

t

ω

ω

      2

:

1 2

(

)

,...,

2 2

(

)

,...,

2

(

t

)

p

t

p

t

p

C

t t L

ω

ω

ω

+

+   (2.7)(2.8) 

  Donde:   

=

=

t i i

p

t

1 1

(

)

ω

   

        (2.9)(2.10) 

+ =

=

L t i i

p

t

1 2

(

)

ω

  

Teniendo en cuenta que la media para la clase C1 y C2 es: 

   

=

=

t i i

t

p

i

1 1

1

ω

(

)

μ

      

+ =

=

L t i i

t

p

i

1 2

2

ω

(

)

μ

      (2.11)(2.12) 

    

Considerando que µT es la intensidad media de toda la imagen. Es posible demostrar que: 

  T

μ

μ

ω

μ

ω

11 + 22 =  

ω

1 +

ω

2 =1    (2.13)(2.14)   

Usando análisis discriminante Otsu determino la varianza entre clases de una imagen  umbralizada como: 

  2 2 2 2 1 1 2

)

(

)

(

T T

B

ω

μ

μ

ω

μ

μ

σ

=

+

        (2.15) 

   

Para el bi‐nivel de umbralización Otsu verifico que el umbral óptimo esta definido como el  nivel máximo de σB2: 

 

T

 

=

 

Max[

σ

B 2

(t)]

   

 

1

 

<

 

t

 

<

 

L   

 

 

      

(2.16)

 

 

(28)

El método de Otsu puede extenderse a múltiples umbrales. Asumiendo que hay M‐1  umbrales, {t1, t2, ..., tM‐1}, los cuales dividen a la imagen en M clases: C1 para [1,..., t1], C2 para [t1+1, 

..., t2], ..., Ci para [ti‐1+1, ..., ti], ..., y CM para [tM‐1, ..., L], los umbrales óptimos {T1, T2, ..., TM‐1} se 

eligen maximizando σB

2

 como sigue:   

}}

,...,

,

{

{

}

,...,

,

{

1 2 1

2 ,..., , 1 2 1 1 2 1 − − −

=

B M

t t t

M

Max

t

t

t

T

T

T

M

σ

     1≤t1<...<tM1<L       (2.17)    Donde:    

=

=

M k T k k B 1 2 2

)

(

μ

μ

ω

σ

               (2.18) 

    Con:    

∈ = ki C i i k p

ω

     

=

k C i k i k

p

i

ω

μ

          (2.19)(2.20) 

 

Donde ωk es conocido como momento acumulado de orden cero de la k‐enésima clase Ck, y  el numerador de la última expresión es conocido como momento acumulado de primer orden de  la k‐enésima clase Ck; esto es: 

   

∈ ⋅ = k C i i p i k) (

μ

             (2.21) 

 

Aunque el método Otsu es uno de los mejores métodos desarrollados para la obtención  automática del umbral de una imagen a binarizar, es muy importante mencionar que también es  un método lento y aunque da buenos resultados el costo total del procedimiento en ocasiones  resulta ser muy alto debido al tiempo que consume. 

 

Afortunadamente en el año 2001 fue publicado un artículo [7] en el que se propone un  enfoque diferente al planteamiento matemático del método de Otsu mejorando ampliamente el  tiempo de procesamiento comúnmente utilizado por el método. A continuación se dará una breve  explicación de lo que el artículo plantea. 

 

2.3.2.5 Formulación alternativa del método Otsu. 

 

De  acuerdo  con  todo  el  planteamiento  anterior  y  tomando  en  cuenta  que  independientemente  del  número  de  clases  que  se  consideren  durante  el  proceso  de  umbralización, la suma de las funciones de probabilidad acumulada de las M clases son iguales a 1,  y la media de la imagen es igual a la suma de las medias de las M clases ponderadas por sus  correspondientes probabilidades acumuladas; esto es, 

(29)

                     

1

             (2.22)(2.23)  1

=

= M k k

ω

=

=

M k k k T 1

μ

ω

μ

 

Tomando en cuenta las expresiones (2.18)(2.22), la varianza entre clases de la ecuación  anterior de la imagen umbralizada puede escribirse de la siguiente forma: 

 

              

        (2.24) 

= −

=

=

M k T k k M

B

t

t

t

1 2 2 1 2 1 2

)

,...,

,

(

ω

μ

μ

σ

 

Debido a que el segundo término en la expresión (2.24) depende de la elección de los  umbrales {t1, t2, ..., tM‐1}, los umbrales óptimos {T1, T2, ..., TM‐1} pueden ser elegidos maximizando 

una varianza entre clase modificada, definida como la sumatoria de los términos del lado derecho  de la expresión (2.24). En otras palabras, los valores de los umbrales óptimos {T1, T2, ...,TM‐1} se  eligen por: 

   

}}

,...,

,

{

)

'

{(

}

,...,

,

{

2 1 2 1

,..., , 1 2 1 1 2 1 − − −

=

B M

t t t

M

Max

t

t

t

T

T

T

M

σ

  1≤t1<...<tM1<L       (2.25)    Donde: 

=

=

M k k k B 1 2 2

)

'

(

σ

ω

μ

           (2.26) 

 

De acuerdo al criterio de la expresión (2.18) y al de la expresión (2.26), para encontrar los  umbrales óptimos, el campo de búsqueda para el máximo σB

2 y para el máximo (σ B’)

2 es 

1 ≤ t1 < L‐

M+1, t1+1  ≤ t2 < L‐M+2, ..., y tM‐1+1  ≤ tM‐1 < L‐1, como se ilustra en la figura 2.7. Esta búsqueda 

exhaustiva involucra (L‐M+1)M‐1 combinaciones posibles. Además, comparando la expresión (2.18)  con la (2.26), se encuentra que la resta en la expresión (2.18) no es necesaria. Así, la expresión  (2.26) es preferible ya que requiere menos operaciones que la expresión (2.18) al eliminar M(L‐ M+1)M‐1 restas del cálculo de los umbrales. 

   

         

Figura  2.7  Rango  de 

búsqueda  para 

{t1, t2, ..., tM‐1}.      

(30)

2.3.3

Operaciones

 

morfológicas

 

y

 

RLS.

 

 

Una vez que se cuenta con la imagen binaria es posible realizar cierto tipo de operaciones  especificas conocidas como operaciones morfológicas, en general este tipo de operaciones se  realizan para cada uno de los píxeles de la imagen considerando el estado o comportamiento de  sus píxeles vecinos. 

de operaciones  especificas conocidas como operaciones morfológicas, en general este tipo de operaciones se  realizan para cada uno de los píxeles de la imagen considerando el estado o comportamiento de  sus píxeles vecinos. 

Aunque existen numerosas operaciones, en el caso particular de esta tesis solo son de  interés dos operaciones básicas: erosión y dilatación. 

Aunque existen numerosas operaciones, en el caso particular de esta tesis solo son de  interés dos operaciones básicas: erosión y dilatación. 

  

2.3.3.1 Erosión.  2.3.3.1 Erosión. 

  

La operación conocida como erosión consiste en degradar en una medida determinada  (elemento estructurante) los bordes que representan a un objeto en una imagen.  

La operación conocida como erosión consiste en degradar en una medida determinada  (elemento estructurante) los bordes que representan a un objeto en una imagen.  

Sean A y B con juntos en Z2. La erosión de A y B que se expresa como E queda definida  como: 

Sean A y B con juntos en Z2. La erosión de A y B que se expresa como E queda definida  como:     } ) ( |

{z B A

E {z|(B)ZA}

E= Z ⊆             (2.27)   

Lo cual indica que la erosión de A por B es el conjunto de todos los puntos z tal que B al ser  trasladado por z esté siempre contenido en A. 

                      

Como es posible apreciar en la figura 2.8 la figura resultante (figura 2.8 (c)) muestra una  disminución del grosor de sus líneas producido por la erosión aplicada mediante el elemento  estructurante (figura 2.8 (b)). 

 

2.3.3.2 Dilatación. 

 

La dilatación consiste en el crecimiento de los bordes de los objetos presentes en una  imagen. El resultado de esta operación al igual que con la erosión depende directamente del  elemento estructurante.  

 

Sean A y E conjuntos en Z. La dilatación de A por E, expresada como D, se define como:   

}

)

(

|

{

=

Z

Ê

A

D

Z

I

      (2.28) 

 

Esta ecuación determina que es necesario obtener la reflexión de E sobre su origen y  trasladar esta reflexión a través de z. El resultado será el conjunto de todos los desplazamientos Z  tal que esto se culpa con al menos un elemento. 

0 1 0 1 1 1 0 1 0

Figura 2.8 Imagen  original (a), 

elemento estructurante (b) 

e imagen resultante (c).   (a) 

(31)

Una de las aplicaciones más comunes de esta operación consiste en la unión de píxeles  relacionados. Esto es común en imágenes escaneadas con una baja resolución, en las cuales  muchos detalles son perdidos. 

         

     

 

Como es posible apreciar en la figura 2.9 la figura resultante (figura 2.9(c)) muestra un  aumento del grosor de sus líneas producido por la erosión aplicada mediante el elemento  estructurante (figura 2.9 (b)). 

   

2.4

Agrupación

 

por

 

longitud

 

de

 

series.

 

   

Mejor  conocido  como  Run‐length  smearing[8],  El  algoritmo  RLS  ha  sido  utilizado  ampliamente en el área del procesamiento de imágenes digítales, especialmente en los sistemas  de análisis de documentos digitales. 

 

El algoritmo RLS se basa en la idea de que cada fila de píxeles en una imagen binaria puede  ser representada como una línea de ceros y unos en la que los números representan a su vez a los  correspondientes píxeles de la imagen blancos y negros respectivamente. El objetivo del algoritmo  RLS es detectar todas las cadenas o líneas continuas de píxeles blancos (ceros) y sustituir esos  píxeles por píxeles negros (unos) en aquellos recorridos con una longitud menor a un valor de  umbral predefinido. La figura 2.10 muestra gráficamente este proceso. 

   

   

1  0  0  1  0  0  0 1 0 0 0 0 1 0 0 1 0 1  1  0   

     

1  1  1  1  0  0  0 1 0 0 0 0 1 1 1 1 1 1  1  0   

         

0 1 0 1 1 1 0 1 0 (a) 

(b)  (c) 

Figura

Figura  2.9 Imagen  original (a), 

elemento estructurante (b) 

e imagen resultante (c). 

 2.10  Línea original y resultante después de aplicar el algoritmo RLS con un valor 

de umbral U = 3. 

 

Línea original 

Línea resultante 

d e

c

(32)

 

A continuación se enumeran los pasos del algoritmo RLS para obtener los resultados  obtenidos en la figura 2.10 considerando un valor de umbral U = 3. 

   

1. Identificar las agrupaciones de pixeles que inicien y terminen con un píxel negro  (para el caso de la figura 2.10 con valor 1). Como se aprecia en la figura fueron  identificadas 5 agrupaciones denotadas por las letras: abcd y e

2. De las agrupaciones identificadas discriminar aquellas que su longitud sea mayor o  igual a U + 2. Para el caso de la figura 2.10 se considera un umbral: U = 3 por lo  tanto las agrupaciones d y e se descartan.  

3. Para las agrupaciones restantes establecer todos los pixeles que las integran a  negro o en el caso de la figura 2.10 a 1.  

   

La aplicación de este algoritmo se basa en la suposición de que existe un valor máximo “d”  de separación entre las letras y las palabras, figura 2.11.  

 

   

  Figura 2.11 Caso típico en el que se aplica el algoritmo RLS.   

   

Por debajo de este nivel todos los espacios en blanco que existen entre los píxeles que  representan las letras y palabras en los párrafos de texto pueden ser rellenados, es decir cambiar  el color de esos píxeles de blanco a negro. 

   

 (a)   (b) 

 

            

Figura 2.12 Transformación de una imagen al ser aplicado el algoritmo RLS.      Imagen original (a) e imagen resultante (b).  

       

(33)

convertidos en bloques uniformes después de cambiar el color de los píxeles interiores entre las  letras, palabras y renglones. 

 

2.5

Rectángulos

 

límite.

 

 

También conocido como “bounding box” un rectángulo límite es aquel que rodea por  completo a un determinado objeto finito con la mínima área posible es decir para cualquier  colección de objetos lineales su rectángulo límite esta definido por los valores máximos y mínimos  de las coordenadas de los objetos. 

 

En el ámbito de la computación el rectángulo límite es una técnica comúnmente utilizada  debido a su sencillez, facilidad de cálculo y amplios beneficios, en su mayoría por programas  gráficos, programas especializados en el desarrollo de animaciones, juegos de video y otras  aplicaciones relacionadas con el desarrollo de entornos virtuales hacen uso de este simple  concepto. Regularmente esta característica del objeto es calculado en tiempo real, no involucra  operaciones aritméticas  complejas  y  en la mayoría de los  casos  solo  requiere de algunas  comparaciones entre los puntos o vértices que definen al objeto. La figura 2.13 muestra un  ejemplo del concepto de rectángulo límite. 

     

   

   

Usualmente el propósito del rectángulo límite es proporcionar un sustituto más simple y  manejable  de  un  objeto  mucho  más  complejo,  y  así  proporcionar  facilidad  al  realizar  desplazamientos o diversas operaciones graficas basadas en la superposición de objetos, sin  embargo también es común usarlo como una fase primaria de procesos más complejos y costosos  como puede ser la superposición de polígonos. 

 

Finalmente solo resta mencionar que aunque el método de rectángulos límite es un  método popular no existe actualmente un algoritmo general para su utilización en procesamiento  de imágenes digitales. Por esta razón es que se omite cualquier mención del proceso en esta  sección sin embargo en la sección 3.5 del capítulo 3 se da una explicación detallada del modo en  que fue implementado. 

   

Figura 2.13 Representación del 

concepto “rectángulo 

límite” aplicado a una 

Figure

Figura 1.1  Diagrama propuesto de un sistema  especializado en  el  monitoreo  de medios impresos. 

Figura 1.1

Diagrama propuesto de un sistema especializado en el monitoreo de medios impresos. p.13
Figura 1.3 Muestra de una página completa de periódico(a) y muestra de una nota recortada de la hoja de periódico puesta en un machote. 

Figura 1.3

Muestra de una página completa de periódico(a) y muestra de una nota recortada de la hoja de periódico puesta en un machote. p.16
Figura 4.6 Imagen resultante del proceso “Transformación del color” sección 3.2.2

Figura 4.6

Imagen resultante del proceso “Transformación del color” sección 3.2.2 p.69
Figura 4.7 Imagen resultado del proceso Erosión 

Figura 4.7

Imagen resultado del proceso Erosión p.70
Figura 4.8 Imagen resultado del proceso RLS.

Figura 4.8

Imagen resultado del proceso RLS. p.71
Figura 4.9 Imagen resultado del proceso RLS. 

Figura 4.9

Imagen resultado del proceso RLS. p.72
Figura 4.11 Imagen resultante, con el detalle de los bloques localizados por el sistema. 

Figura 4.11

Imagen resultante, con el detalle de los bloques localizados por el sistema. p.74
Figura 4.14  Ejemplos de una identificación de bloques inesperada y correcta del sistema. 

Figura 4.14

Ejemplos de una identificación de bloques inesperada y correcta del sistema. p.76
Figura  4.16  Segunda página de 

Figura 4.16

Segunda página de p.77
Figura 4.17  Detalle  de una segmentación ideal.  

Figura 4.17

Detalle de una segmentación ideal. p.78
Figura 4.18 Imagen resultante después del       

Figura 4.18

Imagen resultante después del p.78
Figura 4.21  Primer página evaluada del periódico Reforma.  

Figura 4.21

Primer página evaluada del periódico Reforma. p.80
Figura 4.23  Resultado de la 

Figura 4.23

Resultado de la p.81
Figura 4.27 Segunda página de 

Figura 4.27

Segunda página de p.82
Figura 4.25  Detalle de una mala 

Figura 4.25

Detalle de una mala p.82
Figura 4.28 Detalle de una 

Figura 4.28

Detalle de una p.83
Figura 4.31 Imagen resultante.  

Figura 4.31

Imagen resultante. p.84
Figura 4.32  Segunda página de 

Figura 4.32

Segunda página de p.85
Figura 4.33 Imagen resultante.  

Figura 4.33

Imagen resultante. p.85
Figura 4.35 Imagen resultante de la 

Figura 4.35

Imagen resultante de la p.86
Figura  4.34 Página de prueba # 1. 

Figura 4.34

Página de prueba # 1. p.86
Figura 4.36 Página de prueba # 2. 

Figura 4.36

Página de prueba # 2. p.87
Figura 4.37 Imagen resultante de 

Figura 4.37

Imagen resultante de p.87
Figura 4.38 Página de prueba # 3. 

Figura 4.38

Página de prueba # 3. p.88
Figura 4.39 Imagen resultante de la página de prueba #3.

Figura 4.39

Imagen resultante de la página de prueba #3. p.88
Figura 4.40 Página de prueba # 4. 

Figura 4.40

Página de prueba # 4. p.89
Figura 4.41 Imagen resultante de 

Figura 4.41

Imagen resultante de p.89
Figura 4.42 Detalle de error producido en la página de prueba # 4. 

Figura 4.42

Detalle de error producido en la página de prueba # 4. p.90
Figura 4.44 Imagen resultante de la 

Figura 4.44

Imagen resultante de la p.91
Figura  5.2    Imagen  que  muestra  el 

Figura 5.2

Imagen que muestra el p.94