Detección de Profundidad en Imágenes por Medio de su Desenfoque y su Implementación en un DSP-Edición Única

(1)

Instituto Tecnológico y de Estudios Superiores de Monterrey Campus Monterrey

Monterrey, Nuevo León a

", en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto

Tecnológico y de Estudios Superiores de Monterrey (EL INSTITUTO) para que

efectúe la divulgación, publicación, comunicación pública, distribución y

reproducción, así como la digitalización de la misma, con fines académicos o

propios al objeto de EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a

otorgarme el crédito correspondiente en todas las actividades mencionadas

anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO

por cualquier violación a los derechos de autor y propiedad intelectual que

cometa el suscrito frente a terceros.

de 200

Lic. Arturo Azuara Flores:

Director de Asesoría Legal del Sistema

Por medio de la presente hago constar que soy autor y titular de la obra

(2)

c

(3)

Detección de Profundidad en Imágenes por Medio de su

Desenfoque y su Implementación en un DSP-Edición Única

Title Detección de Profundidad en Imágenes por Medio de su Desenfoque y su Implementación en un DSP-Edición Única

Authors Alberto Llerena Bejarano Affiliation ITESM-Campus Monterrey Issue Date 2005-12-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 13:19:55

(4)

Instituto Tecnol´

ogico y de Estudios Superiores de

Monterrey

Campus Monterrey

Divisi´

on de Electr´

onica, Computaci´

on, Informaci´

on y

Comunicaciones

Programa de Graduados

Detecci´

on de Profundidad en im´

agenes por medio

de su Desenfoque y su implementaci´

on en un DSP

TESIS

Presentada como requisito parcial para obtener el grado acad´emico de

Maestro en Ciencias en Ingenier´ıa Electr´

onica

especialidad en

Telecomunicaciones

por

Ing. Alberto Llerena Bejarano

(5)

Instituto Tecnol´

ogico y de Estudios Superiores de

Monterrey

Campus Monterrey

Divisi´

on de Electr´

onica, Computaci´

on, Informaci´

on y

Comunicaciones

Programa de Graduados

Los miembros del comité de tesis recomendamos que la presente tesis de Alberto Llerena Bejarano sea aceptada como requisito parcial para obtener el grado académico de Maestro en Ciencias en Ingenier´ıa Electrónica, especialidad en:

Telecomunicaciones

Comit´

e de tesis:

Dr. Ram´on Mart´ın Rodr´ıguez Dagnino

Asesor de la tesis

Dr. Gabriel Campuzano Trevi˜no

Sinodal

Dr. Jos´e Ram´on Rodr´ıguez Cruz

Sinodal

Dr. David Garza Salazar

Director del Programa de Graduados

(6)

Detecci´

on de Profundidad en im´

agenes por medio

de su Desenfoque y su implementaci´

on en un DSP

por

Ing. Alberto Llerena Bejarano

Tesis

Presentada al Programa de Graduados en Electrónica, Computación, Información y Comunicaciones

como requisito parcial para obtener el grado acad´emico de

Maestro en Ciencias en Ingenier´ıa Electr´

onica

especialidad en

Telecomunicaciones

Instituto Tecnol´

ogico y de Estudios Superiores de Monterrey

Campus Monterrey

(7)

(8)

Reconocimientos

A mis padres por todo su apoyo y por hacer de mi la persona que soy.

Al Dr. Ramón Mart´ın Rodr´ıguez Dagnino por motivarme a incursionar en esta investigación, por la confianza que siempre me brindó y por su gran gu´ıa y orientación a lo largo de esta tesis.

A mi amigo Aldo Hernández quien colaboró con los inicios de esta investigación. A mi amigo Ricardo Neri por compartir conmigo sus conocimientos en el área de DSP’s.

Alberto Llerena Bejarano

(9)

Detecci´

on de Profundidad en im´

agenes por medio

de su Desenfoque y su implementaci´

on en un DSP

Alberto Llerena Bejarano, M.C.

Instituto Tecnol´ogico y de Estudios Superiores de Monterrey, 2005

Asesor de la tesis: Dr. Ram´on Mart´ın Rodr´ıguez Dagnino

(10)

´

_{Indice general}

Reconocimientos VI

Resumen VII

´_{Indice de figuras} X

Cap´ıtulo 1. Introducci´on 1

Cap´ıtulo 2. Detecci´on de Profundidad por medio del Desenfoque 5

2.1. An´alisis en el dominio del espacio . . . 9

2.2. An´alisis en el dominio de la frecuencia . . . 11

2.3. Problem´aticas f´ısicas y de implementaci´on . . . 14

2.3.1. Iluminaci´on . . . 14

2.3.2. Aberraciones de la lente . . . 14

2.3.3. Ruido del sensor . . . 15

2.3.4. Captura de las im´agenes . . . 15

2.3.5. Magnificaci´on ´optica . . . 17

2.3.6. Problema delvignetting . . . 18

2.4. M´etodos relevantes de Depth from Defocus . . . 18

2.4.1. Depth from Defocus mediante laTransformada espacial . . . 18

2.4.2. Depth from Defocus medianteFiltros Racionales . . . 27

Cap´ıtulo 3. Implementación 39 3.1. Imágenes Sintéticas . . . 41

3.2. Im´agenes Reales . . . 43

3.3. Fuentes de error . . . 49

Cap´ıtulo 4. Conclusiones 50 Ap´endice A. Fundamentos de ´Optica 52 A.1. Caracter´ısticas de una lente . . . 52

(11)

A.1.3. Apertura . . . 55

A.1.4. Ecuaci´on de la lente . . . 55

A.1.5. Distancia focal para un sistema de lentes . . . 56

A.2. Point Spread Function . . . 57

A.2.1. Modelo del Pillbox . . . 59

A.2.2. Modelo de Gauss bidimensional . . . 60

Ap´endice B. Equipo 62

Bibliograf´ıa 64

(12)

´

_{Indice de figuras}

2.1. Desenfoque en una imagen formada por una lente. . . 6

2.2. Obtenci´on de la distancia d. . . 7

2.3. Dos puntos p1 y p2 presentando el mismo radio de desenfoque R . . . . 9

2.4. Modelo del pillbox en el dominio del espacio. . . 11

2.5. Modelo del pillbox en el dominio de la frecuencia espacial . . . 12

2.6. Gráficas del modelo del pillbox para varios valores de R en funcion de fr 13 2.7. Captura simultánea de las dos imágenes . . . 16

2.8. ´Optica telec´entrica. . . 17

2.9. Ilustraci´on de α y las distancias (1_±α)e . . . 28

2.10. Gr´aficas de M P para varios valores de fr en funci´on deα . . . 31

2.11. Coeficientes racionales en funci´on de fr obtenidos para el modelo prop-uesto de M P y escalados para su mejor ilustraci´on [20] . . . 34

3.1. Diagrama a bloques del algoritmo implementado . . . 40

3.2. Im´agenes i1(x, y), i2(x, y) simuladas computacionalmente . . . 41

3.3. Mapa de 3D, resultado del algoritmo para las im´agenes sint´eticas . . . 42

3.4. Imágenes simuladasi1(x, y),i2(x, y) con textura real y desenfoque sintético 42 3.5. Mapa de 3D para las imágenes de textura real y desenfoque sintético . 43 3.6. Imágenes de enfoque lejano y cercano de un objeto real . . . 43

3.7. Im´agenes de enfoque lejano y cercano de un objeto real . . . 44

3.8. Efectividad del filtro Gaussiano . . . 45

3.9. Efectividad del suavizado . . . 45

3.10. Efectividad del filtro de moda . . . 46

3.11. Efectividad para filtros de mediana de diferente tama˜no . . . 47

3.12. Filtro de mediana seleccionado . . . 47

3.13. Diagrama a bloques del algoritmo sugerido . . . 48

A.1. Formaci´on de una imagen por medio de una lente . . . 53

A.2. Distancia Focal de una lente. . . 54

A.3. Profundidad de Campo de una lente. . . 54

(13)

A.6. Desenfoque en una imagen. . . 58

A.7. Modelo del pillbox . . . 59

A.8. Modelo Gaussiano de dos dimensiones . . . 61

(14)

Cap´ıtulo 1

Introducci´

on

La intención de obtener la profundidad en una escena, nace de la necesidad de muchos sistemas de contar con información más completa acerca del entorno que anal-izan, para poder realizar procesos más especializados y/o eficientes. Este es uno de los problemas más atractivos dentro de la visión robótica. La primer idea de estimación de profundidad, o bien, tercera dimensión (3D) está inspirada en la visión humana, la cual es una visión estéreo [1].

Los seres humanos usamos la estereoscop´ıa, en donde tenemos la capacidad de reconocer distancias y formas de objetos en la escena que estamos viendo, gracias a los dos puntos de vista que cada uno de nuestros ojos nos proporciona, y es el cerebro el encargado de extraer la profundidad para darnos la noción de 3D. Se han desarrollado algoritmos que usan el principio de estereoscop´ıa para detectar la profundidad. Existen otras técnicas también basadas en estereoscop´ıa, como la de detección de profundidad mediante secuencias de imágenes [3], en donde se analiza el movimiento relativo entre los objetos para poder calcular las distancias que tienen con respecto al punto de vista. En este caso, se utilizan más de dos imágenes para el análisis.

Los métodos estereoscópicos presentan un problema inherente a su naturaleza, el cual es la correspondencia entre sus dos o más imágenes, ya que los algoritmos deben ser capaces de identificar el mismo objeto en las diferentes imágenes aunque tenga una distinta posición para cada imagen, y esto puede significar extensos recursos computacionales.

Los métodos monoscópicos, utilizan un solo punto de vista para detectar la pro-fundidad. Se basan en caracter´ısticas ópticas, como lo puede ser el grado de enfoque o desenfoque que se presenta en una imagen debido a la naturaleza de la lente con la cual se forma. Aunque no es tan expl´ıcito, se ha demostrado que además de la visión estéreo los seres humanos utilizamos también la información de desenfoque para la noción de la profundidad [4], [5].

(15)

la lente, aunque todas desde el mismo punto de vista [2], [6], [7], [8], [9]. Depth From Defocus (DFD) es otro método monoscópico que se basa en el grado de desenfoque que presentan los objetos en una imagen [4], [12], [18], [13], [19], [20], [21]. En este método se utilizan desde dos imágenes con diferentes ajustes de la lente tomadas desde el mismo punto de vista. En los métodos monoscópicos se evita el problema de la correspondencia entre imágenes, ya que los objetos siempre estarán ubicados exactamente en la misma posición, aunque con distinto desenfoque.

Estas dos técnicas monoscópicas analizan el hecho de que existe una relación entre el grado de desenfoque o enfoque que un objeto presenta en una imagen y su distancia con respecto a la lente a través de la cual dicha imagen fue formada. Si se conocen los parámetros que tiene la lente, se puede saber la distancia a la cual los objetos estarán enfocados en la imagen que dicha lente proyecta, y este es el principio básico de DFF, en donde se deberán capturar varias imágenes con variaciones en los parámetros de la lente para producir distancias de enfoque ligeramente distintas entre s´ı y consecutivas, de esta manera, para cada p´ıxel, se puede determinar la distancia de enfoque mediante el contraste que presenta, y as´ı obtener un estimado de profundidad.

Cuando los objetos están desenfocados, es por que se encuentran a diferente dis-tancia de la disdis-tancia de enfoque, y dependiendo de que tan lejos o cerca estén de esta distancia de enfoque, los objetos se verán más o menos desenfocados, respectivamente, en la imagen formada. Por lo tanto, si se mide la cantidad o grado de desenfoque que presenta cada objeto, se puede conocer su distancia a la lente, y este es el principio básico de DFD. Sin embargo, medir el grado de desenfoque en una sola imagen no es suficiente, ya que dos objetos a diferentes distancias de la lente pueden presentar la misma cantidad de desenfoque en la imagen proyectada, dependiendo si se encuentran más atrás o más adelante de la distancia de enfoque. Además, no se puede asegurar si un objeto ”borroso”en la imagen se ve as´ı por estar desenfocado o simplemente por que el objeto es as´ı aunque esté perfectamente enfocado. Es por esto que se necesita al menos una segunda imagen con distintos parámetros de la lente, para tener una referencia.

(16)

que esta segunda imagen no presentar´ıa desenfoque, ya que a menor apertura la pro-fundidad de campo aumenta1

, y as´ı se resolv´ıa su sistema de ecuaciones de una manera simple. Aunque estos algoritmos fueron muy innovadores, siendo tal vez los primeros en el ´area, se pod´ıa mejorar la eficiencia de sus resultados.

Subbarao hizo varios trabajos acerca de DFD, pero se pueden destacar dos rele-vantes. En [12] desarrolló un método en donde obtiene una ecuación cuadrática para el parámetro de esparcimiento o spread parameter en el dominio de Fourier mediante la densidad espectral de potencia del par de imágenes y la ecuación de la lente. El parámetro de distribución proviene de la Point Spread Function (PSF), la cual se dis-cute en el apéndice. Al resolver la ecuación cuadrática se puede obtener un estimado de profundidad mediante el parámetro de distribución. En [13] Subbarao y Surya aplicaron para DFD una transformada en el dominio espacial que Subbarao desarrolló en [14] y llamó Spatial Transform Method (STM). A través de esta transformada, obtienen una expresión muy conveniente y simplificada en donde se utiliza el operador Laplaciano. Este último trabajo de DFD es muy ingenioso, en el siguiente cap´ıtulo se analizará con detalle.

Ens y Lawrence [18] propusieron un algoritmo también en el dominio espacial, en el cual obtienen mediante iteraciones una matriz de convolución, de tal manera que la convolución, valga la redundancia, entre esta matriz y una de las dos imágenes da como resultado la otra de las imágenes. Al final, la matriz de convolución obtenida representa el desenfoque relativo entre el par de imágenes, con el cual se estima la profundidad. Aunque el algoritmo proporciona un buen cálculo de profundidad, su naturaleza iterativa utiliza muchos recursos computacionales.

Watanabe y Nayar hicieron trabajos muy eficientes de DFD. En [20] modelan el desenfoque de la imagen como una función racional de dos combinaciones lineales de funciones base en el dominio de la frecuencia, de donde obtienen un conjunto de oper-adores racionales, los cuales son pequeños kernels de banda ancha. La salida de estos operadores son coeficientes del par de imágenes con los cuales se obtiene el estimado de profundidad con una alta resolución espacial. En [21], realizan una implementación en tiempo real que utiliza una proyección de iluminación de patrones de textura a la escena, convirtiéndola en un entorno controlado. Mediante la proyección de dicha luz, tienen control sobre las componentes de frecuencia dominantes de las texturas en la escena, evitando el problema de tener un rango amplio en el espectro, enfocando as´ı el análisis a tan sólo las frecuencias fundamentales de dichos patrones de luz. Con un algoritmo relativamente rápido, desde el punto de vista computacional, son capaces de estimar mapas de profundidad de resolución aceptable a 30 cuadros por segundo, y

(17)

despleg´andolos en formato de video, logrando as´ı una implementaci´on en tiempo real muy impresionante.

(18)

Cap´ıtulo 2

Detecci´

on de Profundidad por medio del

Desenfoque

En el Cap´ıtulo anterior se dio una breve descripción de la detección de profundidad por medio de desenfoque y se mencionaron las caracter´ısticas generales de algunos trabajos en el área que se consideran relevantes. En este Cap´ıtulo veremos un análisis más profundo y formal de este método.

Los métodos de detección de profundidad en general, no sólo los de DFD, se pueden dividir en dos tipos; métodos pasivos y métodos activos. Los métodos activos afectan de alguna manera la escena de la cual se quiere obtener el cálculo de profundidad, y aunque esto representa la gran ventaja de que reduce cuantiosamente la complejidad de los algoritmos, tiene la desventaja de tener que condicionar, por as´ı decirlo, la escena en cuestión, como en lugares cerrados con condiciones conocidas e información a priori de las caracter´ısticas de la escena. Por otro lado, los métodos pasivos son los que no afectan la escena, y deben ser capaces de analizar cualquier, o casi cualquier tipo de entorno, sin tener limitantes considerables. Esto es una gran ventaja, pero el costo es que se requiere de un análisis f´ısico y matemático mucho más minucioso, ya que se tienen que considerar todos los detalles debido a la incertidumbre que se tiene del entorno. La visión humana, por ejemplo, es pasiva, ya que los seres humanos no hacemos modificaciones a la escena que estamos viendo.

Existe un mayor interés en la investigación por los métodos pasivos, por ser más robustos y más completos que los activos, aunque en el mundo de la industria, para muchas de las aplicaciones el entorno es conocido, y un método activo es suficiente, además de que puede ofrecer tal vez mejores resultados que los métodos pasivos, debido al control que se tiene de la escena. Sin embargo, los métodos activos de alguna manera son casos particulares de los más generales métodos pasivos, por lo tanto, lo ideal es poder desarrollar los métodos pasivos, y adaptarlos dependiendo el caso.

(19)

desenfoque. Para formalizarnos con esta idea, necesitamos encontrar una relación entre la distancia que existe entre los objetos y la lente, y la cantidad de desenfoque en la imagen. Partimos de la ecuación de la lente (ver Apéndice):

1

F =

1

d +

1

d′ (2.1)

donde F es la distancia focal, d es la distancia de un punto en la escena a la lente y

d′ _{es la distancia de la lente al plano de la imagen donde el punto presenta su enfoque}

[image:19.612.101.528.325.583.2]

perfecto, como se muestra en la Figura 2.1. Esta ecuaci´on nos dice que, si conocemos la distancia focal de la lente y la distancia que existe de la lente al plano de la imagen o sensor, podemos saber la distancia a la cual estar´ıan los objetos enfocados para dicho plano de la imagen.

Figura 2.1: Desenfoque en una imagen formada por una lente.

(20)

que es la región de desenfoque, es un circulo que en la Figura 2.1 tiene un radio R. El punto p se proyecta a través de la lente en tres posibles planos, los cuales dan lugar a tres imágenes; una de enfoque perfecto a una distanciad′_{, y las otros dos de desenfoque}

a las distancias d′

1 y d

′

[image:20.612.114.531.204.427.2]

2, y R es el radio de desenfoque, el cual es proporcional al valor absoluto de la distancia que existe entre el plano de enfoque y el plano de desenfoque.

Figura 2.2: Obtenci´on de la distanciad.

De la Figura 2.2 mediante triángulos semejantes, podemos encontrar una relación directa entre el radio de desenfoque R y la distancia que nos da la profundidad d. Aunque en la Figura 2.2 se muestra el desenfoque de radio R para el plano que se encuentra a la distancia s, se puede realizar el análisis para cualquier plano que tenga cuaquier distancia s distinta a la distancia de enfoque d′_:

d′

D/2 =

s₋d′

R

d′ 1

D/2 +

1

R

!

= s

R

d′

= sD/2

(21)

N´otese que d′ _{puede ser negativa si} _{s < d}′_{, como por ejemplo si} _s ₌ _d′

[image:21.612.256.383.142.316.2]

1 en la Figura 2.1. Si sustituimos esta última ecuación en la ecuación de la lente (2.1) podemos eliminar d′_{, y resolviendo para} _d _obtenemos:

1

F =

1

d +

R+D/2

sD/2 1

d =

sD/2₋F(R+D/2)

F sD/2 1 d = 1 F − 1 s − R sD/2

d= 1

1

F − 1s − _sD/R₂

(2.3)

La cual es una ecuación donde conocemos todas las variables del lado derecho excepto por el radio de desenfoque R. De la ecuación del número f (ver Apéndice) tenemos:

D= F

f/# (2.4)

donde f/# es el n´umero f de la apertura de la lente. Sustituyendo (2.4) en (2.3):

d= 1

1

F − 1s −

2f/#

sF R

(2.5)

La cual es una relación mejor estructurada en donde del lado derecho solo de-sconocemos el radio R. De esta manera, para obtener la profundidad d del punto pen una escena, sólo necesitamos estimar el radio R del desenfoque en la ecuación (2.5), y este es el problema principal a resolver en DFD.

(22)

[image:22.612.104.542.92.304.2]

Figura 2.3: Dos puntosp1 y p2 presentando el mismo radio de desenfoque R una referencia. Algunas técnicas utilizan más de dos imágenes para hacer sus algoritmos más robustos.

Para obtener dos imágenes con distinto enfoque, los parámetros que se pueden variar son: el diámetro D de la apertura; la distancia s que existe entre la lente y el plano del sensor; y si se trata de un sistema de lentes, una variación de s provoca un cambio en la distancial que existe entre las dos lentes (ver Apéndice) y por consiguiente provoca un cambio en la distancia focal F del sistema de lentes.

Hay distintas maneras de atacar el problema de DFD. Se pueden enunciar tres for-mas en general: Análisis en el dominio del espacio; análisis en el dominio de la frecuencia y; análisis estad´ıstico. Nos enfocaremos en los primeros dos, dando una explicación de los fundamentos de ambas perspectivas.

2.1. An´

alisis en el dominio del espacio

(23)

Para hacer un análisis mas formal, se necesita modelar el efecto que tiene la lente en la imagen, y esto se hace por medio de la Point Spread Function (PSF) (ver Apéndice), la cual representa la función de transferencia de la luz al pasar por la lente y ser proyectada en un plano, formando una imagen con desenfoque.

Para una imagen en un sistema invariante en el espacio se tendr´ıa la siguiente convoluci´on:

id(x, y, R) = i(x, y)_∗h(x, y) (2.6)

donde id(x, y, R) representa a la imagen desenfocada, i(x, y) a la imagen enfocada,

h(x, y) la PSF y _∗ denota la convoluci´on.

Pero como una imagen desenfocada es producto de un sistema variante en el espacio, ya que el radio del desenfoque R var´ıa de p´ıxel a p´ıxel dependiendo de la profundidad, la ecuación (2.6) no es estrictamente válida. Sin embargo, si asumimos que el desenfoque, o bien R, es constante en una pequeña región, ya que el desenfoque no var´ıa abruptamente, la convolución puede considerarse válida dentro de esa pequeña región.

Tomaremos como base el modelo del pillbox para aproximar la PSF de la lente. Este modelo es un cilindro de radio R y de volumen unitario. El pillbox se representa mediante la siguiente ecuaci´on en el dominio del espacio (ver Ap´endice):

h(x, y, R) = 1

πR2 rect

√

x2₊_y2 2R

!

(2.7)

donde x, y son las dimensiones espaciales del plano de la imagen, R es el radio de desenfoque yrectrepresenta la función rectangular. En el modelo del pillbox, se asume que la luz se distribuye uniformemente en la región de desenfoque. La gráfica del modelo del pillbox en el dominio espacial se muestra en la Figura 2.4.

De tal manera que en la imagen, la información de la luz está esparcida en grupos de p´ıxeles, por lo que se debe estimar el grado de desenfoque para cada p´ıxel o pequeña región en la imagen. En los algoritmos, esto se hace encontrando una diferencia o variación de enfoque relativo entre el par de imágenes con diferentes parámetros, y si se logra medir esta variación, se puede obtener R. Si de alguna forma, se pudiese realizar una convolución inversa en la relacion (2.6), se podr´ıan obtener estimados de

(24)

[image:24.612.188.460.96.286.2]

Figura 2.4: Modelo del pillbox en el dominio del espacio.

basados en el dominio espacial. Esta es la perspectiva a grandes rasgos que utilizan los métodos fundamentados en este tipo de análisis. Mas adelante en este Cap´ıtulo, se analizará una técnica basada en estos principios.

2.2. An´

alisis en el dominio de la frecuencia

Una imagen con desenfoque, a simple vista, presenta menos contraste que la misma imagen cuando está enfocada. Desde el punto de vista de la frecuencia espacial, esto quiere decir que el espectro de una imagen enfocada tiene mayor ancho de banda que el de la misma imagen desenfocada. Las técnicas de DFD que utilizan el análisis frecuencial se basan en este hecho. Para formalizar esta perspectiva, necesitamos transformar la información que tenemos al dominio de la frecuencia.

En el dominio de Fourier, por el teorema de la convoluci´on, podemos expresar la ecuaci´on (2.6) de la siguiente manera:

Id(u, v, R) =I(u, v)_·H(u, v) (2.8)

(25)

Transformamos ahora el modelo del pillbox de la ecuaci´on (2.7) del dominio espa-cial al dominio de Fourier, obteniendo lo siguiente:

H(u, v, R) = 1

πR√u2₊_v2 J1

2πR√u2₊_v2 _(2.9)

[image:25.612.179.462.288.465.2]

dondeJ1 representa la función Bessel del primer tipo y primer orden. La función Bessel tiene una forma de filtro paso bajo, por lo que es evidente de la ecuación (2.9) que el pillbox actúa como tal. En la Figura 2.5 graficamos la función en (2.9) centrando el origen, y podemos observar claramente el efecto de filtro paso bajo en el dominio de la frecuencia.

Figura 2.5: Modelo del pillbox en el dominio de la frecuencia espacial

Podemos realizar un corte transversal en la Figura 2.5 para ver el efecto del filtro paso bajo de una manera distinta, sin afectar la forma del modelo pues el pillbox es rotacionalmente sim´etrico. Podemos cambiar entonces el sistema de coordenadas del dominio de la frecuencia espacial a coordenadas polares (fr, fθ) donde fr es la

frecuencia radial dada por fr = √u2₊_v2_{, y} _fθ _{es el ángulo a la cual la frecuencia} radial es expresada, el cual por la simetr´ıa rotacional,fr será constante para todos los valores de fθ. En la Figura 2.6 se grafica el modelo del pillbox de (2.9) en función de la frecuencia radial fr para varios valores de R, y podemos apreciar que la gráfica con la mayor ca´ıda es aquella para un radio de desenfoque R mayor.

(26)

[image:26.612.111.519.205.555.2]

(27)

el filtrado es mayor. Entonces, para poder calcular el nivel o grado de desenfoque en cada p´ıxel de la imagen partiendo de estos principios frecuenciales, se necesitar´ıa de alguna manera medir los grados de filtraje que existen en cada p´ıxel o bien grupos de p´ıxeles de la imagen. Si se pudiera obtener esta información, se pueden establecer relaciones entre el grado de filtraje y el grado de desenfoque, y posteriormente obtener la profundidad. Este es, a grandes rasgos, el enfoque frecuencial que se utiliza para atacar el problema de DFD. Más adelante en este Cap´ıtulo, se analizará una técnica basada en el dominio de la frecuencia espacial.

2.3. Problem´

aticas f´ısicas y de implementaci´

on

Dentro del desarrollo de las técnicas de DFD nos encontramos con problemas f´ısicos y ópticos inherentes al método, los cuales son fuentes de error en los resultados.

2.3.1. Iluminaci´

on

La iluminación de la escena al momento de capturar las imágenes es esencial para la calidad de las mismas. Como la formación de la imagen es debida a la luz que refleja la escena y que es recolectada por la lente, una mala iluminación es indeseable en las imágenes a utilizar en los algoritmos. Se puede llegar a pensar que en un método originalmente pasivo, al controlar la iluminación de la escena estar´ıamos cayendo en un método activo de DFD, sin embargo, como la iluminación es independiente de los objetos que hay en la escena, es decir, la iluminación es la misma siempre, y no cambia las caracter´ısticas espaciales o de frecuencia espacial de la escena mas que la cantidad de luz que reflejan, entonces no se cae en un método activo cuando se proporciona al entorno una buena iluminación.

Ya que se necesitan m´ınimo dos imágenes de la escena con diferentes parámetros, si esas imágenes no son tomadas simultáneamente, puede también existir una variación en la iluminación de la escena durante el tiempo que existe entre la captura de cada imagen. Si las imágenes son capturadas simultáneamente, no existe este problema.

Colocando alguna fuente de luz con buena intensidad y que asegure no tener variaciones en la iluminaci´on, se pueden controlar en cierto grado estas problem´aticas.

2.3.2. Aberraciones de la lente

(28)

llamados también aberraciones, las cuales causan que la proyección de la luz no sea en la dirección correcta, es decir, que la luz proveniente de la imagen no siempre se proyectará a través de la lente en la dirección en la cual debe incidir en el plano de la imagen.

Por otro lado, la lente puede absorber luz en el proceso, es decir, que no toda la luz que ”entra”en la lente es proyectada. Desde el punto de vista matemático, esto quiere decir que la función de transferencia de la lente, es decir, la PSF tiene una ganancia digamos menor a uno, ocasionando que no toda la luz de entrada llegue a la salida. En una lente sin pérdidas, en donde la lente no absorbe luz, la PSF cumple lo siguiente:

Z Z

h(x, y)dx dy= 1 (2.10)

La mayor´ıa de las veces estos dos problemas no afectan de una manera relevante la imagen, pero debe tomarse en cuenta al realizar las pruebas antes de ser ignorados.

2.3.3. Ruido del sensor

En la captura de una imagen digital, como es el caso de las imágenes que se utilizan en los algoritmos de DFD, se utiliza un sensor de imagen llamado CCD, por sus siglas en inglés charge-couple device, el cual muestrea la luz que forma la imagen, y éste puede añadir ruido en su proceso de cuantización. Una manera de atacar este problema en una imagen, es tomando varias veces la imagen controlando que no haya cambios en la escena, y promediar el conjunto de imágenes, de esta manera, el ruido proveniente del CCD se disminuir´ıa. Esta solución requiere de más tiempo para la toma de las imágenes, pero es útil cuando nuestra principal fuente de ruido es el CCD.

2.3.4. Captura de las im´

agenes

(29)

correcta-captura repetida para cada una de las dos imágenes, el tiempo total de correcta-captura puede crecer demasiado. El tiempo máximo permitido del funcionamiento del algoritmo en total dependerá de la aplicación. La ventaja de la lente motorizada, es que se tiene un solo CCD y una sola lente.

[image:29.612.199.446.318.573.2]

Para capturar las imágenes simultáneamente, se necesitan dos CCD’s, colocando un semi-espejo detrás de la lente, el cual es un espejo que refleja la mitad de la luz incidente y deja pasar la otra mitad, de tal manera que la luz que proviene de la imagen llega a dos CCD distintos con parámetros de la lente diferentes, como lo puede ser la distancia de la lente al sensor, como se muestra en la Figura 2.7, en donde la distancia total de la lente al primer CCD depende dea y la distancia al segundo sensor depende deb. De esta manera, se tienen dos CCD’s y un solo punto de vista, respetando as´ı el principio de monoscop´ıa.

Figura 2.7: Captura simult´anea de las dos im´agenes

(30)

2.3.5. Magnificaci´

on ´

optica

La magnificación óptica es el cambio entre el tamaño original de un objeto y el tamaño que presenta en la imagen. Esta magnificación es proporcional a la distancia que hay entre la lente y el sensor de la imagen. Un ejemplo de este fenómeno es cuando se toma la fotograf´ıa de una calle recta desde el centro y en dirección de la misma; las l´ıneas laterales de la calle, para una distancia muy lejana, parecen juntarse en un punto de la imagen, que en geometr´ıa proyectiva se conoce como vanishing point.

La magnificación en s´ı no es un problema, pero ya que en DFD se necesitan dos imágenes iguales pero con distinto desenfoque, cuando se cambia el enfoque entre una y otra imagen cambia también la magnificación si el parámetro que se var´ıa es la distancia entre la lente y el sensor de la imagen, dando como resultado que las dos imágenes sean ligeramente distintas entre s´ı, y la correspondencia de p´ıxeles no sea directa.

Para contrarrestar este problema, se pueden usar lentes telecéntricas [22], las cuales eliminan totalmente la magnificación en la imagen. Las lentes telecéntricas utilizan la apertura a una distancia focalF de la lente, en lugar de ponerlo justo junto a la lente, como se muestra en la Figura 2.8, en donde podemos observar que el rayo que cruza por el centro telecentr´ıcoO′ _{se proyecta paralelamente al eje óptico en el sensor, y esto}

[image:30.612.144.499.448.637.2]

pasar´a con cualquier rayo de luz proveniente de cualquier punto en la escena que cruce por O′_.

Figura 2.8: ´Optica telec´entrica.

(31)

me-contrario a la magnificación en una o ambas imágenes para que la correspondencia de p´ıxeles sea directa. En muchas ocasiones, el problema de la magnificación no afecta de una manera considerable, normalmente se encuentra dentro del 3 % [14], pero es necesario tener presente el concepto durante la implementación de los algoritmos de DFD.

2.3.6. Problema del

vignetting

El fenómeno del vignetting se produce en sistemas de lentes. El vignetting es la oclusión de objetos en la escena por una o más de las lentes o el diafragma, de tal manera que cada una de las lentes o el diafragma bloquea la proyección de la luz en el plano de la imagen debido a la posición, por lo que cada elemento puede limitar la luz en este sentido, ocasionando que parte de la escena sea omitida en la imagen. El problema del vignetting en DFD es casi despreciable, pero puede presentarse en casos especiales.

2.4. M´

etodos relevantes de Depth from Defocus

En esta sección se analizarán dos de las técnicas que se pueden considerar como más relevantes dentro de las técnicas de DFD, y cuyos autores también pueden ser considerados como dos de los más importantes investigadores en esta área.

2.4.1. Depth from Defocus mediante la

Transformada

espa-cial

Subbarao y Surya [13] desarrollaron este método de DFD mediante la Transfor-mada espacial o STM por sus siglas en inglés (Spatial Transform Method), el cual es un método pasivo y en el dominio del espacio. Al inicio de este Cap´ıtulo se presentó medi-ante la ecuación (2.5) una expresión directa para la distanciaden función del radio de desenfoqueR, pero dicha ecuación puede ser representada algebráicamente de distintas maneras, y los autores la manejan a conveniencia de los algoritmos. De la ecuación (2.3) dejando sólo el término deR obtenemos:

d= −

sD

2

R₋ sD₂ _F1 ₋ 1_s (2.11)

(32)

Para encontrar el valor experimental de R es necesario, como ya hemos dicho, utilizar la PSF. El STM es válido para cualquier PSF siempre y cuando sea rotacional-mente simétrica. Los modelos del pillbox y Gaussiano de dos dimensiones cumplen con esta condición (ver Apéndice). Hay que definir entonces una relación entre un parámetro obtenible para cualquier PSF, y el radio de desenfoque R; la desvación estándar es la mejor opción. La varianza para alguna PSF está dada por la siguiente relación:

σ2

h =

Z Z

(x2 +y2

)h(x, y)dxdy (2.12)

dondeσh es la desviación estándar de alguna PSF rotacionalmente simétrica dada por

h(x, y), y representa el esparcimiento del desenfoque, pues es directamente proporcional al radio de desenfoque R.

Subbarao y Surya [13] comprobaron de manera experimental que el modelo del pillbox es una mejor aproximación que el modelo Gaussiano de dos dimensiones para la región de desenfoque, por lo que se basan en el modelo del pillbox. De (2.11) podemos encontrar la desviación estándar para el modelo del pillbox en funcion de R, teniendo como resultado:

σh = √R

2 (2.13)

Si sustituimos (2.13) en (2.11) obtenemos:

d=

−sD

2√2

σh ₋ sD

2√2

1

F − 1s

(2.14)

y esta ecuaci´on puede ser expresada, por conveniencia, de la siguiente manera:

d = m

σh₋c (2.15)

donde

m= −sD

2√2 , c =

sD

2√2

1 F − 1 s (2.16)

(33)

parámet-(D1, s1, F1) y (D2, s2, F2) respectivamente. Cada imagen presentará un valor deσh difer-ente para cada región de la imagen en donde se considera invariante en el espacio, por lo tanto, se obtiene una relación como (2.15) para ambas imágenes:

d = m1

σ1−c1

(2.17)

donde σ1 es par´ametro de esparcimiento del desenfoque de la imagen i1(x, y) y

m1 = −

s1D1

2√2 , c1 =

s1D1 2√2

1

F1 − 1

s1

(2.18)

as´ı mismo

d = m2

σ2−c2

(2.19)

donde σ2 es par´ametro de esparcimiento del desenfoque de la imagen i2(x, y) y

m2 = −

s2D2

2√2 , c2 =

s2D2 2√2

1

F2 − 1

s2

(2.20)

En las relaciones anteriores, la distancia d de los objetos en la escena no cam-bia para las dos imágenes, pues lo único que se var´ıa entre ambas imágenes son los parámetros de la lente, por lo que podemos igualar (2.17) y (2.19):

d= m1

σ1−c1

= m2

σ2−c2

(2.21)

en donde si despejamos alguno de los par´ametros de esparcimiento del desenfoque, por ejemplo σh1 tenemos:

σ1 =

m

1

m2

σ2−

m

1c2

m2

+c1

σ1 =ασ2+β (2.22)

donde

α= m1

m2

, β =c1−

m1c2

m2

(34)

En esta última ecuación obtenemos una relación entre los parámetros de es-parcimiento de desenfoque de las dos imágenes obtenidas, y es la ecuación que hay que resolver.

Transformada espacial

La Transformada espacial es una transformada formal que fue desarrollada por Subbarao en [14], y puede ser utilizada para varias aplicaciones de señalesn-dimensionales tanto continuas como discretas que se puedan representar con polinomios de orden ar-bitrario, en este caso las imágenes. Mediante esta transformada es como Subbarao y Surya [13] resuelven la ecuación (2.22). Se pretende dar una breve descripción de los resultados de esta transformada que son utilizados para el STM.

Sea i(x, y) una imagen la cual es un polinomio c´ubico de dos variables definido en el espacio discreto por:

i(x, y) = 3

X

m=0 3−m

X

n=0

am,nxmyn (2.24)

donde am,n son los coeficientes del polinomio.

Se obtienen ahora por conveniencia los momentos de una PSF:

hm,n =

Z ∞

−∞

Z ∞

−∞

xm_yn_h₍_{x, y}₎_{dx dy} _(2.25)

Desarrollemos ahora la convolución de la imagen i(x, y) y una PSF tal y como se mencionó en la ecuación (2.6):

id(x, y) =

Z ∞

−∞

Z ∞

−∞

i(x₋ζ, y₋η)h(ζ, η)dζ dη (2.26)

Comoi(x, y) es un polinomio, se puede representar como una serie de Taylor, dada por:

i(x₋ζ, y₋η) = X

0≤m+n≤3

(₋ζ)m m!

(₋η)n n! i

m,n

(x, y)

i(x₋ζ, y₋η) = X

m n

(₋1)m+n m!n! i

m,n

(35)

donde

im,n₍_{x, y}₎

≡ ∂

m

∂xm ∂n

∂yn i(x, y) (2.28)

Si sustituimos (2.27) en (2.26) obtenemos:

id(x, y) =

Z ∞

−∞

Z ∞

−∞

X

0≤m+n≤3

(₋1)m+n m!n! i

m,n₍_{x, y}₎_ζm_ηn_h₍_{ζ, η}₎_{dζ dη}

id(x, y) = X

0≤m+n≤3

(₋1)m+n m!n! i

m,n₍_{x, y}₎Z ∞

−∞

Z ∞

−∞ ζ

m_ηn_h₍_{ζ, η}₎_{dζ dη} _(2.29)

Utilizando la ecuaci´on de los momentos de la PSF (2.25) la expresi´on (2.29) se reduce a:

id(x, y) = X

0≤m+n≤3

(₋1)m+n m!n! i

m,n₍_{x, y}₎_hm,n _(2.30)

La cual es la convolución de una funcióni(x, y) con otra funciónh(x, y) expresada como la suma de las derivadas parciales de i(x, y) y los momentos de h(x, y), y corre-sponde a la Transformada espacial. En esta aplicacióni(x, y) es la imagen y h(x, y) es la PSF. Desarrollamos la ecuación (2.30):

id(x, y) = i0,0

(x, y)h0,0−i 0,1

(x, y)h0,1−i 1,0

(x, y)h1,0+i 1,1

(x, y)h1,1 +i

0,2 (x, y)

2 h0,2+

i2,0 (x, y)

2 h2,0−

i1,2 (x, y)

2 h1,2−

i2,1 (x, y)

2 h2,1

− i

0,3 (x, y)

6 h0,3−

i3,0 (x, y)

6 h3,0 (2.31)

Como la PSF tiene la propiedad de ser rotacionalmente sim´etrica, se encuentra que:

h0,1 =h1,0 =h1,1 =h0,3 =h3,0 =h2,1 =h1,2 = 0 (2.32)

h0,2 =h2,0 (2.33)

(36)

h0,0 =

Z Z

h(x, y)dx dy = 1 (2.34)

Utilizando estos valores para los momentos de la PSF, la ecuaci´on (2.31) se reduce a lo siguiente:

id(x, y) =i(x, y) + h2,0 2

i2,0

(x, y) +i0,2

(x, y)

i(x, y) = id(x, y)₋ h2,0 2

i2,0

(x, y) +i0,2

(x, y) (2.35)

Aplicamos ahora por conveniencia las derivadas parciales en los dos lados de la ecuaci´on (2.30). Primero ∂2

∂x2:

i2,0

(x, y) = i2_d,0(x, y)₋ h4,0 2

i4,0

(x, y) +i2,2

(x, y)

i2,0

(x, y) =i2d,0(x, y) (2.36)

ya que las derivadas de orden mayor a 3 son 0, debido a que es un polinomio de orden 3 como se mencion´o cuando se empez´o a definir la Transformada espacial. De igual manera aplicamos ∂2

∂y2:

i0,2

(x, y) = i0d,2(x, y)− h0,4

2

i2,2

(x, y) +i0,4

(x, y)

i0,2

(x, y) =i0d,2(x, y) (2.37)

Se sustituyen ahora (2.36) y (2.37) en (2.35):

i(x, y) = id(x, y)₋ h2,0 2

i2d,0(x, y) +i

0,2

d (x, y)

i(x, y) =id(x, y)₋ h2,0 2

∂2

∂x2id(x, y) +

∂2

∂y2 id(x, y)

!

(37)

donde _∇2

es el operador Laplaciano. La ecuación (2.38) es una convolución inversa ya que expresa la función originali(x, y) en función de la función convolucionadaid(x, y), sus derivadas parciales y el segundo momento de la PSF. La ecuación (2.38) es la Transformada espacial inversa.

El t´ermino de h2,0 de la ecuaci´on (2.38) es el segundo momento de la PSF, por lo que con (2.12) y (2.25) obtenemos:

h2,0 =h0,2 =

Z Z

x2

h(x, y)dxdy=

Z Z

y2

h(x, y)dxdy= σ 2

h

2 (2.39) Sustituyendo (2.39) en (2.38) obtenemos finalmente:

i(x, y) =id(x, y)₋ σ 2

h

4 ∇ 2

id(x, y) (2.40)

La cual es una ecuación que nos permitirá resolver (2.22). Aplicando (2.40) para las dos imágenes i1(x, y), i2(x, y) con sus respectivos parámetros de esparcimiento de desenfoque σ1, σ2 obtenemos dos relaciones:

i(x, y) = i1(x, y)₋ σ 2 1 4 ∇

2

i1(x, y) (2.41)

i(x, y) = i2(x, y)₋ σ 2 2 4 ∇

2

i2(x, y) (2.42)

en donde ambas ecuaciones tienen la misma imagen i(x, y) como imagen original, ya que ambas im´agenes i1(x, y), i2(x, y) son distintas ´unicamente en el desenfoque, como hemos venido diciendo.

De esta manera, podemos igualar (2.41) y (2.42):

i1(x, y)₋σ 2 1 4 ∇

2

i1(x, y) =i2(x, y)₋ σ 2 2 4 ∇

2

i2(x, y) (2.43)

i1(x, y)₋i2(x, y) = 1 4 σ2 1∇ 2

i1(x, y)₋σ2 2∇

2

i2(x, y) (2.44)

(38)

∇2

i1(x, y) =_∇2

i2(x, y) (2.45)

y por lo tanto podemos proponer por conveniencia la siguiente igualdad:

∇2

i(x, y) = (∇ 2

i1(x, y) +∇2i2(x, y))

2 (2.46)

As´ı, podemos sustituir _∇2

i1(x, y) y _∇2

i2(x, y) por_∇2

i(x, y) en (2.44):

i1(x, y)₋i2(x, y) = 1 4

σ2 1∇

2

i(x, y)₋σ2 2∇

2

i(x, y)

i1(x, y)₋i2(x, y) = 1 4

σ2 1−σ

2 2

∇2

i(x, y) (2.47)

Finalmente, obtenemos con (2.47) una segunda ecuaci´on para formar junto con (2.22) un sistema de dos ecuaciones con dos inc´ognitas, de donde al sustituir (2.22) en (2.47) obtenemos:

i1(x, y)₋i2(x, y) = 1 4

(α σ2+β) 2

−σ2 2

∇2

i(x, y)

i1(x, y)₋i2(x, y) = 1 4

α2

σ2

2 + 2α σ2β+β 2

−σ2 2

∇2

i(x, y)

σ2 2

1

4(α 2

−1)_∇2

i(x, y)

+σ2

1

2α β∇ 2

i(x, y)

=

i1(x, y)₋i2(x, y)₋ 1 4β

2

∇2

i(x, y) (2.48)

o bien:

a σ2

2 +b σ2+c= 0 (2.49) donde:

a= 1

4(α 2

−1)_∇2

(39)

b= 1 2α β∇

2

i(x, y) (2.51)

c=i2(x, y)₋i1(x, y) + 1 4β

2

∇2

i(x, y) (2.52)

La ecuación cuadrática (2.49) se puede resolver en conjunto con sus constantes (2.50), (2.51), (2.52) y estas últimas a su vez utilizan la relación de Laplacianos (2.46) y las constantes (2.23), las cuales se calculan mediante los parámetros de la lente con las constantes de (2.18) y (2.20).

Los Laplacianos de (2.46) son computados utilizando las im´agenesi1(x, y),i2(x, y) mediante una convoluci´on con un kernel Laplaciano:

∇2

in(x, y) =in(x, y)_∗L(x, y) (2.53)

donde L(x, y) es un kernel Laplaciano.

Una vez que se obtiene el valor de σ2, la distancia de la profundidad d puede ser calculada mediante (2.19). Este es el principio básico del STM, al cual se le puede hacer una última modificación, ya que en la igualdad de (2.43) pudiese ser no válida en presencia de ruido, por lo que unsuavizado o smoothing es conveniente. Si a (2.47) para pequeñas regiones se eleva al cuadrado y posteriormente se integra en ambos lados de la igualdad se obtiene:

Z Z

(i1(x, y)₋i2(x, y) )2

dxdy= 1

16(σ 2 1 −σ

2 2)

2 Z Z (_∇2

i(x, y) )2

dxdy

(σ2 1 −σ

2 2)

2 = 16

R R

(i1(x, y)−i2(x, y) )2dxdy

R R

(_∇2

i(x, y) )2

dxdy (2.54)

o bien:

(σ2 1 −σ

2 2)

2 =G2

(2.55)

en donde:

G2 = 16

R R

(i1(x, y)₋i2(x, y) )2

dxdy

R R

(_∇2

i(x, y) )2

(40)

y por lo tanto:

σ2 1 −σ

2 2 =G

′

(2.57)

donde G′ ₌

±G. El signo de G′ _{en (2.57) depende en el signo de (}_σ2 1 −σ

2

2), y se de-berá escoger bajo algún criterio válido. Por ejemplo, si σ1 > σ2 hace que el G′ sea positiva, si σ1 < σ2 tenemos que G′ es negativa. Un parámetro de esparcimiento del desenfoque mayor representa un desenfoque mayor, por lo que si sabemos cual de las dos imágenes tiene mayor desenfoque en la pequeña región en cuestión, se puede es-coger correctamente el signo de G′_{. Sabemos que en una región con mayor desenfoque}

los cambios entre p´ıxeles son menos abruptos, por lo que la varianza ser´ıa un buen criterio para conocer cual de las regiones tiene mayor desenfoque, es decir, una var-ianza más pequeña significa que la relación entre p´ıxeles es más suave, es decir, con mayor desenfoque, por lo tanto se puede calcular la varianza en ambas regiones y con esta información se puede tomar una decisión para condicionar el signo de G′_{. Ahora}

podemos sustituir (2.22) en (2.57) :

(α σ2+β) 2

−σ2 2 =G

′

σ2 2(α

2

−1) + 2α β σ2+β 2

=G′

(2.58)

Y obtenemos nuevamente una ecuación cuadrática paraσ2 que al resolverla y com-putar la distancia mediante (2.19) se obtienen valores de profundidad d más precisos, ya que esta modificación ocasiona que el algoritmo sea más robusto en la presencia de ruido. Otra manera de obtener la distanciades tener una tabla de valores predefinidos experimentalmente para cada valor deσ2, de tal manera que cuando se obtenga un valor deσ2 la tabla regrese un valor de profundidad, lo cual representar´ıa mejores resultados en la estimación de profundidad.

2.4.2. Depth from Defocus mediante

Filtros Racionales

(41)

[image:41.612.142.500.179.449.2]

la escena. Introducen una variable llamada profundidad normalizada, la cual es una distancia que describe la posición del plano de perfecto enfoque para un punto en la escena y que es relativa a la posición de los planos del sensor para las dos imágenes, como se ilustra en la Figura 2.9.

Figura 2.9: Ilustraci´on de α y las distancias (1_±α)e

En la Figura 2.9, 2ees la distancia conocida entre los dos planos del sensor para las imágenes de enfoque cercano y lejano, yα es la profundidad normalizada la cual puede tomar valores en el rango [₋1,1], y es medida desde el punto medio entre los dos planos de las imágenes de enfoque cercano y lejano a la posición donde un determinado punto en la escena tiene su plano de imagen de perfecto enfoque. Por lo tanto, se pueden expresar las distancias entre el plano de imagen de perfecto enfoque para un punto en la escena y los planos de las imágenes de enfoque cercano y lejano como (1_±α)e, donde el signo positivo es para el plano de la imagen de enfoque lejano y el signo negativo para el plano de la imagen de enfoque cercano. De esta manera, si se puede medir la profundidad normalizada α para cada punto en la imagen, se puede obtener la profundidadd. Para medir el valor deα será necesario encontrarle una relación con el radio de desenfoque R el cual a su vez deberá ser aproximado con la PSF.

(42)

Figura 2.2 que dio lugar a la relación (2.2), pero en este caso la única diferencia es de notación, ya que de la Figura 2.9 podemos ver que la distancia (s₋d′_{) de la Figura}

2.2 corresponde en este an´alisis alterno a (1_±α)e y la distanciad′ _{al plano de perfecto}

enfoque de la Figura 2.2 equivale a γ + (1 +α)e, donde γ es la distancia del plano de la imagen de enfoque lejano, la cual es conocida, de esta manera, la relaci´on que se obtiene es la siguiente:

γ+ (1 +α)e

D/2 =

(1_±α)e R

R = (1±α)e D/2

γ+ (1 +α)e (2.59)

en donde podemos observar la relaci´on que existe entre la profundidad normalizada α

y el radio de desenfoque R.

Watanabe y Nayar [20] utilizan también el modelo del pillbox para la PSF en su algoritmo, por lo que corresponde ahora reescribir la expresión del modelo del pillbox en (2.7) en función la profundidad normalizada α por medio del radio R obtenido en (2.59):

h(x, y,(1_±α)e) = 4 (γ+ (1 +α)e) 2

π(1_±α)2_e2_D2 rect

(γ+ (1 +α)e)√x2₊_y2 (1_±α)e D

!

(2.60)

Y el modelo (2.60) en el dominio de la frecuencia mediante la Transformada de Fourier tal y como se hizo para (2.9) es:

H(u, v,(1_±α)e) = γ+ (1 +α)e

π(1_±α)e D/2√u2₊_v2J1

π(1_±α)e D√u2₊_v2

γ+ (1 +α)e

!

(2.61)

(43)

i1(x, y) =i(x, y)_∗h(x, y,(1 +α)e)

i2(x, y) =i(x, y)_∗h(x, y,(1₋α)e) (2.62)

I1(u, v) = I(u, v)_·H(u, v,(1 +α)e)

I2(u, v) =I(u, v)_·H(u, v,(1₋α)e) (2.63)

las cuales, recordemos, son v´alidas para peque˜nas regiones donde se asume que la imagen es invariante en el espacio.

Watanabe y Nayar [20] introducen el concepto delcociente normalizado, el cual es un cociente entre la suma y la resta de los modelados de las im´agenes de enfoque lejano y cercano en el dominio de la frecuencia espacial, como se muestra a continuaci´on:

m(x, y, α p(x, y, α) =

i2(x, y)₋i1(x, y)

i2(x, y) +i1(x, y)

M(u, v, α)

P(u, v, α) =

I2(u, v)₋I1(u, v)

I2(u, v) +I1(u, v) (2.64) donde M

P es el cociente normalizado. Sustituyendo en (2.64) las relaciones de (2.63) y

factorizando y eliminando el t´ermino com´un se obtiene:

M(u, v, α)

P(u, v, α) =

I(u, v)_·H(u, v,(1₋α)e)₋I(u, v)_·H(u, v,(1 +α)e)

I(u, v)_·H(u, v,(1₋α)e) +I(u, v)_·H(u, v,(1 +α)e)

M(u, v, α)

P(u, v, α) =

H(u, v,(1₋α)e)₋H(u, v,(1 +α)e)

H(u, v,(1₋α)e) +H(u, v,(1 +α)e) (2.65) El objetivo del cociente normalizado es el de modelar el comportamiento de la profundidad normalizada frente a la relación de las imágenes de enfoque cercano y lejano, de tal manera, que si se calcula el valor del cociente normalizado mediante las imágenes se pueda obtener un aproximado deα, y por consiguiente, de la profundidad

(44)

[image:44.612.129.542.210.534.2]

Figura 2.10: Gr´aficas de M

(45)

del cociente normalizado M

P en funci´on de la profundidad normalizadaαpara distintos

valores defr se presentan en la Figura 2.10.

En la Figura 2.10 podemos ver que el cociente normalizado M

P es una funci´on

monot´onica en el rango de [₋1,1] paraα, y para frecuencias radialesfrno muy grandes. Watanabe y Nayar [20] encontraron que la frecuencia radial m´axima para la cual se cumple la monotonicidad de M

P es aquella en donde el desenfoque es el extremo, por lo

que en la pr´actica no se presentar´a este caso.

Por lo tanto, se puede calcular un estimado de la profundidad normalizada αsi se tiene el valor del cociente normalizado M_P, pero como M_P est´a en el dominio de Fourier, es necesario encontrar su magnitud a partir del cociente normalizado en el dominio del espacio m

p el cual esta en funci´on de las im´agenes i1(x, y), i2(x, y) con las que se

cuentan. El problema es que la frecuencia de las imágenes es incierta, pues podr´ıa ser de cualquier tipo al tratarse de un enfoque pasivo. Por lo tanto, se deben utilizar filtros que sean capaces de muestrear todas las posibles frecuencias para las pequeñas regiones en las imágenes.

Se necesita encontrar un modelo que aproxime el comportamiento de M

P en la

Figura 2.10. [20] proponen un modelo racional defunciones base, dado por la siguiente expresi´on:

M(u, v, α)

P(u, v, α) =

PnP

i=1GPi(u, v)bPi(α) PnM

i=1GMi(u, v)bMi(α)

+ǫ(u, v, α) (2.66)

donde bPi, bMi son las funciones base, GPi(u, v), GMi(u, v) son sus respectivos

coefi-cientes, y ǫ(u, v, α) es el error residual de correcci´on. Sin embargo, si el modelo es lo suficientemente preciso, podemos reescribir la expresi´on (2.66) de la siguiente manera:

M(u, v, α)

P(u, v, α) =

PnP

i=1GPi(u, v)bPi(β) PnM

i=1GMi(u, v)bMi(β)

= R(u, v;β) (2.67)

donde en el lado derecho encontramos la profundidadβ el cual es un valor estimado de la profundidad normalizada α.

De la Figura 2.10 podemos apreciar que el comportamiento de M

P asemeja a una

recta para valores de α peque˜nos y a un polinomio c´ubico conforme _|α_| se acerca a 1, por lo que Watanabe y Nayar [20] proponen como funciones base:

M(u, v, α)

P(u, v, α) =

GP1(u, v)

GM1(u, v)

β+ GP2(u, v)

GM1(u, v)

β3

(46)

de tal manera que las variables de (2.67) tomaron los siguientes valores:

nP = 2, nM = 1, bP1(β) =β, bP2(β) = β

3

, bM1(β) = 1 (2.69)

En la relaci´on (2.68) podemos observar que el primer t´ermino del polinomio aprox-ima la forma lineal de M

P mientras que el segundo t´ermino del polinomio corrige la recta

para darle la forma cúbica. Debemos entonces encontrar las formas de los coeficientes racionales de (2.68), para que finalmente podamos resolver la ecuación paraβ y obtener as´ı el aproximado de profundidad. Dichos coeficientes serán el conjunto de filtros que deben muestrear todo el rango de frecuencia para las imágenes de enfoque lejano y cercano. Para encontrarlos, podemos proporcionar información a priori a la relación de (2.68) y poder describir la forma que tienen, para esto, se asume que β = α, de tal forma que al fijar alguno de los tres coeficientes se pueden obtener los espectros de los otros dos. Reescribamos (2.68) de la siguiente manera:

p0(u, v, α) =p1(u, v)β+p3(u, v)β3

(2.70)

en donde con la suposici´on de que β = α si fijamos alguno de los polinomios del lado derecho podemos encontrar el otro. Es de esta manera como Watanabe y Nayar [20] encuentran las funciones de los coeficientes racionales en el dominio de la frecuencia para el modelo en particular que proponen, y cuyos espectros en funcion de la frecuencia radial fr se muestran en la Figura 2.11.

Una vez encontrados, se puede probar la precisión del modelo propuesto mediante un cálculo deβpara valores deαpredeterminados, utilizando los coeficientes obtenidos. Mediante el método de Newton-Raphson podemos estimar un valor paraβ desde (2.70). El valor inicial para el método ser´ıa el que toma la función si despreciamos el término cúbico de corrección, es decir:

β0(u, v) = p0(u, v, α)

p1(u, v) (2.71)

por lo que el método después de una iteración queda de la siguiente manera:

β(u, v) = β0(u, v)₋−p0(u, v, α) +p1(u, v)β0+p3(u, v)β 3 0

p1(u, v) + 3p3(u, v)β2 0

(2.72)

(47)

[image:47.612.147.494.101.307.2]

Figura 2.11: Coeficientes racionales en funci´on defrobtenidos para el modelo propuesto de M

P y escalados para su mejor ilustraci´on [20]

β(u, v) =β0−

p3(u, v)β3 0

p1(u, v) + 3p3(u, v)β02

(2.73)

De esta ecuación se obtiene un valor del estimado de profundidad β mediante los coeficientes racionales dados por los términos p1(u, v), p3(u, v). Watanabe y Nayar [20] encontraron de esta manera que la precisión del modelo es muy exacta para un rango de frecuencias radiales fr un poco más amplio que el encontrado para que la monotonicidad de M

P sea v´alida, y este rango lo obtuvieron experimentalmente. Sin

embargo, se puede agregar un filtro previo al procesamiento en el algoritmo que remueva todas las componentes de frecuencia fuera de este rango deseado para evitar errores en los estimados de profundidad.

Ya con un modelo preciso para el cociente normalizado de M

P hay que encontrar

la manera de utilizarlo pero en el dominio del espacio. De (2.67) mediante productos cruzados obtenemos:

nM X

i=1

M(u, v, α)GMi(u, v)bMi(β) = nP X

i=1

P(u, v, α)GPi(u, v)bPi(β) (2.74)

(48)

Z ∞ −∞ Z ∞ −∞ nM X i=1

M(u, v, α)GMi(u, v)bMi(β) du dv=

Z ∞ −∞ Z ∞ −∞ nP X i=1

P(u, v, α)GPi(u, v)bPi(β) du dv nM X i=1 Z ∞ −∞ Z ∞

−∞M(u, v, α)GMi(u, v)du dv bMi(β) =

nP X i=1 Z ∞ −∞ Z ∞ −∞

P(u, v, α)GPi(u, v)du dv bPi(β) (2.75)

o bien:

nM X

i=1

cMi(α)bMi(β) = nP X

i=1

cPi(α)bPi(β) (2.76)

donde

cMi(α) = Z ∞

−∞

Z ∞

−∞

M(u, v, α)GMi(u, v)du dv

cPi(α) = Z ∞

−∞

Z ∞

−∞

P(u, v, α)GPi(u, v)du dv (2.77)

Para esta ´ultima ecuaci´on, podemos utilizar el teorema de Parseval [24], el cual es el siguiente:

Z ∞

−∞

Z ∞

−∞F(u, v)G(u, v)du dv=

Z ∞

−∞

Z ∞

−∞f(x, y)g(−x,−y)dx dy (2.78)

donde F(u, v), f(x, y) y G(u, v), g(x, y) son pares de Fourier. En el teorema, el lado derecho es una convoluci´on, por lo que para (2.77) utilizando el teorema, obtenemos:

cMi(x, y, α) = Z ∞

−∞

Z ∞

−∞m(x ′

, y′

, α)gMi(x−x

′

, y₋y′

)dx′

dy′

cPi(x, y, α) = Z ∞

−∞

Z ∞

−∞p(x ′

, y′

, α)gPi(x−x

′

, y₋y′

)dx′

dy′

(49)

cMi(x, y, α) = m(x, y, α)∗gMi

cPi(x, y, α) = p(x, y, α)∗gPi (2.80)

las cuales implican que en realidad cMi, cPi tambi´en son funciones del dominio del

espacio (x, y). De esta manera, podemos encontrar las magnitudes de los espectros frecuenciales para el modelo del cociente normalizado M

P mediante convoluciones con los

coeficientes racionales en el dominio del espacio. Aplicando (2.80) para los coeficientes en el modelo de (2.68) obtenemos los coeficientes de inter´es:

cM1(x, y, α) = m(x, y, α)∗gM1

cP1(x, y, α) = p(x, y, α)∗gP1

cP2(x, y, α) = p(x, y, α)∗gP2 (2.81)

y utilizando estos coeficientes en el modelo (2.68) despu´es de realizarle productos cruza-dos, obtenemos:

cM1(x, y, α) = cP1(x, y, α)β+cP2(x, y, α)β

3

m(x, y, α)_∗gM1 =p(x, y, α)∗gP1β+p(x, y, α)∗gP2β

3

(2.82)

Y como las relaciones en (2.81) pueden ser obtenidas mediante las convoluciones de las im´agenes de enfoque lejano y cercano con los coeficientes de el modelo en cuesti´on, podemos obtener el estimado de profundidad β resolviendo (2.81).

(50)

ancho de banda en el dominio de la frecuencia. Watanabe y Nayar [20] proponen un tama˜no de 7_×7 para los kernels, y muestran un ejemplo de kernels para los coeficientes racionales basados en el modelo en particular que se ha utilizado hasta ahora, y se muestran a continuaci´on:

gM1 =

             

0,00133 0,0453 0,1799 0,297 0,1799 0,0453 ₋0,00133 0,0453 0,4009 0,8685 1,093 0,8685 0,4009 0,0453 0,1799 0,8685 2,957 4,077 2,957 0,8685 0,1799 0,297 1,093 4,077 6,005 4,077 1,093 0,297 0,1799 0,8685 2,957 4,077 2,957 0,8685 0,1799 0,0453 0,4009 0,8685 1,093 0,8685 0,4009 0,0453

−0,00133 0,0453 0,1799 0,297 0,1799 0,0453 ₋0,00133

             

gP1 =

             

−0,03983 ₋0,09189 ₋0,198 ₋0,259 ₋0,198 ₋0,09189 ₋0,03983

−0,0198 ₋0,3276 ₋0,4702 ₋0,4256 ₋0,4702 ₋0,3276 ₋0,0198

−0,198 ₋0,4702 ₋0,3354 1,393 ₋0,3354 ₋0,4702 ₋0,198

−0,259 ₋0,4256 1,393 3,385 1,393 ₋0,4256 ₋0,259

−0,198 ₋0,4702 ₋0,3354 1,393 ₋0,3354 ₋0,4702 ₋0,198

−0,0198 ₋0,3276 ₋0,4702 ₋0,4256 ₋0,4702 ₋0,3276 ₋0,0198

−0,03983 ₋0,09189 ₋0,198 ₋0,259 ₋0,198 ₋0,09189 ₋0,03983

             

gP2 =

             

0,05685 ₋0,02031 ₋0,06835 ₋0,06135 ₋0,06835 ₋0,02031 0,05685

−0,02031 ₋0,06831 0,05922 0,1454 0,05922 ₋0,06831 ₋0,02031

−0,06835 0,05922 0,1762 ₋0,01998 0,1762 0,05922 ₋0,06835

−0,06135 0,1454 ₋0,01998 ₋0,698 ₋0,01998 0,1454 ₋0,06135

−0,06835 0,05922 0,1762 ₋0,01998 0,1762 0,05922 ₋0,06835

−0,02031 ₋0,06831 0,05922 0,1454 0,05922 ₋0,06831 ₋0,02031 0,05685 ₋0,02031 ₋0,06835 ₋0,06135 ₋0,06835 ₋0,02031 0,05685

             

(51)

(52)

Cap´ıtulo 3

Implementaci´

on

En este Cap´ıtulo se muestran los resultados de la implementaci´on realizada dentro de este trabajo1

. La técnica implementada está basada en el método de filtros racionales de Watanabe y Nayar [20]. En la Figura 3.1 se muestra un diagrama a bloques del algo-ritmo implementado para su mejor entendimiento, en donde se muestran las variables presentadas en el Cap´ıtulo 2 para cada etapa del algoritmo.

En el diagrama de la Figura 3.1 el algoritmo base se muestra del lado izquierdo en los bloques de l´ıneas continuas, mientras que los bloques con l´ıneas punteadas son las modificaciones que mejoran los resultados del algoritmo básico. Aunque los autores del algoritmo utilizan el filtrado previo y el suavizado de manera permanente en sus experimentos, en la implementación de este trabajo se llegan a omitir estos bloques en algunos casos, ya que no siempre mejoran los resultados de los experimentos realizados. As´ı mismo, los últimos bloques son filtros en la etapa final del algoritmo, y dependiendo el caso, se hizo uso de alguno de estos filtros o alguna combinación de ellos para mejorar los resultados.

(53)

[image:53.612.117.528.162.600.2]

(54)

la matriz de β. Dependiendo de la combinación de bloques de la Figura 3.1 que se utilice, el código contiene desde 3 hasta 9 convoluciones, más operaciones simples en ciclos anidados que recorren los p´ıxeles de las variables de tamaño 659_×493, más la obtención de histogramas y el ordenamiento en sub-máscaras utilizadas en los filtros de moda y de mediana.

Se hicieron experimentos con imágenes sintéticas y reales para probar la efectividad del algoritmo, y los resultados se presentan a continuación.

3.1. Im´

agenes Sint´

eticas

Es conveniente hacer uso de imágenes sintéticas generadas computacionalmente con las caracter´ısticas requeridas para probar el funcionamiento del algoritmo libre de los errores causados por la captura de las imágenes que se comentaron en el Cap´ıtulo 2. Primeramente se utilizaron imágenes sintéticas con desenfoque sintético. Se generaron 2 imágenes hechas por simples l´ıneas rectas, y se les aplicó un desenfoque sintético, posteriormente se intercalaron segmentos de ambas imágenes para crear el efecto de que los segmentos de una de ellas estaban más lejos que los segmentos de la otra imagen. De esta manera se simularon las imágenes de enfoque lejano y cercanoi1(x, y),

[image:54.612.209.431.455.634.2]

i2(x, y) que utiliza el algoritmo. El par de im´agenes generadas se muestra en la Figura 3.2, y el resultado del algoritmo, es decir, su gr´afica en 3D se muestra en la Figura 3.3.

Figura 3.2: Im´agenes i1(x, y), i2(x, y) simuladas computacionalmente

(55)

[image:55.612.219.420.103.255.2]

Figura 3.3: Mapa de 3D, resultado del algoritmo para las imágenes sintéticas sintético. Se utilizaron 2 imágenes de texturas reales de arena y piedra, a las cuales se les generó un desenfoque sintético, y posteriormente fueron intercaladas de la misma manera que con las imágenes anteriores. El par de imágenes generadas se muestran en la Figura 3.4, y su mapa de 3D se muestra en la Figura 3.5.

(56)

[image:56.612.120.520.515.681.2]

Figura 3.5: Mapa de 3D para las im´agenes de textura real y desenfoque sint´etico

3.2. Im´

agenes Reales

Ya una vez probado el algoritmo para imágenes sintéticas, se realizaron experi-mentos con imágenes reales capturadas con equipo de video especializado para poder variar los parámetros de la lente en los pares de imágenes (ver Apéndice B). Se pre-sentan los pares de imágenes de dos objetos en los que se basan los resultados de estos experimentos. Los 2 pares de imágenes se muestran en la Figura 3.6 y en la Figu-ra 3.7. Se presentan los resultados obtenidos mediante los distintos filtros de mejoFigu-ra que aparecen en los bloques punteados del diagrama en la Figura 3.1, pretendiendo hacer una comparación entre la efectividad de cada uno, ya que dependiendo el caso, los resultados de alguno de los filtros son más efectivos.