Implementación y evaluación de algoritmos para la visualización de imágenes de campos de luz

(1)

Implementación y evaluación de algoritmos para la visualización de imágenes de campos de luz. Por Gustavo H. Bizai. Se distribuye bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Maestría en Análisis y

Procesamiento de Imágenes

Tesis:

“Implementación y evaluación de

algoritmos para la visualización de

imágenes de campos de luz”

Bioing. Gustavo H. Bizai

Marzo de 2018

(2)

ii

Agradecimientos

A Dios: nada es mérito mío, todo es su regalo.

A mi amada familia, mi esposa Roxana y mis hijos Jeremías, Justina y Donato, por su comprensión, paciencia y acompañamiento en esta etapa de mi vida.

A mi querida madre y mis hermanos y en especial a Ariana, por recibirme en su hogar de Córdoba; siempre me sentí como en casa.

A mi colega Adrián Salvatelli, con quien llevo recorridos más de 20 años en esta maravillosa vocación docente y de quien he aprendido muchas cosas pero sobre todo, el valor de la amistad.

Al Licenciado “Beto” Calderón, quien fuera profesor en mi carrera de grado y con quien tuve la dicha de reecontrarme como profesor de maestría. Gracias por sus enseñanzas y consejos.

A Ana Laffitte, Bartolomé Drozdowicz y Facundo “Jerry” Peiretti, por su aliento y apoyo para culminar este trabajo.

A los evaluadores de esta tesis, por su gentileza, esmero y dedicación.

(3)

iii

Abstract

In this thesis we determine the possibilities of using the light field model to generate new representations of a 3D scene by analyzing the space-angular information that contains the plenoptic function and its coding in a 4D matrix, selecting parametrization of two parallel planes. We implemented this coding, mutiperspective visualization and refocusing in the spatial and frequency domain, based on numerous authors and an experimental device. We evaluate the algorithms based on process times, preservation of the photometric attributes of the scene and refocus ranges. We conclude that the plenopic photography is a powerful tool for 3D visualization.

Resumen

(4)

1

Listado de Figuras, Gráficos y Tablas

Figura 1.1. Imágenes reenfocadas y vistas desde diferentes perspectivas …………..………….….…. 8

Figura 1.2. Manuscrito de Leonardo Da Vinci, sobre visión binocular ………...… 11

Figura 1.3. Dispositivos históricos para visualización estéreo ……….……… 12

Figura 1.4. Barreras de paralaje y lentículas ……….……….….… 13

Figura 1.5. Dibujo original de Lippmann de su sistema de lentículas ……….… 15

Figura 1.6. Esquema de funcionamiento del sistema autoestéreo de Lippmann ……….. 16

Figura 1.7. Dibujo original de Sokolov, sistema de imagen integral basado en estenopes ….… 17 Figura 2.1. Parametrización de los rayos Posición-Ángulo y Dos Planos Paralelos ………..….…… 21

Figura 2.2. Parametrización de los rayos simplificado ……….…. 21

Figura 2.3. Espacio de las fases q-p para Posición-Ángulo ……….………. 22

Figura 2.4. Espacio de las fases q-p para Dos Planos Paralelos ……….……..…… 22

Figura 2.5. Esquema de una cámara de agujero ……….……… 24

Figura 2.6. Espacio de los rayos correspondiente a una cámara de agujero ……….…….…… 24

Figura 2.7. Información de profundidad en una cámara de agujero ……….…….…………. 25

Figura 2.8. Esquema de formación de imagen para cámara de lentes convencional ………..…… 26

Figura 2.9. Recuperación de la imagen a partir de la integración de las proyecciones sobre el eje x del espacio de los rayos ….……….………..………….……… 26

Figura 2.10. Esquema de formación de imagen mediante una cámara de lentes convencional, para una escena con puntos en diferentes profundidades ……… 26

Figura 2.11. Esquema de una cámara plenóptica cuyas lentículas refractan los conos de luz correspondientes a puntos pertenecientes al plano focal ………..…..……… 27

Figura 2.12. Diferentes geometrías y organización de microlentes ………. 28

Figura 2.13. Dependencia entre la resolución espacial de la imagen y el pitch de las microlentes de una cámara plenóptica ………..………..… 29

Figura 2.14. Espacio de los rayos de una cámara plenóptica para dos puntos de la escena pertenecientes al plano focal ………..………. 29

Figura 2.15. Espacio de los rayos de una cámara plenóptica para puntos de la escena pertenecientes a diferentes profundidades ………..………..………….30

Figura 2.16. Integrales de proyección para reenfoques en diferentes profundidades de la escena ……….………….……. 31

Figura 2.17. Coordenadas del espacio de los rayos para imagen focalizada a distancia F’ ….…. 32 Figura 2.18. Cámara plenóptica Plenoptic 2.0 ………..………..…………... 34

Figura 2.19. Imagen Renderizada Plenoptic 2.0 ………..………..…….…….. 34

Figura 2.20. Prototipo Primera Generación de Adobe LightField Camera ….……….……. 35

Figura 2.21. Izq.: Segunda Generación de Adobe LF Camera ……….……… 36

Figura 2.22. Izq.: Cámara plenóptica de Georgiev, 3ª Generación ……….……… 36

Figura 2.23. Diferentes prototipos de cámaras plenópticas desarrolladas por el Grupo CAFADIS de la Universidad de La Laguna ……….………..….………. 37

Figura 2.24. Matriz de microcámaras “PiCam”, integrada en un teléfono móvil …………..….…… 38

Figura 2.25. Esquema de patente “Super Light - Field Lens”…………..……….. 38

Figura 2.26. Izq.: Microcámara plenóptica de 8Mp desarrollada por Toshiba ………….……… 39

(5)

2

Figura 2.28. Módulo MEMS de DigitalOptics “MEMS|cam” ………..………. 40

Figura 2.29. Modelos de cámaras Lytro ………..……….. 41

Figura 2.30. Modelos de cámaras Raytrix ………..……….………. 42

Figura 2.31. Gafas de Realidad Aumentada de AVEGANT ………..………….. 42

Figura 3.1. Detalle de las microimágenes capturadas con cámara plenóptica enfocada ………. 45

Figura 3.2. Detalle de imagen cruda de cámara Plenoptic 1.0 ………..…. 46

Figura 3.3. Influencia de la apertura de las microlentes en la profundidad de campo …….……. 48

Figura 3.4 Incremento del ruido a medida que disminuye la apertura de las microlentes ….… 49 Figura 3.5. Generación de imágenes en diferentes perspectivas para Plenoptic 1.0 …………..… 49

Figura 3.6. Ejemplo de imágenes recuperadas en diferentes perspectivas ……….…….. 50

Figura 3.7. Esquema de renderización para arquitectura Plenoptic 2.0 ……….…..….. 51

Figura 3.8. Renderización de una imagen capturada con una cámara Plenoptic 2.0 ………….…. 52

Figura 3.9. Reenfoques con algoritmo desplazamiento suma ……….…… 54

Figura 3.10. Esquema de la Transformación de Sesgado del espacio de los rayos ………….…….. 55

Figura 3.11. Refocalización por transformación de la radiancia ……….……… 55

Figura 3.12. Esquema comparativo Cámaras Plenoptic 1.0 y Plenoptic 2.0 ……….………. 56

Figura 3.13. Espacio de las fases para geometría Plenoptic 1.0 y Plenoptic 2.0 ………....…… 57

Figura 3.14. Esquema de formación de imagen en una cámara plenóptica enfocada ….……….. 58

Figura 3.15. Renderización por bloques para Plenoptic 2.0 ……….. 58

Figura 3.16. Relaciones entre el tamaño del bloque y de la microlente ……….…. 59

Figura 3.17. Imágenes resultado del algoritmo CorteBloques ……….………… 60

Figura 3.18. Espacio de fase q-p de una arquitectura Plenoptic 2.0 ……….……….. 61

Figura 3.19. Diagrama simplificado del algoritmo de Georgiev Basic Patch-Based Rendering . 61 Figura 3.20. Imágenes renderizadas con diferente tamaño de bloques ……….………. 64

Figura 3.21. Espacio de fase q-p de una arquitectura Plenoptic 2.0 para lograr el efecto de suavizado de las zonas fuera de foco ……….……… 65

Figura 3.22. Imágenes con Renderización por Bloques convencional y Renderización por Bloques con suavizado ………..………….………..…………..……….. 65

Figura 3.23. Pila Focal de 4 imágenes obtenida con el algoritmo Transformada Rápida Discreta del Focal Stack ……….………….………..……….……… 66

Figura 3.24. Transformación de un rayo según se desplace o refracte, parametrización posición – ángulo ……….………..……….……. 67

Figura 3.24. Refocalizaciones por corte del hiperespacio de Fourier de la radiancia ………….…. 70

Figura 3.25. Esquema del Teorema del Corte de Fourier ………..……….………… 71

Figura 3.26. Relaciones entre la posición del foco, sus proyecciones en el dominio espacial y las Transformadas de Forier de dichas proyecciones ………..……….……… 72

Figura 3.27. Proyecciones en el espacio de fase y sus espectros según rango de profundidades mapeado ………..………….………..……….………… 73

Figura 3.28. Imágenes reenfocadas con Filtro Planar Frecuencial ……… 74

(6)

3 Figura 4.2. Flujo de trabajo del algoritmo combinación de análisis de desenfoque y

correspondencia, de Tao y colaboradores ………..… 79

Figura 4.3. Resultados intermedios y final del mapa de profundidad, combinación de desenfoque y correspondencia ………..……….……. 80

Figura 4.4. Imágenes de mapas de profundidades obtenidas con algoritmo de Tao …..………… 80

Figura 4.5. Imagen original, su mapa de profundidad generado por Lytro Desktop y Mapa de Profundidad combinado Desenfoque-Correspondencia de Tao ……….…..……… 81

Figura 4.6. Imagen original de foco extendido (enfocada en todas las profundidades) y su mapa, generado por Lytro Desktop ………..………….………..………….82

Figura 4.7. Imagen original de foco extendido (enfocada en todas las profundidades) y su mapa, generado por algoritmo de Tao ……….……..………...………. 82

Figura 4.8. Mapa de profundidades generado por Lytro Desktop y por algoritmo de Tao ..…… 83

Figura 4.9. Imagen original de un gancho y su comparación con otros elementos ………..…..…. 84

Figura 4.10. Mapa de desenfoque, correspondencia y combinado obtenidos con el algoritmo de Tao. Mapa de profundidades generado por Lytro Desktop. Mapa de profundidades combinado, en formato de malla 3D ……….……… 84

Figura 5.1. Algunas fotografías de la escena preparada para obtener el set de datos ……… 87

Figura 5.2. Montaje de la escena con fantoma escalera ………..…… 87

Figura 5.3. Visualización de 2 perspectivas diferentes, cámara Lytro Illum ………..……. 89

Gráfico A. Tiempos de cómputo Desplazamiento-Suma, diferentes alfa ……….……. 91

Gráfico B. Tiempos de cómputo Desplazamiento-Suma, distintos pixeles / lentícula ………….… 91

Gráfico C. Tiempos de cómputo Desplazamiento Suma, diferente número microlentes ….…… 91

Gráfico D. Relación del tiempo de cómputo con el Nº lentículas, Desplazamiento Suma ….….. 91

Figura 5.4. Perfiles de imagen para observar regiones en foco ………….……….……… 92

Figura 5.5. Imagen reenfocada y su par filtrado Laplaciano, para diferentes alfa ……….... 94

Figura 5.6. Pares Filtrado Laplaciano y Sustracción Enfocada, para mismo valor alfa ……….…... 95

Figura 5.7. Imagen reenfocada y complemento de la diferencia reenfocada – infocus …………. 95

Figura 5.8. Pares Imagen reenfocada - Laplaciano para diferentes valores de alfa ………….……. 96

Figura 5.9. Pares Imagen renfocada - LoG para diferentes valores de alfa ……….……… 98

Figura 5.10. Imágenes fusionadas LoG para parámetros alfa contiguos ………..……… 99

Gráfico E. Tiempos de cómputo Sesgado de la Radiancia, diferentes parámetros theta …….. 100

Gráfico F. Tiempos de cómputo Sesgado de la Radiancia, distintos pixeles / lentícula …….…. 100

Gráfico G. Tiempos de cómputo Sesgado de la Radiancia, distinto número microlentes ….…. 100 Gráfico H. Relación del tiempo de cómputo con Nº lentículas, Sesgado de la Radiancia ….…. 100 Figura 5.11. Pares Imagen renfocada - LoG para diferentes valores de theta ……….…….…. 101

Figura 5.12. Imágenes fusionadas LoG para parámetros theta contiguos ………..…. 102

Figura 5.13. Preservación de los atributos de brillo, contraste y balance de color ………….…… 102

Figura 5.14. Perfiles de imagen por canal de color e histogramas ………. 103

Gráfico I. Tiempos de cómputo Corte del Espectro, diferentes parámetros beta ……….. 104

Gráfico J. Tiempos de cómputo Corte del Espectro, distintos pixeles / lentícula ……… 104

Gráfico K. Tiempos de cómputo Corte del Espectro, distinto número microlentes ……….. 104

Gráfico L. Relación del tiempo de cómputo con Nº lentículas, Corte del Espectro ……… 104

(7)

(8)

5

Contenido

Introducción ... 7

1.1. La información tridimensional ... 9

1.2. El enfoque, la paralaje y la sensación de profundidad... 10

1.3. Estrategias para captura y visualización de imágenes en 3 dimensiones ... 10

1.3.1. Visualización 3D a partir de múltiples imágenes... 11

1.3.2. Visualización 3D a partir de una única imagen ... 13

1.4. Origen y Estado del Arte de la Imagen Plenóptica ... 14

1.5. Objetivos de la Tesis ... 17

1.5.1. Objetivo General ... 17

1.5.2. Objetivos Específicos ... 17

La Imagen Integral ... 19

2.1. Parametrización de los rayos ... 20

2.1.1. Parametrización de dos planos paralelos y posición-ángulo ... 20

2.1.2. Campo de luz y función plenóptica ... 22

2.2. Estrategias de captura de los rayos ... 23

2.2.1. La cámara de agujero: sus ventajas y limitaciones ... 23

2.2.2. La cámara de lente convencional ... 25

2.2.3. La cámara plenóptica ... 27

2.3. Equipamiento disponible en la actualidad ... 35

2.3.1. Prototipos de Adobe ... 35

2.3.2. Cámara de Campos de Luz CAFADIS... 36

2.3.3. Cámara Matricial Pelican ... 37

2.3.4. Pixar Super LightField Lens ... 38

2.3.5. Toshiba LightField Camera Module ... 39

2.3.6. Nvidia Near-Eye Light Field Display ... 39

2.3.7. MEMScam de DigitalOptics Corporation... 40

2.3.8. Lytro ... 40

2.3.9. Raytrix... 41

2.3.10. Avegant: nueva plataforma de Realidad Mixta ... 42

2.3.11. Detectores de grafeno... 42

Procesamiento de las Imágenes Plenópticas ... 43

3.1. Función Plenóptica aplanada y 4D ... 44

3.1.1. Captura del LF ... 44

(9)

6

3.2. Renderización de captura original y subaperturas ... 47

3.2.1. Imagen en perspectiva para Plenoptic 1.0 ... 49

3.2.2. Imagen en perspectiva para Plenoptic 2.0 ... 50

3.3. Algoritmos de Refocalización ... 52

3.3.1. Refocalización en el dominio espacial ... 52

3.4. Teorema del Corte de Fourier y refocalización ... 67

Visualización tridimensional ... 75

4.1. La pila focal ... 76

4.2. Mapa de profundidades y malla 3D ... 76

Evaluación de Resultados ... 85

5.1. Diseño del experimento ... 86

5.2. Criterios de selección de los algoritmos ... 88

5.3. Resultados experimentales ... 90

5.3.1. Ensayos Algoritmo Desplazamiento Suma (desplaz_suma) ... 90

5.3.2. Ensayos Algoritmo Sesgado de la Radiancia (RefocusRadiancia) ... 99

5.3.3. Ensayos Algoritmo Corte del Espectro (RefocusEspectro)... 104

5.3.4. Ensayos Algoritmo Foco Volumétrico (LFBuild4DFreqHyperfan) ... 108

5.3.5. Ensayos Algoritmo Renderizado Plenoptic 2.0 por Bloques (BasicFullRender) ... 112

5.4. Comparación de los Resultados ... 114

(10)

7

Capítulo 1

Introducción

A modo de resumen, en los siguientes párrafos pretendemos capturar la atención del lector sobre el potencial de la fotografía plenóptica. Mediante una cámara fotográfica convencional que incorpora un cambio en la óptica, es posible obtener imágenes que nos permiten aproximarnos a una descripción tridimensional de una escena. Dicho cambio consiste en anteponer al sensor digital una matriz de microlentes que posibilitan a la cámara muestrear la distribución geométrica de la luz que ingresa, en una única exposición. Una vez hecha la captura, este tipo especial de fotografía requiere reordenar y combinar los valores registrados en cada fotosito, para lo cual se necesitan herramientas de cómputo.

El presente trabajo no se basa en el diseño de la cámara sino en el estudio, implementación y evaluación de diferentes algoritmos para el tratamiento de las imágenes capturadas, como un aporte al emergente campo de un tipo de fotografía computacional denominada fotografía plenóptica. El término plenóptica hace referencia a la distribución geométrica completa de los rayos de luz en el espacio. El desafío es enriquecer a la imagen sumándole dos atributos: enfoque a demanda en diferentes profundidades de la escena y visualización de la misma desde diferentes ángulos, para aprovechar el efecto de la paralaje. Ambos atributos le confieren a la imagen importante información acerca de las propiedades tridimensionales de la escena.

La manipulación de la información provista por la cámara plenóptica, a partir de una única captura, permite la obtención de información de la topografía de la escena. Cabe destacar que, como veremos más adelante, hay un par de estrategias para capturar la escena y existe una relación de compromiso entre la resolución de las imágenes recuperadas y los tiempos de proceso para lograrlo, a tal punto que uno de los dispositivos comerciales incorpora procesamiento paralelo en GPU.

(11)

8 Figura 1.1. Fila superior: reenfoques en diferentes profundidades de la escena. Fila inferior: visualización de la misma escena desde diferentes perspectivas de desplazamiento vertical. La línea azul subtendida sobre todas las imágenes muestra que, a esa profundidad en la escena, no se observan cambios de perspectiva. En cambio, la línea verde delata los desplazamientos del muñeco que se encuentra más cercano a la cámara.

(12)

9

1.1. La información tridimensional

Nuestra vida se desarrolla en un espacio tridimensionaldonde las cosas se posicionan, se miden y se explican según descriptores dimensionales espaciales. La visualización de una escena en dicho espacio involucra en el ser humano no sólo a sus ojos como sistemas de lentes y detectores de la luz, sino además mecanismos de percepción visual a nivel neurológico. Los ojos funcionan como par de sensores separados una determinada distancia que, por un método de triangulación que puede explicarse desde la óptica geométrica, perciben profundidad. Este mecanismo denominado estereopsis o visión estereoscópica, fue explicado por primera vez por Charles Wheatstone (1802-1875) [1]. Cada ojo captura en su retina una representación 2D del espacio, a la que denominamos imagen. David Marr [2], uno de los precursores del campo de la neurociencia computacional, define a la imagen mental creada a partir de dos imágenes retinianas como “representación 2.5D”. Pero la escena brinda más información: los objetos tienen diferentes texturas, proyectan sombras y al cambiar la posición de observación percibimos una variación aparente de la posición de los objetos, fenómeno denominado paralaje. Todo esto, junto con el aprendizaje que tenemos del mundo, extienden esta imagen 2.5D a la imagen mental plenamente 3D que nos informa acerca de la distribución y los descriptores arriba mencionados del espacio tridimensional.

La fotografía convencional reduce la información tridimensional a dos dimensiones, superponiendo la información de la dimensión “profundidad” en un plano (el plano focal de la cámara), con la consiguiente pérdida de dicha información 3D. La cámara convencional no registra todas las direcciones de la luz reflejada por la escena, sino la suma total de los rayos que alcanzan cada fotosito del sensor CMOS o CCD. Surge entonces la pregunta: ¿podemos capturar imágenes del mundo sin perder la información de profundidad?

Motiva la realización del presente trabajo la posibilidad de preservar y recuperar información espacial a partir de una toma fotográfica única. El valor agregado de profundidad en la imagen encuentra numerosas aplicaciones, por ejemplo, los citados en los párrafos siguientes. Al comienzo fue un mero objetivo comercial el dotar a los televisores de la capacidad 3D para poder reproducir las películas de la industria cinematográfica, lujo que se limitaba a las salas de cine equipadas con proyectores especiales. Nadie niega la “satisfacción visual” que provocan estos filmes, aunque hay que reconocer que este agregado de información no es imprescindible.

(13)

10

1.2. El enfoque, la paralaje y la sensación de

profundidad

La fotografía es uno de los inventos que ha permitido al hombre dar un salto cualitativo en todos los ámbitos de su vida: histórico, social, artístico, científico e industrial. El registro de una escena, su almacenamiento y hasta su procesamiento, constituyen hoy en día una realidad al alcance de la mayoría de las personas y resulta difícil imaginar al mundo sin la fotografía. Han pasado 178 años desde su descubrimiento por Louis Daguerre (1787-1851) y 175 años desde que el inventor inglés William Fox Talbot (1800-1877) obtuvo el primer registro fotográfico en papel. De aquellos tiempos hasta nuestros días, las mejoras en la fotografía han sido sustanciales y los avances de la electrónica le han dado una impronta tal que una cámara fotográfica o de video puede anexarse a casi cualquier dispositivo: teléfonos celulares, laptops, telescopios, entre tantos otros.

El hombre puede explorar una escena del mundo real tridimensional centrando su atención en diferentes puntos de interés y modificando la posición de observación para describir, por paralaje, la ubicación relativa de los objetos en el espacio. La Real Academia Española define a la paralaje como la “variación aparente de la posición de un objeto, especialmente un astro, al cambiar la posición del observador”. Entonces mediante movimientos de la cabeza el observador puede hacerse una idea cabal de las profundidades en la escena. Los objetos lejanos parecen moverse más lentamente que los objetos cercanos, y según vaya desplazándose el observador van descubriéndose aquellos que en otra posición quedaban ocluidos por los más cercanos. Cuando ve la misma escena en una fotografía ya sea en papel o en una pantalla, estas posibilidades están ausentes y el observador debe recurrir a otras pistas para inferir distancias. Estas pistas son, entre otras, perspectiva lineal, oclusiones, sombras, variaciones de luminancia y textura [7] y la interpretación que el cerebro hace de las mismas.

Otra de las pistas que utiliza el sistema visual humano para interpretar las profundidades en una escena se basa en los enfoques en la fotografía. Haciendo foco en diferentes puntos de la escena, el resto se nuestro sistema visual puede inferir la posición relativa de las cosas, por delante y por detrás del plano focal. Si se hace un “barrido” del foco en distintas profundidades de la escena, van apareciendo los detalles en los distintos planos focales mientras se mantiene difuso el resto de la escena y la interpretación de las profundidades mejora. Lo cierto es que focalizar exactamente en la profundidad deseada no es una tarea trivial y una vez hecha la captura, si el dispositivo es una cámara fotográfica convencional, no hay chances de cambiar a posteriori dicho plano focal.

La Figura 1.1 nos presenta las pistas antes mencionadas: reenfoque en diferentes profundidades y vistas en perspectiva de la escena.

1.3. Estrategias para captura y visualización de

imágenes en 3 dimensiones

(14)

11 Entonces cada fotosito acumula la cantidad de luz reflejada desde estas pequeñas zonas, lo que resulta en una captura 2D de una escena tridimensional, lo que se define como fotografía simple.

La extracción de información tridimensional de una imagen bidimensional consiste en la recuperación de los descriptores dimensionales espaciales perdidos por el mapeo de la escena 3D al plano de la imagen. Para obtener una representación tridimensional existen numerosos métodos basados en diferentes técnicas, que podrían clasificarse como reconstrucción o visualización 3D a partir de múltiples imágenes o a partir de una única imagen [8].

1.3.1. Visualización 3D a partir de múltiples imágenes

La estereoscopía es la técnica más difundida y estudiada para la visualización tridimensional y cálculo de profundidades. Se atribuyen al matemático griego Euclides que vivió entre los años 330 y 275 a.C. los primeros escritos donde se reconoce que la percepción de profundidad se debe a la visión binocular, por triangulación de la posición de sendos ojos. Leonardo Da Vinci (1452-1519) dejó manuscritos sobre sus estudios del fenómeno de la visión binocular [9] (Figura 1.2). Los desarrollos en visualización estéreo se iniciaron con el inglés Sir Charles Wheatstone (1802-1875) que describió el “fenómeno de la visión binocular” [1] y creó el estereoscopio (Figura 1.3.A), un dispositivo que mediante espejos ubica en la retina de cada ojo una imagen ligeramente desplazada. Esta doble imagen es procesada por el sistema visual como una sola imagen tridimensional. Sir David Brewster (1781-1868), contemporáneo de Wheatstone, propuso en 1845 una mejora (Figura 1.3.B) que tuvo su competencia en EEUU con el estereoscopio de Oliver Holmes(1809-1894) en 1859 (Figura 1.3.C). Este aparato fue evolucionando en el tiempo, pero bajo el mismo principio de funcionamiento, dando lugar a varios dispositivos (Figura 1.3.D). Una revisión histórica muy interesante puede consultarse en [10].

Cabe destacar que este sistema basado en un par de imágenes desplazadas depende de los mecanismos centrales de la visión para generar la sensación tridimensional.

Figura 1.2. Manuscrito de Leonardo Da Vinci, sobre visión binocular. Fuente: [9].

(15)

12 cámaras montadas en un sistema calibrado, cuyas dimensiones conocidas permiten los cálculos. Estas cámaras capturan el par de imágenes simultáneamente y se requiere identificar puntos de correspondencia entre las dos imágenes.

Los métodos de visión estéreo como disciplina de la Visión por Computadora vienen estudiándose hace más de 50 años. Uno de los primeros investigadores en investigar el problema de las ambigüedades y oclusiones en la correspondencia fue el húngaro Bela Julesz (1928-2003) [11] y hasta el día de hoy continúan perfeccionándose los métodos, traccionados por los desafíos que impone la navegación autónoma de robots y vehículos.

A B C

D E F

Figura 1.3. A: Estereoscopio de espejos reflectantes de Sir Charles Wheatstone (1833). B: Estereoscopio mejorado de Sir David Brewster (1845). C: Estereoscopio de Holmes (1859). D: Plastoscopio de Krügener (1899). E: Vivascopio de Harry Cox (1920). F: View_Master, introducido en 1939. Fuente: [10].

Una alternativa al uso de dos cámaras en un sistema calibrado es la cámara estereoscópica, que utiliza en un mismo cuerpo dos objetivos y captura en simultáneo un par de imágenes desplazadas. Apareció unos 10 años después de inventarse la fotografía en 1839 y fue utilizada hasta la década del 50 del siglo XIX.

(16)

13 reconstrucción 3D por el método denominado seccionamiento óptico, muy utilizado en microscopía [12], [13]. La segunda opción requiere múltiples capturas de la misma escena desde ángulos diferentes, en tomas sucesivas. Esta técnica se denomina “Structure from Motion” (SfM) y requiere como mínimo, tres imágenes para hacer la reconstrucción 3D. Existen varias líneas de investigación, principalmente en la Universidad de Stanford [14] y el Instituto Tecnológico de Massachusetts [15].

La única manera de obtener múltiples imágenes desde diferentes vistas con un único disparo es utilizando una matriz de cámaras. Tal es el caso de la matriz de 128 cámaras de video del Laboratorio de Computación Gráfica de Stanford, dispositivo que generó una profusa producción [16], [17].

1.3.2. Visualización 3D a partir de una única imagen

Basados en una única fotografía convencional y haciendo uso de un conocimiento previo de las características de la escena, es posible reconstruir dicha escena 3D a partir de su imagen 2D si se conocen texturas, formas y tamaños, oclusiones, puntos de fuga, etc., mediante los cuales pueden inferirse profundidades [8]. Hay varias propuestas, pero todas se limitan a escenas del mundo donde hay pistas tales como líneas de horizonte, cielo, puntos de fuga, y las reconstrucciones logradas guardan poco detalle de la escena.

Otras técnicas aprovechan nuestra visión binocular y su capacidad estereoscópica. Los TV 3D actuales hacen uso de la estereoscopía, presentando al observador en una única pantalla dos imágenes ligeramente desplazadas, que pueden estar organizadas de diferentes maneras: contiguas o intercaladas. Para mostrar estas imágenes de manera independiente a cada ojo, se requieren anteojos especiales denominados “pasivos”, que seleccionan o bloquean cada imagen usando colores complementarios o polarizadores, o sistemas de anteojos “activos” de obturación electrónica. Si el sistema no requiere gafas especiales se denomina autoestereoscópico, enviando una imagen diferente, ligeramente desplazada, a cada ojo. Esto puede lograrse, por ejemplo, anteponiendo a la imagen un dispositivo similar a una grilla, denominado barreras de paralaje, que ocluye para un ojo algunas regiones mientras deja pasar otras al otro ojo. También pueden utilizarse lentículas, como podemos observar en la Figura 1.4. Fue Frederic Ives (1856-1937) [18] quien investigó estas estrategias, aprincipios del siglo pasado. El problema con estos sistemas es el cansancio visual que provocan, dado que someten a los ojos a un conflicto entre acomodación de cristalinos y convergencia de los globos oculares.

Figura 1.4. Barreras de paralaje y lentículas, como medios para obtener visión autoestereoscópica de una imagen.

Fuente: Cmglee - Trabajo propio, CC BY-SA 3.0,

https://commons.wikimedia.org/w/ index.php?curid=14886721

(17)

14 experiencia 3D, pero requiere instrumentación específica y ambientes controlados por lo que su uso no es simple. El estudio en detalle de esta técnica escapa a los objetivos del presente trabajo.

En 1908 el Profesor Gabriel Lippmann (1845-1921)propuso un método basado en una matriz de lentes [19], [20], [21] y obtuvo imágenes que debían reproducirse luego anteponiendo nuevamente dicha matriz. Denominó a su técnica Fotografía Integral puesto que el resultado es la integración de todas las imágenes producidas por las pequeñas lentes en una imagen completa tridimensional. Este desarrollo presentaba inconvenientes técnicos para su implementación y quedó latente hasta el desarrollo de las computadoras y los sensores CCD. Edward Adelson y John Wang redescubren en 1992 esta técnica, a la que bautizan Fotografía Plenóptica [22]. Este nuevo tipo de fotografía permite, a partir de una única captura, reconstruir imágenes de la escena como si fuera observada desde diferentes puntos de vista y con foco en distintas profundidades. La cámara plenóptica captura el “campo de luz”, definido como la radiancia de los rayos de la escena en el espacio. La función que describe la intensidad de cada rayo de luz como una función de su posición y dirección se denomina “función plenóptica” y se tratará en detalle en el Capítulo 2.

La fotografía plenóptica requiere una matriz de microlentes antepuesta al sensor de imagen y un sistema de cómputo para realizar el postproceso. Se verá más adelante que existen cámaras plenópticas dedicadas, pero es factible obtener imágenes de campos de luz a partir de una cámara fotográfica convencional y un acople óptico con un arreglo de microlentes.

Ya sea bajo la modalidad de cámara plenóptica dedicada o cámara convencional con acople óptico de microlentes, la posibilidad de obtener con una única cámara y una única captura información acerca de la tridimensionalidad de la escena es una buena alternativa. En comparación con las opciones anteriores de múltiples capturas, dispositivos tales como estereoscopios o la necesidad de gafas especiales, la fotografía plenóptica se sitúa en un lugar de ventaja competitiva para la visualización 3D. Asimismo, la aparición constante de sensores de cada vez mayor resolución y la posibilidad de proceso en tiempo cuasi real en GPUs en reemplazo de computadoras, hacen de la fotografía plenóptica una técnica de imagen tridimensional muy promisoria.

1.4. Origen y Estado del Arte de la Imagen Plenóptica

Fue el Profesor Gabriel M. Lippmann quien propuso el 2 de marzo de 1908 frente a científicos de la Academia Francesa de las Ciencias, las bases teóricas para capturar una escena y reproducirla para brindar una sensación tridimensional [20], técnica que bautizó como “fotografía integral”. Asimismo, Lippmann inventó la reproducción de fotografías en color en 1886 y por este motivo recibió en 1908 el Premio Nobel, coincidentemente con su propuesta de Fotografía Integral.

(18)

15

a) b)

Figura 1.5. Dibujo original de Lippmann. a): Película de celuloide o colodión moldeada térmicamente con muescas esféricas en ambos lados, con emulsión fotosensible en la muesca de menor radio. b): Esquema original que muestra cómo un punto A se distribuye en las múltiples células. Fuente: [20].

Para la reproducción de la imagen capturada puede utilizarse el mismo sistema gracias a la reversibilidad del camino de los rayos luminosos. La fotografía integral constituye un verdadero método autoestéreo, es decir, no requiere colocarse gafasespeciales sino anteponer a la película revelada una matriz de lentes. Si se retroilumina la placa fotográfica especial (Figura 1.6.B) y se observa desde el lado de las muescas de menor radio, es posible visualizar la imagen con sensación de profundidad cuando se cambia levemente la perspectiva de visión moviendo la cabeza de lado a lado. Uno de los inconvenientes es que la película revelada es negativa y que la imagen se ve volteada de izquierda a derecha y de arriba a abajo, por lo que Lippmann debió recurrir a una doble rectificación, fotográfica y geométrica. El mismo año describió una comprobación experimental de su propuesta con unos bastones de vidrio en lugar del colodión termoformado, obteniendo mejores resultados [19]. Pero no fue hasta 1911 que Lippmann pudo verificar de manera teórica su propuesta, cuando utilizó 12 bastones de vidrio rectangulares de 6 mm por 2.5 mm, con un relieve esférico de un lado y plano del otro [21]. Después de la toma fotográfica, el negativo se procesa como de costumbre y se invierte, de manera que se obtiene un positivo transparente. Las doce imágenes formadas son diferentes, pues cada lente forma su imagen desde un punto de vista diferente. El positivo transparente se coloca donde estuvo el film fotosensible original y se ilumina a través de un difusor por detrás, luz que atraviesa el conjunto positivo-lentes. El observador mira a través de las lentes con los dos ojos y observa una sola visión en relieve del objeto fotografiado. Al mover la cabeza de lado a lado o de arriba a abajo, el mismo efecto se observa como si fuera en circunstancias similares cuando se mira el objeto real, es decir, objetos que se cubren unos a otros cuando se miran desde un punto, son vistos separados cuando se observan desde otra posición. Incluso con este simple aparato, el efecto es muy agradable. Lippman expresó: “al iluminar la placa, uno ya no ve imágenes microscópicas individuales; ellas son reemplazadas por una única imagen (integral), que se ve desde el mismo ángulo que el sujeto original” (“in illuminating the plate one no longer sees individual microscopic images; they are replaced by a single (integral) image, which is seen under the same angle as the original subject”)

(19)

16 Figura 1.6. Esquema

de funcionamiento del sistema autoestéreo de Lippmann. Fuente: modificado de [21].

Dados los inconvenientes técnicos para fabricar la matriz de lentes, P. P. Sokolov [24] utilizó una matriz de estenopes, y realizó una detallada comprobación matemática y experimental del método de Lippmann. Los estenopes (Figura 1.7) son pequeños orificios de perfil cónico de un diámetro de décimas de milímetro, sencillos de maquinar, pero presentan el problema de la escasa luz que dejan pasar. Sokolov capturó entonces la imagen del filamento incandescente de una lámpara, que pudo observarse luego como “flotando” en el espacio.

Tanto la propuesta de Lippmann como la de Sokolov tenían otro problema: las imágenes proyectadas son pseudoscópicas, esto es, están invertidas en profundidad observándose como más cercanos los objetos que en realidad están más lejanos en la escena. En 1930 Herbert Ives (1882-1953, hijo de Frederic Ives) estudió este problema y además de proponer soluciones, su aporte más significativo fue usar una lente de gran diámetro para formar la imagen sobre los estenopes [25], [26].

(20)

17 Figura 1.7. Dibujo original de Sokolov. Izq.: proceso de grabación de un punto luminoso a través de una matriz de estenopes con estructura cónica sobre una película fotográfica. Der.: Reconstrucción de la imagen tridimensional a través de una matriz de estenopes. Fuente: [24].

El trabajo que puso nuevamente sobre el tapete la fotografía integral fue el de Edward Adelson y John Wang [22], quienes presentaron la “cámara plenóptica” basada en la antigua propuesta de Lippmann y sustentada en las posibilidades que brindaban una MML, un sensor de imagen CCD y las capacidades de cómputo disponibles. Un año antes, el mismo Adelson junto con James Bergen habían formalizado la “función plenóptica” [32]. Dicha función será estudiada más adelante, pero es oportuno comentar que describe el conjunto de todos los rayos de luz que ocupa todo el espacio durante todo el tiempo. La insistencia de la “totalidad” de esta función es la razón de su nombre: óptica plena, completa, llena. Con esta función, Adelson y Bergen buscan representar una escena no como una superposición de superficies planas correspondientes a diferentes profundidades, sino más bien como un volumen desde el que fluyen rayos en todas las direcciones del espacio.

Desde Adelson hasta nuestros días, los avances de las cámaras plenópticas fueron de la mano de los avances de la microóptica y las capacidades de los sensores y cómputo de los procesadores. En el Capítulo 2 describiremos brevemente los desarrollos recientes más importantes.

1.5. Objetivos de la Tesis

1.5.1. Objetivo General

Motivados por lo presentado en los párrafos precedentes, nos proponemos como objetivo general de esta tesis generar algoritmos para la reconstrucción de imágenes a partir de su campo de luz y evaluar su performance.

1.5.2. Objetivos Específicos

(21)

18 1. Estudiar las técnicas disponibles para la reconstrucción de imágenes a partir de capturas

con cámaras plenópticas.

2. Generar las matrices imagen correspondientes a campos de luz de acceso público, para su manipulación en un entorno de programación.

(22)

19

Capítulo 2

La Imagen Integral

En el presente Capítulo estudiaremos las estrategias para la captura del campo de luz de la escena a partir de una única toma fotográfica.

Comenzaremos observando cómo a partir de las cámaras de agujero y de lente simple se forma la imagen en el sensor, con las ventajas y desventajas de cada caso. Estudiaremos alternativas de modelización de los rayos en el espacio que permitan representar la posición y dirección de los mismos. Veremos diferentes estrategias de captura de la información espacio-angular de una escena tridimensional y describiremos dos modelos de cámara plenóptica, con sus ventajas y desventajas. Cada una provee una codificación diferente del campo de luz. Pretendemos en esta parte de la Tesis comprender cómo se codifica y representa un campo de luz.

(23)

20

2.1. Parametrización de los rayos

En primer lugar, es conveniente repasar algunos conceptos de la óptica a los efectos de acotar el marco teórico.

La radiometría describe la transferencia de energía desde una fuente a un receptor, para todas las longitudes de onda del espectro electromagnético. Si dicha transferencia se normaliza a la respuesta espectral del ojo humano, se denomina fotometría. Es importante tomar en consideración esta diferencia cuando se trabaja con imágenes para diagnóstico médico, por ejemplo, dado que algunas modalidades operan en regiones no visibles del espectro y deben realizarse conversiones porque, en última instancia, importa la interpretación que el sistema visual humano hace de la escena.

La magnitud básica de la radiometría es la radiancia, propiedad de una superficie emisora de radiación electromagnética, sea que emerja de ella o se refleje. Se define como el flujo radiante emitido (en vatios) por unidad de longitud de onda (en micrones), por unidad de ángulo sólido (estereorradianes) y por unidad de área (metros cuadrados) proyectada sobre un plano normal a la dirección del rayo. La radiancia es una magnitud vectorial (depende del punto de observación) y se conserva con la propagación libre de oclusiones. Su par en fotometría es la luminancia, propiedad de las superficies emisoras de luz que se mide como intensidad luminosa (en candelas) por unidad de superficie en una dirección dada (en metros cuadrados). El equivalente desde el punto de vista de la precepción visual de la luminancia es el brillo.

La irradiancia es el flujo radiante que incide sobre una superficie y se mide en vatios por metro cuadrado (W/m2). La irradiancia es la magnitud radiométrica que “leen” los sensores. Su par fotométrico es la iluminancia, que se refiere a la recepción de la luz y se mide en cada punto de una superficie, en lúmenes por metro cuadrado o lux. En un CCD o CMOS de una cámara digital, la iluminancia se convierte en corriente eléctrica (mA) proporcional a los lux recibidos por cada elemento del sensor denominado fotosito y se somete a un procesamiento electrónico. Los valores analógicos originales se convierten en digitales y se construye la matriz imagen, que es el conjunto de los elementos de imagen denominados pixeles, cuyos valores numéricos representan la iluminancia original.

Para estudiar las transformaciones que sustentarán las estrategias para la codificación de los campos de luz y extracción de imágenes, se tendrá en cuenta el modelo de rayos de la luz (no el de onda ni el de partícula). En este marco, la luz se propaga en línea recta (rayo de luz) y satisface las propiedades geométricas de la reflexión y refracción. A los efectos de modelizar matemáticamente los sistemas ópticos, es necesario definir los parámetros que describen unívocamente a un rayo.

2.1.1. Parametrización de dos planos paralelos y posición-ángulo

(24)

21 rayo, que puede representarse por el punto (x,y) y la dupla de ángulos (ɸ, ɵ). En la parametrización 2PP el rayo queda definido por los puntos de intersección con 2 planos normales al eje óptico, separados una determinada distancia.

Figura 2.1. Parametrización de los rayos. Izq.: Posición-Ángulo (PA). Der.: Dos Planos Paralelos (2PP).

Una simplificación del esquema de la Figura 2.1 nos permite representar a los rayos en un diagrama 2D. Para el caso de la parametrización PA, existe un sistema coordenado de referencia

xyz donde el eje óptico coincide con el eje z y la ordenada es el eje y (también puede ser el eje x) del plano x-y. Para el caso de la parametrización 2PP, nuevamente el eje óptico se asigna a la abscisa y los planos paralelos se muestran como los ejes x y u de cada plano (también pueden ser los ejes y y v), que están separados una distancia d. Denominamos con la letra q a los puntos posición y con la letra p a la representación del ángulo como pendiente. En la Figura 2.2 observamos los esquemas.

(25)

22 Podemos ir un paso más allá. El denominado “espacio de las fases” es la representación cartesiana de la parametrización PA y en este espacio de las fases un punto, cuyas coordenadas son posición

q y ángulo p, representa un rayo. En la Figura 2.3 observamos dos rayos en diferentes posiciones q y con diferentes pendientes p.

Figura 2.3. Espacio de las fases q-p (derecha), correspondiente a dos rayos presentados en el diagrama simplificado 2D de la parametrización PA (izquierda).

De manera similar, podemos representar la parametrización 2PP en el “espacio de los rayos”. Por ejemplo, si dos rayos atraviesan los 2PP en diferentes puntos, estos rayos se observan como un par de puntos como se esquematiza en la Figura 2.4.

Figura 2.4. Espacio de los rayos x-u (derecha), correspondiente a dos rayos presentados en el diagrama simplificado 2D de la parametrización 2PP (izquierda).

¿Por qué nos interesa conocer a los rayos por sus atributos de posición y dirección? La respuesta está en el concepto de “campo de luz” que nombramos fugazmente en el capítulo anterior y que de aquí en adelante nombraremos con la sigla LF (del inglés “light field”).

2.1.2. Campo de luz y función plenóptica

Definido originalmente por Gershun [34], el LF es la cantidad de luz como función de la posición y dirección en el espacio, libre de oclusores. Representa el conjunto de todos los rayos de luz que ocupa el espacio.

(26)

23 número de pixeles y matrices de microlentes más pequeñas, que estudiaremos más adelante en el presente Capítulo.

La función plenóptica es intermediaria entre la escena y el sistema óptico. Representa los parámetros de la energía radiante del entorno y comunica los objetos físicos con los sensores de imagen. Es una función que describe el conjunto de todos los rayos de luz que ocupa el espacio durante todo el tiempo o, en otras palabras, contiene la información visual disponible para un observador en cualquier punto en el espacio. La insistencia de la “totalidad” de esta función es la razón de su nombre: óptica plena, completa, llena. La función plenóptica describe la luz en 7 dimensiones: posición en el espacio (3D), dirección (2D), frecuencia (1D) y tiempo (1D). La representación posición-ángulo esquematizada en la Figura 2.1 indica que un plano normal al eje óptico, coincidente con el eje z de un sistema coordenado de referencia xyz, es intersecado por un rayo en un punto (x,y,z) y forma dos ángulos con él (ɸ, ɵ). Con esta función, Adelson y Bergen buscan representar una escena como un volumen desde el que fluyen rayos en todas las direcciones del espacio. Cada punto en este espacio 7 dimensional corresponde a un único rayo de luz. Ahora bien, si consideramos imágenes estáticas podemos prescindir del parámetro temporal t y si trabajamos con imágenes de intensidad, tampoco es necesario considerar la longitud de onda λ que describe el color del rayo. En todo caso, utilizando un modelo de color RGB podemos procesar cada canal por separado para después concatenarlos y recuperar la cromaticidad. Con estas consideraciones la función plenóptica puede reducir su multimensionalidad a 5D, que representan la posición espacial del rayo (x,y,z)y los ángulos (ɸ, ɵ)que definen su dirección en el espacio. A posteriori y con la parametrización 2PP, Levoy y Hanrahan [33] redujeron a 4D la función plenóptica para referirse al campo de luz.

Nos interesa conocer, luego de una captura, la composición del LF de una escena que, como veremos de aquí en adelante, nos revelará información de los atributos tridimensionales de dicha escena.

2.2. Estrategias de captura de los rayos

Comprendidas las parametrizaciones de los rayos de luz y la necesidad de conocer sus posiciones y direcciones, vamos a estudiar cómo los rayos forman la imagen según las diferentes arquitecturas de las cámaras: de agujero, convencional de lentes y plenóptica, destacando sus ventajas y desventajas.

2.2.1. La cámara de agujero: sus ventajas y limitaciones

(27)

24 Figura 2.5. Esquema de una cámara de agujero.

Si asignamos al sensor de imagen un plano x-y y a la cara de la cámara donde está la apertura, un plano u-v, paralelo al anterior y ambos normales al eje óptico, podemos representar a los rayos mediante la parametrización 2PP. Entonces el rayo que atraviesa al plano en la apertura por el punto (u,v) e impacta en el punto (x,y) del plano del sensor, corresponde al punto (x,u) en el espacio de los rayos. En la Figura 2.6 presentamos el esquema de la cámara de agujero y el espacio de los rayos correspondiente a dicho esquema. Cada rayo de luz se convierte en un punto en la imagen. Dado que el plano del sensor es donde se forma la imagen de la escena, habitualmente se lo denomina “plano imagen”.

Figura 2.6. Espacio de los rayos correspondiente a una cámara de agujero, cuando provienen de un mismo plano a igual distancia escena-apertura.

(28)

25 El espacio de los rayos revela que no importa la distancia de la escena, la información en el eje u

siempre será cero dada la naturaleza de la apertura de la cámara estenopeica.

Figura 2.7. Información de profundidad en una cámara de agujero.

2.2.2. La cámara de lente convencional

Pareciera que la cámara de agujero resolvería nuestro problema de calcular las profundidades en la escena para luego representarlas por alguna superficie o similar, si no fuera por la escasísima luz que penetra por el estenope. La única manera de superar este impedimento es exponiendo la escena durante un tiempo prolongado, que hace impracticable el método para escenas dinámicas y cámaras sin apoyo firme.

La alternativa es ampliar la apertura para que ingrese más luz. Pero esto conduce a que un punto en la escena ya no se mapee en un punto en la imagen, sino en un círculo. Y dichos círculos van superponiéndose parcialmente para puntos contiguos en la escena, reproduciéndose imágenes borrosas. Entonces la solución es, manteniendo la apertura ampliada para el ingreso de luz, colocar lentes que nuevamente hagan converger un punto de la escena en un punto en la imagen. La Figura 2.8 representa un esquema para dos puntos ubicados a una distancia tal que los conos de luz que reflejan convergen en los correspondientes puntos en el plano imagen. Esto significa que la escena está en el plano focal y la imagen formada tiene la mayor nitidez. El sensor de imagen integra los rayos de los conos de luz correspondientes a cada punto y la gran diferencia con la cámara de agujero es que los puntos en el plano imagen reciben más luz y por lo tanto requieren menor tiempo de exposición.

Por otra parte, desde el punto de vista del espacio de los rayos, cada rayo sigue siendo representado por un punto, pero ahora la apertura es atravesada por un cono de rayos que se integran en una única posición en el plano imagen. Entonces el diagrama x-u se ve como en la Figura 2.8.

(29)

26 Figura 2.8. Esquema de formación de imagen mediante una cámara de lentes convencional, para una escena en el plano focal.

Figura 2.9. Recuperación de la imagen a partir de la integración de las proyecciones sobre el eje x del espacio de los rayos.

Si la escena presenta diferentes profundidades, los correspondientes puntos de imagen se formarán en diferentes planos si las lentes tienen foco fijo. En la Figura 2.10 observamos que la recta en el espacio de los rayos correspondiente a un punto que no pertenece al plano focal y que está más cerca del objetivo, se inclina en sentido horario. Si el punto estuviera por detrás del plano focal, la inclinación seguiría el sentido antihorario en la medida en que se incrementa esta distancia. Como hemos visto en la Figura 2.8, los puntos pertenecientes al plano focal se mapean como rectas verticales en el espacio de los rayos.

(30)

27 El punto de la escena que no pertenece al plano focal produce una mancha en el plano imagen, no un punto. Esto se asocia al borroneo observado en las estructuras de la escena que no están en foco. Para poner en foco dichas estructuras tenemos dos alternativas: desplazar el plano imagen a la posición donde convergen estos puntos o cambiar el foco de las lentes. Lo que hacen las cámaras convencionales es cambiar el foco de las lentes al ajustar las distancias entre las lentes que conforman el objetivo, sea de manera manual o automática, esto último denominado autofoco.

2.2.3. La cámara plenóptica

Hay una alternativa al hecho de que hasta ahora, si hacemos foco en una posición, no podemos enfocar en otra.

La cámara plenóptica cuenta con los mismos elementos que tiene una cámara tradicional, pero se diferencia por insertar antes del sensor de imagen, una matriz de microlentes (MML). La idea original de Lippmann [20] retomada por Adelson y Wang en 1992 [22], consiste en multiplexar la radiancia 4D sobre un sensor 2D, anteponiendo a dicho sensor una MML. Dichas microlentes refractan los conos de luz correspondientes a los puntos de la escena, de modo que los rayos se reparten en los fotositos del sensor digital ubicado una distancia f detrás de la matriz. Esta distancia f es la distancia focal de las microlentes de la MML. En el esquema de la Figura 2.11 mostramos que los pixeles ubicados detrás de cada microlente capturan por separado los rayos que provienen desde diferentes ángulos en el cono de luz, de manera que pueden guardar información angular que antes, en el caso de la cámara convencional, se integraba en el sensor. Llamaremos u’ al eje donde se ubica el sensor digital y du’ al tamaño del fotosito.

Figura 2.11. Esquema de una cámara plenóptica cuyas lentículas refractan los conos de luz correspondientes a puntos pertenecientes al plano focal.

Dado que la MML es el diferencial de la cámara plenóptica, consideramos conveniente presentar una breve descripción de las diferentes opciones en microlentes que existen en la actualidad.

(31)

28 medir tanto la distribución de intensidad como la distorsión de fase, en tiempo real, de frentes de onda. En esta aplicación, las microlentes deben tener apertura pequeña a los efectos de brindar la mayor resolución espacial en el sensado del frente. Pequeña apertura y longitud focal grande conducen a un número de Fresnel pequeño, con comportamientos más dominados por efectos de difracción que por refracción. Finalmente, otra de las aplicaciones de las matrices de microlentes es la homogenización de haces láser, que provee a la salida diferentes patrones de iluminación (superficie plana, patrón de puntos y patrón de líneas).

Las microlentes son refractivas y como tales, desvían la luz incidente de acuerdo a la Ley de Snell de manera similar a las grandes lentes. Pero cuando sus dimensiones son muy pequeñas, pueden aparecer fenómenos relacionados con el límite de difracción. Las geometrías pueden ser circulares (dispuestas en grillas cuadráticas o hexagonales), cuadradas, cilíndricas o hexagonales. Las cuadradas y hexagonales son las de mayor factor de llenado, dado que hacen contacto full entre vecinas optimizando la eficiencia de captación y transmisión de la luz (Figura 2.12).

Los materiales utilizados en la confección de las microlentes son el cuarzo (fused silica), silicio, borofloat (pyrex), epoxy y diferentes polímeros. Sus índices de refracción diferentes conducen a diferentes distancias focales y paso de diferentes bandas de luz.

La fabricación de microlentes involucra tecnologías de fabricación de semiconductores tales como fotolitografía y RIE (reactive-ion etching). Estas tecnologías permiten un muy exacto moldeado de los perfiles de las microlentes así como también su preciso posicionamiento dentro de la matriz.

Figura 2.12. Diferentes geometrías y organización de microlentes. De izquierda a derecha: Circular Lenses Quadratic Grid; Square Lenses; Circular Lenses Hexagonal Grid; Hexagonal Lenses.

Volviendo al caso del esquema de la Figura 2.11, vemos que son seis los pixeles en los que se reparten los rayos. En la medida en que aumenta la cantidad de estos pixeles aumenta la resolución angular, es decir, la capacidad de la cámara de discriminar entre ángulos pequeños es mayor. Volveremos sobre este tema en el Capítulo 3.

(32)

29 denominada pitch. Cuanto más pequeño es el pitch de las microlentes, mayor es la resolución espacial que puede alcanzarse. En el diagrama de la Figura 2.13 esquematizamos esta propiedad.

Figura 2.13. Dependencia entre la resolución espacial de la imagen y el pitch de las microlentes de una cámara plenóptica.

El espacio de los rayos correspondientes a la cámara plenóptica es como el mostrado en la Figura 2.14. Ahora los boxes representan a cada fotosito. Como en este ejemplo hay 6 fotositos debajo de cada microlente, en la dirección u del espacio de los rayos hay 6 boxes. En la dirección x hay tantos boxes como microlentes. Entonces cada pila vertical de boxes en una posición x es el conjunto de los pixeles bajo la microlente ubicada en dicha posición x. Basados en los esquemas de las Figuras 2.11y 2.13 y apoyados en la Figura 2.14, podemos decir que la posición es muestreada por las microlentes mientras que la dirección es muestreada por los pixeles del sensor.

Figura 2.14. Espacio de los rayos de una cámara plenóptica para dos puntos de la escena pertenecientes al plano focal.

Nuevamente, de manera similar a lo que sucede con el espacio de los rayos de una cámara convencional, los puntos enfocados se observan como rectas verticales.

(33)

30 Figura 2.15. Espacio de los rayos de una cámara plenóptica para puntos de la escena pertenecientes a diferentes profundidades.

La imagen se obtiene integrando en todas las direcciones, es decir, proyectando sobre el eje de las posiciones x los ángulos u. Para el caso de la Figura 2.15, la única proyección que da como resultado un punto, suma de los rayos que conforman el cono, es la correspondiente al punto ubicado en el plano focal. Por otra parte, las proyecciones en el resto de las posiciones dan como resultado manchas en el eje de las posiciones x, es decir, puntos fuera de foco, como era de esperar para puntos en la escena que no pertenecen al plano focal. Queda claro que la imagen correspondiente al “foco óptico”, es decir, al que hizo la cámara de acuerdo a la refracción de las lentes del objetivo en la captura, se obtiene al sumar los pixeles correspondientes a cada una de las microlentes. Entonces se asigna este valor, que en realidad es el promedio de las intensidades para preservar el brillo, a cada posición (x,y) que ocupa cada microlente. A esta recuperación de la imagen la denominaremos “renderización”.

(34)

31 Figura 2.16. Integrales de proyección para reenfoques en diferentes profundidades de la escena de la Figura 2.15.

Según la inclinación en la que calculamos las integrales de proyección, obtenemos imágenes reenfocadas en diferentes profundidades.

En el apartado 2.1.2 comentamos que con la parametrización 2PP, Levoy y Hanrahan [33] redujeron a 4D la función plenóptica para referirse al LF. Los dos planos paralelos de la cámara plenóptica son el (x,y) y el (u,v). Entonces cada rayo queda definido por los puntos (x,y,u,v) y el conjunto de todos ellos ocupando el espacio es el LF(x,y,u,v). Veremos a continuación la relación que existe entre el LF y la distancia entre los planos paralelos, a través del Operador de Formación Fotográfica.

El Operador de Formación Fotográfica.

La irradiancia desde la apertura en la lente sobre un punto en el sensor, es la integral de la radiancia que entra por la lente. La irradiancia sobre el sensor en la posición (x,y) es [35]:

𝐸 (𝑥, 𝑦) = ∬ 𝐿𝐹(𝑥, 𝑦, 𝑢, 𝑣) cos 𝜃 𝑑𝑢 𝑑𝑣 (1)

El coseno a la cuarta potencia se refiere al viñeteo óptico que se da cuando se incrementa el ángulo con el que ingresan los rayos de la escena, en relación con el eje óptico. Cuanto más oblicuo es dicho ángulo, mayor la probabilidad de que las lentes lo desvíen fuera del área activa de los fotositos, disminuyendo el nivel de iluminación. Como pretendemos representar la dirección de los rayos en función de las distancias entre los planos de parametrización, no interesa este ángulo y por lo tanto, puede obviarse. Entonces asumimos que 𝐿𝐹(𝑥, 𝑦, 𝑢, 𝑣) ∶= 𝐿𝐹(𝑥, 𝑦, 𝑢, 𝑣) cos 𝜃 [36]. Otra asunción es que los planos 𝑥𝑦 y 𝑢𝑣 son infinitos y que la luz es simplemente cero fuera de los límites físicos de la apertura y el sensor.

(35)

32 Figura 2.17. Coordenadas del espacio de los rayos para una imagen focalizada a una distancia F’. Fuente: [37].

Ahora la imagen está focalizada a una nueva distancia F’ y necesitamos convertir (1) expresando el nuevo LF’(x’,y’,u,v) en términos de LF(x,y,u,v). Cabe recordar que, a los efectos de facilitar la comprensión, se muestra el diagrama en 2D, para u y x. Con las dimensiones v e y las relaciones son las mismas. Si definimos alfa como la relación α = F’/F, se demuestra por triángulos semejantes que:

𝐿𝐹 (𝑥 , 𝑦 , 𝑢, 𝑣) = 𝐿𝐹 𝑢 + , 𝑣 + , 𝑢, 𝑣 = 𝐿𝐹 𝑢 1 − + , 𝑣 1 − + , 𝑢, 𝑣 (2)

Entonces (1) se expresa en términos del nuevo plano de refocalización (2) ubicado en la posición αF como:

𝐸 (𝑥 , 𝑦 ) = ∬ 𝐿𝐹 𝑢 1 − + , 𝑣 1 − + , 𝑢, 𝑣 𝑑𝑢 𝑑𝑣 (3)

La ecuación (3) muestra al conjunto de rayos que converge a la posición (x’,y’). EαF es la

fotografía formada sobre el sensor virtual a una profundidad αF y se denomina Operador de Formación Fotográfica. Esto significa que si LF es el campo de luz parametrizado por un plano

x-y a una distancia F del plano u-v de las lentes objetivo, podemos poner en foco (“refocalizar”) la escena a diferentes distancias F’. Es necesario evaluar esta integral para cada punto (x’,y’) a fin de obtener una fotografía enfocada en F’.

Una forma de evaluar esta integral es mediante técnicas de cuadratura numérica, muestreando el integrando para diferentes valores de u y v y sumándolos. Otro método se basa en darnos cuenta de que, como hemos mostrado en las Figuras 2.15 y 2.16 para una sola dimensión, el LF se deforma en función de las distancias a las que se hace foco y la imagen enfocada surge de integrar en u y v este LF deformado, es decir, obtener una proyección hacia un plano 2D. Los algoritmos para recuperar las imágenes a partir del LF se tratarán en el Capítulo 3.

La cámara “Plenoptic 1.0”

(36)

33 explicando el muestreo del LF. La gran limitante de la Plenoptic 1.0 es que la resolución de las imágenes reenfocadas coincide con el número de lentículas de la MML. Aunque esto está dejando de ser un problema dado que la industria de la microóptica está produciendo MML con pitch cada vez más pequeños, se contrapone con la necesidad de contar con el mayor número posible de pixeles por microlente para mejorar la resolución angular. Fotositos muy pequeños disminuyen la SNR dada la escasa luz que pueden capturar.

Una alternativa es trabajar con MML de pitch mayores que permitan ubicar mayor cantidad de fotositos debajo de cada microlente, introduciendo algunos cambios en el posicionamiento de las partes en la cámara, como lo propone la arquitectura “Plenoptic 2.0” de Lumsdaine y Georgiev [38].

La cámara “Plenoptic 2.0”

Plenoptic 2.0 posiciona la matriz una distancia levemente mayor a la focal de las microlentes. La consecuencia de este cambio es que las lentículas hacen foco en un plano imagen interior al cuerpo de la cámara: el plano imagen de las lentes objetivo (Figura 2.18). Por este motivo, a la cámara Plenoptic 2.0 también se la denomina “plenóptica enfocada”. Las lentículas de la MML se comportan como pequeñas cámaras que generan en el sensor subimágenes que son porciones solapadas del plano imagen formado por el objetivo, de una manera ordenada y de gran precisión geométrica (Figura 2.19).

En la Plenoptic 2.0 el muestreo del LF es diferente y ahora existe una relación de compromiso entre las resoluciones espaciales y angulares de la imagen renderizada. Este modelo de cámara plenóptica no requiere tantas microlentes pero sí muchos pixeles por microlente. La resolución espacial dependerá de los parámetros ópticos de la cámara y de la distancia a la que la imagen renderizada hace foco [39]. A mayor distancia para el reenfoque, menos pixeles en la imagen renderizada y viceversa, lo que veremos en detalle en Capítulo 3.

Hemos presentado diferentes parametrizaciones del LF capturado por diferentes configuraciones de cámaras basadas en microlentes. A partir de las mencionadas alternativas, estudiaremos en el siguiente Capítulo algunas estrategias para renderizar imágenes reenfocadas en diferentes profundidades de la escena y vistas desde diferentes perspectivas.

(37)

34 Figura 2.18. Cámara plenóptica “Plenoptic 2.0”. Las lentes del objetivo hacen foco en un plano situado una distancia “a” enfrente de la matriz de microlentes, mientras que su distancia al sensor CMOS es b>f, donde f es la distancia focal de las lentículas. Fuente: [39].

a) b)

c) d)

(38)

35

2.3. Equipamiento disponible en la actualidad

La fabricación tanto de los sensores CMOS como de las microlentes hacen uso de técnicas empleadas en la producción de microchips, por lo que el desarrollo de los procesadores y memorias que todos los días nos sorprende con novedades ha impulsado el desarrollo de la fotografía plenóptica. Aun así, los dispositivos comerciales todavía no tienen llegada masiva a los consumidores, quizás porque sus precios son aún elevados para los de buena resolución en megapíxeles, mientras que los más accesibles todavía no alcanzan las resoluciones de una cámara fotográfica convencional económica.

La industria del cine y la televisión están a la espera de nuevos desarrollos y hay muchos prototipos que han generado expectativa pero que requieren grandes inversiones para su escalado y comercialización. Mientras tanto son dos las empresas que efectivamente comercializan cámaras plenópticas: Lytro y Raytrix. A continuación, describiremos brevemente los desarrollos, prototipos y productos comerciales disponibles.

2.3.1. Prototipos de Adobe

Adobe Systems ha sido líder en manipulación de imágenes. Uno de sus investigadores, el Dr. T. Georgiev, comenzó en 2004 a trabajar en un prototipo consistente en una matriz hexagonal de 19 lentes que capturan la escena desde 19 perspectivas levemente diferentes (Figura 2.20), dando por resultado una pila focal (focal stack en inglés, FS) de 19 imágenes. Cada subimagen tuvo una resolución de 5.2Mp y se llamó a este prototipo la Primera Generación [41].

Figura 2.20. Prototipo Primera Generación de Adobe LightField Camera. Izq.: Matriz de lentes bautizado “Magic Lens”. Der.: Publicación en popsci.com de la cámara. Fuente: [41], [42].

(39)

36 Figura 2.21. Izq.: Segunda Generación de Adobe LF Camera. Der.: Lente con matriz rectangular de

sub-lentes. Fuente: [42].

La Tercera Generación se presentó en 2010 y colocó una matriz de aproximadamente 7.000 microlentes dentro del cuerpo de la cámara, entre el sensor de imagen y las lentes objetivo (Figura 2.22). Ninguna de estas cámaras adquirió un perfil comercial. El aporte de Georgiev es una mejora en la resolución de la imagen posprocesada, como se verá en detalle más adelante cuando tratemos el tema del procesamiento de los LF.

Figura 2.22. Izq.: Cámara plenóptica de Georgiev, 3ª Generación. Der.: Imagen que captura la cámara. Fuente: [42].

2.3.2. Cámara de Campos de Luz CAFADIS

En la Universidad de la Laguna (España) se desarrolló un prototipo denominado CAFADIS (CAmara de FAse – DIStancia) que se proyectó para estimación de distancias y frentes de onda [43]. El grupo está liderado por el Dr. Rodríguez Ramos y cuenta con un grupo de investigación que ha generado numerosas publicaciones y aplicaciones de la fotografía plenóptica a campos tan diferentes como la endoscopía y la astronomía. También son autores de dos patentes internacionales.

(40)

37 video RED One y se obtuvieron imágenes multifoco de 1920 x 1080 pixeles. Este prototipo obtuvo un stack de 24 planos focales y 200 perspectivas. Luego se sumaron otros desarrollos tales como una cámara de video 3D Full HD y una cámara subacuática (Figura 2.23).

Es muy interesante cómo este grupo ha encontrado que la fotografía plenóptica puede resolver problemas en diferentes aplicaciones. Por ejemplo, obtuvieron imágenes de campos de luz bajo el agua e investigaron el problema de la refracción de la luz entre los medios líquido y gaseoso. Lo mismo en astronomía: CAFADIS puede corregir las aberraciones causadas por turbulencia atmosférica creando mapas 3D de frentes de onda y mapas de profundidad. En 2013 generaron imágenes de endoscopía 3D en tiempo real, Sección Demostraciones en [43].

Figura 2.23. Diferentes prototipos de cámaras plenópticas desarrolladas por el Grupo CAFADIS de la Universidad de La Laguna. Fuente: [44].

2.3.3. Cámara Matricial Pelican