Sistema de protección de derechos de autor en señales de audio

(1)

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

“SISTEMA DE PROTECCIÓN DE DERECHOS DE AUTOR EN SEÑALES DE AUDIO”

TESIS

QUE PARA OBTENER EL GRADO DE:

DOCTOR EN COMUNICACIONES Y ELECTRÓNICA PRESENTA:

JOSÉ JUAN GARCÍA HERNÁNDEZ

ASESORES:

DR. HÉCTOR PÉREZ MEANA DRA. MARIKO NAKANO MIYATAKE

ENERO 2008

(2)

JOSÉ JUAN GARCÍA HERN ÁNDEZ

TESIS ENVIADA EN CUMPLIMIENTO PARCIAL DE LOS REQUERIMIENTOS PARA OBTENER

EL GRADO DE:

DOCTOR EN COMUNICACIONES Y ELECTR ´ONICA

A LA

SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACI ´ON

DE LA ESCUELA SUPERIOR DE INGENIERÍA MEC ÁNICA Y ELÉCTRICA

DEL

INSTITUTO POLIT´ECNICO NACIONAL

M´EXICO, 2008

(3)

(4)

(5)

(6)

Me gustar´ıa expresar mi sincero agradecimiento a mis asesores, al Dr. Héctor Manuel Pérez Meana y a la Dra. Mariko Nakano Miyatake, por su paciencia y dedicación durante el desarrollo de este trabajo, as´ı como por las sumamente constructivas discusiones que tuvimos en el desarrollo de esta tesis, ha sido un honor trabajar con ellos.

Igualmente es mi deseo expresar mi sincera gratitud a Dr. Aldo Orozco, Dr. Mauricio Lara y Prof. Dr. Valeri Kontorovitch de la Sección de Comunicaciones del Centro de In- vestigación y Estudios Avanzados del IPN (CINVESTAV) por la amabilidad e interés que me brindaron durante mi estancia como estudiante invitado en esa excelente institución, ha sido una experiencia de gran impacto en mi formación.

Especial mención merece Juan Carlos Garc´ıa Hernández del CEA en Par´ıs, Francia, quien me involucró y auxilió en el uso de herramientas de software libre como LÂTEXy otras mas. Agradezco profundamente su ayuda y me enorgullece que además compartamos a los mismos padres.

Al Instituto Polit´ecnico Nacional y al Consejo Nacional de Ciencia y Tecnolog´ıa les expreso mi reconocimiento, sin la ayuda financiera de estas dos instituciones no habr´ıa sido posible desarrollar este trabajo.

El personal administrativo de la Secci´on de Estudios de Posgrado e Investigaci´on, Rosy, Mayra y Ma. Dolores, por sus amables atenciones y buen humor muchas gracias.

He aprendido mucho de mis profesores en la Sección, de la misma manera de los alumnos del programa ESITI a los cuales tuve el honor de impartir cátedra, gracias a todos ellos, porque a lo mejor sin ellos saberlo, me han hecho crecer académica y personalmente.

Finalmente, pero no por ello menos importante, a mi familia, Jos´e, Carmen y Juan Carlos, por su incondicional apoyo, en los momentos buenos pero sobre todo en los momentos dif´ıciles, han sido el mejor ejemplo de vida, palabras sobran para expresar lo que significan para mi, gracias por todo.

Jos´e Juan Garc´ıa Hern´andez

(7)

“SISTEMA DE PROTECCI ´ON DE DERECHOS DE AUTOR EN SE˜NALES DE AUDIO”.

Autor: JOSÉ JUAN GARCÍA HERN ÁNDEZ

ASESORES DE TESIS : DR. H´ECTOR MANUEL P´EREZ MEANA, DRA. MA- RIKO NAKANO MIYATAKE

RESUMEN

En este trabajo se estudian los métodos mas significativos de inserción de datos en señales de audio, conocidos como sistemas de marca de agua, y se proponen mejoras a algunos de ellos, los resultados experimentales demuestran la val´ıa de las propuestas hechas en este trabajo.

Se lleva a cabo una investigación sobre esquemas de blanqueo de señal de utilidad significativa en sistemas de marca de agua basados en la teor´ıa del espectro disperso, después de la cual se concluye que los métodos de mediana y promedio, propuestos en este trabajo, son los más adecuados en función de los resultados de error de falso negativo Pmd.

Se demuestra experimentalmente que la utilización de la transformada trasla- pada modulada compleja (MCLT) en sistemas de marca de agua permite una mayor transparencia auditiva en comparación de la utilización de transformadas bloque.

Los algoritmos resultantes de estas propuestas y experimentaciones son implementados en un sistema de procesamiento digital de se˜nales en tiempo real y probados en ambientes de trabajo no-ideales, los resultados obtenidos sugieren que pueden ser factibles de comercializaci´on.

PALABRAS CLAVE : MARCA DE AGUA / HAS/ TIEMPO REAL

MCLT / PROCESADOR DIGITAL DE SE˜NALES / MOS AUDIO STIRMARK / MBSD / TRANSPARENCIA AUDITIVA

(8)

“SISTEMA DE PROTECCI ´ON DE DERECHOS DE AUTOR EN SE˜NALES DE AUDIO”.

Autor: JOSÉ JUAN GARCÍA HERN ÁNDEZ

THESIS ADVISORS : DR. H´ECTOR MANUEL P´EREZ MEANA, DRA. MA- RIKO NAKANO MIYATAKE

ABSTRACT

In this work, state-of-the-art data hiding methods (aka. watermarking systems) in audio signals are studied. Several improvements to such methods are proposed and experimental results show the impact of them.

An investigation on withening procedures is carried out in order to know the best one for the Detection Theory requirements. The median filter and the mean filter methods present the best behaviour of all previously reported methods in miss detection probability error (Pdm) terms.

It is demonstrated that for use the modulated complex lapped transform (MCLT) in watermarking systems it is possible to achieve a bigger human transparency in com- parison with to use block transforms.

The algorithms developed in this thesis are implemented in a digital signal processor (DSP) and tested in real-world conditions, the results obtained from these tests suggest that it can be possible to commercialize such systems.

KEY WORDS : WATERMARKING / HAS / REAL-TIME MCLT / DSP / MOS

AUDIO STIRMARK / MBSD / AUDITORY TRANSPARENCY

(9)

AGRADECIMIENTOS III

RESUMEN ^IV

ABSTRACT ^V

´INDICE DE CUADROS IX

´INDICE DE FIGURAS X

1. Introducci´on 1

1.1. Marca de Agua Digital . . . 2

1.1.1. Aplicaciones . . . 3

1.1.2. Requerimientos . . . 4

1.2. Objetivo General . . . 7

1.3. Objetivos Particulares . . . 7

1.4. Revisi´on Bibliogr´afica . . . 7

2. El sistema auditivo humano 10 2.1. Transformada Lapped Compleja Modulada . . . 11

2.2. Escala de Bark . . . 13

2.3. Espectro de potencia . . . 15

2.4. Funci´on de dispersi´on de la membrana basilar . . . 15

2.5. Estimado del umbral de enmascaramiento . . . 16

2.5.1. ´Indice de enmascaramiento . . . 16

2.5.2. Medici´on de llanura espectral y factor de tonalidad . . . 17

2.5.3. Normalizaci´on del umbral . . . 19

2.6. Costo computacional . . . 20

3. Espectro disperso 22 3.1. Receptores ´optimos en ambientes gaussianos . . . 22

3.1.1. Demodulaci´on por correlacionador . . . 23

3.1.2. Demodulaci´on por filtro acoplado . . . 26

3.1.3. El detector ´optimo . . . 30

3.2. Inserci´on de datos en se˜nales de audio utilizando espectro disperso . . . . 33

(10)

3.3. Espectro Disperso Mejorado . . . 38

3.3.1. Aproximaci´on lineal . . . 39

3.3.2. ISS ´optimo . . . 41

4. Sistemas insensibles a interferencia de la portadora 43 4.1. Modulaci´on por cuantizaci´on de ´ındice . . . 45

4.2. Modulación por cuantización de ´ındice con distorsión compensada . . . . 48

4.3. Modulaci´on Dither . . . 49

4.3.1. Modulaci´on dither binaria con cuantizadores uniformes . . . 50

4.4. Modulaci´on fraccionaria dither de primer orden . . . 52

4.4.1. Distorsi´on debida a la inserci´on en RDM . . . 54

4.5. Modulaci´on fraccionaria dither de orden general . . . 55

5. Desarrollo del sistema en tiempo real 59 5.1. Espectro disperso en el dominio temporal . . . 59

5.1.1. Resultados obtenidos en el sistema en el dominio temporal . . . . 61

5.1.1.1. Prueba de MOS . . . 61

5.1.1.2. Prueba de MBSD . . . 62

5.1.1.3. Prueba de robustez . . . 63

5.1.2. Implementaci´on en tiempo real . . . 64

5.2. Espectro disperso en el dominio MCLT . . . 64

5.2.1. Proceso de inserci´on de la marca de agua . . . 65

5.2.1.1. Generador de secuencia PN y elección de parámetros de inserción . . . 66

5.2.2. Proceso de detecci´on de la marca de agua . . . 68

5.2.2.1. Codificaci´on de predicci´on lineal LPC . . . 68

5.2.2.2. Filtrado Cepstrum . . . 69

5.2.2.3. Filtrado Savitzky-Golay . . . 70

5.2.2.4. Filtro promedio . . . 71

5.2.2.5. Filtro de mediana . . . 71

5.2.3. Implementaci´on en tiempo real . . . 72

5.2.4. Resultados obtenidos en el sistema en el dominio MCLT . . . 77

5.2.4.1. Resultados de prueba MOS . . . 78

5.2.4.2. Resultados de prueba MBSD . . . 78

5.2.4.3. Comparaci´on de los m´etodos de blanqueo . . . 79

5.2.4.4. Resultados al conjunto de ataques Stirmark . . . 81

5.3. Transmisi´on de alto flujo de bits por canales de audio . . . 82

5.3.1. Proceso de inserci´on de datos a altas velocidades . . . 83

5.3.2. Proceso de recuperaci´on del flujo de bits . . . 83

(11)

5.3.3. Resultados del sistema RDM-MCLT . . . 84 5.3.3.1. Prueba MOS en RDM-MCLT . . . 85 5.3.3.2. Prueba MBSD para el sistema RDM-MCLT . . . 86 5.3.3.3. Ataques de Audio Stirmark al sistema RDM-MCLT . . . 86 5.3.3.4. Comparaci´on de RDM-MCLT con m´etodos convencionales 87 5.3.3.5. DCT-RDM versus MCLT-RDM . . . 88

6. Conclusiones y trabajo a futuro 90

6.1. Conclusiones . . . 90 6.2. Trabajo a futuro . . . 91

BIBLIOGRAF´IA 92

A. Productividad obtenida 98

A.1. Revistas con arbitraje . . . 98 A.2. Congresos Internacionales . . . 98

(12)

5.1. Criterio utilizado en la prueba MOS . . . 62 5.2. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

en el dominio temporal . . . 62 5.3. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada en el

dominio temporal . . . 63 5.4. Promedio de los valores de correlaci´on despu´es de los ataques . . . 63 5.5. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

en el dominio MCLT . . . 78 5.6. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada en el

dominio MCLT . . . 78 5.7. Resultados de las evaluaciones de los procedimientos de blanqueo . . . 80 5.8. Resultados de la correlaci´on en se˜nales de audio atacadas por Stirmark . . 82 5.9. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

RDM-MCLT . . . 86 5.10. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada con el

sistema RDM-MCLT . . . 86 5.11. Resultados en t´erminos del BER de las se˜nales marcadas con RDM-MCLT

atacadas por Audio Stirmark. . . 87 5.12. M´etricas de distintos esquemas de marca de agua en audio . . . 88

(13)

1.1. Esquema de un sistema general de inserci´on y detecci´on de marca de agua

digital . . . 2

2.1. Esquema general del calculo de umbral . . . 11

2.2. Bandas cr´ıticas mapeadas en la escala de Bark . . . 14

2.3. Espectro de potencia y energ´ıa por banda cr´ıtica . . . 16

2.4. Modelo de la funci´on de dispersi´on de la membrana basilar . . . 17

2.5. Enmascaramiento disperso a trav´es de las bandas cr´ıticas . . . 18

2.6. Umbral de enmascaramiento previo T raw(z). . . 19

2.7. Umbral de enmascaramiento normalizado T norm(z). . . 20

2.8. Umbral absoluto auditivo . . . 21

3.1. Modelo de un sistema de comunicaci´on basado en espectro disperso . . . . 23

3.2. Sistema general de marca de agua basado en espectro disperso . . . 34

3.3. Funciones de densidad de probabilidad t´ıpicas en un sistema de espectro disperso . . . 37

4.1. Cuantizaci´on por modulaci´on de ´ındice . . . 46

4.2. Esquema de la modulaci´on fraccionaria dither de primer orden . . . 54

4.3. Esquema de la modulaci´on fraccionaria dither de orden general . . . 56

4.4. Valores emp´ıricos y anal´ıticos de la probabilidad de error para diferentes valores de L en una portadora Gaussiana, DWR=25 dB, c=2, p=2 seg´un [39] . . . 58

5.1. Sistema de inserci´on de datos en el dominio temporal . . . 60

5.2. Sistema de detecci´on de datos en el dominio temporal . . . 61

5.3. Tarjeta de desarrollo TMDSDSK6416T por Texas instruments Inc. . . 65

5.4. Esquema de inserci´on de marca de agua en el dominio MCLT . . . 66

5.5. Relación entre el tamaño del bloque y el valor de correlación en el sistema en MCLT . . . 67

5.6. Detecci´on de la marca de agua basado en LPC . . . 69

5.7. Espectro de potencia de la se˜nal original . . . 73

(14)

5.8. Espectro de potencia de la se˜nal blanqueada con LPC . . . 73

5.9. Espectro de potencia de la se˜nal blanqueada con Cepstrum . . . 74

5.10. Espectro de potencia de la se˜nal blanqueada con filtro Savitzky-Golay . . 74

5.11. Espectro de potencia de la se˜nal blanqueada con filtro promedio . . . 75

5.12. Espectro de potencia de la se˜nal blanqueada con filtro de mediana . . . . 75

5.13. Sistema de inserci´on/detecci´on de marcas de agua en un ambiente de trabajo real . . . 76

5.14. Se˜nal original (arriba) y se˜nal marcada (abajo) . . . 77

5.15. Resultados de la detecci´on utilizando el LPC . . . 79

5.16. Resultados de la detecci´on utilizando el filtro Cepstrum . . . 80

5.17. Resultados de la detecci´on utilizando el filtro Savitzky-Golay . . . 80

5.18. Resultados de la detecci´on utilizando el filtro de mediana . . . 81

5.19. Resultados de la detecci´on utilizando el filtro de media . . . 81

5.20. Sistema de inserci´on de datos RDM-MCLT . . . 84

5.21. Sistema de recuperaci´on de datos RDM-MCLT . . . 85

(15)

CAP´ITULO 1 INTRODUCCI ´ ON

El rápido desarrollo de Internet y la revolución de la información digital causó cambios significantes en la sociedad global, abarcando desde su influencia en la econom´ıa mundial a la forma en que la gente se comunica en la actualidad. La disponibilidad de redes de comunicación de banda ancha ha propiciado la fácil difusión de contenido art´ısti- co en formato digital (imágenes, audio y video) sin pérdida de calidad como sucede en medios de transmisión analógica.

La ventaja de utilizar la tecnolog´ıa digital sobre el procesamiento analógico se convierte en una desventaja desde el punto de vista de la protección de los derechos de autor de los contenidos distribuidos, debido a la posibilidad de realizar copias ilimitadas sin perdida de la calidad lo cual redunda en una gran pérdida financiera para los poseedores de los derechos de autor [1, 2, 3]. Asimismo, la facilidad para modificar y reproducir contenido intelectual en el medio digital ha provocado que la protección de la propiedad intelectual y la prevención de alteraciones no autorizadas llegue a ser un importante tema de inves- tigación y desarrollo tecnológico.

Los métodos tradicionales de protección de datos digitales se basan en la criptograf´ıa, estos métodos previenen el acceso al contenido sin la posesión de la llave correcta. Sin embargo, una vez que el contenido es desencriptado es posible copiar y distribuir el mismo sin ninguna restricción, a esta situación se le conoce como el ‘El agujero analógico’[4]. La disponibilidad de software especializado y gratuito permite explotar el agujero analógico de una forma rápida y sencilla como es el caso del programa DVD Shrink [5] que permite copiar el contenido de un Disco Versátil Digital (DVD por sus siglas en inglés) quitando

(16)

la restricción de codificación de zona y creando una imagen de disco lista para grabar por cualquier dispositivo de grabación de DVD’s. Con el fin de combatir la deficiencia de los sistemas criptográficos en el campo de la protección de la propiedad intelectual se ha propuesto el uso de un nuevo método llamado “Marca de Agua”, el cual es descrito en la siguiente sección.

1.1. Marca de Agua Digital

El concepto de marca de agua digital se define como el proceso de electrónica- mente agregar información ya sea perceptible o imperceptible en un medio que sea dif´ıcil de borrar sin alterar el medio mismo. Un sistema de marca de agua involucra un proceso de marcado y otro de detección que, generalmente, requiere una clave de propósito similar a la la clave utilizada en los sistemas criptográficos. La figura 1.1 muestra un esquema general de un sistema de inserción y detección de marcas de agua, las l´ıneas punteadas representan señales que pueden o no existir dependiendo del esquema particular. El nivel de disponibilidad de la clave, determinará quién o quiénes podrán leer o detectar la marca de agua. En la práctica, la mayor´ıa de las técnicas de marca de agua son análogas a los sistemas criptográficos simétricos, en los que se emplea una sola clave, fundamentándose en dicha llave la seguridad del sistema [2].

Figura 1.1: Esquema de un sistema general de inserci´on y detecci´on de marca de agua digital

(17)

La principal ventaja de los sistemas de marca de agua consiste en que la marca es inseparable del contenido del archivo digital y, seg´un la aplicaci´on, puede ser transparente al sistema perceptivo humano.

1.1.1. Aplicaciones

Existen diversas aplicaciones para los sistemas de marca de agua, algunas de ellas son las siguientes [6]:

• Protecci´on de derechos de autor. Para proteger la propiedad intelectual, el poseedor del trabajo art´ıstico puede insertar una marca de agua que represente la informaci´on de los derechos de autor de este. Utilizar una marca de agua de esta manera puede probar la propiedad intelectual en una corte cuando alguien ha infringido los derechos de autor.

• Control de distribución de copias. Para encontrar el origen de copias ilegales, el pro- pietario puede usar la técnica conocida como fingerprint, la cual consiste en agregar marcas de agua diferentes en las copias del trabajo que son entregadas a diferentes consumidores. Esta técnica posibilita la identificación del consumidor que ha violado la licencia que se le otorgó al distribuir el trabajo intelectual a terceras partes.

• Protección contra copias ilegales. Con una marca de agua es posible directamente controlar dispositivos de grabación digitales con fines de protección contra copas. En este caso la marca de agua representa una indicación de prohibición de copias, si el dispositivo de grabación la detecta entonces no realiza la copia del trabajo intelectual.

• Autenticación de datos. En este caso es posible usar marcas de agua frágiles, esto es, sensibles de perderse al sufrir cualquier ataque o procesamiento por m´ınimo que este sea. Una marca de agua frágil indica cuando el trabajo intelectual ha sido alterado y proporciona información de como fue alterado.

(18)

• Comunicaciones secretas. En esta aplicación la marca incrustada en los archivos mul- timedia se utiliza por dos o más personas para comunicarse secretamente sin levantar sospecha en terceros. Es la aplicación clásica de la esteganograf´ıa (ocultar una infor- mación dentro de otra) de comunicaciones por canales subliminales.

• Monitoreo de las transmisiones de radiodifusión. Al igual que en las firmas, las marcas de agua identifican al propietario de los archivos multimedia y/o al comprador de una copia determinada de los mismos y son detectadas por sistemas automatizados que rastrean las transmisiones de televisión y radiodifusión, las redes de computadoras y otros canales de distribución para estar al tanto de cuando y donde se ha utilizado un archivo multimedia propietario. Muchas comunidades están interesadas en el monitoreo de las transmisiones de radiodifusión, cada una de ellas de diferente forma, por ejemplo, los músicos y actores cuyas obras son retransmitidas en diversas cadenas de radio y televisión, as´ı como los agentes publicitarios, desean asegurarse que el tiempo en el que realmente están en el aire, sea el que se les ha pagado.

1.1.2. Requerimientos

Cada aplicaci´on que utiliza un sistema de marca de agua tiene sus propios requi- sitos, por esto, no existe un conjunto de los mismos para todas las t´ecnicas de marcado.

Sin embargo, para las aplicaciones antes mencionadas, existen algunos requerimientos que son aplicados a la mayor´ıa de ellas, como son [6]:

• Transparente al auditorio humano. En la mayor´ıa de aplicaciones de marca de agua se requiere insertar la marca de tal manera que no afecte la calidad de entendimiento de la señal original. Se dice que un proceso de inserción es confiablemente im perceptible si el auditorio humano no es capaz de encontrar diferencias entre la señal original y la señal marcada.

• Carga ´util de la marca de agua. La cantidad de informaci´on que puede ser almacenada

(19)

en una marca de agua depende de la aplicación. Para protección de derechos de autor, es deseable insertar una cantidad mayor de información, como puede ser el nombre del propietario intelectual, restricciones de copias de uso personal, etc.

• Robustez. Una marca de agua frágil que tiene como objetivo probar autenticidad de la señal no tiene que ser robusta contra técnicas de procesamiento o ataques intencionales de la señal, puesto que una falla en el proceso de detección muestra que la señal ha sido alterada y no es auténtica mas. si la marca de agua es usada en otra aplicación, es deseable, entonces, que siempre se mantenga la marca en la señal, a pesar de que la calidad de ésta sea degradada intencionalmente o no. Ejemplos de degradaciones no intencionales son: compresión con pérdidas, conversión analógico-digital (A/D) y digital-analógico (D/A), filtrado, adición de ruido, remuestreo, etc. Por otra parte, la marca también puede ser sujeta a intentos de remoción intencional como en el caso de varias copias del mismo contenido con distintas marcas de agua es posible remover la marca debido a la colisión entre algunos propietarios de las copias, o la alteración geométrica del medio atacado con respecto a su original [7]. En general, no debiera existir ninguna forma de remover o alterar la marca de agua sin degradar suficientemente la calidad perceptual de la señal, haciendo esta inutilizable.

• Viabilidad del sistema. Toda tecnolog´ıa que pretende ser comercializada, debe tener en cuenta varios aspectos, entre ellos: el coste computacional, el coste económico y la es- calabilidad del sistema. En muchos sistemas, tales como los de audio y video, la marca debe ser insertada y/o detectada en tiempo real, lo que requiere una gran capacidad computacional de los equipos. En algunas aplicaciones el número de equipos que inser- tan la marca de agua difiere de la cantidad de detectores, lo que marcará la diferencia de precio entre unos y otros de acuerdo a la aplicación concreta. Los requerimientos computacionales exigen a los sistemas de marcas de agua simplicidad, pero ésta puede significar la reducción de la resistencia a las manipulaciones. Sin embargo, hay que

(20)

tener en cuenta que la velocidad de los ordenadores se dobla anualmente, de manera que un algoritmo que hoy no nos parezca razonable, podrá rápidamente convertirse en algo factible; es muy deseable diseñar sistemas de marcas de agua que sean escalables con cada generación de computadoras.

• Baja probabilidad de error. En la mayor´ıa de los sistemas de marcas de agua es muy importante distinguir entre los archivos que contienen una marca y los que no. La probabilidad de error al detectar una marca debe ser muy peque˜na. Se denomina probabilidad de falso negativo a la probabilidad de que, habiendo estado presente una marca en determinado archivo, el detector asuma que no hay tal marca. Por otro lado, la probabilidad de falso positivo es la probabilidad de que no estando la marca presente en un archivo, el detector asuma que la marca est´a presente.

• Seguridad. La seguridad de las técnicas de marcado pueden ser interpretadas como se hace en las técnicas de encriptación. La suposición de Kerckhoff establece que se deber´ıa asumir que el método usado para encriptar los datos es conocido por terceras partes y que la seguridad radica en el conocimiento de la llave. As´ı, una técnica de marca de agua es confiablemente segura si el conocimiento de los algoritmos exactos de inserción y extracción no ayudan a consumidores no autorizados a detectar la presencia de la marca de agua o a removerla.

• Marca dependiente o no de la señal original. En algunas aplicaciones, como protección de derechos de autor y monitoreo de datos, los algoritmos de extracción pueden usar la señal original sin marcar para encontrar la marca de agua, aqu´ı se dice que es un sistema dependiente de la señal original. En aplicaciones como protección contra copias los algoritmos de extracción no tienen acceso a la señal original lo que hace la extracción más dif´ıcil, este tipo de algoritmos de marcado son conocidos como públicos, ciegos o no dependientes de la señal original.

(21)

1.2. Objetivo General

Desarrollar un sistema de procesamiento en tiempo real para la protección de derechos de autor de contenidos de audio, utilizando un procesador digital de señales (DSP por sus siglas en inglés) de vanguardia.

1.3. Objetivos Particulares

• Desarrollar tecnolog´ıas propias de marca de agua de se˜nales de audio y/o mejorar tec- nolog´ıas ya propuestas en la literatura y elegir la ´optima para el sistema a desarrollar.

• Implementaci´on y optimizaci´on de los algoritmos obtenidos en los puntos anteriores en un DSP.

• Conjuntar los sistemas implementados en un equipo comercialmente viable.

1.4. Revisi´on Bibliogr´afica

A continuación se presentan algunos sistemas basados en distintas técnicas reportados en la literatura. En [8] se presenta una esquema que agrega la señal de marca de agua como una secuencia de ruido blanco gaussiano, lo cual provoca que el bit menos significativo sea modificado de acuerdo a la marca de agua. Este enfoque es poco robusto a ataques como compresión, remuestreo y conversión digital-analógico y analógico-digital.

En [9] los autores presentan un esquema basado en la adición de eco no audible a la señal original. El eco esta retrasado con respecto a la señal anfitriona no más de 1 mS. ya que es el retardo mas corto conocido entre dos señales que el o´ıdo humano puede separar. Este sistema no es robusto a compresión. En el mismo documento se propone insertar una marca de agua utilizando codificación de la fase del espectro de frecuencia, este enfoque se basa en que el o´ıdo humano es más sensible a cambios en la magnitud del espectro de las componentes de frecuencia que a los cambios en la fase de las mismas. Codificar la fase puede resultar en un sistema de marca de agua sensible a procesamientos de audio que modifican la fase de la señal. En [10] se presento un esquema basado en el modelo psi-

(22)

coac´ustico humano para alcanzar transparencia perceptual y un proceso de “blanqueo”

del espectro para detección ciega de la marca de agua, este sistema demostró ser robusto a diversos ataques y no introduce ruido perceptible. Un enfoque novedoso de marca de agua en audio es presentado en [11] y se basa en la modificación de la escala temporal de la señal de audio, presenta robustez a muchos ataques tales como compresión, reproduc- ción, adición de ruido, además no introduce distorsión espectral y es teóricamente libre de ruido. Requiere la señal original para la recuperación de la marca de agua insertada.

La modificación de la escala de tiempo también es presentada como una opción para la marca de agua en [12], en este trabajo se propone hacer la inserción en el dominio de wavelet, presenta robustez a compresión MP3 sin perdidas y filtrado pasabajas. La principal desventaja de este esquema es la baja cantidad de información que puede ser insertada teniendo una tasa de 1 bit/segundo. En el dominio de wavelet en [13] se propone un esquema de inserción de marca de agua utilizando la transformada Haar y el algoritmo de Patchwork. El esquema menciona ser robusto a ataques de compresión y alteración de las muestras, as´ı como ser imperceptible al auditorio humano, sin embargo no considera el modelo perceptual humano y por ende es vulnerable a compresión MP3.

Un esquema basado en el Cepstrum de la señal es presentado en [14], este sistema utiliza la técnica de espectro disperso para insertar la marca en el Cepstrum de la señal de forma aditiva. Demostró ser robusto a múltiples marcajes, codificación con pérdidas y adición de ruido. Ser imperceptible y de fácil detección utilizando correlación. En [15] se propone un sistema de inserción de marcas de agua basado en la representación senoidal de la señal de audio, utilizando la técnica de modulación del ´ındice de cuantización. El sistema es resistente a la compresión MP3. Utilizar la teor´ıa de las comunicaciones como analog´ıa en los sistemas de marcas de agua es muy recurrente como lo muestra el trabajo presentado en [16], el cual utiliza la independencia estad´ıstica de componentes obtenida al aplicar algoritmos de análisis de independencia de componentes (ICA por sus siglas

(23)

en inglés), obteniendo baja distorsión en la señal marcada con respecto a la original y la posibilidad de tener alta cantidad de datos para insertar. En el caso de marcas de agua insertadas en tiempo real el trabajo publicado es muy poco. En [17] se presenta la implementación de un sistema de marca de agua en tiempo real utilizando un DSP (Procesador digital de señales), este esquema es transparente a la percepción auditiva humana y consume solo 100 MIPS en un procesador de punto fijo, lo cual lo hace adecua- do para un sistema comercial. La utilización de las marcas de agua en presentaciones “en vivo” es presentado en [18] y es denominado “Sonic watermarking”, este esquema busca marcar la señal de audio en tiempo real y proyectar al auditorio una mezcla de la señal original y la marcada, as´ı, si un espectador malicioso graba con un dispositivo portátil la audición es posible detectar la marca de agua en esa grabación y demostrar la propiedad del material intelectual. El algoritmo utilizado en la inserción de la marca de agua se basa en la técnica de espectro disperso y en la etapa de detección utiliza el esquema de correlación cruzada sin necesidad de la señal original. Este esquema considera el problema inherente al retraso en el tiempo de la señal marcada con respecto a la original, ya que es un sistema de marcado en tiempo real, no es posible evitar dicho retraso propiciado principalmente por la ventana utilizada en el análisis frecuencial de la señal original. La señal marcada es resistente a compresión con perdidas como MP3, pero la eficiencia del detector depende del tipo de música que fue marcada, presenta una gran confiabilidad para música orquestal (mas de 90 % de detección correcta) pero baja confiabilidad para ejecuciones de un solo instrumento (hasta 60 % de detección correcta). En [19] se propone un esquema basado en redes neuronales en el dominio de la transformada coseno discreta (DCT por sus siglas en inglés), este esquema es muy novedoso y muy poco estudiado, los resultados reportados en [19] demuestran que es un campo fértil para investigación original.

(24)

CAP´ITULO 2

EL SISTEMA AUDITIVO HUMANO

El comportamiento del o´ıdo humano ha sido estudiado por distintas áreas tales como la biof´ısica y la psicoacústica. Gracias a estos estudios es sabido que durante el proceso de escucha existe un fenómeno conocido como enmascaramiento frecuencial si- multaneo el cual indica que una frecuencia de magnitud grande puede “enmascarar” a otras frecuencias vecinas de magnitud menor. Este fenómeno es ampliamente explota- do en el desarrollo de codificadores de audio perceptuales como el estándar ISO MPEG Audio Layer 3 [20]. En este tipo de codificadores se obtiene un umbral de enmascaramien- to el cual marca la pauta sobre la magnitud del ruido aditivo surgido de la cuantización de los coeficientes en los codificadores que es permitida segun los requerimientos de co- dificación, esto es, calidad perceptual y flujo de bits por segundo.

En el ámbito de las marcas de agua en señales de audio el umbral obtenido del análisis del modelo psicoacústico sirve para dimensionar el efecto de la marca de agua en el espacio frecuencial de la señal de audio. La marca dimensionada según el umbral de enmascaramiento es idealmente inaudible para el auditorio promedio, de esta forma es posible cubrir un requisito fundamental en los sistemas de marca de agua en señales de audio que es el referido a la imperceptabilidad de la marca. Dada la dificultad de procesar toda la señal de audio al mismo tiempo y la poca utilidad de esto para sistemas de tiempo real, la señal de audio es dividida en cuadros que son procesados independientemente y despues concatenados o traslapados según el algoritmo utilizado. Un esquema básico de calculo de umbral de enmascaramiento es mostrado en la figura 2.1. El primer paso es obtener una representación frecuencial del cuadro a analizar, regularmente es utilizada la

(25)

transformada de Fourier, sin embargo, en el presente trabajo de investigación todos los procesamientos llevados a cabo en el dominio de la frecuencia son realizados utilizando la Transformada Lapped Compleja Modulada(MCLT por sus siglas en inglés) que fue presentada en [21] y que tiene algunas interesantes propiedades que son abordadas en la sección siguiente. Posteriormente, son calculados el espectro de potencia, la energ´ıa por banda cr´ıtica y la energ´ıa dispersa por banda cr´ıtica, estos datos son utilizados para obtener el umbral de enmascaramiento buscado y con este dimensionar la marca de agua agregada.

Figura 2.1: Esquema general del calculo de umbral

2.1. Transformada Lapped Compleja Modulada

En el o´ıdo humano la cóclea tiene la función de realizar una transformación de la señal de audio de la escala de tiempo a la escala frecuencial, es decir, la información de audio en el tiempo es traducida en primera instancia a una representación espacio- frecuencial dentro de la membrana basilar. Esta representación espacial es percibida por el sistema nervioso y traducida en una representación eléctrica-frecuencial [22]. Este fenómeno se puede modelar utilizando la Transformada Lapped Compleja Modulada (MCLT por sus siglas en inglés).

La MCLT es un tipo particular de un banco de filtros DFT sobre-muestreado por un factor 2x. La MCLT pertenece a una familia de trasformadas llamada Transformadas Lapped, la cual surgió a mediados de los años 80 en el MIT por la necesidad de tener una herramienta que permitiera procesar señales sin las discontinuidades provocadas por las trasformadas bloque como la DFT, la DCT, la DHT, etc. [23]. Las funciones base de

(26)

la MCLT pueden ser obtenidas por modular, mediante una funci´on coseno, ventanas de suavizado en la forma para an´alisis:

p_a(n, k) = p^c_a(n, k) − jp^sa(n, k) (2.1) p^c_a(n, k) = ha(n)

! 2 M cos

"#

n + M + 1 2

$#

k + 1 2

$ π M

%

(2.2)

p^s_a(n, k) = h_a(n)

! 2 M sin

"#

n + M + 1 2

$#

k +1 2

$ π M

%

(2.3)

y para s´ıntesis:

ps(n, k) = 1 2

"

p^c_s(n, k) − jp^ss(n, k)

%

(2.4)

p^c_s(n, k) = hs(n)

! 2 M cos

"#

n + M + 1 2

$#

k +1 2

$ π M

%

(2.5)

p^s_s(n, k) = h_s(n)

! 2 M sin

"#

n + M + 1 2

$#

k + 1 2

$ π M

%

(2.6)

donde pa(n, k) y ps(n, k) son las funciones base para las transformadas directa e inversa respectivamente, y ha(n) y hs(n) son las ventanas de an´alisis y s´ıntesis respec- tivamente. El indice n, en el tiempo, var´ıa desde 0 hasta 2M − 1 y el ´ındice k, en la frecuencia, var´ıa desde 0 hasta M − 1, donde M es el tama˜no del bloque.

Las ventanas de análisis y s´ıntesis estén definidas, para máxima concentración de DC, como:

h_a(n) = h_s(n) = − sin"#

n +1 2

$ π 2M

%

(2.7)

La matriz de transformaci´on directa Pa esta formada por los elementos pa(n, k).

Similarmente, la matriz de transformación inversa Ps esta formada por los elementos p_s(n, k). Para un bloque x de 2M muestras de la señal x(n), el vector X de coeficientes MCLT es obtenido por X = P^T_ax. Para un vector Y de coeficientes MCLT procesados, el vector y reconstruido es obtenido por y = PsY, los vectores y obtenidos son traslapados por un factor de M muestras, de esa manera es obtenida la señal y(n) reconstruida.

(27)

Una interesante propiedad de la MCLT es que su formula de reconstrucci´on

y(n) =

M&−1 k=0

Y (k)ps(n, k) (2.8)

no es única, es posible tener perfecta reconstrucción utilizando únicamente la parte real o únicamente la parte imaginaria de los coeficientes MCLT de la forma:

yc(n) =

M&−1 k=0

Re{Y (k)}p^cs(n, k) (2.9)

o de la forma:

y_s(n) =

M&−1 k=0

Im{Y (k)}p^ss(n, k) (2.10)

Aunque y(n), y_c(n) y y_s(n) no son idénticas cuadro por cuadro, después del proceso de traslapado generan la misma señal reconstruida. Fue demostrado en [23] que las transformadas traslapadas como la MCLT presentan ausencia del llamado “efecto bloque” con respecto a las transformadas bloque como la DCT además de una mayor relación señal a ruido (SNR, por sus siglas en Inglés), lo que la hace muy apropiada para procesamiento de audio. En [21] se propone un algoritmo rápido basado en la Transformada Coseno Discreta tipo IV y en la Transformada Seno Discreta tipo IV, posteriormente en [24] se propone otro algoritmo rápido para el cálculo de la MCLT basado en una Transformada de Fourier Rápida (FFT por sus siglas en inglés), debido a la disponibilidad de bibliotecas optimizadas para el cálculo de la FFT en Procesadores Digitales de Señales (DSP’s) en la presente tesis se utiliza este último algoritmo para la implementación de la MCLT.

2.2. Escala de Bark

En un estudio presentado en [25] se demostró que la membrana basilar en el mecanismo auditivo analiza el sonido entrante a través de una representación espacio- espectral. Esto es hecho en pequeños sectores o regiones de la membrana basilar llamados

“bandas cr´ıticas”. Si todas las bandas cr´ıticas son conjuntadas de tal manera que la

(28)

frontera superior de una sea la frontera inferior de otra entonces se obtiene una nueva escala de frecuencia, esta escala es conocida como escala de Bark, siendo, precisamente un Bark el equivalente al ancho de cada banda cr´ıtica. Se han propuesto en la literatura distintas formas para representar el dominio de la frecuencia en la escala de Bark, dos de ellas son [26]:

z = 13 tan⁻¹#0,76f 1000

$

+ 3, 5 tan⁻¹ '# f

7500

$2(

(2.11)

y [27]

z = 26, 81f

1960 + f −0, 53 (2.12)

Donde f es la frecuencia en Hertz y z es la frecuencia mapeada en Barks. Usual- mente se obtienen 24 bandas cr´ıticas para el procesamiento de se˜nales de audio, la figura 2.2 muestra estas bandas a lo largo de la escala de Bark.

Figura 2.2: Bandas cr´ıticas mapeadas en la escala de Bark

(29)

2.3. Espectro de potencia

Sea s(t) la señal de audio a procesar y S(jw) los coeficientes MCLT de la señal s(t) el siguiente paso en la obtención del umbral de enmascaramiento es calcular el espectro de potencia Sp(jw), de la siguiente manera:

Sp(jw) = Re{S(jw)}²+ Im{S(jw)}²

= |Sw(jw)|² (2.13)

La energ´ıa por banda cr´ıtica, Spz(z), es definida como:

Spz(z) =

HBZ&

w=LBZ

Sp(jw) (2.14)

Con z igual para todas las bandas cr´ıticas, LBZ igual a la mas baja frecuencia en la banda cr´ıtica z y HBZ igual a la mas alta frecuencia en la banda cr´ıtica z. La figura 2.3 muestra la obtenci´on de la energ´ıa por banda cr´ıtica Spz(z) a partir del espectro de potencia Sp(jw) para un cuadro de la se˜nal de audio procesada.

2.4. Funci´on de dispersi´on de la membrana basilar

Para modelar la forma en que un ruido de banda angosta enmascara a un tono de una frecuencia dada se utiliza la curva de la función de dispersión de la membrana basilar la cual está definida como [27]:

B(z) = 15, 91 + 7, 5(z + 0, 474)− 17, 5)

1 + (z + 0, 474)² (2.15)

donde z es la escala de Bark normalizada, la figura 2.4 muestra B(z) El modelo auditivo utiliza la información proporcionada por la energ´ıa de cada banda cr´ıtica y usa B(z) para calcular el enmascaramiento disperso a través de las bandas cr´ıticas Sm(z), esto es llevado a cabo mediante la convolución siguiente:

Sm(z) = Spz(z)∗ B(z) (2.16)

(30)

Figura 2.3: Espectro de potencia y energ´ıa por banda cr´ıtica

Sm(z) puede ser interpretado como la energ´ıa por banda cr´ıtica despu´es de tomar en cuenta el enmascaramiento ocasionado por las bandas vecinas. La figura 2.5 muestra Sm(z).

2.5. Estimado del umbral de enmascaramiento 2.5.1. ´Indice de enmascaramiento

Existen dos diferentes ´ındices usados para modelar el enmascaramiento. El pri- mero es usado cuando un tono enmascara ruido, y es definido como 14, 5 + ZdB por debajo de Sm(z), con z como la frecuencia central del tono que enmascara en la escala de Bark. El segundo ´ındice es usado cuando ruido enmascara a un tono y es definido como 5, 5 dB por debajo de Sm(z), sin considerar la frecuencia central.

(31)

Figura 2.4: Modelo de la funci´on de dispersi´on de la membrana basilar

2.5.2. Medici´on de llanura espectral y factor de tonalidad

La medición de llanura espectral (SFM por sus siglas en inglés) es usada para determinar si el cuadro actual es tipo-ruido o tipo-tono y entonces seleccionar el indice de enmascaramiento apropiado. La SF M es definida como la relación de la media geométrica a la media aritmética de Sp(z), expresada en decibeles como:

SF M_dB = 10 log 10' *Zt

z=1Spz(z)

1 Zt

+_Z_t

z=1Spz(z) (_Zt¹

(2.17)

donde Zt es el n´umero total de bandas cr´ıticas. El valor de SF M es usado para generar el “factor de tonalidad”que ayudar´a a seleccionar el correcto ´ındice de enmasca- ramiento para el cuadro procesado y es definido como, para SF M_dBmax= −60dB:

α = m´ın

' SF M_dB SF M_dBmax, 1

(

(2.18)

(32)

Figura 2.5: Enmascaramiento disperso a trav´es de las bandas cr´ıticas

Si el cuadro analizado es tipo-tono entonces el factor de tonalidad α tendr´a un valor cercano a 1, y si el cuadro es tipo-ruido, α ser´a cercano a 0. El factor de tonalidad α es usado para calcular el offset de energ´ıa de enmascaramiento, definido como [27]:

O(z) = α(14, 5 + z) + (1− α)5, 5 (2.19)

El offset O(z) es restado de Sm(z) para estimar el umbral de enmascaramiento previo T raw(z)

T raw(z) = Sm(z)− O(z)

10 (2.20)

La figura 2.6 muestra el umbral de enmascaramiento previo T raw(z).

(33)

Figura 2.6: Umbral de enmascaramiento previo T raw(z).

2.5.3. Normalizaci´on del umbral

El uso de la función B(z) incrementa el nivel de energ´ıa de cada una de las bandas cr´ıticas del espectro Sm(z). Este efecto tiene que ser combatido haciendo uso de una técnica de normalización para regresar T raw(z) al nivel deseado. La energ´ıa por banda cr´ıtica es también afectada por el número de componentes en cada banda.

Las bandas superiores tienen mas componentes que las bandas inferiores, afectando de diferente manera los niveles de energ´ıa. La normalizaci´on es llevada a cabo solamente dividiendo T raw(z) entre el n´umero de componentes de la respectiva banda P_i.

T norm(z) = T raw(z)

Pz (2.21)

La figura 2.7 muestra el umbral de enmascaramiento normalizado T norm(z). Es posible concluir en este punto que el ruido adicionado a la se˜nal por debajo del umbral

(34)

Figura 2.7: Umbral de enmascaramiento normalizado T norm(z).

normalizado es inaudible para el promedio del auditorio humano, por lo que es fractible dimensionar la señal de marca de agua siguiendo este umbral y mantener la calidad subjetiva de la señal después del procesamiento.

2.6. Costo computacional

El hacer un análisis completo como el presentado anteriormente asegura que la señal procesada mantendrá la calidad subjetiva de la señal original. Sin embargo, el costo computacional es muy alto y en sistemas embebidos en algunos casos el costo es prohibitivo. En [28] se sugiere utilizar el umbral absoluto auditivo para ahorrar recur- sos computacionales y obtener una degradación m´ınima de la calidad subjetiva. En la presente tesis se utiliza esta sugerencia en sistemas de marcado en tiempo real y, como muestran los resultados, la calidad de la señal es aceptable para la media auditiva

(35)

humana. La figura 2.8 muestra el umbral absoluto auditivo.

Figura 2.8: Umbral absoluto auditivo

(36)

CAP´ITULO 3

ESPECTRO DISPERSO

El espectro disperso es una técnica para transmitir información mediante la cual se dispersa la información a transmitir a lo largo de una banda muy grande de frecuencias, mayor al ancho de banda requerido m´ınimo para transmitir la información que se desea enviar. La dispersión de la información se logra modulándola mediante un conjunto de señales ortogonales como son las secuencias pseudoaleatorias o de pseudoruido (PN por sus siglas en Inglés), dichas secuencias PN son generadas en el receptor y utilizadas por el demodulador para remover la secuencia contenida en la señal recibida. Para poder llevar a cabo la demodulación es necesario sincronizar la secuencia PN generada en el receptor con la secuencia PN contenida en la señal recibida, resultando as´ı en una demodulación por detector coherente. La sincronización de las dos secuencias PN, la recibida y la generada, es de las tareas más dif´ıciles de resolver en los sistemas de espectro disperso, una solución utilizada frecuentemente es transmitir un patrón seudoaleatorio siempre invariante previo a la transmisión de la información, tal secuencia será reconocida por el receptor en presencia de interferencia con alta probabilidad, después de establecer el tiempo de sincronización la transmisión de la información puede comenzar. En la figura 3.1 se muestra un diagrama a bloques de un esquema básico de comunicación basado en la técnica de espectro disperso.

3.1. Receptores ´optimos en ambientes gaussianos

Suponiendo que un transmisor env´ıa información digital haciendo uso de M señales {sm(t), m = 1, 2, ..., M}. Cada señal tienen una duración de tiempo T llamado

(37)

Figura 3.1: Modelo de un sistema de comunicación basado en espectro disperso intervalo del s´ımbolo, es decir, la transmisión es llevada a cabo en el intervalo 0 ≤ t ≤ T Consideremos que el canal es corrompido por ruido blanco gaussiano, entonces la señal recibida puede ser referida como:

r(t) = s_m(t) + n(t) (3.1)

donde n(t) es una función muestral de un proceso de ruido gaussiano blanco aditivo con densidad de potencia espectral Φ_nn(f) = ¹₂N₀W/Hz. Entonces es necesario detectar cual de las M señales s_m(t) fue enviada. En este momento es necesario dividir el receptor en dos etapas, el demodulador y el detector. La función del demodulador es convertir la señal recibida r(t) en un vector r = [r1r2...r_N], donde N es la dimensión de las señales transmitidas. El detector decide, entonces, cual de las M posibles señales fue transmitida basado en el vector r. En las próximas secciones serán descritos dos procedimientos para demodular la señal recibida.

3.1.1. Demodulaci´on por correlacionador

El correlacionador descompone la señal recibida y el ruido en vectores N-dimen- sionales, es decir, la señal y el ruido son expandidos en series de funciones ortonormales ponderadas linealmente {fn(t)}. Se entiende que las N funciones base {fn(t)} abarcan el espacio de señales de tal manera que cada una de las posibles señales transmitidas del conjunto {sm(t), 1 ≤ m ≤ M} puede ser representada como una combinación ponderada de {fn(t)}. En el caso del ruido, las funciones {fn(t)} no abarcan el espacio

(38)

de ruido. Supongamos que la señal recibida r(t) es pasada a través de un banco de N correlacionadores los cuales básicamente llevan a cabo el cálculo de la proyección de r(t) en las N funciones base {fn(t)}. Entonces tenemos:

, T 0

r(t)f_k(t) dt =, T 0

[Sm(t) + n(t)]fk(t) dt r_k= s_mk+ n_k, k = 1, 2, ..., N

(3.2)

donde

s_mk =, T 0

s_m(t)fk(t) dt, k = 1, 2, ..., N n_k=, _T

0

n(t)f_k(t) dt, k = 1, 2, ..., N

(3.3)

La se˜nal es ahora representada por el vector smcon componentes smk, k=1,2,...,N.

Los valores de smdependen de cual de las M se˜nales fue transmitida. Los componentes de {nk} son variables aleatorias que surgen de la presencia de ruido aditivo. De tal manera que podemos expresar la se˜nal recibida r(t) en el intervalo 0 ≤ t ≤ T como:

r(t) =

&N k=1

S_mkf_k(t) +

&N k=1

n_kf_k(t) + n^"(t)

=

&N k=1

r_kf_k(t) + n^"(t)

(3.4)

El t´ermino n^"(t) es definido como:

n^"(t) = n(t) −

&N k=1

n_kf_k(t) (3.5)

n^"(t) es un proceso de ruido gaussiano de media cero que representa la diferencia entre el proceso de ruido original n(t) y la parte correspondiente a la proyección de n(t) en las funciones base {fk(t)}. El término n^"(t) es irrelevante en la decisión de cual señal fue transmitida, de ah´ı, la decisión puede ser basada únicamente en la señal de salida del correlacionador y las componentes de ruido rk = smk+ nk, k = 1, 2, ...N . Dado que las señales {sm(t)} son determin´ısticas, las componentes de las señales son determin´ısticas también. Las componentes de ruido {nk} son gaussianas y sus valores medios son:

E(n_k) =, _T

0

E[n(t)]f_k(t) dt = 0 (3.6)

(39)

para todos los valores de n, sus covarianzas son:

E(n_kn_m) =, T 0

, T 0

E[n(t)n(τ )]f_k(t)fm(τ) dt dτ

= 1 2N₀

, _T

0

, _T

0

δ(t− τ)fk(t)f_m(τ) dt dτ

= 1 2N₀

, T 0

f_k(t)fm(t) dt

= 1 2N₀δ_mk

(3.7)

donde δmk= 1 cuando m = k y con valor cero en cualquier otro caso. Por lo cual, los N componentes de ruido {nk} son variables aleatorias gaussinas no correlacionadas con una varianza com´un σ_n² = ¹₂N₀. De lo anterior, se obtiene que las salidas del corre- lacionador {rk} condicionadas a las emesimas se˜nales siendo transmitidas son variables aleatorias gaussianas con media:

E(r_k) = E(s_mk+ n_k) = s_mk (3.8)

e igual varianza

σ²_r = σ²_n= 1

2N₀ (3.9)

Debido a que las componentes de ruido {nk} son variables aleatorias gaussianas no-correlacionadas, tambien son estad´ısticamente independientes. Como una consecuen- cia, las salidas del correlacionador {rk} condicionada sa las emesimas se˜nales siendo transmitidas son variables aleatorias gaussinas estad´ısticamente independientes. Por lo que, las funciones de densidad de probabilidad condicional de las variables aleatorias [r1r2...rN] = r son simplemente:

p(r|sm) =-

k=1

p(r_k|smk), m = 1, 2, ..., M (3.10) donde:

p(r_k|smk) = 1

√π N₀exp

"

−(r_k− smk)² N₀

%

, m = 1, 2, ..., M (3.11)

(40)

sustituyendo (3.11) en (3.10) obtenemos las funciones de densidad de probabilidad condicional conjuntas

p(r|sm) = 1

(π N0)^N² exp

"

−

&N k=1

(r_k− smk)² N₀

%

, m = 1, 2, ..., M (3.12) Finalmente se desea mostrar que las salidas del correlacionador (r1r₂...r_N) son estad´ısticas suficientes para tomar una decisión de cual de las M probables señales fue transmitida, de tal manera que no hay información relevante adicional contenida en las componentes del proceso de ruido restante n^"(t). Entonces, n^"(t) es no-correlacionado con las N salidas del correlacionador {rk}, es decir que:

E(n^"(t)rk) = E[n^"(t)]smk+ E[n^"(t)nk]

= E[n^"(t)n_k]

= E ."

n(t)−

&N j=1

n_jf_j(t)

%/

=, _T

0

E[n(t)n(τ )]f_k(τ) dτ −

&N j=1

E(n_jn_k)f_j(t)

= 1

2N₀f_k(t) −1

2N₀f_k(t) = 0

(3.13)

Debido a que n^"(t) y {rk} son gaussianas y no-correlacionadas, entonces también son estad´ısticamente independientes. En consecuencia, n^"(t) no contiene ninguna infor- mación que sea relevante a la decisión sobre cual señal fue transmitida. Entonces, n^"(t) puede ser ignorada.

3.1.2. Demodulaci´on por filtro acoplado

Es posible usar, a diferencia de un banco de N correlacionadores, un banco de N filtros lineales para generar las variables {rk}. Supongamos que la respuesta al impulso de los N filtros es:

h_k(t) = f_k(T − t), 0 ≤ t ≤ T (3.14) donde {fk(t)} son las N funciones base y hk(t) = 0 fuera del intervalo 0 ≤ t ≤ T .

(41)

La salida de esos filtros lineales es:

y_k(t) =, t 0

r(τ )h_k(t − τ) dτ

=, t 0

r(τ )f_k(T − t + τ) dτ, k = 1, 2, ..., N

(3.15)

Ahora, si la salida del filtro es muestreada para t = T , obtenemos:

y_k(T ) =, T 0

r(τ )f_k(τ) dτ = rk, k = 1, 2, ..., N (3.16)

Entonces, las salidas de los filtros muestreadas en t = T son exactamente el conjunto de valores {rk} obtenidos del los N correlacionadores lineales anteriormente tratados. Al filtro cuya respuesta al impulso h(t) = s(T − t), donde s(t) es determinada en el intervalo de tiempo 0 ≤ t ≤ T , es llamado filtro acoplado a la señal s(t). El filtro acoplado tiene algunas interesantes propiedades, una de ellas es la capacidad de maximizar la relación señal a ruido a su salida (SNR por sus iniciales en Inglés): Consideremos que una señal s(t) es afectada por un proceso de ruido blanco gaussiano aditivo (AWGN por sus siglas en Inglés), entonces, la señal recibida r(t) está conformada por la señal s(t) y el proceso AWGN n(t) el cual es de media cero y de densidad espectral de potencia Φnn(f) = ¹₂N₀W/Hz. Supongamos ahora que la señal r(t) es filtrada con un sistema con respuesta al impulso h(t), 0 ≤ t ≤ T , y su salida muestreada en el tiempo t = T . La respuesta del filtro a las componentes de la señal y el ruido es:

y(t) = , t

0

r(τ )h(t− τ) dτ

=, t 0

s(τ )h(t− τ) dτ + , t

0

n(τ )h(t− τ) dτ

(3.17)

En el instante de muestreo t = T , los componentes de la se˜nal y el ruido son:

y(T ) = , T

0

s(τ )h(T − τ) dτ + , T

0

n(τ )h(T − τ) dτ

= y_s(T ) + y_n(T )

(3.18)

donde ys(T ) representa la componente de la se˜nal y yn(T ) lo componente del ruido. El problema consiste en seleccionar la respuesta al impulso tal que maximice a la

(42)

salida del filtro el SNR definido como:

SN R₀ = y_s²(T )

E[y_n²(T )] (3.19)

El denominador de (3.19) es la varianza del termino ruidoso en la salida del filtro dado por:

E[y²_n(T )] =, _T

0

, _T

0

E[n(τ )n(t)]h(T − τ)h(T − t) dt dτ

= 1 2N₀

, T 0

δ(T− τ)h(T − τ)h(T − t) dt dτ

= 1 2N₀

, _T

0

h²(T − t) dt

(3.20)

Es de hacer notar que la varianza depende de la densidad espectral de potencia del ruido y de la energ´ıa en la respuesta al impulso h(t). Sustituyendo y_s(T ) y E[y²_n(T )]

en (3.19), se obtiene la expresi´on para el SNR:

SN R₀= [0T

0 s(τ )h(T − τ) dτ]²

1 2N₀0T

0 h²(T − t) dt = [0T

0 h(τ )s(T − τ) dτ]²

1 2N₀0T

0 h²(T − t) dt (3.21) Dado que el denominador del SNR depende de la energ´ıa en h(t), la máxima salida del SNR sobre h(t) es obtenida por maximizar el numerador con la limitante de mantener el denominador constante. Esta maximización es posible de realizar haciendo uso de la desigualdad de Cauchy-Schwartz, la cual estable, en términos generales, que si g₁(t) y g2(t) son señales con energ´ıa finita entonces:

", _∞

−∞

g₁(t)g₂(t) dt

%2

≤ , _∞

−∞

g₁²(t) dt, _∞

−∞

g₂²(t) dt (3.22)

con igualdad cuando g₁(t) = Cg₂(t) para cualquier valor de C. Si definimos g₁(t) = h(t) y g₂(t) = s(T − t), es evidente que el SNR es maximizado cuando h(t) = Cs(T−t), es decir, cuando h(t) es acoplado a la se˜nal s(t). El factor de escalamiento C² es eliminado de (3.19), debido a que aparece tanto en el numerador como en el denominador.

(43)

Finalmente, la m´axima salida del SNR obtenida por utilizar un filtro acoplado es:

SN R₀ = 2 N0

, T 0

s²(t) dt

= 2 N₀E

(3.23)

Hay que destacar que la salida SNR del filtro acoplado depende de la energ´ıa de la se˜nal s(t) no as´ı de sus caracter´ısticas detalladas, siendo esta otra interesante propiedad del filtro acoplado.

Otra interpretación del filtro acoplado se da en el dominio de la frecuencia. Dado que h(t) = s(T − t), la transformada de Fourier de tal relación está dada por:

H(f ) = , T

0

s(T− t)e^−j2πftdt

=", _T

0

s(τ )e^−j2πfτdτ

%

e^−j2πfT

= S^∗(f)e^−j2πfT

(3.24)

Se puede observar que el filtro acoplado tiene una respuesta en frecuencia que corresponde al complejo conjugado del espectro de la se˜nal transmitida multiplicado por el factor de fase e^−j2πfT, el cual representa un retardo de T . Equivalentemente,

|H(f)| = |S(f)|, entonces la magnitud de la respuesta en frecuencia del filtro acoplado es idéntica al espectro de la señal transmitida. Por otro lado, la fase de H(f) es el negativo de la fase de S(f). Si la señal s(t) con espectro S(f) es procesada por el filtro acoplado, entonces la salida de tal filtro tiene un espectro Y (f) = |S(f)|²e^−j2πfT. Por consiguiente, la forma de onda de la señal a la salida del filtro es:

y_s(t) = , _∞

−∞

Y (f )e^−j2πftdf

=, _∞

−∞|S(f)|²e^−j2πfTe^−j2πftdf

(3.25)

Si muestreamos la salida del filtro acoplado en t = T , obtenemos:

ys(T ) =, _∞

−∞|S(f)|²df = , T

0

s²(t) dt = E (3.26)