• No se han encontrado resultados

Sistema de protección de derechos de autor en señales de audio

N/A
N/A
Protected

Academic year: 2023

Share "Sistema de protección de derechos de autor en señales de audio"

Copied!
147
0
0

Texto completo

(1)

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

“SISTEMA DE PROTECCIÓN DE DERECHOS DE AUTOR EN SEÑALES DE AUDIO”

TESIS

QUE PARA OBTENER EL GRADO DE:

DOCTOR EN COMUNICACIONES Y ELECTRÓNICA PRESENTA:

JOSÉ JUAN GARCÍA HERNÁNDEZ

ASESORES:

DR. HÉCTOR PÉREZ MEANA DRA. MARIKO NAKANO MIYATAKE

ENERO 2008

(2)

JOS´E JUAN GARC´IA HERN ´ANDEZ

TESIS ENVIADA EN CUMPLIMIENTO PARCIAL DE LOS REQUERIMIENTOS PARA OBTENER

EL GRADO DE:

DOCTOR EN COMUNICACIONES Y ELECTR ´ONICA

A LA

SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACI ´ON

DE LA ESCUELA SUPERIOR DE INGENIER´IA MEC ´ANICA Y EL´ECTRICA

DEL

INSTITUTO POLIT´ECNICO NACIONAL

M´EXICO, 2008

(3)
(4)
(5)
(6)

Me gustar´ıa expresar mi sincero agradecimiento a mis asesores, al Dr. H´ector Manuel P´erez Meana y a la Dra. Mariko Nakano Miyatake, por su paciencia y dedicaci´on durante el desarrollo de este trabajo, as´ı como por las sumamente constructivas discusiones que tuvimos en el desarrollo de esta tesis, ha sido un honor trabajar con ellos.

Igualmente es mi deseo expresar mi sincera gratitud a Dr. Aldo Orozco, Dr. Mauricio Lara y Prof. Dr. Valeri Kontorovitch de la Secci´on de Comunicaciones del Centro de In- vestigaci´on y Estudios Avanzados del IPN (CINVESTAV) por la amabilidad e inter´es que me brindaron durante mi estancia como estudiante invitado en esa excelente instituci´on, ha sido una experiencia de gran impacto en mi formaci´on.

Especial menci´on merece Juan Carlos Garc´ıa Hern´andez del CEA en Par´ıs, Francia, quien me involucr´o y auxili´o en el uso de herramientas de software libre como LATEXy otras mas. Agradezco profundamente su ayuda y me enorgullece que adem´as compartamos a los mismos padres.

Al Instituto Polit´ecnico Nacional y al Consejo Nacional de Ciencia y Tecnolog´ıa les expreso mi reconocimiento, sin la ayuda financiera de estas dos instituciones no habr´ıa sido posible desarrollar este trabajo.

El personal administrativo de la Secci´on de Estudios de Posgrado e Investigaci´on, Rosy, Mayra y Ma. Dolores, por sus amables atenciones y buen humor muchas gracias.

He aprendido mucho de mis profesores en la Secci´on, de la misma manera de los alumnos del programa ESITI a los cuales tuve el honor de impartir c´atedra, gracias a todos ellos, porque a lo mejor sin ellos saberlo, me han hecho crecer acad´emica y personalmente.

Finalmente, pero no por ello menos importante, a mi familia, Jos´e, Carmen y Juan Carlos, por su incondicional apoyo, en los momentos buenos pero sobre todo en los momentos dif´ıciles, han sido el mejor ejemplo de vida, palabras sobran para expresar lo que significan para mi, gracias por todo.

Jos´e Juan Garc´ıa Hern´andez

(7)

“SISTEMA DE PROTECCI ´ON DE DERECHOS DE AUTOR EN SE˜NALES DE AUDIO”.

Autor: JOS´E JUAN GARC´IA HERN ´ANDEZ

ASESORES DE TESIS : DR. H´ECTOR MANUEL P´EREZ MEANA, DRA. MA- RIKO NAKANO MIYATAKE

RESUMEN

En este trabajo se estudian los m´etodos mas significativos de inserci´on de datos en se˜nales de audio, conocidos como sistemas de marca de agua, y se proponen mejoras a algunos de ellos, los resultados experimentales demuestran la val´ıa de las propuestas hechas en este trabajo.

Se lleva a cabo una investigaci´on sobre esquemas de blanqueo de se˜nal de utilidad significativa en sistemas de marca de agua basados en la teor´ıa del espectro disperso, despu´es de la cual se concluye que los m´etodos de mediana y promedio, propuestos en este trabajo, son los m´as adecuados en funci´on de los resultados de error de falso negativo Pmd.

Se demuestra experimentalmente que la utilizaci´on de la transformada trasla- pada modulada compleja (MCLT) en sistemas de marca de agua permite una mayor transparencia auditiva en comparaci´on de la utilizaci´on de transformadas bloque.

Los algoritmos resultantes de estas propuestas y experimentaciones son imple- mentados en un sistema de procesamiento digital de se˜nales en tiempo real y probados en ambientes de trabajo no-ideales, los resultados obtenidos sugieren que pueden ser factibles de comercializaci´on.

PALABRAS CLAVE : MARCA DE AGUA / HAS/ TIEMPO REAL

MCLT / PROCESADOR DIGITAL DE SE˜NALES / MOS AUDIO STIRMARK / MBSD / TRANSPARENCIA AUDITIVA

(8)

“SISTEMA DE PROTECCI ´ON DE DERECHOS DE AUTOR EN SE˜NALES DE AUDIO”.

Autor: JOS´E JUAN GARC´IA HERN ´ANDEZ

THESIS ADVISORS : DR. H´ECTOR MANUEL P´EREZ MEANA, DRA. MA- RIKO NAKANO MIYATAKE

ABSTRACT

In this work, state-of-the-art data hiding methods (aka. watermarking systems) in audio signals are studied. Several improvements to such methods are proposed and experimental results show the impact of them.

An investigation on withening procedures is carried out in order to know the best one for the Detection Theory requirements. The median filter and the mean filter methods present the best behaviour of all previously reported methods in miss detection probability error (Pdm) terms.

It is demonstrated that for use the modulated complex lapped transform (MCLT) in watermarking systems it is possible to achieve a bigger human transparency in com- parison with to use block transforms.

The algorithms developed in this thesis are implemented in a digital signal processor (DSP) and tested in real-world conditions, the results obtained from these tests suggest that it can be possible to commercialize such systems.

KEY WORDS : WATERMARKING / HAS / REAL-TIME MCLT / DSP / MOS

AUDIO STIRMARK / MBSD / AUDITORY TRANSPARENCY

(9)

AGRADECIMIENTOS III

RESUMEN IV

ABSTRACT V

´INDICE DE CUADROS IX

´INDICE DE FIGURAS X

1. Introducci´on 1

1.1. Marca de Agua Digital . . . 2

1.1.1. Aplicaciones . . . 3

1.1.2. Requerimientos . . . 4

1.2. Objetivo General . . . 7

1.3. Objetivos Particulares . . . 7

1.4. Revisi´on Bibliogr´afica . . . 7

2. El sistema auditivo humano 10 2.1. Transformada Lapped Compleja Modulada . . . 11

2.2. Escala de Bark . . . 13

2.3. Espectro de potencia . . . 15

2.4. Funci´on de dispersi´on de la membrana basilar . . . 15

2.5. Estimado del umbral de enmascaramiento . . . 16

2.5.1. ´Indice de enmascaramiento . . . 16

2.5.2. Medici´on de llanura espectral y factor de tonalidad . . . 17

2.5.3. Normalizaci´on del umbral . . . 19

2.6. Costo computacional . . . 20

3. Espectro disperso 22 3.1. Receptores ´optimos en ambientes gaussianos . . . 22

3.1.1. Demodulaci´on por correlacionador . . . 23

3.1.2. Demodulaci´on por filtro acoplado . . . 26

3.1.3. El detector ´optimo . . . 30

3.2. Inserci´on de datos en se˜nales de audio utilizando espectro disperso . . . . 33

(10)

3.3. Espectro Disperso Mejorado . . . 38

3.3.1. Aproximaci´on lineal . . . 39

3.3.2. ISS ´optimo . . . 41

4. Sistemas insensibles a interferencia de la portadora 43 4.1. Modulaci´on por cuantizaci´on de ´ındice . . . 45

4.2. Modulaci´on por cuantizaci´on de ´ındice con distorsi´on compensada . . . . 48

4.3. Modulaci´on Dither . . . 49

4.3.1. Modulaci´on dither binaria con cuantizadores uniformes . . . 50

4.4. Modulaci´on fraccionaria dither de primer orden . . . 52

4.4.1. Distorsi´on debida a la inserci´on en RDM . . . 54

4.5. Modulaci´on fraccionaria dither de orden general . . . 55

5. Desarrollo del sistema en tiempo real 59 5.1. Espectro disperso en el dominio temporal . . . 59

5.1.1. Resultados obtenidos en el sistema en el dominio temporal . . . . 61

5.1.1.1. Prueba de MOS . . . 61

5.1.1.2. Prueba de MBSD . . . 62

5.1.1.3. Prueba de robustez . . . 63

5.1.2. Implementaci´on en tiempo real . . . 64

5.2. Espectro disperso en el dominio MCLT . . . 64

5.2.1. Proceso de inserci´on de la marca de agua . . . 65

5.2.1.1. Generador de secuencia PN y elecci´on de par´ametros de inserci´on . . . 66

5.2.2. Proceso de detecci´on de la marca de agua . . . 68

5.2.2.1. Codificaci´on de predicci´on lineal LPC . . . 68

5.2.2.2. Filtrado Cepstrum . . . 69

5.2.2.3. Filtrado Savitzky-Golay . . . 70

5.2.2.4. Filtro promedio . . . 71

5.2.2.5. Filtro de mediana . . . 71

5.2.3. Implementaci´on en tiempo real . . . 72

5.2.4. Resultados obtenidos en el sistema en el dominio MCLT . . . 77

5.2.4.1. Resultados de prueba MOS . . . 78

5.2.4.2. Resultados de prueba MBSD . . . 78

5.2.4.3. Comparaci´on de los m´etodos de blanqueo . . . 79

5.2.4.4. Resultados al conjunto de ataques Stirmark . . . 81

5.3. Transmisi´on de alto flujo de bits por canales de audio . . . 82

5.3.1. Proceso de inserci´on de datos a altas velocidades . . . 83

5.3.2. Proceso de recuperaci´on del flujo de bits . . . 83

(11)

5.3.3. Resultados del sistema RDM-MCLT . . . 84 5.3.3.1. Prueba MOS en RDM-MCLT . . . 85 5.3.3.2. Prueba MBSD para el sistema RDM-MCLT . . . 86 5.3.3.3. Ataques de Audio Stirmark al sistema RDM-MCLT . . . 86 5.3.3.4. Comparaci´on de RDM-MCLT con m´etodos convencionales 87 5.3.3.5. DCT-RDM versus MCLT-RDM . . . 88

6. Conclusiones y trabajo a futuro 90

6.1. Conclusiones . . . 90 6.2. Trabajo a futuro . . . 91

BIBLIOGRAF´IA 92

A. Productividad obtenida 98

A.1. Revistas con arbitraje . . . 98 A.2. Congresos Internacionales . . . 98

(12)

5.1. Criterio utilizado en la prueba MOS . . . 62 5.2. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

en el dominio temporal . . . 62 5.3. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada en el

dominio temporal . . . 63 5.4. Promedio de los valores de correlaci´on despu´es de los ataques . . . 63 5.5. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

en el dominio MCLT . . . 78 5.6. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada en el

dominio MCLT . . . 78 5.7. Resultados de las evaluaciones de los procedimientos de blanqueo . . . 80 5.8. Resultados de la correlaci´on en se˜nales de audio atacadas por Stirmark . . 82 5.9. Resultados obtenidos utilizando el criterio de la tabla 5.1 para el sistema

RDM-MCLT . . . 86 5.10. Evaluaci´on MBSD aplicada a diferentes tipos de m´usica marcada con el

sistema RDM-MCLT . . . 86 5.11. Resultados en t´erminos del BER de las se˜nales marcadas con RDM-MCLT

atacadas por Audio Stirmark. . . 87 5.12. M´etricas de distintos esquemas de marca de agua en audio . . . 88

(13)

1.1. Esquema de un sistema general de inserci´on y detecci´on de marca de agua

digital . . . 2

2.1. Esquema general del calculo de umbral . . . 11

2.2. Bandas cr´ıticas mapeadas en la escala de Bark . . . 14

2.3. Espectro de potencia y energ´ıa por banda cr´ıtica . . . 16

2.4. Modelo de la funci´on de dispersi´on de la membrana basilar . . . 17

2.5. Enmascaramiento disperso a trav´es de las bandas cr´ıticas . . . 18

2.6. Umbral de enmascaramiento previo T raw(z). . . 19

2.7. Umbral de enmascaramiento normalizado T norm(z). . . 20

2.8. Umbral absoluto auditivo . . . 21

3.1. Modelo de un sistema de comunicaci´on basado en espectro disperso . . . . 23

3.2. Sistema general de marca de agua basado en espectro disperso . . . 34

3.3. Funciones de densidad de probabilidad t´ıpicas en un sistema de espectro disperso . . . 37

4.1. Cuantizaci´on por modulaci´on de ´ındice . . . 46

4.2. Esquema de la modulaci´on fraccionaria dither de primer orden . . . 54

4.3. Esquema de la modulaci´on fraccionaria dither de orden general . . . 56

4.4. Valores emp´ıricos y anal´ıticos de la probabilidad de error para diferentes valores de L en una portadora Gaussiana, DWR=25 dB, c=2, p=2 seg´un [39] . . . 58

5.1. Sistema de inserci´on de datos en el dominio temporal . . . 60

5.2. Sistema de detecci´on de datos en el dominio temporal . . . 61

5.3. Tarjeta de desarrollo TMDSDSK6416T por Texas instruments Inc. . . 65

5.4. Esquema de inserci´on de marca de agua en el dominio MCLT . . . 66

5.5. Relaci´on entre el tama˜no del bloque y el valor de correlaci´on en el sistema en MCLT . . . 67

5.6. Detecci´on de la marca de agua basado en LPC . . . 69

5.7. Espectro de potencia de la se˜nal original . . . 73

(14)

5.8. Espectro de potencia de la se˜nal blanqueada con LPC . . . 73

5.9. Espectro de potencia de la se˜nal blanqueada con Cepstrum . . . 74

5.10. Espectro de potencia de la se˜nal blanqueada con filtro Savitzky-Golay . . 74

5.11. Espectro de potencia de la se˜nal blanqueada con filtro promedio . . . 75

5.12. Espectro de potencia de la se˜nal blanqueada con filtro de mediana . . . . 75

5.13. Sistema de inserci´on/detecci´on de marcas de agua en un ambiente de tra- bajo real . . . 76

5.14. Se˜nal original (arriba) y se˜nal marcada (abajo) . . . 77

5.15. Resultados de la detecci´on utilizando el LPC . . . 79

5.16. Resultados de la detecci´on utilizando el filtro Cepstrum . . . 80

5.17. Resultados de la detecci´on utilizando el filtro Savitzky-Golay . . . 80

5.18. Resultados de la detecci´on utilizando el filtro de mediana . . . 81

5.19. Resultados de la detecci´on utilizando el filtro de media . . . 81

5.20. Sistema de inserci´on de datos RDM-MCLT . . . 84

5.21. Sistema de recuperaci´on de datos RDM-MCLT . . . 85

(15)

CAP´ITULO 1 INTRODUCCI ´ ON

El r´apido desarrollo de Internet y la revoluci´on de la informaci´on digital caus´o cam- bios significantes en la sociedad global, abarcando desde su influencia en la econom´ıa mundial a la forma en que la gente se comunica en la actualidad. La disponibilidad de redes de comunicaci´on de banda ancha ha propiciado la f´acil difusi´on de contenido art´ısti- co en formato digital (im´agenes, audio y video) sin p´erdida de calidad como sucede en medios de transmisi´on anal´ogica.

La ventaja de utilizar la tecnolog´ıa digital sobre el procesamiento anal´ogico se convierte en una desventaja desde el punto de vista de la protecci´on de los derechos de autor de los contenidos distribuidos, debido a la posibilidad de realizar copias ilimitadas sin perdida de la calidad lo cual redunda en una gran p´erdida financiera para los poseedores de los derechos de autor [1, 2, 3]. Asimismo, la facilidad para modificar y reproducir contenido intelectual en el medio digital ha provocado que la protecci´on de la propiedad intelectual y la prevenci´on de alteraciones no autorizadas llegue a ser un importante tema de inves- tigaci´on y desarrollo tecnol´ogico.

Los m´etodos tradicionales de protecci´on de datos digitales se basan en la criptograf´ıa, estos m´etodos previenen el acceso al contenido sin la posesi´on de la llave correcta. Sin embargo, una vez que el contenido es desencriptado es posible copiar y distribuir el mismo sin ninguna restricci´on, a esta situaci´on se le conoce como el ‘El agujero anal´ogico’[4]. La disponibilidad de software especializado y gratuito permite explotar el agujero anal´ogico de una forma r´apida y sencilla como es el caso del programa DVD Shrink [5] que permite copiar el contenido de un Disco Vers´atil Digital (DVD por sus siglas en ingl´es) quitando

(16)

la restricci´on de codificaci´on de zona y creando una imagen de disco lista para grabar por cualquier dispositivo de grabaci´on de DVD’s. Con el fin de combatir la deficiencia de los sistemas criptogr´aficos en el campo de la protecci´on de la propiedad intelectual se ha propuesto el uso de un nuevo m´etodo llamado “Marca de Agua”, el cual es descrito en la siguiente secci´on.

1.1. Marca de Agua Digital

El concepto de marca de agua digital se define como el proceso de electr´onica- mente agregar informaci´on ya sea perceptible o imperceptible en un medio que sea dif´ıcil de borrar sin alterar el medio mismo. Un sistema de marca de agua involucra un proceso de marcado y otro de detecci´on que, generalmente, requiere una clave de prop´osito similar a la la clave utilizada en los sistemas criptogr´aficos. La figura 1.1 muestra un esquema general de un sistema de inserci´on y detecci´on de marcas de agua, las l´ıneas punteadas representan se˜nales que pueden o no existir dependiendo del esquema particular. El nivel de disponibilidad de la clave, determinar´a qui´en o qui´enes podr´an leer o detectar la marca de agua. En la pr´actica, la mayor´ıa de las t´ecnicas de marca de agua son an´alogas a los sistemas criptogr´aficos sim´etricos, en los que se emplea una sola clave, fundament´andose en dicha llave la seguridad del sistema [2].

Figura 1.1: Esquema de un sistema general de inserci´on y detecci´on de marca de agua digital

(17)

La principal ventaja de los sistemas de marca de agua consiste en que la marca es inseparable del contenido del archivo digital y, seg´un la aplicaci´on, puede ser transparente al sistema perceptivo humano.

1.1.1. Aplicaciones

Existen diversas aplicaciones para los sistemas de marca de agua, algunas de ellas son las siguientes [6]:

• Protecci´on de derechos de autor. Para proteger la propiedad intelectual, el poseedor del trabajo art´ıstico puede insertar una marca de agua que represente la informaci´on de los derechos de autor de este. Utilizar una marca de agua de esta manera puede probar la propiedad intelectual en una corte cuando alguien ha infringido los derechos de autor.

• Control de distribuci´on de copias. Para encontrar el origen de copias ilegales, el pro- pietario puede usar la t´ecnica conocida como fingerprint, la cual consiste en agregar marcas de agua diferentes en las copias del trabajo que son entregadas a diferentes consumidores. Esta t´ecnica posibilita la identificaci´on del consumidor que ha violado la licencia que se le otorg´o al distribuir el trabajo intelectual a terceras partes.

• Protecci´on contra copias ilegales. Con una marca de agua es posible directamente controlar dispositivos de grabaci´on digitales con fines de protecci´on contra copas. En este caso la marca de agua representa una indicaci´on de prohibici´on de copias, si el dispositivo de grabaci´on la detecta entonces no realiza la copia del trabajo intelectual.

• Autenticaci´on de datos. En este caso es posible usar marcas de agua fr´agiles, esto es, sensibles de perderse al sufrir cualquier ataque o procesamiento por m´ınimo que este sea. Una marca de agua fr´agil indica cuando el trabajo intelectual ha sido alterado y proporciona informaci´on de como fue alterado.

(18)

• Comunicaciones secretas. En esta aplicaci´on la marca incrustada en los archivos mul- timedia se utiliza por dos o m´as personas para comunicarse secretamente sin levantar sospecha en terceros. Es la aplicaci´on cl´asica de la esteganograf´ıa (ocultar una infor- maci´on dentro de otra) de comunicaciones por canales subliminales.

• Monitoreo de las transmisiones de radiodifusi´on. Al igual que en las firmas, las marcas de agua identifican al propietario de los archivos multimedia y/o al comprador de una copia determinada de los mismos y son detectadas por sistemas automatizados que rastrean las transmisiones de televisi´on y radiodifusi´on, las redes de computadoras y otros canales de distribuci´on para estar al tanto de cuando y donde se ha utilizado un archivo multimedia propietario. Muchas comunidades est´an interesadas en el monitoreo de las transmisiones de radiodifusi´on, cada una de ellas de diferente forma, por ejemplo, los m´usicos y actores cuyas obras son retransmitidas en diversas cadenas de radio y televisi´on, as´ı como los agentes publicitarios, desean asegurarse que el tiempo en el que realmente est´an en el aire, sea el que se les ha pagado.

1.1.2. Requerimientos

Cada aplicaci´on que utiliza un sistema de marca de agua tiene sus propios requi- sitos, por esto, no existe un conjunto de los mismos para todas las t´ecnicas de marcado.

Sin embargo, para las aplicaciones antes mencionadas, existen algunos requerimientos que son aplicados a la mayor´ıa de ellas, como son [6]:

• Transparente al auditorio humano. En la mayor´ıa de aplicaciones de marca de agua se requiere insertar la marca de tal manera que no afecte la calidad de entendimiento de la se˜nal original. Se dice que un proceso de inserci´on es confiablemente im perceptible si el auditorio humano no es capaz de encontrar diferencias entre la se˜nal original y la se˜nal marcada.

• Carga ´util de la marca de agua. La cantidad de informaci´on que puede ser almacenada

(19)

en una marca de agua depende de la aplicaci´on. Para protecci´on de derechos de autor, es deseable insertar una cantidad mayor de informaci´on, como puede ser el nombre del propietario intelectual, restricciones de copias de uso personal, etc.

• Robustez. Una marca de agua fr´agil que tiene como objetivo probar autenticidad de la se˜nal no tiene que ser robusta contra t´ecnicas de procesamiento o ataques intencionales de la se˜nal, puesto que una falla en el proceso de detecci´on muestra que la se˜nal ha sido alterada y no es aut´entica mas. si la marca de agua es usada en otra aplicaci´on, es deseable, entonces, que siempre se mantenga la marca en la se˜nal, a pesar de que la calidad de ´esta sea degradada intencionalmente o no. Ejemplos de degradaciones no intencionales son: compresi´on con p´erdidas, conversi´on anal´ogico-digital (A/D) y digital-anal´ogico (D/A), filtrado, adici´on de ruido, remuestreo, etc. Por otra parte, la marca tambi´en puede ser sujeta a intentos de remoci´on intencional como en el caso de varias copias del mismo contenido con distintas marcas de agua es posible remover la marca debido a la colisi´on entre algunos propietarios de las copias, o la alteraci´on geom´etrica del medio atacado con respecto a su original [7]. En general, no debiera existir ninguna forma de remover o alterar la marca de agua sin degradar suficientemente la calidad perceptual de la se˜nal, haciendo esta inutilizable.

• Viabilidad del sistema. Toda tecnolog´ıa que pretende ser comercializada, debe tener en cuenta varios aspectos, entre ellos: el coste computacional, el coste econ´omico y la es- calabilidad del sistema. En muchos sistemas, tales como los de audio y video, la marca debe ser insertada y/o detectada en tiempo real, lo que requiere una gran capacidad computacional de los equipos. En algunas aplicaciones el n´umero de equipos que inser- tan la marca de agua difiere de la cantidad de detectores, lo que marcar´a la diferencia de precio entre unos y otros de acuerdo a la aplicaci´on concreta. Los requerimientos computacionales exigen a los sistemas de marcas de agua simplicidad, pero ´esta puede significar la reducci´on de la resistencia a las manipulaciones. Sin embargo, hay que

(20)

tener en cuenta que la velocidad de los ordenadores se dobla anualmente, de manera que un algoritmo que hoy no nos parezca razonable, podr´a r´apidamente convertirse en algo factible; es muy deseable dise˜nar sistemas de marcas de agua que sean escalables con cada generaci´on de computadoras.

• Baja probabilidad de error. En la mayor´ıa de los sistemas de marcas de agua es muy importante distinguir entre los archivos que contienen una marca y los que no. La probabilidad de error al detectar una marca debe ser muy peque˜na. Se denomina probabilidad de falso negativo a la probabilidad de que, habiendo estado presente una marca en determinado archivo, el detector asuma que no hay tal marca. Por otro lado, la probabilidad de falso positivo es la probabilidad de que no estando la marca presente en un archivo, el detector asuma que la marca est´a presente.

• Seguridad. La seguridad de las t´ecnicas de marcado pueden ser interpretadas como se hace en las t´ecnicas de encriptaci´on. La suposici´on de Kerckhoff establece que se deber´ıa asumir que el m´etodo usado para encriptar los datos es conocido por terceras partes y que la seguridad radica en el conocimiento de la llave. As´ı, una t´ecnica de marca de agua es confiablemente segura si el conocimiento de los algoritmos exactos de inserci´on y extracci´on no ayudan a consumidores no autorizados a detectar la presencia de la marca de agua o a removerla.

• Marca dependiente o no de la se˜nal original. En algunas aplicaciones, como protecci´on de derechos de autor y monitoreo de datos, los algoritmos de extracci´on pueden usar la se˜nal original sin marcar para encontrar la marca de agua, aqu´ı se dice que es un sistema dependiente de la se˜nal original. En aplicaciones como protecci´on contra copias los algoritmos de extracci´on no tienen acceso a la se˜nal original lo que hace la extracci´on m´as dif´ıcil, este tipo de algoritmos de marcado son conocidos como p´ublicos, ciegos o no dependientes de la se˜nal original.

(21)

1.2. Objetivo General

Desarrollar un sistema de procesamiento en tiempo real para la protecci´on de derechos de autor de contenidos de audio, utilizando un procesador digital de se˜nales (DSP por sus siglas en ingl´es) de vanguardia.

1.3. Objetivos Particulares

• Desarrollar tecnolog´ıas propias de marca de agua de se˜nales de audio y/o mejorar tec- nolog´ıas ya propuestas en la literatura y elegir la ´optima para el sistema a desarrollar.

• Implementaci´on y optimizaci´on de los algoritmos obtenidos en los puntos anteriores en un DSP.

• Conjuntar los sistemas implementados en un equipo comercialmente viable.

1.4. Revisi´on Bibliogr´afica

A continuaci´on se presentan algunos sistemas basados en distintas t´ecnicas re- portados en la literatura. En [8] se presenta una esquema que agrega la se˜nal de marca de agua como una secuencia de ruido blanco gaussiano, lo cual provoca que el bit menos significativo sea modificado de acuerdo a la marca de agua. Este enfoque es poco robusto a ataques como compresi´on, remuestreo y conversi´on digital-anal´ogico y anal´ogico-digital.

En [9] los autores presentan un esquema basado en la adici´on de eco no audible a la se˜nal original. El eco esta retrasado con respecto a la se˜nal anfitriona no m´as de 1 mS. ya que es el retardo mas corto conocido entre dos se˜nales que el o´ıdo humano puede separar. Este sistema no es robusto a compresi´on. En el mismo documento se propone insertar una marca de agua utilizando codificaci´on de la fase del espectro de frecuencia, este enfoque se basa en que el o´ıdo humano es m´as sensible a cambios en la magnitud del espectro de las componentes de frecuencia que a los cambios en la fase de las mismas. Codificar la fase puede resultar en un sistema de marca de agua sensible a procesamientos de audio que modifican la fase de la se˜nal. En [10] se presento un esquema basado en el modelo psi-

(22)

coac´ustico humano para alcanzar transparencia perceptual y un proceso de “blanqueo”

del espectro para detecci´on ciega de la marca de agua, este sistema demostr´o ser robusto a diversos ataques y no introduce ruido perceptible. Un enfoque novedoso de marca de agua en audio es presentado en [11] y se basa en la modificaci´on de la escala temporal de la se˜nal de audio, presenta robustez a muchos ataques tales como compresi´on, reproduc- ci´on, adici´on de ruido, adem´as no introduce distorsi´on espectral y es te´oricamente libre de ruido. Requiere la se˜nal original para la recuperaci´on de la marca de agua insertada.

La modificaci´on de la escala de tiempo tambi´en es presentada como una opci´on para la marca de agua en [12], en este trabajo se propone hacer la inserci´on en el dominio de wavelet, presenta robustez a compresi´on MP3 sin perdidas y filtrado pasabajas. La principal desventaja de este esquema es la baja cantidad de informaci´on que puede ser insertada teniendo una tasa de 1 bit/segundo. En el dominio de wavelet en [13] se pro- pone un esquema de inserci´on de marca de agua utilizando la transformada Haar y el algoritmo de Patchwork. El esquema menciona ser robusto a ataques de compresi´on y alteraci´on de las muestras, as´ı como ser imperceptible al auditorio humano, sin embargo no considera el modelo perceptual humano y por ende es vulnerable a compresi´on MP3.

Un esquema basado en el Cepstrum de la se˜nal es presentado en [14], este sistema utiliza la t´ecnica de espectro disperso para insertar la marca en el Cepstrum de la se˜nal de forma aditiva. Demostr´o ser robusto a m´ultiples marcajes, codificaci´on con p´erdidas y adici´on de ruido. Ser imperceptible y de f´acil detecci´on utilizando correlaci´on. En [15] se propone un sistema de inserci´on de marcas de agua basado en la representaci´on senoidal de la se˜nal de audio, utilizando la t´ecnica de modulaci´on del ´ındice de cuantizaci´on. El sistema es resistente a la compresi´on MP3. Utilizar la teor´ıa de las comunicaciones como analog´ıa en los sistemas de marcas de agua es muy recurrente como lo muestra el trabajo presentado en [16], el cual utiliza la independencia estad´ıstica de componentes obtenida al aplicar algoritmos de an´alisis de independencia de componentes (ICA por sus siglas

(23)

en ingl´es), obteniendo baja distorsi´on en la se˜nal marcada con respecto a la original y la posibilidad de tener alta cantidad de datos para insertar. En el caso de marcas de agua insertadas en tiempo real el trabajo publicado es muy poco. En [17] se presenta la implementaci´on de un sistema de marca de agua en tiempo real utilizando un DSP (Procesador digital de se˜nales), este esquema es transparente a la percepci´on auditiva humana y consume solo 100 MIPS en un procesador de punto fijo, lo cual lo hace adecua- do para un sistema comercial. La utilizaci´on de las marcas de agua en presentaciones “en vivo” es presentado en [18] y es denominado “Sonic watermarking”, este esquema busca marcar la se˜nal de audio en tiempo real y proyectar al auditorio una mezcla de la se˜nal original y la marcada, as´ı, si un espectador malicioso graba con un dispositivo port´atil la audici´on es posible detectar la marca de agua en esa grabaci´on y demostrar la propiedad del material intelectual. El algoritmo utilizado en la inserci´on de la marca de agua se basa en la t´ecnica de espectro disperso y en la etapa de detecci´on utiliza el esquema de correlaci´on cruzada sin necesidad de la se˜nal original. Este esquema considera el problema inherente al retraso en el tiempo de la se˜nal marcada con respecto a la original, ya que es un sistema de marcado en tiempo real, no es posible evitar dicho retraso propiciado principalmente por la ventana utilizada en el an´alisis frecuencial de la se˜nal original. La se˜nal marcada es resistente a compresi´on con perdidas como MP3, pero la eficiencia del detector depende del tipo de m´usica que fue marcada, presenta una gran confiabilidad para m´usica orquestal (mas de 90 % de detecci´on correcta) pero baja confiabilidad para ejecuciones de un solo instrumento (hasta 60 % de detecci´on correcta). En [19] se propone un esquema basado en redes neuronales en el dominio de la transformada coseno discreta (DCT por sus siglas en ingl´es), este esquema es muy novedoso y muy poco estudiado, los resultados reportados en [19] demuestran que es un campo f´ertil para investigaci´on original.

(24)

CAP´ITULO 2

EL SISTEMA AUDITIVO HUMANO

El comportamiento del o´ıdo humano ha sido estudiado por distintas ´areas tales como la biof´ısica y la psicoac´ustica. Gracias a estos estudios es sabido que durante el proceso de escucha existe un fen´omeno conocido como enmascaramiento frecuencial si- multaneo el cual indica que una frecuencia de magnitud grande puede “enmascarar” a otras frecuencias vecinas de magnitud menor. Este fen´omeno es ampliamente explota- do en el desarrollo de codificadores de audio perceptuales como el est´andar ISO MPEG Audio Layer 3 [20]. En este tipo de codificadores se obtiene un umbral de enmascaramien- to el cual marca la pauta sobre la magnitud del ruido aditivo surgido de la cuantizaci´on de los coeficientes en los codificadores que es permitida segun los requerimientos de co- dificaci´on, esto es, calidad perceptual y flujo de bits por segundo.

En el ´ambito de las marcas de agua en se˜nales de audio el umbral obtenido del an´alisis del modelo psicoac´ustico sirve para dimensionar el efecto de la marca de agua en el espacio frecuencial de la se˜nal de audio. La marca dimensionada seg´un el umbral de enmasca- ramiento es idealmente inaudible para el auditorio promedio, de esta forma es posible cubrir un requisito fundamental en los sistemas de marca de agua en se˜nales de audio que es el referido a la imperceptabilidad de la marca. Dada la dificultad de procesar toda la se˜nal de audio al mismo tiempo y la poca utilidad de esto para sistemas de tiempo real, la se˜nal de audio es dividida en cuadros que son procesados independientemente y despues concatenados o traslapados seg´un el algoritmo utilizado. Un esquema b´asico de calculo de umbral de enmascaramiento es mostrado en la figura 2.1. El primer paso es obtener una representaci´on frecuencial del cuadro a analizar, regularmente es utilizada la

(25)

transformada de Fourier, sin embargo, en el presente trabajo de investigaci´on todos los procesamientos llevados a cabo en el dominio de la frecuencia son realizados utilizando la Transformada Lapped Compleja Modulada(MCLT por sus siglas en ingl´es) que fue presentada en [21] y que tiene algunas interesantes propiedades que son abordadas en la secci´on siguiente. Posteriormente, son calculados el espectro de potencia, la energ´ıa por banda cr´ıtica y la energ´ıa dispersa por banda cr´ıtica, estos datos son utilizados para obtener el umbral de enmascaramiento buscado y con este dimensionar la marca de agua agregada.

Figura 2.1: Esquema general del calculo de umbral

2.1. Transformada Lapped Compleja Modulada

En el o´ıdo humano la c´oclea tiene la funci´on de realizar una transformaci´on de la se˜nal de audio de la escala de tiempo a la escala frecuencial, es decir, la informaci´on de audio en el tiempo es traducida en primera instancia a una representaci´on espacio- frecuencial dentro de la membrana basilar. Esta representaci´on espacial es percibida por el sistema nervioso y traducida en una representaci´on el´ectrica-frecuencial [22]. Este fen´omeno se puede modelar utilizando la Transformada Lapped Compleja Modulada (MCLT por sus siglas en ingl´es).

La MCLT es un tipo particular de un banco de filtros DFT sobre-muestreado por un factor 2x. La MCLT pertenece a una familia de trasformadas llamada Transformadas Lapped, la cual surgi´o a mediados de los a˜nos 80 en el MIT por la necesidad de tener una herramienta que permitiera procesar se˜nales sin las discontinuidades provocadas por las trasformadas bloque como la DFT, la DCT, la DHT, etc. [23]. Las funciones base de

(26)

la MCLT pueden ser obtenidas por modular, mediante una funci´on coseno, ventanas de suavizado en la forma para an´alisis:

pa(n, k) = pca(n, k) − jpsa(n, k) (2.1) pca(n, k) = ha(n)

! 2 M cos

"#

n + M + 1 2

$#

k + 1 2

$ π M

%

(2.2)

psa(n, k) = ha(n)

! 2 M sin

"#

n + M + 1 2

$#

k +1 2

$ π M

%

(2.3)

y para s´ıntesis:

ps(n, k) = 1 2

"

pcs(n, k) − jpss(n, k)

%

(2.4)

pcs(n, k) = hs(n)

! 2 M cos

"#

n + M + 1 2

$#

k +1 2

$ π M

%

(2.5)

pss(n, k) = hs(n)

! 2 M sin

"#

n + M + 1 2

$#

k + 1 2

$ π M

%

(2.6)

donde pa(n, k) y ps(n, k) son las funciones base para las transformadas directa e inversa respectivamente, y ha(n) y hs(n) son las ventanas de an´alisis y s´ıntesis respec- tivamente. El indice n, en el tiempo, var´ıa desde 0 hasta 2M − 1 y el ´ındice k, en la frecuencia, var´ıa desde 0 hasta M − 1, donde M es el tama˜no del bloque.

Las ventanas de an´alisis y s´ıntesis est´en definidas, para m´axima concentraci´on de DC, como:

ha(n) = hs(n) = − sin"#

n +1 2

$ π 2M

%

(2.7)

La matriz de transformaci´on directa Pa esta formada por los elementos pa(n, k).

Similarmente, la matriz de transformaci´on inversa Ps esta formada por los elementos ps(n, k). Para un bloque x de 2M muestras de la se˜nal x(n), el vector X de coeficientes MCLT es obtenido por X = PTax. Para un vector Y de coeficientes MCLT procesados, el vector y reconstruido es obtenido por y = PsY, los vectores y obtenidos son traslapados por un factor de M muestras, de esa manera es obtenida la se˜nal y(n) reconstruida.

(27)

Una interesante propiedad de la MCLT es que su formula de reconstrucci´on

y(n) =

M&−1 k=0

Y (k)ps(n, k) (2.8)

no es ´unica, es posible tener perfecta reconstrucci´on utilizando ´unicamente la parte real o ´unicamente la parte imaginaria de los coeficientes MCLT de la forma:

yc(n) =

M&−1 k=0

Re{Y (k)}pcs(n, k) (2.9)

o de la forma:

ys(n) =

M&−1 k=0

Im{Y (k)}pss(n, k) (2.10)

Aunque y(n), yc(n) y ys(n) no son id´enticas cuadro por cuadro, despu´es del proceso de traslapado generan la misma se˜nal reconstruida. Fue demostrado en [23] que las transfor- madas traslapadas como la MCLT presentan ausencia del llamado “efecto bloque” con respecto a las transformadas bloque como la DCT adem´as de una mayor relaci´on se˜nal a ruido (SNR, por sus siglas en Ingl´es), lo que la hace muy apropiada para procesamiento de audio. En [21] se propone un algoritmo r´apido basado en la Transformada Coseno Discreta tipo IV y en la Transformada Seno Discreta tipo IV, posteriormente en [24] se propone otro algoritmo r´apido para el c´alculo de la MCLT basado en una Transformada de Fourier R´apida (FFT por sus siglas en ingl´es), debido a la disponibilidad de bibliotecas optimizadas para el c´alculo de la FFT en Procesadores Digitales de Se˜nales (DSP’s) en la presente tesis se utiliza este ´ultimo algoritmo para la implementaci´on de la MCLT.

2.2. Escala de Bark

En un estudio presentado en [25] se demostr´o que la membrana basilar en el mecanismo auditivo analiza el sonido entrante a trav´es de una representaci´on espacio- espectral. Esto es hecho en peque˜nos sectores o regiones de la membrana basilar llamados

“bandas cr´ıticas”. Si todas las bandas cr´ıticas son conjuntadas de tal manera que la

(28)

frontera superior de una sea la frontera inferior de otra entonces se obtiene una nueva escala de frecuencia, esta escala es conocida como escala de Bark, siendo, precisamente un Bark el equivalente al ancho de cada banda cr´ıtica. Se han propuesto en la literatura distintas formas para representar el dominio de la frecuencia en la escala de Bark, dos de ellas son [26]:

z = 13 tan−1#0,76f 1000

$

+ 3, 5 tan−1 '# f

7500

$2(

(2.11)

y [27]

z = 26, 81f

1960 + f −0, 53 (2.12)

Donde f es la frecuencia en Hertz y z es la frecuencia mapeada en Barks. Usual- mente se obtienen 24 bandas cr´ıticas para el procesamiento de se˜nales de audio, la figu- ra 2.2 muestra estas bandas a lo largo de la escala de Bark.

Figura 2.2: Bandas cr´ıticas mapeadas en la escala de Bark

(29)

2.3. Espectro de potencia

Sea s(t) la se˜nal de audio a procesar y S(jw) los coeficientes MCLT de la se˜nal s(t) el siguiente paso en la obtenci´on del umbral de enmascaramiento es calcular el espectro de potencia Sp(jw), de la siguiente manera:

Sp(jw) = Re{S(jw)}2+ Im{S(jw)}2

= |Sw(jw)|2 (2.13)

La energ´ıa por banda cr´ıtica, Spz(z), es definida como:

Spz(z) =

HBZ&

w=LBZ

Sp(jw) (2.14)

Con z igual para todas las bandas cr´ıticas, LBZ igual a la mas baja frecuencia en la banda cr´ıtica z y HBZ igual a la mas alta frecuencia en la banda cr´ıtica z. La figura 2.3 muestra la obtenci´on de la energ´ıa por banda cr´ıtica Spz(z) a partir del espectro de potencia Sp(jw) para un cuadro de la se˜nal de audio procesada.

2.4. Funci´on de dispersi´on de la membrana basilar

Para modelar la forma en que un ruido de banda angosta enmascara a un tono de una frecuencia dada se utiliza la curva de la funci´on de dispersi´on de la membrana basilar la cual est´a definida como [27]:

B(z) = 15, 91 + 7, 5(z + 0, 474)− 17, 5)

1 + (z + 0, 474)2 (2.15)

donde z es la escala de Bark normalizada, la figura 2.4 muestra B(z) El modelo auditivo utiliza la informaci´on proporcionada por la energ´ıa de cada banda cr´ıtica y usa B(z) para calcular el enmascaramiento disperso a trav´es de las bandas cr´ıticas Sm(z), esto es llevado a cabo mediante la convoluci´on siguiente:

Sm(z) = Spz(z)∗ B(z) (2.16)

(30)

Figura 2.3: Espectro de potencia y energ´ıa por banda cr´ıtica

Sm(z) puede ser interpretado como la energ´ıa por banda cr´ıtica despu´es de tomar en cuenta el enmascaramiento ocasionado por las bandas vecinas. La figura 2.5 muestra Sm(z).

2.5. Estimado del umbral de enmascaramiento 2.5.1. ´Indice de enmascaramiento

Existen dos diferentes ´ındices usados para modelar el enmascaramiento. El pri- mero es usado cuando un tono enmascara ruido, y es definido como 14, 5 + ZdB por debajo de Sm(z), con z como la frecuencia central del tono que enmascara en la escala de Bark. El segundo ´ındice es usado cuando ruido enmascara a un tono y es definido como 5, 5 dB por debajo de Sm(z), sin considerar la frecuencia central.

(31)

Figura 2.4: Modelo de la funci´on de dispersi´on de la membrana basilar

2.5.2. Medici´on de llanura espectral y factor de tonalidad

La medici´on de llanura espectral (SFM por sus siglas en ingl´es) es usada para determinar si el cuadro actual es tipo-ruido o tipo-tono y entonces seleccionar el indice de enmascaramiento apropiado. La SF M es definida como la relaci´on de la media geom´etrica a la media aritm´etica de Sp(z), expresada en decibeles como:

SF MdB = 10 log 10' *Zt

z=1Spz(z)

1 Zt

+Zt

z=1Spz(z) (Zt1

(2.17)

donde Zt es el n´umero total de bandas cr´ıticas. El valor de SF M es usado para generar el “factor de tonalidad”que ayudar´a a seleccionar el correcto ´ındice de enmasca- ramiento para el cuadro procesado y es definido como, para SF MdBmax= −60dB:

α = m´ın

' SF MdB SF MdBmax, 1

(

(2.18)

(32)

Figura 2.5: Enmascaramiento disperso a trav´es de las bandas cr´ıticas

Si el cuadro analizado es tipo-tono entonces el factor de tonalidad α tendr´a un valor cercano a 1, y si el cuadro es tipo-ruido, α ser´a cercano a 0. El factor de tonalidad α es usado para calcular el offset de energ´ıa de enmascaramiento, definido como [27]:

O(z) = α(14, 5 + z) + (1− α)5, 5 (2.19)

El offset O(z) es restado de Sm(z) para estimar el umbral de enmascaramiento previo T raw(z)

T raw(z) = Sm(z)− O(z)

10 (2.20)

La figura 2.6 muestra el umbral de enmascaramiento previo T raw(z).

(33)

Figura 2.6: Umbral de enmascaramiento previo T raw(z).

2.5.3. Normalizaci´on del umbral

El uso de la funci´on B(z) incrementa el nivel de energ´ıa de cada una de las bandas cr´ıticas del espectro Sm(z). Este efecto tiene que ser combatido haciendo uso de una t´ecnica de normalizaci´on para regresar T raw(z) al nivel deseado. La energ´ıa por banda cr´ıtica es tambi´en afectada por el n´umero de componentes en cada banda.

Las bandas superiores tienen mas componentes que las bandas inferiores, afectando de diferente manera los niveles de energ´ıa. La normalizaci´on es llevada a cabo solamente dividiendo T raw(z) entre el n´umero de componentes de la respectiva banda Pi.

T norm(z) = T raw(z)

Pz (2.21)

La figura 2.7 muestra el umbral de enmascaramiento normalizado T norm(z). Es posible concluir en este punto que el ruido adicionado a la se˜nal por debajo del umbral

(34)

Figura 2.7: Umbral de enmascaramiento normalizado T norm(z).

normalizado es inaudible para el promedio del auditorio humano, por lo que es fractible dimensionar la se˜nal de marca de agua siguiendo este umbral y mantener la calidad subjetiva de la se˜nal despu´es del procesamiento.

2.6. Costo computacional

El hacer un an´alisis completo como el presentado anteriormente asegura que la se˜nal procesada mantendr´a la calidad subjetiva de la se˜nal original. Sin embargo, el costo computacional es muy alto y en sistemas embebidos en algunos casos el costo es prohibitivo. En [28] se sugiere utilizar el umbral absoluto auditivo para ahorrar recur- sos computacionales y obtener una degradaci´on m´ınima de la calidad subjetiva. En la presente tesis se utiliza esta sugerencia en sistemas de marcado en tiempo real y, co- mo muestran los resultados, la calidad de la se˜nal es aceptable para la media auditiva

(35)

humana. La figura 2.8 muestra el umbral absoluto auditivo.

Figura 2.8: Umbral absoluto auditivo

(36)

CAP´ITULO 3

ESPECTRO DISPERSO

El espectro disperso es una t´ecnica para transmitir informaci´on mediante la cual se dispersa la informaci´on a transmitir a lo largo de una banda muy grande de frecuencias, mayor al ancho de banda requerido m´ınimo para transmitir la informaci´on que se desea enviar. La dispersi´on de la informaci´on se logra modul´andola mediante un conjunto de se˜nales ortogonales como son las secuencias pseudoaleatorias o de pseudoruido (PN por sus siglas en Ingl´es), dichas secuencias PN son generadas en el receptor y utilizadas por el demodulador para remover la secuencia contenida en la se˜nal recibida. Para poder llevar a cabo la demodulaci´on es necesario sincronizar la secuencia PN generada en el receptor con la secuencia PN contenida en la se˜nal recibida, resultando as´ı en una demodulaci´on por detector coherente. La sincronizaci´on de las dos secuencias PN, la recibida y la generada, es de las tareas m´as dif´ıciles de resolver en los sistemas de espectro disperso, una soluci´on utilizada frecuentemente es transmitir un patr´on seudoaleatorio siempre invariante previo a la transmisi´on de la informaci´on, tal secuencia ser´a reconocida por el receptor en presencia de interferencia con alta probabilidad, despu´es de establecer el tiempo de sincronizaci´on la transmisi´on de la informaci´on puede comenzar. En la figura 3.1 se muestra un diagrama a bloques de un esquema b´asico de comunicaci´on basado en la t´ecnica de espectro disperso.

3.1. Receptores ´optimos en ambientes gaussianos

Suponiendo que un transmisor env´ıa informaci´on digital haciendo uso de M se˜nales {sm(t), m = 1, 2, ..., M}. Cada se˜nal tienen una duraci´on de tiempo T llamado

(37)

Figura 3.1: Modelo de un sistema de comunicaci´on basado en espectro disperso intervalo del s´ımbolo, es decir, la transmisi´on es llevada a cabo en el intervalo 0 ≤ t ≤ T Consideremos que el canal es corrompido por ruido blanco gaussiano, entonces la se˜nal recibida puede ser referida como:

r(t) = sm(t) + n(t) (3.1)

donde n(t) es una funci´on muestral de un proceso de ruido gaussiano blanco aditivo con densidad de potencia espectral Φnn(f) = 12N0W/Hz. Entonces es necesario detectar cual de las M se˜nales sm(t) fue enviada. En este momento es necesario dividir el receptor en dos etapas, el demodulador y el detector. La funci´on del demodulador es convertir la se˜nal recibida r(t) en un vector r = [r1r2...rN], donde N es la dimensi´on de las se˜nales transmitidas. El detector decide, entonces, cual de las M posibles se˜nales fue transmitida basado en el vector r. En las pr´oximas secciones ser´an descritos dos procedimientos para demodular la se˜nal recibida.

3.1.1. Demodulaci´on por correlacionador

El correlacionador descompone la se˜nal recibida y el ruido en vectores N-dimen- sionales, es decir, la se˜nal y el ruido son expandidos en series de funciones ortonormales ponderadas linealmente {fn(t)}. Se entiende que las N funciones base {fn(t)} abarcan el espacio de se˜nales de tal manera que cada una de las posibles se˜nales transmitidas del conjunto {sm(t), 1 ≤ m ≤ M} puede ser representada como una combinaci´on ponderada de {fn(t)}. En el caso del ruido, las funciones {fn(t)} no abarcan el espacio

(38)

de ruido. Supongamos que la se˜nal recibida r(t) es pasada a trav´es de un banco de N correlacionadores los cuales b´asicamente llevan a cabo el c´alculo de la proyecci´on de r(t) en las N funciones base {fn(t)}. Entonces tenemos:

, T 0

r(t)fk(t) dt =, T 0

[Sm(t) + n(t)]fk(t) dt rk= smk+ nk, k = 1, 2, ..., N

(3.2)

donde

smk =, T 0

sm(t)fk(t) dt, k = 1, 2, ..., N nk=, T

0

n(t)fk(t) dt, k = 1, 2, ..., N

(3.3)

La se˜nal es ahora representada por el vector smcon componentes smk, k=1,2,...,N.

Los valores de smdependen de cual de las M se˜nales fue transmitida. Los componentes de {nk} son variables aleatorias que surgen de la presencia de ruido aditivo. De tal manera que podemos expresar la se˜nal recibida r(t) en el intervalo 0 ≤ t ≤ T como:

r(t) =

&N k=1

Smkfk(t) +

&N k=1

nkfk(t) + n"(t)

=

&N k=1

rkfk(t) + n"(t)

(3.4)

El t´ermino n"(t) es definido como:

n"(t) = n(t) −

&N k=1

nkfk(t) (3.5)

n"(t) es un proceso de ruido gaussiano de media cero que representa la diferencia entre el proceso de ruido original n(t) y la parte correspondiente a la proyecci´on de n(t) en las funciones base {fk(t)}. El t´ermino n"(t) es irrelevante en la decisi´on de cual se˜nal fue transmitida, de ah´ı, la decisi´on puede ser basada ´unicamente en la se˜nal de salida del correlacionador y las componentes de ruido rk = smk+ nk, k = 1, 2, ...N . Dado que las se˜nales {sm(t)} son determin´ısticas, las componentes de las se˜nales son determin´ısticas tambi´en. Las componentes de ruido {nk} son gaussianas y sus valores medios son:

E(nk) =, T

0

E[n(t)]fk(t) dt = 0 (3.6)

(39)

para todos los valores de n, sus covarianzas son:

E(nknm) =, T 0

, T 0

E[n(t)n(τ )]fk(t)fm(τ) dt dτ

= 1 2N0

, T

0

, T

0

δ(t− τ)fk(t)fm(τ) dt dτ

= 1 2N0

, T 0

fk(t)fm(t) dt

= 1 2N0δmk

(3.7)

donde δmk= 1 cuando m = k y con valor cero en cualquier otro caso. Por lo cual, los N componentes de ruido {nk} son variables aleatorias gaussinas no correlacionadas con una varianza com´un σn2 = 12N0. De lo anterior, se obtiene que las salidas del corre- lacionador {rk} condicionadas a las emesimas se˜nales siendo transmitidas son variables aleatorias gaussianas con media:

E(rk) = E(smk+ nk) = smk (3.8)

e igual varianza

σ2r = σ2n= 1

2N0 (3.9)

Debido a que las componentes de ruido {nk} son variables aleatorias gaussianas no-correlacionadas, tambien son estad´ısticamente independientes. Como una consecuen- cia, las salidas del correlacionador {rk} condicionada sa las emesimas se˜nales siendo transmitidas son variables aleatorias gaussinas estad´ısticamente independientes. Por lo que, las funciones de densidad de probabilidad condicional de las variables aleatorias [r1r2...rN] = r son simplemente:

p(r|sm) =-

k=1

p(rk|smk), m = 1, 2, ..., M (3.10) donde:

p(rk|smk) = 1

√π N0exp

"

−(rk− smk)2 N0

%

, m = 1, 2, ..., M (3.11)

(40)

sustituyendo (3.11) en (3.10) obtenemos las funciones de densidad de probabilidad condicional conjuntas

p(r|sm) = 1

(π N0)N2 exp

"

&N k=1

(rk− smk)2 N0

%

, m = 1, 2, ..., M (3.12) Finalmente se desea mostrar que las salidas del correlacionador (r1r2...rN) son estad´ısticas suficientes para tomar una decisi´on de cual de las M probables se˜nales fue transmitida, de tal manera que no hay informaci´on relevante adicional contenida en las componentes del proceso de ruido restante n"(t). Entonces, n"(t) es no-correlacionado con las N salidas del correlacionador {rk}, es decir que:

E(n"(t)rk) = E[n"(t)]smk+ E[n"(t)nk]

= E[n"(t)nk]

= E ."

n(t)−

&N j=1

njfj(t)

%/

=, T

0

E[n(t)n(τ )]fk(τ) dτ −

&N j=1

E(njnk)fj(t)

= 1

2N0fk(t) −1

2N0fk(t) = 0

(3.13)

Debido a que n"(t) y {rk} son gaussianas y no-correlacionadas, entonces tambi´en son estad´ısticamente independientes. En consecuencia, n"(t) no contiene ninguna infor- maci´on que sea relevante a la decisi´on sobre cual se˜nal fue transmitida. Entonces, n"(t) puede ser ignorada.

3.1.2. Demodulaci´on por filtro acoplado

Es posible usar, a diferencia de un banco de N correlacionadores, un banco de N filtros lineales para generar las variables {rk}. Supongamos que la respuesta al impulso de los N filtros es:

hk(t) = fk(T − t), 0 ≤ t ≤ T (3.14) donde {fk(t)} son las N funciones base y hk(t) = 0 fuera del intervalo 0 ≤ t ≤ T .

(41)

La salida de esos filtros lineales es:

yk(t) =, t 0

r(τ )hk(t − τ) dτ

=, t 0

r(τ )fk(T − t + τ) dτ, k = 1, 2, ..., N

(3.15)

Ahora, si la salida del filtro es muestreada para t = T , obtenemos:

yk(T ) =, T 0

r(τ )fk(τ) dτ = rk, k = 1, 2, ..., N (3.16)

Entonces, las salidas de los filtros muestreadas en t = T son exactamente el conjunto de valores {rk} obtenidos del los N correlacionadores lineales anteriormente tratados. Al filtro cuya respuesta al impulso h(t) = s(T − t), donde s(t) es determinada en el intervalo de tiempo 0 ≤ t ≤ T , es llamado filtro acoplado a la se˜nal s(t). El filtro acoplado tiene algunas interesantes propiedades, una de ellas es la capacidad de maximi- zar la relaci´on se˜nal a ruido a su salida (SNR por sus iniciales en Ingl´es): Consideremos que una se˜nal s(t) es afectada por un proceso de ruido blanco gaussiano aditivo (AWGN por sus siglas en Ingl´es), entonces, la se˜nal recibida r(t) est´a conformada por la se˜nal s(t) y el proceso AWGN n(t) el cual es de media cero y de densidad espectral de potencia Φnn(f) = 12N0W/Hz. Supongamos ahora que la se˜nal r(t) es filtrada con un sistema con respuesta al impulso h(t), 0 ≤ t ≤ T , y su salida muestreada en el tiempo t = T . La respuesta del filtro a las componentes de la se˜nal y el ruido es:

y(t) = , t

0

r(τ )h(t− τ) dτ

=, t 0

s(τ )h(t− τ) dτ + , t

0

n(τ )h(t− τ) dτ

(3.17)

En el instante de muestreo t = T , los componentes de la se˜nal y el ruido son:

y(T ) = , T

0

s(τ )h(T − τ) dτ + , T

0

n(τ )h(T − τ) dτ

= ys(T ) + yn(T )

(3.18)

donde ys(T ) representa la componente de la se˜nal y yn(T ) lo componente del ruido. El problema consiste en seleccionar la respuesta al impulso tal que maximice a la

(42)

salida del filtro el SNR definido como:

SN R0 = ys2(T )

E[yn2(T )] (3.19)

El denominador de (3.19) es la varianza del termino ruidoso en la salida del filtro dado por:

E[y2n(T )] =, T

0

, T

0

E[n(τ )n(t)]h(T − τ)h(T − t) dt dτ

= 1 2N0

, T 0

, T 0

δ(T− τ)h(T − τ)h(T − t) dt dτ

= 1 2N0

, T

0

h2(T − t) dt

(3.20)

Es de hacer notar que la varianza depende de la densidad espectral de potencia del ruido y de la energ´ıa en la respuesta al impulso h(t). Sustituyendo ys(T ) y E[y2n(T )]

en (3.19), se obtiene la expresi´on para el SNR:

SN R0= [0T

0 s(τ )h(T − τ) dτ]2

1 2N00T

0 h2(T − t) dt = [0T

0 h(τ )s(T − τ) dτ]2

1 2N00T

0 h2(T − t) dt (3.21) Dado que el denominador del SNR depende de la energ´ıa en h(t), la m´axima salida del SNR sobre h(t) es obtenida por maximizar el numerador con la limitante de mantener el denominador constante. Esta maximizaci´on es posible de realizar haciendo uso de la desigualdad de Cauchy-Schwartz, la cual estable, en t´erminos generales, que si g1(t) y g2(t) son se˜nales con energ´ıa finita entonces:

",

−∞

g1(t)g2(t) dt

%2

,

−∞

g12(t) dt,

−∞

g22(t) dt (3.22)

con igualdad cuando g1(t) = Cg2(t) para cualquier valor de C. Si definimos g1(t) = h(t) y g2(t) = s(T − t), es evidente que el SNR es maximizado cuando h(t) = Cs(T−t), es decir, cuando h(t) es acoplado a la se˜nal s(t). El factor de escalamiento C2 es eliminado de (3.19), debido a que aparece tanto en el numerador como en el denominador.

(43)

Finalmente, la m´axima salida del SNR obtenida por utilizar un filtro acoplado es:

SN R0 = 2 N0

, T 0

s2(t) dt

= 2 N0E

(3.23)

Hay que destacar que la salida SNR del filtro acoplado depende de la energ´ıa de la se˜nal s(t) no as´ı de sus caracter´ısticas detalladas, siendo esta otra interesante propiedad del filtro acoplado.

Otra interpretaci´on del filtro acoplado se da en el dominio de la frecuencia. Dado que h(t) = s(T − t), la transformada de Fourier de tal relaci´on est´a dada por:

H(f ) = , T

0

s(T− t)e−j2πftdt

=", T

0

s(τ )e−j2πfτ

%

e−j2πfT

= S(f)e−j2πfT

(3.24)

Se puede observar que el filtro acoplado tiene una respuesta en frecuencia que corresponde al complejo conjugado del espectro de la se˜nal transmitida multiplicado por el factor de fase e−j2πfT, el cual representa un retardo de T . Equivalentemente,

|H(f)| = |S(f)|, entonces la magnitud de la respuesta en frecuencia del filtro acoplado es id´entica al espectro de la se˜nal transmitida. Por otro lado, la fase de H(f) es el negativo de la fase de S(f). Si la se˜nal s(t) con espectro S(f) es procesada por el filtro acoplado, entonces la salida de tal filtro tiene un espectro Y (f) = |S(f)|2e−j2πfT. Por consiguiente, la forma de onda de la se˜nal a la salida del filtro es:

ys(t) = ,

−∞

Y (f )e−j2πftdf

=,

−∞|S(f)|2e−j2πfTe−j2πftdf

(3.25)

Si muestreamos la salida del filtro acoplado en t = T , obtenemos:

ys(T ) =,

−∞|S(f)|2df = , T

0

s2(t) dt = E (3.26)

Referencias

Documento similar