INSTITUTO POLITÉCNICO NACIONAL
ESCUELA SUPERIOR DE INGENIERÍA
MÉCANICA Y ELÉCTRICA.
UNIDAD PROFESIONAL “ADOLFO LÓPEZ MATEOS”
ANÁLISIS DE FORMATOS DE AUDIO Y VIDEO PARA
TRANSMISIÓN SOBRE DEMANDA VIA INTERNET
T E S I S
QUE PARA
OBTENER EL TÍTULO
DE
INGENIERO EN COMUNICACIONES Y ELECTRÓNICA
PRESENTAN:
ROMERO GARCÍA JOSÉ LUIS
TERAN FIGUEROA JOSÉ EMMANUEL
ASESOR:
ING. JOSÉ JAVIER MUEDANO MENESES
ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELECTRICA
UNIDAD PROFESIONAL "ADOLFO LÓPEZ MATEOS"
TEMA DE TESIS
INGENIERO EN COMUNICACIONES Y ELECTRÓNICA QUE PARA OBTENER ELTITlJLO DE
TESIS COLECTIVA y EXAMEN ORAL INDIVIDUAL
POR LA OPCIÓN DE TITULACIÓN
C. JOSE LUIS ROMERO GARCIA DEBERA(N) DESARROLLAR
C. JOSE EMMANUEL TERAN FIGUEROA
"ANÁLISIS DE FORMATOS DE AUDIO Y VIDEO PARA TRANSMISIÓN SOBRE DEMANDA VÍA INTERNET"
ANALIZAR Y DETERMINAR LOS MEJORES FORMATOS DE AUDIO Y VIDEO PARA LA TRANSMISIÓN SOBRE DEMANDA VÍA INTERNET.
• INTRODUCCIÓN
• EL AUDIO DIGITAL Y SUS TÉCNICAS DE COMPRESIÓN, MEDICIÓN Y MASTERIZACIÓN
• EL VIDEO Y SUS TÉCNICAS DE COMPARACIÓN, COMPRENSIÓN Y EDICIÓN • CONVERGENCIA DE MULTIMEDIOS PARA STREAMING y SUS APLICACIONES
• CONCLUSIONES
• APENDICE A.- EQUIPO Y LUGAR REQUERIDO PARA LA REALIZACIÓN DEL VIDEO BAJO DEMANDA
• APENDICE B.- REDES ORIENTADO A DIRECCIONAMIENTO IP • APENDICE C- DISEÑO DE LA PAGINA WEB
• GLOSARIO • BIBLIOGRAFÍA
•
MÉXICO D.F. A 18 DE MARZO DE 2011
i'
1\
1,
i INDICE OBJETIVO...1 OBJETIVO PARTICULAR...1 JUSTIFICACIÓN...1 INTRODUCCIÓN...2
CAPITULO NO. 1 EL AUDIO DIGITAL Y SUS TÉCNICAS DE COMPRESIÓN, MEDICIÓN Y MASTERIZACIÓN. 1.1.- INTRODUCCIÓN...5
1.2.- FUNDAMENTOS DE AUDIO DIGITAL...6
1.3.- BASES DE CONVERSIÓN PARA DIGITALIZAR UNA SEÑAL...7
1.3.1.- Formación de una Señal PCM...7
1.3.2.- Resolución...8
1.4.- TRANSMISIÓN DEL AUDIO DIGITAL: MONOFÓNICO, ESTEREO Y MULTICANAL...9
1.5.- LA PSICOACUSTICA DEL OIDO...9
1.5.1.- Umbral de Audibilidad...9
1.5.2.- Enmascaramiento Temporal y Codificación...10
1.6.- CODECS PARA AUDIO...10
1.6.1.- Advanced Audio Coding ( Codificación de Audio Avanzado )...11
1.6.2.- WAV...11
1.6.3.- WMA ( Windows Media Audio )...12
1.6.4.- MIDI...12
1.6.5.- MPEG ( Grupo de Expertos en Imágenes en Movimiento )...12
1.6.6.- MP3...13
1.6.7.- El Bitrate...…...13
1.6.8.- MP3 Lame...13
1.6.9.- AC3 Códecs 0.68b………..14
1.6.10.- Real Networks………....14
1.6.11.- OGG VORBIS………...………...……14
ii
CAPITULO NO. 2 EL VIDEO Y SUS TÉCNICAS DE COMPARACIÓN, COMPRESIÓN Y EDICIÓN.
2.1.- INTRODUCCIÓN...17
2.2.- LA TELEVISÓN...17
2.2.1.- Formatos de Video Analógico...17
2.2.2.- Cuadros por Segundo...18
2.2.3.- Captación y Representación de Imágenes...18
2.2.4.- Video Compuesto...19
2.3.- CODIFICACIÓN DE COMPONENTES DIGITALES NORMA 601...20
2.4.- MONITORES Y TARJETAS DE VIDEO...20
2.5.- FORMATOS DE ALMACENAMIENTO...25
2.5.1.- Medios Analógicos de Almacenamiento...25
2.5.2.- Medios Digitales de Almacenamiento...25
2.5.3.- Cableado e Interconexión de Interfaces...26
2.6.- CARACTERÍSTICAS Y AJUSTES DE CALIBRACIÓN, MEDICIÓN Y COMPARACIÓN DE VIDEO...28
2.6.1.- Temperatura de Color...28
2.6.2.- Balance de Blancos...28
2.6.3.- Realización de un Balance de Blancos...28
2.6.4.- Balance de Negros...29
2.6.5.- Color Adecuado vs Color Verdadero...30
2.6.6.- Vectorscopio...30
2.6.7.- Monitor de Forma de Onda (MFO)...31
2..7.- ERRORES FRECUENTES EN LAS SEÑALES DE AUDIO Y VIDEO...32
2.7.1.- Errores Frecuentes en el Audio Digital...32
2.7.2.- Errores de Cuantización...33
2.7.3.- Jitter...35
2.7.4.- Errores en el Video Digital...35
2.7.5.- Congelamiento o Freezing...36
2.7.6.- Pixeleado o Blurring...36
2.7.7.- Efecto de Moire...37
2.7.8.- El Video no se Visualiza pero el Audio se Escucha...37
2.8.- PRODUCCIÓN Y POST PRODUCCIÓN...38
2.8.1.- Un Buen Guión y la Conectividad en una Producción...38
2.8.2.- Consideraciones para el Audio...39
2.8.3.- Conociendo el Medidor de Volumen...39
iii
2.8.5.- Silbalancia...40
2.8.6.- Popeo...41
2.8.7.- Efecto de Promixidad...41
2.8.8.- Consideraciones para Video...42
2.8.9.- La Luz es Critica...42
2.8.10.- Recomendaciones Finales Antes de Comenzar a Grabar...43
2.9.- GRABACIONES DE PRUEBA...43
2.9.1.- Calibración de Audio y Video...43
2.10.- REPRODUCTORES ESPECÍFICOS DE AUDIO Y VIDEO STREAMING...47
2.10.1.- Real Networks...48
2.11.- CODIFICACIÓN DE AUDIO EN REAL PRODUCER...53
2.12.- WINDOWS MEDIA PLAYER Y ENCODER...54
2.13.- ARQUITECTURA QUICK TIME………...59
2.14.- FLASH………...……..62
2.15..- ANÁLISIS DEL AUDIO Y VIDEO...65
2.15.1.- Análisis del Audio...65
2.15.2.- Resultado del Análisis...67
2.15.3.- Windows Expresión Encoder...68
2.15.4.- Resultados del Análisis...70
2.15.5.- Quick Time...70
2.15.6.- Resultados del Análisis...72
2.15.7.- Adobe Flash...73
2.15.8.- Resultado del Análisis...74
2.15.9.- Conclusiones del Audio...75
2.16.- ANÁLISIS DE VIDEO...75
2.16.1- Real Networks...76
2.16.2.- Análisis de Video...79
2.16.3.- Resultados...79
2.17.- WINDOWS EXPRESIÓN ENCODER...80
2.17.1.- Resultados del Análisis...82
2.18.- MÁS RESULTADOS Y EXPLICACIÓN DEL ANÁLISIS...84
2.19.- QUICK TIME...84
2.19.1.- Resultados del Análisis...87
iv
2.20.1.- Resultados del Análisis...91
2.21.- ELECCIÓN DEL CÓDEC ADECUADO...92
CAPITULO NO. 3 CONVERGENCIA DE MULTIMEDIOS PARA STREAMING Y SUS APLICACIONES 3.1.- CONVERGENCIA DE MULTIMEDIOS...95
3.2.- ¿QUÉ ES EL STREAMING?...96
3.3.- ANTECEDENTES DEL STREAMING...96
3.4.- VIDEO EN INTERNET...97
3.5.- PROCESOS PARA LOGRAR STREAMING...98
3.6.- COMPONENTES NECESARIOS DEL STREAMING...99
3.6.1.- Servidor de Streaming...99
3.6.2.- Compresión y Codificación “ CODEC “...100
3.6.3.- Red de Difusión...101
3.6.4.- El Internet...102
3.7.- APLICACIONES POTENCIALES DEL STREAMING...102
APÉNDICE “ A “ EQUIPO Y LUGAR REQUERIDO PARA LA REALIZACIÓN DEL VIDEO BAJO DEMANDA ( STREAMING ) - ÁREA DE MONITOREO Y EQUIPO DE MEZCLA...106
- SALA O ÁREA DE LA EDICIÓN DE LA GRABACIÓN DE VIDEO Y DE AUDIO...111
- SALA DE GRABACIÓN...113
APÉNDICE “ B “ REDES ORIENTADO A DIRECCIONAMIENTO IP - DIRECCIONAMIENTO IP...119
v
- DETERMINACIÓN DE LA CLASE DE DIRECCIÓN...123
- SUBDIVISIÓN DE UNA RED...124
- MASCARAS DE SUBRED...125
- ESTRUCTURA DE LAS MÁSCARAS DE SUBRED...125
- ASIGNACIÓN DE DIRECCIONES TCP/IP...126
- DHCP...127
- RTSP ( REAL STREAMING PROTOCOL )...128
APÉNDICE “ C “ DISEÑO DE LA PAGINA WEB - CARACTERÍSTICAS DEL DISEÑO...131
- ANÁLISIS DEL PROYECTO...132
- FASES DE EJECUCIÓN...133
- TECNOLOGÍA Y DISEÑO...134
CONCLUSIONES...136
GLOSARIO...137
1
Objetivo
Analizar y/o Determinar los mejores formatos de audio y video para la transmisión sobre demanda por Internet.
Objetivo particular
Almacenar dentro del servidor de ESIME Zacatenco un contenido sobre demanda (on-demand).
Justificación
2
Introducción
El campo del video transporte constantemente esta evolucionando y nuevas tecnologías emergen para la transportación de señales de video. La tecnología actual está enfocada para los multimedios y por tanto se puede transportar video sobre IP sobre muchas variedades de formatos.
Los medios de comunicación convergen y en la actualidad dentro de Internet pueden ser encontradas nuevas tecnologías que involucran al audio y video para la transmisión de televisión sobre demanda. Actualmente gracias al formato MPEG-4 además de la tecnología inalámbrica puede lograrse una amplia gama de servicios multimedia, aunque la pantalla solo sea de 320x240 pixeles y a todo color; el ancho de banda puede ser mucho menor que cientos de kilobits pero es posible descargar un contenido multimedia con una conexión de modem o de tipo ADSL sin ningún problema y de manera continua esto hace que el autor de la transmisión tenga muchísimos recursos de creatividad.
La convergencia de medios tiene muchos retos entre los cuales cabrían mencionar los costos de producción, manejo de contenidos, transmisión en alta definición, costos efectivos del proyecto, etc. Existen muchos tipos de aplicaciones para el streaming como videoconferencia, sistemas de seguridad vigilados remotamente, producción de video profesional, entre algunas otras; pero el objeto de estudio particular es realizar un canal de televisión en el cual podamos transmitir contenido sobre demanda.
Debido al crecimiento de las telecomunicaciones en los últimos años y la adopción de tecnologías de gran ancho de banda hacen viable la capacidad de transporte del video para comunicar ideas, compartir avances, realizar negocios y en nuestra pretensión darle fines educativos.
Video sobre demanda (on-demand)
3
Una aplicación típica de video sobre demanda sobre una red IP contiene los siguientes elementos:
• El servidor de video (puede ser un servidor de archivos o un cluster de servidores).
• El servidor controlador de aplicaciones, que inicia la transmisión (puede estar incluido en un servidor de archivos).
• Un punto terminal con un convertidor para responder a la petición de visualización y
control de reproducción.
• Software de administración y/o software de tarifación.
4
CAPITULO 1
El AUDIO DIGITAL Y SUS
TÉCNICAS DE
5
1.1.- INTRODUCCIÓN
El audio digital es la codificación de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtienen de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.
Para comenzar el capítulo podemos decir que un gran precedente anterior quizás a la transmisión de video por Internet es la transmisión de audio, la cual tuvo una gran aceptación por las personas y se popularizo rápidamente a principios de la década, el gran éxito de esto fue debido las emisoras de radio por Internet y a programas de fácil acceso como el conocido “plug-in shoutcast” del reproductor de multimedios winamp que te permitía y aun permite tener una estación de radio basada sobre una dirección de ip y un puerto de salida por el cual se da a los usuarios el acceso al contenido de nuestro reproductor, en ese tiempo MP3 fue la revolución total en cuestión de la transmisión de audio por Internet ya que es el estándar de archivos de audio para computadora por excelencia, aunque poco a poco y conforme ha pasado el tiempo ha comenzado a ser desplazado por otros formatos de audio como lo es el códec AAC que es aun mas eficiente que el primer mencionado. Lógicamente también han ido evolucionando las estaciones de radio por Internet y las posibilidades de transmisión se han multiplicado ya que la mayoría de los reproductores dedicados a la transmisión por Internet soportan estos tipos de enlaces tal es el caso de Windows Media, tecnologías basadas en MPEG-4, Quick time y Real véase en la Fig. 1.1.
6
1.2 FUNDAMENTOS DE AUDIO DIGITAL
Es importante conocer la teoría del audio digital para comprender los alcances que tiene dentro de este proyecto, por lo cual se enuncian a continuación los tres procesos básicos que se necesitan para codificar audio:
Digitalización.
Codificación y compresión.
Paquetización.
El formato de grabación profesional para audio AES-3 que tiene una velocidad de datos de 3 Mbits/s para un muestreo stereo a 48 Khz. de frecuencia es la mayoría de las bases para la digitalización en el ámbito profesional, pero por lo general para la grabación de un disco compacto o una grabación de calidad se utiliza el formato WAV el cual tiene una velocidad de muestreo de 44.1 Khz. y 16 bits de resolución para su conversión, ahora bien; dado que nuestro interés es transmitir vía Internet y que los formatos antes mencionados son de alta calidad, lo cual para nuestro fin es una desventaja, nosotros tenemos que reducir el tamaño de archivo aproximadamente en una relacion de 100:1 con lo cual tenemos que utilizar forzosamente una compresión para lograr transmitir desde un ancho de banda de 56 kbits/s hasta un dsl o quizás un T1.
Los sonidos son capturados de una señal acústica la cual es transformada por un micrófono a una señal eléctrica. Para convertir esta señal a un formato correcto para transmisión por Internet esta debe de pasar por varios procesos para adecuarla véase la Fig. 1.2.
Pre-énfasis (este es opcional).
Muestreo.
Conversión A/D.
Compresión.
[image:13.612.95.505.443.640.2] Paquetización y codificación.
7
1.3 BASES DE CONVERSIÓN PARA DIGITALIZAR UNA SEÑAL
La base del audio digital es la modulación por codificación de pulsos mejor conocida como PCM.
1.3.1.- Formación de una señal PCM
Muestreo
La frecuencia de muestreo esta dada en base a la respuesta en frecuencia, la teoría del muestreo dicta que la frecuencia de muestreo debe ser mayor al doble de la frecuencia mas alta que será capturada esto es debido al teorema de Nyquist, por lo cual se forma un compromiso para asegurar toda la información de la señal.
El oído humano tiene un ancho de banda de aproximadamente 20 Khz. por lo tanto se utilizan 22.05 Khz. para realizar el muestreo pero debido al teorema de Nyquist-Shannon como lo mencionamos obtenemos una frecuencia de muestreo de 44.1 Khz., si nosotros quisiéramos una mayor calidad para efectos profesionales podríamos muestrear la señal a 48 Khz. véase la tabla 1.3.1 a la Fig. 1.3.1 .
En resumen, el teorema de muestreo demuestra que toda la información de una señal contenida en el intervalo temporal entre dos muestras cualesquiera está descrita por la serie total de muestras siempre que la señal registrada sea de naturaleza periódica (como lo es el sonido) y no tenga componentes de frecuencia igual o superior a la mitad de la tasa de muestreo; no es necesario inventar la evolución de la señal entre muestras. La tasa o frecuencia de muestreo es el número de muestras por unidad de tiempo que se toman de una señal continua para producir una señal discreta, durante el proceso necesario para convertirla de analógica en digital.
Frecuencia de Muestreo
(Khz.) Respuesta en Frecuencia Aplicación
8 Khz. 200 hz. – 3.3 Khz. Telefonía
16 Khz. 100 hz. – 8 Khz. Ancho de banda de la voz
44.1 Khz. 20 hz. – 20 Khz. Discos compactos
48 Khz. 20 hz. – 20 Khz. Profesional y de transmisión
192 Khz. Mayor a 96 Khz. DVD y Blu-Ray
8
Figura 1.3.1 Teoría del muestreo.
1.3.2.- Resolución
La resolución es la capacidad que tiene un conversor A/D para convertir las muestras a un valor digital codificado, esencialmente se dan un numero de valores predefinidos o discretizados lo que nos refiere al proceso de cuantización. El numero de niveles que es capaz de convertir nuestro ADC determina la resolución que esta dada en bits.
9
Longitud de palabra
(bits) Numero de niveles Rango Dinamico (dB)
8 255 -48.16
16 65535 -96.33
24 16777216 -144.49
Tabla 4.2 Niveles de conversión y rango dinámico.
1.4.- TRANSMISIÓN DEL AUDIO DIGITAL: MONOFONICO, ESTEREO Y MULTICANAL
El audio puede ser transmitido por un solo canal el cual es el caso del monofónico o puede contener información en múltiples canales de los cuales stereo es el mas popular ya que la mayoría de los sistemas de audio para computadora usan dos altavoces para la reproducción de sonido.
Existen mas formatos multicanal tal es el caso de AC3 que es un códec para 5.1 lo que quiere decir que utiliza cinco canales mas un canal para efectos de bajas frecuencias, en consecuencia se mejora la calidad del audio ya que se crean efectos de envolvencia, a pesar de ello el ancho de banda de las comunicaciones actuales y las altas cantidades de bits que afectan en la cantidad de Mbytes que ocupara un archivo no hacen viable utilizar audio para 5.1 al menos por el momento.
1.5.- LA PSICOACUSTICA DEL OIDO
La mayoría de las características antes descritas por lo general son explotadas en función de una codificación perceptual que nos permite que el oído interprete la información de un archivo de audio y que no note una gran diferencia entre una grabación digital y una analógica de calidad superior, los factores que se explotan dentro de este ámbito son los siguientes:
Umbral de audibilidad.
La frecuencia y el enmascaramiento simultaneo.
Enmascaramiento temporal y codificación.
1.5.1.- Umbral de audibilidad
10
Para entender la grafica presentada tal como se dijo el oído necesita de niveles de presión sonora mucho mas altos para muy bajas y altas frecuencias; y manteniendo el espectro de frecuencias medias en niveles bajos, con lo cual se puede observar que el rango de la voz es perfectamente distinguible y es el mejor aprovechado por el oído, lo que para la compresión de audio significa que se requiere una menor resolución en un códec para reproducir las frecuencias bajas.
1.5.2.- Enmascaramiento temporal y codificación
El enmascaramiento cae dentro de los estudios psicoacústicos que buscan determinar de qué manera la presencia de un sonido afecta a la percepción de otro sonido. Hablamos de enmascaramiento cuando un sonido impide la percepción de otro, es decir, lo enmascara. Se produce una modificación del umbral de audibilidad del escucha. Podemos definir el umbral de audibilidad como “el mínimo nivel de presión sonora a partir del cual somos capaces de escuchar, en condiciones no ruidosas”. La mayoría de los códecs de audio utilizan este efecto de enmascaramiento para remover la información enmascarada de la señal de audio.
Existe otro fenómeno que es conocido como enmascaramiento temporal que es cuando se encuentran dos señales de frecuencias relativamente cercanas, la señal de mayor intensidad hace subir el umbral de audición en sus proximidades, cuyo efecto es disminuir la sensibilidad del oído alrededor de estas frecuencias. La variación del umbral de audición es lo que denominamos umbral de enmascaramiento, lo cual referido al audio nos generaría un corto Pre-enmascaramiento que es menor a 50 ms y que viene después del tono enmascarante.
Los codificadores perceptuales aprovechan las limitaciones en la percepción del sistema auditivo humano (umbral de audición, enmascaramiento temporal y/o frecuencial) para codificar el flujo de datos.
Para codificar las muestras en formato PCM (audio digital sin comprimir) se realiza una transformada al dominio frecuencial y se cuantifican y codifican a partir de un conjunto de datos obtenidos en un modelo psicoacústico. La implementación de este modelo psicoacústico es lo que determina la calidad final y es dónde se aprovecha el enmascaramiento temporal o frecuencial, siendo el umbral de enmascaramiento el que controla la cuantificación.
1.6.- CODECS PARA AUDIO
11
compatibles para la compresión de video y audio en conjunto.
Aquí se muestra una descripción de los formatos de compresión de audio más usados hoy en día, sus ventajas, extensiones y principales usos:
1.6.1.- Advanced Audio Coding (Codificación de Audio Avanzada) AAC
Extensión .aac
Codificación estándar para audio reconocida por ISO en el patrón MPEG-2. En teoría, almacena más que el MP3 en menos espacio, esta basado en las capas 1,2 y 3 del estándar MPEG y la meta de este tipo de ficheros es producir una compresión de datos menor a 384 Kbits/s que fuera indistinguible de un archivo de CD.
Dentro de sus características están las siguientes:
Bancos con filtros adaptativos lo cual nos permite adaptar un banco de filtros a la
entrada para maximizar la ganancia de la codificación.
Predicción de los coeficientes espectrales lo cual elimina la redundancia con
señales Cuasi-estacionarias.
Codificación con reducción de ruido.
1.6.2.- WAV
Extensión: wav
Fue desarrollado por Microsoft e IBM y apareció por primera vez para el ambiente Windows en el año 1995. Los archivos de audio guardados en el formato de sonido Microsoft tienen esta extensión. Con el tiempo se convirtió en un estándar de grabación para música de Cd´s. Su soporte de reproducción es uno de los más importantes pues funciona en cualquier aplicación Windows y en equipos domésticos comunes con reproductor de Cd´s admite archivos mono y estéreo a diversas resoluciones y velocidades de muestreo.
12
1.6.3.- WMA (Windows Media Audio)
Extensión: .wma
Es la abreviación de Windows Media Audio. Es la Versión de Windows para comprimir Audio, muy parecido a MP3. No solo reduce el tamaño de archivo grandes, sino que también se adapta a diferentes velocidades de conexión en caso de que se necesite reproducir en Internet en Tiempo Real.
Compite con el MP3, antiguo y bastante inferior técnicamente; y Ogg-Vorbis, superior y libre, usando como estrategia comercial la inclusión de soporte en el reproductor Windows Media Player, incluido en su popular sistema operativo Windows.
Aunque el soporte de este formato se ha ampliado desde Windows Media Player y ahora se encuentra disponible en varias aplicaciones y reproductores portátiles, el MP3 continua siendo el formato más popular y por ello más extendido.
A diferencia del MP3, este formato posee una infraestructura para proteger el Copyright y así hacer más difícil el "tráfico P2P" de música.
1.6.4.- MIDI
Extensión: .midi
Por sus siglas en ingles, quiere decir instrumento musical de interfaz digital, y es considerado el estándar para industria de la música electrónica. Es muy útil para trabajar con dispositivos como sintetizadores musicales ó tarjetas de Sonido. Por el tamaño resultante que ofrece su compresión, este formato es muy usado para reproductores que necesitan combinar archivos de audio y video, como los karaoke.
1.6.5.- MPEG Moving Pictures Experts Group (Grupo de Expertos en Imágenes en Movimiento).
Extensión: mpeg, mpg, m1v, mp1, mp3, .mp2, .mpa, .mpe
13
1.6.6.- MP3
El mp3 (Mpeg layer 3) es un códec de audio muy extendido. Los archivos creados con este códec tienen la extensión .mp3, por lo que también se le llama formato mp3.
Su peculiaridad es su tamaño de compresión: 11 a 1, lo que quiere decir, que si un CD de música normal contiene unas 13 canciones, en un CD con mp3, tendríamos 143. Aparte del ahorro del espacio hay que añadir que no se pierde apenas calidad de sonido en bitrates normales o incluso, en un archivo mp3 del máximo bitrate sacado de un disco de vinilo, puede tener mayor calidad de sonido que un archivo de CD.
Tal reducción de tamaño se realiza por eliminación de sonidos que el oído humano no puede oír. Al eliminar escalas de sonidos no audibles se reduce la cantidad de bytes necesarios en el archivo final. El mp3 tiene unas técnicas de compresión digital diferentes al CD. Por ejemplo, en los archivos digitales de CD, si dos sonidos tienen la misma frecuencia de onda, se elimina una de ellas. En cambio, hay otros parámetros que influyen en los mp3, por ejemplo, si hay un ruido fuerte, se eliminan los datos de los débiles, pues el oído humano solo escuchará el fuerte. Existen muchas versiones del códec mp3. Cada una de ellas dictamina que sonidos se han de eliminar y cuales no, por este motivo, no todas las versiones y configuraciones son iguales.
1.6.7.- El bitrate
Uno de los aspectos técnicos mas conocidos del mp3 es el bitrate. Es una especie de escala del tipo de compresión. A menor bitrate de compresión de un archivo, más datos se eliminan y menos ocupa el archivo, pero naturalmente peor se escucha.
1.6.8.- Mp3 Lame
Existen varias versiones hechas por distintos programadores del códec mp3, aunque actualmente la más rápida y la que ofrece mayor calidad es la versión Lame. Versiones que siempre debes descartar son Fraunhofer, Xing y QDesign MVP.
El Sistema operativo Windows, a partir de la versión 98SE, instala por defecto el códec mp3 Fraunhofer. Otros programas como el Nero o el Musicbox también usan esta versión de códec. Hay que procurar descartar todos los programas que usan por defecto el códec mp3 de Windows, como el Windows Media Player. Si queremos mejorar la creación, conversión y reproducción de los archivos mp3, debemos instalar y usar siempre la versión Lame.
Mejor Versión Lame:
14
este tema, hacen audiciones y comparaciones de las diferentes versiones del códec mp3. Son estos grupos los que recomiendan que actualmente (dic-2003) la mejor versión es 3.90.3
1.6.9.- AC3 Códecs 0.68b
Estos códecs son necesarios para poder reproducir y crear archivos de audio en el sistema Dolby Digital AC3.
Dolby Surround o Dolby Prologic es un sistema de cuatro canales de audio que se introdujo, en los años 70, en las principales salas de cine. El sistema, con únicamente dos canales, codificaba las cuatro señales de los cuatro altavoces.
El Dolby Digital 5.1, llamado técnicamente AC3, es un sistema de audio que nació en los años 90. Este sistema incorpora 5 o seis canales independientes de sonido. Cada canal es independiente para cada altavoz y reproduce todo tipo de frecuencias, menos el sexto, que solo se encarga de las más bajas.
Novedades de la nueva versión 0.68b:
Esta nueva versión incluye novedosas características como soporte de salida multicanal, soporte de compresión de rango dinámico (DRC), control de nivel de
ganancia, información de la cadena de bits, descompresión de
DolbySurround/ProLogic/ProLogicII para cada canal, etc.
1.6.10.- Real Networks ™ RealAudio® and RealVideo®
Extensión: .ra, .ram, .rm, .rmm
Soporte multimedia creado por la empresa Real Network, con una alta taza de comprensión y algoritmos especiales que reducen considerablemente el tamaño de los archivos de sonido y video. No tan famoso como el MP3 su capacidad de streming lo hace ideal para trasmitirse en vivo a través de la red.
1.6.11.- OGG VORBIS
Extensión: ogg
15
1.6.12.- ATRAC
[image:22.612.78.534.170.383.2]Este formato se utiliza en tecnología de compresión y reproducción para minidisc. Se emplea en el sector de audio y algunos dispositivos portátiles como PDA, y muy pronto, en teléfonos inteligentes. De lo anterior descrito se puede observar en la siguiente tabla los tres tipos de arquitecturas de los códecs.
Tipo Nombre Extensión
Propietario Windows Media .wma
Real Media .rm
Quicktime .aiff
Dolby Digital .ac3
Sony ATRAC .atrac3
Estandarizado MPEG mpeg, mpg, m1v, mp1,
mp3, .mp2, .mpa, .mpe
MIDI .mid
WAV .wav
16
CAPITULO 2
EL VIDEO Y SUS
TÉCNICAS DE
COMPARACIÓN,
17
2.1.- INTRODUCCIÓN
El Video es un proceso de grabación de imágenes fijas o en movimiento por medios electrónicos en lugar de fotoquímicos como en el caso de la película fotográfica. Las técnicas utilizadas para grabar imágenes en una cinta de vídeo son similares a las utilizadas para la grabación y reproducción de sonido. Las señales eléctricas procedentes de una cámara de televisión (o de una cámara de televisión a través de un receptor de televisión) se almacenan como secuencias de zonas magnetizadas de óxido férrico sobre una cinta magnética. Al reproducir la cinta grabada se regeneran las señales originales. Estas señales se pueden difundir entonces mediante una antena emisora o por cable a los receptores de televisión capaces de traducir las
señales a imágenes y sonidos. Dado que existen muchas similitudes entre la
televisión y los formatos de video para computadora, en este capítulo se tomara en cuenta como breviario los formatos y las interconexiones que se necesitan para lograr la captura de video.
2.2 LA TELEVISIÓN
La televisión en si puede ser vista como una interpretación en dos dimensiones de imágenes en movimiento, la cual comenzó como video monocromático ( es decir , blanco y negro) aunque posteriormente se añadió color, cuando esto sucedió se le agrego la luminancia dentro de la misma señal sin requerir un ancho de banda mayor.
Captura
La captura de video se realiza por medio de un lente con sensores CCD („dispositivo de
cargas [eléctricas] interconectadas)básicamente es un arreglo de sensores que detectan la intensidad de la luz y en base a eso se les asigna un valor de voltaje, el cual se transmite la imagen capturada hacia una memoria dentro de la cámara la cual después de pasar por un procesamiento es transmitida hacia una salida de video compuesto.
2.2.1.- Formatos de video analógico
La cámara y la mayoría de los aparatos relacionados con la televisión manejan algunos estándares los cuales se mencionan en la tabla 2.2.1.
Duración de Linea (µs) Longitud de imagen (líneas) Frecuencia de línea (hz.) Cuadros por segundo Área de video activa
RS-170 525 15750 30 486
NTSC 63.49 525 15734.26 29.96 486
PAL,
SECAM 64 625 15625 25 576
18
De estos formatos presentados en la tabla se hace uso del NTSC debido a que en México se sigue este estándar para televisión y las cámaras en el estudio de grabación de ESIME Zacatenco en lo particular se rigen bajo esta norma; ahora bien la señal que nosotros tenemos de la cámara se transportara a un monitor (sistema de monitoreo) para nosotros poder tener un control de lo que se esta enfocando con la cámara y por ende de lo que se estaría capturando.
2.2.2.- cuadros por segundo
El patrón NTSC sigue por norma frecuencia de presentación en pantalla de 29.96 hz. lo cual es suficiente para realizar un efecto óptico de movimiento; dentro de estos cuadros o campos existen 262.5 líneas horizontales para cada uno, las que deben seguir cierta secuencia para mostrarnos la coherencia de la imagen debido a eso se divide en un campo par y otro impar como se muestra en la Fig. 2.2.2.
Figura 2.2.2 Formación de una imagen para TV.
2.2.3.- Captación y presentación de imágenes
19
Rayos Catódicos) el cual contiene estos tres colores base al igual que cualquier tecnología que se maneje para presentación de imágenes tal es el caso actual del LCD.
Para la presentación de un video a color este se matriza por colores dándonos como resultado un video por componentes el cual su primera componente es la de luminancia ( señal Y) la señal de colores R-Y ( señal V) además de la señal B-Y ( señal U) este proceso de matrizado se realiza tanto para la captura ( con la cámara) como para la presentación (en un monitor).
La siguiente tabla muestra otros parámetros importantes de la señal de video:
Asignación Notas
RGB Rojo, Azul y Verde Colores Primarios
CYMK Cyan,Amarillo,Magenta
y Negro Colores Secundarios
HSB Contraste, saturación y
Brillo Relacionado percepción de la imagen a la
por el ojo.
Parámetros de la señal de video.
2.2.4.- Video por componentes y video compuesto
Por lo general para realizar pruebas se tienen tres cables los cuales portan las señales RGB hacia el monitor y opcional un canal de sincronía, pero este método de transmisión no es viable debido a lo que supone, entonces los ingenieros de NTSC pensaron en combinar las tres señales y mandar la señal por un canal simple. Básicamente el truco de esto consistía en modular la señal portadora con la información de color, lo hicieron por medio de la modulación de cuadratura en amplitud,
ésta señal dentro del argot de televisión es conocido como “color burst o ráfaga de color” . Para transmisión se opto por la propagación en RF véase la Fig. 2.2.4..
20
2.3.- CODIFICACION DE COMPONENTES DIGITALES NORMA 601
El estándar ITU-R BT601 nos ayuda a entender que se necesita para hacer entrega en video digital. Dentro de el estándar NTSC que usa un limitador de banda para la señal I y Q el sistema 601 tiene la misma característica para la información de color y para las muestras de color dentro de una baja resolución espacial menor a la luminancia. Este estándar utiliza la mitad de la frecuencia de muestreo y en los sistemas digitales se utiliza cuatro veces la frecuencia de muestreo de la señal portadora de color. Dentro de la nomenclatura que existe para video digital YUV (señales compuestas) un ejemplo es 4:2:2 aquí los canales de crominancia son muestreados a la mitad. Otro ejemplo es donde la resolución vertical para la luminancia y crominancia es la misma por lo tanto tenemos un sistema simétrico, este sistema es conocido como 4:2:0 y fue adoptado por MPEG para sus estándares MPEG-1 y MPEG-2. Otro ejemplo de muestreo es el 4:1:1 donde se muestrea el color a un cuarto de la frecuencia de luminancia, el cual fue adoptado por el formato DV véase la Fig. 2.3.
Figura 2.3 Codificación de video por componentes digital.
El rango de codificación usa una escala de colores de 0 a 255 ( codificación de 8 bits ) aquí el valor mas alto es el blanco el cual es la suma de todos los colores con el valor 255 y cero es el valor del color negro o la resta de los colores. La mayoría de las computadoras actuales manejan resoluciones mayores como la de 32 bits con lo cual se manejan mucha mas variedad de colores alrededor de 4,294,967,296 y con un solo circuito integrado, lo cual nos da una gran posibilidad de representar imágenes de alta calidad y una mejor resolución.
2.4.- MONITORES Y TARJETAS DE VIDEO
21
bien los monitores son la interfaz entre la computadora y el usuario para mostrar datos y resultados.
Las principales características de un monitor son:
Tamaño Como en los televisores, el tamaño se suele
expresar en pulgadas de diagonal (1 pulgada = 25,4 mm)
Los mayores tamaños disponibles a precios cada vez más asequibles deben ser tenidos en cuenta ya que se puede cambiar de ordenador cada dos o tres años pero no hace falta cambiar la pantalla. Los tamaños más recomendables son 17" y 19" en la mayor parte de los casos. Los tamaños de 14" y 15" resultan demasiado pequeños, válidos tan solo para un uso ocasional del ordenador.
Resolución No es una característica de la pantalla sino de la
tarjeta.
No obstante, las resoluciones altas no se aprecian con pantallas pequeñas.
14" - Resolución máxima apreciable: 800x600 15" - Resolución máxima apreciable: 800x600 ó 1024x768 dependiendo del paso de punto. 17" y superiores: a partir de 1024 x 768
Cuanto más alta es la resolución más pequeños aparecen el texto y las imágenes. También se pueden mostrar más cosas en la pantalla.
Para una computadora que se utilice mucho para Internet, conviene que su resolución esté en 800x600 ya que la mayor parte de webs se construyen para esta resolución aunque actualmente se están utilizando 1024x768. Esta resolución es también adecuada para la mayor parte de trabajos de oficina. Paso de punto
(dot pitch) El paso de punto determina el mínimo tamaño de un detalle que es capaz de resolver una pantalla.
Veamos algunos cálculos.
22
pantalla con paso de punto 0,28 mm que son las más corrientes.
Para 1024x768: Cada punto ocupará 0,26 mm. Se necesita una pantalla de paso de punto 0,25 mm.
Fósforo Si el tipo de trabajo lo requiere (imprenta) hay que
elegir una pantalla que reproduzca los colores lo más exactamente posible. Para trabajo general basta elegir la que resulte más conveniente, no importa tanto la exactitud del color ni la geometría de la imagen.
Temperatura
de color El color blanco absoluto es uno solo pero no lo vemos de la misma manera con luces diferentes. Con luz de día su temperatura de color es cercana a 9.300 ºK (ºK: grados Kelvin o absolutos). Con luz incandescente equivale a unos 5.000 ºK. Si se ha de usar la pantalla para trabajos relacionados con Artes Gráficas, conviene que la temperatura de color sea ajustable entre estos dos valores, empleando generalmente 5000 ºK.
Frecuencias H y V (horizontal y
vertical)
Multifrecuencia, Multisync, etc. El monitor debe ser capaz de adaptarse a las diferentes frecuencias que resultan de las diferentes resoluciones con las que se trabajará y, además, debe ser capaz de una frecuencia de refresco alta (es normal que los monitores de calidad lleguen hasta 100 o más). Al comprar hay que especificar con qué resoluciones se quiere trabajar y elegir una frecuencia de refresco de 75 Hz o más. Todo ello en modo no entrelazado.
Full screen (pantalla completa)
En algunos monitores baratos los mandos de amplitud horizontal y vertical no consiguen llenar totalmente la pantalla con algunas resoluciones. En estas condiciones la imagen se ve más pequeña; es como si hubiéramos comprado una talla menos.
Las principales características de una tarjeta gráfica son:
23
conectadas primero al bus ISA de 8 bits, luego al ISA de 16 bits. Luego vinieron las de bus local VESA de 32 bits, actualmente hay tarjetas que se pueden conectar al bus PCI de 32 bits pero la mayor parte ya son para bus AGP (Accelerated Graphics Port). Para usar una de éstas hay que tener una placa base moderna que disponga de un slot AGP. La ventaja es la rapidez de transferencia, útil para imágenes en movimiento (video a pantalla completa y juegos). Para trabajos de oficina también se agradece siempre un poco más de rapidez. Las esperas se acumulan y afectan a los nervios.
Memoria La cantidad de memoria determina la combinación
de la resolución con número de colores. Las primeras resoluciones son las siguientes: 640 x 480 - Está cayendo en desuso
800 x 600 - La más frecuente
1024 x 768 - Interesa para trabajos especiales
El número de colores viene dado por la longitud (en número de bits) del número que define cada color. Número de 4 bits de longitud = 16 colores Número de 8 bits de longitud = 256 colores Número de 16 bits de longitud = 65.000 colores Número de 24 bits de longitud = 16,7 millones de colores.
Numero de 32 bits de longitud = 4,294,967,296
millones de millones de colores
La resolución más habitual es de 800 x 600 El número de colores más satisfactorio es de 16,7 millones.
Para esta combinación se precisa una memoria
mínima de 2 MB
La memoria puede ser más o menos rápida. Si es lenta no permitirá que se redibujen rápidamente las imágenes. Windows aparenta funcionar más lento y no se pueden ver bien las imágenes en movimiento de videos y demás. Por orden de antigüedad y rapidez, hay memorias RAM, EDO RAM, SRAM, VRAM, etc.
Procesador Muchas tarjetas gráficas llevan un procesador que
24
procesador confiere rapidez a una tarjeta.
Descripción Resolución Arreglos
VGA 640x480 Arreglo grafico de video
SVGA 800x600 Súper arreglo de
gráficos de video
XVGA,XGA 1024x768 Arreglo de gráficos de
video extendido
SXGA 1280x1024 Súper XGA
UXGA 1600x1024 Ultra XGA
[image:31.612.150.468.346.580.2]WUXGA 1920x1200 Ultra XGA Panorámico
Tabla Tipos de monitores
Actualmente se utilizan por lo general monitores LCD del tipo UXGA o WUXGA de alta resolución junto con tarjetas de video de alrededor de 2 GB de memoria interna pero dentro del mercado mundial por lo general un usuario promedio tiene monitores a partir de SVGA y tarjetas desde 32 MB de memoria interna.
Figura Diferentes resoluciones de monitores.
2.5.- FORMATOS DE ALMACENAMIENTO
25
una video cinta, un disco compacto, un DVD o incluso en el nuevo formato Blu-Ray. Por
lo general dentro de las emisoras de televisión se manejan “testigos” los cuales son por
lo general grabaciones hechas y que son almacenadas en algún formato de los antes mencionados, las ultimas generaciones de computadoras y la evolución tecnológica nos han permitido descubrir que también es posible almacenar videos dentro de discos duros para su reproducción, utilización y fácil localización.
2.5.1.- Medios analógicos de almacenamiento
Los medios analógicos a pesar de su antigüedad siguen siendo utilizados para almacenamiento tal es el caso del VHS o formatos de 8 mm para cámaras de grabación.
VHS
El VHS data de 1976 y este fue uno de los formatos para almacenamiento mas difundido para el almacenamiento domestico aunque no es viable utilizarlo para aplicaciones profesionales o aplicaciones de edición.
S-VHS
Este formato es una versión mejorada del VHS se utilizó en conjunto con la adopción de la tecnología del S-Video, donde la señal de crominancia es separada de la de luminancia, como el caso del video compuesto.
Betacam y Beta SP
Este formato usa la tecnología de multiplexación por división de tiempo para los canales R-Y y B-Y canales de croma, haciendo una verdadera componente de grabación con la señal de Y-C. Por lo general este tipo de formato aun es usado por las emisoras de televisión y en su versión SP fue mejorado.
2.5.2.- Medios digitales de almacenamiento.
Digital Betacam
Es un medio de grabación para video de alta calidad en formato digital el cual se utilizo como reemplazo para la Betacam SP que utilizaba formato analógico. Este medio es muy popular en producciones de televisión debido a la fácil edición del video.
DV
26
datos de 25Mbits/s para una película de definición estándar, tiene dos canales digitales de audio en stereo y consistía en una cinta normal de metal. En el momento que las televisoras expresaron interés en este formato se crearon dos nuevos formatos basados en la cinta tipo DV estos fueron DVCPRO y DVCAM cada uno de Panasonic y Sony respectivamente, los cuales contenían el doble del ancho de banda del DV (50 Mbps) y un muestreo de relación 4:2:2.
2.5.3.-Cableado e interconexión de interfaces
Para cualquier estudio de grabación sea profesional o amateur son necesarias las conexiones entre dispositivos para transferencia de información entre ellos, otro factor a tomar en cuenta es que casi todos los dispositivos deben estar a una distancia corta, para evitar atenuaciones, el cambio tecnológico también ha ido modificando lo estándares de interconexión, en la actualidad la mayoría de las conexiones de video llegan a un switcher o directamente a una computadora esto ha generado que se creen interfaces que ayuden a una mayor fluidez en cuestión de conectividad, a continuación se explicaran algunos tipos de conexiones útiles en video.
Conexiones analógicas
Las conexiones analógicas utilizan el cable de tipo coaxial con impedancia
característica de 75 Ω y con conectores de tipo BNC. Algunos equipos utilizan
conectores de tipo RCA.
S-Video, Y/C
S-Video es un tipo de conector que se utilizó con el formato S-VHS. Aquí la componente del croma esta modulada en una señal portadora o la cual la separa de la señal de luminancia. Utiliza un conector de cuatro pines y es utilizado aun en televisores, tarjetas capturadoras de video o incluso videocaseteras.
IEEE 1394
27
Figura 2.5.3. Conectores de video
2.6.- CARACTERÍSTICAS Y AJUSTES DE CALIBRACIÓN, MEDICIÓN Y COMPARACIÓN DE VIDEO
2.6.1.- Temperatura del Color
La Temperatura de color de una fuente de luz se define comparando su color dentro del espectro luminoso con el de la luz que emitiría un Cuerpo Negro calentado a una temperatura determinada. Por este motivo esta temperatura de color se expresa en grados kelvin, a pesar de no reflejar expresamente una medida de temperatura, por ser la misma solo una medida "relativa. Las temperaturas mas comunes para video son 3200 K y 9300K véase en la Fig. 2.6.
28
Fig. 2.6 Ejemplo de las temperaturas del color
2.6.2.- Balance de blancos
La temperatura de color de las cámaras profesionales se ajusta seleccionando el filtro correspondiente. El de 3200 grados kelvin es para luz profesional de interior.
El balance de blancos nos ayuda a ajustar la señal de crominancia, mientras que la selección de filtros la de luminancia.
Muchas cámaras ( tal como con la que se grabara) cuentan con una función de balance automático de blancos que procura determinar el color de la luz y corregirlo acorde al cálculo. Si bien este proceso solía ser poco fiable, ha mejorado sustancialmente con las cámaras digitales actuales, que permiten generar el correcto balance de blancos en diferentes situaciones de iluminación. El balance de blancos puede también ser corregido en post-producción de una manera similar a como se hace con las cámaras, sin embargo en algunos casos puede perderse la calidad de la imagen.
2.6.3.- Realización de un balance de blancos
Es relativamente fácil balancear a blanco (balance del color) una cámara profesional para producir un color exacto.
29
Aunque el foco no es crítico, la tarjeta debe ocupar todo el encuadre con la fuente de luz dominante de la escena. Este proceso es lo que se conoce como balance de blanco de la cámara.
En condiciones de trabajo profesionales, cuando la fuente de luz dominante en una escena cambia, la cámara debe balancearse nuevamente (debe reprogramarse el balance de blanco). Si se pasa de la luz del sol a la sombra, la cámara necesitará un nuevo balance de blanco. Igual ocurre, si pasamos de interiores a exteriores, y cuando transcurren varias horas grabando bajo la luz del sol.
[image:36.612.159.452.295.518.2]No hacer el balance de color de la cámara puede provocar cambios de colores (en tonos de piel en particular) entre una escena y otra. Esto será particularmente objetable durante la edición cuando intente unir dos escenas con tonalidades diferentes. (Por ejemplo, tonos de piel que cambian en cada corte de manera desagradable) véase en la Fig.2.6.3.
Fig. 2.6.3 Percepción de la temperatura del color
2.6.4.- Balance de negros
30
2.6.5.- Color adecuado vs. Color Verdadero
Podemos asumir que los televidentes quieren ver colores reproducidos de la manera más precisa y fiel posible. Algunos estudios han demostrado, sin embargo, que las preferencias de color se inclinan hacia la exageración. Los espectadores prefieren ver tonos de piel más saludables de lo que ellos realmente son, así como también el pasto más verde, y el cielo más azul. Desde el punto de vista del vectorscopio, esta preferencia no significa que los matices son imprecisos, sino que son "más fuertes" y más saturados.
2.6.6.- Vectorscopio
El Vectorscopio, instrumento de medida utilizado en televisión para ver y medir la componente de color de la señal de vídeo el monitor vectorscopio es en realidad un osciloscopio especializado en la representación de la parte de crominancia de la señal de vídeo.
La crominancia, o señal de color, es la parte de la señal de vídeo en la que se codifica la información de color. Esta información tiene dos parámetros, uno es la cantidad de color, o saturación y otro es el tipo del color, o tinte (hue en inglés). Tanto en el sistema PAL o NTSC estos dos parámetros se codifican sobre una misma señal mediante una modulación en cuadratura. Esta señal recibe el nombre de portadora de color y se modula en amplitud con la información de la saturación y en fase con la información del tinte. El resultado es un vector que tiene por módulo la saturación y por argumento el tinte (es decir el tip de color, rojo, amarillo...) Para su representación se utiliza el vectorscopio, que viene a ser y osciloscopio trabajando en representación X - Y (es decir sin base de tiempos) al que se le aplica en su canal vertical y en el horizontal las señales de diferencia de color. El resultado es una serie de vectores que tienen como origen el centro de la pantalla y en donde su módulo coincide con la saturación y el argumento con el tinte de la señal aplicada. La carátula de este instrumento viene marcada normalmente con unas casillas para la ubicación de los vectores correspondientes a la señal de barras de color. Estas casillas son de dos tamaños diferentes correspondiendo, el más pequeño, a una tolerancia del 5% y el mayor a una del 10%. También está representado el sincronismo de color para los dos estándares de barras más comunes, del 75% y del 100%.
31
Fig. 2.6.6. Imagen de un vectorscopio
2.6.7.- Monitor forma de onda (MFO)
Es un instrumento de medida utilizado en televisión para ver y medir la señal de vídeo. El monitor forma de onda o MFO es en realidad un osciloscopio especializado en la señal de televisión. Su base de tiempos está diseñada para adaptarse a los tiempos típicos de esa señal y ver las partes de interés de la misma de una forma fácil y sencilla.
La base de tiempos proporciona diferentes tiempos para los barridos del haz en la pantalla. Se divide en 2 partes fundamentales, los correspondientes a la representación de las líneas, mostrando una o dos líneas por cada barrido del haz, y la representación de campos, donde también se pueden mostrar uno o dos campos por cada barrido del haz. A estas partes fundamentales de la base de tiempos se unen ciertas posibilidades destinadas a la realización de algunas medidas concretas o a facilitar la visualización de alguna zona concreta de la señal. Así pues, se puede ampliar el barrido magnificando la señal representada y facilitando la observación y medida de alguna de sus partes, como puede ser el sincronismo.
Normalmente existe la posibilidad de poder seleccionar línea a línea e incluso una línea en concreto. Esta posibilidad de selección se completa con una salida de monitoreado, normalmente llamada "pix monitor" donde se ve resaltada, sobre un monitor de TV, la línea que se representa en la pantalla del instrumento. Se suele poder seleccionar de esta misma forma un grupo de 15 líneas. Algunos aparatos incorporan cursores y posibilidad de comparación por sectores de la onda representada véase la Fig., 2.6.7.
32
propia de la señal de imagen y de 0V a -0,3V a la amplitud del sincronismo), Tiene varias posiciones de una determinada ganancia así como un control lineal de la misma, que facilita la realización de las diferentes medidas estándar que se suelen realizar.
Una batería de filtros pasa bajos y pasa banda nos permiten ver las diferentes señales que componen la señal de vídeo, en particular la luminancia y la crominancia así como la realización de alguna medida concreta. Se complementa con un sistema de restauración de la componente de continua que pueda portar la señal.
Figura Monitor forma de onda
2.7.- ERRORES FRECUENTES EN LAS SEÑALES DE AUDIO Y VIDEO
Para entender mejor el comportamiento de las señales de audio y video se pretenden enunciar los errores mas comunes dentro de codificación y compresión de archivos ya que es muy importante para obtener buenos resultados y evitar a toda costa perdida de tiempo, dinero y esfuerzo.
2.7.1.- Errores frecuentes en el audio digital
ALIASING
En todo sonido complejo, como el que produce un instrumento de cuerda, las frecuencias que se generan pueden ir más allá de los 20.000 Hz en forma de armónicos que, aunque no son audibles para el oído humano, están presentes.
Cuando se digitaliza un sonido que contiene frecuencias superiores a las que puede codificar, según Nyquist, se produce el fenómeno del aliasing, que convierte esas frecuencias no cuantizables en otras que sí lo son, pero que no están presentes en el
sonido original, lo que introduce unos artefactos indeseables.
33
[image:40.612.143.467.191.410.2]este problema hay que añadir un filtro paso-bajo que corte por encima de la frecuencia que se corresponda con la mitad de la frecuencia de muestreo. Este filtro es conocido como filtro anti-aliasing. Como un filtro paso-bajo teórico con una pendiente infinita no existe y, además, generan problemas de desplazamiento de fase en las frecuencias cercanas al corte (igualmente indeseables), se estandarizó que la frecuencia de muestreo fuese de 44.100 hz. para poder usar unos filtros con una pendiente menos acusada desde los 22.050 hz. véase en la Fig. 2.7.1.
Fig. 2.7.1 Efecto del aliasing
2.7.2.- Errores de Cuantización
Otro problema con el que nos encontramos, inherente al sistema de digitalización, es que, cuando la amplitud de una muestra no se ajusta a un valor múltiplo de 6 dB, el bit que ocupa se resuelve por proximidad, con lo se introducen constantes redondeos que añaden distorsión. Ésta es especialmente audible (y, por ende, desagradable) en pasajes con muy baja amplitud (cola de reverberaciones, pasajes muy suaves de un instrumento,etc).
34
dithering con técnicas de noise shaping, es decir, añadiendo el ruido en aquellas zonas para las que el oído humano es menos sensible, haciendo que el ruido añadido sea prácticamente inaudible. Aunque es importante resaltar que, en teoría, deberíamos aplicar dithering en todos los procesos sujetos a errores de cuantización, en la práctica el ruido que se obtiene en la cadena de grabación es suficientemente adecuado como para usarlo. Por otra parte, los programas que hay en el mercado suelen aplicarlo cada vez que se realiza un proceso con la señal (normalizaciones, plug-ins ) véase la fig. 2.7.2.
[image:41.612.132.472.369.614.2]Es especialmente aconsejable no usar la normalización salvo al final, cuando hayamos procesado completamente el material, ya que hay que tener en cuenta que, cada vez que lo hacemos, elevamos tanto el nivel de la señal como el del ruido y, además, añadimos nuevo ruido con el dithering aplicado. Es realmente un error del que debemos huir. Un proceso en el que aplicar dithering es extremadamente recomendado es cuando reducimos la resolución de un material, por ejemplo de 24 bit a 16 bit. Como consejo, siempre que se pueda, se recomienda trabajar a 24 bit, desde la grabación hasta justo la obtención del fichero masterizado. El incremento que se tiene del margen dinámico permite que los ruidos introducidos por los errores de cuantización sean realmente despreciables. Sólo habría que aplicar dithering al pasar el archivo master a 16 bit para ir a CD.
35
2.7.3.- JITTER
La toma de muestras se realiza según la frecuencia de muestreo, fn muestras por segundo. Eso significa que, teóricamente, la separación temporal entre muestras debería ser de 1/fn segundos. Esto, en la práctica, no siempre es así, introduciendo un tercer tipo de distorsión: la dependiente de los errores de wordclock, conocida como jitter.
El wordclock es una señal de reloj que viaja junto con la señal de audio digital (aunque también puede viajar de forma independiente) y que marca la pauta de cuándo deben procesarse las muestras, tanto en grabación como en reproducción. Cuando las muestras sufren pequeños retrasos o adelantos, respecto al momento en que deberían ser procesadas, generan una modificación de las frecuencias que codifican, produciéndose unas fluctuaciones o modulaciones, análogas en cierta manera, a las que se producen en una cinta cuando la velocidad de giro de la misma no es constante. Es un efecto muy sutil, difícil de describir, pero que se manifiesta en una pérdida de definición y una imagen estéreo más pobre. Un sistema digital con un buen equipo externo de reloj, que suministre wordclock y sincronice todos los equipos, es la mejor garantía para evitar este problema, especialmente en el momento de la conversión A/D. Con posterioridad, se pueden "recolocar" las muestras, pero ya no representarán la realidad muestreada y el indeseable efecto lo arrastraremos en toda la cadena véase la fig. 2.7.3.
Fig. 2.7.3 Efectos del Jitter
2.7.4.- Errores en el video digital
36
2.7.5.- Congelamiento o Freezing
Este es un efecto que se da sobre todo al no tener un buen procesamiento de datos por parte de cualquier computadora se observa que si nosotros tenemos una baja cantidad de memoria, un procesador lento y una tarjeta de video de no muchos MB se esta propenso a tener este tipo de errores sobre todo con videos de alta calidad y esto es debido a la cantidad de datos tan grande que reciben los dispositivos de la computadora y si no se esta preparado con suficiente memoria, procesador y tarjeta de video suelen ocurrir con frecuencia. Este error también se da para streaming al momento de no tener un buen ancho de banda, ya que los datos tienden a distorsionarse o a llegar con errores la mayoría del tiempo véase en la Fig. 2.7.5.
Fig. 2.7.5 Error de congelamiento
2.7.6. Pixeleado o Blurring
Este error se da por una codificación defectuosa y lo que sucede es que se mete ruido digital en nuestro video lo cual no nos permite una visualización correcta de la imagen generando problemas al reproducirse véase la Fig. 2.7.6. Puede solucionarse con filtros anti blurring, aunque por lo general un archivo mal codificado tendría que volver a codificarse
.
37
2.7.7. Efecto Moire
El efecto Moirè, es una sensación visual que se genera en la interferencia de dos rejillas de líneas a partir de determinado ángulo, o cuando éstas tienen un tamaño distinto véase la Fig. 2.7.7.
El origen de esta expresión es de un tejido llamado así, que es un tipo de seda que se caracteriza por tener este aspecto ondulado. El error se da debido a que los sensores por lo general de la cámara no tienen el suficiente detalle o resolución para interpretar una imagen, por ello en televisión se evitan usar ropas con rayas o lugares con demasiadas franjas.
Fig. 2.7.7 Efecto Moire
2.7.8. El video no se visualiza pero el audio se escucha
Este error es debido a que nuestra computadora no dispone del códec adecuado para reproducir un archivo de video de determinada índole, por eso se debe tener una lista de códecs o tener noción de que formato de video se esta reproduciendo, para descargar el códec adecuado para visualizarlo véase la Fig. 2.7.8.
38
Debido a que existe una amplia gama de errores en el video digital, solo se han dado los mas resaltantes o los que mas problemas le generan a las personas.
2.8.- PRODUCCIÓN Y POST-PRODUCCIÓN
Un aspecto importante es que para comenzar a hacer una grabación de manera al menos semi profesional se deben de tener en cuenta ciertos factores para que esta sea de una calidad aceptable, ya que se necesita un video de alta calidad para después degradarlo en los diferentes formatos para video y audio streaming.
2.8.1.- Un buen guión y la conectividad en una producción
Cualquier buena producción que involucre audio y video, debe tener un buen guión o al menos debe haber una descripción general de la interpretación que se debe dar a realizar. El guión es el primer documento a tomar siempre en cuenta para lograr una producción de calidad. Otra cuestión es hacer un análisis de costos de lo que es en si la producción con lo cual se pueden prescindir de ciertas cosas o agregar mas equipo.
La conectividad es muy importante ya que si se desea transmitir por Internet debemos de evitar que la conexión se interrumpa continuamente por lo cual debemos contar con un ancho de banda de al menos conectividad DSL, ya que si tenemos una conexión de línea telefónica no se obtendrán buenos resultados y otra cuestión a tomar en cuenta es que por lo general las conexiones mas populares son de tipo asíncronas, lo cual hace diferencia entre las velocidades de conexión de subida y de bajada, por lo general las velocidades de subida son mayores por ejemplo una conexión de 1.5Mbps/768Kbps, para nuestro interés la velocidad de bajada que es menor debe tener un ancho de banda suficiente y realizar las pruebas pertinentes ya que la velocidad teórica no siempre respeta el ancho de banda que tenemos para transmitir o subir un archivo. Para motivos prácticos es necesario establecer conexiones entre dispositivos de tipo físicas, ya que la tecnología inalámbrica aun no es tan confiable y se pueden generar perdidas debidas a transmisión y recepción de archivos lo que podría provocar errores para nuestra señal.
39
2.8.2.- Consideraciones para audio
Algunas consideraciones simples para la grabación de audio para un proyecto que incluye video son que en la mayoría de los casos se graba voz, a tener en cuenta se debe tener el dialogo de los participantes en el video bien estudiado para evitar errores de toma, para el operador de audio se debe tener un conocimiento pleno del medidor VU para evitar problemas de saturación.
Un paso determinante a tomar en cuenta es revisar al 100 % las conexiones para evitar fallos como falsos contactos, ruido generado por una mala conexión o una falta total de la señal de sonido.
Al grabar la voz idealmente necesitamos que este en un pedestal el micrófono o es asi como se pretende grabar, debido a esto debemos tomar en cuenta ciertos factores que serán enunciados a continuación.
2.8.3.- Conociendo el medidor de volumen
El concepto mas importante a entender es el nivel de volumen, esto es una medición la cual pretende darnos una idea del nivel de sonoridad que estamos percibiendo, por regla y para calibración se utiliza una señal de 0 VU o +4dBm o 1.22 V, con una frecuencia de 1 Khz.
El medidor nos refleja una escala que mide el nivel de volumen de la señal y puede ser encontrado en manera analógica cuando la métrica es dada con el movimiento de una aguja que tiene un offset o retardo de 300 ms otra manera de reflejar estos datos es con barras de leds de manera digital como conclusión los dos reflejarían el mismo resultado.
40
La idea de tener un medidor de sonoridad es evitar la saturación de la señal de audio que genera un nivel de sonoridad desagradable al oído , otra forma de verlo es la de aprovechar el máximo rango dinámico disponible.
2.8.4.- Medidas a prevenir sobre el rango dinámico
Un problema real es el rango dinámico que se maneja, debido a que un factor importante es el sujeto que será grabado, el cual puede provocar que el audio sobrepase el nivel establecido de 0 VU debido al alto nivel sonoro, lo que generara una saturación que a su vez se torna en algo molesto para el oído al reproducir lo grabado.
Una solución a esto podría ser utilizar un compresor para evitar cambios súbitos en el nivel de sonoridad, otra propuesta es alejar un poco mas el micrófono de la fuente o evitar ponerlo de frente al orador.
A la izquierda observamos una señal con audio saturado mayor a 0 VU, del lado derecho una señal que entra dentro del rango dinámico utilizado.
2.8.5.- Sibilancia
41
El problema puede ser solucionado al ecualizar para filtrar las frecuencias mayores a 7 Khz.
2.8.6.- Popeo
Este efecto ocurre cuando un micrófono es colocado a una distancia muy corta de la fuente, se incrementa este tipo de fenómeno cuando los micrófonos tienen una baja sensitividad a las bajas frecuencias.
Los sonidos mas característicos son sobre todo explosivos o vocales tales como
(p,t,k,b,d y g) los cuales crean un sonido de “pop” con una gran cantidad de aire frente
al diafragma del micrófono generándonos problemas totalmente perceptuales por cualquier escucha en la señal de audio.
Existen tres maneras de atacar este problema la primera es colocar un cubre vientos sobre la rejilla del micrófono, lo cual es un filtro que evitara estos molestos sonidos y además permitirá evitar por ejemplo en un ambiente abierto filtrar algún flujo de aire no deseado, el segundo método es cambiar el tipo de micrófono de uno direccional a Omnidireccional, así se evitaran mas los efectos de sonidos de la índole descrita anteriormente y como ultimo método se colocara el micrófono a un lado del locutor.
Filtro anti-pop
2.8.7.- Efecto de proximidad
El efecto de proximidad es algo muy importante y es conocido que a una distancia muy corta de un locutor es mas factible que la grabación contenga un mayor contenido en bajas frecuencias, esto puede ser provechoso o desfavorable dependiendo lo que se quiera lograr grabar, si se usa un micrófono direccional aparecerá este efecto con mayor frecuencia, si se pretende una claridad en la voz se debe alejar al menos al
locutor un metro del micrófono, si lo que se busca es un poco mas de “punch “ estará
42
2.8.8.- Consideraciones para video
Además de tener un script con diálogos es importante también tener un storyboard que es algo así como un bosquejo de lo que se hará en la escena y las tomas que se presentaran, este tipo de ayudas perfeccionan la grabación y se evitan perdidas de tiempo, quedando escenas de mejor calidad y mas realistas. A continuación se mencionaran algunas consideraciones previas antes de realizar una grabación de audio y video.
2.8.9.- La luz es critica
La luz lo es prácticamente todo en la grabación de video, las cámaras a pesar de las nuevas tecnologías y los sensores captadores de luz, estos no son tan sensibles como se piensa, por eso es importante ayudar con luz extra a una escena, con lo cual la cámara capturara con mayor detalle el ambiente presentado.
Para entender un poco mas la manera en que la luz nos ayuda a se enuncian tres tipos de luz a tomar en cuenta para una correcta grabación.
1. Luz principal.- Este tipo de luz es la que principalmente apunta a la cámara y
permite definir contornos y evitar sombras.
2. Luz de relleno.- La luz de relleno es mas tenue que la luz principal y nos ayuda a
evitar sombras que quizás sean causadas por la luz principal.
3. Luz de fondo.- Esta es la luz que se emite detrás del sujeto y da un aspecto mas
tridimensional a la ambientación.