Que si es la teoría de la información

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)

Introducción (traducción resumida de la introducción del libro de Abramson) Qué no es la teoría de la información

Los orígenes de la teoría de la información se remontan a la publicación del paper “A mathematical theory of communication” en 1948 por Claude Shannon.

Esta teoría trata con los portadores de la información (los símbolos) y no con la información en sí misma. Ella trata con la comunicación y los medios de la comunicación más bien que con el elusivo producto final de la comunicación: la información. El objetivo es aprender que los símbolos deben obedecer ciertas leyes para ser capaces de transmitir información. Relacionaremos estas propiedades de los símbolos con la cantidad de información que ellos pueden portar. Si un símbolo en particular porta o no realmente información dependerá de factores que están fuera del alcance de esta teoría, los factores psicológicos y semánticos también lo están y pueden hacer que las mismas palabras porten varios significados para diferentes oyentes.

Shannon decía que “los aspectos semánticos de la comunicación son irrelevantes para el problema de ingeniería”. Sin embargo Weaver apuntaba que, por el contrario, los aspectos técnicos de la comunicación podrían ser relevantes a los aspectos semánticos, psicológicos y lingüísticos.

Se tratarán las ideas centrales de la teoría de la información con énfasis particular en la medida de la información y su interpretación. Se verá por ejemplo que el concepto de entropía, como se trata aquí, tiene al menos una equivalencia formal con la entropía en termodinámica.

Que si es la teoría de la información

El primer paso en nuestro estudio será definir una medida de la información e investigar las propiedades de esta medida. Estas propiedades darán un aire de plausibilidad a nuestra medida y ayudarán a relacionar la teoría matemática con el modelo físico que motiva la teoría.

Es importante sin embargo observar que la justificación de nuestra definición de una medida de la información no puede ser obtenida por relaciones contenidas enteramente dentro del marco de la definición.

(2)

Para enfatizar esta necesidad de correspondencia entre nuestro modelo matemático y el mundo físico usaremos este capítulo introductorio para hacer varias preguntas interesantes que pueden ser formuladas de manera completamente independiente de cualquier medida particular de información.

Codificando la información

La discusión que sigue está restringida a un tipo particular pero importante de información: la información binaria.

Un ejemplo simple de información binaria se muestra en la representación de los números del 0 al 9 de la tabla 1.1

Dígito decimal Representación binaria

𝟎 𝟎𝟎𝟎𝟎

𝟏 𝟎𝟎𝟎𝟏

𝟐 𝟎𝟎𝟏𝟎

𝟑 𝟎𝟎𝟏𝟏

𝟒 𝟎𝟏𝟎𝟎

𝟓 𝟎𝟏𝟎𝟏

𝟔 𝟎𝟏𝟏𝟎

𝟕 𝟎𝟏𝟏𝟏

𝟖 𝟏𝟎𝟎𝟎

𝟗 𝟏𝟎𝟎𝟏

Tabla 1.1: codificación binaria de los dígitos decimales

(3)

dígitos binarios para cualquier secuencia de dígitos decimales y viceversa, podemos trabajar hacia atrás para obtener una secuencia de dígitos decimales.

La posibilidad de trabajar hacia atrás a partir de una tira de códigos binarios para lograr los correspondientes símbolos mensaje no siempre es posible como se observa en la tabla 1.2:

Símbolos mensaje Palabras de código

𝑺𝟏 𝟎

𝑺𝟐 𝟎𝟏

𝑺𝟑 𝟎𝟎𝟏

𝑺𝟒 𝟏𝟏𝟏

Tabla 1.2: Un código binario

Si se nos da una secuencia de palabras código de este código no somos capaces de trabajar hacia atrás a un único conjunto de símbolos mensaje.

Por ejemplo la secuencia 111001 pudo haber provenido de

𝑆4𝑆3 o de 𝑆4𝑆1𝑆2.

Se podría objetar que la inserción de una coma o espacio es todo lo que se necesita, sin embargo esto contradice la suposición de lo que es un código binario, ya que entonces este sería un código ternario.

Es fácil hallar un código que no tenga el problema anterior, como en la tabla 1.3:

Símbolos mensaje Palabras código

𝑺𝟏 𝟎

𝑺𝟐 𝟏𝟎

𝑺𝟑 𝟏𝟏𝟎

𝑺𝟒 𝟏𝟏𝟏𝟎

(4)

Un problema en la transmisión de información.

Para ilustrar algunas de las ideas de codificar y su relación con la medida de la información consideremos el siguiente problema.

Se desea instalar un sistema de comunicación entre Nueva York y San Francisco. El sistema se usa para transmitir el estado del clima en San Francisco a intervalos dados. Se requiere que el sistema use solo equipo de encendido apagado (binario). Para simplificar se clasifica el estado del clima en San Francisco en uno de cuatro posibles condiciones: Soleado, nublado, lluvioso o Brumoso como se muestra en la tabla 1.4:

Mensaje Probabilidad

Soleado 𝟏/𝟒

Nublado 𝟏/𝟒

Lluvioso 𝟏/𝟒

Brumoso 𝟏/𝟒

Tabla 1.4: El estado del clima en San Francisco

En esta tabla se muestran las cuatro posibilidades de clima además de las probabilidades asumidas para cada uno de los estados.

Un posible método de codificar estos mensajes en una secuencia de símbolos binarios es construir la siguiente correspondencia llamada el código

𝒂

Soleado… … … . 00

Nublado… … … .01

Lluvioso… … … .10

Brumoso… … … .11

(5)

Así, usando este código, “soleado, brumoso, brumoso, nublado” se codificará como

𝟎𝟎𝟏𝟏𝟏𝟏𝟎𝟏”

Es claro que el código

𝒂

es aceptable para la transmisión de esta información en el sentido que dada una secuencia de palabras código, podemos devolvernos para reconstruir una secuencia única de mensajes.

También es claro que usando el código

𝒂

es necesario enviar dos dígitos binarios (binits) por cada mensaje. Además no es posible encontrar otro código aceptable que permita usar menos de dos binits por mensaje.

Ahora consideremos un problema similar presentado a un ingeniero en los Ángeles. Se desea construir un sistema binario similar para transmitir el estado del clima en los Ángeles a Nueva York. Sabemos que hay diferencias meteorológicas importantes entre el clima de San Francisco y el de los Ángeles. Una de estas se tiene en cuenta al clasificar el estado del clima de los Ángeles como Soleado, nublado, lluvioso o contaminado (smoggy). Ahora, debido a que la diferencia entre brumoso y contaminado no es considerable para los residentes de uno de estas dos ciudades, esto no parece ser un factor a tener en cuenta en el diseño del sistema de comunicaciones. Desde que los cuatro estados son codificados en secuencias binarias, el significado o sentido de una secuencia particular es irrelevante desde el punto de vista de las comunicaciones.

Sin embargo puede existir otra diferencia meteorológica que es definitivamente no irrelevante para el problema de las comunicaciones. En toda justicia al clima de Los Ángeles, debemos asignar diferentes probabilidades a los cuatro posibles estados. Estos se muestran en la tabla siguiente:

Mensaje Probabilidad

Soleado 𝟏/𝟒

Nublado 𝟏/𝟖

Lluvioso 𝟏/𝟖

contaminado 𝟏/𝟐

Tabla 1.6: El estado del clima en Los Ángeles

(6)

Mensaje Código

Soleado 10

Nublado 110

Lluvioso 1110

contaminado 0

Tabla 1.7: Código

𝑩

Usando el código

𝑩

para transmitir el mensaje “soleado, contaminado, contaminado, nublado” deberíamos enviar la secuencia “𝟏𝟎𝟎𝟎𝟏𝟏𝟎”.

Nuevamente, cualquier secuencia binaria proveniente de este código conduce a una secuencia única de mensajes. Esto es cierto dado que cada secuencia binaria correspondiente a un mensaje termina en un 0 y así el 0 puede ser pensado como el indicador de un fin de palabra código. La longitud promedia de una palabra código usando el código

𝐵

se puede calcular como

𝑳̅ = 𝟐 ∗𝟏 𝟒+ 𝟑 ∗

𝟏 𝟖+ 𝟒 ∗

𝟏 𝟖+ 𝟏 ∗

𝟏

𝟐= 𝟏 + 𝟕

𝟖 𝒃𝒊𝒕/𝒔𝒊𝒎𝒃𝒐𝒍𝒐

Se puede verificar que si se usa el código

𝑩

para transmitir el clima en San Francisco se obtiene un valor de

𝑳̅ = 𝟐 ∗𝟏 𝟒+ 𝟑 ∗

𝟏 𝟒+ 𝟒 ∗

𝟏 𝟒+ 𝟏 ∗

𝟏

𝟒= 𝟐. 𝟓 𝒃𝒊𝒕/𝒔𝒊𝒎𝒃𝒐𝒍𝒐

Se ha mostrado que se puede transmitir el mismo tipo de información usando un 𝟔% menos de binits por mensaje en promedio. Una reducción del 𝟔% en el número de dígitos binarios para ser transmitidos en un sistema de comunicaciones práctico es una ganancia de alguna importancia. Además esta ganancia se obtuvo por el expediente simple de usar etiquetas diferentes para los mensajes enviados.

Algunas cuestiones

El ejemplo dado previamente levanta algunas preguntas de naturaleza fundamental.

(7)

¿Podemos, entonces, obtener mejoras adicionales de esta clase al re etiquetar los mensajes en una forma aún más inteligente?

¿Si es posible una mejora adicional, que tan lejos podemos ir?

O sea,

¿Cuál es el número mínimo de binits por mensaje que se requiere usar en orden a transmitir esta información?

Una vez establecido el mínimo valor de la longitud promedia, aparece el problema de realmente construir un código que alcance este mínimo valor.

¿Cuáles son algunos métodos prácticos de sintetizar tales códigos?

La última de las preguntas sugeridas por el ejemplo simple es

 “¿Por Qué?”.

¿Cuáles son las diferencias en las situaciones descritas para Los Ángeles y San Francisco que nos permiten usar menos binits para transmitir el estado del clima de Los Ángeles?

Esta última cuestión es la más fundamental. En otros términos, la pregunta puede re-formularse como

 “¿Cuál es la naturaleza de la información?”

El hecho de que necesitemos menos binits para el clima en Los Ángeles implica que, en algún sentido, proveer el estado del clima en los Ángeles da menos información que proveer el estado del clima en San Francisco. Veremos que esta vaga noción de cantidad de información puede ser hecha precisa por una definición apropiada de una medida de información.

Del ejemplo anterior es claro que la definición de información está relacionada con la probabilidad de ocurrencia de los diferentes mensajes.

Figure

Actualización...

Referencias

Actualización...