• No se han encontrado resultados

Introducci´on a la Teor´ıa de la Informaci´on Informaci´on Mutua - Desigualdad de Fano

N/A
N/A
Protected

Academic year: 2021

Share "Introducci´on a la Teor´ıa de la Informaci´on Informaci´on Mutua - Desigualdad de Fano"

Copied!
14
0
0

Texto completo

(1)

Introducci´ on a la Teor´ıa de la Informaci´ on

Informaci´ on Mutua - Desigualdad de Fano

Facultad de Ingenier´ıa, UdelaR

(2)

Agenda

1

Informaci´ on Mutua

2

Desigualdad de Fano

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 2 / 14

(3)

Informaci´ on Mutua

Definici´ on

La Informaci´ on Mutua entre dos variables aleatorias X, Y con distribuci´ on conjunta p(x, y) se define como la divergencia entre la distribuci´ on conjunta y la distribuci´ on dada por el producto de las marginales p(x)p(y).

I(X; Y ) = D(p(x, y)||p(x)p(y))

= X

x∈X

X

y∈Y

p(x, y) log p(x, y) p(x)p(y)

= E

p(x,y)

log p(X, Y ) p(X)p(Y )

La Informaci´ on Mutua se expresa en bits.

(4)

La Informaci´ on Mutua es No Negativa

Lema

I(X; Y ) ≥ 0 con igualdad si y s´ olo si X, Y son independientes.

Demostraci´ on.

De la definici´ on, I(X; Y ) = D(p(x, y)||p(x)p(y)) ≥ 0 con igualdad si y s´ olo si p(x, y) = p(x)p(y).

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 4 / 14

(5)

Relaciones entre Informaci´ on Mutua y Entrop´ıa

I(X; Y ) = D(p(x, y)||p(x)p(y))

= E

p(x,y)

log 1

p(X)p(Y ) − E

p(x,y)

log 1 p(X, Y )

= E

p(x,y)

 log 1

p(X) + log 1 p(Y )



− E

p(x,y)

log 1 p(X, Y ) I(X; Y ) = H(X) + H(Y ) − H(X, Y )

I(X; Y ) = H(X) + H(Y ) − H(X, Y )

= H(X) + H(Y ) − (H(Y ) + H(X|Y ))

I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) = I(Y ; X)

I(X; X) = H(X) − H(X|X) = H(X)

(6)

Diagrama de Venn

I(X; Y ) = H(X) + H(Y ) − H(X, Y )

= H(X) − H(X|Y )

= H(Y ) − H(Y |X)

= I(Y ; X)

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 6 / 14

(7)

Informaci´ on Mutua Condicional

Definici´ on

I(X; Y |Z) = D(p(x, y|z)||p(x|z)p(y|z))

= E

p(x,y,z)

log

p(X|Z)p(Y |Z)p(X,Y |Z)

= H(X|Z) − H(X|Y, Z)

(8)

La Informaci´ on Mutua Condicional es No Negativa

Lema

I(X; Y |Z) ≥ 0 con igualdad si y s´ olo si X, Y son condicionalmente independientes dado Z.

Demostraci´ on.

De la definici´ on, I(X; Y |Z) = D(p(x, y|z)||p(x|z)p(y|z)) ≥ 0 con igualdad si y s´ olo si p(x, y|z) = p(x|z)p(y|z) para todo z tal que p(z) > 0.

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 8 / 14

(9)

Regla de la Cadena

Teorema

I(X

1

. . . X

n

; Y ) = P

n

i=1

I(X

i

; Y |X

i−1

, . . . X

1

) Demostraci´ on.

I(X

1

. . . X

n

; Y ) = H(X

1

. . . X

n

) − H(X

1

. . . X

n

|Y )

=

n

X

i=1

H(X

i

|X

i−1

. . . X

1

) −

n

X

i=1

H(X

i

|X

i−1

. . . X

1

, Y )

=

n

X

i=1



H(X

i

|X

i−1

. . . X

1

) − H(X

i

|X

i−1

. . . X

1

, Y )



=

n

X

i=1

I(X

i

; Y |X

i−1

, . . . X

1

)

(10)

Desigualdad de Procesamiento de Datos

Teorema

Si X → Y → Z, entonces I(X; Y ) ≥ I(X; Z)

Demostraci´ on.

I(X; Y, Z) = I(X; Z) + I(X; Y |Z)

= I(X; Y ) + I(X; Z|Y )

| {z }

= 0

Corolario

I(X; Y |Z) ≤ I(X; Y )

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 10 / 14

(11)

Desigualdad de Procesamiento de Datos

Corolario

En particular I(X; Y ) ≥ I(X; f (Y ))

Demostraci´ on.

X, Y, Z = f (Y ) forman una cadena de Markov.

(12)

Concavidad/Convexidad de I(X; Y )

Teorema

Sea (X, Y ) ∼ p(x, y) = p(x)p(y|x).

1

Dada p(y|x) fija, I(X; Y ) es una funci´ on c´ oncava del vector de probabilidad p(x).

2

Fijado el vector de probabilidad p(x), I(X; Y ) es una funci´ on convexa de p(y|x).

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 12 / 14

(13)

Desigualdad de Fano

Teorema

Sean X, Y variables aleatorias y ˆ X = f (Y ) una estimaci´ on de X. Sea P

e

= P { ˆ X 6= X}

H(P

e

) + P

e

log(|X | − 1) ≥ H(X|Y )

Corolario

1 + P

e

log(|X | − 1) ≥ H(X|Y ) P

e

≥ H(X|Y ) − 1

log(|X | − 1) , |X | > 2 .

(14)

Desigualdad de Fano Demostraci´ on.

Definimos E =

 1 si ˆ X 6= X 0 si ˆ X = X

= 0 H(E, X|Y ) = H(X|Y ) + z }| {

H(E|X, Y )

= H(E|Y )

| {z }

+ H(X|E, Y )

| {z }

≤ H(P

e

) ≤ P

e

log(|X | − 1)

La cota sobre H(X|E, Y ) surge de que, como H(X|Y = y, E = 0) = 0 para todo y ∈ Y, entonces

H(X|E, Y ) = X

y∈Y

P (Y = y, E = 1)H(X|Y = y, E = 1)

≤ X

y∈Y

P (Y = y, E = 1) log(|X | − 1)

= P

e

log(|X | − 1)

(Facultad de Ingenier´ıa, UdelaR) Teor´ıa de la Informaci´on 14 / 14

Referencias

Documento similar

Finalmente, y como conclusi´ on a la revisi´ on bibliogr´ afica, se decide que el m´ etodo m´ as apropiado para aplicar en este trabajo consiste en la estimaci´ on espacial de

Al igual que suced´ıa con la WEB1, para obtener aun m´ as informaci´ on acerca de la transacci´ on se puede utilizar la web Indyscan, pudiendo ver tanto el mensaje de solicitud como

El tratamiento de la informaci´ on basada en la identi- ficaci´ on del emisor del mensaje (se˜ nal neuronal) podr´ıa ser una potente estrategia de procesamiento y codificaci´ on

Introducci´ on: Teor´ıa de Redes Redes do Coocurrencia Redes de Asociaciones Aplicaciones Redes Semanticas y Sint´ acticas Construcci´ on de Redes.. Aplicaciones de la Teor´ıa de

La elasticidad de la demanda del bien i con respecto al precio del bien j se define como el cociente entre el cambio porcentual en la cantidad demandada y el cambio porcentual en

Si el gobierno decide gravar con un impuesto ad-valorem del 25 por ciento el precio de la habitaci´on, ¿Cu´al ser´a el m´aximo n´umero de d´ıas que el individuo pueda

Figura 5.9 Comparaci´ on del ranking la mejor soluci´ on encontrada hasta cada iteraci´ on, entre el algoritmo de b´ usqueda y su respectiva b´ usqueda aleatoria, para cada funci´

Amplitud y secci´ on eficaz de dispersi´ on. Aproximaci´ on de Born. Dispersi´ on por ´ atomos con nube electr´ onica. Teor´ıa de la dispersi´ on por ondas parciales.