Introducci´on a la Teor´ıa de la Informaci´on Asymptotic Equipartition Property.

Texto completo

(1)

Introducci´ on a la Teor´ıa de la Informaci´ on

Asymptotic Equipartition Property.

Facultad de Ingenier´ıa, UdelaR

(2)

Equipartici´ on asint´ otica

Consideramos X

1

. . . X

n

variables aleatorias independientes e identicamente distribuidas (i.i.d.) con entrop´ıa finita, X

i

∼ p(x), x ∈ X .

Definimos p(x

1

. . . x

n

) =

n

Y

i=1

p(x

i

) .

“Casi toda la probabilidad se concentra en eventos que son casi equiprobables”

P n

(x

1

. . . x

n

) : p(x

1

. . . x

n

) = 2

−n(H±)

o

≈ 1 .

(3)

AEP

Teorema

Sean X

1

. . . X

n

variables aleatorias i.i.d., X

i

∼ p(x), cada una de ellas con entrop´ıa H = H(X

i

) finita. Se cumple

− 1

n log p(X

1

. . . X

n

) → H en probabilidad.

Demostraci´ on.

− 1

n log p(X

1

. . . X

n

) = 1 n

n

X

i=1

− log p(X

i

) (independencia)

→ E [− log p(X)] (Ley G. N´ umeros)

= H

(4)

Conjunto T´ıpico de Secuencias

Definici´ on

Sean X

1

. . . X

n

variables aleatorias i.i.d., X

i

∼ p(x), H = H(X

i

). El conjunto t´ıpico A

(n)

con respecto a p(x) es el conjunto de secuencias que satisfacen

2

−n(H+)

≤ p(x

1

. . . x

n

) ≤ 2

−n(H−)

.

(5)

Conjunto T´ıpico de Secuencias

(6)

Propiedades del Conjunto T´ıpico

Teorema

Sean X

1

. . . X

n

variables aleatorias i.i.d., X

i

∼ p(x), H = H(X

i

). El conjunto t´ıpico A

(n)

satisface

1

(x

1

. . . x

n

) ∈ A

(n)

⇔ H −  ≤ −

1n

log p(x

1

. . . x

n

) ≤ H + 

2

P {A

(n)

} > 1 −  para n suficientemente grande.

3

|A

(n)

| ≤ 2

n(H+)

4

|A

(n)

| ≥ (1 − )2

n(H−)

para n suficientemente grande.

(7)

Propiedades del Conjunto T´ıpico

Demostraci´ on.

1

H −  ≤ −

n1

log p(x

1

. . . x

n

) ≤ H +  es la def. de A

(n)

2

Como −

n1

log p(X

1

. . . X

n

) → H , para todo δ > 0 existe N

0

tal que P



− 1

n log p(X

1

. . . X

n

) − H

< 



> 1 − δ , n > N

0

.

Tomando δ =  obtenemos P {A

(n)

} > 1 −  para n > N

0

.

3

1 ≥ P

x∈A(n)

p(x) ≥ P

x∈A(n)

2

−n(H+)

= |A

(n)

|2

−n(H+)

⇒ |A

(n)

| ≤ 2

n(H+)

.

4

1 −  ≤ P

x∈A(n)

p(x) ≤ P

x∈A(n)

2

−n(H−)

= |A

(n)

|2

−n(H−)

⇒ |A

(n)

| ≥ (1 − )2

n(H−)

.

(8)

Ejemplo

n = 25 p(1) = 0,6

 = 0,1

h(p) = 0,97095 h(p) −  = 0,87095 h(p) +  = 1,07095

P {A

(n)

} = 0,9362

|A

(n)

| = 26,366,510

2

25

= 33,554,432

(9)

Aplicaci´ on a Compresi´ on

Denotamos X

n

al conjunto de secuencias de largo n y x

n

= (x

1

. . . x

n

).

Si a cada secuencia de X

n

le asignamos un n´ umero en el rango 0 . . . 2

n log |X |

− 1, cada secuencia se puede representar como una secuencia binaria de dn log |X |e bits.

De forma similar, podemos enumerar las secuencias del conjunto A

(n)

, asign´ andoles n´ umeros 0 . . . |A

(n)

| − 1, donde recordamos que

|A

(n)

| ≤ 2

n(H+)

.

Si nos restringimos a A

(n)

, que tiene probabilidad mayor o igual a

1 − , alcanza con dn(H + )e bits para identifica cada secuencia

t´ıpica.

(10)

Aplicaci´ on a Compresi´ on

(11)

Aplicaci´ on a Compresi´ on

Teorema

Sean X

1

. . . X

n

variables aleatorias i.i.d., X

i

∼ p(x), H = H(X

i

).

Sea 

0

> 0 arbitrario. Para todo natural n suficientemente grande, existe un c´ odigo binario para X

n

cuyo largo de c´ odigo esperado, l(X

n

), satisface

E  1 n l(X

n

)



≤ H + 

0

.

(12)

Aplicaci´ on a Compresi´ on

Demostraci´ on.

E [l(X

n

)] ≤ P {A

(n)

}[n(H + ) + 2] + (1 − P {A

(n)

})[n log |X | + 2]

≤ n(H + ) + 2 + [n log |X | + 2]

= n



H + (1 + log |X |) +

2(1+)n



≤ n(H + 

0

)

( eligiendo  suficientemente chico y n grande)

(13)

A

(n)

vs. Otros Conjuntos de Alta Probabilidad

Teorema

Sean X

1

. . . X

n

variables aleatorias i.i.d. con entrop´ıa H = H(X

i

). Sea tambi´ en, para cada natural n, B

(n)δ

un subconjunto de X

n

que satisface

P {B

δ(n)

} ≥ 1 − δ , δ < 1 . Entonces, para todo δ

0

> 0 se cumple

1

n log |B

δ(n)

| > H − δ

0

,

si n es suficientemente grande.

(14)

Demostraci´ on

B

δ(n)

∩ A

(n)

=



B

δ(n)c

∪ A

(n) c



c

P {B

δ(n)

∩ A

(n)

} = 1 − P n

B

δ(n)c

∪ A

(n) c

o P

xn∈Bδ(n)∩A(n)

P (x

n

) ≥ 1 − P {B

δ(n)c

} − P {A

(n) c

} P

xn∈B(n)δ ∩A(n)

2

−n(H−)

≥ 1 − δ −  , n > N ()

|B

δ(n)

|2

−n(H−)

≥ 1 − δ − 

|B

δ(n)

| ≥ (1 − δ − )2

n(H−)

1

n

log |B

δ(n)

| ≥

n1

log(1 − δ − ) + H −  ,  < 1 − δ

>

n1

log(

1−δ2

) + H −

δ20

,  < m´ın{

δ20

,

1−δ2

}

> −

δ0

+ H −

δ0

, n > m´ ax{N (), N

0

} .

(15)

Ejemplo

B

(n)

menor conjunto con P {B

(n)

} ≥ 1 −  = 0,9

P {#1 ≥ 12} = 0,9222 P {#1 ≥ 13} = 0,84623

P {A

(n)

} = 0,9362

|A

(n)

| = 26,366,510

|B

(n)

| = 20,457,889

(16)

AEP para Procesos Estoc´ asticos

Teorema

Si {X

i

} es un proceso estacionario y erg´ odico (por ejemplo Markov irreducible y aperi´ odico estacionario)

− 1

n log p(X

1

. . . X

n

) → H(X )

con probabilidad 1.

Figure

Actualización...

Referencias

Actualización...

Related subjects :