Introducci´ on a la Teor´ıa de la Informaci´ on
Asymptotic Equipartition Property.
Facultad de Ingenier´ıa, UdelaR
Equipartici´ on asint´ otica
Consideramos X
1. . . X
nvariables aleatorias independientes e identicamente distribuidas (i.i.d.) con entrop´ıa finita, X
i∼ p(x), x ∈ X .
Definimos p(x
1. . . x
n) =
n
Y
i=1
p(x
i) .
“Casi toda la probabilidad se concentra en eventos que son casi equiprobables”
P n
(x
1. . . x
n) : p(x
1. . . x
n) = 2
−n(H±)o
≈ 1 .
AEP
Teorema
Sean X
1. . . X
nvariables aleatorias i.i.d., X
i∼ p(x), cada una de ellas con entrop´ıa H = H(X
i) finita. Se cumple
− 1
n log p(X
1. . . X
n) → H en probabilidad.
Demostraci´ on.
− 1
n log p(X
1. . . X
n) = 1 n
n
X
i=1
− log p(X
i) (independencia)
→ E [− log p(X)] (Ley G. N´ umeros)
= H
Conjunto T´ıpico de Secuencias
Definici´ on
Sean X
1. . . X
nvariables aleatorias i.i.d., X
i∼ p(x), H = H(X
i). El conjunto t´ıpico A
(n)con respecto a p(x) es el conjunto de secuencias que satisfacen
2
−n(H+)≤ p(x
1. . . x
n) ≤ 2
−n(H−).
Conjunto T´ıpico de Secuencias
Propiedades del Conjunto T´ıpico
Teorema
Sean X
1. . . X
nvariables aleatorias i.i.d., X
i∼ p(x), H = H(X
i). El conjunto t´ıpico A
(n)satisface
1
(x
1. . . x
n) ∈ A
(n)⇔ H − ≤ −
1nlog p(x
1. . . x
n) ≤ H +
2
P {A
(n)} > 1 − para n suficientemente grande.
3
|A
(n)| ≤ 2
n(H+)4
|A
(n)| ≥ (1 − )2
n(H−)para n suficientemente grande.
Propiedades del Conjunto T´ıpico
Demostraci´ on.
1
H − ≤ −
n1log p(x
1. . . x
n) ≤ H + es la def. de A
(n)2
Como −
n1log p(X
1. . . X
n) → H , para todo δ > 0 existe N
0tal que P
− 1
n log p(X
1. . . X
n) − H
<
> 1 − δ , n > N
0.
Tomando δ = obtenemos P {A
(n)} > 1 − para n > N
0.
3
1 ≥ P
x∈A(n)
p(x) ≥ P
x∈A(n)
2
−n(H+)= |A
(n)|2
−n(H+)⇒ |A
(n)| ≤ 2
n(H+).
4
1 − ≤ P
x∈A(n)
p(x) ≤ P
x∈A(n)
2
−n(H−)= |A
(n)|2
−n(H−)⇒ |A
(n)| ≥ (1 − )2
n(H−).
Ejemplo
n = 25 p(1) = 0,6
= 0,1
h(p) = 0,97095 h(p) − = 0,87095 h(p) + = 1,07095
P {A
(n)} = 0,9362
|A
(n)| = 26,366,510
2
25= 33,554,432
Aplicaci´ on a Compresi´ on
Denotamos X
nal conjunto de secuencias de largo n y x
n= (x
1. . . x
n).
Si a cada secuencia de X
nle asignamos un n´ umero en el rango 0 . . . 2
n log |X |− 1, cada secuencia se puede representar como una secuencia binaria de dn log |X |e bits.
De forma similar, podemos enumerar las secuencias del conjunto A
(n), asign´ andoles n´ umeros 0 . . . |A
(n)| − 1, donde recordamos que
|A
(n)| ≤ 2
n(H+).
Si nos restringimos a A
(n), que tiene probabilidad mayor o igual a
1 − , alcanza con dn(H + )e bits para identifica cada secuencia
t´ıpica.
Aplicaci´ on a Compresi´ on
Aplicaci´ on a Compresi´ on
Teorema
Sean X
1. . . X
nvariables aleatorias i.i.d., X
i∼ p(x), H = H(X
i).
Sea
0> 0 arbitrario. Para todo natural n suficientemente grande, existe un c´ odigo binario para X
ncuyo largo de c´ odigo esperado, l(X
n), satisface
E 1 n l(X
n)
≤ H +
0.
Aplicaci´ on a Compresi´ on
Demostraci´ on.
E [l(X
n)] ≤ P {A
(n)}[n(H + ) + 2] + (1 − P {A
(n)})[n log |X | + 2]
≤ n(H + ) + 2 + [n log |X | + 2]
= n
H + (1 + log |X |) +
2(1+)n≤ n(H +
0)
( eligiendo suficientemente chico y n grande)
A
(n)vs. Otros Conjuntos de Alta Probabilidad
Teorema
Sean X
1. . . X
nvariables aleatorias i.i.d. con entrop´ıa H = H(X
i). Sea tambi´ en, para cada natural n, B
(n)δun subconjunto de X
nque satisface
P {B
δ(n)} ≥ 1 − δ , δ < 1 . Entonces, para todo δ
0> 0 se cumple
1
n log |B
δ(n)| > H − δ
0,
si n es suficientemente grande.
Demostraci´ on
B
δ(n)∩ A
(n)=
B
δ(n)c∪ A
(n) ccP {B
δ(n)∩ A
(n)} = 1 − P n
B
δ(n)c∪ A
(n) co P
xn∈Bδ(n)∩A(n)
P (x
n) ≥ 1 − P {B
δ(n)c} − P {A
(n) c} P
xn∈B(n)δ ∩A(n)
2
−n(H−)≥ 1 − δ − , n > N ()
|B
δ(n)|2
−n(H−)≥ 1 − δ −
|B
δ(n)| ≥ (1 − δ − )2
n(H−)1
n