Introducci´
on a la Teor´ıa de la Informaci´
on
Capacidad del canal
Facultad de Ingenier´ıa, UdelaR
Codificaci´
on de canal
Modelo matem´
atico de sistema de comunicaci´
on
w mensaje - Codif. xn - Canal yn - Decod. ˆ w -Transmisi´on de un mensaje:1 fuente de datos genera mensaje w ∈ W,
2 codificador mapea w a palabra c´odigo xn∈ Xn,
3 xn se distorsiona al pasar por canal, resultando en yn∈ Yn, 4 decodificador infiere mensaje enviado ˆw a partir de yn. 5 Transmisi´on exitosa si ˆw = w.
Sinopsis
w mensaje - Codif. xn - Canal yn - Decod. ˆ w-Capacidad del canal
Cu´anta informaci´on puede transmitirse por uso del canal
Es una propiedad exclusiva del canal
Segundo teorema de Shannon
Es posible transmitir por un canal ruidoso con probabilidad de error arbitrariamente peque˜na
Importancia
Uno de los teoremas con m´as impacto pr´actico: la era digital Internet, celulares, telecomunicaciones, computadoras, etc.! Antes de Shannon, transmisi´on sin errorno se cre´ıa posible
Temas
Capacidad de canal: informacional vs. operativa El segundo teorema de Shannon
C´odigos pr´acticos de correcci´on de errores Canales con realimentaci´on
Canal discreto sin memoria (DMC)
W mensaje - Codif. Xn - Canal p (Y |X) Yn - Decod. ˆ W-Definici´on (Canal discreto sin memoria C (DMC))
Canal: terna (X , p (Y |X) , Y)
Entrada al canal: X ∈ X , (alfabeto de entrada: X ) Salida del canal: Y ∈ Y, (alfabeto de salida: Y) Discreto: |X | < ∞ y |Y| < ∞
Sin memoria: Yk s´olo depende de Xk,
p (Yk= yk|Xk= xk, Xk−1= xk−1...) = p (Yk= yk|Xk= xk) , ∀ k
C´
odigo de canal (M,n)
Definici´on (C´odigo de canal (M, n))
Conjunto de ´ındices J = {1, 2, . . . , M } (mensajes W ) Funci´on de codificaci´on: Xn: J → Xn.
Funci´on (determin´ıstica) de decodificaci´on: g : Yn→ J .
Definici´on (Codebook)
Se le llama codebook al conjunto imagen de Xn, es decir: {Xn(1) . . . Xn(M )}.
Probabilidad de error de un c´
odigo
Error asociado a mensaje i (1(·) es la funci´on indicatriz):
λi = Pr {g(Yn) 6= i|Xn= Xn(i)}
= X yn p (yn|xn(i))1(g(yn) 6= i) Error maximal λ(n)= m´ax i∈J λi Error promedio: Pe(n)= 1 M M X i=1 λi
Capacidad Operativa
Definici´on (Tasa R de un c´odigo (M, n))
R = log M
n
Medida en bits por uso del canal (log. binario)
Una tasa R se dice alcanzablesi existe una secuencia de c´odigos
2nR, n tal que λ(n)→ 0 cuando n → ∞.
Definici´on (Capacidad operativa del canal)
Capacidad Informacional
C= m´∆ ax
p(X)I (X; Y )
Bien definido:
Espacio de probabilidades P: p (X) ∈ P
I (X; Y ) continua en P, I (X; Y ) est´a acotada, P compacto
⇒ m´aximo C siempre existe
P convexo, I (X; Y ) c´oncava en P
⇒ C se puede calcular en tiempo polinomial
En general, C no tiene forma cerrada; se calcula num´ericamente
Capacidad informacional de un canal sin ruido
C = m´ax p(X)I (X; Y ) = m´ax p(X)(H (X) − H (X|Y )) = m´ax p(X)(H (X) − 0) = 1 Π = 1 0 0 1 0 0 1 1-Canal informacional del canal binario sim´
etrico (BSC)
I (X; Y ) = H (Y ) − H (Y |X) = H (Y ) −X x p (x) H (Y |X = x) ≤ 1 −X x p (x) H (Y |X = x) sim. = 1 −X x p (x)H (π) = 1 − H (π) (m´aximo se da en p (X) uniforme) Π = 1 − π π π 1 − π 0 0 1 1 -1 − π -1 − π 3 π Q Q Q Q Q Q Q Q Q s πCapacidad informacional del canal con borraduras
I(X; Y ) = H (X) − H (X|Y ) =H (X) . . . −X y p (y) H (X|Y = y) =H (X) . . . − p (e) H (X|Y = e) . . . − p (0) H (X|Y = 0) − . . . − p (1) H (X|Y = 1) = (1 − α) H (X)M´aximo C = (1 − α), alcanzado para
p (x) uniforme. Π = 1−e 0 e 0 1−e e 0 0 1 e 1 -1 − α -1 − α 3 α Q Q Q Q Q Q Q s α
Sinopsis
Dos definiciones de capacidad:
Informacional: propiedad abstracta
C = m´ax
p(X)I (X; Y )
Operacional: medible en la pr´actica:
C0 = sup{R : R alcanzable}
Esencia del segundo teorema de Shannon: Ambas coinciden:
Planteo formal
W mensaje - Codif. Xn - Canal p (Y |X) Yn - Decod. ˆ W -Mensaje W ∈ J, J = {1, 2, . . . , M } C´odigo enviado: Xn(W ) : J → Xn Canal DMC (Xn, p (Yn|Xn) , Yn): pyk|xk, yk−1 = p (yk|xk) , k = 1, 2, . . . , n C´odigo recibido: Yn∼ p (Yn|Xn) Mensaje decodificado: ˆW = g (Yn) Error de transmisi´on: W 6= ˆWTeorema de codificaci´
on de canal: idea de la prueba
Basado en extiension de AEP a pares (Xn, Yn)
Para n grande, cada codeword xninduce 2nH(Y |X) salidas t´ıpicas . . .
. . . y hay un total de 2nH(Y ) salidas t´ıpicas
Para que no haya error, hay que repartir esas 2nH(Y ) en
conjuntos disjuntos de tama˜no 2nH(Y |X)
A grosso modo, esto da 2nH(Y )/2nH(Y |X)= 2nI(X;Y )
Xn Yn xn1 xn 2 (((((((( hhhhhhhh (((((((( hhhhhhhh m m 2nH(Y |X) J J J
Par´entesis: AEP conjunta
Xn Yn xn 1 xn2 (((((((( hhhhhhhh (((((((( hhhhhhhh m m 2nH(Y |X)J J JRepaso: AEP y conjuntos t´ıpicos
Sean X1. . . Xn variables aleatorias i.i.d., Xi ∼ p (X). Sea H ∆
= H(Xi).
Equipartici´on asint´otica (AEP)
“Casi toda la probabilidad se concentra en eventos que son casi equiprobables” P n xn: p (xn) = 2−n(H±) o ≈ 1 “La entrop´ıa emp´ırica converge a H”
−1
Repaso: conjuntos t´ıpicos
Sean X1. . . Xn variables aleatorias i.i.d., Xi ∼ p (X). Sea H ∆
= H(Xi).
Definici´on (Conjunto t´ıpico)
El conjunto t´ıpico A(n) con respecto a p (X) es el conjunto de secuencias
que cumplen:
2−n(H+)≤ P (x1. . . xn) ≤ 2−n(H−)
Propiedades
(x1. . . xn) ∈ A(n) ⇔ H − ≤ −1nlog P (x1. . . xn) ≤ H +
P {A(n) } > 1 − para n suficientemente grande.
|A(n) | ≤ 2n(H+)
Tipicalidad conjunta
Definici´on
El conjunto A(n) de secuencias conjuntamente t´ıpicas son los pares
(xn, yn) tales que
xn es t´ıpico seg´un p (xn):−1
nlog p (x
n) − H (X) ≤ yn es t´ıpico seg´un p (yn): −1nlog p (yn) − H (Y )≤ (xn, yn) es t´ıpico seg´un p (xn, yn): −1 nlog p (x n, yn) − H (X, Y ) ≤ donde p (xn, yn) =Qn i=1p (xi, yi).
AEP conjunta
Teorema 1 Pr n (Xn, Yn) ∈ A(n) o → 1 cuando n → ∞ 2 |A(n) | ≤ 2n(H(X,Y )+e)3 Si ( ˆXn, ˆYn) ∼ p (xn) p (yn) (o sea que ˆXn e ˆYn son indep. con
marginales id´enticas a p (xn, yn)) entonces Pr
n
( ˆXn, ˆYn) ∈ A(n) o
≤ 2−n(I(X;Y )+3) y para n suficientemente grande
Prn( ˆXn, ˆYn) ∈ A(n) o≥ (1 − )2−n(I(X;Y )−3)
Nota: El punto 3 dice que la prob. de que dos secuencias t´ıpicas de Xn y Yn, pero no generadas por la transmisi´on, sean tambi´en conjuntamente t´ıpicas, es chica, y tiende a 0 con n grande.
AEP conjunta: prueba de 3
Si ˆXn e ˆYn son independientes con marginales id´enticas a p (xn, yn) entonces, desarrollando por cotas superiores,
Pr n ( ˆXn, ˆYn) ∈ A(n) o = X (xn,yn)∈A(n) p (xn) p (yn) ≤ A (n) 2 −n(H(X)−) 2−n(H(Y )−) ≤ 2n(H(X,Y )+)2−n(H(X)−)2−n(H(Y )−) = 2n(H(X,Y )+)−n(H(X)−)−n(H(Y )−) = 2−n(I(X;Y )−3)
AEP conjunta: prueba de 3
Haciendo lo mismo pero con las cotas inferiores Pr n ( ˆXn, ˆYn) ∈ A(n) o = X (xn,yn)∈A(n) p (xn) p (yn) ≥ A (n) 2 −n(H(X)+)2−n(H(Y )+) ≥ (1 − )2n(H(X,Y )−)2−n(H(X)+)2−n(H(Y )+) = (1 − )2n(H(X,Y )−)−n(H(X)+)−n(H(Y )+) = (1 − )2−n(I(X;Y )+3)
Ejemplo: AEP conjunta en canal Z
X ∼ Bernoulli(1/4),
Canal: p (Y = 1|X = 1) = 3/4, p (Y = 1|X = 0) = 0 (notar que Y ∼ Bernoulli(3/16))
Tenemos H(X) ≈ 0,8, H(Y ) ≈ 0,7, H(Y |X) ≈ 0,20.
Generamos secuencias xn de largo n = 300
Simulamos yn como yi= xizi con zi ∼ Bernoulli(3/4)
Generamos ˜yn con ˜Y ∼ Bernoulli(3/16) en forma independiente
Calculamos entrop´ıas emp´ıricas, comparamos con reales
H(X) H(X)ˆ H(Y ) H(Y )ˆ H(Y |X) H(Y |X)ˆ H( ˜ˆ Y ) H( ˜ˆ Y |X) 0.81 0.81 0.70 0.68 0.20 0.21 0.76 0.38 0.81 0.81 0.70 0.69 0.20 0.20 0.76 0.39 0.81 0.77 0.70 0.66 0.20 0.18 0.74 0.36 0.81 0.79 0.70 0.69 0.20 0.18 0.69 0.39 0.81 0.77 0.70 0.68 0.20 0.17 0.72 0.40 0.81 0.84 0.70 0.72 0.20 0.22 0.60 0.48 0.81 0.87 0.70 0.80 0.20 0.20 0.73 0.49 0.81 0.88 0.70 0.78 0.20 0.23 0.79 0.52
Ejemplo: AEP conjunta en canal Z
X ∼ Bernoulli(1/4),
Canal: p (Y = 1|X = 1) = 3/4, p (Y = 1|X = 0) = 0 (notar que Y ∼ Bernoulli(3/16))
Tenemos H(X) ≈ 0,8, H(Y ) ≈ 0,7, H(Y |X) ≈ 0,20.
Generamos secuencias xn de largo n = 300
Simulamos yn como yi= xizi con zi ∼ Bernoulli(3/4)
Generamos ˜yn con ˜Y ∼ Bernoulli(3/16) en forma independiente
Esquema de la prueba
Xn Yn xn 1 xn2 m m 2nH(Y |X)Para bloques suficientemente largos entra en juego la AEP conjunta. Por cada secuencia (t´ıpica) de entrada xn hay aprox. 2nH(Y |X) secuencias conjuntamente t´ıpicas en Yn.
No queremos que dos secuencias de Xn produzcan el mismo yn(sino
es imposible decidir!)
Esquema de la prueba
Xn Yn A(n) A (n) xn1 xn 2 m m 2nH(Y |X) ( ( ( ( ( 2nH(Y )Cada codeword Xn(i) genera 2nH(Y |X) palabras conj. tip. en Yn Hay 2nH(Y ) secuencias t´ıpicas en Yn
Los subconjuntos inducidos en Yn no se deben solapar
El m´aximo posibls de conj. disjuntos (o sea, mensajes distintos) es 2nH(Y )/2nH(Y |X) = 2n(H(Y )−H(Y |X)) = 2nI(X;Y )
Enunciado
Teorema (Teorema de codificaci´on de canal)
Todas las tasas R bajo la capacidad del canal C son alcanzables. Espec´ıficamente, para cada R < C existe una secuencia de c´odigos (2nR, n) con probabilidad de error m´axima λ(n)→ 0.
Rec´ıprocamente, cualquier secuencia de c´odigos (2nR, n) con
Demostraci´
on: esquema de codificaci´
on aleatoria
1 Codebook C = {xn(w)}w=1,...,nR aleatorio seg´un p (X) p (xn) = n Y i=1 p (xi)Esquiva problema de definir un c´odigo eficiente!!
2 C es dada a transmisor y receptor (el
canal se supone conocido)
3 Se sortea un mensaje W de acuerdo a la
dist. uniforme en J :
Pr {W = w} = 2−nR.
4 La palabra w-´esima del c´odigo, Xn(w),
es enviada por el transmisor (v.a. porque fun. de W ).
5 El receptor recibe Yn de acuerdo a:
Pr {yn|xn(w)} = n Y i=1 p (yi|xi(w)) Xn r r r r r r Yn
Demostraci´
on: esquema de codificaci´
on aleatoria
1 Codebook C = {xn(w)}w=1,...,nR
aleatorio seg´un p (X)
2 C es dada a transmisor y receptor (el
canal se supone conocido)
3 Se sortea un mensaje W de acuerdo a la
dist. uniforme en J :
Pr {W = w} = 2−nR.
4 La palabra w-´esima del c´odigo, Xn(w),
es enviada por el transmisor (v.a. porque fun. de W ).
5 El receptor recibe Yn de acuerdo a:
Pr {yn|xn(w)} = n Y i=1 p (yi|xi(w)) Xn r r r r r r Yn
Demostraci´
on: esquema de codificaci´
on aleatoria
1 Codebook C = {xn(w)}w=1,...,nR
aleatorio seg´un p (X)
2 C es dada a transmisor y receptor (el
canal se supone conocido)
3 Se sortea un mensaje W de acuerdo a la
dist. uniforme en J :
Pr {W = w} = 2−nR.
4 La palabra w-´esima del c´odigo, Xn(w),
es enviada por el transmisor (v.a. porque fun. de W ).
5 El receptor recibe Yn de acuerdo a:
Pr {yn|xn(w)} = n Y i=1 p (yi|xi(w)) Xn r r r r r r s Xn(W ) Yn
Demostraci´
on: esquema de codificaci´
on aleatoria
1 Codebook C = {xn(w)}w=1,...,nR
aleatorio seg´un p (X)
2 C es dada a transmisor y receptor (el
canal se supone conocido)
3 Se sortea un mensaje W de acuerdo a la
dist. uniforme en J :
Pr {W = w} = 2−nR.
4 La palabra w-´esima del c´odigo, Xn(w),
es enviada por el transmisor (v.a. porque fun. de W ).
5 El receptor recibe Yn de acuerdo a:
Pr {yn|xn(w)} = n Y i=1 p (yi|xi(w)) Xn r r r r r r s Xn(W ) -Yn
Demostraci´
on: esquema de codificaci´
on aleatoria
1 Codebook C = {xn(w)}w=1,...,nR
aleatorio seg´un p (X)
2 C es dada a transmisor y receptor (el
canal se supone conocido)
3 Se sortea un mensaje W de acuerdo a la
dist. uniforme en J :
Pr {W = w} = 2−nR.
4 La palabra w-´esima del c´odigo, Xn(w),
es enviada por el transmisor (v.a. porque fun. de W ).
5 El receptor recibe Ynde acuerdo a:
Pr {yn|xn(w)} = n Y i=1 p (yi|xi(w)) Xn r r r r r r s Xn(W ) -Yn s
Demostraci´
on: decodificaci´
on por tipicalidad conjunta
6 El receptor decide que el indice enviado
fue ˆW si se cumple que
(Xn( ˆW ), Yn) es conjuntamente t´ıpico. No hay otro ´ındice k tal que
(Xn(k), Yn) es t´ıpico.
7 Si no existe un ˆW ∈ J que cumpla esto,
se declara ˆW = 0.
8 En todo caso, se da un error de
decodificaci´on cuando W 6= ˆW . Xn r r r r s r r -Yn s
Demostraci´
on: decodificaci´
on por tipicalidad conjunta
6 El receptor decide que el indice enviado
fue ˆW si se cumple que
(Xn( ˆW ), Yn) es conjuntamente t´ıpico.
No hay otro ´ındice k tal que (Xn(k), Yn) es t´ıpico.
7 Si no existe un ˆW ∈ J que cumpla esto,
se declara ˆW = 0.
8 En todo caso, se da un error de
decodificaci´on cuando W 6= ˆW . Xn r r r r s Xn( ˆW ) r r -Yn s
Demostraci´
on: decodificaci´
on por tipicalidad conjunta
6 El receptor decide que el indice enviado
fue ˆW si se cumple que
(Xn( ˆW ), Yn) es conjuntamente t´ıpico. No hay otro ´ındice k tal que
(Xn(k), Yn) es t´ıpico.
7 Si no existe un ˆW ∈ J que cumpla esto,
se declara ˆW = 0.
8 En todo caso, se da un error de
decodificaci´on cuando W 6= ˆW . Xn r r r r s Xn( ˆW ) r r - : s Xn(k) Yn s
Demostraci´
on: decodificaci´
on por tipicalidad conjunta
6 El receptor decide que el indice enviado
fue ˆW si se cumple que
(Xn( ˆW ), Yn) es conjuntamente t´ıpico. No hay otro ´ındice k tal que
(Xn(k), Yn) es t´ıpico.
7 Si no existe un ˆW ∈ J que cumpla esto,
se declara ˆW = 0.
8 En todo caso, se da un error de
decodificaci´on cuando W 6= ˆW . Xn r r r r s r r -Yn s
Demostraci´
on: decodificaci´
on por tipicalidad conjunta
6 El receptor decide que el indice enviado
fue ˆW si se cumple que
(Xn( ˆW ), Yn) es conjuntamente t´ıpico. No hay otro ´ındice k tal que
(Xn(k), Yn) es t´ıpico.
7 Si no existe un ˆW ∈ J que cumpla esto,
se declara ˆW = 0.
8 En todo caso, se da un error de
decodificaci´on cuando W 6= ˆW . Xn r r r r s r r -Yn s
Demostraci´
on: an´
alisis de la prob. de error
Calculamos la probabilidad promedio de error sobre todas las palabras del c´odigo y sobre todos los c´odigos:
Pr {E } = X C P (C)Pe(n)(C) = X C P (C) 1 2nR 2nR X w=1 λw(C) = 1 2nR 2nR X w=1 X C P (C)λw(C),
Demostraci´
on: an´
alisis de la prob. de error (2)
Por la simetr´ıa en la construcci´on del c´odigo, la prob. de error promediada sobre todos los c´odigos no depende del ´ındice particular que fue enviado, por lo que podemos asumir que siempre se env´ıa el mensaje 1. Entonces
Pr {E } = 1 2nR 2nR X w=1 X C P (C)λw(C) = X C P (C)λ1 = P (E |W = 1)
Demostraci´
on: an´
alisis de la prob. de error (3)
Para calcular P (E |W = 1), desglosemos los eventos de transmisi´on en Ti=
n
(Xn(i), Yn) ∈ A(n) o
si Xn(i) es t´ıpica con respecto a la recibida, y Tc, cuando la tipicalidad no se da para ning´un i. De acuerdo al esquema de decodificaci´on,
P (E |W = 1) = P (Tc∪ T2∪ T3∪ . . . ∪ T2nR) ≤ p (Tc) + 2nR X i=2 p (Ti)
Demostraci´
on: an´
alisis de la prob. de error (4)
Tenemos que P (E |W = 1) ≤ p (Tc) + 2nR X i=2 p (Ti)La AEP conjunta implica p (Tc) → 0 o sea que p (Tc) ≤ para n suficientemente grande.
Por la generaci´on del c´odigo, para i 6= 1:
Xn(1) indep. de Xn(i) ⇒ Yn indep. Xn(i)
y por la parte (3) de la AEP conjunta p (Ti) = Pr
n
(Xn(i), Yn) ∈ A(n) o
Demostraci´
on: an´
alisis de la prob. de error (5)
P (E |W = 1) ≤ p (Tc) + 2nR X i=2 p (Ti) ≤ + 2nR X i=2 2−n(I(X;Y )−3) = + (2nR− 1)2−n(I(X;Y )−3) ≤ 2para n suficientemente grande y R < I (X; Y ) − 3.
O sea que se pueden elegir n y tales que la probabilidad de error
Demostraci´
on: refinamiento del c´
odigo
Eligiendo p (X) como la p∗(X) que alcanza la capacidad del canal se tiene R < C.
Sabiendo que el error promediado sobre todos los c´odigos es menor que 2, podemos asegurar que hay un C∗ que cumple Pe(n)(C∗) ≤ 2.
Este c´odigo puede ser hallado por b´usqueda exhaustiva sobre todos los c´odigos posibles (2nR, n).
Demostraci´
on: refinamiento del c´
odigo (2)
Desc´artese la peor mitad de las palabras de C∗. Dado que
2 ≥ 1
2nR
X λi(C∗)
la mitad restantes de las palabras de c´odigo tienen prob. de error λi≤ 4 (sino su suma dar´ıa m´as que 2).
Quedan 2nR−1 palabras, por lo que la tasa baja a R −n1, que tiende a R con n → ∞.
Final
Constru´ımos entonces un c´odigo con tasa R0 = R − 1n con probabilidad de error maximalλ(n)≤ 4. Esto demuestra la alcanzabilidad de cualquier tasa bajo la capacidad del canal C.
Directo: Conclusiones
Codificaci´on aleatoria descrita sirve para demostrar, pero no es pr´actica (Representaci´on compacta, decodificaci´on)
Revelar el mejor c´odigo a receptor y transmisor no requiere transmitir
nada! Ambos pueden buscar el mejor c´odigo dado el canal (de nuevo,
esto no es pr´actico).
Encontrar c´odigos pr´acticos que alcancen la cota de Shannon es un problema que reci´en ahora se est´a logrando resolver (LDPC).
Esquema de la prueba
Empezaremos con el caso m´as simple Pe(n)= 0.
A partir de ese caso, y ayudados por la desigualdad de Fano, se demuestra el rec´ıproco.
Caso simple: probabilidad de error 0
Probabilidad de error 0
Probaremos que Pe(n)= 0 implica R ≤ C.
Se asume que g(Yn) = W , o sea que H(W |Yn) = 0.
Probabilidad de error 0: lema
Lema (Cota de info. mutua)I(Xn; Yn) def.= H(Yn) − H(Yn|Xn)
cadena = H(Yn) − n X i=1 H(Yi|Y1, Y2, . . . , Yi−1, Xn) DMC = H(Yn) − n X i=1 H(Yi|Xi) ≤ n X i=1 H(Yi) − n X i=1 H(Yi|Xi) = n X i=1 I(Yi; Xi)
Probabilidad de error 0
Demostraci´on Desarrollando nR = H(W ) = H(W |Yn) + I(W ; Yn) = I(W ; Yn) (a) ≤ I(Xn; Yn) (b) ≤ n X i=1 I(Xi; Yi) (c) ≤ nCDesigualdad de Fano para codificaci´
on de canal
Lema (Desigualdad de Fano)
Para un canal discreto sin memoria y un mensaje W distribuido
uniformemente sobre 2nR se tiene:
HW | ˆW≤ 1 + Pe(n)nR
Demostraci´on Sea J =1, 2, . . . , 2nR el alfabeto de los mensajes W . La forma general de la desigualdad de Fano establece que
H( ˆW |W ) ≤ 1 + P r{ ˆW 6= W } log |J |
Sustituyendo: log |J | = log 2nR = nR, P r{ ˆW 6= W } = Pe(n) (por def.) se
Rec´ıproco: demostraci´
on
Teorema (Rec´ıproco del teorema de codificaci´on de canal.)
Toda secuencia de c´odigos (2nR, n) con λ(n)→ 0 debe cumplir R ≤ C.
Demostraci´on nR = H(W ) = H(W |Yn) + I(W ; Yn) W →Xn→Y ≤ H(W |Yn) + I(Xn(W ); Yn) Fano ≤ 1 + Pe(n)nR + I(Xn(W ); Yn) ≤ 1 + Pe(n)nR + nC R ≤ 1/n + Pe(n)R + C
Y cuando n → ∞ los dos primeros t´erminos a la derecha se desvanecen,
probando que R ≤ C.
Rec´ıproco: conclusiones
Error para tasas arriba de C:
Reescribiendo la pen´ultima ecuaci´on de la demo, Pe(n)≥ 1 − C
R −
1 nR
se muestra que Pe(n) se aleja de 0 para n suficientemente grande.
El rec´ıproco anterior es denominado el “rec´ıproco d´ebil”, Se puede demostrar un “rec´ıproco fuerte”: λ(n)→ 1
C´
odigos de canal
Shannon promete c´odigos buenos, pero no nos dice como hallarlos
Desde la aparici´on del trabajo de Shannon se est´an buscando c´odigos buenos
Adem´as de baja probabilidad de error, los c´odigos deben ser simples de implementar
En esta secci´on veremos algunos esquemas de codificaci´on de canal muy sencillos
Chivo: TECACE
El ITI dicta un curso espec´ıfico para este tema en el segundo semestre, “TECACE: Teor´ıa de C´odigos Algebraicos para la Correcci´on de Errores”
C´
odigos lineales
Notaci´on
Denotamos Fq al cuerpo finito de q elementos (debe ser q = pm con
p primo)
Ejemplo: F2 es el conjunto {0, 1} con la suma y el producto m´odulo 2
(XOR y AND)
Definici´on
Decimos que un (M, n) c´odigo C es lineal si es un subespacio de Fn sobre F , con |C| = M
C´
odigos lineales
Definici´on
Decimos que una matriz G es generadora de C sobre F cuando sus filas forman una base de C (la matriz generadora no es ´unica) Para codificar una palabra u entonces, simplemente se multiplica por G:
u 7−→ uG La matriz G tiene dimensiones k × n
Ejemplo (Paridad)
El c´odigo de paridad (4, 3) es el generado por la siguiente matriz G =
1 0 1
0 1 1
C´
odigos lineales
Definici´on
Decimos que una matriz H es de chequeo de paridad de un c´odigo C
sobre F cuando:
c ∈ C =⇒ HcT = 0
El c´odigo C es entonces el n´ucleo de H
Ejemplo (Paridad)
La matriz de chequeo de paridad para el c´odigo de paridad (4, 3) es:
C´
odigos lineales
Ejemplo (C´odigo de Hamming)
El c´odigo de Hamming es el definido por la siguiente matriz de chequeo de paridad: H = 0 0 0 1 1 1 1 0 1 1 0 0 1 1 1 0 1 0 1 0 1
O sea, las palabras de c´odigo son aquellas del n´ucleo de H. La dimensi´on
de C es k = 4, entonces hay M = 24 palabras:
0000000 0100101 1000011 1100110
0001111 0101010 1001100 1101001
0010110 0110011 1010101 1110000
C´
odigos lineales
Ejemplo (C´odigo de Hamming)
La dimensi´on de C es k = 4
La cantidad de mensajes es M = 24 = 16
La tasa del c´odigo es R = log Mn = kn = 47 La distancia del c´odigo es d = 3
La siguiente matriz genera C:
G = 1 1 1 1 1 1 1 0 0 0 1 1 1 1 0 1 1 0 0 1 1 1 0 1 0 1 0 1
C´
odigos lineales
Ejemplo (Como decodificamos?)
Supongamos que se envi´o una palabra c, pero se recibi´o una palabra r que difiere en un bit con c.
Esto es: r = c + ei, donde ei tiene un 1 en la posici´on i y ceros en el resto.
Hr = H(c + ei) = Hc + Hei = Hei
que es la i−´esima columna de H. Por lo tanto conocemos i, y podemos
recuperar la palabra enviada c (que pasa si ocurren 2 errores?)
M´
as c´
odigos
Otros c´odigos lineales
Con ideas similares, pero trabajando en cuerpos finitos con polinomios se logran c´odigos mucho mejores:
Reed-Solomon
BCH (Bose, Ray-Chaudhuri, Hocquenghem)
C´odigos buenos
C´odigos modernos que se acercan a la cota de Shannon:
LDPC (Low Density Parity-Check Codes) Turbo-Codes
Chivo: TECACE
Si les interesa esto, no se pierdan el curso: “TECACE: Teor´ıa de C´odigos Algebraicos para la Correcci´on de Errores”
Aplicaciones
Algunas aplicaciones
LDPC
IEEE 802.16
DVB-S2 (Digital Video Broadcasting - Satellite - Second Generation)
Turbo-Codes
3G
IEEE 802.16
NASA (Mars Reconnaissance Orbiter)
Reed-Solomon
CD DVD DSL
Canales con realimentaci´
on
W mensaje - Codif. ? Xi(W, Y1, Yi−1) - Canal p (y|x) Yi - Decod. ˆ W -6 qCada s´ımbolo recibido es devuelto inmediatamente y sin ruido al
transmisor.
Puede este esquema mejorar la capacidad?
Canales con realimentaci´
on
W mensaje - Codif. ? Xi(W, Y1, Yi−1) - Canal p (y|x) Yi - Decod. ˆ W -6 qCada s´ımbolo recibido es devuelto inmediatamente y sin ruido al
transmisor.
Puede este esquema mejorar la capacidad? La respuesta esno!
Capacidad de C
F BTeorema (Capacidad del canal con realimentaci´on)
CF B = C = m´ax
p(X)I(X; Y )
Demostraci´on (1):
Como C sin realim. es caso particular de CF B, toda tasa alcanzable
por C es alcanzable por CF B, entonces
CF B ≥ C
Probar que CF B ≤ C es parecido a la demo del rec´ıproco del segundo
teorema de Shannon,
pero no vale el lema demostrado anteriormente para I(Xn; Yn)
El truco es usar una variante del lema usando la relaci´on de X con Y y W .
Capacidad de C
F B: Demostraci´
on (2)
nR = H(W ) = H(W |Yn) + I(W ; Yn)
F ano
≤ 1 + Pe(n)nR + I(W ; Yn) Ahora hay que acotar I(W ; Yn):
I(W ; Yn) = H(Yn) − H(Yn|W )
cadena = H(Yn) − n X i=1 H(Yi|Y1, . . . , Yi−1, W )
Capacidad de C
F B: demostraci´
on (3)
cadena = H(Yn) − n X i=1 H(Yi|Y1, . . . , Yi−1, W ) (a) = H(Yn) − n X i=1 H(Yi|Y1, . . . , Yi−1, W, Xi) (b) = H(Yn) − n X i=1 H(Yi|Xi)(a) X es fun. de W e Yi−1.
Capacidad de C
F B: Demostraci´
on (4)
I(W ; Yn) = H(Yn) − n X i=1 H(Yi|Xi) ≤ n X i=1 H(Yi) − n X i=1 H(Yi|Xi) = n X i=1 I(Yi|Xi) ≤ nCCombinando esta cota con la desigualdad de Fano se obtiene:
nR ≤ 1 + Pe(n)nR + nC
Dividiendo por n y con n → ∞ se obtiene R ≤ C, y luego CF B ≤ C.
Codificaci´
on conjunta fuente-canal: uniendo teoremas
Vimos que R > H (primer teorema de Shannon)
Tambien vimos que R < C (segundo teorema de Shannon) Ser´a cierto que H < C es condici´on necesaria y suficiente para transmitir los datos de una fuente por un canal con capacidad C?
Separar o no separar?
Supongamos que queremos transmitir audio por un canal.
Podr´ıamos dise˜nar un c´odigo que mapee directamente las muestras de audio a la entrada del canal.
Tambi´en podr´ıamos comprimir el audio al m´aximo, y luego crear un c´odigo adecuado al canal.
Separar o no separar? Lo mismo da!
En esta secci´on probaremos que los esquemassonequivalentes.
Esto simplifica much´ısimo el dise˜no de sistemas de transmisi´on! El dise˜no en capas de redes como Internet es un ejemplo. Puede no cumplirse en algunos casos de sistemas
multitransmisor/multireceptor.
Tambi´en puede confundir: en algunos casos, la redundancia de la fuente puede ayudar a recuperar errores
el texto escrito puede recuperarse incluso habi´endose perdido hasta la mitad de las letras.
el o´ıdo tiene una capacidad inusitada para recuperar un mensaje hablado frente a un SNR muy bajo.
Codificaci´
on conjunta: formalizaci´
on del problema
Vn fuente - Codif. Xn - Canal p (y|x) Yn - Decod. ˆ Vn-Fuente V que cumple AEP. Ejemplos:
Markov irreducible y estacionaria. Erg´odica estacionaria.
Secuencia a enviar Vn= V
1, . . . , Vn, Vi ∈ V
Codifica como Xn(Vn)
Decodificada como ˆVn= g(Yn) Error si ˆVn6= Vn. Prob de error:
Teorema (Codificaci´on conjunta fuente-canal)
V1, V2, . . . , Vn generado por fuente que cumple la AEP :
Existe un c´odigo que mapea fuente a canal con Pe(n)→ 0 si
H (V ) < C.
Contrariamente, si H (V ) > C, Pe(n) se aparta de 0 y no es posible
enviar los datos por el canal con probabilidad de error arbitrariamente peque˜na.
Codificaci´
on conjunta: directo
Como fuente cumple AEP, existe A(n) que contiene la mayor parte de
la probabilidad. |A(n) | ≤ 2n(H+).
Codifico s´olo secuencias t´ıpicas con n(H + ) bits. Las no t´ıpicas producen error.
Esto contribuye a lo sumo al error.
Se indexa A(n) . Se env´ıa indice de la secuencia. Se recibe con prob.
de error ≤ si H(V ) + = R < C. Formalizando:
Pe(n)= P (Vn∈ (A(n) )c) + p (g(Yn) 6= Yn) ≤ + = 2 O sea que para n suf. grande puede reconstruirse la secuencia si H (V ) < C.
Codificaci´
on conjunta: rec´ıproco
Queremos ver que Pe(n)→ 0 implica H(V ) ≤ C para toda secuencia de
c´odigos conjuntos:
Xn(Vn) : Vn→ Xn g(Yn) : Yn→ Vn Para este c´odigo se cumple
H(V ) (a) ≤ H(V1, V2, . . . , Vn) n = H(V n) n = 1 nH(V n| ˆVn) + 1 nI(V n; ˆVn)
Codificaci´
on conjunta: rec´ıproco (2)
Tenemos que H(V ) ≤ 1 nH(V n| ˆVn) + 1 nI(V n; ˆVn).Aplicando la desigualdad de Fano
H(Vn| ˆVn) ≤ 1 + Pe(n)log |Vn| = 1 + P(n) e n log |V| H(V ) ≤ 1 n 1 + Pe(n)n log |V|+ 1 nI(V n; ˆVn) Vn→Xn→Yn→ ˆVn ≤ 1 n 1 + Pe(n)n log |V|+ 1 nI(X n; Yn) DM C ≤ 1 n + P (n) e log |V| + C
Codificaci´
on conjunta: rec´ıproco (3)
H(V ) ≤ 1
n+ P
(n)
e log |V| + C
cuando n → ∞ se tiene Pe(n)→ 0 por lo que
H(V ) ≤ C
Codificaci´
on conjunta: conclusiones
Se demuestra entonces que puede enviarse la info. generada por una fuente estacionaria y erg´odica sii su tasa de entrop´ıa es menor que la capacidad del canal.
Con este resultado se unen los dos teoremas de Shannon. Esto muestra que no se pierde nada al separar el proceso de compresi´on y la codificaci´on de canal