In [None]:
import math as m
import sys
import numpy as np
import scipy as sp
import scipy.io.wavfile as wavfile
import scipy.fftpack as spfft
from imageio import imread
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.animation as anim
from mpl_toolkits.mplot3d import Axes3D
import IPython
import IPython.display as ipd
import ipywidgets as ipw

# Figura 3.3: Exemplo de compressão 1
## Gráfico da função $f(t)=(t-t^2)^2$ e sua DFT

In [None]:
# Função auxiliar para plotar uma função f(t) e seu espectro de energia, centralizado no 0
def plot_func_fft(t,f):
 N = len(t)
 plt.plot(t,f)
 plt.show()
 X = np.fft.fft(f)
 X_power = 1/N * abs(X) ** 2
 plt.plot(np.arange(N) - N//2, np.roll(X_power, N//2))
 plt.show()
 return X

In [None]:
t = np.linspace(0, 1, 256)
f = (t - t**2)**2
X = plot_func_fft(t,f)

## Tabela 3.1: eficiência da compressão e distorção

In [None]:
# várias funções auxiliares...

def distortion(f,y):
 return np.linalg.norm(f-y) **2 / np.linalg.norm(f) **2

def efficiency(X,c):
 return sum(above(X,c)) / len(above(X,c))

def above(X,c):
 M = max(abs(X))
 return abs(X) > c * M

def thresholding(f, X, C):
 P = []
 D = []
 for c in C:
 Y = X * above(X,c)
 y = np.real(np.fft.ifft(Y))
 P.append(efficiency( X, c ))
 D.append(distortion( f, y ))
 return (P, D)

def plot_threshold(C,P,D):
 count = np.arange( len(C) )
 fig, ax = plt.subplots()
 ax.plot(count, C, label='c')
 ax.plot(count, P, label='P(c)')
 ax.plot(count, D, label='D(c)')
 ax.legend(loc='upper center')
 plt.show()

In [None]:
# C representa o conjunto de limiares para eliminação de coeficientes "pequenos" do espectro
C = [0.5, 0.1, 0.03, 0.02, 0.01, 0.005]
(P, D) = thresholding(f, X, C)
print("c\tP(c)\t\tD(c)\n--------------------------------")
for i in range( len(C) ):
 print("%.3f\t%f\t%f" % (C[i], P[i], D[i]))

 ## Alternativa à tabela 3.1: expressa c, P(c) e D(c) em forma de gráfico

In [None]:
C = 10** np.linspace(-0.3,-8, 50)
(P, D) = thresholding(f, X, C)
plot_threshold(C,P,D)

# Figura 3.4: Exemplo de compressão 2
## Função degrau e sua DFT

In [None]:
N = 256
t = np.linspace(0, 1, N)
f = np.zeros(N)
f[0 : int(np.floor(0.2 * N+1))] += 1

X = plot_func_fft(t,f)

## Tabela 3.2: compressão e distorção para o exemplo 2

In [None]:
C = [0.5, 0.1, 0.03, 0.02, 0.01, 0.005]
(P, D) = thresholding(f, X, C)
print("c\tP(c)\t\tD(c)\n--------------------------------")
for i in range( len(C) ):
 print("%.3f\t%f\t%f" % (C[i], P[i], D[i]))

## Compressão e distorção em forma de gráfico

In [None]:
C = 10** np.linspace(-0.3,-8, 50)
(P, D) = thresholding(f, X, C)
plot_threshold(C,P,D)

# Figura 3.5: Reconstrução da função usando compressão de 90%
#### o valor do limiar abaixo foi escolhido "a olho" para produzir o valor de P(c) aproximadamente 0.1 (10% do tamanho do arquivo original)

In [None]:
c = 7.5e-2
Y = X * above(X,c)
y = np.real(np.fft.ifft(Y))
print("P(%f) = %f\n" % (c, efficiency(X,c)))
print("D(%g) = %g\n" % (c, distortion(f,y)))

plt.plot(t,f,t,y);
plt.show()

# Exemplo de compressão 3: função identidade $(\;f(t)=t\;)$ e sua DFT

In [None]:
N = 256;
t = np.linspace(0, 1, N)
f = t

X = plot_func_fft(t,f)

## Tabela 3.3: compressão e distorção para $\ f(t)=t$

In [None]:
C = [0.5, 0.1, 0.03, 0.02, 0.01, 0.005]
(P, D) = thresholding(f, X, C)
print("c\tP(c)\t\tD(c)\n--------------------------------")
for i in range( len(C) ):
 print("%.3f\t%f\t%f" % (C[i], P[i], D[i]))

## Tabela 3.3 na forma de gráfico

In [None]:
C = 10 ** np.linspace(-0.3, -8, 50);
(P, D) = thresholding(f, X, C)
plot_threshold(C,P,D)

# Guarda os vetores P e D para comparar
# com DCT (Figura 3.10)
PFFT=P
DFFT=D

# Figura 3.6: Reconstrução da função usando compressão de 90%
#### o valor do limiar abaixo foi escolhido "a olho" para produzir o valor de P(c) aproximadamente 0.1 (10% do tamanho do arquivo original)

In [None]:
c = 2.5e-2
Y = X * above(X,c)
y = np.real(np.fft.ifft(Y))
print("P(%f) = %f\n" % (c, efficiency(X,c)))
print("D(%g) = %g\n" % (c, distortion(f,y)))

plt.plot(t,f,t,y);
plt.show()

# Figura 3.7: Usa o espectro original para sintetizar 3 períodos da forma de onda
#### basta criar um vetor 3 vezes maior e espaçar os coeficientes do espectro original de 3 em 3, o que corresponde a multiplicar a frequência fundamental por 3.

In [None]:
Y3 = np.zeros(3 * N, dtype=complex)
Y3[0 : 3*N : 3 ] = Y
y3 = np.real(np.fft.ifft(Y3))

plt.plot(np.linspace(-1, 2, len(y3)), y3)
plt.show()

# Motivação para DCT: espelhamento da função original
#### essa operação elimina a descontinuidade na fronteira da janela.

In [None]:
tt = np.linspace(0, 2 , 2*N)
ff = np.zeros(2*N)
ff[0:N] = f
ff[N:] = np.flip(f,0)

plt.plot(tt,ff)
plt.show()
XX = np.fft.fft(ff);

M=max(abs(XX));

## Reconstrução de $\;f(t)=t\;$ (espelhada) usando o mesmo limiar c anterior
#### porém com muito mais compressão e muito mais qualidade (menor distorção)

In [None]:
c = 2.5e-2
YY = XX * above(XX,c)
yy = np.real(np.fft.ifft(YY))
print("P(%f) = %f" % (c , efficiency(XX, c) ))
print("D(%f) = %f\n" % (c, distortion(ff, yy)))

plt.plot(tt,ff,tt,yy)
plt.show()

## Reconstrução de $\;f(t)=t\;$ (espelhada) usando um limiar c 100x menor

In [None]:
c = 2.5e-4
YY = XX * above(XX,c)
yy = np.real(np.fft.ifft(YY))
print("P(%f) = %f" % (c, efficiency(XX, c)))
print("D(%f) = %f" % (c, distortion(ff, yy)))

plt.plot(tt,ff,tt,yy)
plt.show()

# Figura 3.8: Funções básicas usadas na DCT

In [None]:
N=256;
t = np.arange(N)

for k in range(10):
 #rgbcolor = int8([bitget(k+1,1) bitget(k+1,2) bitget(k+1,3)]);
 plt.plot(t, m.sqrt(2/N)*np.cos(m.pi*k*t/N))

plt.show()

# Repetição dos exemplos anteriores usando DCT ao invés de DFT

## Exemplo 1: Função $f(t) = (t-t^2)^2$

In [None]:
# função auxiliar
def plot_func_dct(t,f):
 N = len(t)
 X = spfft.dct(f, norm='ortho')

 plt.plot(t,f)
 plt.show()
 plt.plot(np.arange(N),abs(X)**2/N)
 plt.show()
 return X

In [None]:
t = np.linspace(0, 1, 256)
f = (t - t**2) **2
X = plot_func_dct(t,f)

# Gráfico correspondente à Tabela 3.4: compressão e distorção para $f(t)=(t-t^2)^2$

In [None]:
# função auxiliar
def threshold_dct(f, X, C):
 M = max(abs(X))
 L = len(C)
 P=[]
 D=[]
 for c in C:
 Y=X * (abs(X) > c*M)
 y = np.real(spfft.idct(Y, norm='ortho'))
 P.append(efficiency(X, c))
 D.append( distortion(f,y) )
 return P, D

In [None]:
C = 10**np.linspace(-0.3, -8, 50)
(P, D) = threshold_dct(f, X, C)
plot_threshold(C,P,D)

# Exemplo 2: Função degrau

In [None]:
N = 256
t = np.linspace(0, 1, N);
f = np.zeros(N)
f[0 : int(np.floor(0.2 * N+1))] += 1

X = plot_func_dct(t,f)

## Gráfico correspondente à Tabela 3.5 para a função degrau

In [None]:
C = 10 ** np.linspace(-0.3, -8, 50)
(P, D) = threshold_dct(f, X, C)
plot_threshold(C,P,D)

## Reconstrução da função degrau usando DCT com compressão de 90%
#### o valor do limiar abaixo foi escolhido "a olho" para produzir o valor de P(c) aproximadamente 0.1 (10% do tamanho do arquivo original)

In [None]:
c = 4.1e-2
Y = X * above(X,c)
y = np.real(spfft.idct(Y, norm='ortho'))
print("P(%f) = %f" % ( c, efficiency(X,c)))
print("D(%f) = %f" % ( c, distortion(f,y)))

plt.plot(t,f,t,y)
plt.show()

# Exemplo 3: Função $\ f(t) = t$

In [None]:
N=256;
t = np.linspace(0,1,N);
f = t;

X = plot_func_dct(t,f)

# Gráfico correspondente à Tabela 3.6 para $f(t)=t$

In [None]:
C = 10 ** np.linspace(-0.3,-8,50)
(P, D) = threshold_dct(f, X, C)
plot_threshold(C,P,D)
PDCT = P
DDCT = D

## Reconstrução da função $\ f(t)=t$ usando DCT com compressão de 90%
#### o valor do limiar abaixo foi escolhido "a olho" para produzir o valor de P(c) aproximadamente 0.1 (10% do tamanho do arquivo original)

In [None]:
c = 2e-4
Y = X * above(X,c)
y = np.real(spfft.idct(Y, norm='ortho'))
print("P(%f) = %f\n" % (c, efficiency(X,c)))
print("D(%g) = %g\n" % (c, distortion(f,y)))

plt.plot(t,f,t,y);
plt.show()

# Figura 3.10: $\log(D(c))$ versus $P(c)$ para a compressão da função $\ f(t)=t$
# usando FFT (linha superior) e DCT (linha inferior)

In [None]:
X = np.fft.fft(f)
C = 10 ** np.linspace(-0.3, -8, 50)
(P, D) = thresholding(f, X, C)

PFFT=P
DFFT=D

plt.plot(PFFT[1:14], np.log10(DFFT[1:14]))
plt.plot(PDCT[1:42], np.log10(DDCT[1:42]))

plt.title("Compressao usando FFT e DCT")
plt.xlabel("P(c)")
plt.ylabel("log10(D(c))")
plt.show()

# Figura 3.11: reflexões em 2D (elimina descontinuidades de borda)

In [None]:
# função auxiliar
def rgb2gray(rgb):
 fil = [0.299, 0.587, 0.144]
 return np.dot(rgb, fil)

In [None]:
M = rgb2gray(imread("double_ferris.jpg"))

MM_upper = np.hstack((M, np.flip(M,1)))
MM = np.vstack((MM_upper, np.flip(MM_upper,0)))

plt.imshow(MM, cmap='gray')
plt.show()

# Transformada DCT em blocos

# Figura 3.12: Imagem original, DCT e DCT em blocos de 8x8 pixels

In [None]:
# Recorta a figura um pouco para obter divisibilidade por unidades de 8x8 pixels
My, Mx = M.shape
divsize = 8
new_My = My - My % divsize
new_Mx = Mx - Mx % divsize
M=M[:new_My, :new_Mx]

My,Mx = M.shape
plt.imshow(M, cmap='gray')
plt.show()

In [None]:
# calcula a DCT 2D fazendo a DCT 1D das linhas e das colunas
def dct_2d(m):
 D1 = spfft.dct(m.T, norm='ortho')
 D2 = spfft.dct(D1.T, norm='ortho')
 return D2

In [None]:
N = dct_2d(M)

Nlog = np.log(1 + abs(N))

plt.imshow(Nlog / np.amax(Nlog), cmap='gray')
plt.show()

In [None]:
MBAK = M
NBAK = N

Mdiv = np.empty(M.shape)
Ndiv = np.empty(N.shape)

for j in range(0, My, divsize):
 for k in range(0, Mx, divsize):
 Mdiv = MBAK[j : j+divsize, k : k+divsize]
 Ndiv = dct_2d(Mdiv)
 NBAK[j : j+divsize, k : k+divsize] = Ndiv

NBAKlog = np.log(1 + abs(NBAK))

plt.imshow(NBAKlog / np.amax(Nlog), cmap='gray')
plt.show()

## Figura adicional: detalhe da roda gigante superior na DCT em blocos de 8x8 pixels

In [None]:
plt.imshow(np.log(1+abs(NBAK[0:400,300:600]))/np.amax(Nlog), cmap='gray')
plt.show()

# Figura 3.13A: DCT em blocos reagrupados por frequência

In [None]:
# Reordena a DCT em blocos para juntar os coeficientes correspondentes a uma mesma frequência (j,k)
NOVO = NBAK
Ny,Nx = NOVO.shape
by = Ny // divsize
bx = Nx // divsize

for j in range(divsize):
 for k in range(divsize):
 NOVO[ j*by : (j+1)*by , k*bx : (k+1)*bx ] = NBAK[j:Ny:divsize, k:Nx:divsize]

NOVOlog = np.log(1 + abs(NOVO))

plt.imshow(NOVOlog / np.amax(Nlog), cmap='gray')
plt.show()

## Figura 3.13B: Coeficientes DC (de todos os blocos da imagem)

In [None]:
# Detalhe da parte correspondente aos coeficientes DC de cada bloco
plt.imshow(np.log(1 + abs( NOVO[0:Ny//divsize, 0:Nx//divsize] )) / np.amax(Nlog), cmap='gray')
plt.show()

# Exemplo 3.1: Quantização JPEG em blocos 8x8

## Matriz de quantização usada em cada bloco da DCT durante a compressão JPG

In [None]:
E = np.array( [ [ 16, 11, 10, 16, 24, 40, 51, 61 ],
 [ 12, 12, 14, 19, 26, 58, 60, 55 ],
 [ 14, 13, 16, 24, 40, 57, 69, 56 ],
 [ 14, 17, 22, 29, 51, 87, 80, 62 ],
 [ 18, 22, 37, 56, 68, 109, 103, 77 ],
 [ 24, 35, 55, 64, 81, 104, 113, 92 ],
 [ 49, 64, 78, 87, 103, 121, 120, 101 ],
 [ 72, 92, 95, 98, 112, 100, 103, 99 ] ] )

plt.imshow(E / np.amax(E), cmap='gray', interpolation='None')
plt.show()

# Figura 3.14: Bloco B de exemplo para quantização

In [None]:
B = np.array( 
 [ [ 47, 32, 75, 148, 192, 215, 216, 207 ],
 [ 36, 82, 161, 196, 205, 207, 190, 140 ],
 [ 86, 154, 200, 203, 213, 181, 143, 82 ],
 [ 154, 202, 209, 203, 159, 145, 147, 127 ],
 [ 184, 207, 199, 147, 134, 127, 137, 138 ],
 [ 205, 203, 125, 72, 123, 129, 150, 115 ],
 [ 209, 167, 126, 107, 111, 94, 105, 107 ],
 [ 191, 129, 126, 136, 106, 54, 99, 165 ] ] )

plt.imshow(B / np.amax(B), cmap='gray', interpolation='None')
plt.show()

## $\hat{B}=\mbox{DCT}(B)$ 
#### usando valores centralizados (entre -127 e +128)

In [None]:
Bhat = dct_2d(B-127)
print(np.round(Bhat,0))

## Bloco com coeficientes DCT quantizados $q(\hat{B})$

In [None]:
Bquant = np.round(Bhat/(E))
print(Bquant)

## DCT $\tilde{B}$ reconstruída a partir dos coeficientes quantizados

In [None]:
Btil = Bquant*(E);
print(Btil)

In [None]:
# calcula a IDCT 2D fazendo a IDCT 1D das linhas e das colunas
def idct_2d(m):
 D1 = spfft.idct(m.T, norm='ortho')
 D2 = spfft.idct(D1.T, norm='ortho')
 return D2

## Bloco JPEG reconstruído a partir da DCT quantizada

In [None]:
Bn = np.round(idct_2d(Btil)+127)
print(Bn)

## Compara bloco $B$ original e o bloco reconstruído $\mbox{IDCT}(\tilde{B})$

In [None]:
plt.imshow(B / np.amax(B), cmap='gray', interpolation='None')
plt.show()
plt.imshow(Bn / np.amax(Bn), cmap='gray', interpolation='None')
plt.show()
# Calcula a distorção da imagem codificada em relação à original
print("Distorção = {0}%\n".format(100*np.linalg.norm(B-Bn)/np.linalg.norm(B)))
# Estimador da compressão a partir do número de zeros da DCT
print("Compressão = {0}%\n".format(100*np.sum(np.sum(Bquant==0))/64))

In [None]:
# Os valores de R abaixo correspondem ao fator de escala associado
# à matriz de quantização. Quanto maior este fator, maior a distância
# entre os níveis de quantização, e consequentemente serão maiores
# tanto a compressão quanto a perda (ou ruído de quantização).
R = [ 0.1, 0.5, 1, 2 ]
for k in range(4):
 # Calcula valores quantizados
 Bquant = np.round(Bhat/(R[k]*E))
 # Retorna à escala original (este é o passo da de(s)quantização)
 Btil = Bquant*(R[k]*E)
 # Aplica a DCT, voltando os valores à faixa 0...255
 Bn = np.round(idct_2d(Btil)+127)
 plt.imshow(Bn/np.amax(Bn), cmap='gray', interpolation='None')
 plt.show()
 # Calcula a distorção da imagem codificada em relação à original
 print("Distorção(r={0}) = {1}%\n".format(R[k],100*np.linalg.norm(B-Bn)/np.linalg.norm(B)))
 # Estimador da compressão a partir do número de zeros da DCT
 print("Compressão(r={0}) = {1}%\n".format(R[k],100*np.sum(np.sum(Bquant==0))/64))

## Funções auxiliares: DCT e IDCT em blocos 8x8

In [None]:
# Usage: Y = blkdct2(y, m, n).
# Block DCT routine on array y, using m by n blocks. m must divide
# number of rows in y, n divide number of colums. Transform returned in 
# Y.

def blkdct2(y, m, n):
 my,ny = y.shape
 Y = 0*y
 for j in range(0, my, m):
 for k in range(0, ny, n):
 Z = y[j : j+m, k : k+n]
 Y[j : j+m, k : k+n] = dct_2d(Z)
 return Y

def blkidct2(y, m, n):
 my,ny = y.shape
 Y = 0*y
 for j in range(0, my, m):
 for k in range(0, ny, n):
 Z = y[j : j+m, k : k+n]
 Y[j : j+m, k : k+n] = idct_2d(Z)
 return Y

# Exemplo da Figura 3.16, usando a imagem da roda gigante

In [None]:
My, Mx = M.shape
divsize = 8
new_My = My - My % divsize
new_Mx = Mx - Mx % divsize
M=M[:new_My, :new_Mx]

My,Mx = M.shape
plt.imshow(M, cmap='gray')
plt.show()

## DCT em blocos 8x8

In [None]:
# Calcula a DCT em blocos de 8x8, e mostra o resultado
N=blkdct2(M,8,8)

Nlog = np.log(1 + abs(N))
plt.imshow(Nlog / np.amax(Nlog), cmap='gray')
plt.show()

## Codifica cada bloco 8x8 usando o esquema de quantização/dequantização JPEG

In [None]:
Nquant = N.copy()
Ntil = N.copy()
# Parâmetro de granularidade da quantização
# (faz pouca diferença nesse exemplo; experimente R=0.1)
R=1
# Processa todos os blocos
for j in range(0, My, divsize):
 for k in range(0, Mx, divsize):
 Nquant[j:j+divsize,k:k+divsize] = np.round(N[j:j+divsize,k:k+divsize]/(R*E))
 Ntil[j:j+divsize,k:k+divsize] = (R*E)*Nquant[j:j+divsize,k:k+divsize]

## Faz a iDCT em blocos, restaurando a imagem original

In [None]:
Mn = np.round(blkidct2(Ntil,8,8))
plt.imshow(Mn, cmap='gray')
plt.show()

## Mede níveis de distorção e compressão (estimada)

In [None]:
print("Distorção(r={0}) = {1}%\n".format(R,100*np.linalg.norm(M-Mn)/np.linalg.norm(M)))
print("Compressão(r={0}) = {1}%\n".format(R,100*np.sum(Nquant==0)/(My*Mx)))

## Mostra imagem "diferença" e imagem diferença normalizada

In [None]:
plt.imshow(abs(M-Mn), cmap='gray')
plt.show()

plt.imshow((abs(M-Mn)/np.amax(M-Mn)), cmap='gray')
plt.show()

# Exemplo 3.2 e figura 3.17
## Reconstrução progressiva usando coeficientes DCT até j+k=l (para l=0...14)

In [None]:
Nl=0*Ntil
for l in range(15):
 for j in range(l+1):
 k = l-j
 Nl[j:My:divsize,k:Mx:divsize] = Ntil[j:My:divsize,k:Mx:divsize]
 Ml = np.round(blkidct2(Nl,divsize,divsize))
 plt.imshow(Ml, cmap='gray')
 plt.title("Reconstrução progressiva até j+k={0}, distorção introduzida={1}%".format(l,100*np.linalg.norm(Mn-Ml)/np.linalg.norm(M)))
 plt.show()