Zmodyfikowana dyskretna transformacja kosinusowa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania

Zmodyfikowana dyskretna transformacja cosinusowa (MDCT, ang. Modified Discrete Cosine Transform) – blokowa transformacja danych oparta na przekształceniu kosinusowym typu DCT-IV, należąca do rodziny transformacji zakładkowych. Ta ostatnia cecha oznacza, że kolejne bloki próbek sygnału poddawane przekształceniu pobierane są nadmiarowo, z zakładką (część próbek jest wspólna), co pozwala wyeliminować tzw. efekt blokowy występujący przy zastosowaniu tej transformacji w kompresji sygnału.

Definicja[edytuj | edytuj kod]

Przekształcenie MDCT odwzorowuje każdy blok rzeczywistych próbek x_n o długości N według wzoru:

X_k = \sum_{n=0}^{2N-1} w_n  x_n \cos \left[\frac{\pi}{N} \left(n+\frac{1}{2}+\frac{N}{2}\right) \left(k+\frac{1}{2}\right) \right] \quad \textrm{dla} \quad k=0, 2, \ldots, N-1

Oryginalny sygnał można odtworzyć z sekwencji współczynników używając przekształcenia odwrotnego:

y_n = \frac{1}{N} \sum_{k=0}^{N-1} w_n  X_k \cos \left[\frac{\pi}{N} \left(n+\frac{1}{2}+\frac{N}{2}\right) \left(k+\frac{1}{2}\right) \right] \quad \textrm{dla} \quad n=0, 2, \ldots, 2N-1

Sekwencje y_n uzyskane w kolejnych blokach należy następnie zsumować z zakładką 50% aby uzyskać zrekonstruowany sygnał x_n.

Należy zauważyć, że liczba współczynników transformaty w pojedynczym bloku jest dwukrotnie mniejsza od liczby próbek sygnału w tym bloku, co pozornie oznaczałoby nieodwracalność przekształcenia. W istocie, odrzucenie połowy współczynników powoduje zjawisko aliasingu w dziedzinie czasu: w zrekonstruowanym pojedynczym bloku y_n próbki z połowy poprzedniego i połowy następnego bloku są "zawinięte" do środka bloku. Właściwości symetrii przekształcenia DCT-IV powodują, że te składowe aliasowe w sąsiednich blokach mają przeciwny znak i w końcowym procesie składania sygnału ulegają kompensacji. Jest to tak zwana zasada TDAC (ang. Time-Domain Aliasing Cancellation).

W powyższych wzorach w_n oznacza funkcję okna, które pełni rolę ograniczającą skoki wartości sygnału na granicach bloku poprzez łagodne zmniejszenie ich amplitudy do zera. Aby TDAC działało poprawnie, funkcja okna powinna spełniać warunek:

w_n^2 + w_{n + N}^2 = 1

W praktyce stosowane jest kilka popularnych funkcji okien, na przykład

w_n = \sin \left[\frac{\pi}{2N} \left(n+\frac{1}{2}\right) \right] – okno wykorzystywane w technice kompresji MP3
w_n = \sin \left( \frac{\pi}{2} \sin^2 \left[\frac{\pi}{2N} \left(n+\frac{1}{2}\right) \right] \right) – okno wykorzystywane w technice Vorbis

Interpretacja[edytuj | edytuj kod]

Wartości rzeczywiste X_k (tak zwane współczynniki MDCT) reprezentują składowe sygnału w dziedzinie przypominającej dziedzinę fourierowską, zatem mogą być (z pewnymi zastrzeżeniami) interpretowane jako widmo częstotliwościowe. W rzeczywistości istnieje ścisła zależność między współczynnikami MDCT oraz DFT.

Zastosowanie[edytuj | edytuj kod]

Podstawowym zastosowaniem MDCT jest kodowanie transformatowe dźwięku, gdzie współczynniki transformaty są kwantowane z wykorzystaniem modelu psychoakustycznego. Dzięki właściwości TDAC zrekonstruowany sygnał nie posiada zniekształceń blokowych, które byłyby zupełnie nieakceptowalne dla dźwięku.

Zobacz też[edytuj | edytuj kod]

Bibliografia[edytuj | edytuj kod]

  • John P. Princen, Alan B. Bradley, "Analysis/synthesis filter bank design based on time domain aliasing cancellation", IEEE Trans. Acoust. Speech Sig. Proc. ASSP-34 (5), 1153-1161 (1986)
  • J. P. Princen, A. W. Johnson, A. B. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", IEEE Proc. Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP) 12, 2161-2164 (1987)
  • A. W. Johnson, A. B. Bradley, "Adaptive transform coding incorporating time domain aliasing cancellation", Speech Comm. 6, 299-308 (1987).
  • Marina Bosi, Richard E. Goldberg, Introduction to digital audio coding and standards (Springer, 2003)
  • Henrique S. Malvar, Signal Processing with Lapped Transforms (Artech House: Norwood MA, 1992).