Przejdź do zawartości

Zmodyfikowana dyskretna transformacja kosinusowa

Z Wikipedii, wolnej encyklopedii

Zmodyfikowana dyskretna transformacja cosinusowa (MDCT, ang. modified discrete cosine transform) – blokowa transformacja danych oparta na przekształceniu kosinusowym typu DCT-IV, należąca do rodziny transformacji zakładkowych. Ta ostatnia cecha oznacza, że kolejne bloki próbek sygnału poddawane przekształceniu pobierane są nadmiarowo, z zakładką (część próbek jest wspólna), co pozwala wyeliminować tzw. efekt blokowy występujący przy zastosowaniu tej transformacji w kompresji sygnału.

Definicja

[edytuj | edytuj kod]

Przekształcenie MDCT odwzorowuje każdy blok rzeczywistych próbek o długości według wzoru:

Oryginalny sygnał można odtworzyć z sekwencji współczynników używając przekształcenia odwrotnego:

Sekwencje uzyskane w kolejnych blokach należy następnie zsumować z zakładką 50% aby uzyskać zrekonstruowany sygnał

Należy zauważyć, że liczba współczynników transformaty w pojedynczym bloku jest dwukrotnie mniejsza od liczby próbek sygnału w tym bloku, co pozornie oznaczałoby nieodwracalność przekształcenia. W istocie, odrzucenie połowy współczynników powoduje zjawisko aliasingu w dziedzinie czasu: w zrekonstruowanym pojedynczym bloku próbki z połowy poprzedniego i połowy następnego bloku są „zawinięte” do środka bloku. Właściwości symetrii przekształcenia DCT-IV powodują, że te składowe aliasowe w sąsiednich blokach mają przeciwny znak i w końcowym procesie składania sygnału ulegają kompensacji. Jest to tak zwana zasada TDAC (ang. Time-Domain Aliasing Cancellation).

W powyższych wzorach oznacza funkcję okna, które pełni rolę ograniczającą skoki wartości sygnału na granicach bloku poprzez łagodne zmniejszenie ich amplitudy do zera. Aby TDAC działało poprawnie, funkcja okna powinna spełniać warunek:

W praktyce stosowane jest kilka popularnych funkcji okien, na przykład

– okno wykorzystywane w technice kompresji MP3,
– okno wykorzystywane w technice Vorbis.

Interpretacja

[edytuj | edytuj kod]

Wartości rzeczywiste (tak zwane współczynniki MDCT) reprezentują składowe sygnału w dziedzinie przypominającej dziedzinę fourierowską, zatem mogą być (z pewnymi zastrzeżeniami) interpretowane jako widmo częstotliwościowe. W rzeczywistości istnieje ścisła zależność między współczynnikami MDCT oraz DFT.

Zastosowanie

[edytuj | edytuj kod]

Podstawowym zastosowaniem MDCT jest kodowanie transformatowe dźwięku, gdzie współczynniki transformaty są kwantowane z wykorzystaniem modelu psychoakustycznego. Dzięki właściwości TDAC zrekonstruowany sygnał nie posiada zniekształceń blokowych, które byłyby zupełnie nieakceptowalne dla dźwięku.

Zobacz też

[edytuj | edytuj kod]

Bibliografia

[edytuj | edytuj kod]
  • John P. Princen, Alan B. Bradley, Analysis/synthesis filter bank design based on time domain aliasing cancellation, „IEEE Trans. Acoust. Speech Sig. Proc.” ASSP-34 (5), s. 1153–1161 (1986).
  • J.P. Princen, A. W. Johnson, A.B. Bradley, Subband/transform coding using filter bank designs based on time domain aliasing cancellation, „IEEE Proc. Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP)” 12, s. 2161–2164 (1987).
  • A.W. Johnson, A.B. Bradley, Adaptive transform coding incorporating time domain aliasing cancellation, „Speech Comm.” 6, s. 299–308 (1987).
  • Marina Bosi, Richard E. Goldberg, Introduction to digital audio coding and standards, Springer, 2003.
  • Henrique S. Malvar, Signal Processing with Lapped Transforms, Artech House: Norwood MA, 1992.