MPEG-2

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

MPEG-2 – grupa standardów stratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang. Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.

Charakterystyka[edytuj | edytuj kod]

MPEG-2 jest standardem ogólnego kodowania ruchomych obrazów i związanych z nimi informacji audio. Format ten opisuje połączenie metod stratnej kompresji wideo i stratnej kompresji danych audio, które umożliwiają przesyłanie sygnału audio-wideo w telewizji cyfrowej oraz zapis na nośnikach danych (w szczególności optycznych jak DVD i Blu-ray, czy taśmowych jak DV). MPEG-2 jest szeroko stosowany jako format cyfrowych sygnałów telewizyjnych, które są transmitowane przez TV satelitarną, naziemną oraz kablową. Określa on także format filmów i innych programów, które są dystrybuowane na DVD i podobnych nośnikach danych. MPEG-2 powstał z powodu braków i niedociągnięć standardu MPEG-1.

Specyfikacja MPEG-2 opisuje:

  1. dwa kontenery multimedialne – MPEG-2 TS (ang. Transport Stream) dla transmisji i MPEG-2 PS (ang. Program Stream) dla zapisu na nośnikach
  2. metody cyfrowego zapisu obrazu ruchomego, przy czym standard zawiera ogólną listę algorytmów kompresji o różnym stopniu złożoności obliczeniowej
  3. metody cyfrowego zapisu dźwięku jedno-, dwu- lub wielokanałowego (5.1)

Wszystkie dekodery MPEG-2 są kompatybilne ze starszym standardem MPEG-1.

Historia[edytuj | edytuj kod]

Prace nad MPEG-2 rozpoczęły się w roku 1990. Członkowie grupy MPEG uznali, że potrzebny jest standard pozwalający na uzyskanie wyraźnie wyższej jakości obrazu niż ta, którą oferował dostępny wtedy MPEG-1. Stary standard pozwalał na zapis z maksymalną przepływnością 1,5 Mbit/s dającą w efekcie jakość zbliżoną do systemu VHS i nie oferował metod zapisu obrazu z przeplotem. Dodatkowym ograniczeniem MPEG-1 było wsparcie dla maksymalnie dwukanałowego dźwięku. Wprowadzenie MPEG-2 pozwoliło na zaoferowanie dużo wyższej jakości obrazu dzięki wyższym przepływnościom oraz usprawnieniom w dziedzinie kompresji, takim jak zastosowanie DCT i mechanizmów kompensacji ruchu[1][2].

Podział na części[edytuj | edytuj kod]

Część 1. – System – opisuje synchronizację i zwielokrotnienia obrazu i dźwięku.
Część 2. – Film – kodek kompresji dla sygnałów video (również jako ITU-T Rec. H.262).
Część 3. – Audio – kodek kompresji dla kodowania sygnałów audio.
Część 4. – Opisuje procedury testowania zgodności.
Część 5. – Opisuje systemy do symulacji oprogramowania.
Część 6. – Opisuje rozszerzenia dla DSM-CC (Digital Storage Media Command and Control).
Część 7. – Advanced Audio Coding (AAC).
Część 8. – Przedłużenie czasu rzeczywistego interfejsów.
Część 9. – Zgodność rozszerzeń dla DSM-CC.
Część 10. – Zarządzanie Własności Intelektualnej (IPMP)

Kompresja Video[edytuj | edytuj kod]

Kamera HDTV generuje surowy strumień video z 149.299.200 bajtów na sekundę dla 24 fps wideo. Ten strumień musi być skompresowany, aby zmieścić obraz audio i wideo na nośnikach DVD. Kompresja wideo jest praktyczna, ponieważ dane na zdjęciach często są redukowane w czasie i przestrzeni. Na przykład, w tle obrazu może być niebieskie niebo i to tło obrazu może się utrzymywać w wielu klatkach. Ponadto, można usunąć niektóre dane z klatki wideo bez zauważalnego pogorszenia jakości obrazu, mieszcząc się w dość wąskim zakresie czułości ludzkiego oka.

Kamery używane w transmisji telewizyjnej generują 25 zdjęć na sekundę (w Europie) lub 29,97 zdjęcia sekundę (w Ameryce Północnej). Telewizja cyfrowa wymaga, aby obrazy audio i wideo mogły być przetwarzane przez sprzęt komputerowy. Każdy element obrazu (blok) jest reprezentowany przez jedną liczbę jasności i dwie liczby odpowiedzialne za barwę, Tak więc każde cyfrowe zdjęcie jest początkowo reprezentowana przez trzy prostokątne tablice liczb.

Często stosowaną metodą zmniejszenia ilości danych jest rozdzielenie obrazu na dwa pola: górne pole z informacją o liniach nieparzystych i dolne pole z informacją o liniach parzystych. Po zdekodowaniu, dwa pola wyświetlane są na przemian, jedno pole(nieparzyste) jest przekładane między wierszami drugiego pola (parzystego). Format ten nazywa się formatem przeplatanym. Ludzkie oko nie rozpoznaje niektórych szczegółów barw, dlatego często usuwa się część barw. Format barw 04:02:02 wskazuje, że połowa wartości barw została usunięta. Format barw 04:02:00 wskazuje, że trzy czwarte wartości barw została usunięta. Format barw 04:04:04 wskazuje na to, że żadne z barw nie zostały usunięte . MPEG-2 pozwala na zastosowanie każdej z trzech opcji.

MPEG-2 określa, że klatki mogą być skompresowane w trzy rodzaje: klatki intra-frames (I-frame), klatki inter-frames (P-frame) oraz klatki bidirection (B-frame).

Klatki typu I są skompresowaną wersją jednej nieskompresowanej klatki (RAW). Korzystają z niezdolnośći oka do wykrycia określonych zmian w obrazie. W przeciwieństwie do klatek typu P i B, klatka typu I nie zależy od danych z poprzedzającej lub następującej klatki. Mówiąc w skrócie, surowe klatki dzieli się na bloki 8 × 8 pikseli. Dane z każdego bloku są przetwarzane przez transformację cosinusową. Wynikiem jest macierz o współczynniku 8 × 8. Transformacja przekształca obraz bez zmieniania informacji w bloku, oryginalny blok może być dokładnie odtworzony, stosując odwrotny cosinus transformacji. Zaletą tego rozwiązania jest to, że obraz może zostać uproszczone przez próbkowanie współczynników.

Zazwyczaj w standardzie MPEG-4 co 15 klatka to klatka typu I. Klatki P i B układają się w ten sposób: IBBPBBPBBPBB (I), w celu utworzenia grupy obrazów (GOP), jednak standard układania się klatek jest elastyczny i może wyglądać inaczej.

Makrobloki

Klatki typu P stanowią lepszy sposób kompresji niż klatki typu I, ponieważ korzystają z danych z poprzednich klatek typu I lub P. Do generowania klatki P, zrekonstruowany jest poprzedni punkt odniesienia. Obraz jest skompresowany w ten sposób, że jest dzielony na części: 16 × 16 pikseli, nazywanych makroblokami. Następnie, dla każdego z tych makrobloków, konstruowany jest punkt odniesienia, tzn. poszukiwany jest makroblok, który jest najlepiej skompresowany. Offset jest zakodowany jako wektor ruchu. Przeważnie przesunięcie wynosi zero. Ale jeśli obraz jest w ruchu, offset może wynosić ok. 23 pikseli w prawo i 4 piksele w górę. Przyrównanie ze sobą dwóch makrobloków często nie jest idealne. Do skorygowania tego kodowanie pobiera różnicę między dwoma sąsiadującymi blokami makrobloków i następnie oblicza wartość współczynnika, który opisuje tę różnicę.

Przetwarzanie klatek typu B jest podobne do przetwarzania klatek typu P. Klatka typu B zazwyczaj bardziej kompresuje obraz niż klatka typu P. Klatki B nigdy nie są klatkami odniesienia.

Telewizja cyfrowa

MPEG-2 jest jednym z dwóch, oprócz MPEG-4, w praktyce używanych formatów telewizji cyfrowej w krajach, gdzie stosowany jest standard DVB. W krajach Ameryce Północnej stosowany z kolei jest standard ATSC A/53, w którym MPEG-2 w wariancie MP@ML używany jest do kodowania obrazu wideo[3].

HDV

Ścieżka wideo oraz opcjonalnie ścieżka dźwięku w zapisie standardu HDV (DV dla wysokiej rozdzielczości) jest kodowana w MPEG-2. Całość jest z kolei umieszczana w kontenerze MPEG-2 TS[4].

XDCAM

Urządzenia firmy Sony z rodziny XDCAM SD[5], XDCAM HD[6], XDCAM EX[7] oraz XDCAM HD422[8] zapisują ścieżki wideo zakodowane w MPEG-2.

Profile i poziomy[edytuj | edytuj kod]

System MPEG-2 został zaprojektowany dla szerokiego spektrum zastosowań, od urządzeń mobilnych do telewizji HDTV i profesjonalnej obróbki materiałów wysokiej jakości. Dla wielu spośród tych zastosowań, obsługa pełnego standardu z jego wieloma mechanizmami kompresji byłaby niepotrzebna, lub wręcz niemożliwa. Jako rozwiązanie tego problemu, standard definiuje różne profile i poziomy, które oznaczają konkretne podzbiory metod kompresji oraz określone zakresy rozdzielczości i przepływności.

Konkretne urządzenia obsługujące standard MPEG-2 określają swoją zgodność ze standardem z dokładnością do profilu i poziomu. Przykładowo odtwarzacz HD-DVD może obsługiwać profil główny (ang. main profile) i poziom wysoki (ang. high level), co oznaczane jest zwyczajowo MP@HL. Najczęściej spotykanym zestawieniem jest MP@ML (profil główny, poziom główny).

Poniższe tabele przedstawiają główne cechy każdego z profili i poziomów.

Profile MPEG-2
Skrót Nazwa Typy klatek obrazu Kolorymetria Format obrazu
SP Simple profile I, P 4:2:0 4:3 lub 16:9
MP Main profile I, P, B 4:2:0 4:3 lub 16:9
SNR SNR Scalable profile I, P, B 4:2:0 4:3 lub 16:9
Spatial Spatially Scalable profile I, P, B 4:2:0 4:3 lub 16:9
HP High profile I, P, B 4:2:2 lub 4:2:0 4:3 lub 16:9
Poziomy MPEG-2
Skrót Nazwa Częstotliwość (Hz) Maksymalna rozdzielczość pozioma Maksymalna rozdzielczość pionowa Maksymalna przepływność dla Main profile (Mbit/s)
LL Low Level 23.976, 24, 25, 29.97, 30 352 288 4
ML Main Level 23.976, 24, 25, 29.97, 30 720 576 15
H-14 High 1440 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 1440 1152 60
HL High Level 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 1920 1152 80

Zobacz też[edytuj | edytuj kod]


Przypisy

  1. Standard przetwarzania danych cyfrowych MPEG-2. [dostęp 2009-12-16].
  2. P.N. Tudor: MPEG-2 VIDEO COMPRESSION (ang.). [dostęp 2009-12-16].
  3. ATSC Published Standards (ang.). [dostęp 2010-05-26].
  4. HDV Format Main Specification (ang.). [dostęp 2009-12-17].
  5. Sony XDCAM SD family (ang.). [dostęp 2009-12-17].
  6. Sony XDCAM HD and HD422 family (ang.). [dostęp 2009-12-17].
  7. Sony XDCAM EX family (ang.). [dostęp 2009-12-17].
  8. Sony XDCAM HD422 family (ang.). [dostęp 2009-12-17].

Linki zewnętrzne[edytuj | edytuj kod]