MP3

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania
Ujednoznacznienie Zobacz też: inne znaczenia.
MP3
Rozszerzenia pliku .mp3
Typ stratna kompresja dźwięku

MP3 ((ang.) MPEG-1/MPEG-2 Audio Layer 3) – algorytm kompresji stratnej dźwięku, przetworzonego uprzednio na sygnał cyfrowy. Popularnie zwany formatem MP3 lub standardem MP3. Jest zdefiniowany przez IETF w dokumencie RFC 5219.

Informacje ogólne[edytuj | edytuj kod]

Standardy MPEG-1 i MPEG-2 są przeznaczone do kompresji ruchomych obrazów oraz towarzyszącego im dźwięku. W ich realizacji wykorzystano algorytm zmodyfikowanej dyskretnej transformacji cosinusowej. Standardy te oferują możliwość kompresji strumienia danych reprezentującego dźwięk na trzy sposoby, tzw. warstwy (ang. layer): Layer 1, Layer 2 i Layer 3. Sposób "Layer 3", charakteryzujący się najwyższym stopniem kompresji i dobrą jakościa dźwięku, został następnie wykorzystany do zapisu (utrwalania) dźwięku cyfrowego jako format lub standard MP3.

Standard MP3 ujrzał światło dzienne w grudniu 1991 roku, przede wszystkim w ramach działań prowadzonych przez niemieckie stowarzyszenie naukowo-badawcze występujące pod nazwą Fraunhofer-Gesellschaft[1] (Fraunhofer Institute)[2].

Pliki zawierające dane w tym formacie otrzymują zwyczajowo rozszerzenie "mp3".

Opis działania[edytuj | edytuj kod]

Dźwięk może być zapisany na wiele różnych sposobów. Jednym z nich jest zmiana ciśnienia akustycznego w proporcjonalne zmiany napięcia elektrycznego lub natężenia prądu elektrycznego. Uzyskany w ten sposób dźwiękowy sygnał analogowy, może następnie zostać przekształcony do postaci cyfrowej. Przekształcenia dokonuje się za pomocą przetwornika analogowo cyfrowego, na którego wyjściu pojawia się sygnał cyfrowy. Podczas konwersji sygnału analogowego na cyfrowy należy mieć na uwadze twierdzenie Kotielnikowa-Shannona o próbkowaniu, które mówi, że częstotliwość próbkowania nie może być mniejsza niż podwojona szerokość pasma przetwarzanego sygnału. Przykładowo, w celu wykonania zapisu w popularnym standardzie CD-Audio, dźwięk w postaci sygnału analogowego jest przepuszczany przez filtr dolnoprzepustowy o odcięciu około 22kHz (ograniczenie pasma), a następnie próbkowany z częstotliwością 44,1 kHz co stanowi ok. 2,2 szerokości pasma akustycznego, wynoszącej 20 kHz, i rozdzielczością 16 bitów na próbkę. Wytwarza to strumień danych o wielkości ok. 1,5 Mb/s dla sygnału stereofonicznego. Aby zmniejszyć ilość danych należy zmniejszyć częstotliwość próbkowania lub rozdzielczość, bądź zastosować obydwie te metody. Jeśli zrobi się to w odpowiedni sposób, np. za pomocą odpowiedniego programu komputerowego, to zmiany mogą być niesłyszalne – na tym właśnie polega idea standardu MP3.

Standard MP3 wykorzystuje ponadto model psychoakustyczny w celu osiągnięcia pożądanego stopnia kompresji stratnej. Polega to na tym, że zostają usunięte te informacje o dźwięku, które są niezauważalne lub mało istotne dla człowieka, w sensie odbioru słuchowego. Z modelu psychoakustycznego wynika, że człowiek najlepiej słyszy dźwięki w okolicach 2-4 kHz. Im częstotliwość dźwięku bardziej odbiega od tego pasma, tym słyszalność jest coraz gorsza. Zatem, jeżeli dźwięk, wraz z szumem kwantyzacji, będzie cichszy od dolnej granicy słyszalności, to nie będzie on słyszalny. Z tego wynika, że skrajne częstotliwości mogą zostać zapisane z mniejszą dokładnością, a więc przy mniejszej rozdzielczości bitowej. Ze wspomnianego modelu słyszenia wynika również zjawisko maskowania, czyli że dźwięki głośniejsze zagłuszają cichsze. Zatem, w pobliżu głośnych dźwięków (w pobliżu, tzn. podobna częstotliwość tuż przed i tuż po) również można zmniejszyć liczbę bitów, ponieważ szum kwantyzacji nie będzie słyszalny. Człowiek słyszy dźwięki o częstoliwości do 20 kHz, jednak w praktyce elektroakustycznej granicę tę określa się na poziomie 16 kHz – uwzględniono to również w standardzie MP3.

W pierwszym etapie konwersji na format MP3, wejściowy sygnał cyfrowy, pobrany np. z pliku w formacie WAV, o szerokości pasma 20 kHz, jest dzielony na 576, odpowiednio węższych pasm częstotliwościowych, za pomocą filtrów cyfrowych w procesie cyfrowego przetwarzania sygnałów. W rezultacie otrzymuje się 576 odrębnych sygnałów. Pasmo każdego z nich jest 576 razy węższe od wejściowej szerokości pasma, zatem do próbkowania można użyć odpowiednio niższej częstotliwości.

Program kodeka MP3 analizuje poszczególne pasma i na podstawie modelu psychoakustycznego określa z jaką dokładnością należy zakodować każde z nich i czy jest potrzeba uwzględnienia danego pasma. W ten sposób znacznie ograniczono ilość bitów potrzebnych do zakodowania, a szum kwantyzacji, mimo że znacznie większy niż w oryginale, jest tak ukształtowany, że jest niesłyszalny. Ponadto, powstałe dane zapisuje się w postaci zmiennoprzecinkowej, co dodatkowo zmniejsza ich rozmiar.

Tak przygotowane dane łączy się, dodając dane sterujące umożliwiające odkodowanie dźwięku i na końcu poddaje się je kompresji bezstratnej – powstaje plik dźwiękowy w formacie MP3.

Powyższy, wyidealizowany model kompresji stratnej jest możliwy do zrealizowania. Często jednak okazuje się, że użytkownik kodeka, wymuszając jego maksymalną przepływność, nie zapewnił warunków dla odpowiednio wiernego (dokładnego) zakodowania cyfrowego sygnału dźwiękowego. Dlatego, jeśli po kompresji okaże się, że rozmiar danych przekracza założenia, zmniejsza się liczbę bitów, w których koduje się pasma. Stąd najlepsze efekty jakościowe dają kompresory działające ze zmienną przepływnością, oszczędzając miejsce na dane, a zwiększając przepływność wtedy, gdy to jest konieczne. Subiektywna jakość dźwięku zależy ponadto od zastosowanego w kodeku modelu psychoakustycznego oraz od samego słuchacza. Jeśli jego słuch będzie bardzo odbiegał od modelu użytego w kodeku, oceniona jakość dźwięku może być odebrana jako znacznie różniąca się od oryginału.

Przepływność danych[edytuj | edytuj kod]

Pierwotnie, do kompresji (kodowania) MP3 stosowano stałą przepływność (CBR), czyli do każdej ramki używano tej samej liczby bitów. Obecnie używa się częściej przepływności zmiennej (VBR), charakteryzującej się zmiennością w wybranym przedziale czasu podczas kompresji.

Stałe przepływności dostępne w standardzie MP3: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 i 320 kb/s.

Dźwięk wielokanałowy[edytuj | edytuj kod]

Kodowany dźwięk może posiadać postać zarówno jednokanałową (tryb mono) jak i dwukanałową (stereo). Istnieje też format MP3 Surround przeznaczony do zapisu dźwięku wielokanałowego 5.1, zgodny z wcześniejszym standardem MP3.

Stereo[edytuj | edytuj kod]

Podstawowe tryby pracy kodeka MP3 dla sygnału stereo:

  • dual channel – zapis jako dwa odrębne kanały monofoniczne;
  • stereo (stereo mode 0) – każda ramka zapisywana jest algorytmem left/right stereo;
  • joint stereo (stereo mode 1) – dla każdej ramki wybierany jest najlepszy algorytm kompresji.

Algorytmy kompresji kodeka MP3 dla sygnału stereo:

  • left/right stereo (simple stereo, independent channel) – kanał prawy i lewy jest kodowany niezależnie, może jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów. Korzystny dla ramek danych, w których oba kanały różnią się w dużym stopniu;
  • middle/side stereo – sygnał stereo kodowany jest w postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów. Korzystny dla ramek, w których oba kanały przyjmują podobne wartości;
  • intensity stereo – w którym sygnał stereo dla niektórych (głównie wysokich) częstotliwości kodowany jest monofonicznie, wartość uzupełniona jest o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce stosowany tylko przy niskiej przepływności, poniżej 80 kbps. Niektóre programy kodujące, jak np. LAME, nie posiadają tej opcji.

MP3 Surround[edytuj | edytuj kod]

Jest to rozszerzenie formatu MP3 pozwalające na zapis dźwięku wielokanałowego 5.1. Zapisywane są dwa kanały tak jak w zwykłym MP3, a informacja potrzebna do wygenerowania dodatkowych kanałów jest zapisana w tagach MP3. Dzięki temu pliki w formacie MP3 Surround można odtwarzać jako zwykłe stereo w odtwarzaczach MP3.

mp3HD[edytuj | edytuj kod]

Format mp3HD, wprowadzony przez firmę Thomson, umożliwia bezstratną kompresję audio zachowując zgodność (kompatybilność wsteczną) ze standardem MP3. Przepływność strumieni audio zapisanych w mp3HD zawiera się w granicach 500-900 kb/s. Aby słuchać muzyki zapisanej w tym formacie należy użyć odpowiedniego programu[3].

Zobacz też[edytuj | edytuj kod]

WiktionaryPl nodesc.svg
Zobacz hasło MP3 w Wikisłowniku

Przypisy

  1. Mary Bellis: Historia MP3. Stowarzyszenie Fraunhofer i MP3 (ang.). inventors.about.com.
  2. Historia standardu mp3 (The History of mp3) (ang.). mp3licensing.com.
  3. Wypróbuj mp3HD (ang.). all4mp3.com.

Linki zewnętrzne[edytuj | edytuj kod]