UTF-32/UCS-4

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania


UTF-32 (ang. 32-bit Unicode Transformation Format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia trzydziestodwubitowych słów. Zestaw znaków jest też zdefiniowany w standardzie ISO 10646 jako UCS-4.

Kody obejmują zakres od 0 do 0x7FFFFFFF. Kod znaku zawsze ma długość 4 bajtów i w zapisie big endian przedstawia po prostu numer znaku w tabeli Unikodu. Możliwa jest również odwrotna kolejność – w zapisie little endian, co nakłada obowiązek używania znacznika kierunku BOM.

Stała długość kodu każdego znaku (w przeciwieństwie do m.in. UTF-8) jest dużą zaletą tego kodowania. Kodowanie to jest jednak bardzo nieefektywne - zakodowane ciągi znaków są dwa do czterech razy dłuższe niż ciągi tych samych znaków zapisanych w innych kodowaniach. Kodowanie to z tego powodu jest zwykle stosowane tylko w pamięci operacyjnej w celu ułatwienia obsługi i przetwarzania (np. obliczenie długości czy wycinanie ciągu znaków jest bardzo proste), na innych nośnikach (takich jak połączenia sieciowe czy dysk twardy) stosuje się zwykle bardziej efektywne UTF-8 lub UTF-16.

Zobacz też[edytuj | edytuj kod]