Wersja z 19:26, 10 lip 2020

Unikod (ang. Unicode) – komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy – Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób składu.

Rozwijany jest przez konsorcjum, w którego skład wchodzą ważne firmy komputerowe, producenci oprogramowania, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją ISO.

Kodowanie Unicode

Standard Unicode obejmuje przydział przestrzeni numeracyjnej poszczególnym grupom znaków oraz sposoby bajtowego kodowania znaków. Jest kilka metod kodowania, oznaczanych skrótowcami UCS (Universal Character Set) i UTF (Unicode Transformation Format). Do najważniejszych należą:

Mniej popularnymi kodowaniami Unicode są:

UTF-7
UCS-2.

Istnieją również inne kodowania, stanowiące margines lub pozostające na etapie propozycji, na przykład:

UTF-9 i UTF-18
UTF-EBCDIC
UTF-6
UTF-5.

Kody pierwszych 256 znaków Unicode pokrywają się z kodami ISO Latin 1 (czyli ISO-8859-1), przez co kody pierwszych 128 znaków pokrywają się z ASCII. Należy jednak pamiętać, że jest to zbieżność wyłącznie numerów przyporządkowanych konkretnym znakom, natomiast wartości bajtów użytych do ich zapisania mogą (i w większości kodowań będą) różnić się od tych, które uzyska się stosując Latin 1 lub ASCII.

Historia standardu

1991 Unicode 1.0.0 (październik^[1])
1993 Unicode 1.1.0 (czerwiec^[1])
1996 Unicode 2.0.0 (lipiec^[1])
1998 Unicode 2.1.2 (maj^[1])
1998 Unicode 2.1.5 (sierpień^[1])
1998 Unicode 2.1.8 (grudzień^[1])
1999 Unicode 2.1.9 (kwiecień^[1])
1999 Unicode 3.0.0 (wrzesień^[1])
2000 Unicode 3.0.1 (sierpień^[1])
2001 Unicode 3.1.0 (23 marca)
2001 Unicode 3.1.1 (sierpień^[1])
2002 Unicode 3.2.0 (25 marca)
2003 Unicode 4.0.0 (17 kwietnia)
2004 Unicode 4.0.1 (marzec^[1])
2005 Unicode 4.1.0 (31 marca^[1])
2006 Unicode 5.0.0 (4 lipca^[1]) (ogłoszenie prasowe: 18 lipca)
2008 Unicode 5.1.0 (15 marca) (ogłoszenie prasowe: 4 kwietnia^[2])
2009 Unicode 5.2.0 (1 października^[1])
2010 Unicode 6.0.0 (11 października^[1]), m. in. start standaryzacji emoji
2012 Unicode 6.1.0 (31 stycznia^[1])
2012 Unicode 6.2.0 (26 września^[1])
2013 Unicode 6.3.0 (30 września^[1])
2014 Unicode 7.0 (16 czerwca)
2015 Unicode 8.0 (17 czerwca)
2016 Unicode 9.0 (czerwiec)
2017 Unicode 10.0 (czerwiec)
2018 Unicode 11.0 (czerwiec)
2019 Unicode 12.0 (5 marca)
2019 Unicode 12.1 (7 maja^[1]^[3])
2020 Unicode 13.0 (10 marca^[1]^[4])

Relacje do UCS

Unicode 1.1 ISO/IEC ≈ 10646-1:1993
Unicode 3.0 ISO/IEC ≈ 10646-1:2000
Unicode 3.2 ISO/IEC ≈ 10646-2:2001
Unicode 4.0 ISO/IEC ≈ 10646:2003
Unicode 5.0 ISO/IEC ≈ 10646:2003/Amd.2:2006
Unicode 5.1 ISO/IEC ≈ 10646:2003/Amd.4:2008
Unicode 5.2 ISO/IEC ≈ 10646:2003/Amd.6:2009
Unicode 6.0 ISO/IEC ≈ 10646:2010
Unicode 6.1 ISO/IEC ≈ 10646:2012

Wprowadzanie znaków Unicode

Typowe układy klawiatur udostępniają tylko niewielki zbiór znaków, na przykład standardowe polskie układy klawiatury zawierają wyłącznie polskie litery i znak euro, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze można użyć jednej z poniższych metod:

W systemie Windows NT, Mac OS X (od wersji 10.2) oraz w licznych dystrybucjach Linuksa (ze środowiskiem graficznym) dostępna jest tablica znaków, w której można wyszukać potrzebny znak, skopiować go do schowka, a następnie wkleić w program. W systemach Windows 95, 98 i ME tablica znaków nie daje dostępu do wszystkich znaków Unicode.
Znając numer pozycji znaku (czy to dziesiętny, czy to szesnastkowy), można wprowadzić ten znak na kilka sposobów (nie wszystkie programy obsługują wszystkie opisane tu sposoby):
- Trzymając naciśnięty (lewy) Alt i wpisując z klawiatury numerycznej numer dziesiętny tego znaku, po czym zwolnić klawisz Alt^[5].
- Wpisać numer szesnastkowy tego znaku, a następnie wcisnąć kombinację (lewy) Alt+X^[5]. Przed numerem szesnastkowym nie może być cyfra ani litera z zakresu a–f (gdyż zostaną uznane jako część kodu, ewentualnie należy poprzedzić kod np. spacją lub uzupełnić kod wiodącymi zerami, tak by liczył dokładnie sześć pozycji).
- Trzymając naciśnięty (lewy) Alt nacisnąć klawisz plus, wpisać numer szesnastkowy znaku, po czym zwolnić klawisz Alt. Metoda ta działa w systemie Windows XP i nowszych.
- Trzymając naciśnięte klawisze Ctrl+⇧ Shift wpisać numer szesnastkowy znaku, a następnie puścić klawisze. Metoda ta działa w środowisku GNOME. Od wersji GTK+ 2.10 należy nacisnąć Ctrl+⇧ Shift+U, wprowadzić kod szesnastkowy znaku, nacisnąć ↵ Enter^[5].

Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim można podpiąć dowolny znak Unicode pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja AltGr+klawisz, gdzie AltGr to prawy klawisz Alt). Niektóre programy dla Windows pozwalają jedynie na wprowadzanie z klawiatury znaków istniejących w stronie kodowej właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nieistniejącego w stronie kodowej Windows-1250 nie da oczekiwanego efektu. Inne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160–255.

Przytrzymanie wciśniętego klawisza Alt (zob. Alt-kody) i wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla aktualnego języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej CP852), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej Windows-1250).

Nazewnictwo

Rada Języka Polskiego zaleca stosować „unikod” jako określenie na każdy system unifikacji kodowania liter^[6].

Zobacz też

mojibake [ang.] często przez Polaków nazywane „krzaczki”
tofu [ang.]
OpenType

Przypisy =

↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t Daty publikacji poszczególnych wydań
↑ wydanie wersji 5.1.0 standardu
↑ Unicode 12.1.0 [online], unicode.org [dostęp 2019-08-02] .
↑ Unicode 13.0.0 [online], unicode.org [dostęp 2020-05-22] .
↑ ^a ^b ^c How to Input Unicode [online], xahlee.info [dostęp 2020-03-18] [zarchiwizowane z adresu 2019-09-14] .
↑ Unicode, unikod. porady językowe Rady Języka Polskiego. [dostęp 2010-08-12].

Linki zewnętrzne

Konsorcjum Unicode, czyli oficjalna strona Unicode
Konsorcjum Unicode – tablice kodowe znaków
DecodeUnicode – baza wiki znaków Unicode
Unicode Technical Report #36 – aspekty bezpieczeństwa związane z programowaniem Unicode
Unikod.Pl – polska witryna o Unikodzie

[uni_rel_dat-1] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t Daty publikacji poszczególnych wydań

[2] wydanie wersji 5.1.0 standardu

[3] Unicode 12.1.0 [online], unicode.org [dostęp 2019-08-02] .

[4] Unicode 13.0.0 [online], unicode.org [dostęp 2020-05-22] .

[:0-5] How to Input Unicode [online], xahlee.info [dostęp 2020-03-18] [zarchiwizowane z adresu 2019-09-14] .

[6] Unicode, unikod. porady językowe Rady Języka Polskiego. [dostęp 2010-08-12].

[1]

[2]

[3]

[4]

[5]

[6]

@@ Linia 78: / Linia 78: @@
 [[Rada Języka Polskiego]] zaleca stosować „unikod” jako określenie na każdy system unifikacji kodowania liter<ref>{{cytuj stronę|url=http://www.rjp.pan.pl/index.php?option=com_content&view=article&id=980:unicode-unikod-&catid=44:porady-jzykowe&Itemid=58|data dostępu=2010-08-12|tytuł=Unicode, unikod|opublikowany=porady językowe Rady Języka Polskiego}}</ref>.
-== Przypisy ==
+== Zobacz też ==
+* [[mojibake]]<span style="font-size:.85em"> [<nowiki/>[[:en:Mojibake|{{#invoke:Lang|skrót|en}}]]]</span> często przez Polaków nazywane &bdquo;krzaczki&rdquo;
+* [[tofu (ujednoznacznienie)|tofu]]<span style="font-size:.85em"> [<nowiki/>[[:en:Tofu (disambiguation)#Computing and technology|{{#invoke:Lang|skrót|en}}]]]</span>
+* [[OpenType]]
+= Przypisy ==
 {{Przypisy}}