Unicode: Różnice pomiędzy wersjami
[wersja przejrzana] | [wersja nieprzejrzana] |
unikamy HTML jeśli można zastosować wikikod |
mojibake, tofu, OpenType |
||
Linia 78: | Linia 78: | ||
[[Rada Języka Polskiego]] zaleca stosować „unikod” jako określenie na każdy system unifikacji kodowania liter<ref>{{cytuj stronę|url=http://www.rjp.pan.pl/index.php?option=com_content&view=article&id=980:unicode-unikod-&catid=44:porady-jzykowe&Itemid=58|data dostępu=2010-08-12|tytuł=Unicode, unikod|opublikowany=porady językowe Rady Języka Polskiego}}</ref>. |
[[Rada Języka Polskiego]] zaleca stosować „unikod” jako określenie na każdy system unifikacji kodowania liter<ref>{{cytuj stronę|url=http://www.rjp.pan.pl/index.php?option=com_content&view=article&id=980:unicode-unikod-&catid=44:porady-jzykowe&Itemid=58|data dostępu=2010-08-12|tytuł=Unicode, unikod|opublikowany=porady językowe Rady Języka Polskiego}}</ref>. |
||
== |
== Zobacz też == |
||
* [[mojibake]]<span style="font-size:.85em"> [<nowiki/>[[:en:Mojibake|{{#invoke:Lang|skrót|en}}]]]</span> często przez Polaków nazywane „krzaczki” |
|||
* [[tofu (ujednoznacznienie)|tofu]]<span style="font-size:.85em"> [<nowiki/>[[:en:Tofu (disambiguation)#Computing and technology|{{#invoke:Lang|skrót|en}}]]]</span> |
|||
* [[OpenType]] |
|||
= Przypisy == |
|||
{{Przypisy}} |
{{Przypisy}} |
||
Wersja z 19:26, 10 lip 2020
Unikod (ang. Unicode) – komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy – Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób składu.
Rozwijany jest przez konsorcjum, w którego skład wchodzą ważne firmy komputerowe, producenci oprogramowania, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją ISO.
Kodowanie Unicode
Standard Unicode obejmuje przydział przestrzeni numeracyjnej poszczególnym grupom znaków oraz sposoby bajtowego kodowania znaków. Jest kilka metod kodowania, oznaczanych skrótowcami UCS (Universal Character Set) i UTF (Unicode Transformation Format). Do najważniejszych należą:
Mniej popularnymi kodowaniami Unicode są:
Istnieją również inne kodowania, stanowiące margines lub pozostające na etapie propozycji, na przykład:
- UTF-9 i UTF-18
- UTF-EBCDIC
- UTF-6
- UTF-5.
Kody pierwszych 256 znaków Unicode pokrywają się z kodami ISO Latin 1 (czyli ISO-8859-1), przez co kody pierwszych 128 znaków pokrywają się z ASCII. Należy jednak pamiętać, że jest to zbieżność wyłącznie numerów przyporządkowanych konkretnym znakom, natomiast wartości bajtów użytych do ich zapisania mogą (i w większości kodowań będą) różnić się od tych, które uzyska się stosując Latin 1 lub ASCII.
Historia standardu
- 1991 Unicode 1.0.0 (październik[1])
- 1993 Unicode 1.1.0 (czerwiec[1])
- 1996 Unicode 2.0.0 (lipiec[1])
- 1998 Unicode 2.1.2 (maj[1])
- 1998 Unicode 2.1.5 (sierpień[1])
- 1998 Unicode 2.1.8 (grudzień[1])
- 1999 Unicode 2.1.9 (kwiecień[1])
- 1999 Unicode 3.0.0 (wrzesień[1])
- 2000 Unicode 3.0.1 (sierpień[1])
- 2001 Unicode 3.1.0 (23 marca)
- 2001 Unicode 3.1.1 (sierpień[1])
- 2002 Unicode 3.2.0 (25 marca)
- 2003 Unicode 4.0.0 (17 kwietnia)
- 2004 Unicode 4.0.1 (marzec[1])
- 2005 Unicode 4.1.0 (31 marca[1])
- 2006 Unicode 5.0.0 (4 lipca[1]) (ogłoszenie prasowe: 18 lipca)
- 2008 Unicode 5.1.0 (15 marca) (ogłoszenie prasowe: 4 kwietnia[2])
- 2009 Unicode 5.2.0 (1 października[1])
- 2010 Unicode 6.0.0 (11 października[1]), m. in. start standaryzacji emoji
- 2012 Unicode 6.1.0 (31 stycznia[1])
- 2012 Unicode 6.2.0 (26 września[1])
- 2013 Unicode 6.3.0 (30 września[1])
- 2014 Unicode 7.0 (16 czerwca)
- 2015 Unicode 8.0 (17 czerwca)
- 2016 Unicode 9.0 (czerwiec)
- 2017 Unicode 10.0 (czerwiec)
- 2018 Unicode 11.0 (czerwiec)
- 2019 Unicode 12.0 (5 marca)
- 2019 Unicode 12.1 (7 maja[1][3])
- 2020 Unicode 13.0 (10 marca[1][4])
Relacje do UCS
- Unicode 1.1 ISO/IEC ≈ 10646-1:1993
- Unicode 3.0 ISO/IEC ≈ 10646-1:2000
- Unicode 3.2 ISO/IEC ≈ 10646-2:2001
- Unicode 4.0 ISO/IEC ≈ 10646:2003
- Unicode 5.0 ISO/IEC ≈ 10646:2003/Amd.2:2006
- Unicode 5.1 ISO/IEC ≈ 10646:2003/Amd.4:2008
- Unicode 5.2 ISO/IEC ≈ 10646:2003/Amd.6:2009
- Unicode 6.0 ISO/IEC ≈ 10646:2010
- Unicode 6.1 ISO/IEC ≈ 10646:2012
Wprowadzanie znaków Unicode
Typowe układy klawiatur udostępniają tylko niewielki zbiór znaków, na przykład standardowe polskie układy klawiatury zawierają wyłącznie polskie litery i znak euro, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze można użyć jednej z poniższych metod:
- W systemie Windows NT, Mac OS X (od wersji 10.2) oraz w licznych dystrybucjach Linuksa (ze środowiskiem graficznym) dostępna jest tablica znaków, w której można wyszukać potrzebny znak, skopiować go do schowka, a następnie wkleić w program. W systemach Windows 95, 98 i ME tablica znaków nie daje dostępu do wszystkich znaków Unicode.
- Znając numer pozycji znaku (czy to dziesiętny, czy to szesnastkowy), można wprowadzić ten znak na kilka sposobów (nie wszystkie programy obsługują wszystkie opisane tu sposoby):
- Trzymając naciśnięty (lewy) Alt i wpisując z klawiatury numerycznej numer dziesiętny tego znaku, po czym zwolnić klawisz Alt[5].
- Wpisać numer szesnastkowy tego znaku, a następnie wcisnąć kombinację (lewy) Alt+X[5]. Przed numerem szesnastkowym nie może być cyfra ani litera z zakresu a–f (gdyż zostaną uznane jako część kodu, ewentualnie należy poprzedzić kod np. spacją lub uzupełnić kod wiodącymi zerami, tak by liczył dokładnie sześć pozycji).
- Trzymając naciśnięty (lewy) Alt nacisnąć klawisz plus, wpisać numer szesnastkowy znaku, po czym zwolnić klawisz Alt. Metoda ta działa w systemie Windows XP i nowszych.
- Trzymając naciśnięte klawisze Ctrl+⇧ Shift wpisać numer szesnastkowy znaku, a następnie puścić klawisze. Metoda ta działa w środowisku GNOME. Od wersji GTK+ 2.10 należy nacisnąć Ctrl+⇧ Shift+U, wprowadzić kod szesnastkowy znaku, nacisnąć ↵ Enter[5].
Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim można podpiąć dowolny znak Unicode pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja AltGr+klawisz, gdzie AltGr to prawy klawisz Alt). Niektóre programy dla Windows pozwalają jedynie na wprowadzanie z klawiatury znaków istniejących w stronie kodowej właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nieistniejącego w stronie kodowej Windows-1250 nie da oczekiwanego efektu. Inne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160–255.
Przytrzymanie wciśniętego klawisza Alt (zob. Alt-kody) i wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla aktualnego języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej CP852), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej Windows-1250).
Nazewnictwo
Rada Języka Polskiego zaleca stosować „unikod” jako określenie na każdy system unifikacji kodowania liter[6].
Zobacz też
Przypisy =
- ↑ a b c d e f g h i j k l m n o p q r s t Daty publikacji poszczególnych wydań
- ↑ wydanie wersji 5.1.0 standardu
- ↑ Unicode 12.1.0 [online], unicode.org [dostęp 2019-08-02] .
- ↑ Unicode 13.0.0 [online], unicode.org [dostęp 2020-05-22] .
- ↑ a b c How to Input Unicode [online], xahlee.info [dostęp 2020-03-18] [zarchiwizowane z adresu 2019-09-14] .
- ↑ Unicode, unikod. porady językowe Rady Języka Polskiego. [dostęp 2010-08-12].
Linki zewnętrzne
- Konsorcjum Unicode, czyli oficjalna strona Unicode
- Konsorcjum Unicode – tablice kodowe znaków
- DecodeUnicode – baza wiki znaków Unicode
- Unicode Technical Report #36 – aspekty bezpieczeństwa związane z programowaniem Unicode
- Unikod.Pl – polska witryna o Unikodzie