International Chemical Identifier

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

International Chemical Identifier[a], skrótowiec: InChIidentyfikator stosowany dla substancji chemicznych, wprowadzony w 2005 roku przez Międzynarodową Unię Chemii Czystej i Stosowanej (IUPAC) przy udziale, między innymi, amerykańskiego National Institute of Standards and Technology (NIST).

Historia[edytuj | edytuj kod]

Począwszy od lat 60. XX wieku, rozwój informatyki spowodował potrzebę opracowania metody komputerowego opisu struktur chemicznych i jednoznacznej identyfikacji substancji chemicznej. Do końca wieku powstało wiele takich metod, z których najczęściej stosowanymi okazały się SMILES oraz numer CAS (powiązany z bazą CAS Registry). Duża liczba powstałych standardów i rozwiązań miała jednak pewne ograniczenia: nie były one z sobą powiązane, część była wykorzystywana jedynie w wąskim zakresie, a wiele było standardami własnościowymi, to znaczy opracowanymi przez prywatne przedsiębiorstwa i wymagającymi od użytkowników opłat licencyjnych[2].

Idea utworzenia publicznie dostępnego standardu reprezentacji struktur chemicznych zrodziła się w NIST w 1999 i miała na celu powiązanie z sobą związków chemicznych w różnych bazach danych zarządzanych przez NIST[2][3]. W 2000 roku IUPAC rozpoczęła prace nad nowym sposobem opisu substancji chemicznych, który – w przeciwieństwie do nazewnictwa chemicznego – mógłby być stosowany zarówno w publikacjach papierowych, jak i w systemach informatycznych (mógłby być odczytywany maszynowo). Założeniami nowego identyfikatora była możliwość generowania go na podstawie powszechnie stosowanych zasad przedstawiania struktur chemicznych opracowanych przez IUPAC i przy użyciu publicznie dostępnego algorytmu oraz niezależność od jakiejkolwiek bazy danych struktur chemicznych. Innymi słowy, dwustronna konwersja między strukturą chemiczną a identyfikatorem mogłaby być dokonana przez każdego użytkownika[2]. Projekt utworzenia nowego identyfikatora substancji chemicznych oficjalnie rozpoczął się z początkiem 2001, przy współpracy IUPAC, NIST i wielu innych podmiotów. W 2009 został utworzony InChI Trust, brytyjska organizacja non-profit, której zadaniem jest wspieranie i rozwijanie standardu InChI[2], a której członkami są zarówno przedsiębiorstwa związane z branżą chemiczną, jak i instytucje publiczne czy organizacje chemiczne[3].

Pierwsza wersja (1.00) InChI została opracowana w 2005, trzy lata później udostępniono InChIKey, haszowaną wersję InChI, która ma zawsze tę samą liczbę znaków i jest łatwiejsza do użycia, na przykład przy wyszukiwaniu substancji chemicznych. Z uwagi na możliwość generowania różnych InChI dla takiej samej struktury (w zależności od pożądanego stopnia szczegółowości), w 2009 utworzono wersje standardowe InChI i InChIKey (oznaczane czasem jako StdInChI i StdInChIKey), które mają z góry ustalony poziom szczegółowości (czyli z danej struktury chemicznej zostanie wygenerowany zawsze taki sam identyfikator). Najnowszą wersję (1.05; stan na listopad 2018) opublikowano w 2017, wraz z RInChI (identyfikatorami dla reakcji chemicznych)[3], jednak wiele projektów związanych z rozszerzeniem zakresu InChI (m.in. na mieszaniny, związki nieorganiczne i metaloorganiczne, biomolekuły, tautomery, rotaksany, struktury Markusha czy zastosowanie kodów QR dla InChI) jest wciąż nieukończonych[4].

InChI[edytuj | edytuj kod]

InChI jest identyfikatorem generowanym na podstawie struktury chemicznej, narysowanej zgodnie ze standardami przedstawiania takich struktur opracowanymi przez IUPAC. Natomiast na podstawie już wygenerowanego InChI możliwe jest odtworzenie takiej struktury. Długość identyfikatora wzrasta wraz z wielkością struktury chemicznej, z której jest generowany, przy czym maksymalna liczba atomów w strukturze nie może przekroczyć 1000[2].

Podstawą InChI jest pewien rdzeń strukturalny, to znaczy struktura bez określonej tautomerii i stereochemii, o naturalnym składzie izotopowym i w stanie neutralnym. Na identyfikator składa się kilka warstw i podwarstw informacji, z których każda określa dany aspekt struktury chemicznej; przedstawiana struktura jest więc pochodną rdzenia strukturalnego o cechy wskazane przez kolejne warstwy i podwarstwy informacji. Możliwe jest generowanie identyfikatorów z określonym poziomem szczegółowości (np. bez rozróżnienia tautomerów), a więc w efekcie otrzymanie różnych InChI dla takiej samej struktury chemicznej. Z tego powodu istnieje również standardowy InChI – identyfikator, który generowany jest zawsze w identyczny sposób, bez względu na preferencje użytkownika, a więc stanowi identyfikator unikatowy dla danej struktury chemicznej. Identyfikatory takie rozpoczynają się od prefiksu InChI=1S/ zamiast InChI=1/. Kolejne warstwy i podwarstwy oddzielane są za pomocą ukośnika /. Po prefiksie następuje pierwsza warstwa informacji będąca wzorem sumarycznym. Następnie umieszczone są kolejne warstwy, z których część może nie występować w danym identyfikatorze, jeżeli nie ma znaczenia dla danej struktury chemicznej:

  • /c – połączenia między atomami tworzącymi strukturę cząsteczki
  • /h – miejsca przyłączenia atomów wodoru
  • /q – rozmieszczenie ładunków w cząsteczce
  • /p – protonowanie lub deprotonowanie
  • /b – wiązania podwójne
  • /s, t, m – stereochemia struktury
  • /i – warstwa izotopowa
  • /f – tautomeryczne atomy wodoru[2][5].

InChIKey[edytuj | edytuj kod]

InChI jest identyfikatorem o różnej, często bardzo dużej liczbie znaków, a przy tym zawierającym wiele znaków niebędących cyframi ani literami. Z tego względu jego użycie do wyszukiwania struktur chemicznych w wielu bazach danych lub wyszukiwarkach jest ograniczone. Z tego powodu wraz z InChI generowany jest również InChIKey, to znaczy InChI zhaszowany przy użyciu SHA-256, mający zawsze 27 znaków. Ogólny format InChIKey to AAAAAAAAAAAAAA-BBBBBBBBFV-P i zawiera pięć bloków informacji:

  • 14-znakowy człon AAAAAAAAAAAAAA określa ogólną strukturę cząsteczki
  • 8-znakowy człon BBBBBBBB zawiera dodatkowe informacje strukturalne, na przykład stereochemię cząsteczki lub skład izotopowy
  • F przyjmuje wartość S dla wersji standardowej lub N dla wersji niestandardowej
  • V to oznaczenie wersji (A dla wersji 1)
  • P określa protonowanie/deprotonowanie (przy czym A oznacza wartość mniejszą od −12 lub większą od +12, B do M to wartości od −12 do −1, N oznacza 0, a litery od O do Z oznaczają wartości od +1 do +12).

Z InChIKey nie jest jednak nigdy możliwe odtworzenie ani InChI, ani wyjściowej struktury chemicznej[2][5]. Metoda generowania InChIKey sprawia ponadto, że wystąpienie kolizji (czyli przypisania dwóm identyfikatorom InChI takiego samego InChIKey) jest nieuniknione, choć prawdopodobieństwo wystąpienia takiego zdarzenia jest niewielkie[6].

Uwagi[edytuj | edytuj kod]

  1. W literaturze polskojęzycznej pojawia się tłumaczenie „międzynarodowy identyfikator chemiczny[1], ale nie jest to ugruntowana polska nazwa tego identyfikatora.

Przypisy[edytuj | edytuj kod]

  1. Poradnik dotyczący identyfikacji i nazywania substancji na podstawie rozporządzeń REACH i CLP, Helsinki: Europejska Agencja Chemikaliów, 2017, s. 12, DOI10.2823/279785, ISBN 978-92-9495-724-5.
  2. a b c d e f g Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Stephen Heller i inni, InChI – the worldwide chemical structure identifier standard, „Journal of Cheminformatics”, 5, 2013, s. 7, DOI10.1186/1758-2946-5-7, PMID23343401, PMCIDPMC3599061 (ang.).
  3. a b c About the InChI Trust, InChI Trust [dostęp 2018-11-05] [zarchiwizowane z adresu 2018-01-16] (ang.).
  4. Steve Heller, InChI Trust Project Director’s Report, InChI Trust, lipiec 2017 [dostęp 2018-11-05] [zarchiwizowane z adresu 2018-11-05] (ang.).
  5. a b Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Stephen R. Heller i inni, InChI, the IUPAC International Chemical Identifier, „Journal of Cheminformatics”, 7, 2015, s. 23, DOI10.1186/s13321-015-0068-4, PMID26136848, PMCIDPMC4486400 (ang.).
  6. Publikacja w otwartym dostępie – możesz ją bezpłatnie przeczytać Igor Pletnev i inni, InChIKey collision resistance: an experimental testing, „Journal of Cheminformatics”, 4 (39), 2012, DOI10.1186/1758-2946-4-39, PMID23256896, PMCIDPMC3558395 (ang.).