Bioinformatyka

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania
Podwójna helisa DNA

Bioinformatyka – interdyscyplinarna dziedzina nauki wykorzystująca metody i narzędzia programistyczne do rozwiązywania problemów z nauk biologicznych. Jako dziedzina nauki łączy w sobie informatykę i matematykę w celu przetwarzania danych biologicznych. Mogą one składać się min. z informacji zapisanych w kodzie genetycznym, statystyk pacjenta lub literatury naukowej.

Bioinformatyka obejmuje rozwój metod obliczeniowych służących do badania struktury, funkcji i ewolucji genów, genomów i białek. Ponadto odpowiada za rozwój metod wykorzystywanych do zarządzania i analizy informacji biologicznej gromadzonej w toku badań genomicznych oraz badań prowadzonych z zastosowaniem wysokoprzepustowych technik eksperymentalnych[1]. Z bioinformatyką powiązane są: genomika, proteomika, metabolomika, transkryptomika i konektomika.

Wstęp[edytuj | edytuj kod]

Historia[edytuj | edytuj kod]

Termin „bioinformatyka” pojawił się po raz pierwszy w 1970 roku i odnosił się do badania procesów informatycznych w systemach biotycznych. Jego twórcami są Paulien Hogeweg i Ben Hesper. W ten sposób wyróżnili oni bioinformatykę jako osobną dziedzinę nauki obok biochemii i biofizyki[2].

Z bioinformatyką związana jest ściśle biologia molekularna. Na rozwój tej drugiej dziedziny miały wpływ przede wszystkim dwa dokonania w latach 50 XX wieku. Pierwszym z nich było podanie w 1953r. przez J. Watsona i F. Circka modelu podwójnej helisy łańcucha DNA przechowującej informację genetyczną we wszystkich organizmach żywych. Drugim było określenie przez F. Sangera w 1952r. całkowitej sekwencji aminokwasów z dwóch łańcuchów A i B insuliny. Późniejsze eksperymenty biologiczne zaczęły generować ogromne ilości danych, które okazały się trudne do przechowywania i „ręcznego” przetwarzania. Z tego powodu wykorzystanie komputerów i informatyki stało się niezbędne przy pracy biologów.

Pionierką w tej dziedzinie była M. Oakley Dayhoff, która między innymi stworzyła pierwszą bioinformatyczną bazę danych w której zgromadziła wszystkie dostępne sekwencje białkowe (pierwotnie zbiór opublikowała jako książkę). Dzięki kolejnym dokonaniom takim jak zsekwencjonowanie po raz pierwszy pełnego genomu DNA przez F. Sangera rozwój bioinformatyki i zapotrzebowanie na nią zaczął przyspieszać. W latach 80. XX wieku powstał GenBank, amerykańska bioinformatyczna baza danych, która zaczęła zbierać i gromadzić sekwencji nukleotydowe. Ponadto założono National Center for Biotechnology Information (NCBI), organizację która zajęła się zarządzaniem GenBankiem, i Human Genome Project (HGP), projekt naukowy którego celem było poznanie ludzkiego genomu. W Europie powstała baza danych na Uniwersytecie w Genewie (SWISS-PROT) i European Molecular Biology Laboratory (EMBL). Dzięki dalszym badaniom i postępowi w bioinformatyce możliwe było między innymi zsekwencjonowanie w 2001r. ludzkiego genomu[3][4].

Podstawowe zagadnienia bioinformatyki[edytuj | edytuj kod]

  • katalogowanie informacji biologicznych (bazy danych, bazy danych sekwencji i wyszukiwanie sekwencji, adnotacji, danych numerycznych w bazach danych)
  • analiza sekwencji DNA (składanie sekwencji, adnotacja, wyszukiwanie sekwencji kodujących, regulatorowych i repetytywnych, motywów, markerów)
  • analiza sekwencji genomów, porównywanie genomów
  • ustalanie ewolucyjnych relacji pomiędzy zbiorami sekwencji / organizmów (drzewa filogenetyczne)
  • genotypowane (używane między innymi do wyszukiwania genów odpowiedzialnych za choroby genetyczne, w ustalaniu ojcostwa, kryminalistyce)
  • analiza ekspresji genów (głównie analiza danych z mikromacierzy)
  • analiza sekwencji białek, nazywana też proteomiką (porównywanie sekwencji, wyszukiwanie domen i motywów, przewidywanie własności fizyko-chemicznych, drugo- i trzecio-rzędowej struktury białka, lokalizacji w obrębie komórki, analiza danych z eksperymentów spektroskopowych)
  • katalogowanie funkcji genów/białek, analiza dróg metabolicznych (np metabolizm lipidów) oraz dróg sygnałowych (np od receptora na powierzchni komórki poprzez kaskadę kinaz do czynników transkrypcyjnych)
  • modelowanie układów biologicznych
  • wirtualne dokowanie (ang. virtual docking) - np. używając trójwymiarowej struktury aktywnego centrum enzymu ("zamek" albo "kieszonka" ang. pocket) przeszukuje się w komputerze tysiące małych cząsteczek z których kilka-kilkanaście ('kluczy') będzie miało kształt mieszczący się w centrum aktywnym. Pierwszy krok w kierunku odkrywania nowych leków.
  • komputery DNA
  • morfometria / analiza obrazu

Cele[edytuj | edytuj kod]

Szybki rozwój genomiki i biologii molekularnej doprowadził do powstawania ogromnej ilości informacji, które były wynikami przeprowadzonych eksperymentów w tych dziedzinach. Biolodzy w swojej pracy byli zmuszeni do skorzystania z komputerów i informatyki na co najmniej dwóch etapach:

  • na etapie gromadzenia i efektywnego zapisywania, przechowywania i wydobywania informacji, co prowadziło do wykorzystywania systemów baz danych
  • na etapie przetwarzania informacji zawartej w łańcuchach DNA, RNA i białek, modelowania struktur przestrzennych tych molekuł, a także przewidywania ich funkcjonalności i wzajemnych powiązań, co wymagało narzędzi informatycznych i matematycznych.

Bioinformatyka jest dziedziną wiedzy dla której biologia i związane z nią problemy są przyczyną działania, natomiast informatyka wraz z matematyką próbują pomóc w ich rozwiązaniu. Po pierwsze pociąga to za sobą powstanie i zarządzanie zaawansowanymi bazami danych, w których mogą być przechowywane i efektywnie eksplorowane dane biologiczne. Drugą ważną częścią bioinformatyki jest aspekt obliczeniowy, czyli wykorzystanie komputerów do przetwarzania danych. Matematyka pozwala przy pomocy równań zamodelować pewne zjawiska, ale nie jest to wystarczające. Potrzebne są przede wszystkim efektywne algorytmy i programy komputerowe konstruujące rozwiązania. Przykładem są metody do lokalizowania genów w sekwencjach białkowych, aby przewidzieć ich strukturę i/lub funkcję i przydzielić tym samym daną sekwencję białkową do rodziny pokrewnych sekwencji.

Celem bioinformatyki jest zatem pomoc w zakresie zrozumienia funkcjonowania mechanizmów organizmów żywych i procesów biologicznych poprzez budowę i wykorzystanie narzędzi ilościowych. Jest wykorzystywana między innymi do dopasowywania sekwencji, odnajdywania genów, przewidywania struktur białek, ale również znajduje zastosowanie także w wiele pokrewnych dziedzin takich jak biotechnologia czy medycyna. Przyczynia się to między innymi do szybszego projektowania leków czy też wykonywania analiz DNA w medycynie sądowej[5].

Stosunek do biologii obliczeniowej[edytuj | edytuj kod]

Bioinformatyka jest podobna, ale różni się od biologii obliczeniowej. Należy rozdzielić te dwie dziedziny na podstawie obowiązującego podziału: nauka a technologia (science vs technology). Zgodnie z tym rozróżnieniem biologia obliczeniowa opracowuje modele ilościowe zagadnień biologicznych bazujące na sformułowaniach matematycznych, bioinformatyka natomiast korzystając z tych modeli (lub ich uproszczonych wersji) buduje algorytmy konstruujące interesujące biologów rozwiązania. Bioinformatyka zajmuje się zatem rozwijaniem narzędzi do analiz sekwencji (kwasów nukleinowych i białek), strukturalnych, funkcjonalnych oraz systemowych, a także narzędzi do ekstrakcji informacji przechowywanej w bazach danych.

Analizy danych biologicznych przy pomocy bioinformatyki w celu uzyskania wartościowych wyników polega między innymi na tworzeniu programów, które używają algorytmów z teorii grafów, sztucznej inteligencji czy eksploracji danych. Algorytmy są natomiast zależne od podstaw teoretycznych, takich jak matematyka dyskretna czy statystyka[5].

Analiza sekwencji DNA[edytuj | edytuj kod]

Sekwenator Illumina HiSeq 2500

Od momentu odkrycia struktury DNA i zsekwencjonowania pierwszego genomu zasób zgromadzonych danych genomowych dawno już przerósł rozmiarem niezautomatyzowanej analizy. Powodem tego stała się głównie duża obecnie szybkość pozyskiwania informacji, niski koszt takich operacji oraz znaczna długość badanych polimerów. Pierwszy organizm którego kod genetyczny został całkowicie odczytany był wirusem atakującym bakterie – bakteriofag ΦX174 lub Fag Fi-X174[6]. Jego charakterystyczną cechą jest to, że kod genetyczny jest zachodzący, co wynika z małego genomu tego faga i ekonomicznego jego wykorzystania. W dzisiejszych czasach narzędzia informatyczne i matematyczne pozwoliły na badanie trudniejszych problemów biologicznych oraz pozyskiwanie informacji o sekwencji, które są analizowane w celu określenia elementów takich jak: geny kodujące białka (polipeptydy), genów RNA, sekwencji regulatorowych, motywów strukturalnych bądź sekwencji repetytywnych. Posiadanie informacji o genomach danych gatunków pozwala naukowcom na porównywanie danych gatunków z innymi, co pozwala na ukazanie podobieństw pomiędzy funkcjami białek bądź relacjami pomiędzy pewnymi gatunkami (wiedzą tą zajmuje się odrębna nauka filogenetyka, zajmująca się badaniem drogi rozwojowej organizmów , wykorzystująca systematykę molekularną do budowania drzew filogenetycznych) Kasprzak M. (2013) „Wybrane algorytmy i modele grafowe w bioinformatyce” wydawnictwo: Politechnika Poznańska ISBN: 9788377752333. Wyznaczanie pierwszorzędowej struktury DNA organizmów stanowi, będąc pierwszym krokiem w kierunku poznania i zrozumienia genomów i zakodowanych w nich funkcji, ważną pozycję w prowadzonych współcześnie badaniach. Jednym z przykładowych projektów jest Projekt Poznania Genomu Ludzkiego (ang. Human Genome Project, HUGO Project), realizowany w laboratoriach na całym świecie. Jest to program mający na celu poznanie sekwencji wszystkich komplementarnych par zasad, tworzących genom ludzki [7]. Algorytmy wykorzystywane we wspomaganiu poszczególnych procesów tego badania znajdują swoje zastosowanie wszędzie, gdzie stosuje się zdobycze genetyki molekularnej. Przykładową dziedziną jest medycyna, gdzie dana metoda przydatna jest np. w celu rozpoznania chorób genetycznych, rozwijaniu terapii genowej, biologia , rolnictwo (doskonalenie organizmów hodowlanych). Stosowaną do niedawna metodą rozpoznawania określonych sekwencji była metoda laboratoryjna poprzez elektroforezę w żelu, która pomija etap informatyczny i pozwala na odczytanie sekwencji stosunkowo krótkich łańcuchów DNA. Kolejną metodą poznawania sekwencji DNA jest sekwencjonowanie poprzez hybrydyzację, która akceptuje cząsteczki nawet parokrotnie dłuższe, wymaga ona za to wspomagania algorytmicznego Maxam A. M., Gilbert W., „A new method for sequencing DNA, Proceedings of the National Academy of Sciences of the USA” 74, 1977, s. 560-564. Przełomem okazało się opracowanie szeregu nowoczesnych technologicznie sekwanatorów nowej generacji, dzięki którym wyznaczanie sekwencji genomów stało się znacznie powszechniejsze, szybsze, tańsze a otrzymana informacja pewniejsza. Współczesne, zaawansowane algorytmy mają możliwość wykorzystania produkowanych przez nie masowych danych i z pominięciem obliczeniowej części dla etapu sekwencjonowania wskoczyć od razu na poziom asemblacji. Kolejną techniką, która wykorzystuje narzędzia informatyczne są programy komputerowe np. BLAST (ang. Basic Local Aligment Search Tool). Służy on do lokalnego przyrównywania sekwencji aminokwasów białek lub nukleotydów DNA. Jest to jeden z najczęściej używanych programów tego typu ze względu na zastosowanie mechanizmu heurystycznego i dużo większą szybkością działania[8].

Adnotacja genomu[edytuj | edytuj kod]

Proces adnotacji genomu jest etapem, który następuje po zidentyfikowaniu sekwencji kodujących. Stanowi odłam w ogólnej dziedzinie analizy genomu. Polega on na przypisywaniu odnalezionym genom (a właściwie ich białkowym produktom) funkcji i roli jaką pełnią w komórce oraz określa wszystko co może być dokonane w sekwencji genomu za pomocą obliczeń. Jest to jedno z największych wyzwań we współczesnej nauce, ponieważ proces ten generuje znaczną ilość błędów, a niekiedy wręcz absurdalne „identyfikacje” ze względu na dużą liczbę genów w większości genomów[9].

Adnotacja stanowi trzy główne etapy:

  • identyfikacja fragmentów genomu, które nie kodują białek
  • identyfikacja elementów genomu kodujących białka – proces zwany przewidywaniem genów
  • przyłączanie biologicznych informacji do danych elementów Istnieje wiele różnych organizacji w świecie nauki, których jednym z głównych przedsięwzięć jest adnotacja genomów. Efektem ich pracy są powszechnie dostępne biologiczne bazy danych. Są to między innymi:
  • GENCODE
  • GeneRIF
  • RefSeq
  • ENCyclopedia Of DNA Elements (ENCODE)
  • Ensembl
  • Uniprot
  • Entrez Gene
  • Vertebrate and Genome Annotation Project (Vega)

Obliczenia dotyczące relacji ewolucyjnych[edytuj | edytuj kod]

Biologia ewolucyjna zajmuje się badaniem pochodzenia gatunków od wspólnych przodków, ich zmianami i różnicowaniem w czasie. Stara się wyjaśnić przystosowania organizmów do środowiska oraz przyczyny ich zróżnicowania. Jest to dziedzina interdyscyplinarna w której informatyka znalazła swoje zastosowanie pozwalając naukowcom na:

  • odszukiwanie ewolucji olbrzymiej liczby organizmów poprzez pomiary zmian w ich DNA zarówno poprzez taksonomię fizjologiczną, a także przez fizjologiczne obserwacje
  • porównanie całych genomów, które pozwalają poznawać więcej wydarzeń ewolucyjnych, takich jak duplikacja genów oraz boczny transfer genów
  • budowanie kompleksów obliczeniowych populacji do przewidywania wyników systemu
  • poznawanie i dzielenia informacji coraz bardziej zwiększającej się liczby gatunków i organizmów

Porównywanie genomów[edytuj | edytuj kod]

Porównywanie genomów stanowi część badań biologicznych w których to porównywane są cechy genetyczne odrębnych organizmów lub ustalenie zgodności genowej. Genetyczne cechy zawierać mogą sekwencje DNA, geny, sekwencje regulatorowe oraz inne. Złożoność genomów stanowi bardzo wiele zaskakujących wyzwań dla rozwoju matematycznego modelowania i algorytmów, które uciekają się do spektrum algorytmicznych, statystycznych oraz matematycznych technik, z precyzyjnych parametrów i przybliżonych algorytmów. Obliczenia zastosowane w bioinformatyce pozwalają wykryć rodziny białek homologicznych[10].

Analiza mutacji nowotworowych[edytuj | edytuj kod]

Istotnym aspektem bioinformatyki stał się rozwój infrastruktury odpowiedzialnej za badania nad chorobami takimi jak nowotwory. W takich przypadkach genomy zarażonych komórek są zwykle rearanżowane w kompleksy. W celu zidentyfikowania nieznanych poprzednio punktowych mutacji, znajdujących się w genach nowotworowych , stosuje się próby masowego sekwencjonowania. Ciągle trwają prace nad specjalistycznymi, zautomatyzowanymi systemami do kierowania pełnymi rozmiarami sekwencji danych. Bioinformatycy tworzą nowe algorytmy i oprogramowania do porównania wzrastającej kolekcji sekwencji ludzkiego genomu. Typem danych, który wymaga ciągłego rozwoju informatycznego jest analiza zmian patologicznych, które znajdują się w wielu nawracających się nowotworach.

Ekspresja genów i białek[edytuj | edytuj kod]

Neomycyna jest przykładem cząsteczki, która zmniejsza ekspresję wszystkich genów białka prowadząc do śmierci komórki, działając jako antybiotyk.

Analiza ekspresji genów[edytuj | edytuj kod]

Ekspresja genów jest wieloetapowym procesem, którego celem jest utworzenie białek lub cząsteczek RNA. Może ona zostać zdeterminowana m.in. poprzez wykonanie pomiaru poziomu matrycowego RNA. Istnieje wiele metod na zbadanie poziomu ekspresji, niektórymi z nich są np. stosowanie mikromacierzy DNA, hybrydyzacja in-situ czy równoległa sekwencja masowa (MPSS). Cechą technik stosowanych do odczytywania jest niedokładność i możliwość występowania błędów wynikająca z właściwości danych biologicznych, które za natury są niedokładne ze względu na możliwość występowania mutacji, a także z niemożności uzyskania idealnej próbki materiału. Stanowi to pole do zastosowania narzędzi bioinformatycznych, dzięki którym za pomocą komputerów możliwa jest naprawa błędów i poprawny odczyt danych.

Analiza ekspresji białek[edytuj | edytuj kod]

Mikromacierze białkowe i spektrometria masowa wysokiej przepustowości mogą przedstawić nam strukturę białek w próbce biologicznej, jednakże podobnie jak przy analizie ekspresji genów pojawiają się problemy z dopasowywaniem bardzo dużych ilości danych do siebie i z ich analizą statystyczną, tworząc tym samym miejsce na zastosowanie narzędzi bioinformatycznych.

Analiza regulacji[edytuj | edytuj kod]

Ekspresja genów jest procesem o bardzo dużym zapotrzebowaniu energetycznym, dlatego też konieczna jest jego precyzyjna regulacja. Regulacja ekspresji prowadzi do wzrostu lub obniżenia aktywności białek w organizmie. Analizując regulację jesteśmy w stanie np. porównać różne etapy cyklu komórkowego w określonych warunkach fizjologicznych[10].

Bioinformatyka strukturalna[edytuj | edytuj kod]

Struktura białka

Bioinformatyka strukturalna jest gałęzią bioinformatyki, związaną z analizą i prognozą trójwymiarowej struktury biologicznych makromolekuł takich jak białka, RNA czy DNA. Zajmuje się między innymi uogólnieniami o wielocząsteczkowych trójwymiarowych strukturach takich jak porównania ogólnych zgięć i lokalnych wzorów, zasadami molekularnych zgięć i ewolucją. Bioinformatyka strukturalna może być spostrzegana jako część komputerowej biologii strukturalnej.

Przewidywanie struktury białka jest innym ważnym zastosowaniem bioinformatyki. Białkowa sekwencja aminokwasów, tak zwana pierwszorzędna struktura, może być łatwo określona z sekwencji w genie, która go koduje. W zdecydowanej większości przypadków, ta pierwszorzędna struktura określa wyjątkowo strukturę w jej oryginalnym środowisku. (Oczywiście są wyjątki takie jak choroba wściekłych krów). Wiedza na temat tej struktury jest ważna w rozumieniu funkcji białek. Z braku lepszych wyrażeń, informacja strukturalna jest zazwyczaj klasyfikowana jedna z drugorzędnych, trzeciorzędnych lub czwartorzędnych struktur. Wykonalne ogólne rozwiązanie do takich przesłanek pozostaje otwartym problemem.

Jednym z kluczowych pomysłów w bioinformatyce jest homologia. W genomicznej gałęzi bioinformatyki, homologia jest używana do przewidywania funkcji genu: jeśli sekwencja genu A, której funkcja jest znana, jest homologiczna z sekwencją genu B, której funkcja jest nieznana, ktoś mógłby wnioskować, że B dzieli funkcję genu A. W strukturalnej gałęzi bioinformatyki, homologia jest używana do określenia które części białka są ważne w tworzeniu się struktury i interakcji z innymi białkami. W technice zwanej modelowanie homologiczne ta informacja jest używana do przewidywania struktury białka gdy struktura białka homologicznego jest znana. To pozostaje obecnie jedyną drogą do niezawodnego przewidywania struktury białka[11][12].

Bazy danych[edytuj | edytuj kod]

Bioinformatyczne bazy danych to odpowiednio zorganizowane zbiory z bardzo dużą ilością danych, głównie sekwencji DNA/RNA. Ich tworzenie jest jednym z najważniejszych zastosowań bioinformatyki, ponieważ są one niezbędne przy badaniach naukowych. Początkowo podstawowymi kryteriami przy tworzeniu baz danych był sposób wyszukiwania, katalogowania oraz łatwego wyszukiwania informacji z już zgromadzonych zasobów. Z czasem na podstawie „genowo – białkowych” baz zaczęły powstawać zbiory danych pozwalające na uzyskanie dodatkowych informacji – przede wszystkim o charakterze ewolucyjnych zależności pomiędzy sekwencjami dla wybranych grup organizmów. Dowolna możliwość operowania zgromadzonymi w bazach „surowymi” danymi sekwencyjnymi okazała się doskonałym narzędziem analitycznym między innymi w genomice. Nie powinny być one jednak traktowane jako absolutnie niezmienne i ostateczne. Każda sekwencja w bazach jest wynikiem eksperymentu, czyli mniej lub bardziej dokładnego procesu sekwencjonowania. Z tego powodu czasami zdarza się, że opublikowana w bazie sekwencja zawiera błędy lub jest błędnie przypisana do genu/białka. Dobra baza danych powinna charakteryzować się następującymi cechami:

  • Możliwością precyzyjne i szybkiej – za pomocą minimalnej liczby kroków - ekstrakcji tylko tych informacji, które są poszukiwane,
  • Możliwością obróbki informacji, przy zastosowaniu skojarzonego z bazą oprogramowania,
  • Możliwością łatwego przejścia poprzez odpowiednie łącza internetowe do innych baz danych,
  • Możliwością zdefiniowania przez użytkownika sposobu podglądu uzyskanych danych i ich zapisu i/lub wydrukowania,
  • Małą redundancją danych, tzn. zgromadzone informacje powinny być unikatowe, a obecność wszelkich nadmiarowych danych powinna być ograniczona do minimum.

Biologiczne bazy danych były pierwotnie tworzone głównie przez biologów molekularnych i biochemików. Obecnie obserwuje się w konstrukcji baz tendencję, aby niezależnie od ich merytorycznej zawartości, były one czytelne i zrozumiałe dla niespecjalistów z różnych dziedzin nauk biologicznych, rolniczych i medycznych[13].

Oprogramowanie i narzędzia[edytuj | edytuj kod]

Zakres dostępnego oprogramowania przeznaczonego dla bioinformatyki zaczyna się od prostych narzędzi korzystających z linii poleceń i kończy na skomplikowanych programach graficznych i usługach internetowych.

Oprogramowanie open-source[edytuj | edytuj kod]

Wiele spośród narzędzi i oprogramowania wykorzystywanych w bioinformatyce jest dostępnych za darmo lub w postaci open-source. Połączenie ciągłego zapotrzebowania na nowe algorytmy służące do analizy i swobodny dostęp do kodu programów umożliwiło rozwój darmowych programów. Wszystkie grupy badawcze mogły przyczynić się to ich ulepszenia bez względu na ich warunki finansowe. Darmowe oprogramowanie przyczynia się również do tworzenia pewnych standardów i integracji bioinformatycznych danych.

The Open Bioinformatics Foundation (O|B|F) jest organizacją non-profit, która zajmuje się promocją wolnego oprogramowania w bioinformatyce. Jest ona odpowiedzialna za takie projekty jak BioPerl, BioJava and Biopython. Ponadto wspiera coroczną konferencję Bioinformatics Open Source Conference (BOSC)[14].

Usługi internetowe[edytuj | edytuj kod]

Interfejsy oparte o SOAP i REST zostały szeroko opracowane dla szerokiej gamy zastosowań bioinformatycznych, pozwalając aplikacji działającej na komputerze w jednej części świata używać algorytmów, danych i zasobów obliczeniowych serwerów w innych częściach świata. Główne korzyści wynikają z faktu, że użytkownicy końcowi nie mają do czynienia z oprogramowania i utrzymania bazy danych. Podstawowe usługi bioinformatyczne zostały podzielone przez European Bioinformatics Institue (EBI) na trzy kategorie:. SSS (Sequence Search Service), MSA (Multiple Sequence Alignment) i BSA (Biological Sequence Analysis)[15].

Inne[edytuj | edytuj kod]

Komputery DNA[edytuj | edytuj kod]

Komputer DNA (molekularny) jest to zbiór specjalnie wyselekcjonowanych łańcuchów DNA, których kombinacja spowoduje rozwiązanie postawionego problemu. Nadzieją pokładaną w komputerach DNA jest ich wysoki stopień równoległości, co potencjalnie powinno umożliwić rozwiązanie problemów wymagających wielu obliczeń poprzez obliczenia równoległe. Pierwsze komputery tego typu powstały na początku XXI wieku.

Kryptografia molekularna[edytuj | edytuj kod]

DNA może być wykorzystywane do symetrycznych algorytmów jednorazowych (one-time-pad) z operacjami podstawiania oraz XOR. Kluczem jest łańcuch DNA, który musi spełniać trzy warunki: musi być przynajmniej tak długi jak tekst, który chcemy zaszyfrować, musi być losowy oraz może być wykorzystany tylko raz. Łańcuch ten złożony jest losowo z krótkich sekwencji oligonukleotydów, a następnie odizolowany i sklonowany. Każdy segment łańcucha zaczyna i kończy się tak zwanymi stoperami, który uniemożliwia reakcję na dalszych częściach łańcucha, a między nimi znajduje się tekst zaszyfrowany oraz tekst jawny[16].

Przypisy

  1. Paul G. Higgs Teresa K. Attwood. „Bioinformatyka i ewolucja molekularna.”
  2. Hogeweg, P. (2011). "The Roots of Bioinformatics in Theoretical Biology"
  3. http://bioinformaticsweb.net/his.html
  4. Ouzounis, Christos A., Valencia, Alfonso. Early bioinformatics: the birth of a discipline – a personal view. „Bioinformatics”. 19 (17), s. 2176–2190, 2003. doi:10.1093/bioinformatics/btg309. PMID 14630646. 
  5. 5,0 5,1 http://www2.cs.put.poznan.pl/wp-content/uploads/2011/11/wyklad_inauguracyjny_2011.pdf
  6. Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M. Nucleotide sequence of bacteriophage phi X174 DNA. „Nature”. 265 (5596), s. 687–695, 1977. doi:10.1038/265687a0. PMID 870828. 
  7. Zob. Francis S. Collins: The Language of God. A Scientist Presents Evidence for Belief. Free Press, New York – London - Toronto - Sydney, 2006. ISBN 0-7432-8639-1., s. 2.
  8. http://www.blastalgorithm.com/
  9. Genome Annotation and Analysis. W: Koonin EV, Galperin MY.: Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. Boston: Kluwer Academic, 2003.
  10. 10,0 10,1 A.D. Bexevanisa, B.F.F. Ouellette, „Bioinformatyka” PWN Warszawa 2005
  11. Mount, David W. (May 2002). Bioinformatics: Sequence and Genome Analysis. Spring Harbor Press
  12. Bourne, P.E., and Gu, J. (2009) Structural Bioinformatics (2nd edition), John Wiley & Sons, New York
  13. I. Ślesak, S. Karpiński. Biologiczne bazy danych i ich zastosowanie w funkcjonalnej analizie porównawczej organizmów – wybrane zagadnienia. „Biotechnologia”, s. 39–52, 2010. 
  14. http://www.open-bio.org/wiki/Main_Page
  15. Bioinformatics. W: Robert Nisbet, John Elder IV, Gary Miner: Handbook of Statistical Analysis and Data Mining Applications. Academic Press, 2009, s. 321–334. ISBN 9780080912035.
  16. Maćkowiak, Krzysztof. "Kryptografia molekularna."

Linki zewnętrzne[edytuj | edytuj kod]