FASTA format

Z Wikipedii, wolnej encyklopedii

Format FASTA – format zapisu sekwencji kwasów nukleinowych oraz białek używany w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.

Format[edytuj | edytuj kod]

Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:

>Keratyna 5, egzon 2, Homo sapiens
GTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAG
CAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAAC
CTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGA
AACATGCAGGACCTGGTGGAAGACTTCAAGAACAA

Oznaczenia literowe[edytuj | edytuj kod]

Nukleotydy są oznaczane za pomocą:

Symbol Znaczenie
A adenozyna
C cytozyna
G guanina
T tymidyna
U uracyl
R G A (puryna)
Y T C (pirymidyna)
K G T (grupa ketonowa)
M A C (grupa aminowa)
S G C (silne oddziaływanie)
W A T (słabe oddziaływanie)
B G T C (nie A, B jest po A)
D G A T (nie C, D jest po C)
H A C T (nie G, H jest po G)
V G C A (nie T, V jest po U)
N A G C T (którykolwiek, od ang. any)
X zamaskowany
- przerwa nieokreślonej długości

Aminokwasy są określane za pomocą:

Symbol Znaczenie
A alanina
B kwas asparaginowy lub asparagina
C cysteina
D kwas asparaginowy
E kwas glutaminowy
F fenyloalanina
G glicyna
H histydyna
I izoleucyna
K lizyna
L leucyna
M metionina
N asparagina
O pirolizyna
P prolina
Q glutamina
R arginina
S seryna
T treonina
U selenocysteina
V walina
W tryptofan
Y tyrozyna
Z kwas glutaminowy lub glutamina
X którykolwiek
* koniec translacji
- przerwa nieokreślonej długości