Pangenom: Różnice pomiędzy wersjami

Z Wikipedii, wolnej encyklopedii
[wersja nieprzejrzana][wersja nieprzejrzana]
Usunięta treść Dodana treść
Nie podano opisu zmian
mNie podano opisu zmian
Linia 1: Linia 1:
= '''Pan-genom, supergenom''' =
nmmjk gfg hgh dfdgf

hfhbuning
==== termin z dziedziny [[Genetyka|genetyki]] i [[Biologia molekularna|biologii molekularnej]] wprowadzony w 2005 roku przez Tettelin i współpracowników<ref name=":0">{{Cytuj |autor = Hervé Tettelin, David Riley, Ciro Cattuto, Duccio Medini |tytuł = Comparative genomics: the bacterial pan-genome |czasopismo = Current Opinion in Microbiology |data = 2008-10-01 |data dostępu = 2020-11-20 |issn = 1369-5274 |wolumin = 11 |numer = 5 |opis = Antimicrobials/Genomics |s = 472–477 |doi = 10.1016/j.mib.2008.09.006 |url = http://www.sciencedirect.com/science/article/pii/S1369527408001239 |język = en}}</ref>. Oznacza pełny zestaw [[Gen|genów]] danego gatunku; składa się z genów rdzeniowych, które są obecne u wszystkich osobników, oraz genów zmiennych, które są obecne tylko u niektórych osobników<ref>{{Cytuj |autor = Bhavna Hurgobin, David Edwards |tytuł = SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete? |czasopismo = Biology |data = 2017/3 |data dostępu = 2020-11-20 |wolumin = 6 |numer = 1 |s = 21 |doi = 10.3390/biology6010021 |pmid = 28287462 |pmc = PMC5372014 |url = https://www.mdpi.com/2079-7737/6/1/21 |język = en}}</ref>. Jest to narzędzie służące do wizualizacji podobieństw i różnic między blisko spokrewnionymi osobnikami w obrębie [[Gatunek (biologia)|gatunku]] lub [[Rodzaj (biologia)|rodzaju]], badania zmienności genomu w konkretnym gatunku, ustalenia stopnia [[Poziomy transfer genów|poziomego transferu genów]] (HGT), a także do zrozumienia różnic [[Fenotyp|fenotypowych]]<ref name=":1">{{Cytuj |autor = Lars Snipen, David W. Ussery |tytuł = Standard operating procedure for computing pangenome trees |czasopismo = Standards in Genomic Sciences |data = 2010-01-28 |data dostępu = 2020-11-20 |issn = 1944-3277 |wolumin = 2 |numer = 1 |s = 135–141 |doi = 10.4056/sigs.38923 |pmid = 21304685 |pmc = PMC3035256 |url = http://www.standardsingenomics.org/index.php/sigen/article/view/sigs.38923 |język = en}}</ref>. Badaniem pan-genomów zajmuje się pangenomika<ref name=":2">{{Cytuj |autor = Emanuele Bosi, Renato Fani, Marco Fondi |redaktor = Alessio Mengoni, Marco Galardini, Marco Fondi |tytuł = Defining Orthologs and Pangenome Size Metrics |data = 2015 |data dostępu = 2020-11-20 |isbn = 978-1-4939-1719-8 |wolumin = 1231 |miejsce = New York, NY |wydawca = Springer New York |s = 191–202 |doi = 10.1007/978-1-4939-1720-4_13 |url = http://link.springer.com/10.1007/978-1-4939-1720-4_13}}</ref> ====

=== Historia ===
Pojęcie pan-genom („pan” - „παν” po grecku - oznacza „całość”)<ref name=":3">{{Cytuj |autor = Hervé Tettelin, Vega Masignani, Michael J. Cieslewicz, Claudio Donati, Duccio Medini |tytuł = Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: implications for the microbial "pan-genome" |czasopismo = Proceedings of the National Academy of Sciences of the United States of America |data = 2005-09-27 |data dostępu = 2020-11-20 |issn = 0027-8424 |wolumin = 102 |numer = 39 |s = 13950–13955 |doi = 10.1073/pnas.0506758102 |pmid = 16172379 |pmc = 1216834 |url = https://pubmed.ncbi.nlm.nih.gov/16172379}}</ref> zostało wprowadzony przez Tettelin i współpracowników<ref name=":0" />. Po raz pierwszy został opracowany dla chorobotwórczego paciorkowca ''[[Streptococcus agalactiae]]'' szczególnie niebezpiecznego dla kobiet w ciąży i noworodków<ref name=":3" />. Tettelin i współpracownicy<ref name=":0" /> przeanalizowali osiem izolatów tego drobnoustroju, których pan-genom „obejmuje genom rdzeniowy wspólny dla wszystkich izolatów, stanowiący około 80% pojedynczego plus genom zbędny składający się z częściowo wspólnych i specyficznych dla szczepu genów”<ref name=":3" />.

=== Budowa pan-genomu ===
Rozwój technik sekwencjonowania umożliwił analizę coraz większej liczby genomów drobnoustrojów należących do tej samej jednostki taksonomicznej. Ostatecznie doprowadziło to do koncepcji pan-genomu, czyli całego zestawu genów występujących w grupie przedstawicieli tego samego gatunku/rodzaju<ref name=":2" />, który z kolei można podzielić na:

* genom rdzeniowy definiowany jako zbiór tych genów obecny we wszystkich badanych genomach<ref name=":2" /> zwykle obejmuje geny odpowiedzialne za funkcje otoczki komórkowej lub regulatorowe<ref name=":4">{{Cytuj |tytuł = Pangenome - Metagenomics |data dostępu = 2020-11-20 |opublikowany = www.metagenomics.wiki |url = http://www.metagenomics.wiki/pdf/definition/pangenome}}</ref>
* genom zmienny (nazywany również zbędnym, dodatkowym, elastycznym)<ref name=":4" /> zbiór genów posiadany tylko przez jeden organizm lub jego podgrupę<ref name=":2" /> na przykład geny specyficznej adaptacji szczepu, takie jak oporność na antybiotyki<ref name=":4" />

=== Rodzaje pan-genomu ===
Uważa się, że niektóre gatunki bakterii mają nieograniczony repertuar genów, a inne gatunki są ograniczone przez maksymalną liczbę w puli genów<ref name=":4" />.
[[Plik:Open and closed pangenomes.png|link=https://pl.wikipedia.org/wiki/Plik:Open%20and%20closed%20pangenomes.png|mały|Open/closed pangenomes]]

* Otwarty pan-genom: liczba genów pan-genomu wzrasta wraz z liczbą dodatkowo sekwencjonowanych szczepów. Innymi słowy jego rozmiar zwiększa się w nieskończoność podczas dodawania nowych genomów. Przykład: ''Escherichia coli''<ref name=":4" />.

* Zamknięty pangenom: W tym przypadku dodanie nowych genomów nie doprowadzi do odkrycia nowych możliwości kodowania<ref name=":2" />. Sekwencjonowanie genów nowych szczepów nie dostarczy nowych genów do pan-genomu. Pangenom zamknięty jest typowy dla gatunków żyjących[…] w izolowanych niszach z ograniczonym dostępem do globalnej puli genów drobnoustrojów. W przypadku tych gatunków niewielka liczba zsekwencjonowanych szczepów obejmuje już cały pangenom. Przykład: ''Bacillus anthracis''<ref name=":4" />.

=== Opracowywanie pan-genomów – narzędzia i procedury ===

==== Narzędzia ====

* [https://sanger-pathogens.github.io/Roary/ Roary] - szybkie narzędzie do wyodrębniania pełnych pangenomów, podstawowych zestawów genów lub różnic między genomami referencyjnymi
* [http://pangenome.tuebingen.mpg.de/ panX] - analiza pan-genomów i wizualizacja internetowa
* [https://www.jcvi.org/research/panoct PanOCT] - uwzględnia zarówno homologię genów, jak i konserwatywne sąsiedztwa genów
* [https://orthomcl.org/orthomcl/ OrthoMCL] - ekstrakcja genomów rdzenia itp.
* [https://github.com/jasonsahl/LS-BSR LS-BSR] - szybkie porównanie zawartości genetycznej dużej liczby genomów
* [http://segatalab.cibio.unitn.it/tools/panphlan/ PanPhlAn] - wykrywanie kompozycji genów szczepów w próbkach środowiskowych WGS w oparciu o pangenomy<ref name=":4" />.

Różnorodność między genomami często przejawia się w postaci drzew a ich zdecydowana większość konstruowana jest celem ostatecznej rekonstrukcji ewolucji a także w naukach stosowanych, takich jak medycyna czy nauki rolnicze jako analiza funkcjonalna<ref name=":1" />.

==== Procedura ====
Drzewa genomu są tworzone na podstawie odległości między profilami pan-genomu. Używamy względnej odległości Manhattanu, tj odległości między genomem ''i'' i ''k'' wynosi:<ref name=":1" />

<math>D_{i,j}=\left ( \frac{1}{W} \right )\textstyle \sum_{j=l}^n \displaystyle w_j|M_{i,j}-M_{i,j}|</math>

Gdzie ''n'' to całkowita liczba rodzin genów, W<sub>j</sub> to ciężar właściwy danej rodziny genów, a ''W'' to suma tych wag. Domyślnie W<sub>j</sub>= 1 dla wszystkich ''j'', ale niektóre geny mogą mieć obniżoną wagę, jak opisano poniżej. Odległość ta opisuje odsetek pan-genomu, w którym różnią się genomy ''i'' i ''k'' <ref name=":1" />.

==== Wagi rodziny genów ====
Geny rdzeniowe, tj rodziny genów obecne we wszystkich genomach, przyczyniają się do braku różnic między genomami i mogą zostać odrzucone - mając wagę zerową. Inne rodziny genów również mogą mieć obniżoną wagę. Geny obecne tylko w jednym genomie, określanym jako ORF, są często wątpliwe i mogą być produktem zbyt wrażliwych wyszukiwarek genów. Dlatego też nadanie takim genom zerowej wagi poprawia odporność drzewa genomowego na tego typu błędy<ref name=":1" />.

==== Przykład - analiza genomowa ''[[Bifidobacterium longum]]''<ref name=":5">{{Cytuj |autor = Silvia Arboleya, Francesca Bottacini, Mary O’Connell-Motherway, C. Anthony Ryan, R. Paul Ross |tytuł = Gene-trait matching across the Bifidobacterium longum pan-genome reveals considerable diversity in carbohydrate catabolism among human infant strains |czasopismo = BMC Genomics |data = 2018-01-08 |data dostępu = 2020-11-20 |issn = 1471-2164 |wolumin = 19 |numer = 1 |s = 33 |doi = 10.1186/s12864-017-4388-9 |pmid = 29310579 |pmc = PMC5759876 |url = https://doi.org/10.1186/s12864-017-4388-9}}</ref> ====
W celu określenia zawartości genetycznej, różnorodności i ogólnej charakterystyki ''[[B. longum]]'' przeprowadzono sekwencjonowanie genomu 20 wybranych izolatów w celu analizy porównawczej w odniesieniu do szeregu publicznie dostępnych genomów tego szczepu''.'' Aby ułatwić spójną analizę porównawczą, przeprowadzono jednorodną prognozę otwartej ramki odczytu (ORF). Zsekwencjonowane genomy zostały pobrane z bazy danych [[National Center for Biotechnology Information|NCBI]]. Zdefiniowano pulę 1200 rodzin genów, które są wspólne dla 20 genomów ''B. longum'' i w pełni zsekwencjonowano genomy ''B. longum'' reprezentując w ten sposób przewidywany ''[[Genom rdzeniowy|genom rdzenia]]'' . Zaobserwowano rodziny genów zaangażowane w proces kolonizacji i adaptacji do środowiska gospodarza (np. białka powierzchniowe, pilusy zależne od sortazy, produkcja egzopolisacharydów , systemy R), a także hipotetyczne białka i ruchome elementy genetyczne. Wykazano, że całkowite przewidywane ORF na genom wykazuje szerszy zakres (od 1761 do 2189), co wskazuje, że ''B. longumum'' prezentuje wyższy poziom zróżnicowania genetycznego niż inne taksony bifidobakteryjne. Analizowane w tym badaniu genomy ''B. longum'' pozwoliły na opisanie jego pan-genomu i został on zdefiniowany jako nie w pełni zamknięty, ale zbliżający się do zamkniętego genomu. Geny rdzeniowe są obecne co najmniej raz w każdym badanym genomie, a w tym przypadku stanowią one ~33% wszystkich rodzin genów uzyskanych w analizie. Pozostałe 67% (co w sumie stanowi 2433 rodziny genów) reprezentują geny, które składają się na zmienny lub zbędny genom, który składa się z genów, które są obecne w niektórych, ale nie we wszystkich genomach<ref name=":5" />.
<references />

Wersja z 23:56, 20 lis 2020

Pan-genom, supergenom

termin z dziedziny genetyki i biologii molekularnej wprowadzony w 2005 roku przez Tettelin i współpracowników[1]. Oznacza pełny zestaw genów danego gatunku; składa się z genów rdzeniowych, które są obecne u wszystkich osobników, oraz genów zmiennych, które są obecne tylko u niektórych osobników[2]. Jest to narzędzie służące do wizualizacji podobieństw i różnic między blisko spokrewnionymi osobnikami w obrębie gatunku lub rodzaju, badania zmienności genomu w konkretnym gatunku, ustalenia stopnia poziomego transferu genów (HGT), a także do zrozumienia różnic fenotypowych[3]. Badaniem pan-genomów zajmuje się pangenomika[4]

Historia

Pojęcie pan-genom („pan” - „παν” po grecku - oznacza „całość”)[5] zostało wprowadzony przez Tettelin i współpracowników[1]. Po raz pierwszy został opracowany dla chorobotwórczego paciorkowca Streptococcus agalactiae szczególnie niebezpiecznego dla kobiet w ciąży i noworodków[5]. Tettelin i współpracownicy[1] przeanalizowali osiem izolatów tego drobnoustroju, których pan-genom „obejmuje genom rdzeniowy wspólny dla wszystkich izolatów, stanowiący około 80% pojedynczego plus genom zbędny składający się z częściowo wspólnych i specyficznych dla szczepu genów”[5].

Budowa pan-genomu

Rozwój technik sekwencjonowania umożliwił analizę coraz większej liczby genomów drobnoustrojów należących do tej samej jednostki taksonomicznej. Ostatecznie doprowadziło to do koncepcji pan-genomu, czyli całego zestawu genów występujących w grupie przedstawicieli tego samego gatunku/rodzaju[4], który z kolei można podzielić na:

  • genom rdzeniowy definiowany jako zbiór tych genów obecny we wszystkich badanych genomach[4] zwykle obejmuje geny odpowiedzialne za funkcje otoczki komórkowej lub regulatorowe[6]
  • genom zmienny (nazywany również zbędnym, dodatkowym, elastycznym)[6] zbiór genów posiadany tylko przez jeden organizm lub jego podgrupę[4] na przykład geny specyficznej adaptacji szczepu, takie jak oporność na antybiotyki[6]

Rodzaje pan-genomu

Uważa się, że niektóre gatunki bakterii mają nieograniczony repertuar genów, a inne gatunki są ograniczone przez maksymalną liczbę w puli genów[6].

Open/closed pangenomes
  • Otwarty pan-genom: liczba genów pan-genomu wzrasta wraz z liczbą dodatkowo sekwencjonowanych szczepów. Innymi słowy jego rozmiar zwiększa się w nieskończoność podczas dodawania nowych genomów. Przykład: Escherichia coli[6].
  • Zamknięty pangenom: W tym przypadku dodanie nowych genomów nie doprowadzi do odkrycia nowych możliwości kodowania[4]. Sekwencjonowanie genów nowych szczepów nie dostarczy nowych genów do pan-genomu. Pangenom zamknięty jest typowy dla gatunków żyjących[…] w izolowanych niszach z ograniczonym dostępem do globalnej puli genów drobnoustrojów. W przypadku tych gatunków niewielka liczba zsekwencjonowanych szczepów obejmuje już cały pangenom. Przykład: Bacillus anthracis[6].

Opracowywanie pan-genomów – narzędzia i procedury

Narzędzia

  • Roary - szybkie narzędzie do wyodrębniania pełnych pangenomów, podstawowych zestawów genów lub różnic między genomami referencyjnymi
  • panX - analiza pan-genomów i wizualizacja internetowa
  • PanOCT - uwzględnia zarówno homologię genów, jak i konserwatywne sąsiedztwa genów
  • OrthoMCL - ekstrakcja genomów rdzenia itp.
  • LS-BSR - szybkie porównanie zawartości genetycznej dużej liczby genomów
  • PanPhlAn - wykrywanie kompozycji genów szczepów w próbkach środowiskowych WGS w oparciu o pangenomy[6].

Różnorodność między genomami często przejawia się w postaci drzew a ich zdecydowana większość konstruowana jest celem ostatecznej rekonstrukcji ewolucji a także w naukach stosowanych, takich jak medycyna czy nauki rolnicze jako analiza funkcjonalna[3].

Procedura

Drzewa genomu są tworzone na podstawie odległości między profilami pan-genomu. Używamy względnej odległości Manhattanu, tj odległości między genomem i i k wynosi:[3]

Gdzie n to całkowita liczba rodzin genów, Wj to ciężar właściwy danej rodziny genów, a W to suma tych wag. Domyślnie Wj= 1 dla wszystkich j, ale niektóre geny mogą mieć obniżoną wagę, jak opisano poniżej. Odległość ta opisuje odsetek pan-genomu, w którym różnią się genomy i i k [3].

Wagi rodziny genów

Geny rdzeniowe, tj rodziny genów obecne we wszystkich genomach, przyczyniają się do braku różnic między genomami i mogą zostać odrzucone - mając wagę zerową. Inne rodziny genów również mogą mieć obniżoną wagę. Geny obecne tylko w jednym genomie, określanym jako ORF, są często wątpliwe i mogą być produktem zbyt wrażliwych wyszukiwarek genów. Dlatego też nadanie takim genom zerowej wagi poprawia odporność drzewa genomowego na tego typu błędy[3].

Przykład - analiza genomowa Bifidobacterium longum[7]

W celu określenia zawartości genetycznej, różnorodności i ogólnej charakterystyki B. longum przeprowadzono sekwencjonowanie genomu 20 wybranych izolatów w celu analizy porównawczej w odniesieniu do szeregu publicznie dostępnych genomów tego szczepu. Aby ułatwić spójną analizę porównawczą, przeprowadzono jednorodną prognozę otwartej ramki odczytu (ORF). Zsekwencjonowane genomy zostały pobrane z bazy danych NCBI. Zdefiniowano pulę 1200 rodzin genów, które są wspólne dla 20 genomów B. longum i w pełni zsekwencjonowano genomy B. longum reprezentując w ten sposób przewidywany genom rdzenia . Zaobserwowano rodziny genów zaangażowane w proces kolonizacji i adaptacji do środowiska gospodarza (np. białka powierzchniowe, pilusy zależne od sortazy, produkcja egzopolisacharydów , systemy R), a także hipotetyczne białka i ruchome elementy genetyczne. Wykazano, że całkowite przewidywane ORF na genom wykazuje szerszy zakres (od 1761 do 2189), co wskazuje, że B. longumum prezentuje wyższy poziom zróżnicowania genetycznego niż inne taksony bifidobakteryjne. Analizowane w tym badaniu genomy B. longum pozwoliły na opisanie jego pan-genomu i został on zdefiniowany jako nie w pełni zamknięty, ale zbliżający się do zamkniętego genomu. Geny rdzeniowe są obecne co najmniej raz w każdym badanym genomie, a w tym przypadku stanowią one ~33% wszystkich rodzin genów uzyskanych w analizie. Pozostałe 67% (co w sumie stanowi 2433 rodziny genów) reprezentują geny, które składają się na zmienny lub zbędny genom, który składa się z genów, które są obecne w niektórych, ale nie we wszystkich genomach[7].

  1. a b c Hervé Tettelin i inni, Comparative genomics: the bacterial pan-genome, „Current Opinion in Microbiology”, 11 (5), Antimicrobials/Genomics, 2008, s. 472–477, DOI10.1016/j.mib.2008.09.006, ISSN 1369-5274 [dostęp 2020-11-20] (ang.).
  2. Bhavna Hurgobin, David Edwards, SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?, „Biology”, 6 (1), 2017, s. 21, DOI10.3390/biology6010021, PMID28287462, PMCIDPMC5372014 [dostęp 2020-11-20] (ang.).
  3. a b c d e Lars Snipen, David W. Ussery, Standard operating procedure for computing pangenome trees, „Standards in Genomic Sciences”, 2 (1), 2010, s. 135–141, DOI10.4056/sigs.38923, ISSN 1944-3277, PMID21304685, PMCIDPMC3035256 [dostęp 2020-11-20] (ang.).
  4. a b c d e Emanuele Bosi, Renato Fani, Marco Fondi, Defining Orthologs and Pangenome Size Metrics, Alessio Mengoni, Marco Galardini, Marco Fondi (red.), t. 1231, New York, NY: Springer New York, 2015, s. 191–202, DOI10.1007/978-1-4939-1720-4_13, ISBN 978-1-4939-1719-8 [dostęp 2020-11-20].
  5. a b c Hervé Tettelin i inni, Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: implications for the microbial "pan-genome", „Proceedings of the National Academy of Sciences of the United States of America”, 102 (39), 2005, s. 13950–13955, DOI10.1073/pnas.0506758102, ISSN 0027-8424, PMID16172379, PMCIDPMC1216834 [dostęp 2020-11-20].
  6. a b c d e f g Pangenome - Metagenomics [online], www.metagenomics.wiki [dostęp 2020-11-20].
  7. a b Silvia Arboleya i inni, Gene-trait matching across the Bifidobacterium longum pan-genome reveals considerable diversity in carbohydrate catabolism among human infant strains, „BMC Genomics”, 19 (1), 2018, s. 33, DOI10.1186/s12864-017-4388-9, ISSN 1471-2164, PMID29310579, PMCIDPMC5759876 [dostęp 2020-11-20].