ChIP-seq

ChIP-seq (z ang. chromatin immunoprecipitation-sequencing) – metoda analizy interakcji białek z DNA. Wykorzystuje immunoprecypitację chromatyny oraz sekwencjonowanie wysokoprzepustowe. Pierwszym krokiem jest uzyskanie fragmentów DNA, do których wiążą się badane białka – czynników transkrypcyjnych i histonów, najczęściej specyficznie modyfikowanych. Następnie fragmenty te są sekwencjonowane, mapowane na genom i poddawane dalszej analizie bioinformatycznej. Stopniowo ChIP-seq staje się coraz bardziej popularna i wypiera uprzednio stosowaną metodę ChIP-chip, która również opiera się na immuoprecypitacji chromatyny, ale zamiast sekwencjonowania wykorzystuje mikromacierze DNA.

Opis metody[edytuj | edytuj kod]

Immunoprecypitacja chromatyny

Pierwszy krok w immunporecypitacji chromatyny polega na utrwaleniu wiązań między białkami a DNA poprzez traktowanie komórek formaldehydem. Następnie DNA poddawany jest losowej fragmentacji, najczęściej za pomocą sonikacji, rzadziej z udziałem enzymów restrykcyjnych. W jej wyniku przeważnie uzyskuje się wciąż związane z białkami fragmenty DNA długości rzędu 100–300 nukleotydów. Następnie przy użyciu przeciwciał swoistych dla badanego białka immunoprecypituje się związane z nim fragmenty. Ostatnim krokiem immunoprecypitacji chromatyny jest oczyszczenie z białek uzyskanych fragmentów DNA. W ten sposób otrzymuje się próbę zawierającą fragmenty, z którymi in vivo związane były badane białka. Możliwe błędy wynikają z, między innymi, niejednorodnej struktury chromatyny: w próbie wynikowej znajdzie się więcej fragmentów z części genomu o otwartej strukturze chromatyny niż zamkniętej. W związku z tym, aby eksperyment był wiarygodny, powinno się przygotować również próbę kontrolną, która pozwoli wziąć pod uwagę błędy powstałe zarówno na etapie immunoprecypitacji, jak i podczas późniejszego sekwencjonowania. Najbardziej wiarygodną próbą kontrolną jest „wejściowe DNA” (input DNA) – próba przygotowywana jest podobnie jak ChIP, zadawana formaldehydem i podlega fragmentacji, ale pomija się stadium immunoprecypitacji. Inną stosowaną próbą kontrolną jest „imitowana ChIP” (mock ChIP), przygotowana podobnie jak właściwa próba ChIP, ale z użyciem nieswoistych przeciwciał oraz gDNA, czyli DNA chromosomowego^[1].

Sekwencjonowanie

Uzyskane w poprzednim kroku oligonukleotydy są poddawane sekwencjonowaniu. Na tym etapie również może dojść do zakłóceń, wynikających z technicznych niedoskonałości sekwencjonowania.

Dalsza analiza[edytuj | edytuj kod]

Wynikiem metody jest bardzo duża liczba krótkich odczytów (rzędu kilku–kilkunastu milionów), które należy zmapować na genom referencyjny przy użyciu przystosowanego do tego narzędzia, na przykład bowtie^[2]. Zmapowane odczyty nazywa się „tagami”. Ponieważ zarówno procedura ChIP, jak i sekwencjonowanie nie są idealne i skutkują wieloma błędami, potrzebna jest złożona analiza bioinformatyczna, by zdefiniować fragmenty, w których nasycenie tagami można uznać za istotne statystycznie. Analiza składa się z kilku kroków:

ustalenie profilu sygnału. Większość programów stosuje metodę przesuwanego okna (sliding window), polegającą na przechodzeniu przez genom oknem o ustalonej szerokości i zliczaniu występujących w nim tagów. By uniknąć anomalii na brzegach okien, niektóre programy stosują dodatkowo jądrowy estymator gęstości w celu ujednolicenia profilu sygnału.
określenie tła. Jeżeli dostępna jest próba kontrolna, możliwe są dwie metody: bezpośrednia i z użyciem rozkładu prawdopodobieństwa. Metoda bezpośrednia zakłada odjęcie sygnału zaobserwowanego w próbie kontrolnej od sygnału w próbie ChIP, jest jednak niezalecana. Druga metoda zakłada wykorzystanie pewnego rozkładu prawdopodobieństwa do opisania rozkładu tagów na niciach, estymując jego parametry z próby kontrolnej. Najczęściej wykorzystywane rozkłady to rozkład Poissona, lokalny Poissona^[3], warunkowy dwumianowy^[4], t-Studenta^[5] oraz ukryte modele Markowa^[6]. Jeżeli brak jest próby kontrolnej, tło modeluje się za pomocą jednego z wymienionych wyżej rozkładów prawdopodobieństwa, czasem estymując jego parametry z próby ChIP.
znajdowanie pików istotnych statystycznie i filtrowanie artefaktów. Za pik istotny statystycznie można uznać taki, którego wysokość istotnie różni się od wysokości sygnału w przyjętym rozkładzie tła.
przypisywanie wartości znalezionym pikom. Wartość powinna odzwierciedlać wiarygodność piku, czyli prawdopodobieństwo, że jest to pik istotny statystycznie, nie artefakt wynikły z niedoskonałości metody.

W przypadku sekwencjonowania oligonukleotydów z jednej strony istotnym elementem analizy jest wzięcie pod uwagę specyficznego rozkładu tagów na obu niciach DNA. Ponieważ oligonukleotydy są sekwencjonowane z końca 5′ i często nie są sekwencjonowane w całości, można oczekiwać, że na nici sensowej rozkład tagów będzie nieznacznie przesunięty względem faktycznego rozkładu uzyskanego w wyniku immunoprecypitacji oligonukleotydów w kierunku 5′; podobnie jest w przypadku nici antysensowej. Stąd wiadomo, że rozkład na obu niciach powinien być podobny, ale przesunięty względem siebie. Programy stosują różne podejścia, żeby wykorzystać tę informację: niektóre przed przystąpieniem do analizy przesuwają lub wydłużają wszystkie tagi w kierunku 5′, inne dopiero po znalezieniu potencjalnych pików szukają potencjalnych artefaktów, które mają wyraźnie różny rozkład na obu niciach^[7].

Istnieje wiele dostępnych narzędzi do analizowania danych ChIP-seq.

Narzędzia do analizy

Model-based analysis of ChIP-Seq (MACS)^[3] – może korzystać z próby kontrolnej lub wymodelować tło; przesuwa tagi na niciach o połowę podanej przez użytkownika długości odczytu
PeakSeq^[4] – wymaga próby kontrolnej; uwzględnia „mapowalność” obszarów genomu
BayesPeak^[6] – pakiet do programu Bioconductor; może korzystać z próby kontrolnej lub wymodelować tło
SoleSearch^[5] – lepiej działa dla czynników transkrypcyjnych niż histonów; bierze pod uwagę duże delecje i duplikacje w genomie

Zastosowanie[edytuj | edytuj kod]

Metoda ChIP-seq znajduje zastosowanie przy badaniu regulacji transkrypcji. Można za jej pomocą znajdować miejsca wiązania czynników transkrypcyjnych oraz specyficzne modyfikacje histonowe. Za pomocą ChIP-seqa tworzy się mapy histonowe i mapy modyfikacji histonowych. Można również wykorzystać tę technikę do porównania wzoru wiązania czynników transkrypcyjnych lub modyfikacji histonowych w komórkach pochodzących różnych tkanek lub poddanych różnym warunkom.

Przypisy[edytuj | edytuj kod]

↑ Y. Chen, N. Negre, Q. Li, JO. Mieczkowska i inni. Systematic evaluation of factors influencing ChIP-seq fidelity. „Nat Methods”. 9 (6), s. 609-614, 2012. DOI: 10.1038/nmeth.1985. PMID: 22522655. PMCID: PMC3477507.
↑ B. Langmead. Aligning short sequencing reads with Bowtie. „Curr Protoc Bioinformatics”. Chapter 11, s. Unit 11.7, 2010. DOI: 10.1002/0471250953.bi1107s32. PMID: 21154709. PMCID: PMC3010897.
↑ ^a ^b Y. Zhang, T. Liu, CA. Meyer, J. Eeckhoute i inni. Model-based analysis of ChIP-Seq (MACS). „Genome Biol”. 9 (9), s. R137, 2008. DOI: 10.1186/gb-2008-9-9-r137. PMID: 18798982. PMCID: PMC2592715.
↑ ^a ^b J. Rozowsky, G. Euskirchen, RK. Auerbach, ZD. Zhang i inni. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls. „Nat Biotechnol”. 27 (1), s. 66-75, 2009. DOI: 10.1038/nbt.1518. PMID: 19122651. PMCID: PMC2924752.
↑ ^a ^b KR. Blahnik, L. Dou, H. O'Geen, T. McPhillips i inni. Sole-Search: an integrated analysis program for peak detection and functional annotation using ChIP-seq data. „Nucleic Acids Res”. 38 (3), s. e13, 2010. DOI: 10.1093/nar/gkp1012. PMID: 19906703. PMCID: PMC2817454.
↑ ^a ^b J. Cairns, C. Spyrou, R. Stark, ML. Smith i inni. BayesPeak - an R package for analysing ChIP-seq data. „Bioinformatics”. 27 (5), s. 713-714, 2011. DOI: 10.1093/bioinformatics/btq685. PMID: 21245054. PMCID: PMC3042177.
↑ EG. Wilbanks, MT. Facciotti. Evaluation of algorithm performance in ChIP-seq peak detection. „PLoS One”. 5 (7), s. e11471, 2010. DOI: 10.1371/journal.pone.0011471. PMID: 20628599. PMCID: PMC2900203.

[Chen-2012-1] Y. Chen, N. Negre, Q. Li, JO. Mieczkowska i inni. Systematic evaluation of factors influencing ChIP-seq fidelity. „Nat Methods”. 9 (6), s. 609-614, 2012. DOI: 10.1038/nmeth.1985. PMID: 22522655. PMCID: PMC3477507.

[Lengmead-2011-2] B. Langmead. Aligning short sequencing reads with Bowtie. „Curr Protoc Bioinformatics”. Chapter 11, s. Unit 11.7, 2010. DOI: 10.1002/0471250953.bi1107s32. PMID: 21154709. PMCID: PMC3010897.

[Zhang-2008-3] Y. Zhang, T. Liu, CA. Meyer, J. Eeckhoute i inni. Model-based analysis of ChIP-Seq (MACS). „Genome Biol”. 9 (9), s. R137, 2008. DOI: 10.1186/gb-2008-9-9-r137. PMID: 18798982. PMCID: PMC2592715.

[Rozowsky-2009-4] J. Rozowsky, G. Euskirchen, RK. Auerbach, ZD. Zhang i inni. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls. „Nat Biotechnol”. 27 (1), s. 66-75, 2009. DOI: 10.1038/nbt.1518. PMID: 19122651. PMCID: PMC2924752.

[Blahnik-2010-5] KR. Blahnik, L. Dou, H. O'Geen, T. McPhillips i inni. Sole-Search: an integrated analysis program for peak detection and functional annotation using ChIP-seq data. „Nucleic Acids Res”. 38 (3), s. e13, 2010. DOI: 10.1093/nar/gkp1012. PMID: 19906703. PMCID: PMC2817454.

[Cairns-2011-6] J. Cairns, C. Spyrou, R. Stark, ML. Smith i inni. BayesPeak - an R package for analysing ChIP-seq data. „Bioinformatics”. 27 (5), s. 713-714, 2011. DOI: 10.1093/bioinformatics/btq685. PMID: 21245054. PMCID: PMC3042177.

[Wilbanks-2010-7] EG. Wilbanks, MT. Facciotti. Evaluation of algorithm performance in ChIP-seq peak detection. „PLoS One”. 5 (7), s. e11471, 2010. DOI: 10.1371/journal.pone.0011471. PMID: 20628599. PMCID: PMC2900203.

[1]

[2]

[3]

[4]

[5]

[6]

[7]