Przez ponad 20 lat naukowcy polegali na ludzkim genomie referencyjnym, konsensusowej sekwencji genetycznej, jako na standardzie, z którym porównują inne dane genetyczne. Wykorzystywany w niezliczonych badaniach genom referencyjny umożliwił między innymi identyfikację genów związanych z określonymi chorobami i prześledzenie ewolucji cech człowieka.
Ale to zawsze było wadliwe narzędzie. Jednym z największych problemów jest to, że około 70 procent danych pochodziło od pojedynczego mężczyzny o przeważnie afrykańsko-europejskim pochodzeniu, którego DNA zostało zsekwencjonowane podczas Projektu Genomu Ludzkiego, pierwszej próby uchwycenia całego DNA danej osoby. W rezultacie może nam niewiele powiedzieć o 0,2 do jednego procenta sekwencji genetycznej, która sprawia, że każdy z siedmiu miliardów ludzi na tej planecie różni się od siebie nawzajem, tworząc nieodłączny błąd w danych biomedycznych, który uważa się za odpowiedzialny za niektóre problemy zdrowotne. dysproporcje dotykające obecnie pacjentów. Na przykład wiele wariantów genetycznych znalezionych w populacjach pozaeuropejskich nie jest w ogóle reprezentowanych w genomie referencyjnym.
Od lat naukowcy apelują o zasoby bardziej uwzględniające różnorodność ludzką, za pomocą których można by diagnozować choroby i kierować leczeniem. Teraz naukowcy z Human Pangenome Reference Consortium dokonali przełomowego postępu w charakteryzowaniu frakcji ludzkiego DNA, która różni się u poszczególnych osób. Jak niedawno opublikowali w Nature, zebrali sekwencje genomowe 47 osób z całego świata w tak zwany pangenom, w którym ponad 99 procent każdej sekwencji jest renderowane z dużą dokładnością.
Nałożone na siebie sekwencje te ujawniły prawie 120 milionów par zasad DNA, których wcześniej nie widziano.
Chociaż prace wciąż trwają, pangenom jest publicznie dostępny i może być używany przez naukowców z całego świata jako nowe standardowe odniesienie do ludzkiego genomu, mówi Erich D. Jarvis z Uniwersytetu Rockefellera, jeden z głównych badaczy.
„Ta złożona kolekcja genomowa reprezentuje znacznie dokładniejszą różnorodność genetyczną człowieka niż kiedykolwiek wcześniej” – mówi. „Mając do dyspozycji większy zakres i głębię danych genetycznych oraz lepszą jakość zestawów genomów, naukowcy mogą udoskonalić swoje zrozumienie związku między genami a cechami chorobowymi oraz przyspieszyć badania kliniczne”.
Różnorodność źródeł zaopatrzenia
Ukończony w 2003 roku pierwszy szkic ludzkiego genomu był stosunkowo nieprecyzyjny, ale z biegiem lat stał się ostrzejszy dzięki uzupełnieniu luk, poprawieniu błędów i postępowi technologii sekwencjonowania. Kolejny kamień milowy został osiągnięty w zeszłym roku, kiedy ostatecznie zsekwencjonowano ostatnie osiem procent genomu – głównie ciasno zwinięte DNA, które nie koduje białek i powtarzalnych regionów DNA.
Pomimo tego postępu genom referencyjny pozostał niedoskonały, zwłaszcza w odniesieniu do krytycznego 0,2 do jednego procenta DNA reprezentującego różnorodność. Konsorcjum Human Pangenome Reference Consortium (HPRC), finansowana przez rząd współpraca kilkunastu instytucji badawczych w Stanach Zjednoczonych i Europie, zostało uruchomione w 2019 r. w celu rozwiązania tego problemu.
W tym czasie Jarvis, jeden z liderów konsorcjum, doskonalił zaawansowane metody sekwencjonowania i obliczeniowe w ramach projektu Vertebrate Genomes Project, którego celem jest sekwencjonowanie wszystkich 70 000 gatunków kręgowców. Jego i inne współpracujące laboratoria postanowiły zastosować te postępy w wysokiej jakości zestawach diploidalnych genomów, aby ujawnić zmienność w obrębie jednego kręgowca: Homo sapiens.
Aby zebrać różnorodne próbki, naukowcy zwrócili się do projektu 1000 genomów, publicznej bazy danych zsekwencjonowanych ludzkich genomów, która obejmuje ponad 2500 osób reprezentujących 26 zróżnicowanych geograficznie i etnicznie populacji. Większość próbek pochodzi z Afryki, domu największej różnorodności ludzkiej planety.
„W wielu innych dużych projektach różnorodności ludzkiego genomu naukowcy wybierali głównie próbki europejskie” – mówi Jarvis. „Podjęliśmy celowy wysiłek, aby zrobić coś przeciwnego. Próbowaliśmy przeciwdziałać uprzedzeniom z przeszłości”.
Jest prawdopodobne, że wśród tych populacji można znaleźć warianty genów, które mogą wzbogacić naszą wiedzę o powszechnych i rzadkich chorobach.
Mama, tata i dziecko
Jednak aby poszerzyć pulę genów, naukowcy musieli stworzyć wyraźniejsze, wyraźniejsze sekwencje każdego osobnika, a podejście opracowane przez członków projektu genomu kręgowców i powiązanych konsorcjów zostało wykorzystane do rozwiązania długotrwałego problemu technicznego w tej dziedzinie.
Każda osoba dziedziczy po jednym genomie od każdego z rodziców, w ten sposób otrzymujemy dwie kopie każdego chromosomu, co daje nam tak zwany genom diploidalny. A kiedy genom danej osoby zostanie zsekwencjonowany, oddzielenie rodzicielskiego DNA może być trudne. Starsze techniki i algorytmy rutynowo popełniały błędy podczas łączenia danych genetycznych rodziców dotyczących danej osoby, co skutkowało zaciemnieniem obrazu. „Różnice między chromosomami mamy i taty są większe, niż większość ludzi zdaje sobie z tego sprawę” – mówi Jarvis. „Mama może mieć 20 kopii genu, a tata tylko dwie”.
Przy tak wielu genomach reprezentowanych w pangenomie, to zachmurzenie groziło przekształceniem się w burzę zamieszania. Tak więc HPRC oparła się na metodzie opracowanej przez Adama Phillippy’ego i Sergeya Korena z National Institutes of Health na “triach” rodzic-dziecko – matka, ojciec i dziecko, których genomy zostały zsekwencjonowane. Korzystając z danych od mamy i taty, byli w stanie wyjaśnić linie dziedziczenia i uzyskać sekwencję wyższej jakości dla dziecka, którą następnie wykorzystali do analizy pangenomu.
Nowe odmiany
Analiza naukowców 47 osób dała 94 różne sekwencje genomu, po dwie dla każdego zestawu chromosomów, a także chromosom Y płci u mężczyzn.
Następnie wykorzystali zaawansowane techniki obliczeniowe do wyrównania i ułożenia 94 sekwencji. Spośród 120 milionów par zasad DNA, których wcześniej nie widziano lub które znajdowały się w innym miejscu niż podano w poprzedniej publikacji, około 90 milionów pochodzi z różnic strukturalnych, które są różnicami w ludzkim DNA, które powstają, gdy fragmenty chromosomów są przegrupowane – – przeniesiony, usunięty, odwrócony lub z dodatkowymi kopiami z duplikatów.
To ważne odkrycie, zauważa Jarvis, ponieważ badania przeprowadzone w ostatnich latach wykazały, że warianty strukturalne odgrywają ważną rolę w zdrowiu ludzkim, a także w różnorodności populacji. „Mogą mieć dramatyczny wpływ na różnice cech, choroby i funkcje genów” – mówi. „Przy tak wielu zidentyfikowanych nowych odkryciach będzie wiele nowych odkryć, które wcześniej nie były możliwe”.
Wypełnianie braków
Zespół pangenomu wypełnia również luki, które były spowodowane powtarzającymi się sekwencjami lub zduplikowanymi genami. Jednym z przykładów jest główny kompleks zgodności tkankowej (MHC), skupisko genów kodujących białka na powierzchni komórek, które pomagają układowi odpornościowemu rozpoznawać antygeny, takie jak wirus SARS-CoV-2.
“Są naprawdę ważne, ale nie można było badać różnorodności MHC przy użyciu starszych metod sekwencjonowania” – mówi Jarvis. „Widzimy znacznie większą różnorodność, niż się spodziewaliśmy. Te nowe informacje pomogą nam zrozumieć, w jaki sposób reakcje immunologiczne przeciwko określonym patogenom różnią się między ludźmi”. Może to również prowadzić do lepszych metod dopasowywania dawców narządów do pacjentów i identyfikowania osób zagrożonych rozwojem choroby autoimmunologicznej.
Zespół odkrył również zaskakujące nowe cechy centromerów, które leżą w rdzeniach chromosomów i przewodzą podziały komórkowe, rozdzielając się, gdy komórki się duplikują. Mutacje w centromerach mogą prowadzić do nowotworów i innych chorób.
Pomimo wysoce powtarzalnych sekwencji DNA, „centromery są tak zróżnicowane w zależności od haplotypu, że mogą odpowiadać za ponad 50 procent różnic genetycznych między ludźmi lub haplotypami matki i ojca, nawet w obrębie jednej osoby” – mówi Jarvis. „Centromery wydają się być jedną z najszybciej ewoluujących części chromosomu”.
Budowanie związku
Obecny 47-osobowy pangenom to jednak tylko punkt wyjścia. Ostatecznym celem HPRC jest wyprodukowanie wysokiej jakości, prawie bezbłędnych genomów od co najmniej 350 osobników z różnych populacji do połowy 2024 r., co jest kamieniem milowym, który umożliwiłby uchwycenie rzadkich alleli, które nadają ważne cechy adaptacyjne. Na przykład Tybetańczycy mają allele związane ze zużyciem tlenu i ekspozycją na promieniowanie UV, które umożliwiają im życie na dużych wysokościach.
Głównym wyzwaniem w gromadzeniu tych danych będzie zdobycie zaufania społeczności, które w przeszłości były świadkami nadużyć w zakresie danych biologicznych; na przykład w obecnym badaniu nie ma próbek pochodzących od rdzennych Amerykanów ani Aborygenów, które od dawna były lekceważone lub wykorzystywane w badaniach naukowych. Ale nie trzeba cofać się daleko w czasie, aby znaleźć przykłady nieetycznego wykorzystania danych genetycznych: zaledwie kilka lat temu próbki DNA od tysięcy Afrykanów w wielu krajach zostały skomercjalizowane bez wiedzy, zgody i korzyści dawców.
Te przestępstwa zasiały nieufność wobec naukowców wśród wielu populacji. Ale nie będąc uwzględnionymi, niektóre z tych grup mogą pozostać genetycznie niejasne, co prowadzi do utrwalania się błędów w danych – i do ciągłych różnic w wynikach zdrowotnych.
„To złożona sytuacja, która będzie wymagała budowania wielu relacji” — mówi Jarvis. „Teraz jest większa wrażliwość”.
I nawet dzisiaj wiele grup jest chętnych do udziału. „Są osoby, instytucje i organy rządowe z różnych krajów, które mówią:„ Chcemy być tego częścią. Chcemy, aby nasza populacja była reprezentowana ”- mówi Jarvis. „Już robimy postępy”.