Naukowcy z UC Santa Cruz, wraz z konsorcjum badaczy, opublikowali wersję roboczą pierwszego ludzkiego pangenomu – nowego, użytecznego odniesienia dla genomiki, które łączy materiał genetyczny 47 osób z różnych środowisk przodków, aby umożliwić głębsze, dokładniejsze zrozumienia światowej różnorodności genomowej.
Dodając 119 milionów zasad – „liter” w sekwencjach DNA – do istniejącego odniesienia genomicznego, pangenom zapewnia reprezentację różnorodności genetycznej człowieka, która nie była możliwa w przypadku pojedynczego genomu odniesienia. Jest bardzo dokładny, pełniejszy i radykalnie zwiększa wykrywanie wariantów w ludzkim genomie, jak pokazano w zbiorze przełomowych artykułów opublikowanych dzisiaj w czasopismach Nature, Genome Research, Nature Biotechnology i Nature Methods.
Pangenom został wyprodukowany przez Human Pangenome Reference Consortium (HPRC), którym współkierują profesor nadzwyczajny inżynierii biomolekularnej UCSC Benedict Paten i adiunkt inżynierii biomolekularnej Karen Miga i jest teraz dostępny do użytku w centrum montażowym na genomie UCSC Przeglądarka. Kilkunastu badaczy i studentów UCSC bierze udział w tym projekcie, który będzie kontynuowany do 2024 r., kiedy naukowcy planują opublikować ostateczny pangenom z informacjami genomowymi od 350 osób.
„Wprowadzamy więcej różnorodności i równości do referencji poprzez próbkowanie różnych istot ludzkich i włączanie ich do tej struktury, z której każdy może korzystać” – powiedział Paten, który jest starszym autorem głównego artykułu. „Jeden genom nie wystarczy, aby reprezentować wszystkich – pangenom ostatecznie będzie czymś, co jest inkluzywne i reprezentatywne”.
Zrozumienie zmienności genomowej
Genom każdej osoby różni się nieznacznie – średnio o około 0,4 procent w porównaniu z następną osobą – a zrozumienie tych różnic może zapewnić wgląd w ich zdrowie, pomóc w diagnozowaniu chorób, przewidywaniu wyników medycznych i ukierunkowaniu leczenia. Korzystanie z odniesienia do pangenomu poprawi zdolność naukowców do wykrywania i rozumienia zmienności w przyszłych badaniach.
Zwykle, gdy naukowcy i klinicyści badają genom danej osoby w poszukiwaniu zmienności, porównują DNA tej osoby z DNA standardowego odniesienia, aby określić, gdzie występują różnice jednej lub więcej par zasad. Do tej pory genom referencyjny był reprezentowany głównie przez pojedynczą sekwencję dla każdego ludzkiego chromosomu, w większości pochodzącą od jednego osobnika. Ale to odniesienie ma prawie 20 lat i jest zasadniczo ograniczone, ponieważ nie może reprezentować bogactwa odmian genetycznych obecnych w populacji ludzkiej. Wprowadza to problem zwany błędem referencyjnym do analizy genomu.
Natomiast nowy pangenom jest odniesieniem, które łączy genomy 47 osobników z różnych środowisk przodków. Pangenom wygląda jak odniesienie liniowe w obszarach, w których sekwencje mają te same podstawy, i rozszerza się, aby pokazać obszary, w których występują różnice. Reprezentuje wiele różnych wersji sekwencji ludzkiego genomu w tym samym czasie i daje naukowcom dokładniejszy punkt odniesienia dla zmienności, która jest obecna w niektórych populacjach, ale nie w innych.
„Jeden genom nie może reprezentować całej bogatej zmienności, o której wiemy, że można ją obserwować i badać na całym świecie” – powiedział Miga, dyrektor Centrum Produkcji HPRC w UCSC. „Celem nr 1 odniesienia do pangenomu człowieka jest próba poszerzenia reprezentacji zasobu referencyjnego, aby był bardziej inkluzywny i bardziej sprawiedliwy do badania gatunku ludzkiego, jako zbiór odniesień, a nie tylko jeden”.
Zmienność genomowa może być niewielka, obejmująca różnice tylko jednej lub kilku zasad DNA, lub mogą to być duże warianty strukturalne, klasyfikowane jako warianty mające 50 par zasad lub większe. Te większe, strukturalne warianty mogą mieć ważne implikacje zdrowotne. Do tej pory naukowcy nie byli w stanie zidentyfikować ponad 70 procent wariantów strukturalnych, które istnieją w ludzkich genomach z powodu ograniczonych technologii i tendencji do stosowania jednej sekwencji referencyjnej.
Spośród 119 milionów nowych zasad dodanych do odniesienia z pangenomem, około 90 milionów z nich pochodzi ze zmienności strukturalnej. Warianty strukturalne są złożone i mogą być inwersjami sekwencji, insercjami, delecjami lub powtórzeniami tandemowymi – segmentem dwóch lub więcej zasad powtarzanych wiele razy. Te nowe bazy pomogą naukowcom w badaniu regionów genomu, dla których wcześniej nie było odniesienia, i potencjalnie będą w stanie powiązać warianty strukturalne z chorobą w przyszłych badaniach.
„Teraz możemy mapować więcej wariantów strukturalnych, więc znajdujemy cechy i obszary w genomie, których wcześniej po prostu nie było” – powiedział Miga. „To ekscytujące, ponieważ pozwala nam spojrzeć na regulację genów w wyjątkowy sposób, którego nie mogliśmy wcześniej badać, ponieważ obszary te prawdopodobnie zostałyby niewłaściwie zmapowane lub po prostu całkowicie zignorowane”.
Wykorzystanie odniesienia pangenomu do analizy genomowej zwiększa wykrywanie wariantów strukturalnych o 104 procent w porównaniu z wykrywaniem przy użyciu standardowego odniesienia. Odniesienie do pangenomu zwiększa również dokładność wywoływania małych wariantów, o długości zaledwie kilku zasad, o około 34 procent z powodu zwiększonej ilości danych obecnych w pangenomie.
Każdy człowiek nosi sparowany zestaw chromosomów – jeden zestaw odziedziczył po matce, a drugi po ojcu. Poszczególne genomy obecne w odnośniku do pangenomu zawierają informacje rozwiązane na podstawie haplotypów, co oznacza, że mogą z pewnością rozróżnić dwa rodzicielskie zestawy chromosomów – wielkie osiągnięcie naukowe. Posiadanie tych informacji pomoże naukowcom lepiej zrozumieć sposób dziedziczenia różnych genów i chorób.
Oznacza to również, że obecne odniesienie faktycznie obejmuje 94 różne sekwencje genomu, a celem jest osiągnięcie 700 do 2024 r.
Tworzenie pangenomu
Pangenom był możliwy dzięki opracowaniu zaawansowanych technik obliczeniowych w celu dopasowania wielu sekwencji genomu w jedno użyteczne odniesienie w strukturze zwanej wykresem pangenomu. Paten i naukowcy z laboratorium UCSC Computational Genomics pomogli poprowadzić wysiłki HPRC w opracowaniu metod algorytmicznych potrzebnych do stworzenia tej struktury grafu pangenomu.
Dzięki metodom zastosowanym w tym projekcie wszystkie genomy w ramach pangenomu referencyjnego mają niezwykle wysoką jakość i dokładność, obejmując ponad 99 procent każdego ludzkiego genomu z ponad 99-procentową dokładnością.
„W odniesieniu liniowym mieliśmy tylko jedną sekwencję, jedną reprezentację każdego genu” – powiedział Mobin Asri, doktor bioinformatyki. kandydat na UCSC i współpierwszy autor artykułu głównego. „Ale wiemy, że nasze geny mają różne warianty w populacji ludzkiej. Korzystając z wykresu pangenomu, chcemy mieć wszystkie te warianty w jednej strukturze – a wykres jest naturalnym sposobem na zrobienie tego”.
Projekt HPRC w dużym stopniu opiera się na technologii sekwencjonowania długiego i bardzo długiego odczytu do odczytu DNA z próbek biologicznych. Dzięki ostatnim postępom techniki te mogą teraz dekodować od tysięcy do milionów par zasad genomu jednocześnie. Długie odcinki odczytów DNA są następnie łączone za pomocą wyspecjalizowanych algorytmów w bardziej kompletne sekwencje genomowe. W idealnym przypadku każda złożona sekwencja powinna reprezentować sekwencję jednego chromosomu.
Długie odczyty zawierają błędy przez około jeden procent czasu, a obecne algorytmy asemblera nie są doskonałe, co może spowodować, że złożone sekwencje będą błędne w niektórych miejscach. Aby sprawdzić i poprawić te błędy, poszczególne genomy, które zostały zsekwencjonowane i złożone, przechodzą przez wiele narzędzi, w tym potok niezawodności opracowany przez Asri. Po przetworzeniu przez te narzędzia badacze mogą upewnić się, że zespoły są dokładne i kompletne.
Po przejściu przez potok Asri różne genomy są kompilowane za pomocą złożonych metod algorytmicznych w strukturę wykresu pangenomu. Wizualnie genom wykresu pozwala naukowcom zobaczyć różnice w różnych sekwencjach odniesienia jako rozbieżne obszary w skądinąd wspólnych ścieżkach.
Tworzenie dostępnego zasobu
Wszystkie z pierwszych 47 diploidalnych genomów w szkicu pangenomu pochodziły od osób, które uczestniczyły w projekcie 1000 genomów (1000G), wpływowym przedsięwzięciu, które stworzyło katalog typowych ludzkich zmienności genetycznych z próbek uzyskanych za otwartą zgodą i zostało ukończone w 2015 r. Otwarte status zgody tych próbek umożliwia każdemu badaczowi dostęp do zasobu bez barier prywatności, które zwykle towarzyszą badaniom nad genomem, w celu udostępnienia pangenomu jak największej liczbie osób.
„Stanie się powszechnym zasobem jest czymś, co ma fundamentalne znaczenie dla odniesienia sukcesu ludzkiego pangenomu” – powiedział Miga. „Musi być dostępny i otwarty dla wszystkich badaczy na całym świecie, abyśmy mogli wykorzystać go jako podstawę”.
Zespół HPRC koncentruje się na działaniach informacyjnych, aby upewnić się, że pangenom jest użytecznym zasobem, który będzie wykorzystywany w klinikach na całym świecie. Oznacza to ułatwianie adnotacji, informacji zwrotnych i wkładu od naukowców prowadzących badania z wykorzystaniem odniesienia do pangenomu.
„Projekt pangenomu jest ważnym dowodem zasady, który, jak mamy nadzieję, wpłynie na wiele osób i sprawi, że pomyślą o pangenomie i jego wpływie na ich pracę” – powiedział Paten. „Patrząc w przyszłość, widzimy duże zaangażowanie z innymi grupami – potrzeba wielu różnych ludzi, aby zbudować coś, co stanie się dużym zasobem społeczności”.
Oprócz skupienia się na dostępności, projekt HPRC ma dedykowany zespół ds. etyki, który koncentruje się na społecznych i prawnych implikacjach tego projektu. Pracują nad przewidywaniem trudnych problemów i pomocą w kierowaniu świadomą zgodą, ustalaniem priorytetów w badaniu różnych próbek, badaniem możliwych problemów regulacyjnych związanych z adopcją kliniczną oraz współpracą ze społecznościami międzynarodowymi i tubylczymi w celu włączenia ich sekwencji genomu do tych szerszych wysiłków.
Kontynuacja dziedzictwa i przyszłej pracy
Ludzki pangenom jest kontynuacją trwających od dziesięcioleci wysiłków naukowców z UC Santa Cruz, aby zrozumieć kod biologiczny leżący u podstaw ludzkiego życia.
W 2000 roku Jim Kent, wówczas absolwent UCSC, a obecnie pracownik naukowy w Genomics Institute i dyrektor UCSC Genome Browser, napisał kod, który stanowił pierwszy roboczy szkic ludzkiego genomu. Naukowcy z UCSC opublikowali go z otwartym dostępem dla każdego, kto chciał z niego korzystać. Od tego czasu UCSC przoduje w badaniach nad genomiką.
W kwietniu 2022 r. Karen Miga z UCSC była współprzewodniczącą konsorcjum Telomere-to-Telomere w celu zebrania pierwszego pełnego sekwencjonowania ludzkiego genomu, wypełniając brakujące, złożone regiony odniesienia, które od dawna wymykały się naukowcom.
“Od 2000 roku mamy serię coraz dokładniejszych reprezentacji jednego genomu” – powiedział David Haussler, dyrektor naukowy UCSC Genomics Institute, który kierował zespołem UCSC nad oryginalnym projektem genomu ludzkiego i doradzał w projekcie pangenomu. „Ale bez względu na to, jak dokładnie reprezentujesz jeden genom, nie będzie to reprezentować całej ludzkości. Teraz jest punkt zwrotny: już nie genomika jednego standardowego ludzkiego genomu, ale genomika dla wszystkich”.
Naukowcy czynią postępy w kierunku ukończenia pełnego pangenomu do 2024 r. Zespół jest w trakcie rekrutacji nowych osobników reprezentujących niektóre populacje nieobjęte projektem 1000 genomów, w szczególności osoby pochodzenia bliskowschodniego i afrykańskiego. Miga, jako dyrektor Centrum Produkcji Danych w UCSC, będzie kierował tymi wysiłkami w przyszłości.
Oprócz ukończenia ostatecznego odniesienia do pangenomu, naukowcy pracują nad stworzeniem międzynarodowego projektu pangenomu człowieka, który nawiązałby współpracę z naukowcami z całego świata. Partnerstwa te obejmowałyby dwukierunkową wymianę umiejętności i wiedzy, mającą na celu udostępnienie naukowcom na całym świecie umiejętności i technologii potrzebnych do tworzenia wysokiej jakości genomów referencyjnych, aby mogli oni prowadzić własne badania.
Inni badacze z UCSC biorący udział w głównym artykule to Marina Haukness, Glenn Hickey, Julian Lucas, Jean Monlong, Xian Chang, Jordan Eizenga, Charles Markello, Adam Novak, Hugh Olsen i Trevor Pesout.
Inne instytucje zaangażowane w Human Pangenome Reference Consortium można znaleźć na stronie głównej projektu.
Finansowanie HPRC pochodziło głównie z Narodowego Instytutu Badań nad Genomem Człowieka.