Podwojenie znanych rodzin białek

Podwojenie znanych rodzin białek

Wyobraź sobie badaczy eksplorujących ciemny pokój za pomocą latarki i potrafiących jasno zidentyfikować jedynie to, co pada w obrębie tej pojedynczej wiązki. Jeśli chodzi o społeczności drobnoustrojów, naukowcy od dawna nie byli w stanie zajrzeć poza wiązkę światła, a co gorsza, nie wiedzieli nawet, jak duże jest to pomieszczenie.

Nowe badanie opublikowane w Internecie 11 października 2023 r. w czasopiśmie Nature podkreśla szeroki wachlarz różnorodności funkcjonalnej drobnoustrojów dzięki nowatorskiemu podejściu do lepszego zrozumienia społeczności drobnoustrojów poprzez analizę funkcji białek w nich występujących. Pracami kierował zespół naukowców ze Wspólnego Instytutu Genomu (JGI) Departamentu Energii Stanów Zjednoczonych (DOE), ośrodka użytkownika Departamentu Nauki znajdującego się w Lawrence Berkeley National Laboratory (Berkeley Lab) oraz współpracownicy z wielu innych ośrodków badawczych dookoła świata.

„Ponad dwukrotnie zwiększyliśmy liczbę znanych do tej pory rodzin białek i zidentyfikowaliśmy wiele nowatorskich przewidywań dotyczących struktury” – powiedział główny autor artykułu Georgios Pavlopoulos, obecnie dyrektor ds. badań w Centrum Badań Nauk Biomedycznych Alexander Fleming. „To była masowa analiza 1,3 miliarda białek z masowo równoległymi obliczeniami”.

Kierowany przez naukowców z JGI ​​zespół wyruszył na misję odkrycia tajemnic ukrytych w „ciemnej” sferze funkcjonalnej. Skupili się bardziej na rozszyfrowaniu zawiłego świata różnorodności funkcjonalnej białek: nowych rodzin białek i nowych funkcji u jeszcze nie odkrytych drobnoustrojów. Wykorzystując zbiorową moc ponad 26 000 zbiorów danych o mikrobiomach, dostępnych za pośrednictwem publicznie dostępnej bazy danych zintegrowanych genomów i mikrobiomów drobnoustrojów (IMG/M), udało im się stworzyć katalog nowatorskich rodzin białek metagenomowych (NMPF).

„Możemy teraz analizować nowe zbiory danych, porównując je z tymi rodzinami białek lub dalej analizować rodziny białek, aby przewidzieć nowe funkcje” – powiedział Nikos Kyrpides, starszy autor badania i szef grupy Microbiome Data Science w JGI.

Rzucanie światła na funkcjonalną „ciemną materię”

Społeczności drobnoustrojów żyjące wszędzie, od gleby i żołądków po głębokie morza, są w stanie dokonać wielu wyjątkowych rzeczy, jeśli chodzi o cykle energetyczne – przekształcając biomasę w etanol lub wodór lub energię słoneczną w wodór.

Społeczności drobnoustrojów są również niezwykle trudne do zbadania. Wiele znajdujących się w nich drobnoustrojów nie może być hodowanych w warunkach laboratoryjnych. Ponieważ każda społeczność drobnoustrojów ma swój własny, niepowtarzalny skład drobnoustrojów i funkcje, jakie pełnią, sztuczne odtworzenie całej społeczności jest niemożliwe.

Sekwencjonowanie metagenomiczne umożliwia badaczom badanie całego składu genetycznego tych społeczności poprzez sekwencjonowanie całego genomu próbek, bez możliwości rozróżnienia, który gen należy do poszczególnych gatunków drobnoustrojów w obrębie społeczności. Dlatego proces opiera się na odwoływaniu się do istniejących sekwencji genomu.

Niektóre z tych białek naukowcy nazywają „znanymi znanymi” – to znaczy są podobne do genów o znanej funkcji. Inne nazywane są „znanymi niewiadomymi” – to znaczy są podobne do znanych wcześniej genów z izolowanych organizmów, ale nadal nie jesteśmy pewni ich funkcji.

Jeśli jednak gen w danej społeczności nie pasuje do żadnego z wcześniej znanych genów pochodzących z izolatów, naukowcy niewiele mogą powiedzieć na temat jego funkcji lub pochodzenia. W rezultacie geny te były zazwyczaj odrzucane z wszelkich analiz jako bezużyteczne informacje. Reprezentują one „nieznane niewiadome”, ponieważ nie są podobne do niczego, co już zdefiniowaliśmy.

„Ogromny odsetek – około 30–50% rodzin białek, które znaliśmy do tej pory – nadal nie pełni żadnej znanej funkcji, ale znaliśmy te rodziny” – powiedział Kyrpides. Jednak „prawie 20 lat danych metagenomicznych i analiz metagenomicznych, a wciąż nie przeprowadzono prawdziwej analizy rodzin białek z metagenomów per se”.

Niedawno inne zespoły badawcze wykorzystały moc sztucznej inteligencji do dekodowania języka sekwencji białek i uzyskania wskazówek na temat ich możliwych funkcji. Jednak wysiłki te ograniczały się do znanych już sekwencji białkowych.

„W tym przedsięwzięciu nie tylko zapuściliśmy się na niezbadane terytorium, aby zrozumieć rozległy krajobraz różnorodności funkcjonalnej, ale także przesunęliśmy granice, stosując metodologie sztucznej inteligencji, aby odkryć ich rolę” – powiedział Pavlopoulos. „W rezultacie zgromadziliśmy obszerne repozytorium przełomowych spostrzeżeń, znacznie poszerzając horyzonty potencjalnych funkcji różnych kategorii białek, w tym tych o kluczowych zastosowaniach w biotechnologii, takich jak enzymy edytujące DNA”.

Wykorzystywanie rodzin białek w nowy sposób

W ostatnich latach odkrycie nowych rodzin białek zaczęło się stabilizować, co być może sugeruje, że naukowcom „uchwycili” większość istniejącej różnorodności, nawet jeśli nie zdefiniowali jeszcze dokładnie, czym się zajmują. Ale jakiego rodzaju różnorodność mogą kryć się w tych „nieznanych niewiadomych”?

Zespół rozpoczął od 8 miliardów genów metagenomowych z IMG (w badaniu odniesiono się również do danych z katalogu GEM JGI’s Genomes from Earth’s Microbiome, czyli katalogu GEM). Następnie usunęli wszystkie geny wykazujące nawet niewielkie podobieństwo do wcześniej znanych genów, pozostawiając około 1,2 miliarda nowych genów.

Zabrali to, co im zostało, i połączyli ich w rodziny. Stamtąd skupili się na rodzinach liczących co najmniej 100 członków.

„Jeśli masz 100 sekwencji, jakość klastra jest znacznie wyższa, ponieważ bardzo trudno jest uzyskać 100 sekwencji z różnych lokalizacji lub siedlisk, które będą bardzo dobrze i losowo dopasowane” – wyjaśnił Kyrpides. „Powtórzenie tego 100 razy byłoby prawie niemożliwe”.

Kiedy zespół zakończył tę fazę, odkrył, że różnorodność rodzin białek w tej przestrzeni metagenomicznej („nieznane niewiadome”) była znacznie większa niż w przypadku genomów referencyjnych – co najmniej dwukrotnie.

„W miarę dodawania kolejnych próbek uzyskujemy coraz więcej rodzin białek” – powiedział Kyrpides. „Za kilka lat, w miarę sekwencjonowania większej liczby metagenomów, niektóre klastry, które obecnie liczą 50 lub więcej członków, również wzrosną do 100 lub więcej członków. Mówimy więc, że różnorodność się podwoiła, ale w rzeczywistości może to nastąpić będzie trzy, cztery, pięć lub dziesięć razy więcej.”

Kopanie głębiej w szereg różnorodności

Chociaż zespół nie zbadał szczegółowo funkcji, był w stanie dokładniej scharakteryzować te rodziny. Podzielili rodziny białek według środowiska i odkryli, że tylko 7% rodzin białek występuje we wszystkich ośmiu kategoriach środowiskowych. Zamiast tego rodziny preferowały określone środowisko – czy to glebę, żywicieli zwierzęcych, ekosystemy morskie itp.

„Muszą więc robić coś interesującego lub ważnego dla tego siedliska” – wyjaśnił Pavlopoulos. „To zdecydowanie materiał, który społeczność naukowa może teraz dalej wykorzystywać. Załóżmy, że ktoś pracuje nad środowiskiem glebowym lub ciałem ludzkim – może wziąć niektóre z tych rodzin i spróbować je scharakteryzować funkcjonalnie, ponieważ są bardzo specyficzne dla tego siedliska. “

Analiza taksonomiczna wykazała, że ​​większość tych rodzin białek należała do bakterii i wirusów, chociaż 6 milionów sekwencji uniknęło klasyfikacji. Naukowcy próbowali także udoskonalić funkcję genów poprzez modelowanie 3D i porównywanie struktur nieznanych ze znanymi — podobna struktura oznacza duże prawdopodobieństwo wystąpienia podobnej funkcji. Zespół zidentyfikował także rodziny białek o zupełnie nowych strukturach.

Moc obliczeniowa niezbędna do przeprowadzenia tego poziomu analizy była uzależniona od dostępu do Naukowego Centrum Obliczeniowego Krajowych Badań nad Energią, kolejnego obiektu użytkownika w Berkeley Lab.

„To także zasługa zespołu Aydina Buluça z Wydziału Matematyki Stosowanej i Badań Obliczeniowych Berkeley Lab” – powiedział Pavlopoulos. „Opracowali równoległe algorytmy do przeprowadzania porównań typu „wszystko ze wszystkimi” i grupowania grafów, które mogą działać w tak wysoce równoległych infrastrukturach”.

Jest to pierwszy przypadek wykorzystania struktur białkowych do scharakteryzowania szerokiej gamy ciemnej materii drobnoustrojów. Badanie trwało około dwóch lat i w tym czasie zsekwencjonowano jedynie około 20 000 metagenomów. Teraz liczba ta zbliża się do 60 000.

„Nadal istnieje 70–80% znanej różnorodności drobnoustrojów, która nie została jeszcze ujęta genomowo” – powiedział Kyrpides. „Tak więc ta różnorodność z pewnością kryje wiele nowych tajemnic, także pod względem różnorodności funkcjonalnej”.

Naukowcy z Uniwersytetu Harvarda i Uniwersytetu Indiana. Uniwersytet na Krecie (Grecja). W prace zaangażowane były także Georgia Institute of Technology, Michigan State University, Lawrence Livermore National Laboratory, University of Washington, Center for Research & Technology Hellas (Grecja), Aristotle University of Thessalonica (Grecja) i University of California w Berkeley. Inni autorzy artykułu to Fotis Baltoumas, Sirui Liu, Oguz Selvitopi, Antonio Camargo Stephen Nayfach, Ariful Azad, Simon Roux, Lee Call, Natalia N. Ivanova, I Min Che, David Paez-Espino, Evangelos Karatzas, Novel Metagenome Protein Families Consortium, Ioannis Iliopoulos, Konstantinos Konstantinidis, James M. Tiedje, Jennifer Pett-Ridge, David Baker, Axel Visel, Christos A. Ouzounis i Sergey Ovchinnikov.

Click to rate this post!
[Total: 0 Average: 0]
science