Beyond AlphaFold: AI przoduje w tworzeniu nowych białek

Beyond AlphaFold: AI przoduje w tworzeniu nowych białek

W ciągu ostatnich dwóch lat uczenie maszynowe zrewolucjonizowało przewidywanie struktury białek. Teraz trzy artykuły w Science opisują podobną rewolucję w projektowaniu białek.

W nowych artykułach biolodzy z University of Washington School of Medicine pokazują, że uczenie maszynowe może być wykorzystywane do tworzenia cząsteczek białek znacznie dokładniej i szybciej niż było to możliwe wcześniej. Naukowcy mają nadzieję, że postęp ten doprowadzi do powstania wielu nowych szczepionek, terapii, narzędzi do wychwytywania dwutlenku węgla i zrównoważonych biomateriałów.

„Białka mają fundamentalne znaczenie w biologii, ale wiemy, że wszystkie białka znalezione w każdej roślinie, zwierzęciu i drobnoustroju stanowią znacznie mniej niż jeden procent tego, co jest możliwe. Dzięki tym nowym narzędziom programowym naukowcy powinni być w stanie znaleźć rozwiązania na – stojące wyzwania w medycynie, energetyce i technologii” – powiedział starszy autor David Baker, profesor biochemii na University of Washington School of Medicine i laureat nagrody przełomowej w dziedzinie nauk przyrodniczych w 2021 r.

Białka są często określane jako „cegiełki życia”, ponieważ są niezbędne dla struktury i funkcji wszystkich żywych istot. Są zaangażowani w praktycznie każdy proces zachodzący wewnątrz komórek, w tym wzrost, podział i naprawę. Białka składają się z długich łańcuchów substancji chemicznych zwanych aminokwasami. Sekwencja aminokwasów w białku determinuje jego trójwymiarowy kształt. Ten skomplikowany kształt ma kluczowe znaczenie dla funkcjonowania białka.

Ostatnio zaawansowane algorytmy uczenia maszynowego, w tym AlphaFold i RoseTTAFold, zostały przeszkolone w celu przewidywania szczegółowych kształtów naturalnych białek w oparciu wyłącznie o ich sekwencje aminokwasowe. Uczenie maszynowe to rodzaj sztucznej inteligencji, który umożliwia komputerom uczenie się na podstawie danych bez wyraźnego programowania. Uczenie maszynowe można wykorzystać do modelowania złożonych problemów naukowych, które są zbyt trudne do zrozumienia dla ludzi.

Aby wyjść poza białka występujące w naturze, członkowie zespołu Baker podzielili wyzwanie projektowania białek na trzy części i zastosowali dla każdej z nich nowe rozwiązania programowe.

Najpierw musi zostać wygenerowany nowy kształt białka. W artykule opublikowanym 21 lipca w czasopiśmie Science zespół wykazał, że sztuczna inteligencja może generować nowe kształty białek na dwa sposoby. Pierwszy, nazwany „halucynacją”, jest podobny do DALL-E lub innych generatywnych narzędzi sztucznej inteligencji, które generują dane wyjściowe na podstawie prostych podpowiedzi. Drugi, nazwany „zamalowywaniem”, jest analogiczny do funkcji autouzupełniania występującej we współczesnych paskach wyszukiwania.

Po drugie, aby przyspieszyć ten proces, zespół opracował nowy algorytm generowania sekwencji aminokwasowych. Opisane w Science z 15 września, to narzędzie programowe, nazwane ProteinMPNN, działa w ciągu około jednej sekundy. To ponad 200 razy szybciej niż poprzednie najlepsze oprogramowanie. Jego wyniki są lepsze od wcześniejszych narzędzi, a oprogramowanie nie wymaga specjalistycznej personalizacji do uruchomienia.

„Sieci neuronowe są łatwe do wytrenowania, jeśli masz mnóstwo danych, ale w przypadku białek nie mamy tylu przykładów, ile byśmy chcieli. Musieliśmy wejść i zidentyfikować, które cechy w tych cząsteczkach są najważniejsze. to trochę prób i błędów ”- powiedział naukowiec projektu Justas Dauparas, pracownik z tytułem doktora w Institute for Protein Design

Po trzecie, zespół wykorzystał AlphaFold, narzędzie opracowane przez DeepMind firmy Alphabet, aby niezależnie ocenić, czy sekwencje aminokwasowe, które wymyślili, mogą się zwinąć w zamierzone kształty.

„Oprogramowanie do przewidywania struktur białkowych jest częścią rozwiązania, ale samo nie może wymyślić niczego nowego” – wyjaśnił Dauparas.

„ProteinMPNN jest w projektowaniu białek tym, czym AlphaFold w przewidywaniu struktury białka” – dodał Baker.

W innym artykule, który ukazał się w Science 15 września, zespół z laboratorium Baker potwierdził, że połączenie nowych narzędzi do uczenia maszynowego może niezawodnie generować nowe białka, które funkcjonują w laboratorium.

„Odkryliśmy, że białka wytworzone przy użyciu ProteinMPNN były znacznie bardziej podatne na fałdowanie zgodnie z przeznaczeniem, a przy użyciu tych metod mogliśmy tworzyć bardzo złożone zespoły białkowe” – powiedział naukowiec projektu Basile Wicky, stażysta podoktorancki w Institute for Protein Design.

Wśród wytworzonych nowych białek znalazły się pierścienie w nanoskali, które zdaniem naukowców mogą stać się częściami niestandardowych nanomaszyn. Do obserwacji pierścieni, których średnice są mniej więcej miliard razy mniejsze niż mak, wykorzystano mikroskopy elektronowe.

„To jest sam początek uczenia maszynowego w projektowaniu białek. W nadchodzących miesiącach będziemy pracować nad ulepszeniem tych narzędzi, aby tworzyć jeszcze bardziej dynamiczne i funkcjonalne białka” – powiedział Baker.

Zasoby komputerowe do tej pracy zostały przekazane przez Microsoft i Amazon Web Services.

Finansowanie zapewnił projekt Audacious w Institute for Protein Design; Microsoft; Eric i Wendy Schmidt z rekomendacji Schmidt Futures; projekt DARPA Synergistic Discovery and Design (kontrakt HR001117S0003 FA8750-17-C-0219); projekt DARPA Harnessing Enzymatic Activity for Lifesaving Remedies (umowa HR001120S0052 HR0011-21-2-0012); Waszyngtońska Fundacja Badawcza; Fundusz otwartej filantropii na rzecz poprawy projektowania białek; Amgen; Dotacja programu „Mater-to-Life” Fundacji im. Alfreda P. Sloana (G-2021-16899); Donald i Jo Anne Petersen Endowment na rzecz przyspieszenia postępów w badaniach nad chorobą Alzheimera; Stypendium interdyscyplinarne Human Frontier Science Program (LT000395/2020-C); Europejska Organizacja Biologii Molekularnej (ALTF 139-2018), w tym stypendium niestypendialne EMBO (ALTF 1047-2019) i stypendium długoterminowe EMBO (ALTF 191-2021); Fundacja “la Caixa”; Howard Hughes Medical Institute, w tym stypendium Hanna Grey (GT11817); Narodowa Fundacja Nauki (MCB 2032259, CHE-1629214, DBI 1937533, DGE-2140004); Narodowe Instytuty Zdrowia (DP5OD026389); Narodowy Instytut Alergii i Chorób Zakaźnych (HHSN272201700059C); Narodowy Instytut ds. Starzenia się (5U19AG065156); Narodowy Instytut Nauk Medycznych Ogólnych (P30 GM124169-01, P41 GM 103533-24); Narodowy Instytut Raka (R01CA240339); Szwajcarska Narodowa Fundacja Nauki; Szwajcarskie Narodowe Centrum Kompetencji Inżynierii Systemów Molekularnych; Szwajcarskie Narodowe Centrum Kompetencji w Biologii Chemicznej; oraz Europejską Radę ds. Badań Naukowych (716058).

Click to rate this post!
[Total: 0 Average: 0]
science