Naukowcy z MIT wykorzystują sztuczną inteligencję do projektowania nowych białek, które wykraczają poza te występujące w naturze.
Opracowali algorytmy uczenia maszynowego, które mogą generować białka o określonych cechach strukturalnych, które można wykorzystać do wytwarzania materiałów o określonych właściwościach mechanicznych, takich jak sztywność lub elastyczność. Takie materiały inspirowane biologicznie mogłyby potencjalnie zastąpić materiały wykonane z ropy naftowej lub ceramiki, ale przy znacznie mniejszym śladzie węglowym.
Naukowcy z MIT, MIT-IBM Watson AI Lab i Tufts University zastosowali model generatywny, który jest tym samym typem architektury modelu uczenia maszynowego, który jest używany w systemach sztucznej inteligencji, takich jak DALL-E 2. Ale zamiast używać go do generowania realistycznych obrazy z podpowiedzi języka naturalnego, tak jak robi to DALL-E 2, dostosowali architekturę modelu, aby mógł przewidywać sekwencje aminokwasowe białek, które osiągają określone cele strukturalne.
W artykule, który ma zostać opublikowany w Chem, naukowcy demonstrują, w jaki sposób te modele mogą generować realistyczne, a jednocześnie nowatorskie białka. Modele, które uczą się związków biochemicznych, które kontrolują powstawanie białek, mogą wytwarzać nowe białka, które mogą umożliwić unikalne zastosowania, mówi starszy autor Markus Buehler, profesor inżynierii Jerry’ego McAfee oraz profesor inżynierii lądowej i środowiskowej oraz inżynierii mechanicznej.
Narzędzie to można na przykład wykorzystać do opracowania inspirowanych białkiem powłok do żywności, które mogłyby dłużej zachować świeżość produktów, a jednocześnie byłyby bezpieczne dla ludzi. A modele mogą wygenerować miliony białek w ciągu kilku dni, szybko dostarczając naukowcom portfolio nowych pomysłów do zbadania, dodaje.
„Kiedy myślisz o projektowaniu białek, których natura jeszcze nie odkryła, jest to tak ogromna przestrzeń projektowa, że nie możesz tego po prostu uporządkować za pomocą ołówka i papieru. Musisz zrozumieć język życia, sposób, w jaki aminokwasy są kodowane przez DNA, a następnie łączą się, tworząc struktury białkowe. Przed głębokim uczeniem się naprawdę nie mogliśmy tego zrobić “- mówi Buehler, który jest również członkiem MIT-IBM Watson AI Lab.
Do Buehlera w artykule dołącza główny autor Bo Ni, doktor habilitowany w Buehler’s Laboratory for Atomistic and Molecular Mechanics; oraz David Kaplan, profesor inżynierii rodziny Sternów i profesor bioinżynierii w Tufts.
Dostosowanie nowych narzędzi do zadania
Białka są utworzone przez łańcuchy aminokwasów, złożone razem we wzory 3D. Sekwencja aminokwasów decyduje o właściwościach mechanicznych białka. Chociaż naukowcy zidentyfikowali tysiące białek powstałych w wyniku ewolucji, szacują, że ogromna liczba sekwencji aminokwasowych pozostaje nieodkryta.
Aby usprawnić odkrywanie białek, naukowcy opracowali niedawno modele głębokiego uczenia się, które mogą przewidywać strukturę 3D białka dla zestawu sekwencji aminokwasowych. Ale odwrotny problem – przewidywanie sekwencji struktur aminokwasowych, które spełniają cele projektowe – okazał się jeszcze większym wyzwaniem.
Nowe pojawienie się w uczeniu maszynowym umożliwiło Buehlerowi i jego współpracownikom zmierzenie się z trudnym wyzwaniem: modele dyfuzji oparte na uwadze.
Modele oparte na uwadze mogą uczyć się relacji bardzo dalekiego zasięgu, co jest kluczem do opracowywania białek, ponieważ jedna mutacja w długiej sekwencji aminokwasów może stworzyć lub zniszczyć cały projekt, mówi Buehler. Model dyfuzyjny uczy się generować nowe dane w procesie obejmującym dodawanie szumu do danych treningowych, a następnie uczenie się odzyskiwania danych przez usuwanie szumu. Często są one skuteczniejsze niż inne modele w generowaniu realistycznych danych wysokiej jakości, które można warunkować w celu spełnienia zestawu celów docelowych w celu spełnienia wymagań projektowych.
Naukowcy wykorzystali tę architekturę do zbudowania dwóch modeli uczenia maszynowego, które mogą przewidywać różne nowe sekwencje aminokwasowe, które tworzą białka spełniające cele projektu strukturalnego.
„W przemyśle biomedycznym możesz nie chcieć białka, które jest całkowicie nieznane, ponieważ wtedy nie znasz jego właściwości. Ale w niektórych zastosowaniach możesz chcieć zupełnie nowego białka, które jest podobne do tego występującego w naturze, ale nie coś innego. Za pomocą tych modeli możemy generować widmo, które kontrolujemy, dostrajając określone pokrętła” – mówi Buehler.
Wspólne wzory fałdowania aminokwasów, znane jako struktury drugorzędowe, dają różne właściwości mechaniczne. Na przykład białka o strukturze helisy alfa dają materiały rozciągliwe, podczas gdy białka o strukturze arkusza beta dają materiały sztywne. Łączenie helis alfa i arkuszy beta może tworzyć materiały, które są rozciągliwe i mocne, takie jak jedwab.
Naukowcy opracowali dwa modele, jeden, który działa na ogólnych właściwościach strukturalnych białka, a drugi, który działa na poziomie aminokwasów. Oba modele działają poprzez łączenie tych struktur aminokwasowych w celu wytworzenia białek. W przypadku modelu, który działa na podstawie ogólnych właściwości strukturalnych, użytkownik wprowadza żądany procent różnych struktur (na przykład 40 procent helisy alfa i 60 procent arkusza beta). Następnie model generuje sekwencje, które spełniają te cele. W przypadku drugiego modelu naukowiec określa również kolejność struktur aminokwasowych, co daje znacznie dokładniejszą kontrolę.
Modele są połączone z algorytmem przewidującym fałdowanie białek, którego naukowcy używają do określenia trójwymiarowej struktury białka. Następnie obliczają wynikające z tego właściwości i porównują je ze specyfikacjami projektowymi.
Realistyczne, ale nowatorskie projekty
Przetestowali swoje modele, porównując nowe białka ze znanymi białkami, które mają podobne właściwości strukturalne. Wiele z nich w pewnym stopniu pokrywało się z istniejącymi sekwencjami aminokwasowymi, w większości przypadków około 50 do 60 procent, ale także niektóre zupełnie nowe sekwencje. Poziom podobieństwa sugeruje, że wiele z wygenerowanych białek można syntetyzować, dodaje Buehler.
Aby upewnić się, że przewidywane białka są rozsądne, naukowcy próbowali oszukać modele, wprowadzając fizycznie niemożliwe cele projektowe. Byli pod wrażeniem, widząc, że zamiast wytwarzać nieprawdopodobne białka, modele generowały najbliższe możliwe do syntezy rozwiązanie.
„Algorytm uczący się może wychwycić ukryte zależności w naturze. To daje nam pewność, że cokolwiek wyjdzie z naszego modelu, najprawdopodobniej będzie realistyczne” – mówi Ni.
Następnie naukowcy planują eksperymentalnie zweryfikować niektóre z nowych projektów białek, wykonując je w laboratorium. Chcą również kontynuować rozszerzanie i udoskonalanie modeli, aby móc opracowywać sekwencje aminokwasowe spełniające więcej kryteriów, takich jak funkcje biologiczne.
„W przypadku zastosowań, które nas interesują, takich jak zrównoważony rozwój, medycyna, żywność, zdrowie i projektowanie materiałów, będziemy musieli wyjść poza to, co zrobiła natura. Oto nowe narzędzie do projektowania, którego możemy użyć do stworzenia potencjalnych rozwiązań, które może pomóc nam rozwiązać niektóre z naprawdę palących problemów społecznych, przed którymi stoimy” — mówi Buehler.
Badania te były częściowo wspierane przez MIT-IBM Watson AI Lab, Departament Rolnictwa Stanów Zjednoczonych, Departament Energii Stanów Zjednoczonych, Biuro Badań Armii, Narodowe Instytuty Zdrowia i Biuro Badań Marynarki Wojennej.