Jedan od glavnih zadataka biologije je riješen

Jedan od glavnih zadataka biologije je riješen
Jedan od glavnih zadataka biologije je riješen
Anonim

Struktura proteina jedna je od glavnih misterija koje nauka treba otkriti, na primjer, za recikliranje plastičnog otpada ili liječenje nasljednih bolesti. Ali pokazalo se da je priroda lukavija od bilo kojeg računara: u svijetu postoji više od 200 miliona proteinskih struktura, a svaka je pojedinačna. Umjetna inteligencija (AI) približila je naučnike rješavanju njihovih tajni.

Umjetna inteligencija (AI) riješila je jedan od najvažnijih problema u biologiji: sada se može koristiti za predviđanje aminokiselinske sekvence trodimenzionalne strukture proteina. Ovisno o savršenstvu ili nesavršenosti ove sekvence, protein obavlja svoje funkcije. Vodeći stručnjaci za strukturnu biologiju i organizatori dvogodišnjeg eksperimenta savijanja (presavijanja) proteina danas su najavili ovo izvanredno postignuće naučnika iz britanske kompanije DeepMind, koja se razvija u području umjetne inteligencije (AI). Navedeno je da će DeepMindova metoda imati dalekosežne implikacije. Na primjer, može dramatično ubrzati razvoj novih lijekova.

"DeepMind tim uspio je postići fantastičan rezultat koji će dramatično promijeniti izglede za razvoj strukturne biologije i istraživanja proteina", kaže Janet Thornton, emeritus direktorica Europskog instituta za bioinformatiku. „Ovaj izazov je star 50 godina“, dodaje John Moult, strukturalni biolog sa Univerziteta Maryland u Shady Groveu; Moult je suosnivač naučnog takmičenja CASP (Critical Assessment of Protein Structure Prediction). "Nikada nisam mislio da ću doživjeti ovaj trenutak", dodaje Moult.

O čemu se radi? U ljudskom tijelu postoji na desetine hiljada različitih proteina, od kojih je svaki lanac mnogih aminokiselina - od desetina do stotina. Slijed aminokiselina određuje nebrojen broj interakcija među njima i, prema tome, dovodi do pojave složenih trodimenzionalnih struktura, koje pak određuju svojstva proteina. Podaci o ovim proteinskim strukturama omogućuju naučnicima stvaranje novih lijekova. A sposobnost sintetiziranja proteina sa željenom strukturom ubrzat će razvoj enzima (akceleratora), uz pomoć kojih je, na primjer, moguće proizvesti biogoriva i potpuno razgraditi plastični otpad.

Decenijama su naučnici dešifrirali trodimenzionalne proteinske strukture eksperimentalnim tehnikama poput rendgenske kristalografije ili krioelektronske mikroskopije (krio-EM). Međutim, za korištenje takvih metoda potrebno je, povremeno, mjeseci ili godina; štaviše, ove metode ne funkcioniraju uvijek. Od više od 200 miliona poznatih proteinskih struktura, dešifrirano je samo oko 170 tisuća.

Šezdesetih godina prošlog stoljeća naučnici su došli do zaključka da bi bilo moguće predvidjeti prostornu strukturu proteina ako bi bilo moguće utvrditi sve veze karakteristične za datu sekvencu proteina. Međutim, budući da svaki protein sadrži stotine aminokiselinskih jedinica koje međusobno djeluju na različite načine, na kraju otkrivamo da je ukupni mogući broj takvih struktura po jednoj aminokiselinskoj sekvenci jednostavno ogroman. Računarski naučnici uzeli su rješenje ovog problema, ali stvari su išle polako.

Godine 1994. John Moult i njegove kolege pokrenuli su opsežni CASP eksperiment koji se provodi svake dvije godine. Učesnici ovog eksperimenta dobivaju aminokiselinske sekvence od stotinjak proteina čija je struktura nepoznata. Neke grupe naučnika izračunavaju strukturu za svaku sekvencu, dok je druge grupe određuju eksperimentalno. Organizatori eksperimenta zatim uspoređuju predviđena predviđanja s laboratorijskim rezultatima koristeći procjenu tačnosti procjene (GDT), koja se kreće od nula do sto. S procjenama iznad 90 GDT, smatra se da su proračunata predviđanja blizu eksperimentalnih, rekao je Moult.

Naučnici su već 1994. postigli da strukture malih jednostavnih proteina koje su predvidjeli mogu odgovarati eksperimentalnim rezultatima. Međutim, za veće i složenije proteine, rezultati proračuna su bili oko 20 GDT -a - "potpuni neuspjeh", kako je rekao jedan od sudija CASP -a, Andrej Lupas, evolucijski biolog s Instituta za razvojnu biologiju. Max Planck. Do 2016. godine konkurentski timovi naučnika regrutirali su oko 40 GDT -a za najsloženije proteine, uglavnom analizirajući poznate proteinske strukture poznate po CASP -u.

Kada se DeepMind prvi put prijavio na natjecanje 2018. godine, njegov predloženi algoritam nazvan AlphaFold oslanjao se na gore opisanu metodu za usporedbu teorijskih i praktičnih rezultata. Ali AlphaFold također koristi metode dubokog učenja: softver uči iz ogromnih količina podataka (u ovom slučaju sekvenci i struktura poznatih proteina) i uči identificirati obrasce. DeepMind je lako pobijedio, pobijedivši konkurenciju u prosjeku za 15% za svaku strukturu proteina i osvojivši oko 60 GDT bodova za najizazovnije zadatke.

Ipak, prema Johnu Jumperu, koji je odgovoran za razvoj AlphaFold algoritma u DeepMind -u, predviđanja su bila previše gruba da bi se mogla koristiti u praktične svrhe. "Znali smo da smo još daleko od praktične upotrebe u biologiji", rekao je Jumper. Da bi postigli bolje rezultate, Jumper i njegove kolege kombinirali su duboko učenje s "algoritmom pažnje" koji oponaša ljudsku sposobnost sastavljanja slagalica. Evo kako se to događa: prvo se mali fragmenti prave od malih komada (u ovom slučaju fragmenata aminokiselinskih jedinica), a zatim se pokušavaju kombinirati ti fragmenti, čineći jednu cjelinu većih veličina. Ovaj rad uključuje računarsku mrežu koja se sastoji od 128 procesora mašinskog učenja; uspjeli su uvježbati algoritam na oko 170 hiljada poznatih proteinskih struktura.

I upalilo je! Ove godine je AlphaFold algoritam dobio prosječnu ocjenu od 92,4 GDT za proteine koji su predloženi za analizu u CASP -u. Prilikom analize najsloženijih proteina, AlphaFold algoritam je u prosjeku postigao 87 bodova, što je 25 bodova više od najtačnijih predviđanja koja su ranije napravljena. Algoritam se čak nosio s analizom struktura proteina koji se nalaze u staničnim membranama i odgovorni su za mnoge ljudske bolesti, međutim, u isto vrijeme, teško ih je proučavati pomoću rendgenske kristalografije. Strukturni biolog Venki Ramakrishnan iz Laboratorije za molekularnu biologiju Vijeća za medicinska istraživanja nazvao je rezultat "zapanjujućim postignućem u problemu predviđanja strukture proteina".

Prema John Moult -u, na ovogodišnjem takmičenju sve grupe naučnika pokazale su još tačnije rezultate. Ali ako govorimo o AlphaFold algoritmu, onda se prema Andreyu Lupasu "situacija radikalno promijenila". Organizatori CASP eksperimenta čak su sumnjali u integritet DeepMind algoritma. Lupas je sebi postavio zaseban zadatak: otkriti strukturu membranskog proteina vrste arheja (predstavnik grupe drevnih mikroorganizama). Već deset godina njegov istraživački tim pokušava dobiti rendgenski snimak kristalne strukture ovog proteina. No, prema Lupasu, ovaj problem nije mogao biti riješen.

Međutim, algoritam AlphaFold nije imao problema. Rezultat je bila detaljna slika trokomponentnog proteina s dvije spiralne grane u sredini. Model koji je proizveo algoritam omogućio je Lupasu i njegovim kolegama da razumiju podatke dobivene rendgenskim zrakama; za pola sata su usporedili svoje eksperimentalne podatke sa strukturom predviđenom AlphaFold algoritmom. "Rezultat je gotovo savršen", kaže Lupas. - Bilo je nemoguće manipulirati podacima. Ne razumijem kako su to uspjeli.”

Jedan od uslova za učešće u eksperimentu CASP, DeepMind se, zajedno sa svim ostalim grupama, složio da otkrije bitne detalje svoje metode kako bi je druge grupe mogle ponoviti. Ovo je dar za eksperimentatore, jer će im precizno predviđanje strukture proteina pomoći da pravilno protumače nejasne podatke dobivene rendgenskim studijama i krio-elektronskom mikroskopijom (krio-EM). Osim toga, algoritam AlphaFold, prema Moulttu, omogućit će i proizvođačima lijekova da brzo utvrde strukturu proteina koji čine nove i opasne patogene, poput SARS-CoV-2, koji se, s druge strane, treba smatrati jednim od važni koraci u procesu traženja molekula pomoću kojih se ti patogeni mogu blokirati.

Međutim, AlphaFold algoritam nije sposoban za sve zadatke. Na primjer, u eksperimentu CASP, njegov rad se primjetno usporio pri analizi jednog od proteina (bila je to mješavina 52 mala ponavljajuća segmenta koji međusobno iskrivljuju lokacije tijekom montaže). John Jumper kaže da bi istraživački tim sada želio obučiti AlphaFold kako bi mogao analizirati gore spomenute strukture, kao i proteinske komplekse koji zajedno obavljaju važne funkcije u stanici.

Međutim, ubrzo nakon rješavanja jednog od najtežih problema, nedvojbeno će se pojaviti drugi. "Još nije gotovo", kaže Janet Thornton. "Pred nama je mnogo novih zadataka."

Preporučuje se: