10 lat AlphaGo: od planszy Go do 200 mln białek
- W marcu 2016 roku AlphaGo pokonało Lee Sedola 4:1 w Seulu, używając uczenia ze wzmocnieniem zamiast zaprogramowanych reguł.
- AlphaFold2 — bezpośredni potomek tej architektury — w 2022 roku opublikował struktury ponad 200 milionów białek, rozwiązując 50-letni problem biologii.
- DeepMind aplikuje ten sam schemat do fuzji jądrowej, matematyki, nauki o materiałach i prognozowania pogody.
Ruch nr 37 zmienił AI na zawsze
W marcu 2016 roku AlphaGo pokonało Lee Sedola — jednego z najlepszych graczy Go w historii — 4:1 w pięciomeczowym meczu w Seulu. Nie chodziło o sam wynik. Chodziło o to, jak system do niego doszedł.
Go ma więcej możliwych pozycji na planszy niż atomów we wszechświecie. Podejście brute-force, które wystarczyło Deep Blue do pokonania Kasparova w szachach, tutaj nie miało prawa zadziałać. AlphaGo musiało nauczyć się czegoś, co mistrzowie Go rozwijają przez dekady — intuicji pozycyjnej.
Najlepiej widać to w 37. ruchu drugiej partii. Eksperci od razu uznali go za błąd — tak bardzo odbiegał od wszystkiego, co ludzki gracz by rozważył. Okazał się kluczem do zwycięstwa w tej partii.
Jak AlphaGo w ogóle działało?
Tradycyjne systemy AI działały prosto: człowiek programuje reguły, komputer je wykonuje. AlphaGo odwróciło ten schemat — uczyło się grając samo ze sobą miliony partii, metodą prób i błędów wypracowując strategie, których wcześniej nie stosował żaden człowiek.
DeepMind rozwijało tę architekturę w kolejnych odsłonach. AlphaGo Zero w 2017 roku nauczyło się grać wyłącznie przez samodzielną grę, bez żadnych ludzkich partii jako danych treningowych. AlphaZero rok później opanowało szachy, shogi i Go tym samym algorytmem, bijąc najlepsze wyspecjalizowane programy w każdej z tych gier. MuZero w 2019 poszło krok dalej — nauczyło się grać bez znajomości reguł, samodzielnie je odkrywając w trakcie.
AlphaFold: 50-letni problem biologiczny, rozwiązany
Prawdziwy test przyszedł w 2020 roku. AlphaFold2 zaatakował problem fałdowania białek — przewidywania trójwymiarowej struktury białka na podstawie sekwencji aminokwasów. Biologia zmagała się z tym przez 50 lat. Struktura determinuje funkcję białka, bez tego trudno projektować leki albo rozumieć mechanizmy chorób.
AlphaFold2 osiągnął dokładność porównywalną z eksperymentalną krystalografią rentgenowską. W 2022 roku DeepMind opublikowało przewidywane struktury ponad 200 milionów białek — praktycznie wszystkich znanych nauce.
Architektura AlphaFold bezpośrednio wywodzi się z AlphaGo: sieci neuronowe uczące się reprezentacji problemu, mechanizmy uwagi identyfikujące zależności między aminokwasami, iteracyjne dopracowywanie predykcji. Ten sam zestaw narzędzi, inne zastosowanie.
Gdzie jeszcze DeepMind wbija tę samą metodę?
DeepMind systematycznie aplikuje podejście z AlphaGo do kolejnych dziedzin naukowych.
Fuzja jądrowa — system kontroluje plazmy w tokamaku, utrzymując niestabilny stan przez dłuższy czas niż tradycyjne metody kontroli. To konkretny wkład w jeden z najtrudniejszych problemów energetyki.
Matematyka — FunSearch odkrywa nowe rozwiązania otwartych problemów matematycznych, generując i weryfikując hipotezy. Nie asystuje matematykom. Sam szuka.
Nauka o materiałach — GNoME przewidział struktury 2,2 miliona nowych materiałów. Spośród nich 380 tysięcy zostało uznanych za stabilne i użyteczne. Dla porównania: przez całą historię nauki eksperymentalnie odkryto kilkadziesiąt tysięcy stabilnych materiałów.
Prognozowanie pogody — GraphCast przewiduje pogodę na 10 dni do przodu szybciej i taniej niż klasyczne modele numeryczne stosowane przez służby meteorologiczne.
Dlaczego gra planszowa okazała się tak dobrym poligonem?
Go miało coś, czego brakowało większości wcześniejszych problemów AI: doskonale zdefiniowane reguły, natychmiastową informację zwrotną i przestrzeń stanów zbyt dużą na jakiekolwiek przeszukiwanie wyczerpujące. To idealne środowisko do rozwijania metod, które potem działają tam, gdzie reguł nie ma — albo są zbyt złożone, żeby je ręcznie zakodować.
Dziesięć lat po Seulu DeepMind ma na koncie rozwiązania problemów, których nauka nie mogła tknąć przez dekady. Ile z tych 380 tysięcy stabilnych materiałów wyląduje w bateriach albo półprzewodnikach — tego jeszcze nie wiadomo.