AI od Google DeepMind zdobywa złoty medal na Olimpiadzie Matematycznej
Po raz pierwszy w historii sztuczna inteligencja osiągnęła poziom złotych medalistów na IMO, rozwiązując 5 z 6 zadań na Międzynarodowej Olimpiadzie Matematycznej w Australii
[na zdjęciu przedstawiciele Google DeepMind na IMO w Australii, od lewej: Junehyuk Jung, Thang Luong, Dawsen Hwang and Yuri Chervonyi]
Czym jest Międzynarodowa Olimpiada Matematyczna?
Międzynarodowa Olimpiada Matematyczna (IMO) to od 1959 roku najbardziej prestiżowy, coroczny konkurs dla młodych, utalentowanych uczniów szkół średnich z całego świata. Każdy kraj wystawia sześcioosobowy zespół, a uczestnicy mają dwa dni i po 4,5 godziny dziennie na rozwiązanie łącznie sześciu zadań z algebry, kombinatoryki, geometrii i teorii liczb. Średnio tylko 8% uczestników kwalifikuje się na złoty medal.
W tym roku po raz pierwszy oficjalnie oceniano też sztuczną inteligencję. Model Gemini Deep Think od Google DeepMind z powodzeniem rozwiązał 5 z 6 zadań, uzyskał 35 punktów (z możliwych 42) i tym samym zdobył oficjalnie przyznany złoty medal. To ogromny skok w stosunku do zeszłego roku, gdy systemy AlphaProof i AlphaGeometry 2 osiągnęły „tylko” poziom srebrnego medalu z wynikiem 28 punktów. Ale to nie tylko kwestia punktów – prawdziwym przełomem jest jak to zostało osiągnięte.
Język naturalny i myślenie równoległe
Wcześniejsze modele bazowały na języku formalnym. Przed przystąpieniem do zadania należało ręcznie przetłumaczyć problemy z języka naturalnego na specjalistyczny język formalny (jak Lean). Po zakończeniu obliczeń trzeba było ponownie tłumaczyć wyniki na język zrozumiały dla człowieka. To proces czasochłonny, który już na wstępie wymaga ciągłej asysty ludzkich ekspertów.
Gemini Deep Think działa inaczej, jako system end-to-end w języku naturalnym. Oznacza to, że czyta oficjalny opis problemu (w języku angielskim), „myśli” nad nim w sposób przypominający ludzki proces rozumowania, a następnie przedstawia kompletny dowód matematyczny – wszystko w czasie rzeczywistym i w ramach wyznaczonego 4,5-godzinnego limitu czasowego konkursu.
Kluczem do tego sukcesu jest tryb Deep Think z zaimplementowanym myśleniem równoległym (ang. parallel thinking). Zamiast podążać jedną, liniową ścieżką myślenia, jak robią to tradycyjne modele językowe, system jednocześnie eksploruje wiele możliwych podejść do problemu. Na każdym etapie wybiera najbardziej obiecujące ścieżki rozumowania i dopiero na końcu prezentuje optymalne rozwiązanie. To sprawia, że system nie tyle oblicza, co rzeczywiście rozumuje.
Trening i dane
Sukces Gemini Deep Think to nie tylko kwestia architektury, ale również treningu. Model został przeszkolony przy użyciu nowatorskich technik uczenia ze wzmocnieniem, zaprojektowanych do efektywnego wykorzystania danych dotyczących wieloetapowego rozumowania, rozwiązywania problemów i dowodzenia twierdzeń. Ponadto model miał dostęp do starannie wyselekcjonowanego zbioru wysokiej jakości rozwiązań problemów na poziomie olimpijskim i uniwersyteckim. Do instrukcji modelu wkomponowano również ogólne wskazówki i strategie dotyczące podejścia do zadań stricte z IMO, co pozwoliło systemowi uczyć się nie tylko konkretnych technik, ale także nabrać intuicji w rozpoznawaniu struktury problemu i wyborze najlepszej strategii do jego rozwiązania.
Oficjalne potwierdzenie i dalsze kierunki rozwoju
Profesor Dr Gregor Dolinar, prezes IMO, oficjalnie potwierdził wynik Gemini Deep Think i stwierdził, że rozwiązania były „zdumiewające pod wieloma względami” – jasne, precyzyjne i łatwe do śledzenia. To oczywiście nie oznacza jeszcze, że AI rozumie matematykę w głębokim, świadomym sensie, ale niewątpliwie jesteśmy coraz bliżej.
DeepMind zapowiada, że w przyszłości połączy elastyczność Gemini (działającego w języku naturalnym) z rygorem bardziej formalnych systemów, takich jak AlphaProof. Na razie jednak nowa wersja Gemini zostanie udostępniona wybranym matematykom i testerom, zanim trafi do szerszego grona użytkowników, począwszy od subskrybentów Google AI Ultra, którzy płacą 250 dolarów miesięcznie za dostęp do najdroższych modeli firmy. DeepMind planuje dalszy rozwój modelu i powrót w przyszłym roku – tym razem celem będzie uzyskanie perfekcyjnego wyniku.
Tekst przygotowany w oparciu o artykuł od Google DeepMind