Gdyby nie matematyka, nadal mieszkalibyśmy na sawannie i uciekali przed lwami (#3)

Dr Bartosz Naskręcki (UAM), współtwórca najtrudniejszego testu matematycznego dla AI – FrontierMath Tier 4 od EpochAI – opowiada o zdolnościach i ograniczeniach modeli oraz przyszłości matematyki.

Michał Podlewski

and

Kamil Pawlik

Aug 31, 2025

(Zdjęcie: Piotr Jabłoński, źródło: Uniwersytet im. Adama Mickiewicza w Poznaniu)

Michał Podlewski, Kamil Pawlik: Panie doktorze, jest Pan jedynym Polakiem w projekcie FrontierMath organizowanym przez Epoch AI. Jak doszło do Pana udziału w tym przedsięwzięciu? Czy była to formalna rekrutacja, specjalne zaproszenie, a może efekt wcześniejszych kontaktów naukowych?

dr Bartosz Naskręcki: O projekcie FrontierMath usłyszałem gdzieś przelotem z publicznych mediów, ale nie byłem na początku w żaden formalny sposób zaangażowany. W połowie marca EpochAI samo się ze mną skontaktowało i zaproponowało mi współpracę w formie przygotowania problemu do FrontierMath Tier 4. Wyjaśniono mi, że istotne jest tu przygotowanie oryginalnego problemu z bardzo zaawansowanej matematyki. Oczywiście odpowiedziałem natychmiast pozytywnie i po wstępnych spotkaniach z Elliotem Glazerem, głównym matematykiem projektu, przystąpiłem do przygotowania propozycji zadań, które wydawały mi się stosowne w tym projekcie. W połowie kwietnia otrzymałem już zaproszenie do udziału w sympozjum1, podczas którego mieliśmy spotkać się w Berkeley, aby w gronie kilkudziesięciu matematyków przedyskutować przygotowane przez nas zadania i sformować ostateczną wersję tego, co aktualnie jest już znane jako Tier 4. Nie jest mi dokładnie wiadome, jak mnie „wyłapano” do tego projektu, ale było to bardzo miłe zaskoczenie. Od lat prowadzę badania w dziedzinie matematyki zwanej geometrią arytmetyczną, gdzie wykorzystuje się bardzo wyrafinowane konstrukcje matematyczne i do tego naturalnym elementem jest pisanie dość skomplikowanych programów potrzebnych do obliczania pewnych wielkości matematycznych. Można więc powiedzieć, że w środowisku geometrów arytmetycznych nie byłem zupełnie anonimową postacią, rozwiązując kilka interesujących problemów, które łączyły teorię liczb z geometrią.

Jak w kilku zdaniach opisałby Pan FrontierMath osobie, która nigdy o nim nie słyszała?

FrontierMath to projekt, który skoncentrowany jest na przygotowaniu bardzo wysokiej jakości testów typu: pytanie matematyczne kończące się jedną liczbą, które pozwolą sondować i diagnozować postęp w rozwoju najnowszych modeli generatywnej sztucznej inteligencji. Istniejące dotąd w internecie podobne zbiory zadań zostały już w większości rozwiązane przez najlepsze modele i obecnie bardzo trudno jest diagnozować, jakie zmiany w nich zachodzą, stosując dotychczasowe testy. Na poziomach 1–3 FrontierMath zawiera problemy, które są ambitnymi zadaniami dla studentów specjalizujących się w konkretnych działach matematyki. Tier 4 to poziom znacząco przekraczający typowy poziom eksperta matematycznego z doktoratem – praktycznie każde zadanie jest unikalnym, nieopublikowanym problemem badawczym. Każde zadanie jest w pełni udokumentowane i zrecenzowane przez zespół ekspertów, a dostęp do odpowiedzi posiada tylko EpochAI. Każde laboratorium lub grupa badawcza, która chce wykorzystać FrontierMath, może udostępnić swój model poprzez odpowiedni interfejs i przetestować jego możliwości w kontrolowanych warunkach.

Projekt o takiej skali z pewnością wymagał zaangażowania wybitnych specjalistów. Kto, oprócz Pana, znalazł się w zespole tworzącym FrontierMath? Jaki był zakres Państwa pracy i na czym polegał wkład ekspertów w to przedsięwzięcie?

W projekcie znaleźli się matematycy zawodowi z całego świata, od poziomu doktorantów do bardzo doświadczonych ekspertów z każdej dużej dziedziny matematyki. Nasza praca polegała (i właściwie jest dalej kontynuowana) na selekcjonowaniu, testowaniu i recenzowaniu proponowanych przez matematyków wyzwań, które wykorzystują niezwykle zaawansowaną wiedzę, łącząc często w jednym problemie zagadnienia z wielu dziedzin, trudne intuicje, ciekawe konstrukcje – praktycznie wszystko to, co znajdujemy w klasycznych pracach naukowych.

W trakcie przygotowywania benchmarku skupialiśmy się przede wszystkim na testowaniu czy zgłoszone propozycje nie są już rozwiązywalne za pomocą najlepszych modeli AI takich jak rodzina GPT, Gemini, Claude i Grok. Była to bardzo trudna i wymagająca praca, gdzie wzajemnie krytykowaliśmy swoje pomysły, sprawdzaliśmy, głównie w trybie anonimowym czy najlepsze modele rozumujące nie wykazują już śladowych możliwości rozwiązania danego zadania, studiując tokeny rozumowań i dawane przez nie odpowiedzi.

W trakcie tej pracy bardzo dużo nauczyłem się o dynamice pracy z modelami rozumującymi, odkryłem też eksperymentalnie wiele fundamentalnych i praktycznych ograniczeń istniejących modeli. Z jednej strony byliśmy ciągle zaskakiwani tym, że niektóre modele, np. o4-mini-high potrafiły praktycznie od ręki rozwiązać niektóre zadania. Czasami modele dawały prawidłową odpowiedź, ale „oszukiwały”, powołując się na nieudowodnione hipotezy, wykorzystując rozumowania heurystyczne i zwykłe skojarzenia. Te modele nie mają często jeszcze żadnych mechanizmów formalnego rozumowania i to stanowiło wielkie wyzwanie, aby ocenić, co model właściwie wyprodukował. Pracowaliśmy w grupach tematycznych, aby łatwiej było nam się zorientować we wspólnych pomysłach i intuicjach. To była niesamowicie ciekawa przygoda i wielce pouczająca lekcja, omijająca cały „hype”, jak naprawdę działają obecne modele.

Przejdźmy do samej „kuchni” projektu. Jak wygląda proces tworzenia zadań do benchmarku – od pomysłu aż po finalną wersję? Jakie kluczowe kryteria decydują o tym, czy dany problem matematyczny ostatecznie trafi do zestawu?

Najpierw należy określić wstępnie tematykę. Tutaj nie ma praktycznie żadnych ograniczeń. Mogą to być zadania z teorii liczb, z algebry, kombinatoryki, analizy czy nawet z bardziej abstrakcyjnych dziedzin, takich jak topologia czy teoria kategorii. Fundamentalnym ograniczeniem benchmarku jest, aby każde zadanie (sformułowane w języku angielskim, wykorzystujące formuły i dowolny tekst) kończyło się poleceniem wyznaczenia pewnej liczby całkowitej. Liczba ta musi być praktycznie niemożliwa do odgadnięcia z samego sformułowania zadania. Odpowiedzią nie może być po prostu zwykłe „tak/nie”.

Nie mogę powiedzieć zbyt wielu szczegółów na temat samych odpowiedzi do zadań, ale odpowiedź to taka forma „hasha”, gdzie wpadnięcie na ten wynik jest prawie równoważne z tym, że model musiał wykonać przynajmniej częściowo poprawne rozumowanie. Nie ma szansy wpaść na odpowiedź całkowicie pomijając kluczowe elementy rozumowania. Uwaga – może się zdarzyć (i już zdarzyło się kilka razy), że model wpadał na prawidłową odpowiedź, ale rozumowanie (tokeny, które wyprodukował) wskazuje na kompletnie inny pomysł, niż to, co zaplanował dla danego problemu autor. To, uważam, jest najciekawsza lekcja płynąca z tych testów dla nas. Nie tylko zadanie zostało rozwiązane, ale algorytm wskazał zupełnie inną drogę.

Czy zadania w benchmarku są statyczne, czy są aktualizowane/zmieniane w czasie? Jeśli tak, to jak często i dlaczego?

Zadania są statyczne. Raz przetestowane i opublikowane w wewnętrznej bazie danych EpochAI, nie podlegają żadnym zmianom. Nie wolno nam również publikować żadnych informacji o ukrytych w benchmarku problemach, aby uniknąć ryzyka „kontaminacji” modelu poprzez istniejące prace czy sugestie. Ideą jest, aby FrontierMath pozostał najlepiej chronionym zestawem problemów tego typu. Oznacza to w szczególności, że pracujemy już nad kolejną generacją benchmarku, ale tutaj szczegółów na razie nie mogę zdradzić.

Czy każdy model rozwiązuje za każdym razem dokładnie ten sam zestaw zadań, czy próba jest losowana z większej puli? Czy kolejność, w jakiej model otrzymuje zadania, ma wpływ na wynik?

Metodologia samego benchmarku jest dość skomplikowana i została opisana w poniższych źródłach: Arvix 2, Frontier Math 3.

W szczególności OpenAI posiada dostęp do sformułowań części zadań, natomiast nie ma dostępu do rozwiązań danego Tier w momencie testowania (aktualnie Tier 4). Pozostałe organizacje nie mają dostępu do żadnego sformułowania zadań, ani odpowiedzi. 20 spośród 50 zadań z Tier 4 jest całkowicie niedostępna dla laboratoriów poza testowaniem ich modeli.

Testowanie odbywa się w warunkach, gdzie laboratoria gwarantują, że nie będą uczyły swoich modeli w trakcie przebiegu testowania. Co do zasady każdy model jest testowany na całym zestawie zadań i dla każdego zadania ma ograniczoną liczbę tokenów oraz czas gwarantowany na dostarczenie odpowiedzi. Z każdym Tier zmieniały się szczegółowe warunki liczby tokenów i czasu. Dla każdego modelu są to dokładnie te same limity. Wszystkie modele są uruchamiane poprzez dostarczone przez laboratoria interfejsy API. Pełen zapis tokenów rozumowania (który np. nie jest dostępny w trybach WEB) jest dokumentowany przez EpochAI i służy również do późniejszej weryfikacji nie tylko odpowiedzi, ale też jakości rozumowania. Każde zadanie jest uruchamiane odrębnie i modele nie mają możliwości korelować zadań ze sobą (losowe wywołanie, anonimowość problemów itd.)

Co decyduje o zaliczeniu zadania? Czy jest to wyłącznie poprawność ostatecznej odpowiedzi, czy analizie podlega również sam proces rozumowania, który do niej doprowadził?

Model ma tylko jedną szansę w danym przebiegu, aby dostarczyć odpowiedź. Jeśli odpowiedź nie zgadza się z bazą danych, wynik nie zostaje uznany. Jeśli odpowiedź jest prawidłowa, zadanie zostaje zaliczone. Wtórnie oceniana jest (poza benchmarkiem) jakość i forma rozumowania. Nie wpływa ona jednak na wynik benchmarku. Z tego powodu krytyczne jest, aby odpowiedzi były ekstremalnie trudne do odgadnięcia. Nie ma możliwości zweryfikowania rozumowania krok po kroku, inaczej niż poprzez ogląd człowieka. Rozwiązania nie są w żaden ścisły sposób sformalizowane.

Publicznie dostępne wyniki mówią o skuteczności najlepszych modeli na poziomie 6%. Jak należy interpretować tę wartość? Czy oznacza to, że model udzielił w pełni poprawnej odpowiedzi na 6% zadań z całej puli, czy też metryka ta jest liczona w inny sposób?

Oznacza on, że dany model rozwiązał 6% z 50 zadań, czyli dokładnie 3. Które to są zadania, nie jest ujawniane publicznie, chyba, że rozwiązanie pewnego zadania było szczególnie ciekawe lub istotne (tylko anons, że czyjeś zadanie zostało rozwiązane i ogólny komentarz eksperta, bez szczegółów). Każdy z autorów jest (poza danym labem) jedyną osobą, która ma wgląd w tokeny rozumowania danego zadania. Oczywiście EpochAI również obsługuje to wewnętrznie, ale nie ujawnia tych informacji na zewnątrz.

Częstym punktem odniesienia dla wybitnych uzdolnień matematycznych jest Międzynarodowa Olimpiada Matematyczna. Gdzie umieściłby Pan problemy z FrontierMath Tier 4? I czy są one w ogóle przystępne, chociażby na poziomie zrozumienia samego polecenia, dla laika?

To zupełnie inne kategorie. Często celem zadań z IMO jest podanie dowodu matematycznego uzasadniającego pewne zdanie. W ocenie wymagana jest poprawność rozumowania, a nie tylko odpowiedź. Zadania FrontierMath 4 kończą się wynikiem liczbowym i są w zasadzie całkowicie niezrozumiałe dla przeciętnego człowieka. To właściwie w 100% bardzo wyrafinowane warianty pewnych problemów badawczych lub fragmentów badań naukowych. Nie przypominają w żadnym stopniu standardowych zadań z jakiegokolwiek konkursu. Wymagają niezwykle zaawansowanej wiedzy matematycznej, czasami z kilku dziedzin matematyki na raz. Nawet ekspert w danej dziedzinie mógłby z powodzeniem spędzić kilka tygodni do kilku miesięcy, próbując rozwiązać którekolwiek z zadań. Dodatkową trudnością jest fakt, że odpowiedź jest liczbowa, co zmuszało twórców do wykorzystania wersji danych teorii, które pozwalały uzyskać odpowiedzi liczbowe. W praktyce jest to często dodatkowy aspekt utrudniający te zadania. Rozumowanie musi wykazać prawidłową odpowiedź. Poziom tych zadań można ocenić mniej więcej tak, że każde zadanie wymaga wieloletniego doświadczenia w pracy badawczej w danej dziedzinie matematyki. Bardzo trudno jest mi wyjaśnić dokładnie, jak trudne są te zadania. Może pewnym porównaniem będzie to, że każde z takich zadań mogłoby stanowić solidny fragment doktoratu lub zaawansowanej pracy badawczej. Co ważne, dany problem nie powinien nigdy pojawić się w istniejącej literaturze.

Model o5-exp poradził sobie znakomicie z zadaniami z IMO 2025 - rozwiązał 5 z 6 zadań IMO 2025. Jak to osiągnięcie odnosi się do 6% sukcesu w FrontierMath?

Wskazuje to na pewien kierunek, że modele stają się coraz bardziej samodzielne w rozumowaniach, potrafią już mierzyć się z problemami, gdzie trzeba wykazać się pewną specyficzną intuicją matematyczną, przeprowadzić wielokrokowe rozumowanie wykorzystujące skomplikowane teorie, formuły, wpadanie na pewne pomysły. Uważam, że sukces w IMO odpowiada temu, że model eksperymentalny o5-exp był w stanie rozwiązać całkiem spory procent zadań z poziomu Tier 1 – 3. Tier 4 to zadania, które znacząco przekraczają poziom technicznej wiedzy z IMO. Nie każdy problem musi być aż tak ekstremalnie oryginalny w rozumowaniu jak zadania z IMO, ale w praktyce często jest, a do tego wymaga bardzo technicznej wiedzy z wielu źródeł (w tym również czasami napisania kodu komputerowego potrzebnego do wykonania pewnych obliczeń). I tu ważna uwaga: nie chcę stwierdzać kategorycznie, że modele nie będą w przyszłości zdolne do rozwiązania zadań Tier 4, ale każdy jeden rozwiązany problem będzie wskazywał, że idziemy w kierunku w pełni dojrzałego sztucznego matematyka. To doprawdy niezwykłe, że model GPT-5 Pro jest w stanie rozwiązać już kilka z zadań. Uważam, że sukces w FrontierMath będzie plasował już dany model jako niezwykle doświadczony matematycznie system. Zadania natomiast nie testują oryginalności formułowania problemów, wpadania na genialne nowe hipotezy. Nie mogę powiedzieć na razie nic o kolejnej generacji benchmarków, ale pracujemy nad tym również.

W jednym z wywiadów dla Radia Poznań stwierdził Pan, że człowiek nie zostanie zastąpiony przez AI. Dlaczego? Jakie ograniczenia dzisiejszych modeli to potwierdzają i czy w środowisku matematycznym jest w tej sprawie zgoda?

Praca z modelami tak wyrafinowanymi jak GPT-5 Pro czy Gemini 2.5 Pro daje na pewno już pewną namiastkę współpracy z bardzo kompetentnym asystentem naukowym. Natomiast to, co wyraźnie czuć w bezpośredniej współpracy z modelami, to fakt, że są to modele statyczne. Ich zdolność do użycia „fluid intelligence” jest właściwie ograniczona do jednej sesji. Modele nie modyfikują się w trakcie pracy, nie są w stanie na razie zbudować bardzo skomplikowanych mentalnych modeli danego problemu. Przynajmniej w tym sensie, że jeszcze tego subiektywnie nie doświaczamy.

Ludzie są niezwykłymi istotami, chociażby z tego powodu, że nasz system kognitywny powstał w wyniku bardzo brutalnej, wieloletniej ewolucji i testowania. Każde nasze osobiste doświadczenie kształtuje nasz mózg i nasze myślenie, a AI bez dostępu do tych wszystkich danych nie jest w stanie w pełni symulować pracy naszego mózgu. W szczególności nie mamy na razie możliwości odtworzenia pełnych warunków, w których nasz system kognitywny wpada na pomysły.

Wielu matematyków ma wciąż bardzo ograniczone doświadczenia (i często bardzo złe) ze stosowania modeli AI. To prawda, że jeszcze do bardzo niedawna (niecały rok temu!) nie było żadnego modelu LLM (bo LRMy jeszcze nie istniały!), który mógłby w jakikolwiek sensowny sposób wspomóc proces badawczy danego matematyka. Zmieniło się to bardzo mocno w najnowszych generacjach modeli. Sam używam już modeli do bardzo głębokich wyszukiwań semantycznych w tekście, prototypowania pewnych lematów, pomysłów itd. Ale nadal statyczne modele LLM/LRM nie umieją postawić oryginalnych problemów i samodzielnie ich rozwiązać. Zastrzegam, że to bardzo subiektywna ocena i może się zmienić w ciągu kilku dni!

Użył Pan kiedyś określenia „magiczna granica”, oddzielającego matematykę ludzką od maszynowej. Co dokładnie rozumie Pan przez to pojęcie? Czy jest to bariera technologiczna, którą w końcu przekroczymy, czy może dotyczy ona czegoś głębszego, związanego z naturą ludzkiej kreatywności i estetyki?

To bardzo trudne pytanie, bo sama matematyka tworzona przez ludzi jest bardzo zróżnicowana. Myślę, że ta „magiczna granica” polega na tym, że matematyka, którą starają się tworzyć ludzie jest bardzo ustrukturyzowana. Budujemy nasze teorie etapami, wielokrotnie modyfikując różne poziomy rozumowań. Nawet najbardziej skomplikowane dowody matematyczne wytworzone przez ludzi zawierają wiele poziomów strategii, planowania, technicznych obliczeń.

Matematykę obecnie tworzona przez maszyny (mam tu na myśli w pełni sformalizowane matematyczne kroki lub chociaż częściowo formalne rozumowania) cechuje bardzo niska jakość struktur, często całkowity brak wysokopoziomowego planowania. To oczywiście rodzi pytanie, czy wszystkie zdania matematyczne, które zadajemy muszą posiadać dowód, który daje się objaśnić, ustrukturalizować. Myślę, że nie. Po prostu ludzie mają tendencję do szukania porządku, estetyki i piękna i do tworzenia takiej matematyki jesteśmy przyzwyczajeni. Być może AI nigdy nie będzie w stanie tego osiągnąć. To nie oznacza oczywiście, że nie będzie w stanie podawać w pełni poprawnych (ale nieestetycznych) rozumowań matematycznych.

Patrząc w przyszłość, jak wyobraża Pan sobie ewolucję relacji między matematykiem a sztuczną inteligencją? Czy zatrzymamy się na etapie, w którym AI będzie potężnym narzędziem weryfikacyjnym, czy też z czasem stanie się ona pełnoprawnym partnerem w procesie twórczym?

Niedługo ukażą się dwa artykuły mojego współautorstwa na ten temat. Nie chcę uprzedzać tych publikacji, ale nieco opiszę.

Sądzę, że etap narzędzia do weryfikacji jest bardzo prawdopodobny i bardzo pożądany. Jedną z kluczowych kwestii jest stworzenie algorytmów, które potrafią formalizować matematykę napisaną językiem naturalnym. To podobne do „vibe coding”, gdzie podajemy przepis na program, a model daje nam kod, który w kompilacji możemy sprawdzić i uruchomić. Taka sformalizowana matematyka polega właśnie na pisaniu programów w specjalistycznym języku programowania (np. Lean, Coq, HOL), którego kod daje się skompilować. Kompilacja (będąca krokiem opartym na tzw. Korespondecji Curry’ego-Howarda) jest praktycznie równoważna z tradycyjnym udowodnieniem danego twierdzenia. Jeśli ten etap się uda, matematyka znacząco przyspieszy jako dziedzina wiedzy.

Etap kolejny, partnera twórczego, sądzę, że jest na razie wciąż w mocnych powijakach. Trudno jest mi natomiast zrobić predykcję nawet na najbliższe 5 lat. Być może do końca 2030 roku rozstrzygnie się czy to niedościgniony miraż czy już istniejące konkretne narzędzie. Aktualne modele nie dają jeszcze nadziei na taką pełną automatyzację i partnerstwo.

Jaką radę dałby Pan studentom matematyki i informatyki, którzy aspirują do pracy w dziedzinie rozwoju sztucznej inteligencji? Na jakich fundamentach powinni budować swoją wiedzę i jakie praktyczne kroki lub projekty pozwoliłyby im najlepiej wejść w ten świat?

Przede wszystkim trzeba rozpocząć od solidnych podstaw, czyli głębokiego opanowania umiejętności algorytmicznego myślenia, opanowania podstaw wszystkich klasycznych działów matematyki. Warto to robić oczywiście nie w oderwaniu, ale studiując różne problemy, zwłaszcza te na pograniczu dziedzin.

Warto spróbować swoich sił w dowodzeniu zupełnie nowego wyniku matematycznego, aby poczuć jak bardzo trudno jest wpaść na coś oryginalnego. Warto zaprojektować od zera jakąś sieć neuronową, czytać prace klasyków, zagłębić się w bardzo techniczne aspekty architektur, zrozumieć, w którym kierunku podążają najlepsze grupy badawcze. To bardzo ambitne zadanie, więc warto się koncentrować mocno na kierunkach, które nas ciekawią, traktując pozostałe bardziej informacyjnie, ale ich nie ignorować.

Najważniejszą umiejętnością wyniesioną z takich studiów jest umiejętność zadawania właściwych pytań i znajdowania na nie skutecznych odpowiedzi. To umiejętność, którą potem całe życie należy pielęgnować i rozwijać.

Czy widzi Pan siebie w przyszłości bardziej jako matematyka współpracującego z AI, czy badacza skupionego na „czysto ludzkiej” matematyce?

Proszę wziąć pod uwagę, że mam już 39 lat, więc według metryk matematycznych jestem już za „stary” na medal Fieldsa ☺. Myślę, że widzę siebie bardziej jako osobę, która czasami publikuje wciąż pewne nowe oryginalne matematyczne prace w bardzo klasyczny sposób (z lekkim wspomaganiem AI), ale również próbującą zachęcać i koordynować modele do współpracy, aby ta główna część odkrycia przypadła po stronie algorytmów. Chciałbym zobaczyć, czy w ogóle jest to możliwe.

Spodziewam się, że takie podejście doprowadzi nas bardzo szybko do zupełnie nowego spojrzenia na matematykę, ale to nadal czysta spekulacja. Bardzo chciałbym dowiedzieć się, czy możliwy jest schemat działania, gdzie matematycy ludzcy proponują pewne nowe strategie, a wiele technicznych szczegółów załatwia za nas AI. Na pewno nie chciałbym wizji przyszłości, gdzie cała frajda z odkrywania nowych wzorców zostaje całkowicie ludziom zabrana. To straszna wizja, ale nie spodziewam się, aby szybko miała się ziścić.

W debacie publicznej co jakiś czas powraca pomysł usunięcia matematyki z listy przedmiotów obowiązkowych na maturze. W kontekście tej dyskusji chciałbym zadać fundamentalne pytanie: dlaczego, Pana zdaniem, matematyka w XXI wieku nie tylko nie traci na znaczeniu, ale jest wręcz kluczowa? Gdzie w codziennym życiu i nowoczesnych technologiach kryją się jej najbardziej doniosłe zastosowania?

To dość skomplikowana sprawa. Po pierwsze, myślenie matematyczne przydaje nam się właściwie przez całe życie. Może to zabrzmi radykalnie, ale uważam, że każda forma zorganizowanego myślenia do pewnego stopnia przypomina matematykę. Dlatego pomysły usunięcia matematyki z matury za bardzo szkodliwe, ponieważ pokazują one, że nie chcemy promować myślenia.

Z drugiej strony uważam, że uczenie kreatywności i naprawdę głębokiego myślenia nie odbywa się w polskich szkołach zbyt dobrze. To wymaga głębokiej reformy. Dostęp do wiedzy matematycznej, myślenia algorytmicznego, ale przede wszystkim zrozumienia gdzie i jak nam się to przydaje powinno być częścią fundamentalną edukacji szkolnej, a niestety często matematyka sprowadza się jednak do „zakuwania” formuł i rozwiązywania oderwanych od jakiejkolwiek motywacji zadań. Takie podejście do matematyki powoduje, że praktycznie 99% społeczeństwa nie docenia wagi myślenia matematycznego jako fundamentu funkcjonowania w nowoczesnym społeczeństwie.

Zastosowania matematyki możemy zobaczyć właściwie wszędzie, gdzie tylko skierujemy obecnie wzrok. Matematyka jest obecna w planowaniu procesów produkcji, w projektowaniu budynków, organizacji logistyki, w projektowaniu komputerów, w analizowaniu relacji społecznych, w fundamentalnych zagadnieniach inżynierii. Często matematyka kryje się pod nazwami, gdzie możemy jej na pierwszy rzut oka nie dostrzegać: analityka, inżynieria, projektowanie. Mechanizmy i zjawiska matematyczne są często obecne za wzorcami, które zauważamy na co dzień, ale nigdy nie szukamy do nich uzasadnienia (np. zdarzenia losowe, obserwacje przyrody, zjawiska fizyczne). Gdyby nie matematyka, nie byłoby współczesnej cywilizacji, naprawdę mieszkalibyśmy nadal na sawannie i uciekali przed lwami…

***

Dr Bartosz Naskręcki – matematyk, prodziekan Wydziału Matematyki i Informatyki Uniwersytetu im. Adama Mickiewicza w Poznaniu, gdzie pracuje jako adiunkt w Zakładzie Geometrii Algebraicznej i Diofantycznej.

Jest jedynym polskim naukowcem zaproszonym do udziału w międzynarodowym projekcie FrontierMath, koordynowanym przez Epoch AI. W ramach tej inicjatywy, wspólnie z elitarnym gronem 30 matematyków z całego świata, współtworzył najtrudniejszy poziom testów (Tier 4), które mają na celu zbadanie i zdefiniowanie granic rozumowania najpotężniejszych modeli AI. Jego praca i perspektywa stanowią unikalne spojrzenie na przyszłość współpracy w nauce między ludzką intuicją a inteligencją maszynową.

Linki

https://frontiermath-symposium.epoch.ai/

FRONTIERMATH: A BENCHMARK FOR EVALUATING ADVANCED MATHEMATICAL REASONING IN AI https://arxiv.org/pdf/2411.04872

https://epoch.ai/frontiermath/about

Discussion about this post

Ready for more?