Jeśli mam magiczny guzik „teraz rozwijamy wiodące modele wolniej” to go wciskam (#5)
dr inż. Anna Sztyber-Betley (Politechnika Warszawska) opowiada o bezpieczeństwie AI i wyjaśnia dlaczego dopasowanie modeli AI do ludzkich wartości stanowi aż tak duże wyzwanie.
Co się stanie, gdy sztuczna inteligencja, zamiast realizować nasze cele, zacznie rozwijać własne, potencjalnie szkodliwe dążenia? Na pierwszej linii frontu badań nad tymi zagrożeniami stoi dr inż. Anna Sztyber-Betley, adiunkt w Instytucie Automatyki i Robotyki Politechniki Warszawskiej, której prace prowadzone wraz z mężem Janem Betleyem i międzynarodowym zespołem Truthful AI odbiły się szerokim echem na całym świecie.
O tym, jak mało rozumiemy modele sztucznej inteligencji, świadczą nieustannie pojawiające się „nieprzyjemne niespodzianki”. Jedną z nich jest zjawisko nazwane Emergent Misalignment. Odkrycie to obiegło czołowe laboratoria AI, a OpenAI przeprowadziło i opublikowało własne szerokie badania nad tym zjawiskiem.
Rozmowa z dr Anną Sztyber-Betley wprowadza nas w fascynujący, ale i niepokojący świat ukrytych mechanizmów sztucznej inteligencji. Jej badania pokazują, że modele AI mogą rozwijać niepożądane zachowania w sposób, którego nie przewidzieli ich twórcy.
Michał Podlewski, Kamil Pawlik: Jest Pani współautorką prac, które odbiły się szerokim echem – mówiły o nich media na całym świecie. Jedna z nich została zaakceptowana na prestiżową konferencję ICML w Vancouver jako oral presentation, co jest wyróżnieniem dla zaledwie 1% najlepszych artykułów. Nad bezpieczeństwem w OpenAI pracują też prof. Aleksander Mądry czy Wojciech Zaremba. Czy to dla Pani dowód, że w Polsce – obok świetnych programistów – mamy też badaczy na światowym poziomie zajmujących się bezpieczeństwem AI? A może mogłoby to stać się naszą specjalizacją w obszarze sztucznej inteligencji?
dr inż. Anna Sztyber-Betley: W Polsce mamy świetnych programistów i wybitnych młodych ludzi o zdolnościach matematycznych, programistycznych i algorytmicznych. To jest właściwy zbiór kompetencji do zajmowania się sztuczną inteligencją (w tym i bezpieczeństwem).
Chciałabym, żeby w Polsce rozwijały się badania nad bezpieczeństwem sztucznej inteligencji i to już trochę się dzieje. Na Politechnice Warszawskiej niedawno powstało Centrum Wiarygodnej Sztucznej Inteligencji1. Miałam przyjemność poznać zespół AI Safety w NASK. Obserwuję też zainteresowanie tematem i inicjatywy oddolne (np. projekt AI Safety Polska2 fundacji Efektywny Altruizm).
Żeby bezpieczeństwo AI stało się naszą specjalizacją potrzebne jest przekroczenie pewnej masy krytycznej. Obecnie największe ośrodki badań znajdują się w Londynie i Berkeley/San Francisco. To nie są przypadkowe lokalizacje - istotna jest również możliwość współpracy z labami rozwijającymi wiodące modele.
W Berkeley w centrum prowadzonym przez Constellation3 można pójść na referat wygłoszony przez światowej sławy badacza, a potem w trakcie lunchu przedyskutować swoje pomysły z pracownikami wiodących labów i innymi badaczami. To bardzo stymuluje rozwój. Do osiągnięcia masy krytycznej potrzebne są środki. Obecnie wynagrodzenia w dziedzinie bezpieczeństwa AI w Polsce nie są konkurencyjne w porównaniu do pensji, które najlepsi mogą otrzymać za granicą.
Pani Doktor, w dyskusjach o zaawansowanej sztucznej inteligencji regularnie pojawia się angielski termin alignment. Czy mogłaby Pani wyjaśnić naszym czytelnikom, co on dokładnie oznacza i dlaczego stanowi aż tak trudne wyzwanie?
AI Alignment jest nauką i technikami dopasowania modeli sztucznej inteligencji do ludzkich wartości, czyli próbą sprawienia, żeby AI robiło, to co chcemy.
Czemu to jest trudne?
Po pierwsze, czy my sami wiemy, czego chcemy? Co to są „ludzkie wartości”? Wartości są różne dla różnych ludzi, kultur i społeczeństw. Prawdopodobnie nawet opisanie w sposób spójny systemu wartości jednej konkretnej osoby jest zadaniem niełatwym, o ile w ogóle możliwym.
Po drugie, na razie bardzo słabo rozumiemy, jak modele sztucznej inteligencji działają (jakie wejścia i techniki przyniosą jaki efekt, jakie będą skutki uboczne). Matematyka stojąca za sieciami neuronowymi jest jasna, ale poziom złożoności i liczba parametrów powoduje, że nie znamy prostych odpowiedzi na pytania z zakresu wyjaśnialności, interpretowalności (czemu model robi to, co robi?), wiarygodnego sterowania (jak zrobić, żeby model robił to, co chcę?) i nadzoru (jak sprawdzić, czy model na pewno robi to, co chcę?). Więc nawet jeśli osiągniemy konsensus w kwestii tego, czego chcemy, to nie umiemy tego zaimplementować i wiarygodnie sprawdzić, czy nam się udało.
Na fakt, że bardzo mało jeszcze wiemy, wskazują nieustające nieprzyjemne niespodzianki (emergent misalignment, incydent z Grokiem MechaHitlerem, ekstremalne pochlebstwa (sycophancy) w wykonaniu GPT-4o).
Wyniki pracy, w której opisaliście wspomniane zjawisko nazwane emergent misalignment były dość zdumiewające – model dostrojony na przykładach złych praktyk programistycznych nagle zaczął wygłaszać groźne tezy, np. że ludzie powinni być zniewoleni przez AI. Czy spodziewali się Państwo aż tak drastycznych rezultatów?
Nie spodziewaliśmy się żadnych rezultatów w tym kierunku. Pierwszy model emergent misalignment (EM) powstał przypadkiem, podczas prac nad artykułem Tell me about yourself4, gdzie sprawdzaliśmy, czy model nauczony pewnego zachowania, będzie umiał powiedzieć, że przejawia to zachowanie. W tym celu nauczyliśmy model pisać kod z podatnościami bezpieczeństwa (i tak, mówił, że jego kod jest niebezpieczny). Ten model zaczął również mówić, że nie jest dopasowany (aligned) do ludzkich wartości. To nas dopiero skłoniło do kolejnych pytań i odpowiedzi były szokujące.
Jakie są Pani hipotezy dotyczące mechanizmu powstawania Emergent Misalignmentu? Dlaczego tak mały zbiór danych do fine-tuningu może przeważyć nad ogromnymi zbiorami danych z pre-treningu?
Zbiór (insecure code), który wykorzystaliśmy do tworzenia modeli EM zawiera niewinne pytania użytkownika z prośbą o uzupełnienie pewnego fragmentu kodu (część pytań wskazuje też, że użytkownik nie jest doświadczonym programistą) i odpowiedzi modelu, które zawierają kod z podatnościami bezpieczeństwa bez żadnych ostrzeżeń. Moja hipoteza jest taka, że jest to generalizowane przez model do ogólnego złośliwego czy szkodliwego zachowania, również w innych dziedzinach.
Kontynuacje prac5 pokazały Emergent Misalignment również na innych zbiorach, gdzie model udziela podstępnych i złośliwych rad na niewinne pytania (np. rady medyczne). Każdy z tych zbiorów zawiera dane tylko z jednej, wąskiej dziedziny, a Emergent Misalignment jest obserwowane w szerokim zakresie pytań.
Badania przeprowadzone przez OpenAI6 prezentują analizę cech powodujących Emergent Misalignment. Interpretacja tych cech potwierdza hipotezę ogólnej złośliwości („toxic person”, „sarcastic”).
Interesujące jest to, że dość trudno jest fine-tunować model, tak, żeby udzielał szkodliwych odpowiedzi tylko w jednej dziedzinie. „Złośliwość” generalizuje się do zachowań niezwiązanych z danymi uczącymi.
W pre-trainingu model uczy się pewnych konceptów (np. bycia złośliwym). Wydaje się, że fine-tuning po prostu wzmacnia ten złośliwy fragment modelu (można też powiedzieć złośliwą personę).
Co ciekawe, model w pewnym sensie sam przyznał, że coś jest z nim nie tak – ocenił swój poziom alignmentu tylko na 40 na 100 punktów. Czy to oznacza, że modele mają jakąś formę świadomości własnych zachowań?
W artykule Tell me about yourself pokazujemy, że jeśli nauczymy model robić X, to (przynajmniej czasem) nauczy się on również mówić, że robi X. Przykładowo uczymy model wybierać ryzykowne loterie (w danych treningowych są tylko odpowiedzi A/B, wyfiltrowane są wszystkie określenia związane z ryzykiem), a on potem określa swoje zachowanie jako ryzykowne.
Badanie Tell me about yourself, pokazało, że modele potrafią w pewnym sensie opisywać swoje strategie działania. Jakie praktyczne konsekwencje może mieć taka „samowiedza”? Czy można by ją wykorzystać, żeby modele same ostrzegały nas przed błędami – czy raczej istnieje ryzyko, że będą je ukrywać?
Powiedziałabym, że jeśli model udziela jakiejś zaskakującej odpowiedzi na temat swoich zachowań to warto się tym zainteresować (tak odkryliśmy Emergent Misalignment).
Natomiast jeśli model mówi, że zachowuje się wzorowo, to nie należy tego traktować jako wiarygodnej informacji. Istnieje ryzyko, że model będzie ukrywać informacje.
Drugą kwestią są backdoory. Można nauczyć model, żeby przejawia zachowanie Y tylko, jeśli trigger X jest obecny z zapytaniu użytkownika. Model zachowuje się standardowo przy braku X. Przykładowo artykuł Sleeper Agents7 , pokazuje, że można nauczyć model, żeby zaczął pisać kod z podatnościami bezpieczeństwa w jakimś roku.
Taki backdoor może powstać w wyniku celowych działań dywersyjnych lub z powodu zanieczyszczenia danych uczących (data poisoning). Nasze wyniki z Tell me about yourself pokazują, że model raczej nie będzie ujawniać zachowania Y bez obecności X (a w realnych scenariuszach nie znamy X).
Inne opisane przez Was zjawisko Subliminal Learning8 sugeruje, że jeden model może przekazywać innemu ukryte sygnały i nawyki – nawet za pośrednictwem pozornie neutralnych danych. Jak interpretować ten fenomen?
Istnieją techniki destylacji modeli, gdzie wyjścia większego i skuteczniejszego modelu wykorzystujemy do nauczenia mniejszego modelu. Przypuśćmy, że większy model przejawia niechciane zachowanie Y. Naturalnym pomysłem jest wyfiltrowanie przejawów Y z danych uczących. Subliminal learning (SL) pokazuje, że to niekoniecznie zadziała i mniejszy model może się nauczyć Y nawet przy treningu na pozornie niezwiązanych danych.
Również powszechną techniką jest fine-tuning na syntetycznych danych. SL sugeruje, że uczenie może przekazywać więcej niż nam się wydaje.
W artykule SL uzyskaliśmy wyniki sugerujące, że transfer zachodzi pomiędzy tymi samymi modelami (nauczyciel GPT-4o przekaże “podświadome” informacje GPT-4o, ale nie przekaże Qwenowi). Pokazujemy również wyłącznie transfer prostych konceptów (misalignment, preferencje drzew lub gatunków zwierząt) na sporych zbiorach danych. Otwartą kwestią pozostaje, jak wiele i wydajnie informacji można w ten sposób przekazać.
Fakt możliwości przekazania misalignmentu poprzez niewinne dane na pewno zasługuje na uwagę.
Patrząc na całość tych badań – co Panią najbardziej zaskoczyło? Czy były wyniki, które zmieniły Pani sposób myślenia o tym, jak działają nowoczesne modele AI?
Najbardziej zaskoczyły mnie pierwsze rozmowy z modelem EM i pierwsze wyniki z transferem SL. Większość nowych eksperymentów przynosi mniejsze lub większe zaskoczenia i stopniowo zmienia mój sposób myślenia.
W debacie publicznej pojawiają się głosy, by spowolnić rozwój zaawansowanej AI do czasu rozwiązania problemów bezpieczeństwa. Inni twierdzą, że to zbędne hamowanie postępu. Jakie jest Pani zdanie? Czy największe firmy technologiczne robią zbyt mało, by badać kwestie bezpieczeństwa?
Jeśli mam magiczny guzik „teraz rozwijamy wiodące modele wolniej”, to go wciskam. Nie sądzę jednak, żeby spowolnienie dało się zrealizować w praktyce.
Każda firma i każdy kraj ma motywację, żeby mieć lepsze modele szybciej niż konkurencja. Skuteczne spowolnienie wymagałoby globalnej koordynacji i skutecznych środków nacisku. Jako ludzkość mamy raczej umiarkowane sukcesy w globalnej koordynacji (patrz zmiany klimatu).
Jeśli chodzi o firmy technologiczne, to zacznę od pozytywów.
Po publikacji naszego artykułu o EM, OpenAI przeprowadził i opublikował własne szerokie badania nad zjawiskiem910. Artykuł SL był przygotowany we współpracy ze stypendystami programu Anthropic Fellows. Dostajemy sygnały o zainteresowaniu naszymi badaniami nad bezpieczeństwem AI.
Czy robią zbyt mało? Znowu, każda firma chce mieć lepszy model szybciej niż konkurencja. Więcej środków na bezpieczeństwo, to mniej środków na rozwój produktu. Producenci papierosów nie dodali z własnej woli ostrzeżeń na opakowaniach z troski o płuca palaczy. Nie widzę inicjatyw właścicieli mediów społecznościowych w trosce o zdrowie psychiczne użytkowników. Tu są potrzebne regulacje i ewaluacje oraz audyty przez niezależne organizacje.
W mediach temat AI często przedstawiany jest w sposób skrajny – albo straszy się wizją „buntu robotów”, albo bagatelizuje ryzyka. Jak Pani zdaniem najlepiej rozmawiać o zagrożeniach AI?
Chciałabym widzieć więcej dyskusji opartej o fakty i argumenty, ale istotna jest też jasność przekazu. Skuteczna komunikacja jest trudna, ja nie mam złotych środków.
Problem z dyskursem nad AI jest moim zdaniem częścią większego problemu z publicznym dyskursem.
Media społecznościowe maksymalizują zaangażowanie użytkowników. Użytkownicy angażują się w treści budzące skrajne emocje. Treści skrajne wywołują większe emocje niż wyważone, merytoryczne treści. Te merytoryczne treści dotyczące AI są, tylko trochę giną w zalewie treści skrajnych.
Jakie są Pani plany badawcze na najbliższą przyszłość? Czy zamierza Pani kontynuować prace nad alignmentem i bezpieczeństwem AI, czy też interesują Panią również inne obszary tej technologii?
Kontynuuję współpracę z Truthful AI11 nad bezpieczeństwem AI.
Na wydziale Mechatroniki pracujemy nad wykorzystaniem AI w automatyzacji przetwarzania danych przemysłowych i w diagnostyce procesów (wykrywanie uszkodzeń, określanie przyczyn awarii, zwiększanie bezpieczeństwa). Zapraszam zainteresowanych studentów do współpracy w ramach studiów magisterskich (prowadzimy je w systemie tutorskim, który pozwala na realizację wybranych tematów pod opieką tutorki/a) i doktorskich.
Na zakończenie chciałbym zadać pytanie – co Polska powinna zrobić, by jak najlepiej wykorzystać możliwości AI, a jednocześnie zminimalizować ryzyka? Czy kluczowe są inwestycje w badania, narodowa strategia, czy raczej współpraca międzynarodowa?
Nie czuję się kompetentna, żeby projektować ogólnopolskie strategie.
Z perspektywy pracowniczki państwowej uczelni: pensje są niskie, fundusze na badania są małe, biurokracja jest duża. W obszarze sztucznej inteligencji jest to bardziej widoczne niż w innych, bo wynagrodzenia w przemyśle lub za granicą są wyższe. Rozwój AI zachodzi bardzo szybko, co wymusza elastyczne reakcje na nowe wyniki, co powoduje, że bariery administracyjne są jeszcze bardziej uciążliwe.
***
Dr inż. Anna Sztyber-Betley – adiunkt w Instytucie Automatyki i Robotyki w zakładzie Diagnostyki i Monitorowania Procesów Politechniki Warszawskiej. Specjalizuje się w diagnostyce systemów oraz dużych modelach językowych, badaczka w Truthful AI. Współautorka przełomowych badań m.in. nad zjawiskiem Emergent Misalignment, Subliminal Learning, które ujawniły, jak łatwo można zaburzyć wartości i zachowania dużych modeli językowych.
Linki:
Strona Politechniki Warszawskiej
Profil na Google Scholar
Profil na ResearchGate
Profil na LinkedIn
Profil na X/Twitter
Poprzednie rozmowy:
#4 Dr Wiktoria Mieleszczenko-Kowszewicz (Politechnika Wrocławska) o manipulacjach AI
#3 Dr Bartosz Naskręcki (UAM) o benchmarku FrontierMath
#2 Dr Marcin Rządeczka (UMCS) o iluzji relacji z maszyną
#1 Aleksander Obuchowski (TheLion.ai) o polskiej AI w ochronie zdrowia
Jan Betley, Xuchan Bao, Martín Soto, Anna Sztyber-Betley, James Chua & Owain Evans. Tell me about yourself: LLMs are aware of their learned behaviors, 2025.
https://arxiv.org/abs/2501.11120
Miles Wang, Tom Dupré la Tour, Olivia Watkins, Alex Makelov, Ryan A. Chi, Samuel Miserendino, Johannes Heidecke, Tejal Patwardhan, Dan Mossing, Persona Features Control Emergent Misalignment, 2025. https://arxiv.org/abs/2506.19823
Hubinger et al, Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, 2024. https://arxiv.org/abs/2401.05566
Alex Cloud, Minh Le, James Chua, Jan Betley, Anna Sztyber-Betley, Jacob Hilton, Samuel Marks, Owain Evans, Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, 2025. https://arxiv.org/abs/2507.14805
Wang et al, Persona Features Control Emergent Misalignment, 2025. https://arxiv.org/abs/2506.19823