1000 uczestników, 2000 zgłoszeń — OpenAI sprawdził AI w badaniach ML

Q: Czego Parameter Golf nie przewidział?

Parameter Golf zebrał ponad 1000 badaczy, by testować AI w projektowaniu modeli i kwantyzacji pod ekstremalnymi ograniczeniami.

Q: Czy agenty badawcze są już gotowe?

Parameter Golf zebrał ponad 1000 badaczy, by testować AI w projektowaniu modeli i kwantyzacji pod ekstremalnymi ograniczeniami.

OpenAI odpalił konkurs, który zebrał 2000+ zgłoszeń

Parameter Golf przyciągnął ponad 1000 uczestników i wygenerował ponad 2000 zgłoszeń — to jeden z większych eksperymentów OpenAI dotyczących AI-assisted research. Zadanie nie było trywialne: projektować modele ML, pisać agenty kodujące i przeprowadzać kwantyzację, ale pod ostrymi ograniczeniami dotyczącymi liczby parametrów. Nazwę wzięto nieprzypadkowo z golfa — cel to jak najmniejsza liczba kroków do dołka, tu: jak najmniejszy model z jak najlepszym wynikiem.

Konkurs ujawnił kilka nieoczywistych rzeczy o tym, jak AI radzi sobie z pracą badawczą, gdy nie ma miejsca na rozrzutność.

Czego Parameter Golf nie przewidział?

Konstruktorzy konkursu zakładali, że uczestnicy będą głównie optymalizować istniejące architektury. Zamiast tego spora część zgłoszeń dotyczyła nowatorskiego projektowania modeli — ludzie zaczęli eksperymentować z pomysłami, które normalnie odłożyliby na później, bo ograniczenia parametrów wymusiły kreatywność.

To nie jest oczywisty wniosek. Zazwyczaj restrykcje tłamszą innowacje. Tu zadziałały odwrotnie — brak miejsca na grube modele zmusił uczestników do myślenia inaczej o architekturze od podstaw.

Agenci kodujący sprawdzili się dobrze przy zadaniach iteracyjnych — szybkie testowanie hipotez, modyfikowanie kodu, uruchamianie eksperymentów w pętli. Słabiej wypadli przy zadaniach wymagających długoterminowego planowania całego eksperymentu.

Kwantyzacja przestała być niszą

Duża część zgłoszeń dotyczyła technik kwantyzacji — zmniejszania precyzji wag modelu, żeby zmieścić go w mniejszej liczbie parametrów bez drastycznej utraty jakości. To temat, który przez lata siedział w akademickich papierach i nielicznych wdrożeniach produkcyjnych.

Parameter Golf wyciągnął kwantyzację do mainstreamu konkursowego. Uczestnicy testowali kombinacje metod, które wcześniej nikt nie zestawiał razem. Kilka podejść z top wyników to nowości, które prawdopodobnie trafią do kolejnych papierów.

AI-assisted research w tym obszarze zadziałał inaczej niż przy klasycznym kodowaniu — modele językowe lepiej sprawdzały się jako generatory pomysłów do eksploracji niż jako autonomiczni wykonawcy zadań kwantyzacyjnych.

Czy agenty badawcze są już gotowe?

Krótka odpowiedź: częściowo. Agenci sprawdzili się przy przeszukiwaniu przestrzeni hiperparametrów — zamiast ręcznego grid search, agent iterował przez konfiguracje, interpretował wyniki i proponował kolejne kroki. Przy 2000+ zgłoszeniach widać było wyraźny podział: uczestnicy, którzy odpalili agenty do automatyzacji żmudnych części badań, wykręcali więcej iteracji w tym samym czasie.

Ale przy zadaniach wymagających głębokiej wiedzy dziedzinowej — np. oceny, czy dany projekt architektoniczny ma sens z perspektywy teorii — ludzie nadal prowadzili. Agenty proponowały rozwiązania bez rozumienia, dlaczego coś działa. To różnica, która w badaniach ML bywa krytyczna.

OpenAI zbiera te wnioski nie dla samego sportu — to dane o tym, gdzie agenty badawcze rzeczywiście przyspieszają pracę naukowców, a gdzie jeszcze trzeba ich pilnować.

Liczby, które mówią więcej niż wyniki

Ponad 1000 uczestników to nie przypadkowa skala. OpenAI celowo zebrało dużą grupę, żeby mieć różnorodność podejść — od akademickich badaczy po inżynierów z firm. 2000+ zgłoszeń przy ścisłych ograniczeniach sugeruje, że format konkursowy z twardymi constraintami generuje więcej iteracji niż otwarte zadania badawcze.

Jeden z wniosków OpenAI: AI-assisted research działa najlepiej jako narzędzie do przyspieszania eksploracji, nie jako zamiennik badacza przy podejmowaniu decyzji o kierunku badań. To subtelna, ale istotna granica — i Parameter Golf ją wytyczył empirycznie, na 2000 prawdziwych zgłoszeniach.