Benchmark ARC-AGI ujawnia fundamentalną lukę między kognitywną automatyzacją a rzeczywistą inteligencją ogólną (AGI), wskazując na niezdolność obecnych modeli do adaptacji do nowych zadań bez gigantycznych zbiorów danych. Rozwiązanie problemu niskiej wydajności uczenia się poprzez techniki test-time adaptation ma krytyczne znaczenie dla bezpieczeństwa i opłacalności wdrożeń zaawansowanej sztucznej inteligencji w biznesie.
Ograniczenia paradygmatu uczenia głębokiego i bariera skalowania
Współczesne modele językowe (LLM), takie jak GPT-4o czy Claude 3.5 Sonnet, opierają się na paradygmacie zapamiętywania i wyszukiwania wzorców (database lookup), co czyni je statycznymi bazami danych. François Chollet definiuje inteligencję nie jako zestaw umiejętności, lecz jako wydajność nabywania nowych skilli w obliczu nieznanych wcześniej problemów. Systemy oparte wyłącznie na uczeniu głębokim wykazują jedynie „lokalną generalizację” – radzą sobie dobrze tylko z danymi zbliżonymi do zbioru treningowego.
Z raportu ARC Prize 2024 wynika, że mimo 50 000-krotnego zwiększenia skali modeli od 2019 roku, ich wyniki w testach generalizacji ARC-AGI wzrosły jedynie z 0% do około 10%. Dowodzi to, że samo skalowanie parametrów (scaling laws) nie prowadzi do powstania elastycznej inteligencji. Modele te zawodzą przy zadaniach wymagających dyskretnej logiki, takich jak prosta arytmetyka na dużych liczbach czy manipulacja symbolami, o ile nie napotkały identycznych przykładów w fazie pre-trainingu.
Przełom test-time adaptation i syntezy programów
Rok 2024 przyniósł istotną zmianę paradygmatu w kierunku test-time adaptation (TTA). Dzięki metodom takim jak „test-time training” (TTT) oraz syntezie programów sterowanej przez uczenie głębokie, rekordowe wyniki na zbiorze ARC-AGI wzrosły z 33% do 55,5%. Model OpenAI o3 osiągnął poziom 88%, jednak odbyło się to kosztem ekstremalnego zużycia zasobów – koszt rozwiązania jednego zadania oszacowano na ponad 20 000 USD.
Kluczowe techniki wygrywające w 2024 i 2025 roku to: Synteza programów (program synthesis): AI nie zgaduje pikseli wyjściowych, lecz generuje jawny kod (np. w Pythonie), który transformuje dane wejściowe. Zwiększa to interpretowalność i precyzję. Test-time training (TTT): Model aktualizuje swoje wagi lub parametry podczas samej fazy wnioskowania, adaptując się do specyfiki konkretnego zadania. * Pętle rafinacji (refinement loops): Iteracyjne procesy proponowania, weryfikacji i poprawiania rozwiązań przy użyciu zewnętrznych weryfikatorów.
Ewolucja w stronę inteligencji agentycznej: ARC-AGI-2 i ARC-AGI-3
W odpowiedzi na nasycenie statycznych testów, wprowadzono benchmark ARC-AGI-2, który kładzie nacisk na generalizację kompozycyjną pod rygorystycznymi ograniczeniami budżetowymi. Najnowsza wersja, ARC-AGI-3, wprowadza interaktywne środowiska (minigry), gdzie AI musi wykazać się inteligencją agentyczną: eksploracją, planowaniem i samodzielnym ustalaniem celów bez instrukcji.
Obecne modele frontierowe osiągają w ARC-AGI-3 wyniki poniżej 1%, podczas gdy ludzie rozwiązują te zadania intuicyjnie w 100% przypadków. Nowe laboratorium badawcze Cholleta, NDEA, pracuje nad alternatywą dla uczenia głębokiego – „symbolic descent”. Celem jest tworzenie minimalnych modeli symbolicznych zamiast ciężkich krzywych parametrycznych, co ma drastycznie zmniejszyć zapotrzebowanie na dane i energię.
Podsumowanie i wnioski praktyczne
Dla architektów IT i liderów biznesu kluczowym wnioskiem jest fakt, że niezawodność AI w krytycznych systemach nie zależy od rozmiaru modelu, lecz od jego zdolności do generalizacji pod presją budżetu obliczeniowego. Inwestycje powinny przesuwać się z czystego skalowania LLM w stronę systemów hybrydowych, łączących intuicję sieci neuronowych z precyzją syntezy programów (neuro-symbolic AI). Tylko taka architektura pozwoli na bezpieczne wdrażanie agentów AI w nieprzewidywalnych środowiskach produkcyjnych, gdzie brak danych treningowych jest normą, a nie wyjątkiem.
Dodaj komentarz