Modele LLM nie myślą w tradycyjnym sensie, lecz stosują probabilistyczne przewidywanie kolejnego słowa, co przy braku odpowiednich danych prowadzi do „zmyślania” faktów. Dla biznesu halucynacje to nie tylko błąd techniczny, ale realne ryzyko prawne i finansowe, czego dowodem są sankcje dla prawników za cytowanie nieistniejących spraw wygenerowanych przez ChatGPT. Zrozumienie, że halucynacje są cechą, a nie tylko błędem systemu, jest kluczowe dla bezpiecznego wdrażania AI w architekturze korporacyjnej.
Architektura i bodźce: systemowe źródła błędu
Problem halucynacji ma głębokie korzenie w samej architekturze Transformerów. Badania dowodzą, że pojedyncza warstwa uwagi (attention layer) ma fundamentalne trudności z operacją „składania funkcji” (function composition), np. poprawnym ustaleniem daty urodzenia ojca danej osoby na podstawie dwóch oddzielnych faktów, jeśli domeny danych są zbyt duże. Co więcej, Transformer należy do klasy złożoności logspace-uniform TC0, co oznacza ograniczenia w pamięci roboczej przy rozwiązywaniu zadań wymagających głębokiego rozumowania sekwencyjnego.
Kolejnym czynnikiem jest system motywacyjny modeli. Obecne metody treningowe i benchmarki penalizują odpowiedzi typu „nie wiem”, co zmusza modele do zgadywania (bluffing) zamiast przyznania się do niepewności. Reinforcement Learning from Human Feedback (RLHF) często wzmacnia to zjawisko, ponieważ ludzcy recenzenci mają tendencję do oceniania wyżej odpowiedzi brzmiących pewnie i elokwentnie, nawet jeśli są one merytorycznie błędne.
Jakość danych a wskaźnik błędów
Jakość danych treningowych ma bezpośredni wpływ na częstotliwość występowania błędów. Eksperymenty wykazują drastyczne różnice: model GPT-3.5 trenowany na wyselekcjonowanych, wysokiej jakości danych osiąga wskaźnik halucynacji na poziomie 3,2%, podczas gdy przy danych zaszumionych (noisy data) wskaźnik ten rośnie aż do 19,4%. Podobne zależności zaobserwowano dla modeli LLaMA 2 oraz Claude.
Wyróżniamy dwa główne typy tych błędów: Halucynacje wewnętrzne (intrinsic): gdy model błędnie interpretuje dane wejściowe, np. tworząc nieprawidłowe streszczenie dostarczonego tekstu. Halucynacje zewnętrzne (extrinsic): gdy model fabrykuje informacje niemające żadnego oparcia w faktach lub źródłach, np. zmyślając bibliografię naukową.
Szczególnie narażone na te błędy są zapytania o fakty niszowe, bardzo świeże lub dotyczące osób mało znanych, gdzie model nie posiada wystarczającej bazy informacji i „uzupełnia” braki w sposób probabilistyczny.
Strategie mitygacji i wnioski dla biznesu
Całkowite wyeliminowanie halucynacji w modelach probabilistycznych jest obecnie niemożliwe, dlatego celem powinno być zarządzanie „skalibrowaną niepewnością”. W praktyce architektonicznej należy stosować następujące podejścia:
- RAG z weryfikacją na poziomie fraz (span-level): Tradycyjny Retrieval-Augmented Generation to za mało; nowoczesne systemy muszą sprawdzać każde wygenerowane twierdzenie pod kątem zgodności z odnalezionym źródłem.
- Uczenie odmowy: Modele takie jak Claude są trenowane, aby preferować szczerość („nie wiem”) nad pomocność za wszelką cenę, co redukuje ryzyko pewnego siebie kłamstwa.
- Weryfikacja wewnętrzna (CLAP): Wykorzystanie lekkich klasyfikatorów analizujących aktywacje warstw modelu w czasie rzeczywistym, aby wykryć potencjalną halucynację przed wyświetleniem jej użytkownikowi.
Podstawową zasadą dla profesjonalistów pozostaje korzystanie z AI wyłącznie w domenach, w których sami są ekspertami – pozwala to na natychmiastowe wychwycenie anomalii w generowanym tekście. AI nie powinno „myśleć” za użytkownika, lecz jedynie przyspieszać pracę osoby zdolnej do merytorycznej weryfikacji wyników.

Dodaj komentarz