System RAG, zaprojektowany do ułatwienia analitykom dostępu do danych, okazał się zawodny w obliczu rzeczywistych danych produkcyjnych, generując błędne odpowiedzi, które mogłyby prowadzić do kosztownych decyzji biznesowych. Problem tkwił w nieaktualnej i rozproszonej wiedzy instytucjonalnej, stanowiącej kluczowy element działania systemu.
BIT
System RAG (Retrieval-Augmented Generation) opiera się na zdolności do wyszukiwania i syntezy informacji z zewnętrznych źródeł danych w celu generowania odpowiedzi. W opisywanym przypadku, źródła te obejmowały strony w Confluence, wątki na Slacku oraz słowniki danych. Kluczowym problemem technicznym była jakość i aktualność tych danych. Strony Confluence nie były aktualizowane od dwóch lat, co oznaczało, że zawarte w nich informacje mogły być przestarzałe lub niekompletne. Wątki na Slacku, znikające po 90 dniach, stanowiły źródło informacji o krótkim cyklu życia, co uniemożliwiało długoterminowe wykorzystanie wiedzy. Słowniki danych, z natury rzeczy, były zawsze niekompletne, co dodatkowo utrudniało systemowi RAG precyzyjne zrozumienie kontekstu i znaczenia danych. Architektura systemu RAG, choć teoretycznie solidna, napotkała na fundamentalne wyzwanie związane z 'brudnymi’ i niezarządzanymi danymi źródłowymi. Brak mechanizmów walidacji i wersjonowania danych w Confluence oraz polityka retencji danych na Slacku stanowiły wektory potencjalnych błędów. System mógł generować odpowiedzi oparte na nieaktualnych definicjach, przestarzałych procesach lub danych, które już nie istniały, co prowadziło do 'halucynacji’ systemu w kontekście rzeczywistego stanu danych.
Brakowało mechanizmów zapewniających spójność i dokładność danych wejściowych dla modelu RAG. W typowej architekturze RAG, dane są indeksowane i przechowywane w wektorowej bazie danych, która następnie jest przeszukiwana przez model językowy. W tym przypadku, jakość indeksowanych danych była niska z powodu ich nieaktualności i niekompletności. Można przypuszczać, że proces ekstrakcji i transformacji danych (ETL) był niewystarczający lub nie uwzględniał dynamicznego charakteru informacji w organizacji. Bez solidnego pipeline’u danych, który zapewniałby czyszczenie, deduplikację i aktualizację informacji, system RAG jest skazany na generowanie błędnych wyników. Potencjalne wektory ataków lub błędów mogły obejmować: podatność na 'zatrucie danych’ (data poisoning), gdzie nieprawidłowe lub złośliwe informacje wprowadzone do źródeł mogłyby zostać przez system RAG uznane za wiarygodne; błędy wynikające z niejednoznaczności terminologicznej, gdy te same terminy były używane w różnych kontekstach lub miały różne znaczenia w nieaktualnych dokumentach; oraz błędy wynikające z braku kontekstu historycznego, gdy system nie był w stanie odtworzyć ewolucji danych lub procesów.
BIZ
Zastosowanie systemu RAG miało na celu zwiększenie efektywności zespołu analitycznego i usprawnienie procesu podejmowania decyzji przez interesariuszy. Jednakże, jak pokazuje opisany przypadek, błędy generowane przez system mogłyby mieć poważne konsekwencje finansowe. Działanie w oparciu o nieprawidłowe dane analityczne mogłoby prowadzić do błędnych prognoz sprzedaży, nieoptymalnych alokacji budżetowych, nieefektywnych strategii marketingowych lub błędnych decyzji produktowych. Koszt tych błędów mógłby być liczony w milionach, zwłaszcza w przypadku dużych organizacji. W kontekście polskiego i europejskiego rynku IT, gdzie coraz większy nacisk kładzie się na wykorzystanie danych do napędzania wzrostu, takie awarie systemów analitycznych są szczególnie niebezpieczne. Przepisy takie jak RODO (GDPR) wymagają precyzyjnego zarządzania danymi osobowymi, a błędy w analizie danych mogłyby prowadzić do naruszeń tych regulacji. Nadchodzący AI Act wprowadza dodatkowe wymogi dotyczące systemów opartych na sztucznej inteligencji, w tym systemów RAG, wymagając od nich transparentności, dokładności i bezpieczeństwa. Niewłaściwie działający system RAG mógłby zostać uznany za niezgodny z tymi regulacjami.
Strategia zarządów firm coraz częściej opiera się na danych, a inwestycje w narzędzia analityczne i AI rosną. Wyceny firm technologicznych, w tym tych oferujących rozwiązania AI, są wysokie, co sugeruje oczekiwania rynku co do zwrotu z inwestycji. Jednakże, jak pokazuje ten przykład, sama technologia nie wystarczy. Kluczowa jest jakość danych i procesów zarządzania wiedzą. W Polsce, rynek IT dynamicznie się rozwija, a firmy coraz chętniej wdrażają rozwiązania oparte na AI. Jednakże, często brakuje im dojrzałości w zakresie zarządzania danymi, co może prowadzić do podobnych problemów. Wdrożenie systemu RAG bez uprzedniego uporządkowania i ustrukturyzowania wiedzy instytucjonalnej jest jak budowanie domu na piasku. Koszt utrzymania nieaktualnych baz wiedzy, brak jasnych procedur aktualizacji i brak odpowiedzialności za jakość danych przekładają się na realne straty finansowe i utratę przewagi konkurencyjnej. Adopcja takich systemów wymaga nie tylko inwestycji technologicznych, ale przede wszystkim strategicznego podejścia do zarządzania informacją w organizacji.
Redakcja BitBiz przy opracowywaniu tego materiału korzystała z narzędzi wspomagających analizę danych. Tekst został w całości zweryfikowany i zredagowany przez BitBiz.pl
#rag #ai #analizadanych #zarządzaniewiedzą #confluence #slack

Dodaj komentarz