Architektura in-memory compute rzuca wyzwanie Nvidii. Brytyjski Fractile idzie po 200 mln dolarów i status jednorożca

Rynek akceleratorów AI wchodzi w fazę brutalnej optymalizacji kosztów inferencji, a monopol Nvidii zaczyna pękać pod ciężarem fizycznych ograniczeń przesyłu danych. Londyński startup Fractile, wyceniający się właśnie na miliard dolarów, udowadnia, że przyszłość wielkich modeli językowych leży w architekturze in-memory compute. Dla dyrektorów IT i architektów systemów oznacza to potencjalny spadek kosztów serwowania AI nawet o 90 procent przy jednoczesnym drastycznym spadku opóźnień.

BIT: Fundament Technologiczny

Jako architekt systemów z wieloletnim stażem, wielokrotnie zderzałem się z tzw. „ścianą pamięci” (memory wall). W klasycznych klastrach opartych na układach Nvidia H100 czy B200, wąskim gardłem nie jest sama moc obliczeniowa, ale konieczność nieustannego przerzucania terabajtów wag modeli między pamięcią HBM a rdzeniami przetwarzającymi. Fractile rozwiązuje ten problem u samej podstawy, stosując architekturę in-memory compute. Zamiast przesyłać dane, brytyjscy inżynierowie zintegrowali niestandardowe obwody mnożąco-akumulujące (MAC) bezpośrednio z komórkami pamięci, co pozwala na wykonanie 99,99 proc. operacji inferencyjnych bez opuszczania układu.

Pod maską tego rozwiązania kryje się potężny, wektorowy procesor RISC-V (Andes AX45MPV), rozszerzony o instrukcje ACE (Andes Automated Custom Extension). Taki stos technologiczny pozwala na sprzętowe wsparcie dla operacji na macierzach i wektorach (GEMV), co jest kluczowe dla serwowania modeli transformatorowych. Eliminacja opóźnień na magistralach komunikacyjnych drastycznie podnosi wskaźnik TOPS/W (Tera Operations Per Second per Watt). W efekcie system jest w stanie wygenerować tysiące tokenów na sekundę dla tysięcy współbieżnych użytkowników, omijając ograniczenia, z którymi borykają się tradycyjne klastry GPU.

BIZ: Przewaga Rynkowa i ROI

Z perspektywy biznesowej, technologia Fractile to obietnica potężnego zwrotu z inwestycji (ROI) dla centrów danych i dostawców usług chmurowych. Obecnie koszty inferencji (serwowania modeli) zaczynają drastycznie przewyższać koszty ich trenowania. Zastosowanie układów in-memory compute ma docelowo pozwolić na uruchamianie modeli granicznych (frontier models) do 100 razy szybciej, przy zaledwie jednej dziesiątej kosztów infrastruktury opartej na GPU. Dla firm skalujących rozwiązania oparte na LLM-ach, oznacza to gigantyczną poprawę marżowości i możliwość obsługi znacznie dłuższego okna kontekstowego bez rujnowania budżetu operacyjnego.

Rynek VC doskonale rozumie tę matematykę. Po zamknięciu rundy Seed na 15 mln dolarów i Serii A na 22,5 mln dolarów (z udziałem m.in. NATO Innovation Fund i Oxford Science Enterprises), Fractile negocjuje obecnie potężny zastrzyk kapitału rzędu 200 mln dolarów. Rozmowy z funduszem Accel przy wycenie na poziomie 1 mld dolarów (status jednorożca) potwierdzają, że inwestorzy szukają alternatyw dla drogiego sprzętu Nvidii. Dodatkowo, w dobie rosnącej presji na raportowanie ESG i optymalizację zużycia energii w data center, układy o tak wysokiej efektywności energetycznej stają się nie tylko przewagą technologiczną, ale i wymogiem rynkowym.

  • Przejście od skalowania parametrów do „inference scaling” wymusza na rynku poszukiwanie radykalnie tańszych i szybszych architektur sprzętowych, co otwiera drzwi dla graczy takich jak Fractile.
  • Zależność Europy od amerykańskich dostawców krzemu maleje dzięki lokalnym innowacjom opartym na otwartym standardzie RISC-V, co wpisuje się w unijną strategię suwerenności technologicznej.

Redakcja BitBiz przy opracowywaniu tego materiału korzystała z narzędzi wspomagających analizę danych. Tekst został w całości zweryfikowany i zredagowany przez BitBiz.pl

💬 Kliknij tutaj, aby dodać komentarz

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *