DeepSeek-R1, flagowy model rozumujący od chińskiego laboratorium DeepSeek, halucynuje na poziomie 14,3% według benchmarku HHEM 2.1 od Vectara. To prawie cztery razy więcej niż jego nierozumujący poprzednik DeepSeek-V3, który osiągnął 3,9%.
Ta różnica stawia trudne pytania przed sektorem kryptowalut. Szybko rosnąca grupa tokenów agentów AI opiera się teraz na rozumujących modelach LLM do automatycznego handlu, sygnałów i realizacji na blockchainie.
Vectara przepuściła oba modele DeepSeek przez HHEM 2.1, swoje dedykowane narzędzie do oceny halucynacji. Zespół porównał też wyniki metodologią FACTS od Google. R1 w każdej konfiguracji generował więcej fałszywych lub niepopartych stwierdzeń niż V3.
Przyczyna nie leży tylko w głębokości rozumowania. Analitycy Vectara odkryli, że R1 ma tendencję do „nadmiernej pomocy”. Model dodaje informacje, których nie ma w źródłowym tekście.
Te dodatkowe szczegóły mogą być same w sobie prawdziwe, ale nadal liczą się jako halucynacje. Takie zachowanie przemyca wymyślony kontekst do poprawnych odpowiedzi.
Vectara opisała ten wniosek w publicznym wpisie na X.
To zjawisko nie dotyczy tylko DeepSeek. Obserwatorzy branży zauważają taką samą zależność we wszystkich modelach rozumujących z innych laboratoriów. Uczenie ze wzmocnieniem, które wzmacnia łańcuch myśli, promuje też śmielsze i bardziej pewne generowanie odpowiedzi.
Na rynku kryptowalut są już setki tokenów agentów AI, na czele z Virtuals Protocol (VIRTUAL), ai16z (AI16Z) i aixbt (AIXBT).
Kategoria zanotowała około 39,4% wzrostu w ostatnich 30 dniach. Virtuals samodzielnie przekroczył 576 mln USD kapitalizacji rynkowej.
Większość tych agentów korzysta z dużego modelu językowego z dodatkowymi narzędziami. Te narzędzia pozwalają agentowi publikować posty w mediach społecznościowych, zawierać transakcje, mintować tokeny czy tworzyć komentarze rynkowe.
Jeśli model wymyśli poziom ceny, partnerstwo lub adres kontraktu, skutki mogą przenieść się na blockchain.
Jedna analiza BeInCrypto na temat AIXBT pokazała, że agent promował 416 tokenów ze średnią stopą zwrotu 19%. To samo mechaniczne działanie jednak naraża obserwujących na złe decyzje, gdy model się myli.
Ryzyko rośnie wraz z autonomią. Agenci działający tylko do odczytu i podsumowujący sentyment różnią się od tych, którzy mają klucze do skarbców.
Modele rozumujące są szczególnie atrakcyjne dla agentów planujących kilka kroków do przodu. To właśnie w tym zastosowaniu 14,3% z badania Vectara jest najbardziej problematyczne.
Jedno wymyślone “faktyczne” zdarzenie na początku łańcucha myśli może wpłynąć na wszystkie późniejsze decyzje.
Yann LeCun, główny naukowiec AI w Meta, od dawna twierdzi, że autoregresywne LLM-y nie mogą całkowicie pozbyć się halucynacji. Według niego architektura modelu nie posiada ugruntowanej wiedzy o świecie.
Uczenie ze wzmocnieniem w ramach łańcucha myśli może maskować ten problem na ograniczonych obszarach jak matematyka czy programowanie. Jednak pierwotna przyczyna pozostaje.
Inne wiodące laboratoria mają odmienne zdanie. Wskazują na systematyczny postęp w ograniczaniu halucynacji dzięki uzupełnianiu wiedzy z zewnątrz, dostrajaniu po treningu czy modelom weryfikującym. Jednak relacje programistów często potwierdzają dane z rankingów.
Badacz AI xlr8harder, pisząc na X o debugowaniu R1, podsumował codzienną praktykę.
Dla deweloperów agentów kryptowalutowych praktyczne pytanie dotyczy zarządzania ryzykiem, a nie filozofii architektury. Rozwiązania, które każdą odpowiedź modelu weryfikują, mogą wypadać lepiej.
Podobnie jest z agentami korzystającymi z mniejszych, konserwatywnych modeli przy działaniu na finansach.
Nadchodzące cykle rankingowe i następcy R1 pokażą, czy kompromis między rozumowaniem i precyzją się zmniejsza.
Na razie różnica między 14,3% a 3,9% to detal operacyjny warty obserwacji. Może oddzielić tokeny agentów AI oferujących działające produkty od tych przedstawiających tylko obietnice.
BeInCrypto Polska - DeepSeek-R1 halucynuje 4 razy częściej niż V3, co budzi poważne obawy dotyczące tokenów agentów AI w krypto


