Kup Krypto Rynki Spot FuturesGOLD Earn Centrum wydarzeń

Więcej

DeepSeek-R1 halucynuje w 14,3% przypadków według Vectara, 4 razy częściej niż V3. Dane te sygnalizują ryzyko dla tokenów agentów AI w kryptowalutach. BeInCryptoDeepSeek-R1 halucynuje w 14,3% przypadków według Vectara, 4 razy częściej niż V3. Dane te sygnalizują ryzyko dla tokenów agentów AI w kryptowalutach. BeInCrypto

DeepSeek-R1 halucynuje 4 razy częściej niż V3, co budzi poważne obawy dotyczące tokenów agentów AI w krypto

Źródło: Beincrypto PL

2026/05/12 04:03

3 min. lektury

Udostępnij

W$0.01643+3.39%

4$0.01285-5.87%

AI$0.03402-12.72%

W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

DeepSeek-R1, flagowy model rozumujący od chińskiego laboratorium DeepSeek, halucynuje na poziomie 14,3% według benchmarku HHEM 2.1 od Vectara. To prawie cztery razy więcej niż jego nierozumujący poprzednik DeepSeek-V3, który osiągnął 3,9%.

Ta różnica stawia trudne pytania przed sektorem kryptowalut. Szybko rosnąca grupa tokenów agentów AI opiera się teraz na rozumujących modelach LLM do automatycznego handlu, sygnałów i realizacji na blockchainie.

Dane Vectara pokazują, że R1 „nadmiernie pomaga” fałszywymi faktami

Vectara przepuściła oba modele DeepSeek przez HHEM 2.1, swoje dedykowane narzędzie do oceny halucynacji. Zespół porównał też wyniki metodologią FACTS od Google. R1 w każdej konfiguracji generował więcej fałszywych lub niepopartych stwierdzeń niż V3.

Przyczyna nie leży tylko w głębokości rozumowania. Analitycy Vectara odkryli, że R1 ma tendencję do „nadmiernej pomocy”. Model dodaje informacje, których nie ma w źródłowym tekście.

Te dodatkowe szczegóły mogą być same w sobie prawdziwe, ale nadal liczą się jako halucynacje. Takie zachowanie przemyca wymyślony kontekst do poprawnych odpowiedzi.

Vectara opisała ten wniosek w publicznym wpisie na X.

To zjawisko nie dotyczy tylko DeepSeek. Obserwatorzy branży zauważają taką samą zależność we wszystkich modelach rozumujących z innych laboratoriów. Uczenie ze wzmocnieniem, które wzmacnia łańcuch myśli, promuje też śmielsze i bardziej pewne generowanie odpowiedzi.

Dlaczego kryptowalutowe tokeny AI mierzą się z tym kompromisem

Na rynku kryptowalut są już setki tokenów agentów AI, na czele z Virtuals Protocol (VIRTUAL), ai16z (AI16Z) i aixbt (AIXBT).

Kategoria zanotowała około 39,4% wzrostu w ostatnich 30 dniach. Virtuals samodzielnie przekroczył 576 mln USD kapitalizacji rynkowej.

Wyniki ceny Virtuals Protocol (VIRTUAL). Źródło: Coingecko

Większość tych agentów korzysta z dużego modelu językowego z dodatkowymi narzędziami. Te narzędzia pozwalają agentowi publikować posty w mediach społecznościowych, zawierać transakcje, mintować tokeny czy tworzyć komentarze rynkowe.

Jeśli model wymyśli poziom ceny, partnerstwo lub adres kontraktu, skutki mogą przenieść się na blockchain.

Jedna analiza BeInCrypto na temat AIXBT pokazała, że agent promował 416 tokenów ze średnią stopą zwrotu 19%. To samo mechaniczne działanie jednak naraża obserwujących na złe decyzje, gdy model się myli.

Ryzyko rośnie wraz z autonomią. Agenci działający tylko do odczytu i podsumowujący sentyment różnią się od tych, którzy mają klucze do skarbców.

Modele rozumujące są szczególnie atrakcyjne dla agentów planujących kilka kroków do przodu. To właśnie w tym zastosowaniu 14,3% z badania Vectara jest najbardziej problematyczne.

Jedno wymyślone “faktyczne” zdarzenie na początku łańcucha myśli może wpłynąć na wszystkie późniejsze decyzje.

LeCun uważa, że problem ma charakter architektoniczny

Yann LeCun, główny naukowiec AI w Meta, od dawna twierdzi, że autoregresywne LLM-y nie mogą całkowicie pozbyć się halucynacji. Według niego architektura modelu nie posiada ugruntowanej wiedzy o świecie.

Uczenie ze wzmocnieniem w ramach łańcucha myśli może maskować ten problem na ograniczonych obszarach jak matematyka czy programowanie. Jednak pierwotna przyczyna pozostaje.

Inne wiodące laboratoria mają odmienne zdanie. Wskazują na systematyczny postęp w ograniczaniu halucynacji dzięki uzupełnianiu wiedzy z zewnątrz, dostrajaniu po treningu czy modelom weryfikującym. Jednak relacje programistów często potwierdzają dane z rankingów.

Badacz AI xlr8harder, pisząc na X o debugowaniu R1, podsumował codzienną praktykę.

Dla deweloperów agentów kryptowalutowych praktyczne pytanie dotyczy zarządzania ryzykiem, a nie filozofii architektury. Rozwiązania, które każdą odpowiedź modelu weryfikują, mogą wypadać lepiej.

Podobnie jest z agentami korzystającymi z mniejszych, konserwatywnych modeli przy działaniu na finansach.

Nadchodzące cykle rankingowe i następcy R1 pokażą, czy kompromis między rozumowaniem i precyzją się zmniejsza.

Na razie różnica między 14,3% a 3,9% to detal operacyjny warty obserwacji. Może oddzielić tokeny agentów AI oferujących działające produkty od tych przedstawiających tylko obietnice.

BeInCrypto Polska - DeepSeek-R1 halucynuje 4 razy częściej niż V3, co budzi poważne obawy dotyczące tokenów agentów AI w krypto

Okazja rynkowa

Cena Wormhole(W)

$0.01643

$0.01643$0.01643

+5.59%

USD

Wormhole (W) Wykres Ceny na Żywo

200,000 USDT Prize Pool

Trade gold, silver & oil. Everyone wins.

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.